jeudi 8 août 2024

Des chercheurs en IA s’inquiètent de l’effondrement des modèles

Dans certains secteurs de l’industrie technologique, on croit fermement que l’entraînement des systèmes d’intelligence artificielle sur de plus grandes quantités de données en ligne permettra à ces outils de s’améliorer au fil du temps, au point de surpasser les humains dans l’exécution de certaines tâches.
Mais un nouvel article de recherche jette un doute sur cette approche et tire la sonnette d’alarme sur ce qui pourrait être une faille fatale dans la manière dont les systèmes d’intelligence artificielle sont développés. Dans cet article, publié par la revue Nature en juillet, les chercheurs constatent que lorsque les modèles d’IA sont entraînés sur des données comprenant du contenu généré par l’IA – ce qui sera probablement de plus en plus fréquent – ils finissent par voir leurs performances se dégrader, un phénomène appelé “effondrement du modèle“.

Ces conclusions s’ajoutent au scepticisme croissant quant à la trajectoire à long terme de l’IA et interviennent à un moment où Wall Street se demande déjà si les investissements massifs des grandes entreprises technologiques dans le développement de l’IA finiront par porter leurs fruits.

Qu’est-ce que l’effondrement des modèles ?

Les chatbots d’IA tels que ChatGPT sont alimentés par de grands modèles de langage formés sur une quantité presque inconcevable de données (des milliers de milliards de mots, dans certains cas) tirées de pages web, d’articles, de sections de commentaires et plus encore. Grâce à ces vastes ensembles de données, les entreprises spécialisées dans l’IA ont pu créer des produits capables de fournir des réponses étonnamment pertinentes aux requêtes des utilisateurs.

Toutefois, certains observateurs de l’IA craignent que ces modèles finissent par perdre en précision et par s’effondrer s’ils sont entraînés sur des contenus générés par l’IA plutôt que par des êtres humains. Un article publié en 2023 sur l’effondrement des modèles a montré que les images d’humains produites par l’IA se déformaient de plus en plus après que le modèle ait été entraîné à nouveau sur “même de petites quantités de leur propre création“. Les chercheurs ont comparé ce phénomène à un système d’IA “empoisonné” par son propre travail.

Quelles sont les conclusions du nouvel article ?

Dans le nouvel article de Nature, des chercheurs d’Oxford, de Cambridge et d’autres universités ont constaté que les modèles d’IA formés à partir de contenus générés par l’IA produisent des résultats non désirés et potentiellement absurdes. Comme l’expliquent les chercheurs, les erreurs d’un modèle sont exacerbées par le modèle suivant, ce qui éloigne l’IA de la réalité jusqu’à ce que les résultats deviennent essentiellement du charabia.

Dans un exemple, les auteurs ont montré qu’une recherche sur l’architecture historique britannique se transformait en une discussion incompréhensible sur les lièvres lorsqu’elle était introduite dans un grand modèle de langage qui avait été entraîné plusieurs fois avec du contenu généré par l’IA. [1]

Nous démontrons que [l’effondrement du modèle] doit être pris au sérieux si nous voulons conserver les avantages de la formation à partir de données à grande échelle extraites du web“, écrivent les chercheurs dans l’étude.

Quelle est l’ampleur du risque d’effondrement du modèle ?

Bien que l’effondrement des modèles reste largement une préoccupation théorique, l’article de Nature note que les futurs modèles d’IA “s’entraîneront inévitablement à partir de données produites par leurs prédécesseurs“, à mesure que les écrits et les images générés par l’IA se répandent sur le web et s’infiltrent dans les ensembles de données en ligne.

Des entreprises technologiques, dont Meta, Google et Anthropic, ont également expérimenté l’entraînement de modèles sur des données dites “synthétiques“, qu’elles créent à l’aide de l’IA générative. En théorie, l’option synthétique permet aux entreprises d’IA de répondre à leur besoin incessant de données tout en évitant les problèmes juridiques, éthiques et de protection de la vie privée liés à la collecte d’informations sur divers sites web. Mais la perspective de l’effondrement du modèle pourrait mettre à mal ces projets.

Existe-t-il une solution ?

Les conclusions de l’article ne font que renforcer l’urgence pour les entreprises d’IA d’obtenir l’accès à des données de haute qualité générées par des êtres humains, mais cela peut s’avérer coûteux. OpenAI, le fabricant de ChatGPT, a dépensé des millions de dollars pour conclure des partenariats avec des éditeurs tels que News Corp. et Axel Springer SE afin d’obtenir la licence de leur contenu pour entraîner ses modèles. Il n’est pas certain non plus que ces données suffisent à répondre aux besoins des entreprises technologiques.

Selon les chercheurs, il est vital pour les développeurs d’IA de préserver l’accès à des données d’entraînement originales qui n’ont pas été polluées par du contenu d’IA. Mais il n’existe pas de moyen facile de suivre le contenu généré par l’IA à grande échelle. À cette fin, les chercheurs suggèrent que ceux qui élaborent des modèles d’IA travaillent à une “coordination à l’échelle de la communauté” afin de comprendre la provenance des données qu’ils explorent en ligne.


Par Evan Gorelick – Le 6 août 2024 – Bloomberg

Via le Saker Francophone.

--------------------------------------------

[1]  Pourquoi cet appauvrissement dans le matériau original survient-il ? La raison principale vient de l’échantillon de texte source. Quand vous utilisez comme source un article original, notamment d’encyclopédie, vous vous retrouvez avec une collection de mots rares que l’IA va être susceptible d’utiliser. Mais avec une génération suivante d’échantillon, vous commencez à perdre la rareté des mots au profit de mots plus courants, qui sont mécaniquement plus nombreux. Jusqu’à finir sur une production textuelle pauvre, qui, en plus d’avoir perdu en vocabulaire, enchaîne de plus en plus les erreurs.  « le modèle finit par n’apprendre que des erreurs ».

En fin de compte, l'importance de l'intégrité des données et l'influence de l'information humaine sur l'IA ne valent que ce que valent les données dont elles sont issues, et l'explosion du contenu généré par l'IA pourrait finir par être une arme à double tranchant pour l'industrie. C'est le principe du "garbage in, garbage out" (GIGO) - l'IA basée sur le contenu de l'IA conduira à un grand nombre de machines "très intelligentes, mais délirantes".L’entrainement sur des données synthétiques, talon d’Achille de l’IA générative

VOIR AUSSI :

L’IA peut-elle tuer l’âme russe ?

Intelligence artificielle? ou hallucinations artificielles ?

Définition de l’IA et théorie générale des plateformes numériques. Par F.Chesnais

L'intelligence artificielle dans le monde russe

L’IA peut-elle diriger le monde ?

Hannibal Genséric

3 commentaires:

  1. L'IA pour moi, c'est de la poudre aux yeux, comme les fusées de la NASA qui vont s'écraser dans l'océan pacifique.

    RépondreSupprimer
    Réponses
    1. On appelle IA de l’algorithmie sur des modèles de donnée supérieures. Rien de plus.
      Après, l'informatique générative (ou IA générative) ne peut avoir la puissance de l'esprit humain.
      Cela ne peut être efficace que pour automatiser, pas pour penser.
      C'est une très bonne nouvelle qu'ils commencent à s'en apercevoir.

      Supprimer
    2. YVES..... Autrement dit vous n'y connaissez RIEN en la matière..........Rassurez vous 99,9999% des gens sont comme vous!

      Supprimer

Les commentaires hors sujet, ou comportant des attaques personnelles ou des insultes seront supprimés. Les auteurs des écrits publiés en sont les seuls responsables. Leur contenu n'engage pas la responsabilité de ce blog ou de Hannibal Genséric.