Ces conclusions s’ajoutent au scepticisme croissant quant à la trajectoire à long terme de l’IA et interviennent à un moment où Wall Street se demande déjà si les investissements massifs des grandes entreprises technologiques dans le développement de l’IA finiront par porter leurs fruits.
Qu’est-ce que l’effondrement des modèles ?
Les chatbots d’IA tels que ChatGPT sont alimentés par de grands modèles de langage formés sur une quantité presque inconcevable de données (des milliers de milliards de mots, dans certains cas) tirées de pages web, d’articles, de sections de commentaires et plus encore. Grâce à ces vastes ensembles de données, les entreprises spécialisées dans l’IA ont pu créer des produits capables de fournir des réponses étonnamment pertinentes aux requêtes des utilisateurs.
Toutefois, certains observateurs de l’IA craignent que ces modèles finissent par perdre en précision et par s’effondrer s’ils sont entraînés sur des contenus générés par l’IA plutôt que par des êtres humains. Un article publié en 2023 sur l’effondrement des modèles a montré que les images d’humains produites par l’IA se déformaient de plus en plus après que le modèle ait été entraîné à nouveau sur “même de petites quantités de leur propre création“. Les chercheurs ont comparé ce phénomène à un système d’IA “empoisonné” par son propre travail.
Quelles sont les conclusions du nouvel article ?
Dans le nouvel article de Nature, des chercheurs d’Oxford, de Cambridge et d’autres universités ont constaté que les modèles d’IA formés à partir de contenus générés par l’IA produisent des résultats non désirés et potentiellement absurdes. Comme l’expliquent les chercheurs, les erreurs d’un modèle sont exacerbées par le modèle suivant, ce qui éloigne l’IA de la réalité jusqu’à ce que les résultats deviennent essentiellement du charabia.
Dans un exemple, les auteurs ont montré qu’une recherche sur
l’architecture historique britannique se transformait en une discussion
incompréhensible sur les lièvres lorsqu’elle était introduite dans un
grand modèle de langage qui avait été entraîné plusieurs fois avec du
contenu généré par l’IA. [1]
“Nous démontrons que [l’effondrement du modèle] doit être pris au sérieux si nous voulons conserver les avantages de la formation à partir de données à grande échelle extraites du web“, écrivent les chercheurs dans l’étude.
Quelle est l’ampleur du risque d’effondrement du modèle ?
Bien que l’effondrement des modèles reste largement une préoccupation théorique, l’article de Nature note que les futurs modèles d’IA “s’entraîneront inévitablement à partir de données produites par leurs prédécesseurs“, à mesure que les écrits et les images générés par l’IA se répandent sur le web et s’infiltrent dans les ensembles de données en ligne.
Des entreprises technologiques, dont Meta, Google et Anthropic, ont également expérimenté l’entraînement de modèles sur des données dites “synthétiques“, qu’elles créent à l’aide de l’IA générative. En théorie, l’option synthétique permet aux entreprises d’IA de répondre à leur besoin incessant de données tout en évitant les problèmes juridiques, éthiques et de protection de la vie privée liés à la collecte d’informations sur divers sites web. Mais la perspective de l’effondrement du modèle pourrait mettre à mal ces projets.
Existe-t-il une solution ?
Les conclusions de l’article ne font que renforcer l’urgence pour les entreprises d’IA d’obtenir l’accès à des données de haute qualité générées par des êtres humains, mais cela peut s’avérer coûteux. OpenAI, le fabricant de ChatGPT, a dépensé des millions de dollars pour conclure des partenariats avec des éditeurs tels que News Corp. et Axel Springer SE afin d’obtenir la licence de leur contenu pour entraîner ses modèles. Il n’est pas certain non plus que ces données suffisent à répondre aux besoins des entreprises technologiques.
Selon les chercheurs, il est vital pour les développeurs d’IA de préserver l’accès à des données d’entraînement originales qui n’ont pas été polluées par du contenu d’IA. Mais il n’existe pas de moyen facile de suivre le contenu généré par l’IA à grande échelle. À cette fin, les chercheurs suggèrent que ceux qui élaborent des modèles d’IA travaillent à une “coordination à l’échelle de la communauté” afin de comprendre la provenance des données qu’ils explorent en ligne.
Par Evan Gorelick – Le 6 août 2024 – Bloomberg
Via le Saker Francophone.
--------------------------------------------
[1] Pourquoi cet appauvrissement dans le matériau original survient-il ? La raison principale vient de l’échantillon de texte source. Quand vous utilisez comme source un article original, notamment d’encyclopédie, vous vous retrouvez avec une collection de mots rares que l’IA va être susceptible d’utiliser. Mais avec une génération suivante d’échantillon, vous commencez à perdre la rareté des mots au profit de mots plus courants, qui sont mécaniquement plus nombreux. Jusqu’à finir sur une production textuelle pauvre, qui, en plus d’avoir perdu en vocabulaire, enchaîne de plus en plus les erreurs. « le modèle finit par n’apprendre que des erreurs ».
En fin de compte, l'importance de l'intégrité des données et l'influence de l'information humaine sur l'IA ne valent que ce que valent les données dont elles sont issues, et l'explosion du contenu généré par l'IA pourrait finir par être une arme à double tranchant pour l'industrie. C'est le principe du "garbage in, garbage out" (GIGO) - l'IA basée sur le contenu de l'IA conduira à un grand nombre de machines "très intelligentes, mais délirantes".
VOIR AUSSI :
L'IA pour moi, c'est de la poudre aux yeux, comme les fusées de la NASA qui vont s'écraser dans l'océan pacifique.
RépondreSupprimerOn appelle IA de l’algorithmie sur des modèles de donnée supérieures. Rien de plus.
SupprimerAprès, l'informatique générative (ou IA générative) ne peut avoir la puissance de l'esprit humain.
Cela ne peut être efficace que pour automatiser, pas pour penser.
C'est une très bonne nouvelle qu'ils commencent à s'en apercevoir.
YVES..... Autrement dit vous n'y connaissez RIEN en la matière..........Rassurez vous 99,9999% des gens sont comme vous!
Supprimer