Etienne Grass
A contre-courant de l'effervescence ambiante, une étude de Stanford conclut que les capacités émergentes des modèles de langage (LLM) sont encore un mirage.
En décembre dernier, à la Nouvelle-Orléans, se tenait le NeurIPS, cette grande conférence qui est devenue depuis vingt ans la Mecque de la data science mondiale. Parmi la poignée de papiers distingués à cette occasion, une étude est à contre-courant de l'effervescence ambiante sur les modèles de langage (LLM) : portée par trois jeunes chercheurs de Stanford, elle cloue au pilori l'ensemble des précédents papiers qui concluaient à l'existence de « facultés émergentes » de ces modèles d'IA.
Elle met ainsi en évidence un biais dans le choix de la métrique utilisée chaque fois que l'émergence semble démontrée ; lorsque l'on redresse ce biais, l'hypothèse de l'émergence fond comme neige au soleil. C'est encore un « mirage », conclut l'étude.
Raisonnements abstraits
« Emergence », de quoi parle-t-on ? Le concept est issu de la science des systèmes, depuis les travaux du prix Nobel de physique Philip Anderson en 1972, qui a montré qu'il existe une « symétrie cassée » entre les différentes branches des sciences, laquelle crée des non-linéarités. Pour simplifier, quand la complexité d'un système s'accroît, un point de bascule peut être franchi à l'issue duquel ce système nous échappe. Ce point doit être contrôlé, un peu comme le robot HAL 9000 imaginé dans « 2001, l'odyssée de l'espace » par Stanley Kubrik.
Un LLM ne sait rien. Il n'a pas de croyance. Il n'a surtout pas d'intention. Et il est grand temps de débarrasser l'IA de son verbiage anthropomorphique. Mais l'émergence est une possibilité scientifique, qu'il faut observer. Des tests ont d'ailleurs fait florès pour détecter ces « facultés émergentes ». Ils suivent une particulière acuité imprévue des modèles (« sharpness ») et leur imprévisibilité (« unpredictability »).
En mai dernier, faisant le tour des performances de ChatGPT-4, les chercheurs de Microsoft ont considéré ainsi que ce modèle a atteint une « forme d'intelligence artificielle générale ». Il est en effet capable de généraliser des concepts et de suivre des raisonnements mathématiques abstraits. Ceux d'Anthropic ont pointé la semaine passée le risque d'un « empoisonnement des modèles », à l'origine d'un « comportement stratégique déshonnête » de leur part. Mais d'émergence il n'y en a point, nous dit Stanford. Ce qui veut dire que ces comportements peuvent être mis sous contrôle.
La recherche sur les benchmarks des LLM sera le grand sujet de l'IA en 2024. Il ne doit pas être traité dans le cercle étroit des congrès. L'étude de Stanford s'appuie sur le « BIG bench », une base de 200 tests qui a été conçue pour voir si le fameux test de Turing est franchi (BIG pour « Beyond the Imitation Game »). D'autres benchmarks sont conçus plus spécifiquement pour évaluer la capacité d'un modèle à interpoler (« MMNU »), à produire du code informatique (« HumanEval »), à converser (« Chatbot Arena » ou « MTBench »), à résoudre de façon autonome des problèmes abstraits (« SWEBench » ou « ARC ») ou à exprimer du bon sens (« HellaSwag »). Une entreprise créée par trois Français, Hugging Face, est devenue la plateforme mondiale de ces benchmarks. Elle sera centrale en 2024.
Comentarios