Découvrir les secrets de la “soupe primordiale” de ChatGPT

Le chatbot a fait une entrée en scène fracassante en novembre 2022. Il peut rédiger des essais, concevoir des plug-in WordPress et même passer un examen de MBA. Mais les scientifiques ne comprennent toujours pas totalement son fonctionnement. À l’EPFL, un projet a pour but de changer ce paradigme.

Tanya Petersen 13.03.2023

Quelques semaines après son lancement mondial par OpenAI, ChatGPT a atteint 100 millions d’utilisateurs. Il devenait l’application grand public à la croissance la plus rapide de l’Histoire. Deux mois plus tard, Google annonçait la sortie de son IA Bard et, le jour suivant, Microsoft communiquait l’incorporation d’une nouvelle version de GPT dans Bing. Ces puissants programmes d’IA généralistes auront des répercussions sur à peu près tout, de l’éducation à l’emploi — ce qui a conduit le CEO d’OpenAI, Sam Altman, à prédire qu’ils entraîneront la chute du capitalisme. «Il est encore difficile de dire ce que cela représente pour l’humanité, le monde du travail ou nos interactions personnelles», commente Robert West, professeur assistant à la Faculté informatique et communications de l’EPFL.

Ce chercheur travaille sur le traitement du langage naturel avec des réseaux de neurones. Il les décrit comme le substrat des programmes d’IA généralistes. Ces dernières années, l’industrie s’est employée à les rendre de plus en plus massifs, avec une croissance exponentielle. GPT-3 (le modèle langagier central de ChatGPT) compte 175 milliards de paramètres dans son réseau neuronal, tandis que Google en aligne 540 milliards dans PalM. Selon les rumeurs, GPT-4 augmentera le nombre de paramètres de plusieurs ordres de magnitude.

Les dimensions de ces réseaux leur permettent d’effectuer des tâches autrefois inimaginables. Mais, en plus de leurs implications éthiques et sociétales, l’entraînement de programmes aussi massifs induit également des répercussions financières et environnementales.

En 2020 au Danemark, des scientifiques ont estimé que l’entraînement de GPT-3 avait requis une quantité d’énergie équivalente à la consommation de 126 foyers danois. L’empreinte carbone de 700’000 kilomètres en voiture.

Remuer la soupe

«Pour effectuer une simple addition, par exemple 48 +76, un modèle ultramoderne comme GPT-3 a besoin de l’intégralité de ses 175 milliards de paramètres. Avec «seulement» 6 milliards de paramètres, il accomplit un très mauvais travail et se trompe dans 90 % des cas», explique Robert West.

«La cause de cette inefficacité vient de ce que les réseaux neuronaux consistent encore en ce que j’appellerais une «soupe primordiale». Ce ne sont que de longues listes de nombres sans aucun type de structure. Je les considère comme des sortes de bouillons qui débordent de potentiel pour créer une structure», poursuit Robert West.

Son laboratoire de sciences des données s’est récemment vu décerner une Starting Grant du Fonds national suisse, dotée de 1,8 million de francs, pour tenter de résoudre un problème fondamental : transformer les milliards de données non structurées en représentations symboliques claires, grâce à des encodeurs automatisés.

«Dans les modèles de langage courants comme GPT-3, les connaissances sont diluées dans cette «soupe primordiale» de 175 millions de paramètres. On ne peut pas ouvrir la boîte et accéder aux informations stockées. En tant qu’humains, nous ne savons pas ce que sait le modèle, à moins de lui poser la question. Nous ne pouvons donc pas facilement réparer les erreurs, parce que nous ne savons pas ce qui est erroné, explique Robert West. Nous allons appliquer le traitement du langage naturel autosupervisé du texte à la connaissance et dans l’autre sens. L’objectif est de proposer un nouveau paradigme pour un domaine appelé «traitement du langage naturel neuro-symbolique». Un peu comme si on apprivoisait la puissance brute des réseaux neuronaux en la canalisant à travers des représentations symboliques.»

Des neurosciences sur micropuce

Selon Robert West, cette approche ouvrira de nombreux possibles pour la prochaine génération d’IA, comme la correctibilité (en cas de mauvaise réponse il sera possible d’accéder au symbole et de le changer (dans une soupe de 175 milliards de paramètres, il est difficile de savoir où commencer)), l’équité (on pourra améliorer la représentation factuelle des femmes et des minorités, parce que l’information sera auditable) et l’interprétabilité (le modèle pourra expliquer pourquoi il est parvenu à une certaine conclusion, parce qu’il disposera de représentations explicites).

De plus, un tel modèle pourra raisonner de manière introspective et combiner des faits connus en faits nouveaux — ce que les humains font tout le temps. Il mémorisera et oubliera des faits simplement, en éliminant une entrée incorrecte de sa base de données.

«Quand on essaie de comprendre les modèles actuels les plus perfectionnés comme GPT-3, on mène en fait une étude neuroscientifique, en introduisant des sondes virtuelles pour tenter de comprendre où les faits sont représentés. Quand nous étudions un élément naturel, nous essayons de comprendre quelque chose que nous n’avons pas construit. Mais ces IA n’ont jamais quitté nos ordinateurs et pourtant nous ne comprenons pas même comment elles fonctionnent.»

Mettre à jour Wikipédia

La conclusion de cette recherche démontrera le vaste champ d’application de ces nouvelles méthodes, en les employant à révolutionner Wikipédia. Pour soutenir les éditeurs bénévoles, le nouveau modèle de Robert West s’attaquera à des tâches clés et les automatisera. Par exemple, il corrigera et mettra à jour les informations périmées et les synchronisera dans les 325 langues de la plateforme.

Robert West envisage aussi des avantages financiers et environnementaux au travail de son équipe. «À l’université, nous n’avons pas les ressources du privé. Notre meilleure chance réside donc dans un changement de paradigme plutôt que dans la poursuite de ceux qui existent déjà, explique-t-il. Je pense que c’est là que nous pourrons économiser des ressources en puissance de calcul, en étant plus malins quant à ce que nous utilisons et comment nous l’utilisons. L’industrie pourra reprendre nos méthodes et les implémenter dans ses propres modèles pour, à terme, les rendre plus économes en énergie et moins coûteux à exploiter.»

Pour le meilleur ou pour le pire, le génie est clairement sorti de la lampe avec ChatGPT. Robert West reste optimiste, quelle que soit la manière dont nous manœuvrerons face aux défis bien réels de l’avenir, avec des modèles d’IA généralistes qui évoluent à un rythme qui en a surpris plus d’un. Le chercheur puise l’intérêt pour son travail dans le fait qu’il le voit comme une manière de rompre les barrières de communication entre humains, mais aussi entre humains et machines.

«Ce n’est que le début. C’est déjà un défi technique, mais ce n’est vraiment qu’une étape vers quelque chose qui peut s’autoaméliorer de manière perpétuelle, avec de nombreux autres avantages.»