À la recherche de la machine intelligente
Dans le laboratoire de robotique douce de l'ETH Zurich, une main blanche de robot attrape une canette de bière, la soulève et la déplace vers un verre à l'autre bout de la table. Là, la main incline délicatement la canette vers la droite et verse le liquide pétillant et doré dans le verre sans le renverser. À la vôtre !
C'est l'informaticien Elvis Nava qui contrôle la main du robot développé par la start-up Faive Robotics de l'ETH Zurich. La main de ce doctorant de 26 ans plane au-dessus d'une surface équipée de capteurs et d'une caméra. La main du robot suit le mouvement de la main d'Elvis Nava. Lorsqu'il écarte ses doigts, le robot fait de même. Et lorsqu'il pointe quelque chose du doigt, la main du robot l'imite.
Mais pour Elvis Nava, ce n'est que le début : «Nous espérons qu'à l'avenir, le robot sera capable de faire quelque chose sans que nous ayons à lui expliquer exactement comment», dit-il. Il veut apprendre aux machines à exécuter des commandes écrites et orales. Son objectif est de les rendre si intelligentes qu'elles puissent rapidement acquérir de nouvelles capacités, comprendre les gens et les aider dans différentes tâches.
Les fonctions qui nécessitent actuellement des instructions spécifiques de la part des programmeuses et programmeurs seront alors contrôlées par des commandes simples telles que «verse-moi une bière» ou «passe-moi la pomme». Pour atteindre cet objectif, Elvis Nava a reçu une bourse de doctorat de l'AI Center de l'ETH Zurich en 2021 : ce programme encourage les talents qui jettent des ponts entre différentes disciplines de recherche pour développer de nouvelles applications d'IA. En outre, l'Italien - qui a grandi à Bergame - effectue son doctorat à la chaire de neuro-informatique de Benjamin Grewe et dans le laboratoire de robotique douce de Robert Katzschmann.
Combinaison de stimuli sensoriels
Mais comment faire en sorte qu'une machine exécute des commandes ? À quoi ressemble cette combinaison d'intelligence artificielle et de robotique ? Pour répondre à ces questions, il est essentiel de comprendre le cerveau humain.
Nous percevons notre environnement en combinant différents stimuli sensoriels. En général, notre cerveau intègre sans effort les images, les sons, les odeurs, les goûts et les stimuli haptiques en une impression globale cohérente. Cette capacité nous permet de nous adapter rapidement à de nouvelles situations. Nous savons intuitivement comment appliquer les connaissances acquises à des tâches non familières.
«Les ordinateurs et les robots sont souvent dépourvus de cette capacité», explique Elvis Nava. Grâce à l'apprentissage automatique, les programmes informatiques peuvent aujourd'hui écrire des textes, avoir des conversations ou peindre des images, et les robots peuvent se déplacer rapidement et de manière autonome sur un terrain difficile, mais les algorithmes d'apprentissage sous-jacents sont généralement basés sur une seule source de données. Ils ne sont - pour utiliser un terme informatique - pas multimodaux.
Pour Elvis Nava, c'est précisément ce qui fait obstacle à des robots plus intelligents : «Les algorithmes sont souvent entraînés pour un seul ensemble de fonctions, en utilisant de grands ensembles de données disponibles en ligne. Si cela permet aux modèles de traitement du langage d'utiliser le mot "chat" de manière grammaticalement correcte, ils ne savent pas à quoi ressemble un chat. Et les robots peuvent se déplacer efficacement mais n'ont généralement pas la capacité de reconnaître la parole et les images.»
Les robots doivent aller à l'école maternelle
C'est pourquoi Elvis Nava développe des algorithmes d'apprentissage pour les robots qui leur apprennent exactement cela : à combiner des informations provenant de sources différentes. «Lorsque je dis à un bras robotique de "me passer la pomme sur la table", il doit relier le mot "pomme" aux caractéristiques visuelles d'une pomme. Qui plus est, il doit reconnaître la pomme sur la table et savoir comment la saisir.»
Mais comment Elvis Nava apprend-il au bras robotique à faire tout cela ? En termes simples, il l'envoie dans un camp d'entraînement en deux étapes. Tout d'abord, le robot acquiert des capacités générales telles que la reconnaissance de la parole et des images, ainsi que des mouvements simples de la main, dans une sorte d'école maternelle.
Pour ces capacités, il existe déjà des modèles libres qui ont été entraînés à l'aide de gigantesques ensembles de données de textes, d'images et de vidéos. Les chercheurs et chercheuses alimentent, par exemple, un algorithme de reconnaissance d'images avec des milliers d'images étiquetées «chien» ou «chat». Ensuite, l'algorithme apprend indépendamment quelles caractéristiques - dans ce cas, les structures de pixels - constituent l'image d'un chat ou d'un chien.
Un nouvel algorithme d'apprentissage pour les robots
Le travail d'Elvis Nava consiste à combiner les meilleurs modèles disponibles dans un algorithme d'apprentissage, qui doit traduire différentes données, images, textes ou informations spatiales en un langage de commande uniforme pour le bras du robot. Dans le modèle, le même vecteur représente à la fois le mot «bière» et les images étiquetées «bière», explique Elvis Nava. Ainsi, le robot sait ce qu'il doit chercher lorsqu'il reçoit la commande «verse-moi une bière».
Les chercheuses et chercheurs qui s'occupent d'intelligence artificielle à un niveau plus profond savent depuis un certain temps que l'intégration de différentes sources de données et de différents modèles est très prometteuse. Toutefois, les modèles correspondants ne sont disponibles et accessibles au public que depuis peu. Qui plus est, la puissance de calcul est désormais suffisante pour les faire fonctionner en tandem.
Lorsqu'Elvis Nava parle de ces choses, elles semblent simples et intuitives. Mais ce n'est pas le cas : «Il faut connaître parfaitement les modèles les plus récents, mais cela ne suffit pas ; parfois, les faire fonctionner en tandem est un art plutôt qu'une science», explique-t-il. Ce sont les problèmes délicats de ce type qui intéressent particulièrement Elvis Nava. Il peut y travailler pendant des heures, en essayant sans cesse de nouvelles solutions.
Entraînement spécial : l'imitation des êtres humains
Une fois que le bras robotique a terminé l'école maternelle et a appris à comprendre la parole, à reconnaître des images et à effectuer des mouvements simples, Elvis Nava l'envoie suivre une formation spéciale. Là, la machine apprend, par exemple, à imiter les mouvements d'une main humaine lorsqu'elle verse un verre de bière. «Comme cela implique des séquences de mouvements très spécifiques, les modèles existants ne suffisent plus», explique le scientifique.
À la place, il montre à son algorithme d'apprentissage une vidéo d'une main en train de verser un verre de bière. Sur la base de quelques exemples seulement, le robot tente alors d'imiter ces mouvements, en s'appuyant sur ce qu'il a appris à l'école maternelle. Sans connaissances préalables, il ne serait tout simplement pas capable d'imiter une séquence de mouvements aussi complexe.
«Si le robot parvient à verser la bière sans la renverser, nous lui disons "bien joué" et il mémorise la séquence de mouvements», explique Elvis Nava. Cette méthode est connue sous le nom d'apprentissage par renforcement dans le jargon technique.
Fondements de la robotique d'assistance
Avec cette stratégie d'apprentissage en deux étapes, Elvis Nava espère se rapprocher un peu plus de la réalisation de son rêve de créer une machine intelligente. Jusqu'où cela le mènera-t-il, il ne le sait pas encore. «Il n'est pas certain que cette approche permette aux robots d'effectuer des tâches que nous ne leur avons pas encore montrées.»
Il est beaucoup plus probable que nous verrons des assistants robotiques qui exécutent des commandes orales et remplissent des tâches qui leur sont déjà familières ou qui leur ressemblent beaucoup. Elvis Nava évite de faire des prédictions sur le temps qu'il faudra avant que ces applications puissent être utilisées dans des domaines tels que le secteur des soins ou la construction.
Les développements dans le domaine de l'intelligence artificielle sont trop rapides et imprévisibles. En fait, Elvis Nava serait bien content si le robot se contentait de lui tendre la bière qu'il demandera poliment après la soutenance de sa thèse.