L'IA aborde l'échantillonnage de données complexes
Le monde de l’intelligence artificielle (IA) a récemment connu des avancées majeures dans les modèles génératifs, un type d’algorithmes d’apprentissage machine qui «apprennent» des modèles à partir d’un ensemble de données afin de produire de nouveaux ensembles de données similaires. Les modèles génératifs, dont ceux très connus qui sont utilisés pour développer chatGPT, servent généralement à dessiner des images et à produire du langage naturel.
Les modèles génératifs ont connu un succès remarquable dans diverses applications, de la production d’images et de vidéos à la composition musicale et à la modélisation du langage. Le problème est que l’on manque de garanties théoriques sur les capacités et les limites des modèles génératifs. De toute évidence, cette lacune peut avoir une influence sérieuse sur la manière dont nous les développons et les utilisons ultérieurement.
L’un des principaux enjeux a été la capacité à sélectionner efficacement des échantillons à partir de modèles de données complexes, du fait notamment des limites des méthodes traditionnelles lorsqu’il s’agit de traiter le type de données complexes et de haute dimension que l’on rencontre couramment dans les applications IA modernes.
Aujourd’hui, une équipe de scientifiques sous la houlette de Florent Krzakala et de Lenka Zdeborová de l’EPFL a étudié l’efficacité des modèles génératifs modernes basés sur les réseaux neuronaux. Publiée dans la revue PNAS, l’étude compare ces méthodes contemporaines aux techniques d’échantillonnage traditionnelles, en ciblant une classe spécifique de distributions de probabilités liées aux verres de spin et aux problèmes d’inférence statistique.
Les scientifiques ont analysé des modèles génératifs qui utilisent des réseaux neuronaux de manière unique pour apprendre les distributions de données et produire de nouvelles instances de données qui imitent les données d’origine.
L’équipe a étudié les modèles génératifs basés sur le flux, qui apprennent à partir d’une distribution de données relativement simple et «passent» à une distribution plus complexe; les modèles basés sur la diffusion, qui éliminent le bruit des données; et les réseaux neuronaux autorégressifs génératifs, qui produisent des données séquentielles en prédisant chaque nouvelle donnée sur la base des données générées précédemment.
Les scientifiques ont eu recours à une approche théorique pour analyser les performances des modèles dans l’échantillonnage à partir de distributions de probabilités connues. Il s’agissait de faire correspondre le processus d’échantillonnage de ces méthodes basées sur les réseaux neuronaux à un problème de débruitage optimal Bayesien. En résumé, ils ont comparé la façon dont chaque modèle produit des données en l’assimilant à un problème d’élimination du bruit de l’information.
Les scientifiques se sont inspirés du monde complexe des verres de spin – des matériaux au comportement magnétique intrigant – pour analyser les techniques modernes de production de données. Cela leur a permis d’explorer la manière dont les modèles génératifs basés sur les réseaux neuronaux naviguent dans l’environnement complexe des données.
Par cette approche, l’équipe a pu étudier les capacités et les limites subtiles des modèles génératifs par rapport à des algorithmes plus traditionnels tels que les chaînes de Markov de Monte-Carlo (algorithmes utilisés pour produire des échantillons à partir de distributions de probabilités complexes) et la dynamique de Langevin (technique d'échantillonnage à partir de distributions complexes en simulant le mouvement de particules soumises à des fluctuations thermiques).
L’étude a révélé que les méthodes modernes basées sur la diffusion peuvent être comparées à des problèmes d’échantillonnage du fait d’une transition de phase du premier ordre dans la trajectoire de débruitage de l’algorithme. Autrement dit, elles peuvent rencontrer des problèmes en raison d’un changement soudain dans la manière dont elles éliminent le bruit des données avec lesquelles elles travaillent. Bien qu’elle ait identifié des cas où les méthodes traditionnelles sont plus performantes, la recherche a également mis en évidence des scénarios où les modèles basés sur les réseaux neuronaux présentent une efficacité supérieure.
Cette compréhension nuancée offre une perspective équilibrée sur les atouts et les limites des méthodes d’échantillonnage traditionnelles et contemporaines. Cette étude est un guide pour concevoir des modèles génératifs plus robustes et plus efficaces dans l'IA. En fournissant une base théorique plus claire, elle peut permettre de développer des réseaux neuronaux de nouvelle génération capables de traiter des tâches complexes de production de données avec une efficacité et une précision sans précédent.