Choisir le meilleur traitement médical possible grâce à l'IA
À l’EPFL, Charlotte Bunne, directrice du Groupe d’intelligence artificielle en médecine moléculaire, développe des algorithmes qui comprennent les données extraordinairement complexes des centaines de couches de tissus ou de protéines marqueurs dans une cellule individuelle. Le magazine Dimensions de l'EPFL s'est entretenu avec la chercheuse au sujet de son travail à la pointe de l'IA en médecine et en biologie.
Quels sont les buts de votre recherche?
Nous développons un outil clinique de diagnostic qui repose sur des technologies d’IA. Il s’agit de prédire le meilleur traitement qu’un patient puisse recevoir, d’essayer de comprendre à quel stade de la maladie il se trouve et d’identifier les biomarqueurs ou potentielles cibles médicamenteuses à considérer plus en détail. De manière importante, le profil moléculaire et, en conséquence, le phénotype de maladie associé au patient sont uniques à chaque personne. Adapter les thérapies à des profils moléculaires individuels requiert des mesures comprenant les facteurs cellulaires et moléculaires qui influent sur la réponse au traitement, mais aussi de puissantes technologies d’IA, capables de prédire ces mêmes facteurs de façon fiable à partir de volumineux ensembles de données de hautes dimensions, issus d’expériences variées.
Et alors même que nous sommes témoins des performances incroyables de l’IA dans les domaines de la vision et du langage, les données biologiques sont très différentes: les mesures sont indirectes, obscures et multimodales. Elles ne représentent que les instantanés d’un système intrinsèquement dynamique qui gouverne les processus biologiques sous-jacents. On ne peut se contenter d’appliquer les technologies d’IA langagière au champ de la biologie. Il nous faut tailler sur mesure les architectures et les algorithmes d’apprentissage pour les adapter aux subtilités des modèles et des données biologiques.
Alors que les grands réseaux de neurones sont souvent des boîtes noires du point de vue de leurs prédictions, nous devons les concevoir de telle sorte que nous puissions au moins saisir quels facteurs biologiques ont contribué à telle prédiction. Cette compréhension est cruciale pour découvrir des biomarqueurs et des cibles pour les médicaments: elle met en lumière des mécanismes et des processus biologiques liés à la maladie, et révèle ainsi de nouvelles opportunités thérapeutiques.
Comment avez-vous démarré votre travail dans ce domaine particulièrement avant-gardiste?
J’ai commencé tôt! À 14 ans, je faisais partie d’un programme de bourses pour gymnasiens au German Cancer Research Center et j’étais fascinée par mon travail en biologie synthétique, une approche qui conjugue ingénierie, informatique et biotechnologies. Depuis, je suis convaincue que seules les démarches réellement interdisciplinaires nous permettront d’atteindre nos objectifs. Et aujourd’hui, ma chaire est affiliée de manière conjointe à la Faculté informatique et communications et à la Faculté des sciences de la vie.
Comme gymnasiens, nous modifiions de simples cellules bactériennes pour obtenir une nouvelle fonction: cela nous permettait de les utiliser comme de petites machines dans un produit donné. Maintenant, je veux comprendre comment nous pouvons modifier les cellules humaines pour qu’elles acquièrent des propriétés de diagnostic, prévoir leur comportement face aux thérapies ou les reprogrammer d’un état malade à un état sain. Donc même si les buts, les outils et, plus particulièrement, le niveau de complexité sont sans commune mesure avec le travail de mes 14 ans, l’essentiel reste identique.
Ce domaine de recherche représente clairement un accélérateur pour le développement de la médecine personnalisée. A-t-il vraiment pris son essor ces dernières années avec les progrès de l’IA?
Je suis une jeune chercheuse, j’ai donc rejoint une révolution qui était en marche. Dernièrement, le domaine s’est transformé à une vitesse incroyable, parce que nous pouvons désormais générer des données biologiques à haut débit avec une résolution sans précédent. Organiser des ensembles massifs de données biomédicales constitue la base pour entraîner de grands réseaux neuronaux. Par exemple, une grande part du succès du dernier Prix Nobel de chimie, attribué en partie aux scientifiques qui ont développé l’outil AlphaFold de prédiction des structures de protéine, est due à la Protein Data Bank, une large collection de structures de protéines accessible à tous.
Notre recherche se déploie à une échelle supérieure, où nous tentons de simuler des fonctions biologiques et le comportement de cellules et de tissus. Nous assoyons nos modèles d’IA sur des données, lesquelles mesurent des centaines de caractéristiques des cellules individuelles et nous informent quant à la localisation subcellulaire, la présence ou l’abondance de protéines et de molécules spécifiques dans une cellule. Nous intégrons peu à peu ces données particulièrement étoffées dans des bases. Le progrès repose donc sur deux éléments conjugués, à savoir la disponibilité d’échantillons supplémentaires et la possibilité d’obtenir des données de cellules humaines très étoffées et à très haute résolution.
Néanmoins, nous travaillons encore souvent à des régimes de données faibles. Nous manquons d’ensembles de données pour, par exemple, saisir les processus cellulaires dynamiques dans le temps et à plusieurs échelles physiques. En particulier, nous n’avons pas beaucoup de paires de données reliant les changements moléculaires aux comportements à l’échelle tissulaire. Cela veut dire que nous devons nous montrer créatifs dans le développement de nos systèmes d’IA, pour surmonter ces limitations.
La récolte de données et les bases de données constituent un élément fondamental de votre travail actuel. Or l’utilisation de données de patients pour entraîner des algorithmes d’apprentissage machine soulève clairement des problèmes de protection de la vie privée. Comment s’affranchit-on de ce travail, et comment la Suisse se situe-t-elle sur ce plan?
Les données de patients imposent bien sûr le niveau de précaution le plus élevé. Elles sont conservées dans des environnements informatiques sécurisés et les régulations de protection des données imposent des exigences drastiques pour les manipuler et les traiter. Ce qui est plutôt unique en Suisse, c’est la coordination des initiatives en vue de mettre en place des infrastructures de données interopérables qui permettent un accès et des échanges de données de santé dans tout le pays. Cela pose les fondations requises pour développer des algorithmes d’IA sur des bases grandissantes de données diverses et représentatives de patients. Notre travail tire parti de ces efforts considérables et des écosystèmes qui ont été déployés en Suisse ces dernières années.
Un autre élément fondamental de notre recherche, ce sont les échanges étroits avec des biologistes et des cliniciens. Cela veut dire que nous développons nos solutions d’IA en étroite collaboration et que nous pouvons les adapter, pour que nos outils de diagnostic s’intègrent harmonieusement dans les processus et les routines du monde clinique. Dans le même temps, ces étroites collaborations avec les biologistes et cliniciens nous permettent d’exercer une influence sur de futures générations de données dans des domaines sous-échantillonnés, ou de mettre la priorité sur certaines manières de mesurer les données qui offrent des perspectives plus approfondies sur la composition moléculaire des cellules et des tissus. Nous nous attendons à ce que de telles récoltes de données, guidées par l’intelligence artificielle, améliorent sensiblement les capacités des modèles IA que nous créons.
Vous êtes également impliquée dans une communauté internationale qui cherche à développer des cellules virtuelles propulsées par l’IA. De quoi s’agit-il, et comment vont-elles faire progresser la science?
Il existe d’innombrables manières d’effectuer des mesures en biologie, à différentes échelles physiques, des interactions moléculaires à l’architecture des tissus. La question à laquelle nous aimerions répondre, c’est comment intégrer toutes ces mesures pour obtenir une image et une compréhension complètes des fonctions et des comportements des cellules. Plus précisément, pouvons-nous prédire les changements de l’état moléculaire d’une cellule en présence d’une perturbation externe comme une substance active, une influence de l’environnement, une maladie, un médicament? Dans les grandes lignes, nous voulons comprendre pourquoi la cellule adopte un état particulier plutôt qu’un autre.
Avec les progrès des techniques de mesure et la puissance croissante des architectures d’IA, nous commençons maintenant à disposer des outils à même de relever ces défis. Certains de ces modèles d’IA sont construits sur les données issues des mesures de cellules isolées, tandis que d’autres sont consacrés au décodage du langage de l’ADN ou au repliement des protéines. Il s’agit de créer un modèle de base qui soit multimodal et multiéchelle — une cellule virtuelle propulsée par l’IA — qui intègre tous ces efforts et mesures, et qui représente et simule le comportement des molécules, des cellules et des tissus dans une variété d’états et de conditions. Une telle cellule virtuelle travaille comme un simulateur universel qui aurait appris. Elle est capable de modéliser des systèmes cellulaires suivant divers scénarios, lesquels peuvent inclure la différenciation, les états pathologiques, les fluctuations stochastiques et les influences environnementales.
C’est un effort de collaboration massif, qui implique une communauté scientifique mondiale. De nombreux groupes travaillent sur diverses pièces de ce puzzle. Notre défi et notre opportunité résident dans l’intégration de ces contributions dans une vision cohérente, qui repoussera les frontières du possible en recherche biomédicale.
Si vous aviez une boule de cristal, que pensez-vous qu’il adviendra de l’IA au sein des sciences biomédicales dans 10 ans? Que ferez-vous dans une décennie?
Il y a quelques problèmes plus simples en biologie que nous avons déjà résolus et à propos desquels nous sommes capables d’effectuer des prédictions précises. Les success stories comme AlphaFold montrent que nous pouvons régler des problèmes spécifiques isolément, et je m’attends à d’autres avancées de ce type ces 10 prochaines années. Mais la compréhension complète de la complexité des systèmes biologiques représente une tâche monumentale. Ces systèmes impliquent d’innombrables interactions moléculaires qui organisent les dynamiques générales à l’échelle du système lui-même, à des échelles de temps qui vont de quelques picosecondes à plusieurs années. Nous avons une quantité incalculable de problèmes à résoudre et de questions auxquelles il nous faut répondre. Cela nous occupera encore pendant de très, très nombreuses années.