Une plateforme ouverte pour gérer les données chimiques
L’un des aspects les plus difficiles de la chimie moderne est la gestion des données. Par exemple, lors de la synthèse d’un nouveau composé, les scientifiques passeront par de multiples essais et erreurs avant de trouver les bonnes conditions de réaction, ce qui génère d’importantes quantités de données brutes. Ces données ont une valeur inestimable car, comme les êtres humains, les algorithmes d’apprentissage machine peuvent apprendre beaucoup des expériences ratées ou partiellement réussies.
Toutefois, la pratique actuelle est de ne publier que les expériences les plus réussies, car aucun être humain ne peut traiter les quantités massives d’expériences ratées de manière significative. Mais l’intelligence artificielle a changé la donne. C’est exactement ce que ces méthodes d’apprentissage machine peuvent faire, à condition que les données soient stockées dans un format exploitable par les machines et utilisable par tous.
«Pendant longtemps, nous devions comprimer les données en raison du nombre limité de pages des articles de journaux papier», explique le professeur Berend Smit, qui dirige le Laboratoire de simulation moléculaire de l’EPFL Valais Wallis. «Aujourd’hui, de nombreux journaux n’ont même plus d’éditions papier. Pourtant, les chimistes sont toujours confrontés à des problèmes de reproductibilité car les articles de journal font l’impasse sur des détails importants. Les chercheuses et chercheurs perdent du temps et des ressources à reproduire les expériences ratées des autrices et auteurs. Ils ont des difficultés à s’appuyer sur les résultats publiés car les données brutes sont rarement publiées.»
Mais le volume n’est pas le seul problème: la diversité des données en est un autre. Les groupes de recherche utilisent différents outils, comme le logiciel Electronic Lab Notebook, qui stockent les données dans des formats propriétaires parfois incompatibles entre eux. Ce manque d’homogénéisation rend presque impossible le partage de données entre les groupes.
Aujourd’hui, Berend Smit, Luc Patiny et Kevin Jablonka de l’EPFL ont publié une perspective dans la revue Nature Chemistry, qui présente une plateforme ouverte pour l’ensemble du flux de travail en chimie: du lancement d’un projet à sa publication.
Les scientifiques considèrent que la plateforme intègre parfaitement trois étapes essentielles: la collecte, le traitement et la publication des données, pour un coût minimal pour les chercheuses et chercheurs. Le principe directeur est que les données doivent être facilement trouvables, accessibles, interopérables et réutilisables (FAIR). «Au moment de la collecte de données, ces dernières seront automatiquement converties dans un format standard FAIR, ce qui permettra de publier automatiquement toutes les expériences ratées ou partiellement réussies, ainsi que l’expérience la plus réussie», déclare Berend Smit.
Mais les auteurs vont un peu plus loin en proposant que les données soient également exploitables par les machines. «Nous voyons de plus en plus d’études de science des données en chimie», affirme Kevin Jablonka. «En effet, les derniers résultats de l’apprentissage machine tentent de s’attaquer à certains des problèmes que les chimistes estiment insolubles. Par exemple, notre groupe a accompli d’importants progrès dans la prédiction des conditions de réaction optimales à l’aide de modèles d’apprentissage machine. Ces modèles auraient beaucoup plus de valeur s’ils pouvaient également apprendre les conditions de réaction qui échouent, mais ils restent biaisés car seules les conditions réussies sont publiées.»
Enfin, les auteurs proposent cinq mesures concrètes que doit prendre le domaine pour établir un plan de gestion des données FAIR:
- La communauté de chimistes devrait adopter ses propres normes et solutions.
- Les journaux doivent rendre obligatoire le dépôt de données brutes réutilisables, lorsqu’il existe des normes communautaires.
- Nous devons accepter la publication des expériences «ratées».
- Les cahiers de laboratoire électroniques qui ne permettent pas d’exporter toutes les données sous une forme ouverte exploitable par les machines doivent être évités.
- La recherche axée sur les données doit faire partie de nos programmes d’études.
«Nous pensons qu’il n’est pas nécessaire d’inventer de nouveaux formats de fichier ou technologies», confie Luc Patiny. «En principe, nous avons toutes les technologies. Nous devons les adopter et les rendre interopérables.»
Les auteurs soulignent également que le simple fait de stocker des données dans un cahier de laboratoire électronique, qui est la tendance actuelle, ne signifie pas nécessairement que les êtres humains et les machines peuvent les réutiliser. Les données doivent plutôt être structurées et publiées dans un format standardisé. Elles doivent également contenir suffisamment de contexte pour permettre des actions basées sur les données.
«Notre point de vue offre une vision de ce que l’on pense être les éléments clés pour combler le fossé entre les données et l’apprentissage machine pour les problèmes fondamentaux en chimie», ajoute Berend Smit. «Nous fournissons également une solution scientifique ouverte dans laquelle l’EPFL peut montrer l’exemple.»