Deep learning: un cadre pour l'analyse d'images en sciences de la vie
L’imagerie scientifique est constamment à la recherche de solutions plus rapides, plus puissantes ou adaptées à une observation prolongée, particulièrement en sciences de la vie où les éléments sont rarement observables sans instruments. Ces derniers repoussent ainsi les limites de l’espace et du temps. Cet accès facilité au cœur de la vie à une échelle inférieure au nanomètre s’est accompagné du développement accéléré de programmes d’intelligence artificielle pour le tri et l’analyse de ces vastes bases de données. Parmi ceux-ci, les systèmes d’apprentissage machine par couches successives - deep learning- sont particulièrement utiles pour des analyses précises et rapides. Plusieurs de ces programmes complexes sont aujourd’hui communément adoptés par les chercheurs en sciences de la vie. Pourtant, sans une connaissance approfondie de leur architecture et de leurs limites, ces programmes présentent des risques de biais et d’erreurs pouvant avoir de lourdes conséquences. Des scientifiques du Centre d’Imagerie de l’EPFL et de l’EMBL-EBI (G-B) ont systématisé ces points d’achoppement dans un article paru dans IEEE. Ils proposent également une marche à suivre pour une utilisation à bon escient des méthodes de deep learning dans les sciences de la vie ainsi qu’une meilleure collaboration interdisciplinaire entre chercheurs en bioscience et développeurs de programmes.
Vers un consensus sur l’architecture des programmes de deep learning
Un modèle d’apprentissage profond doit devenir un as dans son domaine : reconnaissance de motifs, de contrastes, d’orientation des éléments dans les images... Il est longuement entraîné par des ingénieurs en informatique. Sur la base d’algorithmes non spécifiques, il se forme par couches successives, en partant du général pour tendre vers davantage de précision à chaque répétition. Lorsque les chercheurs en sciences de la vie le prennent en main, ils n’ont besoin que d’affiner les couches supérieures pour adapter l’intelligence artificielle à leur domaine de pointe. Elle pourra ensuite analyser de manière très précise des images auxquelles elle n’a jamais été confrontée.
Alors que le premier modèle de deep learning largement utilisé en sciences de la vie est apparu en 2015, diverses autres architectures pour les problèmes habituels de bioimagerie (élimination du bruit, amélioration de la résolution, localisation d’une molécule, détection d’un objet, etc.) se sont imposées depuis. « Un consensus autour de ces modèles commence à s’instaurer, souligne Laurène Donati, directrice exécutive du Centre d’imagerie de l’EPFL. » « L’urgence d’en développer de nouveaux est donc progressivement remplacée par la nécessité pour les chercheurs en sciences de la vie d'apprendre à utiliser les outils existants de manière appropriée, tandis que les développeurs de méthodes doivent également unir leurs forces pour guider leurs utilisateurs », renchérit Virginie Uhlmann, alumna de l’EPFL et responsable d’équipe de recherche à l’EMBL-EBI.
Quelques exemples de bonne pratique
Pour les non-spécialistes en informatique, ces programmes font parfois figure de boîte noire, ce qui a rebuté plus d’un scientifique. Des plateformes – appelées zoos- rassemblent des modèles et donnent quelques explications sur leurs possibilités. En l’absence de cadre, certains répertoires bien documentés donnent des exemples de recherches complètes permettant à l’utilisateur de se faire une opinion sur la possibilité de l’adapter à son domaine, alors que d’autres restent très évasifs. Les recherches scientifiques étant par essence l’exploration de domaines nouveaux, il est souvent difficile pour les chercheurs de déterminer quel modèle est le plus adéquat pour leur base de données ainsi que les adaptations qu’il nécessitera. Il s’agira ensuite d’en comprendre les limites, d’identifier les facteurs qui pourraient avoir un impact sur la performance du modèle et comment les atténuer. Éviter les biais dans l’interprétation des résultats demande là encore un œil averti.
Les trois auteurs de l’article proposent donc une première marche à suivre pour aider les non-spécialistes du domaine, allant du choix du modèle à la validation des résultats, en passant par son adaptation à la recherche envisagée. Ils souhaitent ainsi « rassurer les sceptiques et leur fournir une stratégie qui minimise les risques en explorant le deep learning, et équiper les aficionados du DL de garde-fous supplémentaires. Il faut également que l’esprit communautaire se renforce afin que les expériences puissent être partagées, qu’une culture des bonnes pratiques s’installe, et qu’un véritable dialogue s’instaure entre spécialistes de l’informatique et biologistes », conclut Daniel Sage, chercheur au sein du Groupe d'imagerie biomédicale de l'EPFL.