Un nouvel outil cryptographique pour des études génomiques sécurisées
Les progrès de l'intelligence artificielle générative et du machine learning, fondés sur des jeux de données à grande échelle stockées dans plusieurs institutions, ont le potentiel de révolutionner la médecine. Malheureusement, les données sont difficiles à collecter. Elles sont cloisonnées dans les hôpitaux, les cabinets médicaux et les cliniques du monde entier. Les risques d'atteinte à la vie privée découlant de la divulgation de données médicales constituent également une préoccupation majeure. De ce fait, les réglementations existantes en matière de partage de données ont largement limité le champ d'application des collaborations en matière de données dans le domaine de la recherche médicale.
Il existe bien sûr des outils cryptographiques pour sécuriser les calculs, mais ils ne sont pas pratiques ou ne mettent pas en œuvre les méthodes les plus récentes. Aujourd'hui, le succès à grande échelle d’une approche développée par l'EPFL a été démontré. Cette approche est en train d'être déployée à travers l'Europe.
Les études génomiques associatives sécurisées et fédérées (Secure federated genome-wide association studies ou SF-GWAS) sont une combinaison de calculs sécurisés et d'algorithmes distribués qui permettent des études efficaces et précises sur des données sensibles détenues par de multiples entités, tout en garantissant la confidentialité des données. Une étude portant sur cinq jeux de données, dont une cohorte de 410 000 individus de la biobanque britannique, a montré une amélioration de la durée d'exécution d'un ordre de grandeur par rapport aux méthodes précédentes.
« Dans de nombreux cas, il n'est pas possible de centraliser les données, pour des raisons pratiques ou juridiques, ou simplement parce que les spécialistes ne veulent pas les partager. L'objectif est donc d'extraire des informations sans partager les données », explique Jean-Pierre Hubaux, directeur académique du Center for Digital Trust de l'EPFL (C4DT), affilié à la Faculté des Sciences de l'Informatique et de la Communication.
« Nous avons développé un prototype il y a plusieurs années, mais il manquait la démonstration qu'il fonctionne à l'échelle avec des jeux de données de taille réelle. C'est désormais chose faite en collaboration avec le MIT et Yale, nos dernières recherches montrant qu'il est possible d'extraire des informations à partir de jeux de données géographiquement distribués, sans perte de précision significative en termes de résultats ; cela ouvre une nouvelle ère en termes de collaboration sur les données », poursuit-il.
SF-GWAS combine deux concepts clés. Tout d'abord, il adopte une approche fédérée du calcul sécurisé, ce qui signifie que chaque jeu de données est conservé sur le site source respectif. Cela permet de minimiser les coûts de calcul en évitant les transferts de données entre les sites et d'utiliser des opérations cryptographiques efficaces qui protègent les résultats de calcul partiels générés sur chaque site.
Deuxièmement, il introduit une conception algorithmique efficace pour soutenir l'exécution fédérée de divers pipelines GWAS de bout en bout.
« Cela peut sembler contre-intuitif, mais notre approche partage les données sans les partager », explique JP Hubaux. « Elle tire parti de l'existence des jeux de données sans avoir à les transférer et constitue une valeur supplémentaire pour les données, une motivation supplémentaire pour travailler ensemble sans perdre le contrôle. »
SF-GWAS a déjà été installé dans les cinq hôpitaux universitaires de Suisse et est actuellement déployé dans plusieurs hôpitaux en Italie ainsi que pour des réseaux européens du cancer par Tune Insight, la spin-off de l'EPFL qui a commercialisé cette solution. L'entreprise est également en discussion avec des institutions médicales dans d'autres pays.
Outre le fait de favoriser la recherche médicale à grande échelle, notamment pour définir et optimiser la politique de santé publique, ce qui n'est pas possible dans un monde de silos, ce système aura un autre avantage. Actuellement, les jeux de données sont généralement distribués dans le monde entier, sur des disques durs et des bandes magnétiques ici et là, parce qu'il a toujours été très difficile de transférer des données. L'enregistrement des données médicales est également appliqué différemment d'un endroit à l'autre. Jean-Pierre Hubaux qualifie cette situation de « préhistorique » et affirme qu'en conséquence, les ensembles de données sont largement sous-utilisés.
« Le système que nous mettons en place encourage les spécialistes du monde médical à rendre les données interopérables: elles seront enregistrées de manière homogène d'un endroit à l'autre. Cet effort d’amélioration de la qualité des données est coûteux et prendra du temps, mais nous avons développé les outils nécessaires pour faciliter cette évolution », explique Jean-Pierre Hubaux.
« La volonté de travailler à grande échelle est un changement de culture et devrait déclencher un cercle vertueux : les spécialistes se sentent encouragés à être plus rigoureux dans la manière dont ils stockent et structurent leurs données afin de garantir l'interopérabilité, car s'ils ne le font pas, leur institution risque d'être exclue du reste de la communauté. Ceci aboutira à une meilleure qualité des données médicales et de santé».