Verwaltung chemischer Daten: ein offener Weg in die Zukunft

In der Zeitschrift Nature Chemistry schlagen drei EPFL-Wissenschaftler eine offene Plattform für die Verwaltung der riesigen Mengen unterschiedlicher Daten vor, die in der chemischen Forschung anfallen. Die vorgeschlagene Plattform basiert auf den Prinzipien von Zugänglichkeit, Zusammenarbeit und Effizienz und könnte von der EPFL geleitet werden.
iStock

Einer der schwierigsten Aspekte der modernen Chemie ist die Verwaltung von Daten. Wenn Wissenschaftlerinnen und Wissenschaftler zum Beispiel eine neue Verbindung synthetisieren, versuchen sie in mehreren Versuchen, die richtigen Bedingungen für die Reaktion zu finden, und erzeugen dabei riesige Mengen an Rohdaten. Solche Daten sind von unglaublichem Wert, denn wie Menschen können auch maschinelle Lernalgorithmen aus fehlgeschlagenen und teilweise erfolgreichen Versuchen viel lernen.

Derzeit ist es jedoch üblich, nur die erfolgreichsten Experimente zu veröffentlichen, da kein Mensch die riesigen Mengen an fehlgeschlagenen Experimenten sinnvoll verarbeiten kann. Künstliche Intelligenz hat dies jedoch geändert; genau das können diese maschinellen Lernverfahren tun, sofern die Daten in einem maschinenverarbeitbaren Format gespeichert werden, das jeder nutzen kann.

«Lange Zeit mussten wir Informationen aufgrund der begrenzten Seitenzahl gedruckter Zeitschriftenartikel komprimieren», sagt Professor Berend Smit, Leiter des Labors für molekulare Simulation an der EPFL Wallis, «heute gibt es viele Zeitschriften nicht einmal mehr in gedruckter Form, aber Chemiefachleute haben immer noch mit Reproduzierbarkeitsproblemen zu kämpfen, weil in den Zeitschriftenartikeln entscheidende Details fehlen. Forschende ‹verschwenden› Zeit und Ressourcen, um ‹gescheiterte› Experimente von anderen zu wiederholen, und haben Mühe, auf den veröffentlichten Ergebnissen aufzubauen, da die Rohdaten nur selten veröffentlicht werden.»

Aber nicht nur das Volumen ist ein Problem, sondern auch die Datenvielfalt: Forschungsgruppen verwenden unterschiedliche Tools wie Electronic Lab Notebook Software, die Daten in proprietären Formaten speichern, die manchmal nicht miteinander kompatibel sind. Dieser Mangel an Standardisierung macht es den Gruppen fast unmöglich, Daten gemeinsam zu nutzen.

Nun hat Smit zusammen mit Luc Patiny und Kevin Jablonka von der EPFL in Nature Chemistry einen Ausblick auf eine offene Plattform für den gesamten Chemie-Workflow veröffentlicht: vom Beginn eines Projekts bis zu seiner Veröffentlichung.

Die Wissenschaftler stellen sich die Plattform so vor, dass sie drei entscheidende Schritte «nahtlos» integriert: Datenerfassung, Datenverarbeitung und Datenveröffentlichung – und das alles mit minimalen Kosten für die Forschenden. Das Leitprinzip ist, dass die Daten FAIR sein sollen: leicht auffindbar, zugänglich, interoperabel und wiederverwendbar. «Im Moment der Datenerfassung werden die Daten automatisch in ein standardisiertes FAIR-Format konvertiert, so dass es möglich ist, automatisch alle ‹gescheiterten› und teilweise erfolgreichen Experimente zusammen mit dem erfolgreichsten Experiment zu veröffentlichen», sagt Smit.

«Unsere Perspektive bietet eine Vision dessen, was wir für die Schlüsselkomponenten halten, um die Kluft zwischen Daten und maschinellem Lernen für Kernprobleme der Chemie zu überbrücken.»      Berend Smit, Professor EPFL

Die Autoren gehen aber noch einen Schritt weiter und schlagen vor, dass die Daten auch maschinell verwertbar sein sollten: «Wir sehen immer mehr datenwissenschaftliche Studien in der Chemie», sagt Jablonka, «die jüngsten Ergebnisse im Bereich des maschinellen Lernens versuchen in der Tat, einige der Probleme zu lösen, die Chemiefachleute für unlösbar halten. Unsere Gruppe hat zum Beispiel enorme Fortschritte bei der Vorhersage optimaler Reaktionsbedingungen mit Hilfe von Modellen des maschinellen Lernens gemacht. Diese Modelle wären jedoch viel wertvoller, wenn sie auch Reaktionsbedingungen lernen könnten, die misslingen, denn ansonsten bleiben sie voreingenommen, weil nur die erfolgreichen Bedingungen veröffentlicht werden.»

Abschliessend schlagen die Autoren fünf konkrete Schritte vor, die das Fachgebiet unternehmen muss, um einen FAIR-Plan für das Datenmanagement zu erstellen:

  1. Die Chemiegemeinschaft sollte ihre eigenen bestehenden Standards und Lösungen übernehmen.
  2. Zeitschriften müssen die Veröffentlichung von wiederverwendbaren Rohdaten, für die es Gemeinschaftsstandards gibt, zur Pflicht machen.
  3. Wir müssen die Veröffentlichung von «gescheiterten» Experimenten unterstützen.
  4. Elektronische Labornotizbücher, die nicht den Export aller Daten in eine offene, maschinenverarbeitbare Form ermöglichen, sollten vermieden werden.
  5. Datenintensive Forschung muss in unsere Lehrpläne aufgenommen werden.

«Wir sind der Meinung, dass es nicht notwendig ist, neue Dateiformate oder Technologien zu erfinden», sagt Patiny, «im Prinzip ist die gesamte Technologie vorhanden, und wir müssen die bestehenden Technologien nutzen und sie interoperabel machen.»

Die Autoren weisen auch darauf hin, dass die Speicherung von Daten in einem beliebigen elektronischen Laborjournal – der derzeitige Trend – nicht unbedingt bedeutet, dass Menschen und Maschinen die Daten wiederverwenden können. Vielmehr müssen die Daten strukturiert und in einem standardisierten Format veröffentlicht werden, und sie müssen auch genügend Kontext enthalten, um datengesteuerte Aktionen zu ermöglichen.

«Unsere Perspektive bietet eine Vision dessen, was unserer Meinung nach die Schlüsselkomponenten sind, um die Lücke zwischen Daten und maschinellem Lernen für Kernprobleme in der Chemie zu überbrücken», sagt Smit. «Wir bieten auch eine offene wissenschaftliche Lösung an, bei der die EPFL die Führung übernehmen kann.»