AI findet Protein-Interaktionspartner

Wissenschaftlerinnen und Wissenschaftler der EPFL stellen DiffPALM vor, eine innovative KI-Methode, die die Vorhersage von Proteininteraktionen und das Verständnis biologischer Prozesse verbessert, die für medizinische Anwendungen relevant sein könnten.
© EPFL/iStock

Proteine sind die Bausteine des Lebens und an praktisch jedem biologischen Prozess beteiligt. Zu verstehen, wie Proteine miteinander interagieren, ist entscheidend für die Entschlüsselung der komplexen Zellfunktionen und hat erhebliche Auswirkungen auf die Entwicklung von Medikamenten und die Behandlung von Krankheiten.

Die Vorhersage, welche Proteine miteinander interagieren, war jedoch eine Herausforderung für die Computerbiologie, vor allem aufgrund der enormen Vielfalt und Komplexität der Proteinstrukturen. Eine neue Studie aus der Gruppe von Anne-Florence Bitbol an der EPFL könnte dies nun ändern.

Das Team, dem Umberto Lupo, Damiano Sgarbossa und Bitbol angehören, hat mit DiffPALM (Differentiable Pairing using Alignment-based Language Models) einen KI-basierten Ansatz entwickelt, der die Vorhersage interagierender Proteinsequenzen erheblich verbessern kann. Die Studie ist in PNAS veröffentlicht.

DiffPALM nutzt die Leistungsfähigkeit von Protein-Sprachmodellen, einem fortschrittlichen Konzept des maschinellen Lernens, das aus der natürlichen Sprachverarbeitung stammt, um Proteininteraktionen zwischen den Mitgliedern zweier Proteinfamilien mit bisher unerreichter Genauigkeit zu analysieren und vorherzusagen. Es nutzt diese Techniken des maschinellen Lernens, um interagierende Proteinpaare vorherzusagen. Dies führt zu einer erheblichen Verbesserung gegenüber anderen Methoden, die oft grosse, vielfältige Datensätze benötigen und mit der Komplexität eukaryontischer Proteinkomplexe zu kämpfen haben.

Ein weiterer Vorteil von DiffPALM ist seine Vielseitigkeit, da es auch mit kleineren Sequenzdatensätzen arbeiten kann und somit seltene Proteine mit wenigen Homologen – Proteine verschiedener Arten, die eine gemeinsame evolutionäre Abstammung haben – berücksichtigen kann. Es stützt sich auf Protein-Sprachmodelle, die auf Multiple Sequence Alignments (MSAs) trainiert wurden, wie z. B. den MSA Transformer und das EvoFormer-Modul von AlphaFold, wodurch es die komplexen Interaktionen zwischen Proteinen mit einem hohen Mass an Genauigkeit verstehen und vorhersagen kann. Die Verwendung von DiffPALM ist sogar sehr vielversprechend, wenn es um die Vorhersage der Struktur von Proteinkomplexen geht, die durch die Bindung mehrerer Proteine gebildet werden und für viele Prozesse in der Zelle wesentlich sind.

In der Studie verglich das Team DiffPALM mit traditionellen, auf Koevolution basierenden Paarungsmethoden, die untersuchen, wie sich Proteinsequenzen im Laufe der Zeit gemeinsam entwickeln, wenn sie eng miteinander interagieren – Veränderungen in einem Protein können zu Veränderungen in seinem Interaktionspartner führen. Dies ist ein äusserst wichtiger Aspekt der Molekular- und Zellbiologie, der von auf MSAs trainierten Proteinsprachmodellen gut erfasst wird. DiffPALM übertrifft nachweislich herkömmliche Methoden in den anspruchsvollen Benchmarks von Top of Formon und beweist damit seine Robustheit und Effizienz.

Comparing the AFM default MSA Transformer pairing strategy with DiffPALM for a protein structure. Credit: Lupo et al 2024, DOI: 10.1073/pnas.2311887121

Vergleich der AFM-Standard-MSA-Transformer-Paarungsstrategie mit DiffPALM für eine Proteinstruktur. Quelle: Lupo et al 2024, DOI: 10.1073/pnas.2311887121

Die Anwendung von DiffPALM liegt im Bereich der grundlegenden Proteinbiologie auf der Hand, geht aber darüber hinaus, da es das Potenzial hat, ein leistungsfähiges Instrument für die medizinische Forschung und die Arzneimittelentwicklung zu werden. So kann beispielsweise die genaue Vorhersage von Proteininteraktionen zum Verständnis von Krankheitsmechanismen und zur Entwicklung gezielter Therapien beitragen.

Die Forscher haben DiffPALM kostenlos zur Verfügung gestellt und hoffen, dass die wissenschaftliche Gemeinschaft es weithin übernimmt, um die Fortschritte in der Computerbiologie voranzutreiben und Forschern die Möglichkeit zu geben, die Komplexität von Proteininteraktionen zu erkunden.

Durch die Kombination fortschrittlicher maschineller Lerntechniken und die effiziente Verarbeitung komplexer biologischer Daten stellt DiffPALM einen bedeutenden Fortschritt in der computergestützten Biologie dar. Es verbessert nicht nur unser Verständnis von Proteininteraktionen, sondern eröffnet auch neue Wege in der medizinischen Forschung, die zu einem Durchbruch bei der Behandlung von Krankheiten und der Entwicklung von Medikamenten führen können.