Ein Open-Source-Trainingsrahmen zur Förderung multimodaler KI

EPFL-Forschende haben 4M entwickelt, ein Open-Source-Framework der nächsten Generation für das Training vielseitiger und skalierbarer multimodaler Grundmodelle, die über die Sprache hinausgehen.
Ein Paar Orangen, gesehen durch die Linse mehrerer Modalitäten, wobei jede Scheibe eine andere Art und Weise zeigt, wie man diese Szene wahrnehmen und verstehen könnte - 2025 EPFL - CC-BY-SA 4.0

Grosse Sprachmodelle wie ChatGPT von OpenAI haben bereits die Art und Weise verändert, wie viele von uns einige unserer täglichen Aufgaben erledigen. Diese Chatbots mit generativer künstlicher Intelligenz werden mit Sprache trainiert – mit Hunderten von Terabytes an Text, die aus dem gesamten Internet stammen, und mit Milliarden von Parametern.

Mit Blick auf die Zukunft glauben viele, dass die «Motoren», die die generative künstliche Intelligenz antreiben, multimodale Modelle sein werden, die nicht nur auf Text trainiert werden, sondern auch verschiedene andere Modalitäten von Informationen verarbeiten können, darunter Bilder, Video, Ton und Modalitäten aus anderen Bereichen wie biologische oder atmosphärische Daten.

Doch bis vor kurzem war das Training eines einzigen Modells für die Verarbeitung einer Vielzahl von Modalitäten – Eingaben – und Aufgaben – Ausgaben – mit erheblichen Herausforderungen verbunden. So führte das Training häufig zu einer Leistungsverringerung im Vergleich zu Modellen für eine einzige Aufgabe und erforderte in der Regel sorgfältige Strategien, um Qualitätsverluste zu verringern und die Genauigkeit zu maximieren. Darüber hinaus brachte das Training eines Netzes für verschiedene Modalitäten – oder Inputs – wie Sprache, Bilder oder Videos, die sich stark unterscheiden, zusätzliche Komplexität mit sich, und wesentliche Informationen in bestimmten Modalitäten wurden vom Modell oft fälschlicherweise ignoriert.

Multimodale Modellierung

In einem mehrjährigen Projekt, das von Apple in Kalifornien unterstützt wurde, haben EPFL-Forschende des Visual Intelligence and Learning Laboratory (VILAB) der Fakultät für Informatik und Kommunikationswissenschaften (IC) 4M (Massively Masked Multimodal Modeling) entwickelt, eines der weltweit fortschrittlichsten neuronalen Netze, das eine breite und vielfältige Palette von Aufgaben und Modalitäten bewältigen kann.

In ihrem neuesten Forschungsbericht über 4M, der im Dezember auf der NeurIPS 2024, der jährlichen Konferenz über neuronale Informationsverarbeitungssysteme, vorgestellt wurde, beschreiben die Forschenden, wie es die Fähigkeiten bestehender Modelle auf vielfältige Weise erweitert (siehe Kasten unten für weitere technische Details).

«Mit 4M haben wir jetzt ein reichhaltiges Modell, das mehr als nur Sprache interpretieren kann. Aber warum ist das wichtig? Eine häufige Kritik an LLMs ist, dass ihr Wissen nicht fundiert ist, weil die Trainingsdaten nur auf Sprache beschränkt sind», erklärt Assistant Professor Amir Zamir, Leiter des VILAB.

«Wenn wir zur multimodalen Modellierung übergehen, müssen wir uns nicht mehr auf die Sprache beschränken. Wir können auch andere Modalitäten einbeziehen, einschließlich Sensoren. So können wir beispielsweise eine Orange durch das Wort ‹Orange› kommunizieren, genau wie bei Sprachmodellen, aber auch durch eine Ansammlung von Pixeln, was bedeutet, wie die Orange aussieht, oder durch den Tastsinn, der erfasst, wie sich das Berühren einer Orange anfühlt. Wenn man verschiedene Modalitäten zusammenfügt, erhält man eine vollständigere Verkapselung der physischen Realität, die wir zu modellieren versuchen», fuhr er fort.

Forschende versuchen, die physische Realität zu modellieren, indem sie verschiedene Modalitäten zusammenfügen

Dieses Bild zeigt Orangen, die durch das Prisma mehrerer Modalitäten betrachtet werden. Jeder Teil entspricht einer anderen Art, diese Szene wahrzunehmen und zu verstehen.

Von links nach rechts stehen die Modalitäten für Oberflächennormale (die Farbe steht für die Ausrichtung der Oberfläche), Tiefe (Abstand zur Kamera, rot=nah, blau=fern), RGB (das Originalbild), Segmentierung (einzelne Objekte und Bereiche des Bildes) und Kanten (Grenzen des Objekts oder der Textur).

Auf dem Weg zu einem generischen Open-Source-Modell für eine breite Anwendung

Trotz dieser beeindruckenden Fortschritte hat die Entwicklung von 4M laut Zamir einige faszinierende Herausforderungen mit sich gebracht, darunter die Tatsache, dass das Modell keine wirklich einheitliche Darstellung für alle Modalitäten entwickelt.

«Wir glauben, dass die Modelle insgeheim schummeln und ein kleines Ensemble unabhängiger Modelle bilden. Ein Satz von Parametern löst ein Problem, ein anderer Satz von Parametern löst ein anderes, und gemeinsam scheinen sie das Gesamtproblem zu lösen. Aber sie vereinheitlichen ihr Wissen nicht wirklich in einer Weise, die eine kompakte gemeinsame Darstellung der Umwelt ermöglicht, die ein gutes Portal zur Welt wäre.»

Das VILAB-Team arbeitet weiter daran, 4M besser zu strukturieren und zu vereinheitlichen, mit dem Ziel, eine generische Open-Source-Architektur zu entwickeln, die es Fachleuten in anderen Bereichen ermöglicht, sie an ihre spezifischen Bedürfnisse anzupassen, z. B. in der Klimamodellierung oder der biomedizinischen Forschung. Das Team arbeitet auch an anderen wichtigen Aspekten, wie der weiteren Verbesserung der Skalierbarkeit und Methoden für die Spezialisierung von Modellen auf Einsatzkontexte.

«Der Sinn von Open Sourcing ist, dass die Leute das Modell mit ihren eigenen Daten und ihren eigenen Spezifikationen für sich selbst anpassen können. 4M kommt zum richtigen Zeitpunkt, und wir sind besonders begeistert davon, dass andere Bereiche diese Art der Modellierung für ihre spezifischen Anwendungsfälle übernehmen. Wir sind gespannt, wohin das führt. Aber es gibt noch viele Herausforderungen, und es gibt noch viel zu tun», so Oguzhan Fatih Kar und Roman Bachmann, Doktoranden im VILAB und Mitautoren der Studie.

Ausgehend von den Erfahrungen des Teams bei der Entwicklung von 4M und den faszinierenden Problemen, an denen sie weiterhin arbeiten, glaubt Zamir, dass es einige interessante Fragen zur zukünftigen Entwicklung von Stiftungsmodellen gibt.

«Als Menschen verfügen wir über fünf wichtige Sinne, und darüber hinaus lernen wir effizient Sprache, die dem Wissen, das bereits in diesen anderen Sinnen begründet ist, Bezeichnungen und Strukturen hinzufügt. Bei der aktuellen KI ist es genau umgekehrt: Wir haben Sprachmodelle ohne sensorischen Zugang zur Welt, die aber mit riesigen Daten- und Rechenressourcen trainiert werden. Unser Ziel ist es, die Rolle der Multimodalität zu erforschen und effizient ein fundiertes Weltmodell zu entwickeln, das für nachgelagerte Anwendungen effektiv genutzt werden kann.»

4M erweitert die Möglichkeiten bestehender Modelle in mehreren Schlüsselbereichen

  • Modalitäten: 4M ermöglicht neue Fähigkeiten wie die Vorhersage von Dutzenden von Modalitäten aus Dutzenden von anderen, cross-modales Retrieval, kontrollierbare Generierung und starke Out-of-the-Box-Leistung. Es hat überzeugend gezeigt, dass ein einziges Modell Dutzende von verschiedenen Aufgaben lösen kann, ohne dass es zu Leistungseinbußen im Vergleich zu dedizierten Einzelaufgabenmodellen und dem Stand der Technik kommt.
  • Vielfältigkeit: 4M unterstützt verschiedene Modalitäten und mehr strukturierte Daten, wie menschliche Posen, SAM-Instanzen und Metadaten für eine kontrollierbare Generierung.
  • Tokenisierung: 4M untersucht die diskrete Tokenisierung verschiedener Modalitäten wie globale Bildeinbettungen, menschliche Posen und Semantik.
  • Skalierung: Das öffentliche Modell wurde auf 3 Milliarden Parameter skaliert und auf über 500 Milliarden Token trainiert.
  • Co-Training: 4M demonstriert gleichzeitiges Co-Training für Bildverarbeitung und Sprachmodellierung.