Auf den Spuren der geheimnisvollen «Ursuppe» von ChatGPT
 

Der KI-Chatbot ChatGPT tauchte im November 2022 auf der Bildfläche auf. Er kann Aufsätze schreiben, WordPress-Plugins programmieren und sogar eine MBA-Prüfung bestehen – doch die Wissenschaftlerinnen verstehen immer noch nicht ganz, wie diese allgemeinen Programme der künstlichen Intelligenz funktionieren. Eine neue EPFL-Studie will dies ändern. 
© Illustration erstellt mit "Midjourney" von Alexandre Sadeghi

Innerhalb weniger Wochen nach der Veröffentlichung von ChatGPT von Open AI erreichte sie 100 Millionen Nutzerinnen und Nutzer und war damit die am schnellsten wachsende Verbraucheranwendung in der Geschichte. Zwei Monate später kündigte Google die Veröffentlichung seiner eigenen Bard A.I. an. Einen Tag später gab Microsoft bekannt, dass es eine neue Version von GPT in Bing integrieren wird. Diese leistungsstarken Programme für allgemeine künstliche Intelligenz werden sich auf alles auswirken, von der Bildung bis hin zu den Arbeitsplätzen der Menschen – was zu der Behauptung von Sam Altman, CEO von Open AI, führt, dass allgemeine künstliche Intelligenz zum Untergang des Kapitalismus führen wird.

Handelt es sich also um einen Marketing-Hype oder um den Beginn einer KI, die die Welt, wie wir sie kennen, verändern wird? «Es ist unklar, was dies im Moment für die Menschheit, die Arbeitswelt und unsere persönlichen Interaktionen bedeutet», sagt Robert West, Assistenzprofessor an der EPFL-Fakultät für Computerwissenschaftten und Kommunikation.

West arbeitet auf dem Gebiet der Verarbeitung natürlicher Sprache mit neuronalen Netzen, die er als das Substrat bezeichnet, auf dem all diese allgemeinen Programme der künstlichen Intelligenz laufen. In den letzten Jahren hat sich die Industrie darauf konzentriert, diese mit exponentiellem Wachstum immer grösser zu machen. GPT-3 (das Kern-Sprachmodell von ChatGPT) hat 175 Milliarden neuronale Netzwerkparameter, während Googles PaLM 540 Milliarden hat. Es wird gemunkelt, dass GPT-4 noch mehr Parameter haben wird.

Die Grösse dieser neuronalen Netze bedeutet, dass sie jetzt in der Lage sind, Dinge zu tun, die früher völlig unvorstellbar waren. Doch abgesehen von den ethischen und gesellschaftlichen Auswirkungen dieser Modelle hat das Training solch massiver Programme auch erhebliche finanzielle und ökologische Folgen. Dänische Forschende schätzten, dass das Training von GPT-3 im Jahr 2020 die Energiemenge benötigte, die dem Jahresverbrauch von 126 dänischen Haushalten entspricht, und damit einen CO2-Fussabdruck verursachte, der dem einer Autofahrt von 700 000 Kilometern entspricht.

Robert West // style Wes Anderson & 70s © Hergestellt mit “Midjourney” von Alexandre Sadeghi© 2023 EPFL

Jedes Mal die ganze Brühe umrühren

«Ein hochmodernes Modell wie GPT-3 benötigt alle 175 Milliarden Parameter eines neuronalen Netzes, nur um zwei Zahlen zu addieren, z. B. 48 + 76, aber mit ‹nur› 6 Milliarden Parametern macht es einen wirklich schlechten Job und schafft es in 90 % der Fälle nicht», sagt West.

«Der Grund für diese Ineffizienz liegt darin, dass neuronale Netze derzeit so etwas wie eine Ursuppe sind. Wenn man sich die Modelle selbst ansieht, sind sie nur lange Listen von Zahlen, sie sind in keiner Weise strukturiert wie Sequenzen von Strings oder Molekülen oder DNA. Ich sehe diese Netzwerke als eine Brühe, die das Potenzial hat, Struktur zu schaffen», so West weiter.

Das Data Science Lab von West hat kürzlich einen Starting Grant des Schweizerischen Nationalfonds in Höhe von 1,8 Millionen Franken erhalten, um genau dies zu tun. Eine der ersten Aufgaben des Forschungsteams wird darin bestehen, das grundlegende Problem der Umwandlung der Hunderte von Milliarden unstrukturierter Zahlen in den Modellen in klare symbolische Darstellungen zu lösen, und zwar mithilfe der symbolischen Autokodierung.

«In den heutigen Sprachmodellen wie GPT-3 ist das zugrundeliegende Wissen über seine Ursuppe von 175 Milliarden Parametern verteilt. Wir können die Kiste nicht öffnen und auf alle gespeicherten Fakten zugreifen, so dass wir als Menschen nicht wissen, was das Modell weiss, wenn wir es nicht fragen. Wir können also nicht einfach etwas Falsches reparieren, weil wir nicht wissen, was falsch ist», erklärt West: «Wir werden die selbstüberwachte natürliche Sprachverarbeitung vom Text zum Wissen und zurück führen, wobei das Ziel darin besteht, ein neues Paradigma für einen Bereich namens neurosymbolische natürliche Sprachverarbeitung vorzuschlagen. Man kann sich das so vorstellen, dass wir die rohe Kraft neuronaler Netze zähmen, indem wir sie durch symbolische Darstellungen leiten.»

On-Chip-Neurowissenschaft

West argumentiert, dass dieser Ansatz viele Dinge für die KI der nächsten Generation freisetzen wird, die derzeit noch fehlen, darunter die Korrekturfähigkeit – wenn es eine falsche Antwort gibt, ist es möglich, in das Symbol zu gehen und sie zu ändern (in einer Suppe mit 175 Milliarden Parametern wäre es schwierig zu wissen, wo man anfangen soll); Fairness – es wird möglich sein, die Darstellung von Fakten über Frauen und Minderheiten zu verbessern, weil es möglich sein wird, Informationen zu überprüfen; und Interpretierbarkeit – das Modell wird in der Lage sein, den Menschen zu erklären, warum es zu einer bestimmten Schlussfolgerung gekommen ist, weil es über explizite Darstellungen verfügt.

Darüber hinaus wird ein solches Modell in der Lage sein, sich selbst zu betrachten, indem es Schlussfolgerungen zieht und bereits bekannte Fakten zu neuen Fakten kombiniert – etwas, das Menschen ständig tun. Es wird sich Fakten merken und Fakten vergessen, indem es einfach einen falschen Eintrag aus seiner Datenbank löscht, was derzeit sehr schwierig ist.

«Wenn wir versuchen, moderne Modelle wie GPT-3 zu verstehen, betreiben wir im Grunde Neurowissenschaft, indem wir virtuelle Sonden einstecken, um zu verstehen, wo Fakten überhaupt repräsentiert werden. Wenn wir etwas studieren, das in der Natur vorkommt, versuchen wir etwas zu verstehen, das wir nicht gebaut haben, aber diese Dinge haben unsere Computer nie verlassen und wir verstehen einfach nicht, wie sie funktionieren.»

Überarbeitung der Wikipedia

Der letzte Teil der Forschungsarbeit wird die breite Anwendbarkeit dieser neuen Methoden demonstrieren und sie in die Praxis umsetzen, um Wikipedia zu revolutionieren. Um die freiwilligen Redakteurinnen und Redakteure zu unterstützen, wird das neue Modell von West versuchen, wichtige Aufgaben zu übernehmen und zu automatisieren, z. B. die Korrektur und Aktualisierung veralteter Informationen und die Synchronisierung dieses Wissens in allen 325 Sprachen der Plattform.

West sieht in der Forschungsarbeit seines Teams auch wichtige finanzielle und ökologische Vorteile: «Im akademischen Bereich verfügen wir nicht über die Ressourcen des privaten Sektors, daher ist es am besten, wenn wir einen Paradigmenwechsel herbeiführen, anstatt das bereits bestehende Paradigma zu erweitern», erklärt er. «Ich denke, dass wir hier Rechenressourcen einsparen können, indem wir das, was wir haben, intelligenter nutzen – und das ist eine Win-Win-Situation. Die Industrie kann unsere Methoden übernehmen und sie in ihre eigenen Modelle einbauen, um letztendlich energieeffizientere Modelle zu haben, die billiger zu betreiben sind.»

Ob zum Guten oder zum Schlechten, es ist klar, dass mit der Veröffentlichung von ChatGPT der Geist aus der Flasche ist. Wie auch immer wir die sehr realen Herausforderungen der Zukunft meistern werden, da allgemeine Modelle der künstlichen Intelligenz in einem Tempo voranschreiten, das für viele überraschend ist, West bleibt positiv und findet seine Arbeit spannend, da sie seiner Meinung nach dazu beiträgt, Kommunikationsbarrieren zwischen Menschen, aber auch zwischen Menschen und Maschinen zu überwinden.

«Das ist ein Anfang. Es ist bereits eine technische Herausforderung, aber es ist wirklich nur ein Sprungbrett zu etwas, das sich ständig selbst verbessern kann und viele andere Vorteile bietet.»