Können wir KI davon überzeugen, schädliche Anfragen zu beantworten?

Neue Forschungsergebnisse der EPFL zeigen, dass selbst die neuesten Large Language Models (LLMs) trotz Sicherheitstraining anfällig für einfache Eingabemanipulationen sind, die sie zu unbeabsichtigtem oder schädlichem Verhalten veranlassen können.
Cybersicherheitshologramm mit digitalem Schild 3D-Rendering © iStock

Die heutigen LLM verfügen über bemerkenswerte Fähigkeiten, die jedoch auch missbraucht werden können. So kann ein böswilliger Akteur sie beispielsweise dazu nutzen, toxische Inhalte zu produzieren, Fehlinformationen zu verbreiten und schädliche Aktivitäten zu unterstützen.

Um die Risiken des Missbrauchs zu mindern, wird üblicherweise ein Sicherheitsabgleich oder Verweigerungstraining durchgeführt, bei dem die Modelle angeleitet werden, Antworten zu generieren, die von Menschen als sicher eingestuft werden, und Antworten auf potenziell schädliche Anfragen zu verweigern.

Neue EPFL-Forschungsergebnisse, die auf der 2024 International Conference on Machine Learning's Workshop on Next Generation of AI Safety vorgestellt wurden, haben jedoch gezeigt, dass selbst die neuesten sicherheitsausgerichteten LLMs nicht gegen einfache adaptive Jailbreaking-Angriffe resistent sind - im Wesentlichen Manipulationen über die Eingabeaufforderung, um das Verhalten eines Modells zu beeinflussen und Ausgaben zu erzeugen, die von ihrem beabsichtigten Zweck abweichen.

Umgehung der LLM-Schutzmassnahmen

Wie in ihrer Studie Jailbreaking leading safety-aligned LLMs with simple adaptive attacks beschrieben, erreichten die Forscher Maksym Andriushchenko, Francesco Croce und Nicolas Flammarion vom Theory of Machine Learning Laboratory (TML) in der Fakultät für Informatik und Kommunikation zum ersten Mal eine 100%ige Erfolgsquote bei vielen führenden LLMs. Dazu gehören die neuesten LLMs von OpenAI und Anthropic, wie GPT-4o und Claude 3.5 Sonnet.

«Unsere Arbeit zeigt, dass es möglich ist, die über jedes Modell verfügbaren Informationen zu nutzen, um einfache adaptive Angriffe zu konstruieren, die wir als Angriffe definieren, die speziell auf eine bestimmte Verteidigung abzielen, und von denen wir hoffen, dass sie als wertvolle Informationsquelle für die Robustheit der führenden LLMs dienen», erklärt Nicolas Flammarion, Leiter des TML und Mitautor der Studie.

Das wichtigste Hilfsmittel der Forschenden war eine manuell entworfene Eingabeaufforderungsvorlage, die für alle unsicheren Anfragen für ein bestimmtes Modell verwendet wurde. Anhand eines Datensatzes von 50 schädlichen Anfragen erzielten sie eine perfekte Jailbreaking-Bewertung (100 %) für Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, Claude-3/3.5 und den gegnerisch trainierten R2D2.

Nutzung der Adaptivität zur Bewertung der Robustheit

Das gemeinsame Thema hinter diesen Angriffen ist, dass die Anpassungsfähigkeit der Angriffe von entscheidender Bedeutung ist: verschiedene Modelle sind anfällig für verschiedene Prompting-Templates, z. B. haben einige Modelle einzigartige Schwachstellen auf der Grundlage ihrer Application Programming Interface, und in einigen Einstellungen ist es entscheidend, den Token-Suchraum auf der Grundlage von Vorwissen einzuschränken.

«Unsere Arbeit zeigt, dass die direkte Anwendung bestehender Angriffe unzureichend ist, um die Robustheit von LLMs gegenüber Angreifern genau zu bewerten, und im Allgemeinen zu einer deutlichen Überschätzung der Robustheit führt. In unserer Fallstudie funktionierte kein einziger Ansatz ausreichend gut, so dass es entscheidend ist, sowohl statische als auch adaptive Techniken zu testen», sagte der EPFL-Doktorand Maksym Andriushchenko, der Hauptautor der Arbeit.

Diese Forschungsarbeit baut auf Andriushchenkos Doktorarbeit Understanding generalization and robustness in modern deep learning auf, in der unter anderem Methoden zur Bewertung der Robustheit von Adversarien untersucht wurden. In der Dissertation wurde untersucht, wie die Widerstandsfähigkeit neuronaler Netze gegenüber kleinen Eingabestörungen beurteilt und bewertet werden kann, und es wurde analysiert, wie sich diese Änderungen auf die Modellausgaben auswirken.

Förderung der LLM-Sicherheit

Diese Arbeit floss in die Entwicklung von Gemini 1.5 ein (wie in ihrem technischen Bericht hervorgehoben wird), einem der neuesten Modelle von Google DeepMind, das für multimodale KI-Anwendungen entwickelt wurde. Andriushchenkos Dissertation wurde kürzlich mit dem Patrick-Denantes-Gedächtnispreis ausgezeichnet, der 2010 zu Ehren von Patrick Denantes geschaffen wurde, einem Doktoranden für Kommunikationssysteme an der EPFL, der 2009 auf tragische Weise bei einem Kletterunfall ums Leben kam.

«Ich freue mich, dass meine Dissertation zu den nachfolgenden Forschungen über LLMs geführt hat, die sehr praxisrelevant und wirkungsvoll sind, und es ist wunderbar, dass Google DeepMind unsere Forschungsergebnisse zur Evaluierung seiner eigenen Modelle verwendet hat», sagte Andriushchenko, «ich fühle mich auch geehrt, den Patrick-Denantes-Preis zu gewinnen, da es viele andere sehr starke Doktoranden gab, die im letzten Jahr ihren Abschluss gemacht haben.

Andriushchenko glaubt, dass die Forschung zur Sicherheit von LLMs sowohl wichtig als auch vielversprechend ist. In dem Maße, wie die Gesellschaft LLMs als autonome Agenten einsetzt - zum Beispiel als persönliche KI-Assistenten - ist es von entscheidender Bedeutung, ihre Sicherheit und Übereinstimmung mit den gesellschaftlichen Werten zu gewährleisten.

«Es wird nicht mehr lange dauern, bis KI-Agenten verschiedene Aufgaben für uns übernehmen können, wie z. B. die Planung und Buchung unseres Urlaubs – Aufgaben, die den Zugang zu unseren Kalendern, E-Mails und Bankkonten erfordern würden. An dieser Stelle stellen sich viele Fragen zur Sicherheit und Anpassung. Auch wenn es für einen KI-Agenten angemessen sein mag, einzelne Dateien auf Anforderung zu löschen, wäre das Löschen eines ganzen Dateisystems für die Nutzenden eine Katastrophe. Dies verdeutlicht die feinen Unterschiede, die wir zwischen akzeptablen und inakzeptablen KI-Verhaltensweisen machen müssen», erklärte er.

Wenn wir diese Modelle als autonome Agenten einsetzen wollen, müssen wir zunächst sicherstellen, dass sie richtig trainiert werden, damit sie sich verantwortungsvoll verhalten und das Risiko, ernsthaften Schaden zu verursachen, minimiert wird.

«Unsere Ergebnisse weisen auf eine kritische Lücke in den derzeitigen Ansätzen zur Sicherheit von LLM hin. Wir müssen Wege finden, um diese Modelle robuster zu machen, damit sie mit Zuversicht in unser tägliches Leben integriert werden können und ihre leistungsstarken Fähigkeiten sicher und verantwortungsvoll genutzt werden können», schloss Flammarion.

Patrick-Denantes-Gedächtnispreis

Der Patrick-Denantes-Gedächtnispreis wird jährlich von einer Jury an den Verfasser einer herausragenden Doktorarbeit der Fakultät für Informatik und Kommunikationswissenschaften verliehen. Finanziell unterstützt wird er von der Familie Denantes und dem Nokia Research Center.