Können wir KI davon überzeugen, schädliche Anfragen zu beantworten?
Neue Forschungsergebnisse der EPFL zeigen, dass selbst die neuesten Large Language Models (LLMs) trotz Sicherheitstraining anfällig für einfache Eingabemanipulationen sind, die sie zu unbeabsichtigtem oder schädlichem Verhalten veranlassen können.