Könnte ChatGPT ein Ingenieurdiplom erhalten?
ChatGPT trat Ende 2022 an die Öffentlichkeit und verzeichnete bereits im ersten Monat mehr als 100 Millionen Nutzende. Seitdem gibt es immer mehr Beispiele dafür, wie KI die Gesellschaft in den kommenden Jahren verändern kann, von der Beschäftigung über die Kommunikation bis hin zur Bildung.
In der Hochschulbildung werden KI-Assistenten zunehmend von Studierenden genutzt. Diese Hilfsmittel bieten zwar Möglichkeiten zur Verbesserung von Lehre und Ausbildung, stellen aber auch eine grosse Herausforderung für die Bewertung und die Lernergebnisse dar, und bisher gab es keine umfassende Studie über die potenziellen Auswirkungen auf die von Bildungseinrichtungen verwendeten Bewertungsmethoden.
Wie in ihrer neuen Studie, die in den Proceedings of the National Academy of Sciences (PNAS) veröffentlicht wurde, dargelegt, haben Forschende der EPFL Fakultät für Informatik und Kommunikation eine gross angelegte Studie über 50 EPFL-Kurse durchgeführt, um die aktuelle Leistung von Large Language Models bei der Bewertung von Hochschulkursen zu messen. Die ausgewählten Kurse stammen aus 9 Bachelor-, Master- und Online-Studiengängen und decken ein breites Spektrum an MINT-Fächern ab, darunter Informatik, Mathematik, Biologie, Chemie, Physik und Materialwissenschaften.
«Wir hatten das Glück, dass ein grosses Konsortium von EPFL-Professorinnen, -Lehrerinnen und -Lehrassistenten uns geholfen hat, den bisher grössten Datensatz von Kursmaterialien, Beurteilungen und Prüfungen zu sammeln, um ein vielfältiges Spektrum von Materialien aus allen unseren Studiengängen zu erhalten», erklärt Assistenzprofessor Antoine Bosselut, Leiter des Natural Language Processing Laboratory (NLP) und Mitglied des EPFL AI Center. «Diese Daten wurden in ein Format gebracht, von dem wir annahmen, dass es der Art und Weise, wie Studierende diese Informationen tatsächlich an Modelle weitergeben würden, am nächsten kommt.»
Die Forschenden konzentrierten sich auf GPT-3.5 und GPT-4 und verwendeten acht Prompting-Strategien, um Antworten zu erzeugen. Sie fanden heraus, dass GPT-4 im Durchschnitt 65,8 % der Fragen richtig beantwortet und sogar bei 85,1 % der Fragen mit mindestens einer Prompting-Strategie die richtige Antwort geben kann.
«Wir waren von den Ergebnissen überrascht, denn niemand hatte erwartet, dass die KI-Assistenten einen so hohen Prozentsatz an richtigen Antworten über so viele Kurse hinweg erreichen würden. Wichtig ist, dass die 65 % der richtig beantworteten Fragen mit der einfachsten Strategie ohne Wissensabfrage erreicht wurden, d. h. jeder, der kein technisches Verständnis hat, konnte dies erreichen. Mit etwas Fachwissen, was typisch ist, war es möglich, eine Erfolgsquote von 85 % zu erreichen, und das war wirklich ein Schock», sagte Anna Sotnikova, Wissenschaftlerin am NPL und Mitautorin der Studie.
Auswirkungen der KI auf das Lernen und die Kompetenzentwicklung von Schülern
Die Forschenden begründeten die Probleme im Zusammenhang mit der Nutzung dieser KI-Systeme durch Schüler theoretisch mit der Anfälligkeit – zum einen mit der Anfälligkeit für Beurteilungen oder der Frage, ob herkömmliche Beurteilungen durch diese Systeme «manipuliert» werden können, und zum anderen mit der pädagogischen Anfälligkeit, d. h., ob diese Systeme genutzt werden könnten, um die typischen kognitiven Wege zu umgehen, die Lernende zum Erlernen der erforderlichen akademischen Fähigkeiten beschreiten.
In diesem Zusammenhang werfen die Ergebnisse der Studie nach Ansicht der Forschenden die Frage auf, wie sichergestellt werden kann, dass die Lernenden in der Lage sind, die Kernkonzepte zu erlernen, die sie benötigen, um später komplexere Themen zu verstehen.
«Die Befürchtung ist, dass, wenn diese Modelle so leistungsfähig sind, wie wir vermuten, die Lernenden, die sie benutzen, den Prozess abkürzen könnten, durch den sie neue Konzepte lernen. Dies könnte dazu führen, dass die Grundlagen für bestimmte Fähigkeiten früher gelegt werden, was das spätere Erlernen komplexerer Konzepte erschweren würde. Vielleicht müssen wir eine Debatte darüber führen, was wir überhaupt unterrichten sollten, um die besten Synergien zwischen den uns zur Verfügung stehenden Technologien und dem, was Schüler in den kommenden Jahrzehnten tun werden, zu erzielen», so Bosselut.
Ein weiterer wichtiger Punkt bei der Entwicklung von KI-Assistenten ist, dass sie nicht schlechter, sondern nur besser werden. In dieser vor einem Jahr abgeschlossenen Untersuchung wurde ein einziges Modell für alle Fächer verwendet, das beispielsweise besondere Schwierigkeiten mit Mathematikfragen hatte. Jetzt gibt es spezielle Modelle für Mathematik. Die Schlussfolgerung der Forschenden ist, dass die Zahlen noch höher wären, wenn man die Studie heute wiederholen würde.
Betonung komplexer Bewertungen und Anpassung der Ausbildung
«Kurzfristig sollten wir auf härtere Prüfungen drängen – nicht im Sinne der Schwierigkeit der Fragen, sondern im Sinne der Komplexität der Prüfung selbst, bei der mehrere Fähigkeiten aus verschiedenen Konzepten, die im Laufe des Semesters im Kurs erlernt werden, in einer ganzheitlichen Prüfung zusammengeführt werden müssen», schlug Bosselut vor. «Die Modelle sind noch nicht wirklich darauf ausgelegt, auf diese Art und Weise zu planen und zu arbeiten, und letztendlich glauben wir, dass dieses projektbasierte Lernen für die Studierenden ohnehin besser ist.»
«KI stellt die Hochschulen in vielerlei Hinsicht vor Herausforderungen, zum Beispiel: Welche neuen Fähigkeiten werden für künftige Absolventen benötigt, welche veralten, wie können wir in grossem Umfang Feedback geben und wie messen wir Wissen? Diese Fragen tauchen in fast jeder Management-Sitzung an der EPFL auf, und das Wichtigste ist, dass unsere Teams Projekte initiieren, die evidenzbasierte Antworten auf so viele Fragen wie möglich liefern», so Pierre Dillenbourg, Vizepräsident für akademische Angelegenheiten an der EPFL.
Längerfristig ist klar, dass die Bildungssysteme angepasst werden müssen, und die Forschenden wollen dieses laufende Projekt näher an die Lehrpersonen heranführen, indem sie die Studien und dann die Empfehlungen auf das abstimmen, was sie für nützlich halten werden.
«Dies ist erst der Anfang, und ich denke, eine gute Analogie zu den LLMs sind die Taschenrechner, als sie eingeführt wurden, gab es eine ähnliche Reihe von Bedenken, dass Kinder keine Mathematik mehr lernen würden. Heute sind Taschenrechner in den frühen Phasen der Ausbildung in der Regel nicht erlaubt, aber in der Oberstufe und darüber hinaus werden sie erwartet und erledigen Aufgaben auf niedrigerem Niveau, während die Schüler fortgeschrittenere Fähigkeiten erlernen, die sich auf sie stützen», fügte Beatriz Borges, Doktorandin im NLP und Mitautorin der Studie, hinzu.
«Ich denke, dass wir eine ähnliche, allmähliche Anpassung und einen Wandel im Verständnis dessen erleben werden, was diese Systeme für uns tun können und was wir nicht von ihnen erwarten dürfen. Letztendlich enthalten wir praktische Vorschläge, um Schüler, Lehrpersonen, Verwaltungsangestellte und alle anderen in dieser Übergangsphase besser zu unterstützen und gleichzeitig einige der in dem Papier beschriebenen Risiken und Schwachstellen zu verringern», schloss sie.
Das EPFL AI Center vereint 80 Labors und Professoren und hat 1000 Mitglieder, die den Weg den Weg zu einer vertrauenswürdigen, zugänglichen und integrativen KI.