Forscher führten ein Experiment durch, das zeigte, dass KI in der Lage ist, Universitätsprüfungen erfolgreich zu bestehen und dabei von speziellen Programmen unentdeckt zu bleiben. chatgpt-Prüfungsarbeiten erzielten eine höhere Punktzahl als Studentenarbeiten. Interessanterweise wurden einige KI-Arbeiten nicht gefunden, weil sie roboterhaft waren, sondern weil ihre Gesamtqualität zu hoch war – sie lag deutlich über der durchschnittlichen Arbeit normaler Studenten. Systeme zur Erkennung von KI-generierten Inhalten, darunter auch solche von OpenAI selbst, scheiterten im Test völlig.
Ein Team von Wissenschaftlern der University of Reading in England (University of Reading) unter der Leitung von Peter Scarfe führte ein groß angelegtes Experiment durch, um zu testen, wie effektiv moderne Systeme der künstlichen Intelligenz Universitätsprüfungen bewältigen können. Die Forscher erstellten mehr als 30 Dummy-Konten von Psychologiestudenten und nutzten diese, um Prüfungen mit den von ChatGPT generierten Antworten abzulegen. Berichte Veröffentlichung der Ars Technica. Das Experiment umfasste fünf Bachelor-Module der Psychologie, einschließlich Aufgaben für alle drei Studienjahre. Bei den Aufgaben handelte es sich entweder um Antworten auf kurze Fragen mit 200 Wörtern oder um komplexere Aufsätze mit etwa 1.500 Wörtern. Die Prüfer wussten jedoch nichts von dem Experiment.
Kürzere Antworten wurden einfach durch Kopieren und Einfügen der Prüfungsfragen in ChatGPT-4 vorbereitet, zusammen mit der Aufforderung, sie auf 160 Wörter oder weniger zu beschränken. Aufsätze wurden auf die gleiche Weise angefordert, die erforderliche Wortzahl wurde jedoch auf 2000 erhöht. Durch die Festlegung der Grenzwerte auf diese Weise konnte das Team von Scarf erreichen, dass ChatGPT-4 Inhalte produziert, die der erforderlichen Länge nahe genug kommen. „Die Idee war, diese Antworten ohne jegliche Bearbeitung einzureichen, mit Ausnahme der Aufsätze, bei denen wir eine minimale Formatierung angewendet haben“, erklärte Scarfe.
Die Ergebnisse waren verblüffend: 94 % der von KI erstellten Arbeiten wurden von speziellen Algorithmen auf Robotizität getestet, die die Ersetzung von Antworten durch echte Schüler erkennen sollten. Darüber hinaus erhielten fast 84 % dieser Arbeiten bessere Noten als studentische Arbeiten, im Durchschnitt einen halben Punkt besser. „Die Prüfer waren von den Ergebnissen ziemlich überrascht“, sagte Scarfe. Darüber hinaus ist es interessant, dass einige KI-Arbeiten nicht entdeckt wurden, weil sie roboterhaft waren, sondern weil ihre Qualität zu hoch war – sie lag deutlich über der durchschnittlicher studentischer Arbeiten.
Allerdings fielen nicht alle Ergebnisse zugunsten der KI aus. Im Abschlusskurs, der ein tieferes Verständnis und komplexe analytische Fähigkeiten erforderte, schnitten menschliche Studenten besser ab als ChatGPT.
Das Experiment zeigte auch die Grenzen bestehender Systeme zur Erkennung von KI-generierten Inhalten auf. Tools wie GPTZero von Open AI und das System von Turnitin funktionieren im Labor gut, aber ihre Wirksamkeit lässt in einer realen Situation deutlich nach, sagt Scarfe. Open AI behauptet beispielsweise, dass GPTZero KI-generierten Text in 26 Prozent der Fälle als „wahrscheinliche“ KI kennzeichnen kann, mit einer ziemlich alarmierenden Falsch-Positiv-Rate von 9 Prozent. Andererseits wurde beworben, dass das System von Turnitin 97 % der im Labor geschriebenen ChatGPT- und GPT-3-Daten mit nur einem Fehlalarm pro hundert Versuchen erkennt. Laut dem Team von Scarf schnitt die veröffentlichte Betaversion dieses Systems jedoch deutlich schlechter ab.
Scarfe betonte, dass die Universitäten KI anpassen und in den Bildungsprozess integrieren müssen, da sich die KI ständig verbessert und zuverlässige Methoden zur Erkennung ihres Einsatzes fehlen. „Die Aufgabe der modernen Universität besteht darin, Studierende auf eine berufliche Laufbahn vorzubereiten, und die Realität ist, dass sie nach ihrem Abschluss zweifellos verschiedene Werkzeuge der künstlichen Intelligenz nutzen werden“, sagt der Wissenschaftler.
Das Experiment wirft das Problem auf, bestehende Lehr- und Prüfungsmethoden zu überarbeiten – sie entsprechen nicht mehr den Lebenswirklichkeiten.