Start ChatGPT ChatGPT übertrifft Studenten in Einführungskursen, schneidet später jedoch schlechter ab

ChatGPT übertrifft Studenten in Einführungskursen, schneidet später jedoch schlechter ab

Von

Nina Weber

Juni 29, 2024

Glücklich hide

1 Einsatzregeln

2 KI-Jagdsoftware

„Seit dem Aufkommen großer Sprachmodelle wie chatgpt gibt es viele Einzelberichte über Studenten, die KI-generierte Arbeiten als Prüfungsaufgaben einreichen und gute Noten bekommen. Deshalb haben wir das Prüfungssystem unserer Universität in einem kontrollierten Experiment einem Stresstest auf KI-Betrug unterzogen“, sagt Peter Scarfe, Forscher an der School of Psychology and Clinical Language Sciences der University of Reading.

Sein Team erstellte über 30 gefälschte Konten von Psychologiestudenten und nutzte sie, um von ChatGPT-4 erstellte Antworten auf Prüfungsfragen einzureichen. Die anekdotischen Berichte stimmten – der Einsatz von KI blieb weitgehend unentdeckt und im Durchschnitt schnitt ChatGPT besser ab als menschliche Studenten.

Einsatzregeln

Scarfes Team reichte KI-generierte Arbeiten in fünf Bachelormodulen ein, die die Kurse abdecken, die während aller drei Studienjahre für einen Bachelor-Abschluss in Psychologie benötigt werden. Die Aufgaben waren entweder 200 Wörter lange Antworten auf kurze Fragen oder ausführlichere Aufsätze mit etwa 1.500 Wörtern. „Die Prüfer der Prüfungen wussten nichts von dem Experiment. In gewisser Weise wussten die Studienteilnehmer nicht, dass sie an der Studie teilnahmen, aber wir haben die erforderlichen Genehmigungen, um damit fortzufahren“, behauptet Scarfe.

Kürzere Einreichungen wurden einfach durch Kopieren und Einfügen der Prüfungsfragen in ChatGPT-4 erstellt, zusammen mit der Aufforderung, die Antwort unter 160 Wörtern zu halten. Die Essays wurden auf die gleiche Weise angefordert, aber die erforderliche Wortzahl wurde auf 2.000 erhöht. Durch diese Festlegung der Grenzen konnte Scarfes Team ChatGPT-4 dazu bringen, Inhalte zu erstellen, die der erforderlichen Länge nahe genug kamen. „Die Idee war, diese Antworten ohne jegliche Bearbeitung einzureichen, abgesehen von den Essays, bei denen wir nur minimale Formatierungen vorgenommen haben“, sagt Scarfe.

Siehe auch Auf der Suche nach den perfekten „Frohes Neues Jahr 2024“-Wünschen? Erfahren Sie, was Bard, ChatGPT und Copilot vorschlagen

Insgesamt haben Scarfe und seine Kollegen 63 KI-generierte Einsendungen in das Prüfungssystem eingeschleust. Selbst ohne Bearbeitung oder Bemühungen, den KI-Einsatz zu verbergen, blieben 94 Prozent davon unentdeckt, und fast 84 Prozent erzielten bessere Noten (etwa eine halbe Note besser) als eine zufällig ausgewählte Gruppe von Studenten, die dieselbe Prüfung ablegten.

„Wir haben eine Reihe von Nachbesprechungen mit den Leuten abgehalten, die diese Prüfungen korrigiert haben, und sie waren ziemlich überrascht“, sagt Scarfe. Ein Grund dafür war, dass die meisten der erkannten KI-Einreichungen nicht deshalb markiert wurden, weil sie zu repetitiv oder roboterhaft waren – sie wurden markiert, weil sie zu gut waren.

Was wirft eine Frage auf: Was tun wir dagegen?

KI-Jagdsoftware

„Im Rahmen dieser Studie haben wir viel über Techniken zur Erkennung von KI-generierten Inhalten geforscht“, sagt Scarfe. Ein solches Tool ist GPTZero von Open AI; andere sind KI-basierte Texterkennungssysteme wie das von Turnitin, einem Unternehmen, das sich auf die Bereitstellung von Tools zur Erkennung von Plagiaten spezialisiert hat.

„Das Problem mit solchen Tools ist, dass sie im Labor normalerweise gut funktionieren, ihre Leistung in der realen Welt jedoch deutlich abnimmt“, erklärte Scarfe. Open AI behauptet, die GPZero kann KI-generierten Text in 26 Prozent der Fälle als „wahrscheinlich“ KI kennzeichnen, mit einer eher besorgniserregenden Falsch-Positiv-Rate von 9 Prozent. Das System von Turnitin hingegen war beworben wie das Erkennen von 97 Prozent der ChatGPT- und GPT-3-Texte im Labor mit nur einem einzigen Fehlalarm bei hundert Versuchen. Laut Scarfes Team schnitt die veröffentlichte Betaversion dieses Systems jedoch deutlich schlechter ab.