× schließen
Bildnachweis: Unsplash/CC0 Public Domain
In einer Studie veröffentlicht in Wissenschaftliche BerichteEin Forschungsteam der Universität Passau verglich die Qualität maschinell generierter Inhalte mit Aufsätzen von Schülern weiterführender Schulen. Das Fazit: Der KI-basierte Chatbot schnitt in allen Kriterien besser ab, insbesondere wenn es um die Sprachbeherrschung ging.
Das Sprachmodell chatgpt macht enorme Fortschritte. Nachdem Version 3.5 Anfang 2023 das Bayerische Abitur (eine Prüfung, die am Ende der weiterführenden Schule in Deutschland abgelegt wird) nicht bestanden hatte, erhielt die Nachfolgeversion 4 knapp ein halbes Jahr später eine solide 2.
Eine Studie der Universität Passau konnte nun zeigen, inwieweit KI-generierte Inhalte das Schulsystem revolutionieren könnten. Die Forscher experimentierten auch mit den beiden Sprachmodellversionen.
In einer Studie mit dem Titel „Ein groß angelegter Vergleich von von Menschen geschriebenen mit ChatGPT-generierten Essays“, veröffentlicht in Wissenschaftliche Berichte, kamen sie zu dem Schluss, dass die Maschine bessere englische Aufsätze schreibt. Sie bewerteten maschinell erstellte Texte und Aufsätze von Schülern weiterführender Schulen nach Richtlinien des Niedersächsischen Kultusministeriums.
„Ich war überrascht, wie eindeutig das Ergebnis war“, sagt Professor Steffen Herbold, Inhaber des Lehrstuhls für KI-Engineering an der Universität Passau und Initiator der Studie. Beide Open-AI-Chatbot-Versionen schnitten besser ab als die Studenten, wobei GPT-3 im Mittelfeld lag und GPT-4 die beste Punktzahl erreichte. „Das zeigt, dass Schulen vor diesen neuen Tools nicht die Augen verschließen sollten.“
Nachdenken über KI-Modelle
Die interdisziplinäre Studie wurde von den Informatikern in Zusammenarbeit mit der Computerlinguistin Professorin Annette Hautli-Janisz und der Informatikdidaktikerin Ute Heuer durchgeführt. „Ich finde es wichtig, Lehrer auf die Herausforderungen und Chancen vorzubereiten, die mit der zunehmenden Verfügbarkeit von Modellen der künstlichen Intelligenz einhergehen“, sagt Heuer.
Sie initiierte einen Schulungskurs zum Thema „ChatGPT – Chance und Herausforderung“, den das Forschungsteam durchführte. An der Veranstaltung, die im März 2023 stattfand, nahmen 139 Lehrkräfte teil, die überwiegend an deutschen Gymnasien unterrichten. Die Lehrer wurden zunächst über ausgewählte technologische Ideen hinter allgemeinen Textgeneratoren und ChatGPT informiert. In der Praxisphase ging es dann gezielt um englischsprachige Texte, bei denen den Schulungsteilnehmern die Herkunft dieser Texte im Unklaren blieb.
Mithilfe von Fragebögen wurden die Lehrkräfte gebeten, die ihnen vorgelegten Aufsätze anhand der vom Niedersächsischen Kultusministerium festgelegten Notenskalen zu bewerten. Die Inhalte wurden anhand der Kriterien Thema, Vollständigkeit und Logik sowie sprachlicher Aspekte wie Wortschatz, Komplexität und Sprachbeherrschung bewertet. Das Forscherteam aus Passau definierte für jedes Kriterium eine Skala von 0 bis 6, wobei 0 die schlechteste und 6 die beste Bewertung darstellt.
Bei der Sprachbeherrschung schneidet das Gerät überdurchschnittlich gut ab
Einhundertelf Lehrer füllten den gesamten Fragebogen aus und bewerteten insgesamt zweihundertsiebzig englischsprachige Aufsätze. Den größten Unterschied fand das Forschungsteam bei der Sprachbeherrschung, wo die Maschine 5,25 (GPT-4) bzw. 5,03 Punkte (GPT-3) erreichte, während die Schüler durchschnittlich 3,9 Punkte erzielten.
„Das bedeutet nicht, dass die Studierenden über schlechte Englischkenntnisse verfügen. Vielmehr sind die von der Maschine erzielten Ergebnisse außergewöhnlich hoch“, betont Annette Hautli-Janisz, Juniorprofessorin für Computerrhetorik und natürliche Sprachverarbeitung an der Universität Passau.
Für Hautli-Janisz, die gemeinsam mit der Doktorandin Zlata Kikteva die Texte aus sprachwissenschaftlicher Perspektive analysierte, liefert die Studie weitere spannende Einblicke in die Sprachentwicklung der Maschine. „Wir haben gesehen, wie sich die Modelle im Laufe der Zeit verändern und können mit unseren Studien nachweisen, dass sie sich bei der Erfüllung der ihnen gestellten Aufgabe verbessert haben.“
Die Forscher konnten auch Unterschiede zwischen menschlicher und maschineller Sprache feststellen. „Wenn wir in Zukunft mehr KI-generierte Texte lesen, müssen wir uns fragen, ob und wie sich das auf unsere menschliche Sprache auswirkt“, sagt Hautli-Janisz.
Mehr Informationen: Steffen Herbold et al., Ein groß angelegter Vergleich von von Menschen geschriebenen und von ChatGPT generierten Aufsätzen, Wissenschaftliche Berichte (2023). DOI: 10.1038/s41598-023-45644-9
Provided by
Universität Passau