chatgpt und GPT-4 schnitten bei einem standardisierten Test naturwissenschaftlicher Fragen besser ab als die Mehrheit der Schüler der Klassen 4, 8 und 12.

skynesher/Getty Images

The Nation's Report Card, auch bekannt als The National Assessment of Educational Progress, NAEP, ist ein standardisierter Test der Schülerfähigkeiten in den USA, die seit 1969 vom US Board of Education verwaltet wird. Der Test wird allgemein als Maßstab für den Stand der Schüler in Bezug auf Lesen, Schreiben, Rechnen, Verstehen wissenschaftlicher Experimente und vielen anderen Kompetenzbereichen genannt.

Der Test hatte letztes Jahr eine düstere Botschaft für Lehrer, Administratoren und Eltern: Die Mathematikergebnisse von Teenagern zeigten der größte Rückgang aller Zeiten seit Beginn der Bewertung, inmitten eines allgemeinen langfristigen Trends sinkender Mathematik- und Lesenoten.

Außerdem: Wie Technikprofis im Zeitalter der KI bei der Arbeit überleben und erfolgreich sein können

Der Rückgang geht mit dem Aufstieg der generativen künstlichen Intelligenz (KI) wie ChatGPT von OpenAI einher, und offensichtlich fragen sich viele Menschen, ob es einen Zusammenhang gibt.

„ChatGPT und GPT-4 übertrafen durchweg die Mehrheit der Studenten, die jeden einzelnen Punkt in den NAEP-Wissenschaftstests beantworteten“, schreiben Xiaoming Zhai von der University of Georgia und Kollegen vom AI4STEM Education Center der Universität und vom College of Alabama der University of Alabama Bildung, in einem Artikel Diese Woche auf dem Preprint-Server arXiv veröffentlicht„Können generative KI und Chatgpt Menschen bei kognitiv anspruchsvollen Problemlösungsaufgaben in der Wissenschaft übertreffen?“

Auch: KI im Jahr 2023: Ein Jahr der Durchbrüche, das kein menschliches Ding unverändert ließ

Der Bericht sei „die erste Studie, die sich auf den Vergleich hochmoderner GAI- und K-12-Schüler bei der Problemlösung in Naturwissenschaften konzentriert“, erklären Zhai und sein Team.

Im vergangenen Jahr gab es zahlreiche Studien, die zeigten, dass ChatGPT „die menschliche Leistung in der Praxis und bei Transferproblemen erreichen kann und sich an den wahrscheinlichsten Ergebnissen orientiert, die von einer menschlichen Stichprobe erwartet werden“, was, wie sie schreiben, „die Fähigkeit von ChatGPT unterstreicht, den durchschnittlichen Erfolg widerzuspiegeln.“ Rate menschlicher Probanden und demonstriert damit seine Kompetenz bei kognitiven Aufgaben.

Die Autoren erstellten eine NAEP-Prüfung für ChatGPT und GPT-4, indem sie 33 Multiple-Choice-Fragen zum Lösen naturwissenschaftlicher Probleme sowie vier Fragen auswählten, die als „ausgewählte Antworten“ bezeichnet werden und bei denen der Testteilnehmer eine geeignete Antwort aus einer Frage auswählt Liste nach dem Lesen einer Passage. Es gibt drei Fragen, die ein Szenario darstellen, mit Sequenzen verbundener Fragen; und 11 „konstruierte Antwort“-Fragen und 3 „erweiterte konstruierte Antwort“-Fragen, bei denen der Testteilnehmer eine Antwort schreiben muss, anstatt aus den angebotenen Antworten auszuwählen.

Ein Beispiel für eine wissenschaftliche Frage könnte ein imaginäres Szenario eines zwischen zwei Nägeln gespannten Gummibandes sein, bei dem der Schüler sagen soll, warum es beim Zupfen ein Geräusch erzeugt und was dazu führen würde, dass das Geräusch eine höhere Tonhöhe erreicht. Auf diese Frage muss der Schüler eine Antwort über die Vibrationen der Luft durch das Gummiband schreiben und darüber, wie eine zunehmende Spannung die Tonhöhe der Vibration erhöhen könnte.

Zhai-Et-Al-2024-Naep-Sample-Question

Beispiel einer konstruierten Antwortfrage, die das wissenschaftliche Denken testet.

Universität von Georgia

Die Fragen waren alle auf die Klassen 4, 8 und 12 ausgerichtet. Die Ergebnisse von ChatGPT und GPT-4 wurden im Durchschnitt mit den anonymen Antworten menschlicher Testteilnehmer verglichen, die den Autoren vom Bildungsministerium zur Verfügung gestellt wurden.

ChatGPT und GPT-4 beantworteten die Fragen mit einer Genauigkeit, die „über dem Median“ lag – und tatsächlich schnitten die menschlichen Schüler bei zahlreichen Tests im Vergleich zu den beiden Programmen miserabel ab. ChatGPT schnitt bei den Fragen der Klassen 4, 8 und 12 besser ab als 83 %, 70 % und 81 % der Schüler, und GPT-4 war ähnlich, vor 74 %, 71 % bzw. 81 %.

Die Autoren haben eine Theorie darüber, was vor sich geht, und sie zeigt in deutlichen Worten, welche Art von Stress standardisierte Tests verursachen. Menschliche Studenten sind am Ende so etwas wie die berühmte Geschichte von John Henry versuchen, mit dem dampfbetriebenen Gesteinsbohrer zu konkurrieren.

Die Autoren stützen sich auf einen psychologischen Rahmen, der als „kognitive Belastung„, der misst, wie intensiv eine Aufgabe das Arbeitsgedächtnis des menschlichen Gehirns fordert, den Ort, an dem Ressourcen für kurze Zeit gespeichert werden. Ähnlich wie Computer-DRAM hat das Kurzzeitgedächtnis eine begrenzte Kapazität und Dinge werden aus dem Kurzzeitgedächtnis gelöscht. Begriffsgedächtnis, da neue Fakten berücksichtigt werden müssen.

Außerdem: Ich habe ChatGPT mit Bard, Claude und Copilot überprüft – und es wurde seltsam

„Bei der kognitiven Belastung im naturwissenschaftlichen Unterricht geht es um die geistige Anstrengung, die Schüler benötigen, um wissenschaftliche Erkenntnisse und Konzepte zu verarbeiten und zu verstehen“, berichten die Autoren. Insbesondere kann das Arbeitsgedächtnis durch die verschiedenen Aspekte eines Tests beansprucht werden, die „alle um diese begrenzten Arbeitsgedächtnisressourcen konkurrieren“, beispielsweise durch den Versuch, alle Variablen einer Testfrage gleichzeitig im Auge zu behalten.

Maschinen haben eine größere Fähigkeit, Variablen im DRAM zu verwalten, und ChatGPT und GPT-4 können – durch ihre verschiedenen neuronalen Gewichte und den expliziten Kontext, der in die Eingabeaufforderung eingegeben wird – deutlich mehr Eingaben speichern, betonen die Autoren.

Die Sache spitzt sich zu, wenn die Autoren die Fähigkeiten jedes einzelnen Schülers im Zusammenhang mit der Komplexität der Frage betrachten. Der durchschnittliche Student gerät ins Stocken, wenn die Fragen schwieriger werden, ChatGPT und GPT-4 jedoch nicht.

„Für jede der drei Klassenstufen sind bei naturwissenschaftlichen NAEP-Bewertungen mit erhöhtem kognitiven Anspruch höhere durchschnittliche Leistungswerte der Schüler erforderlich. Die Leistung von ChatGPT und GPT-4 hat jedoch möglicherweise keinen wesentlichen Einfluss auf die gleichen Bedingungen, mit Ausnahme der niedrigsten Note 4.“ .“

Außerdem: wie man Bing Image Creator verwendet (und warum es besser als je zuvor ist)

Mit anderen Worten: „Ihre mangelnde Sensibilität gegenüber kognitiven Anforderungen zeigt, dass GAI das Potenzial hat, das Arbeitsgedächtnis zu überwinden, unter dem Menschen leiden, wenn sie für die Probleme erforderliches Denken höherer Ordnung nutzen.“

Die Autoren argumentieren, dass die Fähigkeit der generativen KI, die Grenzen des Arbeitsgedächtnisses des Menschen zu überwinden, „erhebliche Auswirkungen auf die Entwicklung von Bewertungspraktiken innerhalb von Bildungsparadigmen“ hat und dass „für Pädagogen die Notwendigkeit besteht, traditionelle Bewertungspraktiken zu überarbeiten“.

Sie stellen fest, dass generative KI im Leben der Studierenden „allgegenwärtig“ sei, und so würden menschliche Studierende die Tools nutzen und auch bei standardisierten Tests wie NAEP von den Tools übertroffen werden.

„Angesichts der bekannten Unempfindlichkeit des GAI gegenüber kognitiver Belastung und seiner potenziellen Rolle als Instrument für die zukünftigen beruflichen Bemühungen der Schüler wird es von entscheidender Bedeutung, die Bildungsbewertungen neu zu kalibrieren“, schreiben Zhai und sein Team.

Zhai-Et-Al-2024-Gpt-4-And-Chatgpt-Scores-On-Naep-Comparing-To-Human-Students

Die durchschnittliche Leistung menschlicher Schüler bei Fragen lag bei den meisten Fragen unter GPT-4 und ChatGPT bei Schülern der zwölften Klasse.

Universität von Georgia

„Der Schwerpunkt dieser Beurteilungen sollte sich von der bloßen Messung der kognitiven Intensität hin zu einer stärkeren Betonung der Kreativität und der Anwendung von Wissen in neuartigen Kontexten verlagern“, raten sie.

„Dieser Wandel erkennt die wachsende Bedeutung innovativen Denkens und Problemlösungsfähigkeiten in einer Landschaft an, die zunehmend von fortschrittlichen GAI-Technologien beeinflusst wird.“

Außerdem: Das sind die Jobs, die am ehesten von KI übernommen werden

Sie stellen fest, dass die Lehrer „derzeit nicht auf einen scheinbar „bedeutenden Wandel“ in der Pädagogik vorbereitet“ seien. Dieser Wandel bedeutet, dass es an den Bildungseinrichtungen liegt, sich auf die berufliche Weiterentwicklung der Lehrkräfte zu konzentrieren.

Eine interessante Fußnote der Studie sind die Einschränkungen der beiden Programme. In bestimmten Fällen forderte das eine oder andere Programm zusätzliche Informationen zu einer wissenschaftlichen Frage an. Wenn eines der Programme fragte, das andere jedoch nicht: „Das Modell, das keine zusätzlichen Informationen anforderte, lieferte oft unbefriedigende Antworten.“ Das heißt, so kommen die Autoren zu dem Schluss, dass „diese Modelle stark auf die bereitgestellten Informationen angewiesen sind, um genaue Antworten zu generieren“.

Die Maschinen sind davon abhängig, was entweder in der Eingabeaufforderung oder in den gelernten Parametern des Modells steht. Diese Lücke eröffnet den Menschen möglicherweise die Möglichkeit, dort zu glänzen, wo keine der Quellen die für Problemlösungsaktivitäten erforderlichen Erkenntnisse enthält.

5/5 - (346 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein