Beispiel einer konstruierten Antwortfrage, die das wissenschaftliche Denken testet.
Universität von Georgia
Die Fragen waren alle auf die Klassen 4, 8 und 12 ausgerichtet. Die Ergebnisse von ChatGPT und GPT-4 wurden im Durchschnitt mit den anonymen Antworten menschlicher Testteilnehmer verglichen, die den Autoren vom Bildungsministerium zur Verfügung gestellt wurden.
ChatGPT und GPT-4 beantworteten die Fragen mit einer Genauigkeit, die „über dem Median“ lag – und tatsächlich schnitten die menschlichen Schüler bei zahlreichen Tests im Vergleich zu den beiden Programmen miserabel ab. ChatGPT schnitt bei den Fragen der Klassen 4, 8 und 12 besser ab als 83 %, 70 % und 81 % der Schüler, und GPT-4 war ähnlich, vor 74 %, 71 % bzw. 81 %.
Die Autoren haben eine Theorie darüber, was vor sich geht, und sie zeigt in deutlichen Worten, welche Art von Stress standardisierte Tests verursachen. Menschliche Studenten sind am Ende so etwas wie die berühmte Geschichte von John Henry versuchen, mit dem dampfbetriebenen Gesteinsbohrer zu konkurrieren.
Die Autoren stützen sich auf einen psychologischen Rahmen, der als „kognitive Belastung„, der misst, wie intensiv eine Aufgabe das Arbeitsgedächtnis des menschlichen Gehirns fordert, den Ort, an dem Ressourcen für kurze Zeit gespeichert werden. Ähnlich wie Computer-DRAM hat das Kurzzeitgedächtnis eine begrenzte Kapazität und Dinge werden aus dem Kurzzeitgedächtnis gelöscht. Begriffsgedächtnis, da neue Fakten berücksichtigt werden müssen.
Außerdem: Ich habe ChatGPT mit Bard, Claude und Copilot überprüft – und es wurde seltsam
„Bei der kognitiven Belastung im naturwissenschaftlichen Unterricht geht es um die geistige Anstrengung, die Schüler benötigen, um wissenschaftliche Erkenntnisse und Konzepte zu verarbeiten und zu verstehen“, berichten die Autoren. Insbesondere kann das Arbeitsgedächtnis durch die verschiedenen Aspekte eines Tests beansprucht werden, die „alle um diese begrenzten Arbeitsgedächtnisressourcen konkurrieren“, beispielsweise durch den Versuch, alle Variablen einer Testfrage gleichzeitig im Auge zu behalten.
Maschinen haben eine größere Fähigkeit, Variablen im DRAM zu verwalten, und ChatGPT und GPT-4 können – durch ihre verschiedenen neuronalen Gewichte und den expliziten Kontext, der in die Eingabeaufforderung eingegeben wird – deutlich mehr Eingaben speichern, betonen die Autoren.
Die Sache spitzt sich zu, wenn die Autoren die Fähigkeiten jedes einzelnen Schülers im Zusammenhang mit der Komplexität der Frage betrachten. Der durchschnittliche Student gerät ins Stocken, wenn die Fragen schwieriger werden, ChatGPT und GPT-4 jedoch nicht.
„Für jede der drei Klassenstufen sind bei naturwissenschaftlichen NAEP-Bewertungen mit erhöhtem kognitiven Anspruch höhere durchschnittliche Leistungswerte der Schüler erforderlich. Die Leistung von ChatGPT und GPT-4 hat jedoch möglicherweise keinen wesentlichen Einfluss auf die gleichen Bedingungen, mit Ausnahme der niedrigsten Note 4.“ .“
Außerdem: wie man Bing Image Creator verwendet (und warum es besser als je zuvor ist)
Mit anderen Worten: „Ihre mangelnde Sensibilität gegenüber kognitiven Anforderungen zeigt, dass GAI das Potenzial hat, das Arbeitsgedächtnis zu überwinden, unter dem Menschen leiden, wenn sie für die Probleme erforderliches Denken höherer Ordnung nutzen.“
Die Autoren argumentieren, dass die Fähigkeit der generativen KI, die Grenzen des Arbeitsgedächtnisses des Menschen zu überwinden, „erhebliche Auswirkungen auf die Entwicklung von Bewertungspraktiken innerhalb von Bildungsparadigmen“ hat und dass „für Pädagogen die Notwendigkeit besteht, traditionelle Bewertungspraktiken zu überarbeiten“.
Sie stellen fest, dass generative KI im Leben der Studierenden „allgegenwärtig“ sei, und so würden menschliche Studierende die Tools nutzen und auch bei standardisierten Tests wie NAEP von den Tools übertroffen werden.
„Angesichts der bekannten Unempfindlichkeit des GAI gegenüber kognitiver Belastung und seiner potenziellen Rolle als Instrument für die zukünftigen beruflichen Bemühungen der Schüler wird es von entscheidender Bedeutung, die Bildungsbewertungen neu zu kalibrieren“, schreiben Zhai und sein Team.