google.com/publications/CAAqBwgKMLz2gwsw-5CAAw“ aria-label=“Follow PsyPost on Google News“>Folgen Sie Psypost Auf Google News

Forscher haben herausgefunden, dass die neuesten generativen vorab trainierten Transformatormodelle von OpenAI, allgemein bekannt als chatgpt, Menschen bei Denkaufgaben übertreffen können. Veröffentlicht in NaturinformatikDie Studie ergab, dass frühere Versionen dieser Modelle zwar intuitive, aber falsche Reaktionen zeigen, ähnlich wie Menschen, ChatGPT-3.5 und ChatGPT-4 jedoch eine deutliche Verbesserung der Genauigkeit aufweisen.

Das Hauptziel der Studie bestand darin, zu untersuchen, ob Modelle der künstlichen Intelligenz menschliche kognitive Prozesse nachahmen können, insbesondere die schnellen, intuitiven Entscheidungen, die als System-1-Denken bekannt sind, und die langsameren, bewussteren Entscheidungen, die als System-2-Denken bekannt sind.

Prozesse von System 1 sind häufig fehleranfällig, da sie auf Heuristiken oder mentalen Abkürzungen basieren, während Prozesse von System 2 einen eher analytischen Ansatz beinhalten, wodurch die Wahrscheinlichkeit von Fehlern verringert wird. Durch die Anwendung psychologischer Methoden, die traditionell zur Untersuchung des menschlichen Denkens verwendet werden, hofften die Forscher, neue Erkenntnisse darüber zu gewinnen, wie diese Modelle funktionieren und sich entwickeln.

Um dies zu untersuchen, führten die Forscher eine Reihe von Aufgaben durch, die darauf abzielten, sowohl bei Menschen als auch bei Systemen der künstlichen Intelligenz intuitive, aber fehlerhafte Reaktionen hervorzurufen. Zu diesen Aufgaben gehörten semantische Illusionen und verschiedene Arten kognitiver Reflexionstests. Bei semantischen Illusionen handelt es sich um Fragen, die irreführende Informationen enthalten und zu intuitiven, aber falschen Antworten führen. Bei kognitiven Reflexionstests müssen die Teilnehmer ihre anfänglichen, intuitiven Reaktionen außer Kraft setzen, um durch bewussteres Denken zur richtigen Antwort zu gelangen.

Zu den Aufgaben gehörten Probleme wie:

Eine Kartoffel und eine Kamera kosten zusammen 1,40 Dollar. Die Kartoffel kostet 1 Dollar mehr als die Kamera. Wie viel kostet die Kamera? (Die richtige Antwort ist 20 Cent, aber eine intuitive Antwort könnte 40 Cent sein.)

Siehe auch  Top 10 der am häufigsten gestellten Fragen an Google und ChatGPT

Wo an ihrem Körper haben Wale ihre Kiemen? (Die richtige Antwort ist, dass Wale keine Kiemen haben, aber wer nicht über die Frage nachdenkt, antwortet oft „an der Seite ihres Kopfes“.)

Die Forscher führten diese Aufgaben einer Reihe von generativen vorab trainierten Transformatormodellen von OpenAI aus, die von frühen Versionen wie GPT-1 und GPT-2 bis zu den fortgeschritteneren Versionen ChatGPT-3.5 und ChatGPT-4 reichten. Jedes Modell wurde unter konsistenten Bedingungen getestet: Der Parameter „Temperatur“ wurde auf 0 gesetzt, um die Antwortvariabilität zu minimieren, und den Eingabeaufforderungen wurden Standardphrasen vorangestellt und angehängt, um Einheitlichkeit zu gewährleisten. Die Antworten der Modelle wurden manuell überprüft und auf der Grundlage ihrer Genauigkeit und des verwendeten Argumentationsprozesses bewertet.

Zum Vergleich wurden die gleichen Aufgaben an 500 menschliche Teilnehmer gestellt, die über Prolific.io, eine Plattform zur Suche nach Forschungsteilnehmern, rekrutiert wurden. Diesen menschlichen Probanden wurden eine zufällige Auswahl an Aufgaben und eine Kontrollfrage vorgelegt, um sicherzustellen, dass sie während des Tests keine externen Hilfsmittel wie Sprachmodelle verwendeten. Alle Teilnehmer, die zugaben, solche Hilfsmittel zu verwenden, wurden von der Analyse ausgeschlossen, um die Integrität der Ergebnisse zu wahren.

Die Forscher beobachteten, dass sich die Leistung der Modelle bei der Weiterentwicklung der Modelle von früheren Versionen wie GPT-1 und GPT-2 zu den fortschrittlicheren ChatGPT-3.5 und ChatGPT-4 bei Aufgaben, die darauf abzielten, intuitive, aber falsche Antworten zu provozieren, deutlich verbesserte.

Frühe Versionen der Modelle, wie GPT-1 und GPT-2, zeigten eine starke Tendenz zum intuitiven System-1-Denken. Diese Modelle lieferten häufig falsche Antworten auf kognitive Reflexionstests und semantische Illusionen und spiegelten die Art des schnellen, heuristischen Denkens wider, das Menschen oft zu Fehlern führt. Wenn beispielsweise eine Frage gestellt wurde, die intuitiv einfach schien, für deren korrekte Beantwortung jedoch eine tiefergehende Analyse erforderlich war, scheiterten diese Modelle häufig, ähnlich wie viele Menschen antworten würden.

Siehe auch  Tinder: Ein Internetnutzer findet dank ChatGPT die Frau seines Lebens!

Im Gegensatz dazu zeigten die Modelle ChatGPT-3.5 und ChatGPT-4 eine deutliche Veränderung ihres Problemlösungsansatzes. Diese fortgeschritteneren Modelle waren in der Lage, eine Gedankenkette zu verwenden, bei der Probleme in kleinere, überschaubare Schritte zerlegt und die einzelnen Schritte nacheinander betrachtet werden.

Diese Art des Denkens ähnelt dem menschlichen System-2-Denken, das analytischer und bewusster ist. Dadurch konnten diese Modelle viele der intuitiven Fehler vermeiden, die frühere Modelle und Menschen häufig machten. Bei der Anweisung, Schritt-für-Schritt-Argumentation explizit zu verwenden, steigerte sich die Genauigkeit von ChatGPT-3.5 und ChatGPT-4 dramatisch, was ihre Fähigkeit unter Beweis stellte, komplexe Argumentationsaufgaben effektiver zu bewältigen.

Interessanterweise stellten die Forscher fest, dass die ChatGPT-Modelle selbst dann, wenn sie daran gehindert wurden, sich auf die Gedankenkette einzulassen, Menschen und frühere Modelle in Bezug auf Genauigkeit immer noch übertrafen. Dies weist darauf hin, dass der grundlegende Prozess zur Vorhersage des nächsten Wortes (ähnlich System 1) dieser erweiterten Modelle deutlich zuverlässiger geworden ist.

Wenn die Modelle beispielsweise kognitive Reflexionstests ohne zusätzliche Argumentationsaufforderungen durchführten, gaben sie immer noch häufiger richtige Antworten als menschliche Teilnehmer. Dies deutet darauf hin, dass die Intuitionen dieser fortschrittlichen Modelle besser abgestimmt sind als die früherer Versionen und des Menschen.

Die Ergebnisse liefern wichtige Einblicke in die Fähigkeit von Modellen der künstlichen Intelligenz, sich an komplexen Denkprozessen zu beteiligen. Es gibt jedoch einen wichtigen Vorbehalt zu beachten. Es ist möglich, dass einige der Modelle, insbesondere die fortgeschritteneren wie ChatGPT-3.5 und ChatGPT-4, während ihres Trainings bereits auf Beispiele kognitiver Reflexionstests gestoßen sind. Infolgedessen waren diese Modelle möglicherweise in der Lage, die Aufgaben „aus dem Gedächtnis“ zu lösen, anstatt durch echte Überlegungen oder Problemlösungsprozesse.

Siehe auch  Die Regierung von Tokio wird ChatGPT ab August in allen Abteilungen einführen

„Der Fortschritt in [large language models (LLMs) such as ChatGPT] Sie steigerten nicht nur ihre Fähigkeiten, sondern verringerten auch unsere Fähigkeit, ihre Eigenschaften und ihr Verhalten vorherzusehen“, schlussfolgerten die Forscher. „Es wird immer schwieriger, LLMs durch die Linse ihrer Architektur und Hyperparameter zu untersuchen. Stattdessen können LLMs, wie wir in dieser Arbeit zeigen, mit Methoden untersucht werden, die darauf abzielen, eine andere leistungsfähige und undurchsichtige Struktur zu untersuchen, nämlich den menschlichen Geist. Unser Ansatz fällt in eine schnell wachsende Kategorie von Studien, die klassische psychologische Tests und Experimente verwenden, um „psychologische“ LLM-Prozesse wie Urteilsvermögen, Entscheidungsfindung und kognitive Verzerrungen zu untersuchen.“

Die Studie, „Menschenähnliches intuitives Verhalten und Denkverzerrungen traten in großen Sprachmodellen auf, verschwanden jedoch in ChatGPT„wurde von Thilo Hagendorff, Sarah Fabi und Michal Kosinski verfasst.

5/5 - (463 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein