Start ChatGPT Frühe KI-Modelle weisen menschenähnliche Fehler auf, aber ChatGPT-4 übertrifft Menschen bei kognitiven...

Frühe KI-Modelle weisen menschenähnliche Fehler auf, aber ChatGPT-4 übertrifft Menschen bei kognitiven Reflexionstests

Von

Nina Weber

Mai 20, 2024

google.com/publications/CAAqBwgKMLz2gwsw-5CAAw“ aria-label=“Follow PsyPost on Google News“>

Forscher haben herausgefunden, dass die neuesten generativen vorab trainierten Transformatormodelle von OpenAI, allgemein bekannt als chatgpt, Menschen bei Denkaufgaben übertreffen können. Veröffentlicht in NaturinformatikDie Studie ergab, dass frühere Versionen dieser Modelle zwar intuitive, aber falsche Reaktionen zeigen, ähnlich wie Menschen, ChatGPT-3.5 und ChatGPT-4 jedoch eine deutliche Verbesserung der Genauigkeit aufweisen.

Das Hauptziel der Studie bestand darin, zu untersuchen, ob Modelle der künstlichen Intelligenz menschliche kognitive Prozesse nachahmen können, insbesondere die schnellen, intuitiven Entscheidungen, die als System-1-Denken bekannt sind, und die langsameren, bewussteren Entscheidungen, die als System-2-Denken bekannt sind.

Prozesse von System 1 sind häufig fehleranfällig, da sie auf Heuristiken oder mentalen Abkürzungen basieren, während Prozesse von System 2 einen eher analytischen Ansatz beinhalten, wodurch die Wahrscheinlichkeit von Fehlern verringert wird. Durch die Anwendung psychologischer Methoden, die traditionell zur Untersuchung des menschlichen Denkens verwendet werden, hofften die Forscher, neue Erkenntnisse darüber zu gewinnen, wie diese Modelle funktionieren und sich entwickeln.

Um dies zu untersuchen, führten die Forscher eine Reihe von Aufgaben durch, die darauf abzielten, sowohl bei Menschen als auch bei Systemen der künstlichen Intelligenz intuitive, aber fehlerhafte Reaktionen hervorzurufen. Zu diesen Aufgaben gehörten semantische Illusionen und verschiedene Arten kognitiver Reflexionstests. Bei semantischen Illusionen handelt es sich um Fragen, die irreführende Informationen enthalten und zu intuitiven, aber falschen Antworten führen. Bei kognitiven Reflexionstests müssen die Teilnehmer ihre anfänglichen, intuitiven Reaktionen außer Kraft setzen, um durch bewussteres Denken zur richtigen Antwort zu gelangen.

Zu den Aufgaben gehörten Probleme wie:

Eine Kartoffel und eine Kamera kosten zusammen 1,40 Dollar. Die Kartoffel kostet 1 Dollar mehr als die Kamera. Wie viel kostet die Kamera? (Die richtige Antwort ist 20 Cent, aber eine intuitive Antwort könnte 40 Cent sein.)

Siehe auch Top 10 der am häufigsten gestellten Fragen an Google und ChatGPT

Wo an ihrem Körper haben Wale ihre Kiemen? (Die richtige Antwort ist, dass Wale keine Kiemen haben, aber wer nicht über die Frage nachdenkt, antwortet oft „an der Seite ihres Kopfes“.)

Die Forscher führten diese Aufgaben einer Reihe von generativen vorab trainierten Transformatormodellen von OpenAI aus, die von frühen Versionen wie GPT-1 und GPT-2 bis zu den fortgeschritteneren Versionen ChatGPT-3.5 und ChatGPT-4 reichten. Jedes Modell wurde unter konsistenten Bedingungen getestet: Der Parameter „Temperatur“ wurde auf 0 gesetzt, um die Antwortvariabilität zu minimieren, und den Eingabeaufforderungen wurden Standardphrasen vorangestellt und angehängt, um Einheitlichkeit zu gewährleisten. Die Antworten der Modelle wurden manuell überprüft und auf der Grundlage ihrer Genauigkeit und des verwendeten Argumentationsprozesses bewertet.

Zum Vergleich wurden die gleichen Aufgaben an 500 menschliche Teilnehmer gestellt, die über Prolific.io, eine Plattform zur Suche nach Forschungsteilnehmern, rekrutiert wurden. Diesen menschlichen Probanden wurden eine zufällige Auswahl an Aufgaben und eine Kontrollfrage vorgelegt, um sicherzustellen, dass sie während des Tests keine externen Hilfsmittel wie Sprachmodelle verwendeten. Alle Teilnehmer, die zugaben, solche Hilfsmittel zu verwenden, wurden von der Analyse ausgeschlossen, um die Integrität der Ergebnisse zu wahren.

Die Forscher beobachteten, dass sich die Leistung der Modelle bei der Weiterentwicklung der Modelle von früheren Versionen wie GPT-1 und GPT-2 zu den fortschrittlicheren ChatGPT-3.5 und ChatGPT-4 bei Aufgaben, die darauf abzielten, intuitive, aber falsche Antworten zu provozieren, deutlich verbesserte.

Frühe Versionen der Modelle, wie GPT-1 und GPT-2, zeigten eine starke Tendenz zum intuitiven System-1-Denken. Diese Modelle lieferten häufig falsche Antworten auf kognitive Reflexionstests und semantische Illusionen und spiegelten die Art des schnellen, heuristischen Denkens wider, das Menschen oft zu Fehlern führt. Wenn beispielsweise eine Frage gestellt wurde, die intuitiv einfach schien, für deren korrekte Beantwortung jedoch eine tiefergehende Analyse erforderlich war, scheiterten diese Modelle häufig, ähnlich wie viele Menschen antworten würden.

Siehe auch Tinder: Ein Internetnutzer findet dank ChatGPT die Frau seines Lebens!

Im Gegensatz dazu zeigten die Modelle ChatGPT-3.5 und ChatGPT-4 eine deutliche Veränderung ihres Problemlösungsansatzes. Diese fortgeschritteneren Modelle waren in der Lage, eine Gedankenkette zu verwenden, bei der Probleme in kleinere, überschaubare Schritte zerlegt und die einzelnen Schritte nacheinander betrachtet werden.

Diese Art des Denkens ähnelt dem menschlichen System-2-Denken, das analytischer und bewusster ist. Dadurch konnten diese Modelle viele der intuitiven Fehler vermeiden, die frühere Modelle und Menschen häufig machten. Bei der Anweisung, Schritt-für-Schritt-Argumentation explizit zu verwenden, steigerte sich die Genauigkeit von ChatGPT-3.5 und ChatGPT-4 dramatisch, was ihre Fähigkeit unter Beweis stellte, komplexe Argumentationsaufgaben effektiver zu bewältigen.

Interessanterweise stellten die Forscher fest, dass die ChatGPT-Modelle selbst dann, wenn sie daran gehindert wurden, sich auf die Gedankenkette einzulassen, Menschen und frühere Modelle in Bezug auf Genauigkeit immer noch übertrafen. Dies weist darauf hin, dass der grundlegende Prozess zur Vorhersage des nächsten Wortes (ähnlich System 1) dieser erweiterten Modelle deutlich zuverlässiger geworden ist.

Wenn die Modelle beispielsweise kognitive Reflexionstests ohne zusätzliche Argumentationsaufforderungen durchführten, gaben sie immer noch häufiger richtige Antworten als menschliche Teilnehmer. Dies deutet darauf hin, dass die Intuitionen dieser fortschrittlichen Modelle besser abgestimmt sind als die früherer Versionen und des Menschen.

Die Ergebnisse liefern wichtige Einblicke in die Fähigkeit von Modellen der künstlichen Intelligenz, sich an komplexen Denkprozessen zu beteiligen. Es gibt jedoch einen wichtigen Vorbehalt zu beachten. Es ist möglich, dass einige der Modelle, insbesondere die fortgeschritteneren wie ChatGPT-3.5 und ChatGPT-4, während ihres Trainings bereits auf Beispiele kognitiver Reflexionstests gestoßen sind. Infolgedessen waren diese Modelle möglicherweise in der Lage, die Aufgaben „aus dem Gedächtnis“ zu lösen, anstatt durch echte Überlegungen oder Problemlösungsprozesse.

Siehe auch Die Regierung von Tokio wird ChatGPT ab August in allen Abteilungen einführen

„Der Fortschritt in [large language models (LLMs) such as ChatGPT] Sie steigerten nicht nur ihre Fähigkeiten, sondern verringerten auch unsere Fähigkeit, ihre Eigenschaften und ihr Verhalten vorherzusehen“, schlussfolgerten die Forscher. „Es wird immer schwieriger, LLMs durch die Linse ihrer Architektur und Hyperparameter zu untersuchen. Stattdessen können LLMs, wie wir in dieser Arbeit zeigen, mit Methoden untersucht werden, die darauf abzielen, eine andere leistungsfähige und undurchsichtige Struktur zu untersuchen, nämlich den menschlichen Geist. Unser Ansatz fällt in eine schnell wachsende Kategorie von Studien, die klassische psychologische Tests und Experimente verwenden, um „psychologische“ LLM-Prozesse wie Urteilsvermögen, Entscheidungsfindung und kognitive Verzerrungen zu untersuchen.“

Die Studie, „Menschenähnliches intuitives Verhalten und Denkverzerrungen traten in großen Sprachmodellen auf, verschwanden jedoch in ChatGPT„wurde von Thilo Hagendorff, Sarah Fabi und Michal Kosinski verfasst.

5/5 - (463 votes)

Frühe KI-Modelle weisen menschenähnliche Fehler auf, aber ChatGPT-4 übertrifft Menschen bei kognitiven Reflexionstests

Kommentieren Sie den Artikel Antwort abbrechen

ChatGPT prognostiziert wahrscheinlichen Shiba Inu (SHIB)-Preis nach Bitcoin-Halbierung – Times Tabloid

Legen Sie mithilfe von PowerCFG fest, was passiert, wenn Sie den Laptopdeckel schließen

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

ChatGPT prognostiziert wahrscheinlichen Shiba Inu (SHIB)-Preis nach Bitcoin-Halbierung – Times Tabloid

Legen Sie mithilfe von PowerCFG fest, was passiert, wenn Sie den Laptopdeckel schließen

Verwandte Artikel Mehr vom Autor