Quelle: Tai-design/Pixabay
Die Veröffentlichung von chatgpt durch OpenAI für die breite Öffentlichkeit im November 2022 hat die Fähigkeiten großer Sprachmodelle (LLMs), wie sie beispielsweise den beliebten Chatbot für künstliche Intelligenz (KI) antreiben, ins Rampenlicht gerückt. Können Menschen den Ergebnissen dieser KI-Neuralnetze vertrauen? Sind große KI-Sprachmodelle rational? Eine neue Studie von Forschern am University College London (UCL) nutzt die kognitive Psychologie, um die Rationalität großer KI-Sprachmodelle zu untersuchen, mit zum Nachdenken anregenden Ergebnissen.
„Wir bewerten das rationale Denken von sieben LLMs anhand einer Reihe von Aufgaben aus der Literatur zur kognitiven Psychologie“, schrieb Mirco Musolesi, Ph.D., Professor für Informatik und korrespondierende Autorin Olivia Macmillan-Scott am University College London.
Die für diese Studie verwendeten Tests der kognitiven Psychologie wurden größtenteils aus einer Reihe von Aufgaben entwickelt, die darauf abzielten, menschliche Heuristiken und Vorurteile zu erkennen. Diese Aufgaben wurden von zwei Pionieren auf dem Gebiet der Psychologie und Verhaltensökonomie entwickelt: Daniel Kahneman (1934–2024), dem verstorbenen emeritierten Professor für Psychologie und öffentliche Angelegenheiten an der Princeton University, und Amos Tversky (1937–1996), dem verstorbenen mathematischen Psychologen und Professor an der Stanford University.
Kahneman war bekannt für seine Expertise in der Psychologie der Entscheidungsfindung und des Urteils. Er war einer der Empfänger des Preises der Schwedischen Reichsbank für Wirtschaftswissenschaften in Erinnerung an Alfred Nobel 2002, „weil er Erkenntnisse aus der psychologischen Forschung in die Wirtschaftswissenschaften integriert hat, insbesondere in Bezug auf menschliches Urteilsvermögen und Entscheidungsfindung unter Unsicherheit“, so die Nobel-Stiftung. Kahneman schrieb den New York Times Bestseller „Schnelles Denken, langsames Denken“, der 2011 erschien.
Die Wege von Kahneman und Tversky kreuzten sich in den späten 1960er Jahren und in den folgenden Jahrzehnten veröffentlichten sie Forschungsergebnisse zur kognitiven Psychologie, die für diese neue Studie verwendet wurden. Die Forschung umfasste subjektive Wahrscheinlichkeit, Urteilsvermögen unter Unsicherheit, Heuristiken, Vorurteile, extensionales versus intuitives Denken und die Psychologie der Präferenzen.
Die Mehrheit der zwölf kognitiven Aufgaben, nämlich neun von zwölf, wurde von Kahneman und Tversky entwickelt. Die restlichen drei stammten von Peter C. Wason (1924–2003), einem Kognitionspsychologen und Pionier der Psychologie des logischen Denkens am University College London (UCL), dem Arzt und Mathematiker David M. Eddy (1941–) und dem Wirtschaftsprofessor Daniel Friedman.
„Menschen reagieren auf diese Aufgaben überwiegend auf eine von zwei Arten: Entweder sie antworten richtig, oder sie geben eine Antwort, die eine kognitive Verzerrung erkennen lässt“, schreiben die UCL-Forscher.
Die Aufgaben, die in dieser Studie zur Ermittlung kognitiver Verzerrungen verwendet wurden, umfassen insbesondere die Wason-Aufgabe (Bestätigungsfehler), die AIDS-Aufgabe (inverser/bedingter Wahrscheinlichkeitsfehler), das Krankenhausproblem (Unempfindlichkeit gegenüber Stichprobengröße), das Monty-Hall-Problem (Spielerfehler, Endowment-Effekt), das Linda-Problem (Konjunktionsfehler), das Geburtsreihenfolgeproblem (Repräsentativitätseffekt), das Highschool-Problem (Repräsentativitätseffekt) und die Murmelaufgabe (die falsche Vorstellung von Zufall). Jedes Modell wurde von den Forschern 10 Mal aufgerufen, um die Konsistenz der Leistung der LLMs zu bestimmen, und jede LLM-Modellantwort wurde nach Genauigkeit (korrekte Antworten oder nicht) und danach, ob die Antwort menschenähnlich war oder nicht, kategorisiert.
Die UCL-Forscher evaluierten große Sprachmodelle von OpenAI (GPT-4, GPT 3.5), google (Bard), Anthropic (Claude 2) und Meta (Llama 2 Modell 7B, Llama 2 Modell 13B, Llama 2 Modell 70B). Das Team nutzte die OpenAI-Anwendungsschnittstelle, um GPT und den Online-Chatbot für die anderen LLMs aufzufordern.
Laut den Wissenschaftlern übertraf OpenAIs GPT-4 alle anderen Modelle, indem es in über 69 % der Fälle die richtige Antwort und Begründung lieferte, während Anthropics Claude-2-Modell nach denselben Kriterien in 55 % der Fälle den zweitbesten Platz belegte. Metas Llama-2-Modell 7 b hingegen schnitt am schlechtesten ab und lieferte in über 77 % der Fälle die meisten falschen Antworten.
„Wir haben festgestellt, dass LLMs bei diesen Aufgaben wie Menschen Irrationalität zeigen“, erklärten die Forscher. „Die Art und Weise, wie diese Irrationalität gezeigt wird, spiegelt jedoch nicht die von Menschen gezeigte Irrationalität wider.“
Als die Forscher in dieser Studie denselben Aufgabensatz auf die ausgewählten LLMs anwendeten, stellten sie fest, dass die LLMs „höchst inkonsistent“ sind – dasselbe Modell kann in getrennten Durchläufen sowohl richtige als auch falsche Antworten sowie menschenähnliche und nicht-menschenähnliche Antworten geben. Eine interessante Entdeckung ist, dass die meisten falschen Antworten auf eine Weise falsch sind, die nicht auf menschliche Voreingenommenheit zurückzuführen ist.
„Interessanterweise waren in allen Sprachmodellen die falschen Antworten im Allgemeinen nicht menschlich, das heißt, sie waren nicht aufgrund einer kognitiven Voreingenommenheit falsch“, betonten die Wissenschaftler des UCL. „Stattdessen zeigten diese Antworten im Allgemeinen eine unlogische Argumentation und lieferten manchmal sogar eine korrekte Argumentation, führten dann aber zu einer falschen Endantwort.“
Kurz gesagt haben die UCL-Forscher in dieser Studie gezeigt, dass die LLMs eine Irrationalität aufweisen, die sich von der menschlichen Irrationalität unterscheidet. Die Forscher weisen darauf hin, dass die Irrationalität großer KI-Sprachmodelle Sicherheitsimplikationen für bestimmte Bereiche wie Medizin und Diplomatie hat.
Die Wissenschaftler kommen zu dem Schluss, dass ihre Methodik über die Bewertung rationalen Denkens und kognitiver Verzerrungen hinausgeht. Sie hat das Potenzial, in Zukunft breiter eingesetzt zu werden, um andere kognitive Fähigkeiten großer Sprachmodelle der künstlichen Intelligenz zu bewerten.
Copyright © 2024 Cami Rosso. Alle Rechte vorbehalten.