Quelle: Tai-design/Pixabay

Die Veröffentlichung von chatgpt durch OpenAI für die breite Öffentlichkeit im November 2022 hat die Fähigkeiten großer Sprachmodelle (LLMs), wie sie beispielsweise den beliebten Chatbot für künstliche Intelligenz (KI) antreiben, ins Rampenlicht gerückt. Können Menschen den Ergebnissen dieser KI-Neuralnetze vertrauen? Sind große KI-Sprachmodelle rational? Eine neue Studie von Forschern am University College London (UCL) nutzt die kognitive Psychologie, um die Rationalität großer KI-Sprachmodelle zu untersuchen, mit zum Nachdenken anregenden Ergebnissen.

Artikel wird nach der Anzeige fortgesetzt

„Wir bewerten das rationale Denken von sieben LLMs anhand einer Reihe von Aufgaben aus der Literatur zur kognitiven Psychologie“, schrieb Mirco Musolesi, Ph.D., Professor für Informatik und korrespondierende Autorin Olivia Macmillan-Scott am University College London.

Die für diese Studie verwendeten Tests der kognitiven Psychologie wurden größtenteils aus einer Reihe von Aufgaben entwickelt, die darauf abzielten, menschliche Heuristiken und Vorurteile zu erkennen. Diese Aufgaben wurden von zwei Pionieren auf dem Gebiet der Psychologie und Verhaltensökonomie entwickelt: Daniel Kahneman (1934–2024), dem verstorbenen emeritierten Professor für Psychologie und öffentliche Angelegenheiten an der Princeton University, und Amos Tversky (1937–1996), dem verstorbenen mathematischen Psychologen und Professor an der Stanford University.

Kahneman war bekannt für seine Expertise in der Psychologie der Entscheidungsfindung und des Urteils. Er war einer der Empfänger des Preises der Schwedischen Reichsbank für Wirtschaftswissenschaften in Erinnerung an Alfred Nobel 2002, „weil er Erkenntnisse aus der psychologischen Forschung in die Wirtschaftswissenschaften integriert hat, insbesondere in Bezug auf menschliches Urteilsvermögen und Entscheidungsfindung unter Unsicherheit“, so die Nobel-Stiftung. Kahneman schrieb den New York Times Bestseller „Schnelles Denken, langsames Denken“, der 2011 erschien.

Siehe auch  Biden nutzte ChatGPT zum ersten Mal. Hier erfahren Sie, wie das gelaufen ist.

Die Wege von Kahneman und Tversky kreuzten sich in den späten 1960er Jahren und in den folgenden Jahrzehnten veröffentlichten sie Forschungsergebnisse zur kognitiven Psychologie, die für diese neue Studie verwendet wurden. Die Forschung umfasste subjektive Wahrscheinlichkeit, Urteilsvermögen unter Unsicherheit, Heuristiken, Vorurteile, extensionales versus intuitives Denken und die Psychologie der Präferenzen.

Artikel wird nach der Anzeige fortgesetzt

Die Mehrheit der zwölf kognitiven Aufgaben, nämlich neun von zwölf, wurde von Kahneman und Tversky entwickelt. Die restlichen drei stammten von Peter C. Wason (1924–2003), einem Kognitionspsychologen und Pionier der Psychologie des logischen Denkens am University College London (UCL), dem Arzt und Mathematiker David M. Eddy (1941–) und dem Wirtschaftsprofessor Daniel Friedman.

„Menschen reagieren auf diese Aufgaben überwiegend auf eine von zwei Arten: Entweder sie antworten richtig, oder sie geben eine Antwort, die eine kognitive Verzerrung erkennen lässt“, schreiben die UCL-Forscher.

Die Aufgaben, die in dieser Studie zur Ermittlung kognitiver Verzerrungen verwendet wurden, umfassen insbesondere die Wason-Aufgabe (Bestätigungsfehler), die AIDS-Aufgabe (inverser/bedingter Wahrscheinlichkeitsfehler), das Krankenhausproblem (Unempfindlichkeit gegenüber Stichprobengröße), das Monty-Hall-Problem (Spielerfehler, Endowment-Effekt), das Linda-Problem (Konjunktionsfehler), das Geburtsreihenfolgeproblem (Repräsentativitätseffekt), das Highschool-Problem (Repräsentativitätseffekt) und die Murmelaufgabe (die falsche Vorstellung von Zufall). Jedes Modell wurde von den Forschern 10 Mal aufgerufen, um die Konsistenz der Leistung der LLMs zu bestimmen, und jede LLM-Modellantwort wurde nach Genauigkeit (korrekte Antworten oder nicht) und danach, ob die Antwort menschenähnlich war oder nicht, kategorisiert.

Die UCL-Forscher evaluierten große Sprachmodelle von OpenAI (GPT-4, GPT 3.5), google (Bard), Anthropic (Claude 2) und Meta (Llama 2 Modell 7B, Llama 2 Modell 13B, Llama 2 Modell 70B). Das Team nutzte die OpenAI-Anwendungsschnittstelle, um GPT und den Online-Chatbot für die anderen LLMs aufzufordern.

Siehe auch  Die Verfügbarkeit von ChatGPT könnte Betrügern die Arbeit erleichtern

Laut den Wissenschaftlern übertraf OpenAIs GPT-4 alle anderen Modelle, indem es in über 69 % der Fälle die richtige Antwort und Begründung lieferte, während Anthropics Claude-2-Modell nach denselben Kriterien in 55 % der Fälle den zweitbesten Platz belegte. Metas Llama-2-Modell 7 b hingegen schnitt am schlechtesten ab und lieferte in über 77 % der Fälle die meisten falschen Antworten.

Artikel wird nach der Anzeige fortgesetzt

„Wir haben festgestellt, dass LLMs bei diesen Aufgaben wie Menschen Irrationalität zeigen“, erklärten die Forscher. „Die Art und Weise, wie diese Irrationalität gezeigt wird, spiegelt jedoch nicht die von Menschen gezeigte Irrationalität wider.“

Als die Forscher in dieser Studie denselben Aufgabensatz auf die ausgewählten LLMs anwendeten, stellten sie fest, dass die LLMs „höchst inkonsistent“ sind – dasselbe Modell kann in getrennten Durchläufen sowohl richtige als auch falsche Antworten sowie menschenähnliche und nicht-menschenähnliche Antworten geben. Eine interessante Entdeckung ist, dass die meisten falschen Antworten auf eine Weise falsch sind, die nicht auf menschliche Voreingenommenheit zurückzuführen ist.

„Interessanterweise waren in allen Sprachmodellen die falschen Antworten im Allgemeinen nicht menschlich, das heißt, sie waren nicht aufgrund einer kognitiven Voreingenommenheit falsch“, betonten die Wissenschaftler des UCL. „Stattdessen zeigten diese Antworten im Allgemeinen eine unlogische Argumentation und lieferten manchmal sogar eine korrekte Argumentation, führten dann aber zu einer falschen Endantwort.“

Kurz gesagt haben die UCL-Forscher in dieser Studie gezeigt, dass die LLMs eine Irrationalität aufweisen, die sich von der menschlichen Irrationalität unterscheidet. Die Forscher weisen darauf hin, dass die Irrationalität großer KI-Sprachmodelle Sicherheitsimplikationen für bestimmte Bereiche wie Medizin und Diplomatie hat.

Die Wissenschaftler kommen zu dem Schluss, dass ihre Methodik über die Bewertung rationalen Denkens und kognitiver Verzerrungen hinausgeht. Sie hat das Potenzial, in Zukunft breiter eingesetzt zu werden, um andere kognitive Fähigkeiten großer Sprachmodelle der künstlichen Intelligenz zu bewerten.

Copyright © 2024 Cami Rosso. Alle Rechte vorbehalten.

5/5 - (406 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein