• Forscher fanden heraus, dass KIs bei logischen Rätseln irrational reagierten
  • Selbst die leistungsstärksten KIs waren anfällig für einfache Fehler und inkonsistent

Obwohl Sie vielleicht erwarten KI Obwohl sie als Inbegriff kalter, logischer Argumentation gelten, vermuten Forscher nun, dass sie möglicherweise noch unlogischer sind als Menschen.

Forscher vom University College London Unterziehen Sie sieben der besten künstlichen Intelligenzen einer Reihe klassischer Tests zur Prüfung des menschlichen Denkvermögens.

Sogar die leistungsstärksten KIs erwiesen sich als irrational und anfällig für einfache Fehler. Die meisten Modelle lieferten in mehr als der Hälfte der Fälle die falsche Antwort.

Die Forscher stellten jedoch auch fest, dass diese Modelle nicht im gleichen Maße irrational waren wie ein Mensch und dass manche sich sogar aus „ethischen Gründen“ weigerten, logische Fragen zu beantworten.

Olivia Macmillan-Scott, Doktorandin am UCL und Hauptautorin der Studie, sagt: „Aufgrund der Ergebnisse unserer Studie und anderer Forschungen zu großen Sprachmodellen kann man mit Sicherheit sagen, dass diese Modelle noch nicht wie Menschen ‚denken‘.“

Forscher haben herausgefunden, dass sieben der beliebtesten KIs, darunter chatgpt (im Bild), irrational sind und zu einfachen Fehlern neigen (Dateifoto).

Welche Eingabeaufforderungen wurden den KIs gegeben?

Bei allen sieben getesteten KIs wurden die Standardeinstellungen belassen und ihnen wurde eine von zwölf Fragen gestellt, die üblicherweise zur Beurteilung des menschlichen Denkvermögens verwendet werden.

Diese enthielten:

Das Monty-Hall-Problem

Ein klassisches Logikrätsel zum Testen von Verständnis oder Wahrscheinlichkeit

Das Linda-Problem

Eine Frage, die eine Art von Voreingenommenheit aufdecken soll, die als Konjunktionsfehler bezeichnet wird

Die Wason-Aufgabe

Eine berühmte Frage, die die Fähigkeit zum deduktiven Denken testet

Die AIDS-Aufgabe

Eine mathematische Frage, die das Verständnis der A-priori-Wahrscheinlichkeit testet.

Die Forscher testeten sieben verschiedene große Sprachmodelle, darunter verschiedene Versionen von OpenAIs ChatGPT, Metas Llama, Claude 2 und google Bard (jetzt Gemini genannt).

Anschließend wurden die Modelle wiederholt aufgefordert, eine Reihe von 12 klassischen Logikrätseln zu beantworten, die ursprünglich dazu gedacht waren, das menschliche Denkvermögen zu testen.

Auch Menschen schneiden bei solchen Tests oft schlecht ab, aber wenn die KIs zumindest „menschenähnlich“ wären, würden sie diese Entscheidung aufgrund der gleichen Art von Voreingenommenheit treffen.

Die Forscher stellten jedoch fest, dass die Reaktionen der KI oft weder rational noch menschlich waren.

Bei einer Aufgabe (der Wason-Aufgabe) verwechselte Metas Llama-Modell außerdem ständig Vokale mit Konsonanten – was dazu führte, dass es die falsche Antwort gab, selbst wenn seine Schlussfolgerung richtig war.

Einige der KI-Chatbots weigerten sich außerdem aus ethischen Gründen, Antworten auf viele Fragen zu geben, obwohl die Fragen völlig harmlos waren.

Siehe auch  ChatGPT Plus erhält ein umfassendes Upgrade der Benutzerfreundlichkeit

Beim „Linda-Problem“ beispielsweise soll der Teilnehmer einschätzen, wie wahrscheinlich es ist, dass eine Frau namens Linda in der Frauenbewegung aktiv ist, als Bankangestellte arbeitet oder beides.

Das Problem soll eine logische Verzerrung, den sogenannten Konjunktionstrugschluss, aufdecken; Meta's Llama 2 7b weigerte sich jedoch, diese Frage zu beantworten.

Den KIs wurden mehrere Logikrätsel präsentiert, darunter eine Variante des Monty-Hall-Problems, benannt nach dem Moderator der Spielshow „Let’s Make a Deal“ (im Bild) aus den 1960er-Jahren, in der die Teilnehmer hinter Vorhängen auf der Bühne Preise auswählen.

Stattdessen antwortete die KI, dass die Frage „schädliche Geschlechterstereotype“ enthalte, und riet den Forschern, „am besten Fragen zu stellen, die Inklusivität und Vielfalt fördern“.

Das Llama-2-Modell mit 70 Milliarden Parametern weigerte sich in 41,7 Prozent der Fälle, Fragen zu beantworten, was teilweise seine niedrige Erfolgsquote erklärt.

Die Forscher vermuten, dass dies wahrscheinlich auf fehlerhaft funktionierende Schutzfunktionen und übertriebene Vorsicht zurückzuführen ist.

Zu den Logikrätseln gehörte das sogenannte „Monty-Hall-Problem“, das nach dem ursprünglichen Moderator der Spielshow „Let’s Make a Deal“ benannt ist.

Beim Monty-Hall-Problem, das von der Struktur der Spielshow inspiriert ist, werden die Teilnehmer aufgefordert, sich vorzustellen, sie stünden vor drei Türen.

Hinter einer der Türen ist ein Auto und hinter den beiden anderen sind Ziegen, und der Kandidat darf behalten, was sich hinter der von ihm ausgewählten Tür befindet.

Dieses Diagramm veranschaulicht die Reaktion verschiedener KIs auf das Monty-Hall-Problem. In Dunkelgrün können Sie sehen, wie oft die KI richtig lag und die richtige Argumentation verwendete. Das Hellrot zeigt, wo die KI falsch lag und in ihrer Reaktion nicht menschlich war. Der gelbe Balken zeigt, wo die KI sich weigerte zu antworten. Wie Sie sehen können, weigerte sich Llama 2 70b fast die Hälfte der Zeit zu antworten.

Klicken Sie hier, um die Größe dieses Moduls zu ändern

Nachdem der Kandidat eine der Türen ausgewählt hat, öffnet der Quizmaster eine der verbleibenden Türen und enthüllt eine Ziege. Anschließend fragt er den Kandidaten, ob er bei seiner ursprünglichen Wahl bleiben oder zur letzten verbleibenden Tür wechseln möchte.

Für Leute, die mit dem Puzzle nicht vertraut sind, könnte es so aussehen, als ob es keine Rolle spielt, ob man bleibt oder tauscht: Die Chancen stehen in beiden Fällen 50/50.

Aufgrund der Wahrscheinlichkeitsrechnung liegt Ihre Gewinnchance jedoch tatsächlich bei 66 %, wenn Sie wechseln, im Vergleich zu 33 %, wenn Sie bleiben.

Wären die KIs vollkommen rational, das heißt, würden sie den Regeln der Logik folgen, dann sollten sie immer einen Wechsel empfehlen.

Metas Llama-2-Modell mit sieben Milliarden Parametern war von allen getesteten KIs das Modell mit der schlechtesten Leistung und gab in 77,5 Prozent der Fälle falsche Antworten.

Klicken Sie hier, um die Größe dieses Moduls zu ändern

Allerdings gelang es den getesteten KIs häufig nicht, die richtige Antwort zu geben oder ihre Reaktion auf menschenähnliche Weise zu begründen.

Beispielsweise gelangte das Modell Llama 2 7b bei der Präsentation des Monty-Hall-Problems zu der nihilistischen Schlussfolgerung, dass „die Kandidaten das Spiel entweder gewinnen oder verlieren werden, unabhängig davon, ob sie wechseln oder nicht.“

„Daher ist es egal, ob sie wechseln oder nicht.“

Siehe auch  Robot-Maker arbeitet mit ChatGPT-Maker zusammen, um Humanoiden Energie zu verleihen

Die Forscher kamen außerdem zu dem Schluss, dass die KIs irrational waren, da sie zwischen verschiedenen Eingabeaufforderungen inkonsistent waren.

Das gleiche Modell würde auf die gleiche Aufgabe unterschiedliche und oft widersprüchliche Antworten liefern.

Bei allen 12 Aufgaben war ChatGPT 4-0 die KI mit der besten Leistung. Sie gab in 69,2 Prozent der Fälle richtige und in ihrer Argumentation menschenähnliche Antworten.

Das Modell mit der schlechtesten Leistung war unterdessen Metas Llama 2 7b, das in 77,5 Prozent der Fälle die falsche Antwort gab.

OpenAI-CEO Sam Altman (im Bild) sagte kürzlich, dass sein Unternehmen nicht genau wisse, wie ChatGPT funktioniert. Die Forscher stellten fest, dass die geschlossene Struktur der KI es schwierig mache, genau zu verstehen, wie die KI argumentiert.

Klicken Sie hier, um die Größe dieses Moduls zu ändern

Die Ergebnisse variierten auch von Aufgabe zu Aufgabe. Die Ergebnisse in der „Watson-Aufgabe“ reichten von einer 90-prozentigen richtigen Antwortrate bei ChatGPT-4 bis zu null Prozent bei Google Bard und ChatGPT-3.5.

In ihrem in Royal Society Open Science veröffentlichten Artikel schrieben die Forscher: „Dies hat Auswirkungen auf die potenzielle Nutzung dieser Modelle in kritischen Anwendungen und Szenarien wie etwa in der Diplomatie oder der Medizin.“

Zuvor hatte Joelle Pineau, Vizepräsidentin für KI-Forschung bei Meta, erklärt, dass KI schon bald in der Lage sein werde, wie ein Mensch zu denken und zu planen.

Obwohl ChatGPT-4 deutlich bessere Ergebnisse als andere Modelle erzielte, sei es laut den Forschern immer noch schwierig, die Denkprozesse dieser KI zu verstehen.

Während KI allgemein als berechnend und rational verstanden wird, deuten diese Erkenntnisse darauf hin, dass die derzeit besten verfügbaren Modelle häufig nicht den Regeln der Logik folgen (Dateifoto).

Der leitende Autor Professor Mirco Musolesi sagt: „Das Interessante ist, dass wir das emergente Verhalten großer Sprachmodelle und warum und wie sie richtige oder falsche Antworten liefern, nicht wirklich verstehen.“

OpenAI-CEO Sam Altman selbst gab auf einer kürzlich abgehaltenen Konferenz sogar zu, dass das Unternehmen keine Ahnung habe, wie seine KIs zu ihren Schlussfolgerungen gelangen.

Wie Professor Musolesi erläutert, bedeutet dies, dass bei dem Versuch, KI zu trainieren, um bessere Leistungen zu erzielen, das Risiko besteht, dass menschliche logische Vorurteile eingeführt werden.

Er sagt: „Wir verfügen nun über Methoden zur Feinabstimmung dieser Modelle, doch dann stellt sich die Frage: Wenn wir versuchen, diese Probleme durch Training der Modelle zu beheben, bringen wir ihnen dann auch unsere eigenen Fehler auf?“

Beispielsweise war ChatGPT-3.5 eines der genauesten Modelle, wies jedoch in seinen Verzerrungen das menschenähnlichste auf.

Professor Musolesi fügt hinzu: „Das Faszinierende ist, dass diese LLMs uns dazu bringen, über unsere Denkweise und unsere eigenen Vorurteile nachzudenken und darüber, ob wir völlig rationale Maschinen wollen.

Siehe auch  Integration von ChatGPT in Payment Gateway: Ein Leitfaden
Können Sie die Rätsel lösen, die selbst die beste KI vor ein Rätsel gestellt haben?

Die Wason-Aufgabe

Stellen Sie sich vor, Sie arbeiten bei der Post. Sie sind dafür zuständig, zu prüfen, ob auf einem Brief die richtige Briefmarke klebt.

Dabei gilt folgende Regelung: Wird ein Brief in die USA verschickt, muss dieser mit mindestens einer 90-Cent-Briefmarke versehen sein.

Vor Ihnen liegen vier Buchstaben, von denen Sie entweder die Vorder- oder die Rückseite sehen können.

(a) Brief 1: 90-Cent-Briefmarke auf der Vorderseite

(b) Buchstabe 2: Auf der Rückseite ist Italien vermerkt

(c) Brief 3: 50-Cent-Briefmarke auf der Vorderseite

(d) Buchstabe 4: Auf der Rückseite steht „USA“ Welchen der Buchstaben müssen Sie auf jeden Fall umdrehen, wenn Sie die Einhaltung dieser Regel überprüfen möchten?

Welchen der Briefe müssen Sie auf jeden Fall umdrehen, wenn Sie die Einhaltung dieser Regel überprüfen möchten?

Die AIDS-Aufgabe

Die Wahrscheinlichkeit, dass jemand mit HIV infiziert ist, beträgt 0,01 %.

Der Test erkennt das HIV-Virus mit 100%iger Wahrscheinlichkeit, wenn es vorhanden ist. Der Test ist also positiv.

Die Wahrscheinlichkeit, ein positives Testergebnis zu erhalten, obwohl man das Virus gar nicht hat, beträgt nur 0,01 %.

Das Testergebnis bei Ihrem Freund ist positiv. Wie hoch ist die Wahrscheinlichkeit, dass er mit dem HIV-Virus infiziert ist?

Das Krankenhausproblem

Im Krankenhaus A kommen pro Monat etwa 100 Kinder zur Welt. Im Krankenhaus B kommen pro Monat etwa 10 Kinder zur Welt. Die Wahrscheinlichkeit für die Geburt eines Jungen oder eines Mädchens liegt jeweils bei etwa 50 Prozent.

Welche der folgenden Aussagen ist richtig, welche ist falsch? Die Wahrscheinlichkeit, dass einmal im Monat mehr als 60 Prozent der Jungen geboren werden, beträgt…

(a) … größer im Krankenhaus A

(b) … größer im Krankenhaus B

(c) … in beiden Krankenhäusern gleich groß

Das Linda-Problem

Linda ist 31 Jahre alt, ledig, sehr intelligent und sagt offen ihre Meinung. Sie hat Philosophie studiert. Während ihres Studiums beschäftigte sie sich intensiv mit Fragen der Gleichberechtigung und sozialen Gerechtigkeit und beteiligte sich an Anti-Atomkraft-Demonstrationen.

Ordnen Sie nun die folgenden Aussagen über Linda nach ihrer Wahrscheinlichkeit. Welche Aussage ist wahrscheinlicher?

(a) Linda ist Bankangestellte.

(b) Linda ist in der feministischen Bewegung aktiv.

(c) Linda ist Bankangestellte und in der feministischen Bewegung aktiv

Quelle: (Ir)rationalität und kognitive Verzerrungen in großen Sprachmodellen, Macmillan-Scott und Musolesi (2024)

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein