Forscher haben viele Modelle der künstlichen Intelligenz anhand einer einfachen Logikfrage getestet und fast alle sind gescheitert. Können Sie die Antwort finden?

Ein Nachdenklicher Roboter Vor Einer Tafel Voller Mathematischer Formeln
Bildnachweis: 123Rf

Ihrer Meinung nach, Ist künstliche Intelligenz dem Menschen überlegen? ? Dies ist kein Thema aus dem Philosophie-Baccalaureat in der Vorschau, sondern eine Frage, die wir uns berechtigterweise stellen können, wenn wir den atemberaubenden Fortschritt dieser Technologie sehen. In manchen Gegenden ist es sogar beängstigend. KI lässt sich beispielsweise problemlos in der Medizin absolvieren und wird bereits zur Identifizierung von Krankheiten eingesetzt, die viele Experten nicht finden. Es ist ganz einfach: Künstliche Intelligenz kann menschlicher sein als wir.

Allerdings eins Studie Die Gründung der LAION-Organisation zeigt, dass wir von der Herrschaft der Maschinen noch weit entfernt sind. Viele Sprachmodelle wurden getestet: GPT-3, GPT-4 und GPT-4o von OpenAI, Claude 3 Opus von Anthropic, Zwillinge das google, ZielflammeMixtral von Mistral… Das Testprotokoll ist äußerst einfach, da es die Reaktion auf das sogenannte „ „Alice im Wunderland“-Problem. Fast alle sind gescheitert.

KIs können diese einfache Logikfrage nicht richtig beantworten

Hier wird die Frage gestellt: „Alice zu [X] Brüder und auch [Y] Schwestern. Wie viele Schwestern hat Alices Bruder?„. Es kommen mehrere Varianten zum Einsatz und die KI-Reaktionen sind erstaunlich. Lama 3 von Meta hatte den Titel „Alice hat vier Brüder und eine Schwester“ und er erklärt, dass jeder Bruder … nur eine Schwester hat, Alice selbst. Außer dassSie haben jeweils 2, erwähnten Alice und die andere Schwester. Das Schlimmste ist das die KI versinkt in ihren Erklärungen mit Überzeugung.

Siehe auch  Ich habe ChatGPT gebeten, Licht auf PEPEs Schicksal zu werfen, es gab eine positive Resonanz

Lesen Sie auch – Diese KI kann einen Roboter erschaffen, der in 26 Sekunden läuft – Terminator naht?

In der Studie heißt es: „[…] Modelle drücken auch übermäßiges Vertrauen in ihre fehlerhaften Lösungen aus und liefern oft absurde Erklärungen […] die Gültigkeit ihrer offensichtlich falschen Antworten zu begründen und zu untermauern und sie plausibel zu machen„. Am Ende allein GPT-4o schneidet mit Auszeichnung ab, indem es in 65 % der Fälle richtig reagiert, abhängig von den gewählten Formulierungen. Umso überraschender sind diese Ergebnisse getestete Sprachmodelle erzielen gute MMLU-Wertefür „Multi-task Language Understanding“, hier bewertet die Fähigkeit einer KI, Probleme zu lösen. Die Forscher erklären diese Diskrepanz nicht, weisen aber auf die Notwendigkeit hin, die Messungen zu überprüfen.

5/5 - (121 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein