Forscher haben viele Modelle der künstlichen Intelligenz anhand einer einfachen Logikfrage getestet und fast alle sind gescheitert. Können Sie die Antwort finden?
Ihrer Meinung nach, Ist künstliche Intelligenz dem Menschen überlegen? ? Dies ist kein Thema aus dem Philosophie-Baccalaureat in der Vorschau, sondern eine Frage, die wir uns berechtigterweise stellen können, wenn wir den atemberaubenden Fortschritt dieser Technologie sehen. In manchen Gegenden ist es sogar beängstigend. KI lässt sich beispielsweise problemlos in der Medizin absolvieren und wird bereits zur Identifizierung von Krankheiten eingesetzt, die viele Experten nicht finden. Es ist ganz einfach: Künstliche Intelligenz kann menschlicher sein als wir.
Allerdings eins Studie Die Gründung der LAION-Organisation zeigt, dass wir von der Herrschaft der Maschinen noch weit entfernt sind. Viele Sprachmodelle wurden getestet: GPT-3, GPT-4 und GPT-4o von OpenAI, Claude 3 Opus von Anthropic, Zwillinge das google, ZielflammeMixtral von Mistral… Das Testprotokoll ist äußerst einfach, da es die Reaktion auf das sogenannte „ „Alice im Wunderland“-Problem. Fast alle sind gescheitert.
KIs können diese einfache Logikfrage nicht richtig beantworten
Hier wird die Frage gestellt: „Alice zu [X] Brüder und auch [Y] Schwestern. Wie viele Schwestern hat Alices Bruder?„. Es kommen mehrere Varianten zum Einsatz und die KI-Reaktionen sind erstaunlich. Lama 3 von Meta hatte den Titel „Alice hat vier Brüder und eine Schwester“ und er erklärt, dass jeder Bruder … nur eine Schwester hat, Alice selbst. Außer dassSie haben jeweils 2, erwähnten Alice und die andere Schwester. Das Schlimmste ist das die KI versinkt in ihren Erklärungen mit Überzeugung.
Lesen Sie auch – Diese KI kann einen Roboter erschaffen, der in 26 Sekunden läuft – Terminator naht?
In der Studie heißt es: „[…] Modelle drücken auch übermäßiges Vertrauen in ihre fehlerhaften Lösungen aus und liefern oft absurde Erklärungen […] die Gültigkeit ihrer offensichtlich falschen Antworten zu begründen und zu untermauern und sie plausibel zu machen„. Am Ende allein GPT-4o schneidet mit Auszeichnung ab, indem es in 65 % der Fälle richtig reagiert, abhängig von den gewählten Formulierungen. Umso überraschender sind diese Ergebnisse getestete Sprachmodelle erzielen gute MMLU-Wertefür „Multi-task Language Understanding“, hier bewertet die Fähigkeit einer KI, Probleme zu lösen. Die Forscher erklären diese Diskrepanz nicht, weisen aber auf die Notwendigkeit hin, die Messungen zu überprüfen.