1637 schrieb der französische Philosoph und wahrscheinlicher Kiffer René Descartes hatte eine interessante Idee: Kann eine Maschine denken? 1950 verkündete der englische Mathematiker und Computerwissenschaftler Alan Turing die Antwort auf diese 300 Jahre alte Frage: Wen interessiert das? Eine viel bessere Frage, so sagte er, sei etwas, das als „Turing-Test“ bekannt werden sollte: Wenn man einen Menschen, eine Maschine und einen menschlichen Fragesteller hat, kann die Maschine den Fragesteller dann jemals davon überzeugen, dass sie tatsächlich der Mensch ist?
Jetzt, weitere 74 Jahre nachdem Turing die Frage auf diese Weise neu formuliert hat, glauben Forscher der University of California in San Diego, die Antwort zu haben. Laut einer neuen Studie, in der menschliche Teilnehmer fünf Minuten lang entweder mit einem von mehreren künstlichen Intelligenzsystemen oder einem anderen Menschen sprechen mussten, lautet die Antwort nun ein vorläufiges „Ja“.
„Die Teilnehmer unseres Experiments konnten GPT-4 nach einem fünfminütigen Gespräch nur durch Zufall identifizieren, was darauf schließen lässt, dass aktuelle KI-Systeme in der Lage sind, Menschen zu täuschen und sie glauben zu machen, sie seien Menschen“, bestätigt das noch nicht von Experten begutachtete Vorabpapier. „Die Ergebnisse hier setzen wahrscheinlich eine Untergrenze für das Täuschungspotenzial in naturalistischeren Kontexten, in denen die Menschen im Gegensatz zum experimentellen Umfeld möglicherweise nicht auf die Möglichkeit einer Täuschung achten oder sich ausschließlich darauf konzentrieren, diese zu erkennen.“
Dies ist zwar ein Meilenstein, der Schlagzeilen macht, aber er wird keineswegs allgemein akzeptiert. „Turing sah das Nachahmungsspiel ursprünglich als Maßstab für Intelligenz“, erklären die Forscher, aber „gegen diese Idee wurden verschiedene Einwände erhoben“. Menschen sind beispielsweise dafür bekannt, dass sie so ziemlich alles vermenschlichen können – wir wollen sich in Dinge hineinzuversetzen, ganz gleich, ob es sich dabei um einen anderen Menschen, einen Hund oder einen Roomba mit einem Paar Wackelaugen oben drauf handelt.
Darüber hinaus ist bemerkenswert, dass chatgpt-4 – und ChatGPT-3.5, das ebenfalls getestet wurde – die menschlichen Teilnehmer nur in etwa 50 Prozent der Fälle von seiner Menschlichkeit überzeugten – nicht viel besser als der Zufall. Woher wissen wir also, dass dieses Ergebnis überhaupt etwas bedeutet?
Nun, eine Sicherheitsmaßnahme, die das Team in das Versuchsdesign einbaute, bestand darin, ELIZA als eines der KI-Systeme einzubinden. Sie war eines der allerersten Programme dieser Art, das Mitte der 60er Jahre am MIT entwickelt wurde, und obwohl sie für die damalige Zeit zweifellos beeindruckend war, kann man mit Fug und Recht behaupten, dass sie modernen, auf Large-Language-Models (LLM) basierenden Systemen nicht viel entgegenzusetzen hat.
„ELIZA war auf vorgefertigte Antworten beschränkt, was seine Fähigkeiten stark einschränkte. Es konnte jemanden vielleicht fünf Minuten lang täuschen, aber bald wurden die Einschränkungen deutlich“, sagte Nell Watson, eine KI-Forscherin am Institute of Electrical and Electronics Engineers (IEEE). Wissenschaft live erleben. „Sprachmodelle sind unendlich flexibel, können Antworten auf eine breite Palette von Themen synthetisieren, in bestimmten Sprachen oder Soziolekten sprechen und sich selbst mit charaktergesteuerter Persönlichkeit und Werten darstellen. Es ist ein enormer Fortschritt gegenüber etwas, das von einem Menschen von Hand programmiert wurde, egal wie geschickt und sorgfältig es ist.“
Mit anderen Worten, sie war perfekt, um als Basis für das Experiment zu dienen. Wie erklärt man, dass faule Testpersonen einfach zufällig zwischen „Mensch“ oder „Maschine“ wählen? Nun, wenn ELIZA so viele Ergebnisse wie Zufall erzielt, dann nehmen die Leute das Experiment wahrscheinlich nicht ernst – sie ist einfach nicht so gut. Wie kann man feststellen, wie viel des Effekts einfach darauf zurückzuführen ist, dass Menschen alles, womit sie interagieren, vermenschlichen? Nun, wie sehr waren sie von ELIZA überzeugt? Wahrscheinlich ungefähr so viel.
Tatsächlich erreichte ELIZA 22 Prozent – und überzeugte damit kaum mehr als einen von fünf Menschen davon, dass sie ein Mensch sei. Dies untermauert die Annahme, dass ChatGPT die Turing-Testschreiben die Forscher, denn die Versuchspersonen konnten eindeutig und zuverlässig unterscheiden manche Computer von Menschen – nur nicht ChatGPT.
Heißt das also, wir stehen am Anfang einer neuen Phase menschenähnlicher künstlicher Intelligenz? Sind Computer jetzt genauso intelligent wie wir? Vielleicht – aber wir sollten mit unseren Aussagen wohl nicht zu voreilig sein.
„Letztendlich scheint es unwahrscheinlich, dass der Turing-Test notwendige oder ausreichende Beweise für Intelligenz liefert, sondern bestenfalls probabilistische Unterstützung“, erklären die Forscher. Tatsächlich verließen sich die Teilnehmer nicht einmal auf das, was man als Anzeichen von „Intelligenz“ betrachten könnte: Sie „konzentrierten sich mehr auf den Sprachstil und sozio-emotionale Faktoren als auf traditionellere Begriffe von Intelligenz wie Wissen und Urteilsvermögen“, heißt es in dem Artikel, was „die latente Annahme der Vernehmer widerspiegeln könnte, dass soziale Intelligenz die menschliche Eigenschaft geworden ist, die von Maschinen am wenigsten nachgeahmt werden kann.“
Dies wirft eine beunruhigende Frage auf: Ist nicht der Aufstieg der Maschinen das größere Problem, sondern der Niedergang des Menschen?
„Obwohl echte Menschen tatsächlich erfolgreicher waren und die Vernehmer in zwei Dritteln der Fälle davon überzeugten, dass sie Menschen waren, deuten unsere Ergebnisse darauf hin, dass Menschen in der realen Welt möglicherweise nicht zuverlässig erkennen können, ob sie mit einem Menschen oder einem KI-System sprechen“, sagte Cameron Jones, Co-Autor des Papiers. Technik-Xplore.
„Tatsächlich sind sich die Menschen in der realen Welt der Möglichkeit, dass sie mit einem KI-System sprechen, weniger bewusst, sodass die Täuschungsrate sogar noch höher sein könnte“, warnte er. „Ich denke, dies könnte Auswirkungen auf die Art von Dingen haben, für die KI-Systeme eingesetzt werden, sei es für die Automatisierung von kundenorientierten Jobs oder für Betrug oder Desinformation.“
Die Studie, die noch nicht einem Peer-Review unterzogen wurde, wurde als Vorabdruck auf der arXiv.