- Wissenschaftler behaupten, dass chatgpt-4 die erste KI ist, die einen Turing-Test mit zwei Spielern besteht
- In 54 Prozent der Fälle war die KI in der Lage, einen menschlichen Gesprächspartner zu täuschen
Seit seinem ersten Vorschlag im Jahr 1950 gilt das Bestehen des „Turing-Tests“ als eines der höchsten Ziele der künstlichen Intelligenz.
Doch nun behaupten Forscher, dass ChatGPT die erste KI sei, die diesen berühmten Test für menschliche Intelligenz bestanden habe.
Der vom Computerpionier Alan Turing vorgeschlagene Ansatz besagt, dass eine KI dann als wirklich intelligent gelten sollte, wenn die Menschen nicht erkennen können, ob sie mit einem Menschen oder einer Maschine sprechen.
Kognitionswissenschaftler der UC San Diego argumentieren in einem Vorabdruck, dass ChatGPT-4 menschliche Testpersonen in mehr als der Hälfte der Fälle täuschen kann.
Die Forscher meinen jedoch, dass dies möglicherweise mehr über den Turing-Test aussagt als über die Intelligenz moderner KI.
Im Jahr 1950 schuf der britische Codeknacker Alan Turing aus dem Zweiten Weltkrieg etwas, das seiner Meinung nach den ultimativen Test für Computerintelligenz darstellen würde.
Er stellte sich vor, dass ein menschlicher Teilnehmer vor einem Bildschirm sitzt und über eine Nur-Text-Schnittstelle entweder mit einem Menschen oder einem Computer spricht.
Wenn der Computer in einer Vielzahl möglicher Themen nicht von einem Menschen unterschieden werden könnte, müssten wir laut Turing zugeben, dass er genauso intelligent ist wie ein Mensch.
Die Forscher wiederholten diesen berühmten Test und baten 500 Teilnehmer, mit vier verschiedenen Agenten zu sprechen: drei KIs und einem Menschen.
Bei den KIs handelte es sich um ChatGPT-4 und ChatGPT-3.5 – zwei Modelle hinter dem beliebten Chatbot von OpenAI – sowie um ein Chatprogramm aus den 1960er-Jahren namens ELIZA.
Die Teilnehmer wurden in einen Chatroom gesetzt und ihnen wurde gesagt, dass sie entweder die andere Person davon überzeugen müssten, dass sie ein Mensch seien, oder herausfinden müssten, mit wem sie sprächen.
Anschließend konnten die Teilnehmer fünf Minuten lang chatten und wurden dann gefragt, ob sie glaubten, mit einem Computer oder einem Menschen zu sprechen, warum sie das dachten und wie zuversichtlich sie sich dabei fühlten.
Während das veraltete ELIZA die Teilnehmer nur in 22 Prozent der Fälle täuschte, blieb ChatGPT-3.5 in 50 Prozent der Gespräche unentdeckt.
Die fortgeschrittenere Version, ChatGPT-4, schnitt sogar noch besser ab: In 54 Prozent der Fälle bezeichneten die Teilnehmer es als menschlich.
Klicken Sie hier, um die Größe dieses Moduls zu ändern
Dies bedeutet, dass sich ChatGPT-4 häufiger als Mensch ausgeben kann, als es der Zufall vermuten lässt.
Und falls Ihnen diese Zahl niedrig erscheint, ist es erwähnenswert, dass die Teilnehmer nur in 67 Prozent der Gespräche Menschen korrekt als solche identifizierten.
Die Forscher schreiben, dass diese Ergebnisse „den ersten robusten empirischen Beweis dafür liefern, dass jedes künstliche System einen interaktiven Turing-Test mit zwei Spielern besteht“.
Es ist anzumerken, dass es sich hierbei um einen Vorabdruck handelt. Dies bedeutet, dass das Peer-Review-Verfahren derzeit läuft. Die Ergebnisse müssen daher mit einer gewissen Vorsicht betrachtet werden.
Sollten die Ergebnisse jedoch bestätigt werden, wäre dies der erste starke Beweis dafür, dass eine KI jemals den Turing-Test bestanden hat, wie Alan Turing es sich vorgestellt hatte.
Nell Watson, eine KI-Forscherin am Institute of Electrical and Electronics Engineers (IEEE), sagte Wissenschaft live erleben: „Maschinen können konfabulieren und im Nachhinein plausible Rechtfertigungen für Dinge zusammenschustern, so wie Menschen es tun.“
„All diese Elemente bedeuten, dass KI-Systeme menschenähnliche Schwächen und Marotten aufweisen. Das macht sie menschenähnlicher als frühere Ansätze, die kaum mehr als eine Liste vorgefertigter Antworten boten.“
Wichtig ist, dass auch die schlechte Leistung des ELIZA-Programms die Bedeutung dieser Ergebnisse untermauert.
Es mag zwar seltsam erscheinen, ein Programm aus den 1960er Jahren in einen Test hochmoderner Technologie einzubeziehen, doch dieses Modell wurde einbezogen, um etwas zu testen, das als „ELIZA-Effekt“ bezeichnet wird.
Der ELIZA-Effekt beschreibt die Idee, dass der Mensch sogar sehr einfachen Systemen menschenähnliche Eigenschaften zuschreiben könnte.
Aber die Tatsache, dass die Leute von ChatGPT und nicht von ELIZA getäuscht wurden, deutet darauf hin, dass dieses Ergebnis „nicht trivial“ ist.
Die Forscher weisen auch darauf hin, dass die veränderte öffentliche Wahrnehmung der KI die zu erwartenden Ergebnisse des Turing-Tests verändert haben könnte.
Sie schreiben: „Auf den ersten Blick könnte die niedrige Erfolgsquote des Menschen überraschend sein.
„Wenn der Test die Menschenähnlichkeit misst, sollte der Wert dann nicht bei 100 % liegen?“
Klicken Sie hier, um die Größe dieses Moduls zu ändern
Im Jahr 1950 hätte diese Annahme durchaus Sinn gemacht, da wir in einer Welt ohne fortgeschrittene KI davon ausgehen würden, dass alles, was menschlich klingt, auch menschlich ist.
Doch je mehr sich die Öffentlichkeit der KI bewusst wird und je mehr Vertrauen wir in sie haben, desto wahrscheinlicher ist es, dass wir Menschen fälschlicherweise als KI betrachten.
Dies könnte bedeuten, dass die geringe Lücke zwischen der Erfolgsquote von Menschen und ChatGPT-4 ein noch überzeugenderer Beweis für Computerintelligenz ist.
Im Februar dieses Jahres stellten Forscher aus Stanford fest, dass ChatGPT eine Version des Turing-Tests bestehen konnte, bei dem die KI einen weit verbreiteten Persönlichkeitstest beantwortete.
Obwohl diese Forscher herausfanden, dass die Ergebnisse von ChatGPT-4 nicht von denen von Menschen zu unterscheiden waren, ist diese neueste Arbeit eines der ersten Male, dass die KI einen robusten, auf Konversation basierenden Turing-Test mit zwei Spielern bestanden hat.
Allerdings räumen die Forscher auch ein, dass es seit langem bestehende und berechtigte Kritik am Turing-Test gibt.
Die Forscher weisen darauf hin, dass „stilistische und sozioemotionale Faktoren für das Bestehen des Turing-Tests eine größere Rolle spielen als traditionelle Vorstellungen von Intelligenz“.
Als Gründe dafür, dass sie ihren Gesprächspartner als Roboter identifizierten, nannten die Vernehmer Stil, Persönlichkeit und Tonfall deutlich häufiger als alles, was mit Intelligenz zusammenhängt.
Eine der erfolgreichsten Strategien zur Identifizierung von Robotern bestand darin, nach menschlichen Erfahrungen zu fragen. Diese Strategie funktionierte in 75 Prozent der Fälle.
Dies deutet darauf hin, dass der Turing-Test nicht wirklich die Intelligenz eines Systems beweist, sondern vielmehr seine Fähigkeit misst, Menschen nachzuahmen oder zu täuschen.
Die Forscher meinen, dies liefere bestenfalls eine „probabilistische“ Unterstützung für die Behauptung, ChatGPT sei intelligent.
Klicken Sie hier, um die Größe dieses Moduls zu ändern
Dies bedeutet jedoch nicht, dass der Turing-Test wertlos ist, da die Forscher darauf hinweisen, dass die Möglichkeit, sich als Mensch auszugeben, enorme wirtschaftliche und soziale Konsequenzen haben wird.
Die Forscher sagen, dass ausreichend überzeugende KIs „wirtschaftlich wertvolle kundenorientierte Aufgaben übernehmen könnten, die bisher menschlichen Arbeitskräften vorbehalten waren, die Öffentlichkeit oder ihre eigenen menschlichen Bediener in die Irre führen und das gesellschaftliche Vertrauen in authentische menschliche Interaktionen untergraben könnten“.
Letztendlich könnte der Turing-Test nur einen Teil dessen darstellen, was wir beurteilen müssen, wenn wir ein KI-System entwickeln wollen.
Frau Watson sagt: „Der reine Intellekt reicht nur bis zu einem gewissen Punkt. Was wirklich zählt, ist, intelligent genug zu sein, um eine Situation und die Fähigkeiten anderer zu verstehen und das nötige Einfühlungsvermögen zu haben, um diese Elemente zusammenzufügen.“
„Fähigkeiten machen nur einen kleinen Teil des Werts von KI aus – ihre Fähigkeit, die Werte, Vorlieben und Grenzen anderer zu verstehen, ist ebenso wichtig.“