Der Turing-Test gilt als eine Möglichkeit, die Ähnlichkeit künstlicher Intelligenz mit dem Menschen zu testen. Der Kern besteht darin, dass das Verhalten des Modells einem Menschen nahe kommt, wenn Menschen während eines Gesprächs mit einem Sprachmodell dieses mit einer Person verwechseln oder nicht klar sagen können, wer ihr Gesprächspartner ist. Gleichzeitig bemerkte der Mathematiker Alan Turing selbst, der den Test Anfang der 1950er Jahre entwickelte, seine Unvollkommenheiten. Der Wissenschaftler sagte, der beste Weg für die KI, sich als eine Person auszugeben, bestehe nicht darin, die Fragen des Gesprächspartners zu beantworten, sondern ihnen auszuweichen, sie auszulachen und erneut zu fragen. Genau dieses Verhalten erscheint den Menschen natürlicher, obwohl in solchen Situationen die Komplexität und Vielseitigkeit des Denkens, die für „nicht-künstliche“ Intelligenz charakteristisch sind, nicht klar zum Ausdruck kommt.
Dennoch bleibt der Turing-Test ein wichtiges Instrument zur Beurteilung der Fähigkeiten von KI, und sein erfolgreicher Abschluss ist eines der gesetzten Ziele für neue Sprachmodelle. Es sind sogar mehrere Varianten davon aufgetaucht: Sie unterscheiden sich sowohl in den Aufgaben, die dem Modell und den Experimentatoren gestellt werden, als auch in der Dauer. Laut der Arbeit von Wissenschaftlern der University of California in San Diego (USA) hat der chatgpt-4-Bot von OpenAI den fünfminütigen Turing-Test gemeistert. Vorabdruck mit den Ergebnissen des entsprechenden Experiments erschien auf der Seite arxiv.org.
An der Studie nahmen 402 Personen mit einem Durchschnittsalter von 35 Jahren teil. Sie wurden gebeten, fünf Minuten lang mit einem zufällig ausgewählten Gesprächspartner zu korrespondieren. Es könnte sich um eine andere Person oder eines von drei Sprachmodellen handeln: ELIZA (gegründet 1966, in der Lage, das Verhalten eines Psychologen nachzuahmen und dem „ELIZA-Effekt“ seinen Namen zu geben, bei dem eine Person einem Programm mit einem Text menschliche Qualitäten zuschreibt Schnittstelle, wie die Fähigkeit zu denken, zu verstehen, sich einzufühlen. Notiz Hrsg.), ChatGPT-3.5, ChatGPT-4. Die Aufgabe der Versuchsteilnehmer bestand darin, zu bestimmen, mit wem sie kommunizierten und ihre Entscheidung zu begründen, und die Aufgabe der Sprachmodelle bestand darin, sich als Menschen auszugeben.
Der ChatGPT-4-Bot täuschte Menschen in 54 % der Fälle, während das Ergebnis von ChatGPT-3.5 bei 50 % und ELIZA bei 22 % lag. In 67 % der Fälle konnten die Studienteilnehmer eine Person korrekt identifizieren.
Die Forscher stellten fest, dass der Erfolg von ChatGPT-4 auf erhebliche Fortschritte im Bereich der künstlichen Intelligenz und die potenziellen Probleme hinweist, die entstehen könnten, wenn Sprachmodelle noch schwieriger von Menschen zu unterscheiden seien. Einerseits wird es möglich sein, einen Teil der Arbeit (z. B. Kundendienst) an Maschinen zu delegieren, andererseits wird es häufiger zu Desinformations- und Betrugsfällen mithilfe von Technologie kommen.
Die Ergebnisse des jüngsten Experiments verdeutlichen jedoch nicht nur die relativ hohe Komplexität und Flexibilität moderner Sprachmodelle, sondern erinnern uns auch an die Grenzen des Turing-Tests, sagen die Wissenschaftler. Studienteilnehmer beurteilten die „Menschlichkeit“ ihres Gesprächspartners viel häufiger nicht anhand der Vollständigkeit und Genauigkeit der Antwort, sondern anhand des Kommunikationsstils, des Sinns für Humor und anderer sozio-emotionaler Merkmale, die nicht immer den traditionellen Vorstellungen von Intelligenz und Intelligenz entsprechen seine Funktionen. Darüber hinaus könnten die Ergebnisse eines längeren Experiments anders ausgefallen sein.