Ein frühes Computerprogramm aus den 1960er Jahren hat den viralen KI-Chatbot chatgpt beim Turing-Test geschlagen, der darauf ausgelegt ist, Menschen von künstlicher Intelligenz zu unterscheiden.
Forscher der UC San Diego in den USA testeten den frühen Chatbot ELIZA, der Mitte der 1960er Jahre vom MIT-Wissenschaftler Joseph Weizenbaum entwickelt wurde, mit modernen Versionen der Technologie.
Sie fanden heraus, dass ELIZA die GPT-3.5-KI von OpenAI übertraf, die die kostenlose Version von ChatGPT des Unternehmens unterstützt.
Der Turing-Test ist seit seiner Erfindung im Jahr 1950 durch den britischen Informatiker Alan Turing der Maßstab für die Bestimmung der Fähigkeit einer Maschine, menschliche Gespräche nachzuahmen.
Bei der neuesten Studie mussten 652 menschliche Teilnehmer beurteilen, ob sie über das Internet mit einem anderen Menschen oder einem KI-Chatbot sprachen.
Der GPT-4-Chatbot von OpenAI, der leistungsfähiger ist als die kostenlose Version der Technologie, konnte die Teilnehmer der Studie häufiger täuschen als ELIZA, mit einer Erfolgsquote von 41 Prozent.
ELIZA konnte sich in 27 Prozent der Fälle als Mensch ausgeben, während GPT-3.5 eine Erfolgsquote von nur 14 Prozent hatte.
Der KI-Experte Gary Marcus beschrieb den Erfolg von ELIZA als „peinlich“ für moderne Technologieunternehmen, die an KI-Chatbots arbeiten. Andere Wissenschaftler argumentierten jedoch, dass ChatGPT nicht für eine gute Leistung im Turing-Test konzipiert sei.
„Ich denke, die Tatsache, dass GPT-3.5 gegen ELIZA verliert, ist nicht so überraschend, wenn man die Zeitung liest“, Ethan Mollick, KI-Professor an der Wharton School in den USA, Gepostet auf X (ehemals Twitter).
„OpenAI hat das Risiko von Identitätsdiebstahl als echtes Problem angesehen und hat RLHF [reinforcement learning from human feedback] um sicherzustellen, dass ChatGPT nicht versucht, sich als Mensch auszugeben. ELIZA ist vor allem darauf ausgelegt, unsere Psychologie zu nutzen.“
Einer der in der Studie genannten Gründe dafür, dass Teilnehmer ELIZA mit einem Menschen verwechselten, war, dass es „zu schade“ sei, ein aktuelles KI-Modell zu sein, und daher „eher ein Mensch sei, der absichtlich unkooperativ sei“.
Arvind Narayanan, ein Informatikprofessor in Princeton, der nicht an der Forschung beteiligt war, sagte: „Wie immer sagt uns das Testen des Verhaltens nichts über die Leistungsfähigkeit. ChatGPT ist darauf abgestimmt, einen formellen Ton zu haben und keine Meinungen usw. auszudrücken, was es weniger menschenähnlich macht.“
Die Studiemit dem Titel „Passt GPT-4 den Turing-Test?“ muss noch einem Peer-Review unterzogen werden.