Beliebte KI-Tools wie GPT-4 generieren flüssige, menschenähnliche Texte und schneiden bei verschiedenen Sprachaufgaben so gut ab, dass es zunehmend schwieriger wird, zu erkennen, ob es sich bei der Person, mit der Sie sich unterhalten, um einen Menschen oder eine Maschine handelt.

Dieses Szenario spiegelt das berühmte Gedankenexperiment von Alan Turing wider, in dem er einen Test vorschlug, um festzustellen, ob eine Maschine ein menschenähnliches Verhalten zeigen kann, sodass ein menschlicher Beurteiler Mensch und Maschine nicht mehr allein anhand ihrer Reaktionen zuverlässig unterscheiden kann.

Die Abteilung für Kognitionswissenschaft an der UC San Diego wollte herausfinden, wie moderne KI-Systeme abschneiden, und bewertete ELIZA (einen einfachen regelbasierten Chatbot aus den 1960er Jahren, der als Basis in das Experiment einbezogen wurde), GPT-3.5 und GPT-4 in einem kontrollierten Turing-Test. Die Teilnehmer führten ein fünfminütiges Gespräch mit einem Menschen oder einer KI und mussten dann entscheiden, ob ihr Gesprächspartner ein Mensch war.

Nicht besser als der Zufall

GPT-4 und GPT-3.5 wurde mitgeteilt, wie sie auf Nachrichten reagieren sollten. Die Forscher wiesen das Modell an, „die Rolle eines jungen Menschen anzunehmen, der sehr prägnant war, das Spiel nicht sehr ernst nahm, Umgangssprache verwendete und gelegentlich Rechtschreibfehler machte“. Darüber hinaus enthielt die Eingabeaufforderung „allgemeine Informationen zum Aufbau des Spiels und Informationen zu aktuellen Nachrichten, die nach dem Trainingsende des Modells aufgetreten waren“. Auf die beiden Modelle wurde über die OpenAI-API mit einer Temperatur von 1 zugegriffen, und um zu verhindern, dass die KI zu schnell reagierte, wurden ihre Nachrichten mit einer Verzögerung gesendet, die auf der Anzahl der Zeichen in der Nachricht basierte.

Siehe auch  Wo Boston Children's eine Chance für ChatGPT sieht

In der Studie wurden 500 Teilnehmer einer von fünf Gruppen zugeteilt. Sie führten ein Gespräch entweder mit einem Menschen oder einem der drei KI-Systeme. Die Spieloberfläche ähnelte einer typischen Messaging-App. Nach fünf Minuten beurteilten die Teilnehmer, ob sie ihren Gesprächspartner für einen Menschen oder eine KI hielten, und begründeten ihre Entscheidung.

Die Ergebnisse waren interessant. GPT-4 wurde in 54 % der Fälle als Mensch identifiziert, vor GPT-3.5 (50 %). Beide waren deutlich besser als ELIZA (22 %), blieben aber hinter echten Menschen (67 %) zurück. Die Teilnehmer konnten GPT-4 nur durch Zufall als KI identifizieren, was darauf hindeutet, dass aktuelle KI-Systeme Menschen täuschen können, indem sie sie glauben lassen, sie seien Menschen.

Die Analyse der Ergebnisse zeigte, dass sich die Vernehmer häufig auf den Sprachstil, sozioemotionale Faktoren und wissensbasierte Fragen verließen, um zu entscheiden, ob sie mit einem Menschen oder einer Maschine sprachen.

Einzelheiten zum Test und die vollständigen Ergebnisse finden Sie in dem auf der arXiv-Preprint-Server.

Mehr von TechRadar Pro

5/5 - (349 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein