Große Sprachmodelle (LLMs) wie das GPT-4-Modell, das der weit verbreiteten Konversationsplattform ChatGPT zugrunde liegt, haben Benutzer mit ihrer Fähigkeit überrascht, schriftliche Eingabeaufforderungen zu verstehen und geeignete Antworten in verschiedenen Sprachen zu generieren. Einige von uns fragen sich daher vielleicht: Sind die von diesen Modellen generierten Texte und Antworten so realistisch, dass sie mit von Menschen geschriebenen verwechselt werden könnten?
Forscher an der UC San Diego versuchten kürzlich, diese Frage zu beantworten. Dazu führten sie einen Turing-Test durch. Bei diesem bekannten Verfahren, das nach dem Informatiker Alan Turing benannt ist, soll festgestellt werden, inwieweit eine Maschine über eine menschenähnliche Intelligenz verfügt.
Die Ergebnisse dieses Tests, zusammengefasst in einem Papier vorab veröffentlicht auf der arXiv Server, deuten darauf hin, dass es den Leuten schwerfällt, zwischen dem GPT-4-Modell und einem menschlichen Agenten zu unterscheiden, wenn sie im Rahmen einer Zwei-Personen-Konversation mit ihnen interagieren.
„Die Idee zu diesem Artikel entstand eigentlich während eines Kurses, den Ben zu LLMs abhielt“, sagte Cameron Jones, Co-Autor des Artikels, gegenüber Tech Xplore.
„In der ersten Woche haben wir einige klassische Aufsätze über den Turing-Test gelesen und diskutiert, ob ein LLM ihn bestehen könnte und ob es wichtig wäre, wenn er es könnte. Soweit ich das beurteilen konnte, hatte es bis dahin noch niemand versucht, also beschloss ich, als mein Klassenprojekt ein Experiment zu bauen, um dies zu testen, und dann führten wir das erste öffentliche explorative Experiment durch.“
Die erste Studie, die von Jones durchgeführt und von Bergen, Professor für Kognitionswissenschaften an der UC San Diego, betreut wurde, brachte einige interessante Ergebnisse hervor, die darauf hindeuteten, dass GPT-4 in etwa 50 % der Interaktionen als menschlich durchgehen könnte. Allerdings konnte ihr exploratives Experiment einige Variablen, die die Ergebnisse beeinflussen könnten, nicht gut kontrollieren, sodass sie beschlossen, ein zweites Experiment durchzuführen, das zu den in ihrem jüngsten Artikel vorgestellten Ergebnissen führte.
„Im Laufe der Studien stellten wir fest, dass auch andere Menschen auf diesem Gebiet großartige Arbeit leisteten, darunter Jannai et al.s „Mensch oder nicht“-Spielsagte Jones. „Wir haben eine Online-Version des Spiels für zwei Spieler erstellt, bei der menschliche Teilnehmer entweder mit einem anderen Menschen oder einem KI-Modell zusammengebracht werden.“
Bei jedem Versuch des von Jones und seinen Kollegen verwendeten Zwei-Spieler-Spiels interagiert ein menschlicher Vernehmer mit einem „Zeugen“, der entweder ein Mensch oder ein KI-Agent sein kann. Der Vernehmer stellt dem Zeugen eine Reihe von Fragen, um herauszufinden, ob es sich um einen Menschen handelt oder nicht.
„Die Gespräche dauerten bis zu fünf Minuten und am Ende fällte der Vernehmende eine Entscheidung darüber, ob er den Zeugen für einen Menschen oder eine KI hielt“, erklärte Jones. „Innerhalb der fünf Minuten konnten die Teilnehmer über alles reden, was sie wollten (außer beleidigende Dinge zu sagen, die wir mit einem Filter verhinderten).“
In diesem Computerspiel für zwei Spieler setzten die Forscher drei verschiedene LLMs als potenzielle Zeugen ein, nämlich die Modelle GPT-4, GPT 3.5 und ELIZA. Sie stellten fest, dass die Benutzer zwar oft feststellen konnten, dass es sich bei den Modellen ELIZA und GPT-3.5 um Maschinen handelte, ihre Fähigkeit, herauszufinden, ob es sich bei GPT-4 um einen Menschen oder eine Maschine handelte, jedoch nicht besser war als die Wahrscheinlichkeit, dass sie bei einer zufälligen Auswahl (d. h. durch Zufall) richtig lagen.
„Echte Menschen waren zwar tatsächlich erfolgreicher und überzeugten die Vernehmer in zwei Dritteln der Fälle davon, dass sie Menschen seien, doch unsere Ergebnisse deuten darauf hin, dass Menschen in der realen Welt möglicherweise nicht zuverlässig erkennen können, ob sie mit einem Menschen oder einem KI-System sprechen“, sagte Jones.
„Tatsächlich sind sich die Menschen in der realen Welt der Möglichkeit, dass sie mit einem KI-System sprechen, weniger bewusst, sodass die Täuschungsrate sogar noch höher sein könnte. Ich denke, dies könnte Auswirkungen auf die Art von Dingen haben, für die KI-Systeme eingesetzt werden, sei es für die Automatisierung von kundenorientierten Jobs oder für Betrug oder Fehlinformationen.“
Die Ergebnisse des Turing-Tests von Jones und Bergen deuten darauf hin, dass LLMs, insbesondere GPT-4, bei kurzen Chat-Gesprächen kaum noch von Menschen zu unterscheiden sind. Diese Beobachtungen legen nahe, dass Menschen anderen, mit denen sie online interagieren, bald zunehmend misstrauischer gegenüberstehen könnten, da sie sich zunehmend unsicherer werden, ob es sich um Menschen oder Bots handelt.
Die Forscher planen nun, den für diese Studie entwickelten öffentlichen Turing-Test zu aktualisieren und wieder zugänglich zu machen, um einige zusätzliche Hypothesen zu testen. Ihre zukünftigen Arbeiten könnten weitere interessante Erkenntnisse darüber liefern, inwieweit Menschen zwischen Menschen und LLMs unterscheiden können.
„Wir möchten eine Drei-Personen-Version des Spiels durchführen, bei der der Vernehmende gleichzeitig mit einem Menschen und einem KI-System spricht und herausfinden muss, wer wer ist“, fügte Jones hinzu.
„Wir sind auch daran interessiert, andere Arten von KI-Konfigurationen zu testen, zum Beispiel Agenten Zugriff auf Live-Nachrichten und Wetterberichte zu geben oder ihnen einen Notizblock, auf dem sie sich Notizen machen können, bevor sie antworten. Schließlich möchten wir testen, ob sich die Überzeugungskraft der KI auch auf andere Bereiche erstreckt, etwa darauf, Menschen davon zu überzeugen, Lügen zu glauben, für bestimmte politische Maßnahmen zu stimmen oder Geld für einen guten Zweck zu spenden.“
Mehr Informationen: Cameron R. Jones et al., Menschen können GPT-4 in einem Turing-Test nicht von einem Menschen unterscheiden, arXiv (2024). DOI: 10.48550/arxiv.2405.08007
© 2024 Science X Netzwerk
Zitat: Tests zeigen, dass Menschen in fünfminütigen Chat-Gesprächen Schwierigkeiten haben, Menschen von ChatGPT zu unterscheiden (16. Juni 2024), abgerufen am 16. Juni 2024 von https://techxplore.com/news/2024-06-people-struggle-humans-chatgpt-minute.html
Dieses Dokument unterliegt dem Urheberrecht. Außer für Zwecke des privaten Studiums oder der Forschung darf kein Teil davon ohne schriftliche Genehmigung reproduziert werden. Der Inhalt dient ausschließlich zu Informationszwecken.