chatgpt zu unterscheiden“ title=“Erfolgsquoten (links) und Vertrauen des Vernehmungsbeamten (rechts) für jeden Zeugentyp. Erfolgsquoten sind der Anteil der Zeit, in der ein Zeugentyp als menschlich beurteilt wurde. Fehlerbalken stellen 95 %-Bootstrap-Konfidenzintervalle dar. Signifikanzsterne über jedem Balken zeigen an, ob die Erfolgsquote signifikant von 50 % abweicht. Vergleiche zeigen signifikante Unterschiede in den Erfolgsquoten zwischen Zeugentypen. Rechts: Vertrauen in menschliche und KI-Urteile für jeden Zeugentyp. Jeder Punkt stellt ein einzelnes Spiel dar. Punkte weiter links und rechts zeigen ein höheres Vertrauen in KI- bzw. menschliche Urteile an. Bildnachweis: Jones und Bergen.“ width=“800″ height=“530″/>

Erfolgsquoten (links) und Vertrauen des Vernehmungsbeamten (rechts) für jeden Zeugentyp. Erfolgsquoten sind der Anteil der Zeit, in der ein Zeugentyp als menschlich beurteilt wurde. Fehlerbalken stellen 95 %-Bootstrap-Konfidenzintervalle dar. Signifikanzsterne über jedem Balken zeigen an, ob die Erfolgsquote signifikant von 50 % abweicht. Vergleiche zeigen signifikante Unterschiede in den Erfolgsquoten zwischen Zeugentypen. Rechts: Vertrauen in menschliche und KI-Urteile für jeden Zeugentyp. Jeder Punkt stellt ein einzelnes Spiel dar. Punkte weiter links und rechts zeigen ein höheres Vertrauen in KI- bzw. menschliche Urteile an. Bildnachweis: Jones und Bergen.

Große Sprachmodelle (LLMs) wie das GPT-4-Modell, das der weit verbreiteten Konversationsplattform ChatGPT zugrunde liegt, haben Benutzer mit ihrer Fähigkeit überrascht, schriftliche Eingabeaufforderungen zu verstehen und geeignete Antworten in verschiedenen Sprachen zu generieren. Einige von uns fragen sich daher vielleicht: Sind die von diesen Modellen generierten Texte und Antworten so realistisch, dass sie mit von Menschen geschriebenen verwechselt werden könnten?

Forscher an der UC San Diego versuchten kürzlich, diese Frage zu beantworten. Dazu führten sie einen Turing-Test durch. Bei diesem bekannten Verfahren, das nach dem Informatiker Alan Turing benannt ist, soll festgestellt werden, inwieweit eine Maschine über eine menschenähnliche Intelligenz verfügt.

Die Ergebnisse dieses Tests, zusammengefasst in einem Papier vorab veröffentlicht auf der arXiv Server, deuten darauf hin, dass es den Leuten schwerfällt, zwischen dem GPT-4-Modell und einem menschlichen Agenten zu unterscheiden, wenn sie im Rahmen einer Zwei-Personen-Konversation mit ihnen interagieren.

„Die Idee zu diesem Artikel entstand eigentlich während eines Kurses, den Ben zu LLMs abhielt“, sagte Cameron Jones, Co-Autor des Artikels, gegenüber Tech Xplore.

Siehe auch  Wie ChatGPT mir hilft, komplexe Sachverhalte zu verstehen, Programmieren zu lernen und die Angst vor einem weißen Blatt Papier zu überwinden

„In der ersten Woche haben wir einige klassische Aufsätze über den Turing-Test gelesen und diskutiert, ob ein LLM ihn bestehen könnte und ob es wichtig wäre, wenn er es könnte. Soweit ich das beurteilen konnte, hatte es bis dahin noch niemand versucht, also beschloss ich, als mein Klassenprojekt ein Experiment zu bauen, um dies zu testen, und dann führten wir das erste öffentliche explorative Experiment durch.“

Die erste Studie, die von Jones durchgeführt und von Bergen, Professor für Kognitionswissenschaften an der UC San Diego, betreut wurde, brachte einige interessante Ergebnisse hervor, die darauf hindeuteten, dass GPT-4 in etwa 50 % der Interaktionen als menschlich durchgehen könnte. Allerdings konnte ihr exploratives Experiment einige Variablen, die die Ergebnisse beeinflussen könnten, nicht gut kontrollieren, sodass sie beschlossen, ein zweites Experiment durchzuführen, das zu den in ihrem jüngsten Artikel vorgestellten Ergebnissen führte.

„Im Laufe der Studien stellten wir fest, dass auch andere Menschen auf diesem Gebiet großartige Arbeit leisteten, darunter Jannai et al.s „Mensch oder nicht“-Spielsagte Jones. „Wir haben eine Online-Version des Spiels für zwei Spieler erstellt, bei der menschliche Teilnehmer entweder mit einem anderen Menschen oder einem KI-Modell zusammengebracht werden.“

Bei jedem Versuch des von Jones und seinen Kollegen verwendeten Zwei-Spieler-Spiels interagiert ein menschlicher Vernehmer mit einem „Zeugen“, der entweder ein Mensch oder ein KI-Agent sein kann. Der Vernehmer stellt dem Zeugen eine Reihe von Fragen, um herauszufinden, ob es sich um einen Menschen handelt oder nicht.

google Addis Ababa. Ground Truth: GPT-4; B) Verdict: AI (100% confidence) Long time for responses, wouldn’t tell me a specific place they grew up. Ground Truth: Human; C) Verdict: Human (100% confidence) He seems very down to earth and speaks naturally. Ground Truth: GPT-3.5; D) Verdict: AI (67% confidence), Did not put forth any effort to convince me they were human and the responses were odd, Ground Truth: ELIZA.] Credit: Jones and Bergen.“>
Siehe auch  Die KI-generierten Trainingseinheiten von ChatGPT waren unvollständig und zu vorsichtig, heißt es in einer Studie
In Fünfminütigen Chat-Gesprächen Fällt Es Den Leuten Schwer, Menschen Von Chatgpt Zu Unterscheiden

Eine Auswahl von Gesprächen zwischen menschlichen Vernehmern (grün) und Zeugen (grau). Eines dieser vier Gespräche findet mit einem menschlichen Zeugen statt, die übrigen mit KI. Die Urteile der Vernehmer und die Ground-Truth-Identitäten finden Sie weiter unten (um Lesern eine indirekte Beteiligung zu ermöglichen). [A) Verdict: Human (100% confidence) Took a while to Google Addis Ababa. Ground Truth: GPT-4; B) Verdict: AI (100% confidence) Long time for responses, wouldn’t tell me a specific place they grew up. Ground Truth: Human; C) Verdict: Human (100% confidence) He seems very down to earth and speaks naturally. Ground Truth: GPT-3.5; D) Verdict: AI (67% confidence), Did not put forth any effort to convince me they were human and the responses were odd, Ground Truth: ELIZA.] Bildnachweis: Jones und Bergen.

„Die Gespräche dauerten bis zu fünf Minuten und am Ende fällte der Vernehmende eine Entscheidung darüber, ob er den Zeugen für einen Menschen oder eine KI hielt“, erklärte Jones. „Innerhalb der fünf Minuten konnten die Teilnehmer über alles reden, was sie wollten (außer beleidigende Dinge zu sagen, die wir mit einem Filter verhinderten).“

In diesem Computerspiel für zwei Spieler setzten die Forscher drei verschiedene LLMs als potenzielle Zeugen ein, nämlich die Modelle GPT-4, GPT 3.5 und ELIZA. Sie stellten fest, dass die Benutzer zwar oft feststellen konnten, dass es sich bei den Modellen ELIZA und GPT-3.5 um Maschinen handelte, ihre Fähigkeit, herauszufinden, ob es sich bei GPT-4 um einen Menschen oder eine Maschine handelte, jedoch nicht besser war als die Wahrscheinlichkeit, dass sie bei einer zufälligen Auswahl (d. h. durch Zufall) richtig lagen.

Siehe auch  OpenAI ChatGPT GPT-4 Turbo erhält einen Mid-Life-Boost, das sollten Sie wissen

„Echte Menschen waren zwar tatsächlich erfolgreicher und überzeugten die Vernehmer in zwei Dritteln der Fälle davon, dass sie Menschen seien, doch unsere Ergebnisse deuten darauf hin, dass Menschen in der realen Welt möglicherweise nicht zuverlässig erkennen können, ob sie mit einem Menschen oder einem KI-System sprechen“, sagte Jones.

„Tatsächlich sind sich die Menschen in der realen Welt der Möglichkeit, dass sie mit einem KI-System sprechen, weniger bewusst, sodass die Täuschungsrate sogar noch höher sein könnte. Ich denke, dies könnte Auswirkungen auf die Art von Dingen haben, für die KI-Systeme eingesetzt werden, sei es für die Automatisierung von kundenorientierten Jobs oder für Betrug oder Fehlinformationen.“

Die Ergebnisse des Turing-Tests von Jones und Bergen deuten darauf hin, dass LLMs, insbesondere GPT-4, bei kurzen Chat-Gesprächen kaum noch von Menschen zu unterscheiden sind. Diese Beobachtungen legen nahe, dass Menschen anderen, mit denen sie online interagieren, bald zunehmend misstrauischer gegenüberstehen könnten, da sie sich zunehmend unsicherer werden, ob es sich um Menschen oder Bots handelt.

Die Forscher planen nun, den für diese Studie entwickelten öffentlichen Turing-Test zu aktualisieren und wieder zugänglich zu machen, um einige zusätzliche Hypothesen zu testen. Ihre zukünftigen Arbeiten könnten weitere interessante Erkenntnisse darüber liefern, inwieweit Menschen zwischen Menschen und LLMs unterscheiden können.

„Wir möchten eine Drei-Personen-Version des Spiels durchführen, bei der der Vernehmende gleichzeitig mit einem Menschen und einem KI-System spricht und herausfinden muss, wer wer ist“, fügte Jones hinzu.

„Wir sind auch daran interessiert, andere Arten von KI-Konfigurationen zu testen, zum Beispiel Agenten Zugriff auf Live-Nachrichten und Wetterberichte zu geben oder ihnen einen Notizblock, auf dem sie sich Notizen machen können, bevor sie antworten. Schließlich möchten wir testen, ob sich die Überzeugungskraft der KI auch auf andere Bereiche erstreckt, etwa darauf, Menschen davon zu überzeugen, Lügen zu glauben, für bestimmte politische Maßnahmen zu stimmen oder Geld für einen guten Zweck zu spenden.“

Mehr Informationen: Cameron R. Jones et al., Menschen können GPT-4 in einem Turing-Test nicht von einem Menschen unterscheiden, arXiv (2024). DOI: 10.48550/arxiv.2405.08007

Informationen zur Zeitschrift: arXiv

© 2024 Science X Netzwerk

Zitat: Tests zeigen, dass Menschen in fünfminütigen Chat-Gesprächen Schwierigkeiten haben, Menschen von ChatGPT zu unterscheiden (16. Juni 2024), abgerufen am 16. Juni 2024 von https://techxplore.com/news/2024-06-people-struggle-humans-chatgpt-minute.html

Dieses Dokument unterliegt dem Urheberrecht. Außer für Zwecke des privaten Studiums oder der Forschung darf kein Teil davon ohne schriftliche Genehmigung reproduziert werden. Der Inhalt dient ausschließlich zu Informationszwecken.

5/5 - (428 votes)
Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein