Eine Studie der Purdue University in den USA ergab, dass chatgpt, ein von OpenAI entwickelter Chat-Roboter mit künstlicher Intelligenz, bei der Beantwortung von Fragen zu Softwareprogrammen eine Fehlerquote von mehr als der Hälfte aufweist und ein Drittel der Fragesteller täuschen kann.

Das Forschungsteam analysierte die Antworten von ChatGPT auf 517 Fragen auf der Stack Overflow-Website und bewertete deren Richtigkeit, Konsistenz, Vollständigkeit und Prägnanz. Sie führten auch eine sprachliche und sentimentale Analyse der Antworten durch und verteilten einen Fragebogen an 12 freiwillige Teilnehmer.

52 % der Antworten von ChatGPT auf Fragen zu Softwareprogrammen sind Unsinn. Warum glauben Benutzer das immer noch?

Das Fazit dieses Forschungsberichts lautet: Obwohl der Sprachstil der Antworten von ChatGPT gut ist, sind 52 % der Antworten falsch und 77 % zu lang. Fehler in ihren Antworten konnten die Teilnehmer nur erkennen, wenn sie offensichtlich waren. Andernfalls werden sie durch den freundlichen, verbindlichen und sorgfältigen Sprachstil von ChatGPT in die Irre geführt.

In ihrem Papier heißt es: „Während unserer Forschung haben wir festgestellt, dass Benutzer Fehler in ChatGPT-Antworten nur dann erkennen konnten, wenn sie offensichtlich waren. Allerdings neigten Benutzer dazu, Fehler nicht zu erkennen oder das Ausmaß von Fehlern in Antworten zu unterschätzen.“

Allerdings wurde in dem Papier auch darauf hingewiesen, dass zwei der zwölf Teilnehmer sich dennoch für die ChatGPT-Antwort entschieden, auch wenn die Antwort eindeutig falsch war. Das Papier argumentiert, dass dies daran liegt, dass ChatGPT einen angenehmen, maßgeblichen Stil hat.

In dem Papier heißt es: „Aus halbstrukturierten Interviews geht hervor, dass höfliche Sprache, klare Antworten im Lehrbuchstil, Vollständigkeit und Relevanz der Antworten selbst völlig falsche Antworten als richtig erscheinen lassen.“

Siehe auch  Mehr als 100.000 gehackte ChatGPT-Konten werden im Dark Web verkauft – Hacker

Laut Samia Kabir, einer der Autoren des Papiers, bevorzugten die Teilnehmer des Experiments aus mehreren Gründen falsche und lange ChatGPT-Antworten gegenüber Stack Overflow-Antworten.

Einer der Hauptgründe ist, dass die Antworten von ChatGPT sehr detailliert sind.In vielen Fällen störte die Länge ihrer Antworten die Teilnehmer nicht, wenn sie aus den langen und detaillierten Antworten nützliche Informationen gewannenAuch die positive Stimmung und die Höflichkeit der Antwort sind zwei weitere Gründe 。」

„Wenn Teilnehmer die Antworten von ChatGPT aufschlussreich finden, ignorieren sie tatsächliche Fehler in den Antworten. Die Art und Weise, wie ChatGPT selbstbewusst aufschlussreiche Nachrichten vermittelt, selbst wenn diese falsch sind, hat das Vertrauen der Benutzer gewonnen, was dazu führt, dass sie falsche Antworten bevorzugen.“

Weiterführende Literatur: 200.000 Raubkopien von Büchern befinden sich in „Buch 3“, wo KI-Giganten Daten stehlen! Was ist das?

Stack Overflow ist eine Frage-und-Antwort-Seite für Programmierer und gilt als wichtige Quelle für Entwickler, um Codeschnipsel zu erhalten und Probleme zu lösen. Allerdings war die Website in den letzten Jahren auch mit Problemen wie sinkendem Traffic, sinkender Inhaltsqualität und sinkendem Nutzervertrauen konfrontiert. Laut einem Bericht von SimilarWeb vom April ist der monatliche Traffic der Website seit Januar 2022 um 6 % und im März um 13,9 % gesunken, und ChatGPT könnte einer der Gründe für den Traffic-Rückgang sein. Stack Overflow bestritt die Einschätzung von SimilarWeb und sagte, sein Datenverkehr sei durch Suchalgorithmen und ein steigendes Interesse an ChatGPT beeinträchtigt worden.

Die Autoren stellten fest, dass die ChatGPT-Antworten auch provokativer waren – eine Sprache, die Erfolg oder Leistung suggerierte. „In vielen Fällen haben wir beobachtet, dass ChatGPT Wörter und Sätze wie „Natürlich kann ich Ihnen helfen“ oder „Das wird das Problem auf jeden Fall beheben“ eingefügt hat.“

Siehe auch  ChatGPT und CX – das Zeitalter der Agentenerweiterung

Unter anderem stellten die Autoren fest, dass ChatGPT anfälliger für konzeptionelle Fehler als für sachliche Fehler war. „Viele Antworten waren falsch, weil ChatGPT den zugrunde liegenden Kontext der gestellten Frage nicht verstehen konnte“, heißt es in dem Papier.

Die linguistische Analyse der ChatGPT-Antworten und Stack Overflow-Antworten durch die Autoren ergab, dass die Antworten des Bots „formeller waren, mehr analytisches Denken zum Ausdruck brachten, mehr Anstrengungen zum Erreichen von Zielen zeigten und weniger negative Emotionen zeigten.“ Ihre Stimmungsanalyse kam zu dem Schluss, dass die Schlussfolgerung lautet: ChatGPT-Antworten drücken eine „positivere Stimmung“ aus als Stack Overflow-Antworten.

OpenAI räumte auf seiner ChatGPT-Website ein, dass seine Software „möglicherweise ungenaue Informationen über Personen, Orte oder Fakten generiert.“ Das Unternehmen reagierte nicht sofort auf Purdues Forschung.

Weiterführende Literatur: KI hilft Ihnen bei der Werbung und spart das 20-fache der Kosten! Sowohl Nestle als auch Coca-Cola setzen auf KI. Welche Risiken stecken dahinter?

Dieser Artikel darf reproduziert werden von:T Kebang

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein