Eine Studie der Purdue University in den USA ergab, dass chatgpt, ein von OpenAI entwickelter Chat-Roboter mit künstlicher Intelligenz, bei der Beantwortung von Fragen zu Softwareprogrammen eine Fehlerquote von mehr als der Hälfte aufweist und ein Drittel der Fragesteller täuschen kann.

Das Forschungsteam analysierte die Antworten von ChatGPT auf 517 Fragen auf der Stack Overflow-Website und bewertete deren Richtigkeit, Konsistenz, Vollständigkeit und Prägnanz. Sie führten auch eine sprachliche und sentimentale Analyse der Antworten durch und verteilten einen Fragebogen an 12 freiwillige Teilnehmer.

Das Fazit dieses Forschungsberichts lautet: Obwohl der Sprachstil der Antworten von ChatGPT gut ist, sind 52 % der Antworten falsch und 77 % zu lang. Fehler in ihren Antworten konnten die Teilnehmer nur erkennen, wenn diese offensichtlich waren. Andernfalls werden sie durch den freundlichen, verbindlichen und sorgfältigen Sprachstil von ChatGPT in die Irre geführt.

In ihrem Papier heißt es: „Während unserer Forschung haben wir festgestellt, dass Benutzer Fehler in ChatGPT-Antworten nur dann erkennen konnten, wenn sie offensichtlich waren. Allerdings neigten Benutzer dazu, Fehler nicht zu erkennen oder das Ausmaß von Fehlern in Antworten zu unterschätzen.“

Allerdings wurde in dem Papier auch darauf hingewiesen, dass sich zwei der zwölf Teilnehmer dennoch dafür entschieden, die Antworten von ChatGPT zu verwenden, selbst wenn die Antworten offensichtlich falsch waren. Das Papier argumentiert, dass dies daran liegt, dass ChatGPT einen angenehmen, maßgeblichen Stil hat.

In dem Papier heißt es: „Aus halbstrukturierten Interviews geht hervor, dass höfliche Sprache, klare Antworten im Lehrbuchstil, Vollständigkeit und Relevanz der Antworten selbst völlig falsche Antworten als richtig erscheinen lassen.“

Laut Samia Kabir, einer der Autoren des Papiers: Die an der Umsetzung BeteiligtenAus mehreren Gründen bevorzugen Sie falsche und lange ChatGPT-Antworten gegenüber Stack Overflow-Antworten.

Siehe auch  OpenAI ChatGPT wurde standardmäßig auf GPT-4 aktualisiert – Sina Hong Kong

„Einer der Hauptgründe ist, dass die ChatGPT-Antworten sehr detailliert sind. In vielen Fällen stört die Länge der Antwort die Teilnehmer nicht, wenn sie aus der langen und detaillierten Antwort nützliche Informationen erhalten. Außerdem sind die positive Stimmung und die Höflichkeit der Antwort wichtig.“ Es gibt zwei weitere Gründe.“

„Wenn Teilnehmer die Antworten von ChatGPT aufschlussreich finden, ignorieren sie tatsächliche Fehler in den Antworten. Die Art und Weise, wie ChatGPT selbstbewusst aufschlussreiche Informationen vermittelt, selbst wenn diese falsch sind, gewinnt das Vertrauen der Benutzer, was dazu führt, dass sie falsche Antworten bevorzugen.“

Stack Overflow ist eine Frage-und-Antwort-Seite für Programmierer und gilt als wichtige Quelle für Entwickler, um Codeschnipsel zu erhalten und Probleme zu lösen. Allerdings war die Website in den letzten Jahren auch mit Problemen wie sinkendem Traffic, sinkender Inhaltsqualität und sinkendem Nutzervertrauen konfrontiert. Laut einem Bericht von SimilarWeb vom April ist der monatliche Traffic der Website seit Januar 2022 um 6 % und im März um 13,9 % gesunken, und ChatGPT könnte einer der Gründe für den Traffic-Rückgang sein. Stack Overflow bestritt die Einschätzung von SimilarWeb und sagte, sein Datenverkehr sei durch Suchalgorithmen und ein steigendes Interesse an ChatGPT beeinträchtigt worden.

Die Autoren stellten fest, dass die ChatGPT-Antworten auch provokativer waren – eine Sprache, die Erfolg oder Leistung suggerierte. „In vielen Fällen haben wir beobachtet, dass ChatGPT Wörter und Sätze wie „Natürlich kann ich Ihnen helfen“ oder „Das wird das Problem auf jeden Fall beheben“ eingefügt hat.“

Unter anderem stellten die Autoren fest, dass ChatGPT anfälliger für konzeptionelle Fehler als für sachliche Fehler war. „Viele Antworten waren falsch, weil ChatGPT den zugrunde liegenden Kontext der gestellten Frage nicht verstehen konnte“, heißt es in dem Papier.

Siehe auch  Laut einer Studie steigert ChatGPT die Produktivität der Arbeitnehmer

Die linguistische Analyse der ChatGPT-Antworten und Stack Overflow-Antworten durch die Autoren ergab, dass die Antworten des Bots „formeller waren, mehr analytisches Denken zum Ausdruck brachten, mehr Anstrengungen zum Erreichen von Zielen zeigten und weniger negative Emotionen zeigten.“ Ihre Stimmungsanalyse kam zu dem Schluss, dass die Schlussfolgerung lautet: ChatGPT-Antworten drücken eine „positivere Stimmung“ aus als Stack Overflow-Antworten.

OpenAI räumte auf seiner ChatGPT-Website ein, dass seine Software „möglicherweise ungenaue Informationen über Personen, Orte oder Fakten generiert.“ Das Unternehmen reagierte nicht sofort auf Purdues Forschung.

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein