Laut einer Studie der Purdue University liefert chatgpt, der Fabulations-Chatbot von OpenAI, in mehr als der Hälfte der Fälle falsche Antworten auf Fragen zur Softwareprogrammierung. Dennoch war der Bot überzeugend genug, um ein Drittel der Teilnehmer zu täuschen.
Das Purdue-Team analysierte die Antworten von ChatGPT auf 517 Stack Overflow-Fragen, um die Richtigkeit, Konsistenz, Vollständigkeit und Prägnanz der Antworten von ChatGPT zu beurteilen. Die US-Wissenschaftler führten außerdem eine Sprach- und Sentimentanalyse der Antworten durch und befragten ein Dutzend freiwillige Teilnehmer zu den Ergebnissen des Modells.
„Unsere Analyse zeigt, dass 52 Prozent der ChatGPT-Antworten falsch und 77 Prozent ausführlich sind“, heißt es in der Studie des Teams. „Dennoch werden ChatGPT-Antworten aufgrund ihrer Vollständigkeit und ihres gut artikulierten Sprachstils immer noch in 39,34 Prozent der Fälle bevorzugt.“ Unter den bevorzugten ChatGPT-Antworten waren 77 Prozent falsch.
OpenAI auf der ChatGPT-Website räumt ein, dass seine Software „ungenaue Informationen über Personen, Orte oder Fakten liefern kann“. Wir haben das Labor gefragt, ob es einen Kommentar zur Purdue-Studie hat.
Nur wenn der Fehler in der ChatGPT-Antwort offensichtlich ist, können Benutzer den Fehler identifizieren
Der Vordruckpapier trägt den Titel „Wer antwortet besser? Eine eingehende Analyse von ChatGPT- und Stack-Overflow-Antworten auf Software-Engineering-Fragen.“ Es wurde von den Forschern Samia Kabir, David Udo-Imeh, Bonan Kou und der Assistenzprofessorin Tianyi Zhang verfasst.
„Während unserer Studie haben wir festgestellt, dass Benutzer den Fehler nur dann identifizieren können, wenn der Fehler in der ChatGPT-Antwort offensichtlich ist“, heißt es in ihrem Artikel. „Wenn der Fehler jedoch nicht ohne weiteres überprüfbar ist oder eine externe IDE oder Dokumentation erfordert, erkennen Benutzer die Unrichtigkeit oft nicht oder unterschätzen den Grad des Fehlers in der Antwort.“
Selbst wenn die Antwort einen eklatanten Fehler enthielt, gaben zwei der zwölf Teilnehmer der Studie an, dass sie immer noch die Antwort bevorzugten. Das Papier führt dies auf den angenehmen, maßgeblichen Stil von ChatGPT zurück.
„Aus halbstrukturierten Interviews geht hervor, dass höfliche Sprache, artikulierte und lehrbuchartige Antworten, Vollständigkeit und Zugehörigkeit in den Antworten völlig falsche Antworten als richtig erscheinen lassen“, erklärte das Papier.
Sie sagen immer, seien Sie höflich …
„Die Fälle, in denen Teilnehmer falsche und ausführliche ChatGPT-Antworten den Antworten von Stack Overflow vorzogen, hatten, wie die Teilnehmer berichteten, mehrere Gründe“, sagte Samia Kabir, Doktorandin an der Purdue University und eine der Autoren des Papiers Das Register.
„Einer der Hauptgründe war, wie detailliert die Antworten von ChatGPT sind. In vielen Fällen machte den Teilnehmern die Länge nichts aus, wenn sie aus langen und detaillierten Antworten nützliche Informationen erhielten. Außerdem waren positive Gefühle und Höflichkeit der Antworten die beiden anderen Gründe.“
„Die Teilnehmer ignorierten die Unrichtigkeit, als sie die Antwort von ChatGPT als aufschlussreich empfanden. Die Art und Weise, wie ChatGPT aufschlussreiche Informationen souverän vermittelt (auch wenn die Informationen falsch sind), gewinnt das Vertrauen der Benutzer, was dazu führt, dass sie die falsche Antwort bevorzugen.“
Kabir sagte, dass die Benutzerstudie die ausführliche manuelle und groß angelegte linguistische Analyse der ChatGPT-Antworten ergänzen soll.
„Dennoch wäre es immer von Vorteil, eine größere Stichprobe zu haben“, sagte sie. „Wir heißen auch andere Forscher willkommen, unsere Studie zu reproduzieren – unser Datensatz ist öffentlich verfügbar, um zukünftige Forschung zu fördern.“
Die Autoren stellen fest, dass ChatGPT-Antworten mehr „Antriebsattribute“ enthalten – eine Sprache, die Leistung oder Erfolg suggeriert –, aber Risiken nicht so häufig beschreiben wie Stack Overflow-Beiträge.
„Bei vielen Gelegenheiten haben wir beobachtet, dass ChatGPT Wörter und Phrasen eingefügt hat wie ‚Natürlich kann ich Ihnen helfen‘, ‚Das wird das Problem sicherlich beheben‘ usw.“, heißt es in der Zeitung.
Unter anderem stellten die Autoren fest, dass ChatGPT eher konzeptionelle als sachliche Fehler macht. „Viele Antworten sind falsch, weil ChatGPT nicht in der Lage ist, den zugrunde liegenden Kontext der gestellten Frage zu verstehen“, heißt es in dem Papier.
Die linguistische Analyse der ChatGPT-Antworten und Stack Overflow-Antworten durch die Autoren legt nahe, dass die Antworten des Bots „formeller sind, mehr analytisches Denken zum Ausdruck bringen, mehr Bemühungen zur Erreichung von Zielen zeigen und weniger negative Emotionen zeigen“. Und ihre Stimmungsanalyse kam zu dem Schluss, dass ChatGPT-Antworten „positivere Gefühle“ ausdrücken als Stack Overflow-Antworten.
Kabir sagte: „Aufgrund unserer Erkenntnisse und Beobachtungen aus dieser Forschung würden wir vorschlagen, dass Stack Overflow möglicherweise wirksame Methoden integrieren möchte, um Toxizität und negative Gefühle in Kommentaren und Antworten zu erkennen, um die Stimmung und Höflichkeit zu verbessern.“
„Wir glauben auch, dass Stack Overflow die Auffindbarkeit seiner Antworten verbessern möchte, um bei der Suche nach nützlichen Antworten zu helfen. Darüber hinaus möchte Stack Overflow möglicherweise spezifischere Richtlinien bereitstellen, um Antwortenden bei der Strukturierung ihrer Antworten zu helfen, z. B. Schritt für Schritt.“ , detailorientierte Art.“
Stapelüberlauf im Vergleich zu einem überlaufenden Stapel
Hier gibt es einige positive Nachrichten für Stack Overflow, das im Jahr 2018 als Quelle fehlerhafter Codeschnipsel in etwa gemeldet wurde 15 Prozent von 1,3 Millionen Android-Apps. In der Studie empfanden 60 Prozent der Befragten die (vermutlich) von Menschen verfassten Antworten als korrekter, prägnanter und nützlicher.
Dennoch scheint die Nutzung von Stack Overflow zurückgegangen zu sein, obwohl die Höhe umstritten ist. Es scheint, dass der Verkehr seit Januar 2022 jeden Monat um sechs Prozent zurückgegangen ist und im März um 13,9 Prozent zurückgegangen ist April-Bericht von SimilarWeb, dass die vorgeschlagene Verwendung von ChatGPT möglicherweise zum Rückgang beiträgt.
Community-Mitglieder von Stack Exchange, dem Netzwerk von Q&A-Sites, zu dem auch Stack Overflow gehört, sind offenbar dazu gekommen eine ähnliche Schlussfolgerungbasierend auf einem Rückgang der Aktivität bei neuen Fragen, der Veröffentlichung neuer Antworten auf der Website und der Registrierung neuer Benutzer.
Stack Overflow, seit 2021 unter neuem Eigentümer, widersprach der Einschätzung von SimilarWeb in einer E-Mail an Das Register.
Ein Sprecher sagte, das Unternehmen habe im Mai 2022 sein Analyse-Cookie von einem „unbedingt notwendigen“ zu einem „Leistungs“-Cookie umkategorisiert und im September 2022 auf google Analytics Version 4 umgestellt, was sich beide auf die Verkehrsberichte und Vergleiche im Laufe der Zeit auswirkt.
Freundliche KI-Chatbots werden „innerhalb von Jahren“ Biowaffen für Kriminelle entwickeln
WEITERLESEN
„Obwohl wir einen leichten Rückgang des Verkehrsaufkommens festgestellt haben, entspricht dies keineswegs dem, was die Grafik zeigt“, sagte uns der Unternehmenssprecher. „Insgesamt verzeichnen wir in diesem Jahr im Vergleich zu 2022 durchschnittlich etwa 5 Prozent weniger Verkehr.“
„Dennoch wurde der Traffic von Stack Overflow, zusammen mit dem Traffic zu vielen anderen Websites, durch den Anstieg des Interesses an ChatGPT in den letzten Monaten beeinträchtigt. Im April dieses Jahres verzeichneten wir einen überdurchschnittlichen Traffic-Rückgang (~14 Prozent). , was wir wahrscheinlich darauf zurückführen können, dass Entwickler GPT-4 nach seiner Veröffentlichung im März ausprobiert haben. Unser Datenverkehr ändert sich auch basierend auf Suchalgorithmen, die einen großen Einfluss darauf haben, wie unsere Inhalte entdeckt werden.“
Auf die Ergebnisse der Studie angesprochen, sagte der Sprecher von Stack Overflow, dass niemand im Unternehmen Zeit gehabt habe, sich mit dem Bericht zu befassen.
„Wir wissen, dass es nicht an Möglichkeiten mangelt, wie Entwickler KI nutzen können. Unseren eigenen Erkenntnissen zufolge gibt es jedoch ein zentrales Abschreckungsmittel bei der Einführung – das Vertrauen in die Genauigkeit von KI-generierten Inhalten“, sagte der Vertreter.
„Die jährliche Entwicklerumfrage von Stack Overflow unter 90.000 Programmierern ergab kürzlich, dass 77 Prozent der Entwickler KI-Tools befürworten, aber nur 42 Prozent vertrauen auf die Genauigkeit dieser Tools. OverflowAI Entwickelt mit der Community im Mittelpunkt und mit einem Fokus auf die Genauigkeit von Daten und KI-generierten Inhalten.
„Mit OverflowAI bieten wir die Möglichkeit, Genauigkeit und Vertrauenswürdigkeit in der gesamten Stack Overflow-Community und ihren mehr als 58 Millionen Fragen und Antworten zu überprüfen, zu validieren, zuzuordnen und zu bestätigen.“ ®