Das Forschungsteam analysierte ChatGPT-Antworten auf 517 Stack Overflow-Fragen, um die Genauigkeit, Konsistenz, Vollständigkeit und Prägnanz der Antworten des Chatbots zu bewerten. Die Forscher führten außerdem eine sprachliche und sentimentale Analyse der Antworten durch und befragten ein Dutzend freiwillige Teilnehmer zu den Ergebnissen des Modells. Unsere Analyse zeigt, dass 52 % der ChatGPT-Antworten falsch und 77 % ausführlich sind. Dennoch werden ChatGPT-Antworten aufgrund ihrer Vollständigkeit und ihres gut artikulierten Sprachstils in 39,34 % der Fälle bevorzugt, heißt es im Studienbericht.
Auf der offiziellen ChatGPT-Website räumt OpenAI ein, dass „seine Software möglicherweise ungenaue Informationen über Personen, Orte oder Fakten liefert“. Wir fragten das Labor, ob es Kommentare zur Purdue-Studie hätte. Der Bericht trägt den Titel „Wer antwortet besser? Eine eingehende Analyse von ChatGPT- und Stack-Overflow-Antworten auf Software-Engineering-Fragen“. Es wurde von den Wissenschaftlern Samia Kabir, David Udo-Imeh, Bonan Kou und der Assistenzprofessorin Tianyi Zhang verfasst. Wissenschaftler berichten, dass die Vorschläge von ChatGPT manchmal so plausibel erscheinen, dass sie nervig werden.
Sie fanden heraus, dass eine eindeutig falsche Antwort von ChatGPT von den Entwicklern sofort erkannt wird. Wenn eine Antwort mehr Recherche erfordert, ist es für Benutzer schwieriger zu erkennen, ob eine Antwort falsch ist oder ob der Grad des Fehlers unterschätzt wird: Wir haben beobachtet, dass Benutzer den Fehler in der Antwort von ChatGPT nur dann nicht erkennen können, wenn diese leer ist. Wenn dies jedoch nicht einfach ist oder eine IDE oder externe Dokumentation erfordert, erkennen Benutzer die Unrichtigkeit oft nicht oder unterschätzen den Grad des Fehlers in der Antwort.
Die Forscher fanden außerdem heraus, dass falsche Antworten häufiger akzeptiert wurden, weil sie mehr Text enthielten, detaillierter und aufschlussreicher waren, eine höflichere Sprache hatten und oft eine Lösung versprachen. Selbst wenn die Antwort einen eklatanten Fehler enthielt, gaben zwei der zwölf Teilnehmer dennoch an, dass die Antwort vorzuziehen sei. „Aus den halbstrukturierten Interviews geht hervor, dass die höfliche Sprache, die artikulierten und manuellen Antworten, die Vollständigkeit und Zugehörigkeit in den Antworten völlig falsche Antworten als richtig erscheinen lassen“, heißt es in der Studie.
Samia Kabir, Doktorandin an der Purdue University und eine der Autoren der Studie, sagte: „Die Fälle, in denen Teilnehmer die falschen und ausführlichen Antworten von ChatGPT den Antworten von Stack Overflow vorzogen, hatten mehrere Gründe, wie die Teilnehmer sagten.“ Einer der Hauptgründe ist der Detaillierungsgrad der Antworten von ChatGPT. In vielen Fällen ist den Teilnehmern die Länge der Antworten egal, wenn sie aus langen und detaillierten Antworten nützliche Informationen erhalten. Positive Gefühle und höfliche Antworten [de ChatGPT] sind die beiden anderen von den Teilnehmern genannten Gründe.
Kabir fügte hinzu: Die Teilnehmer ignorierten Fehler, wenn sie die Antwort von ChatGPT als aufschlussreich empfanden. Die Art und Weise, wie ChatGPT Informationen souverän vermittelt (auch wenn sie falsch sind), schafft Vertrauen bei den Benutzern und führt dazu, dass sie die falsche Antwort bevorzugen. Forscher stellen fest, dass ChatGPT-Antworten mehr „Motivationsattribute“ enthalten, das Risiko jedoch nicht so häufig beschreiben wie Stack Overflow-Nachrichten. Sie beobachteten oft, dass ChatGPT Wörter und Ausdrücke wie „sicher“, „Ich kann Ihnen helfen“ usw. in seine Antworten einfügt.
Was die anderen Ergebnisse betrifft, stellten die Autoren der Studie fest, dass ChatGPT eher konzeptionelle als sachliche Fehler machte. Viele Antworten seien falsch, weil ChatGPT den zugrunde liegenden Kontext der gestellten Frage nicht verstehen könne, schreiben die Forscher. Darüber hinaus legt die von Wissenschaftlern durchgeführte linguistische Analyse der ChatGPT- und Stack Overflow-Antworten nahe, dass die Antworten des Bots formeller sind, mehr analytisches Denken zum Ausdruck bringen, mehr Anstrengungen zum Erreichen von Zielen zeigen und weniger Emotionen zeigen. Negativ.
Kabir sagte: Basierend auf unseren Ergebnissen und Beobachtungen glauben wir, dass Stack Overflow wirksame Methoden zur Erkennung von Toxizität und negativer Stimmung in Kommentaren und Antworten integrieren sollte, um die Stimmung und Höflichkeit zu verbessern. Wir glauben auch, dass die Website möglicherweise die Sichtbarkeit ihrer Antworten verbessern möchte, um nützliche Antworten zu finden. Darüber hinaus könnte die Frage-und-Antwort-Seite auch spezifischere Richtlinien bereitstellen, die den Antwortenden helfen, ihre Antworten zu strukturieren, beispielsweise indem sie sie Schritt für Schritt präsentieren und detailliert beschreiben.
Die Stimmungsanalyse kommt zu dem Schluss, dass ChatGPT-Antworten positivere Stimmungen ausdrücken als Stack Overflow-Antworten. In der Studie empfanden 60 % der Befragten (vermutlich) von Menschen verfasste Antworten als korrekter, prägnanter und hilfreicher. Dennoch scheint die Nutzung von Stack Overflow zurückgegangen zu sein, obwohl das Ausmaß dieses Rückgangs umstritten ist. Laut einem Bericht des Datenanalyseunternehmens Similarweb vom April ist der Website-Verkehr seit Januar 2022 jeden Monat um 6 % zurückgegangen und lag im März bei 13,9 %. Similarweb weist darauf hin, dass die Nutzung von ChatGPT ein Faktor für diesen Rückgang sein könnte.
Die Schlussfolgerungen der Studie von Forschern der Purdue University stimmen mit denen einer im April veröffentlichten Studie von Forschern der University of Qubec überein. Der Studie zufolge ist der von ChatGPT generierte Code voller Schwachstellen. Die Studie zeigt, dass ChatGPT nicht nur „unsicheren Code“ produziert, sondern Benutzer auch nicht auf seine Mängel aufmerksam macht, obwohl es in der Lage ist, diese hervorzuheben. Der Chatbot gibt nur nützliche Ratschläge zur Verbesserung der Codequalität, nachdem er aufgefordert wurde, vom Benutzer erkannte Probleme zu beheben. Experten haben vor den Risiken einer Selbstüberschätzung von ChatGPT gewarnt.
Die Studie stellt Behauptungen in Frage, dass ChatGPT in den nächsten Jahren die Mehrheit der Programmierer ersetzen könnte. Die Ergebnisse sind beunruhigend. Wir haben festgestellt, dass der von ChatGPT generierte Code in mehreren Fällen deutlich unter den in den meisten Kontexten geltenden Mindestsicherheitsstandards lag. Tatsächlich konnte ChatGPT auf die Frage, ob der erzeugte Code sicher sei oder nicht, erkennen, dass dies nicht der Fall sei, behaupten die Autoren in ihrem Artikel. Die Forscher sagten, dass die Verwendung von ChatGPT zur Codegenerierung Risiken für Unternehmen birgt.
Quelle : Studienbericht
Und du ?
Was halten Sie von den Schlussfolgerungen der Studie? Verwenden Sie ChatGPT, um Computercode zu generieren? Wenn ja, können Sie dadurch Ihre Aufgaben schneller erledigen? Auf welche Probleme stoßen Sie beim Generieren von Code mit ChatGPT? Welche Risiken sind mit der Verwendung von ChatGPT durch Programmierer verbunden? Glauben Sie, dass ChatGPT Frage-und-Antwort-Seiten für Programmierer ersetzen wird?
Siehe auch
ChatGPT generiert unsicheren Computercode, sagt Ihnen aber nichts, es sei denn, Sie fragen. Experten warnen vor dem Risiko, ChatGPT zu vertrauen