Technologien
Für Entwickler bringt ChatGPT erhebliche Produktivitätssteigerungen. Nur dass seine Antworten wortreich und sehr oft falsch sind. Und dass Benutzer Schwierigkeiten haben, diese Ungenauigkeiten zu erkennen.
Er veröffentlichtChatGPT, ein ideales Tool zur Beschleunigung der Codeproduktion? Selbst. Eine von mehreren Forschern der Purdue University (in Indiana, USA) durchgeführte Studie, die sich noch in der Vorveröffentlichung befindet, zeigt, dass der OpenAI-Chatbot in der Hälfte der Fälle falsche Antworten auf Fragen zur Softwareprogrammierung gibt. Und diese „Halluzinationen“ – der altehrwürdige Begriff für falsche LLM-Antworten – sind überzeugend genug, um ein Drittel der Studienteilnehmer zu täuschen.
Zur Durchführung ihrer Studie analysierten die Purdue-Forscher die Antworten von ChatGPT auf 517 Fragen der auf die Programmierung von Stack Overflow spezialisierten Website. Anschließend wurden die Genauigkeit, Konsistenz, Vollständigkeit und Prägnanz der vom OpenAI-Tool erstellten Vorschläge von Wissenschaftlern bewertet. Dieselben Antworten wurden auch einem Dutzend Freiwilligen zur Stellungnahme vorgelegt, im Vergleich zu den von der Stack Overflow-Community vorgeschlagenen Antworten auf dieselben Fragen.
Machen Sie Teams auf die Risiken von LLMs aufmerksam
Unsere Analyse zeigt, dass 52 % der ChatGPT-Antworten falsch und 77 % ausführlich sind, kommen die Autoren zu dem Schluss. Allerdings sind viele dieser Antworten ausreichend glaubwürdig und gut formuliert, um die von den Forschern zusammengestellte Gruppe von Benutzern zu täuschen (sieben Absolventen in Naturwissenschaften, Technik, Ingenieurwesen und Mathematik, vier Studenten, die noch keinen Abschluss haben, und ein Computeringenieur, der bereits im Amt ist). In fast 40 % der Fälle bevorzugen sie Antworten von ChatGPT gegenüber denen von Stack Overflow. In 77 % der Fälle waren diese Vorschläge schlichtweg falsch! „Unsere Studie unterstreicht die Notwendigkeit einer sorgfältigen Prüfung und Korrektur der Fehler von ChatGPT sowie der Aufklärung der Benutzer über die Risiken, die mit scheinbar korrekten Antworten des Chatbots verbunden sind“, schreiben die Purdue-Forscher.
Bei letzterem können Nutzer generative KI-Fehler nur dann erkennen, wenn sie offensichtlich sind. Wenn der Fehler nicht leicht verifizierbar ist oder eine externe Programmierumgebung oder Dokumentation erfordert, erkennen Benutzer ihn oft nicht oder unterschätzen das Ausmaß des Fehlers in der Antwort, so die Autoren. Für letztere, die auf den Interviews basieren, die sie mit den Teilnehmern geführt haben, nachdem ihnen die Antworten der KI und die von Stack Overflow übermittelt wurden, tendiert ChatGPT dazu, seine Benutzer mit seiner höflichen Sprache, seinen gut artikulierten Antworten zu beruhigen erschöpfend. Kurz gesagt: Das von ChatGPT gezeigte Vertrauen und die scheinbare Relevanz seiner Antworten (auch wenn diese falsch sind) tragen dazu bei, das Vertrauen der Benutzer zu gewinnen.
Er veröffentlichtChatGPT beruhigt seine Benutzer
Dies wird auch durch die linguistische Studie und Stimmungsanalyse bestätigt, die das Purdue-Forschungsteam zu 2.000 Fragen von Stack Overflow durchgeführt hat. ChatGPT-Antworten sind formeller und analytischer und vermitteln weniger negative Gefühle als auf Stack Overflow gepostete Kommentare. Wir haben oft beobachtet, dass ChatGPT Wörter und Sätze einfügt wie „Klar, ich kann Ihnen helfen“, „Das wird das Problem definitiv lösen“ usw. , schreiben die Autoren. Die Studie im Preprintmit dem Titel „Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions“ wurde von den Forschern Samia Kabir, David Udo-Imeh, Bonan Kou und Assistenzprofessorin Tianyi Zhang verfasst. Es hat den Vorzug, das Ausmaß des Problems aufzuzeigen, das die Verwendung von ChatGPT in der Programmierung wahrscheinlich mit sich bringen wird. Auch wenn diese Ergebnisse insbesondere aufgrund der geringen Größe der Stichprobe der Studienteilnehmer und ihrer sehr homogenen Profile eine Bestätigung verdienen. Purdue-Wissenschaftler laden auch andere Forschungsteams ein, ihre Studie zu reproduzieren und zu erweitern und ihre Datensätze dafür zur Verfügung zu stellen.
Reynald FlchauxCIO-Chefredakteur
Folgen Sie dem Autor auf Twitter Artikel rdig par
Teile diesen Artikel