Der Hype um künstliche Intelligenz (KI) hat auch Programmierer nicht verschont – viele von ihnen wenden sich für Ratschläge lieber an chatgpt als an spezialisierte Ressourcen. Dieses Phänomen ist nicht überraschend, da die Fähigkeit der KI, sofortige Antworten zu liefern, zu einem attraktiven Faktor für IT-Experten geworden ist, die nach schnellen Lösungen oder Klarstellungen suchen. Es stellte sich jedoch heraus, dass es noch zu früh ist, im Jahr 2024 auf neue Technologie zu setzen – sie scheitert oft.

Sprechen Sie selbstbewusst, aber nicht richtig

Forscher der Purdue University präsentierten im Mai 2024 die Ergebnisse ihrer Arbeit, wonach ChatGPT mehr als die Hälfte der Fragen im Zusammenhang mit der Programmierung falsch beantwortet. Gleichzeitig reagierte der Chatbot so souverän, dass er mehr als ein Drittel der Teilnehmer überzeugte.

Am 16. Oktober 2023 gab die Leitung des Hilfsdienstes für IT-Spezialisten und Entwickler Stack Overflow die Entlassung von mehr als 100 Mitarbeitern des Unternehmens bekannt, das sind 28 % der aktuellen Belegschaft. Laut Medienberichten gehen Experten davon aus, dass der Grund für die Entlassungen bei Stack Overflow verschiedene KI-Dienste waren, deren Chatbots in allen Bereichen der Technologiebranche, einschließlich der Programmierung, aufgetaucht sind. Dies stellt eine klare Herausforderung für das persönliche IT-Codierungshilfeforum dar, da viele IT-Entwickler inzwischen auf KI-Codierungsassistenzsysteme umgestiegen sind und genau die Tools, die dies tun, in die Softwareprodukte integriert sind, die Programmierer bei ihren täglichen Aktivitäten verwenden.

52 % der Antworten von ChatGPT auf Programmierfragen sind falsch

Im Jahr 2024 analysierte ein Analystenteam die Antworten von ChatGPT auf 517 Stack Overflow-Fragen, um die Genauigkeit, Konsistenz, Vollständigkeit und Prägnanz der Antworten von ChatGPT zu bewerten. Amerikanische Wissenschaftler führten außerdem eine sprachliche und sentimentale Analyse der Antworten durch und befragten ein Dutzend freiwillige Teilnehmer zu den mit dem KI-Modell erzielten Ergebnissen.

Siehe auch  GPT-4 ist „dümmer“ als GPT-5, sagt Sam Altman

Den Daten zufolge sind 52 % der ChatGPT-Antworten falsch und 77 % ausführlich. Allerdings werden ChatGPT-Antworten aufgrund ihrer Vollständigkeit und ihres gut artikulierten Schreibstils in 39,34 % der Fälle bevorzugt. Von den vielen bevorzugten ChatGPT-Antworten für IT-Experten waren etwa 77 % falsch. Das Entwicklerunternehmen OpenAI räumt auf seiner offiziellen Website ein, dass seine Software möglicherweise ungenaue Informationen über Personen, Orte oder Fakten liefert. In der Studie empfanden 60 % der Befragten von Menschen geschriebene Antworten als korrekter, prägnanter und nützlicher.

Nur wenn der Fehler in der ChatGPT-Antwort offensichtlich ist, können Benutzer ihn laut den Forschern identifizieren. Wenn ein Fehler jedoch nicht überprüfbar ist oder eine externe IDE oder Dokumentation erfordert, erkennen Benutzer die Unrichtigkeit oft nicht oder unterschätzen das Ausmaß des Fehlers in der Antwort. Selbst wenn die Antwort einen eindeutigen Fehler enthielt, bewerteten zwei von zwölf Teilnehmern die Antwort dennoch als positiv. Wissenschaftler führen dies auf den angenehmen, maßgeblichen Stil von ChatGPT selbst zurück.

Im Artikel wird weiter erläutert, dass die höfliche Sprache des Chatbots, die lehrbuchartig artikulierten Antworten, die Vollständigkeit und Zugehörigkeit der Antworten dazu führen, dass völlig falsche Antworten richtig erscheinen.

Zum Beispiel, wenn Benutzer Kühe zählen und zunächst zwei Kühe in einen Stall stecken, und nach einiger Zeit noch zwei weitere. Wie viele werden es sein? Das stimmt, die Mathematik lehrt, dass es vier sind. Aber ChatGPT kann das Gegenteil tun und mit fünf antworten! Der Chatbot erklärt seine Antwort möglicherweise damit, dass, als der Benutzer zwei weitere Kühe in den Stall brachte, eine der bereits im Stall befindlichen Kühe ein Kalb zur Welt brachte! Dann sind das doch fünf, oder? Es ist auch die Wahrheit…

Studenten auf Stack Overflow haben sogar Fehler bei einfachen Grafikproblemen gemeldet. Entwickeln Sie beispielsweise ein Programm, um die Funktion y = 2*sinx*e^4/5 darzustellen. Funktionen aus Datei x lesen. Stellen Sie die Funktion im Intervall von -50 bis 50 grafisch dar. Das Ergebnis des Programms sind zwei Arrays, die Zwischenwerte x und y für das Intervall enthalten [-50; 50]. Benutzer haben nicht darauf geachtet, dass ChatGPT beim Zeichnen von Koordinatensystemen numerische Werte verwechselt oder Daten aus einer Datei aus nicht vorhandenen Daten in einen Vektor geschrieben hat. Die Schüler verstanden die erzielten Ergebnisse nicht oder verstanden überhaupt nicht, wovon sie sprachen, wofür sie von den Lehrern entsprechende Noten erhielten.

Siehe auch  Kann ChatGPT uns helfen, mit Tieren zu sprechen? | nasscom

Die Illusion der Wahrheit

Einer der Autoren des Werkes Kabir selbst Samia Kabir sagte gegenüber The Register, dass es mehrere selbst angegebene Gründe dafür gab, dass die Teilnehmer falsche und ausführliche ChatGPT-Antworten gegenüber Stack Overflow-Antworten bevorzugten.

Einer der Hauptgründe ist, wie detailliert die Antworten von ChatGPT sind. In vielen Fällen achteten die Teilnehmer nicht auf die Länge, wenn sie durch ausführliche und ausführliche Antworten nützliche Informationen erhielten. Die anderen beiden Gründe waren positive Stimmung und höfliche Antworten des Chatbots.

Andrey Guk, Obit: Unternehmen brauchen weniger IT-Produkte als vielmehr unterbrechungsfreie digitale Prozesse

Telekommunikation

A.guk 600

Die Teilnehmer achteten nicht auf Unrichtigkeiten, als sie die ChatGPT-Antwort für aussagekräftig hielten. Die Art und Weise, wie ein Chatbot souverän aufschlussreiche Informationen vermittelt (auch wenn diese falsch sind), gewinnt das Vertrauen der Benutzer, was dazu führt, dass sie die falsche Antwort bevorzugen. Die Benutzerforschung soll die eingehende manuelle und groß angelegte linguistische Analyse von ChatGPT-Antworten ergänzen, sagte Kabir.

Die Forscher laden auch andere Analysten ein, die Ergebnisse dieses Projekts zu wiederholen. Ab Mai 2024 ist der Datensatz öffentlich verfügbar, um zukünftige Projekte zu erleichtern. Die Autoren stellen fest, dass ChatGPT-Antworten mehr „Antriebsattribute“ enthalten – eine Sprache, die auf Leistung und Erfolg hinweist, Risiken jedoch nicht oft beschreiben.

Unter anderem stellten die Autoren fest, dass ChatGPT eher konzeptionelle als sachliche Fehler machte. Viele Antworten erweisen sich als falsch, da der Chatbot den zugrunde liegenden Kontext der gestellten Frage nicht verstehen kann.

Sprachliche Analyse der Antworten

Die linguistische Analyse der ChatGPT- und Stack Overflow-Antworten zeigte, dass die Antworten des Bots formeller waren, mehr analytisches Denken zum Ausdruck brachten, mehr Anstrengung zeigten, Ziele zu erreichen, und weniger negative Emotionen zeigten. Und die Stimmungsanalyse zeigte, dass ChatGPT-Antworten eine positivere Stimmung ausdrückten als Stack Overflow-Antworten.

Siehe auch  ChatGPT wird 1: Der Erfolg des KI-Chatbots sagt ebenso viel über Menschen wie über Technologie aus

Basierend auf den Erkenntnissen und Beobachtungen der Forscher der Purdue University aus dieser Arbeit schlagen die Forscher vor, dass Stack Overflow wirksame Methoden implementieren sollte, um Toxizität und negative Stimmung in Kommentaren und Antworten zu erkennen, um die Stimmung und Höflichkeit zu verbessern.

Stapelüberlaufverkehr mit KI-Antworten

Laut einem April-Bericht von SimilarWeb ist der Datenverkehr seit Januar 2022 jeden Monat um sechs Prozent zurückgegangen und lag im März bei 13,9 %, was darauf hindeutet, dass die Nutzung von ChatGPT zum Rückgang beitragen könnte. Mitglieder der Stack Exchange-Community, einem Netzwerk von Frage- und Antwortseiten, zu dem auch Stack Overflow gehört, kamen zu einem ähnlichen Schluss, basierend auf einem Rückgang der Aktivität bei neuen Fragen, neuen auf der Seite geposteten Antworten und neuen Benutzerregistrierungen.

Im Dezember 2022 verbot Stack Overflow Benutzern vorübergehend das Teilen von Antworten aus dem ChatGPT-Chatbot, da einige davon falsch waren und Moderatoren sie nicht schnell überprüfen konnten.

Die jährliche Entwicklerumfrage von Stack Overflow unter 90.000 Programmierern ergab kürzlich, dass 77 % der Entwickler eine positive Meinung zu KI-Tools haben, aber nur 42 % vertrauen auf die Genauigkeit der Tools. OverflowAI wurde mit Blick auf die Community und mit Schwerpunkt auf der Genauigkeit von KI-generierten Daten und Inhalten entwickelt.

Für 2024 bietet OverflowAI Benutzern die Möglichkeit, die Genauigkeit und Zuverlässigkeit der Daten in der Stack Overflow-Community und ihrer mehr als 65 Millionen Fragen und Antworten zu überprüfen, zuzuordnen und zu bestätigen.

Anton Denysenko

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein