Die Purdue University deckt die Leistungslücke von chatgpt im Bereich der Softwareprogrammierung auf
Eine kürzlich von Forschern der Purdue University durchgeführte Studie hat Aufschluss über die Leistung des Chatbots ChatGPT von OpenAI bei der Beantwortung von Fragen zur Softwareprogrammierung gegeben. Die Studie untersucht die Genauigkeit, den Sprachstil und die Benutzerpräferenzen in über 500 vom KI-Modell generierten Antworten und bietet Einblicke in seine Stärken und Schwächen.
Eine miserable Genauigkeit von 52 %
Die Purdue-Studie, die 517 Anfragen der Coding-Community-Plattform Stack Overflow analysierte, enthüllte einen bemerkenswerten Fehler in der Leistung von ChatGPT. Erstaunlicherweise lieferte der Chatbot in mehr als der Hälfte der Fälle falsche Antworten mit einer Genauigkeitsrate von besorgniserregenden 52 Prozent. Noch verwirrender war die Entdeckung, dass erstaunliche 77 Prozent der Antworten übermäßig ausführlich waren, was möglicherweise zur Verwirrung der Benutzer beitrug.
Stil über Substanz
Kurioserweise offenbarte die Studie trotz der Ungenauigkeiten in den Antworten von ChatGPT einen eigentümlichen Trend. In 39,34 Prozent der Fälle entschieden sich die Nutzer für die Antworten der KI, angezogen von ihrem eloquenten und umfassenden Sprachstil. Erstaunlicherweise waren 77 Prozent dieser bevorzugten Antworten falsch. Dieses Phänomen unterstreicht den Reiz der artikulierten Art der KI und überschattet oft die sachliche Richtigkeit der bereitgestellten Informationen.
Vertrauen übertrifft Korrektheit
Die Forscher beobachteten auch ein faszinierendes Phänomen: Benutzer übersahen häufig Fehler in den Antworten von ChatGPT, insbesondere wenn diese Fehler nicht leicht überprüfbar waren oder externe Referenzen erforderten. In Fällen, in denen Fehler offensichtlich waren, befürwortete eine beträchtliche Anzahl von Teilnehmern dennoch die Reaktion der KI aufgrund ihrer souveränen und maßgeblichen Darbietung. Dies unterstreicht die Kraft überzeugender Sprache bei der Förderung des Vertrauens und der Gunst der Benutzer, selbst angesichts von Ungenauigkeiten.
Sprachstilvergleich
Die Purdue-Studie erweiterte ihre Analyse auch auf den von ChatGPT verwendeten Sprachstil im Vergleich zu typischen Stack Overflow-Beiträgen. Es wurde festgestellt, dass das KI-Modell häufig „Antriebsattribute“ verwendet, die auf Erfolge hinweisen, Risiken jedoch nicht so konsequent besprechen wie die Community-gesteuerte Plattform. Diese Diskrepanz unterstreicht die Notwendigkeit eines ausgewogeneren Ansatzes zur Informationsverbreitung.
Empfehlungen für die Zukunft
Angesichts der Ergebnisse der Studie haben die Forscher eine Reihe von Empfehlungen zur Verbesserung der Q&A-Landschaft zur Softwareprogrammierung herausgegeben. Erstens schlagen sie vor, dass Plattformen wie Stack Overflow wirksame Strategien zur Identifizierung toxischer und negativer Gefühle in Kommentaren und Antworten erforschen sollten, um eine positivere Benutzererfahrung zu fördern. Zweitens plädieren sie für klarere Richtlinien für Antwortende, um ihre Antworten methodisch und Schritt für Schritt zu strukturieren.
Dies könnte möglicherweise die Auffindbarkeit und Verständlichkeit von Antworten verbessern.
Owen MorrisDirektor für Unternehmensarchitektur bei Doherty Associates, kommentierte: „Obwohl KI zahlreiche Vorteile bietet, gibt es bestimmte Nachteile, die Benutzer beachten sollten. Ein Risiko besteht darin, KI unvorsichtig einzusetzen und sich ohne gründliche Bewertung oder kritische Analyse darauf zu verlassen. Wie neue Untersuchungen ergeben haben, ist ChatGPT in 52 % der Fälle falsch, wobei es eher zu konzeptionellen als zu sachlichen Fehlern kommt.
„Tools wie ChatGPT bieten Einblicke auf der Grundlage der Daten, auf denen sie basieren (einschließlich Crawls im Internet und anderen Quellen) und behalten ihre Voreingenommenheit bei, sodass menschliches Engagement für Genauigkeit und Wertschöpfung weiterhin unerlässlich bleibt. Denken Sie daran, Ihr Team zu nutzen, damit es sein eigenes domänenspezifisches Wissen und seine eigenen Daten einbringen kann, um die Anwendbarkeit der Modelle zu verbessern. Trotz der Befürchtungen, dass diese Modelle irgendwann menschliche Arbeitskräfte ersetzen werden, zeigen die Untersuchungen, dass dies unwahrscheinlich ist. Ohne menschliche Aufsicht, die die Antworten kontextualisiert und ihre Richtigkeit kritisch bewertet, besteht ein erhebliches Risiko, dass Sie falsche oder schädliche Informationen in Ihre Arbeit integrieren, was deren Qualität und, allgemeiner gesagt, Ihren beruflichen Ruf gefährdet.“
Die Straße entlang
Die als Pre-Print-Papier präsentierte Studie ist ein erster Schritt zum Verständnis der Leistung von ChatGPT in einem bestimmten Bereich. Die Forscher sind an einer weiteren Validierung durch größere Studien interessiert. OpenAI hat sich bislang noch nicht zu den Ergebnissen der Purdue-Studie geäußert. Angesichts der kontinuierlichen Weiterentwicklung der KI könnten die Erkenntnisse aus solchen Forschungen den Weg für Verbesserungen ebnen, die besser auf die Bedürfnisse und Erwartungen der Benutzer abgestimmt sind.