Ein Team von Informatikern der Purdue University hat herausgefunden, dass der beliebte LLM ChatGPT bei der Beantwortung von Fragen zur Computerprogrammierung äußerst ungenau ist. In ihrem Papier veröffentlicht als Teil der Proceedings der CHI-Konferenz zu menschlichen Faktoren in Computersystemenbeschreibt die Gruppe, wie sie Fragen von der StackOverflow-Website zog, diese an ChatGPT stellte und anschließend den Grad der Genauigkeit bei der Beantwortung maß.
Das Team präsentierte seine Ergebnisse auch auf der Konferenz über menschliche Faktoren in Computersystemen (CHI 2024) fand vom 11. bis 16. Mai statt.
ChatGPT und andere LLMs waren in letzter Zeit häufig in den Nachrichten – seit diese Apps der breiten Öffentlichkeit zugänglich gemacht wurden, sind sie sehr beliebt geworden. Leider enthalten viele der Antworten dieser Apps zwar eine Fülle nützlicher Informationen, aber auch eine Menge Ungenauigkeiten. Noch bedauerlicher ist, dass nicht immer klar ist, wann die Apps falsche Antworten geben.
In dieser neuen Studie stellte das Team von Purdue fest, dass viele Programmierstudenten begonnen haben, LLMs nicht nur zum Schreiben von Code für Programmieraufgaben zu verwenden, sondern auch, um Fragen zum Programmieren zu beantworten. Ein Student könnte beispielsweise ChatGPT fragen, was der Unterschied zwischen Bubblesort und Mergesort ist, oder, populärer, was Rekursion ist.
Um herauszufinden, wie genau LLMs solche Fragen beantworten, konzentrierte das Forschungsteam seine Bemühungen auf nur einen von ihnen – ChatGPT. Um Fragen zum Testen der App zu finden, verwendeten die Forscher Fragen, die kostenlos auf der StackOverflow-Website verfügbar sind – eine Website, die Programmierern helfen soll, mehr über das Programmieren zu lernen, indem sie mit anderen in ihrem Interessengebiet zusammenarbeiten. Auf einem Teil der Website können Benutzer Fragen posten, die von anderen beantwortet werden, die die Antworten kennen.
Das Forschungsteam verwendete 517 Fragen auf der Website und maß dann, wie oft ChatGPT die richtige Antwort gab. Leider war dies nur in 52 % der Fälle der Fall. Sie stellten auch fest, dass die Antworten tendenziell ausführlicher waren, als dies der Fall wäre, wenn einem menschlichen Experten dieselbe Frage gestellt würde.
Beunruhigenderweise stellte das Team fest, dass die Teilnehmer der Benutzerstudie in 35 % der Fälle die Antworten von ChatGPT bevorzugten. Die Forscher stellten auch fest, dass dieselben Benutzer, die die Antworten von ChatGPT lasen, die gemachten Fehler häufig nicht bemerkten – in 39 % der Fälle übersahen sie falsche Antworten.
Mehr Informationen: Samia Kabir et al., Ist Stack Overflow veraltet? Eine empirische Studie der Eigenschaften von ChatGPT Antworten auf Stack Overflow Fragen, Proceedings der CHI-Konferenz zu menschlichen Faktoren in Computersystemen (2024). DOI: 10.1145/3613904.3642596
© 2024 Science X Network
Zitat: Wissenschaftler stellen fest, dass ChatGPT bei der Beantwortung von Fragen zur Computerprogrammierung ungenau ist (27. Mai 2024), abgerufen am 27. Mai 2024 von https://techxplore.com/news/2024-05-scientists-chatgpt-inaccurate.html
Dieses Dokument unterliegt dem Urheberrecht. Außer für Zwecke des privaten Studiums oder der Forschung darf kein Teil davon ohne schriftliche Genehmigung reproduziert werden. Der Inhalt dient ausschließlich zu Informationszwecken.