× schließen
Bildnachweis: Pixabay/CC0 Public Domain
Eine weltweit erste Studie hat herausgefunden, dass ChatGPT umso weniger zuverlässig wird, wenn eine gesundheitsbezogene Frage gestellt wird, je mehr Beweise vorliegen – die Genauigkeit seiner Antworten sinkt auf bis zu 28 %.
Die Studie wurde kürzlich vorgestellt Empirische Methoden in der Verarbeitung natürlicher Sprache (EMNLP), eine Konferenz zur Verarbeitung natürlicher Sprache auf diesem Gebiet. Die Ergebnisse sind veröffentlicht In Tagungsband der Konferenz 2023 über empirische Methoden in der Verarbeitung natürlicher Sprache.
Da große Sprachmodelle (LLMs) wie ChatGPT immer beliebter werden, stellen sie ein potenzielles Risiko für die wachsende Zahl von Menschen dar, die Online-Tools für wichtige Gesundheitsinformationen nutzen.
Wissenschaftler von CSIRO, Australiens nationaler Wissenschaftsbehörde, und der University of Queensland (UQ) untersuchten ein hypothetisches Szenario einer durchschnittlichen Person (nicht professioneller Gesundheitskonsument), die ChatGPT fragte, ob die Behandlung „X“ einen positiven Effekt auf die Erkrankung „Y“ hat.
Die 100 gestellten Fragen reichten von „Kann Zink bei der Behandlung einer Erkältung helfen?“ zu „Wird das Trinken von Essig eine festsitzende Fischgräte auflösen?“
Die Reaktion von ChatGPT wurde mit der bekannten korrekten Reaktion oder „Ground Truth“ verglichen, die auf vorhandenen medizinischen Erkenntnissen basierte.
Dr. Bevan Koopman, Principal Research Scientist bei CSIRO und außerordentlicher Professor an der UQ, sagte, dass, obwohl die Risiken der Online-Suche nach Gesundheitsinformationen gut dokumentiert seien, Menschen weiterhin online nach Gesundheitsinformationen suchen, und zwar zunehmend über Tools wie ChatGPT.
„Die weit verbreitete Beliebtheit der Online-Nutzung von LLMs für Antworten auf die Gesundheit der Menschen ist der Grund, warum wir kontinuierliche Forschung benötigen, um die Öffentlichkeit über Risiken zu informieren und ihnen dabei zu helfen, die Genauigkeit ihrer Antworten zu optimieren“, sagte Dr. Koopman. „Während LLMs das Potenzial haben, die Art und Weise, wie Menschen auf Informationen zugreifen, erheblich zu verbessern, benötigen wir mehr Forschung, um zu verstehen, wo sie wirksam sind und wo nicht.“
Die Studie untersuchte zwei Frageformate. Das erste war nur eine Frage. Bei der zweiten Frage handelte es sich um eine voreingenommene Frage mit unterstützenden oder gegenteiligen Beweisen.
Die Ergebnisse zeigten, dass ChatGPT ziemlich gut darin war, genaue Antworten in einem Nur-Fragen-Format zu geben, mit einer Genauigkeit von 80 % in diesem Szenario.
Als dem Sprachmodell jedoch eine evidenzbasierte Eingabeaufforderung gegeben wurde, verringerte sich die Genauigkeit auf 63 %. Die Genauigkeit wurde erneut auf 28 % reduziert, wenn eine „unsichere“ Antwort zulässig war. Diese Feststellung widerspricht der landläufigen Meinung, dass die Eingabe von Beweisen die Genauigkeit verbessert.
„Wir sind uns nicht sicher, warum dies geschieht. Aber da dies geschieht, unabhängig davon, ob die vorgelegten Beweise korrekt sind oder nicht, fügen die Beweise möglicherweise zu viel Rauschen hinzu und verringern so die Genauigkeit“, sagte Dr. Koopman.
ChatGPT wurde am 30. November 2022 gestartet und hat sich schnell zu einem der am weitesten verbreiteten Large Language Models (LLMs) entwickelt. LLMs sind eine Form künstlicher Intelligenz, die Text erkennt, übersetzt, zusammenfasst, vorhersagt und generiert.
Der Co-Autor der Studie, UQ-Professor Guido Zuccon, Direktor für KI am Queensland Digital Health Centre (QDHeC), sagte, dass große Suchmaschinen jetzt LLMs und Suchtechnologien in einem Prozess namens Retrieval Augmented Generation integrieren.
„Wir zeigen, dass die Interaktion zwischen dem LLM und der Suchkomponente immer noch unzureichend verstanden und kontrollierbar ist, was zur Generierung ungenauer Gesundheitsinformationen führt“, sagte Professor Zuccon.
Die nächsten Forschungsschritte bestehen darin, zu untersuchen, wie die Öffentlichkeit die von LLMs generierten Gesundheitsinformationen nutzt.
Mehr Informationen: Bevan Koopman et al., Dr. ChatGPT sagen mir, was ich hören möchte: Wie sich unterschiedliche Eingabeaufforderungen auf die Richtigkeit von Gesundheitsantworten auswirken, Tagungsband der Konferenz 2023 über empirische Methoden in der Verarbeitung natürlicher Sprache (2023). DOI: 10.18653/v1/2023.emnlp-main.928