Forscher der Western University in Kanada haben eine neue Studie veröffentlicht, die zeigt, dass das Large Language Model (LLM) ChatGPT bei der Diagnose von Erkrankungen schlecht abschneidet, mit einer Genauigkeit von nur 49 % unter den 150 von den Forschern getesteten Fällen. Die Forscher betonten, wie wichtig es sei, den menschlichen Faktor im Gesundheitswesen zu wahren, und wiesen darauf hin, dass es riskant sein könne, sich bei der Diagnose ausschließlich auf künstliche Intelligenz (KI) zu verlassen.
Bevor sie einen Arzt aufsuchen, wenden sich viele Menschen an „Dr. Google“, das heißt, sie googeln ihre Symptome. Obwohl es keine schlechte Sache ist, sich um die eigene Gesundheit zu kümmern, ergab eine australische Studie aus dem Jahr 2020, bei der 36 internationale mobile und Online-Symptomprüfer befragt wurden, dass Menschen, die bei Google nach ihren Symptomen suchten, nur zu 36 % genau waren.
Wird ChatGPT, das die US-amerikanische medizinische Zulassungsprüfung bestanden hat, im Vergleich zu „Dr. Google“ besser abschneiden?
Mit ChatGPT 3.5, das anhand eines großen Datensatzes aus Büchern, Artikeln und Websites trainiert wurde, analysierten die Forscher 150 Datenbanken, die ein breites Spektrum medizinischer Probleme abdeckten. Medscape Fälle. Diese Fälle umfassen verschiedene Bereiche wie Gastroenterologie, Pädiatrie und Frauengesundheit. Die Ergebnisse der Studie zeigten, dass ChatGPT einige falsche Antworten identifizieren und beseitigen konnte, die Gesamtdiagnosegenauigkeit betrug jedoch nur 49 %, was immer noch niedrig ist.
Die Forscher stellen fest, dass die leicht verständliche Präsentation von ChatGPT zu Missverständnissen führen kann, insbesondere wenn es als medizinisches Ausbildungsinstrument verwendet wird. Sie wiesen auch darauf hin, dass ChatGPT Schwierigkeiten hat, zwischen Krankheiten mit ähnlichen Symptomen zu unterscheiden und möglicherweise falsche Informationen liefert.
Die Forscher betonen, dass diese Studie zeigt, dass große Sprachmodelle nicht als einzige Quelle medizinischer Informationen verwendet werden sollten, und empfehlen, dass menschliche Fachkräfte weiterhin in den medizinischen Diagnoseprozess einbezogen werden. Zukünftige Forschungen sollten ein breiteres Spektrum an KI-Modellen evaluieren und eine größere Fallquelle nutzen, um die Genauigkeit dieser Modelle zu testen, sagten sie.
Diese Forschung wurde in der bekannten Zeitschrift „PLOS One》。
(Erste Bildquelle: Shutterstock)
Neue wissenschaftliche und technologische Erkenntnisse, die von Zeit zu Zeit aktualisiert werden