× schließen
Bildnachweis: Unsplash/CC0 Public Domain
Ein Trio von Kinderärzten am Cohen Children's Medical Center in New York hat festgestellt, dass die pädiatrischen Diagnosefähigkeiten von ChatGPT erheblich mangelhaft sind, nachdem sie das LLM gebeten hatten, 100 zufällige Fallstudien zu diagnostizieren. In ihrer Studie gemeldet im Tagebuch JAMA PädiatrieJoseph Barile, Alex Margolis und Grace Cason testeten die Diagnosefähigkeiten von ChatGPT.
Die pädiatrische Diagnostik stellt laut den Forschern eine besondere Herausforderung dar, da neben der Berücksichtigung aller Symptome eines bestimmten Patienten auch das Alter berücksichtigt werden muss. Bei dieser neuen Initiative stellten sie fest, dass LLMs von einigen Medizinern als vielversprechendes neues Diagnoseinstrument beworben wurden. Um ihre Wirksamkeit zu bestimmen, stellten die Forscher 100 zufällige pädiatrische Fallstudien zusammen und baten ChatGPT, diese zu diagnostizieren.
Der Einfachheit halber verwendeten die Forscher bei der Abfrage des LLM für alle Fallstudien einen einzigen Ansatz. Sie fügten zunächst den Text aus der Fallstudie ein und folgten dann mit der Aufforderung „Listen Sie eine Differentialdiagnose und eine endgültige Diagnose auf.“
Eine Differentialdiagnose ist eine Methode, mit der anhand der Anamnese und körperlichen Untersuchungen eines Patienten eine vorläufige Diagnose (oder mehrere davon) vorgeschlagen wird. Die endgültige Diagnose ist, wie der Name schon sagt, die vermutete Ursache der Symptome. Die vom LLM gegebenen Antworten wurden von zwei Kollegen bewertet, die ansonsten nicht an der Studie beteiligt waren. Es gab drei mögliche Bewertungen: „richtig“, „falsch“ und „erfasste die Diagnose nicht vollständig“.
Das Forschungsteam stellte fest, dass ChatGPT nur 17 Mal korrekte Ergebnisse lieferte – davon standen 11 Mal im klinischen Zusammenhang mit der richtigen Diagnose, waren aber dennoch falsch.
Die Forscher stellen das Offensichtliche fest: ChatGPT ist eindeutig noch nicht bereit, als Diagnosetool eingesetzt zu werden, sie weisen jedoch auch darauf hin, dass selektiveres Training die Ergebnisse verbessern könnte. Sie weisen außerdem darauf hin, dass sich LLMs wie ChatGPT inzwischen als nützliches Verwaltungstool, beim Verfassen von Forschungsartikeln oder beim Erstellen von Anleitungsblättern für Patienten in Nachsorgeanwendungen als nützlich erweisen könnten.
Mehr Informationen: Joseph Barile et al., Diagnostische Genauigkeit eines großen Sprachmodells in pädiatrischen Fallstudien, JAMA Pädiatrie (2024). DOI: 10.1001/jamapediatrics.2023.5750
© 2024 Science X Network