ChatGPT ist immer noch kein House, MD.
Während der gesprächige KI-Bot bisher mit seinen Versuchen, schwierige medizinische Fälle zu diagnostizieren, enttäuscht war – mit eine Genauigkeitsrate von 39 Prozent in einer Analyse letztes Jahr –eine Studie, die diese Woche in JAMA Pediatrics veröffentlicht wird legt nahe, dass die vierte Version des großen Sprachmodells besonders schlecht für Kinder geeignet ist. Bei der Diagnose pädiatrischer medizinischer Fälle lag die Genauigkeitsrate bei lediglich 17 Prozent.
Die niedrige Erfolgsquote deutet darauf hin, dass menschliche Kinderärzte in absehbarer Zeit nicht arbeitslos sein werden, falls das Anlass zur Sorge gibt. Wie die Autoren es ausdrückten: „[T]„Seine Studie unterstreicht die unschätzbare Rolle, die klinische Erfahrung spielt.“ Sie identifiziert aber auch die kritischen Schwächen, die zur hohen Fehlerrate von ChatGPT geführt haben, und zeigt Möglichkeiten auf, wie man es in ein nützliches Werkzeug in der klinischen Versorgung verwandeln kann. Bei so viel Interesse und Experimenten mit KI-Chatbots, viele Kinderärzte und andere Ärzte sehen ihre Integration in die klinische Versorgung als unumgänglich an.
Der medizinische Bereich war im Allgemeinen ein früher Anwender von KI-gestützten Technologien, was zu einigen bemerkenswerten Misserfolgen führte, beispielsweise bei der Erstellung algorithmische Rassenvoreingenommenheitsowie Erfolge wie die Automatisierung administrativer Aufgaben und die Unterstützung bei Brustscans und Netzhautbilder interpretieren. Dazwischen gibt es auch einiges. Aber das Problemlösungspotenzial der KI hat großes Interesse daran geweckt, sie zu einem hilfreichen Werkzeug für komplexe Diagnosen zu entwickeln – dafür ist kein exzentrisches, stacheliges medizinisches Genie erforderlich, das Pillen einnimmt.
In der neuen Studie, die von Forschern am Cohen Children's Medical Center in New York durchgeführt wurde, zeigte ChatGPT-4, dass es noch nicht für pädiatrische Diagnosen geeignet ist. Im Vergleich zu allgemeinen Fällen muss bei pädiatrischen Fällen das Alter des Patienten stärker berücksichtigt werden, merken die Forscher an. Und wie alle Eltern wissen, ist die Diagnose von Erkrankungen bei Säuglingen und Kleinkindern besonders schwierig, wenn sie nicht alle auftretenden Symptome genau bestimmen oder artikulieren können.
Für die Studie haben die Forscher den Chatbot mit 100 pädiatrischen Fallherausforderungen verglichen, die zwischen 2013 und 2023 in JAMA Pediatrics und NEJM veröffentlicht wurden. Dabei handelt es sich um medizinische Fälle, die als Herausforderungen oder Quiz veröffentlicht wurden. Mitlesende Ärzte sind eingeladen, anhand der Informationen, über die die behandelnden Ärzte zu diesem Zeitpunkt verfügten, zu versuchen, die richtige Diagnose für einen komplexen oder ungewöhnlichen Fall zu stellen. Teilweise wird in den Publikationen auch erläutert, wie die behandelnden Ärzte zur richtigen Diagnose kamen.
Verpasste Anschlüsse
Für den ChatGPT-Test fügten die Forscher den relevanten Text der medizinischen Fälle in die Eingabeaufforderung ein, und dann bewerteten zwei qualifizierte medizinische Forscher die von der KI generierten Antworten als richtig, falsch oder „erfassten die Diagnose nicht vollständig“. Im letzteren Fall stellte ChatGPT eine klinisch bedingte Erkrankung fest, die zu weit gefasst oder unspezifisch war, um als korrekte Diagnose angesehen zu werden. Beispielsweise diagnostizierte ChatGPT den Fall eines Kindes als Ursache einer Kiemenspaltzyste – einem Knoten im Nacken oder unterhalb des Schlüsselbeins –, während die korrekte Diagnose Branchio-oto-renales Syndrom lautete, eine genetische Erkrankung, die eine abnormale Entwicklung von Gewebe im Hals verursacht Hals und Fehlbildungen an Ohren und Nieren. Eines der Anzeichen der Erkrankung ist die Bildung von Kiemenspaltzysten.
Insgesamt erhielt ChatGPT in nur 17 der 100 Fälle die richtige Antwort. In 72 Fällen war es eindeutig falsch und in den verbleibenden 11 Fällen wurde die Diagnose nicht vollständig erfasst. Von den 83 Fehldiagnosen betrafen 47 (57 Prozent) dasselbe Organsystem.
Unter den Fehlern stellten die Forscher fest, dass ChatGPT anscheinend Schwierigkeiten damit hatte, bekannte Zusammenhänge zwischen Erkrankungen zu erkennen, die ein erfahrener Arzt hoffentlich erkennen würde. Es wurde zum Beispiel keine Verbindung zwischen hergestellt Autismus und Skorbut (Vitamin-C-Mangel) in einem medizinischen Fall. Neuropsychiatrische Erkrankungen wie Autismus können zu einer eingeschränkten Ernährung führen, was wiederum zu Vitaminmangel führen kann. Daher sind neuropsychiatrische Erkrankungen bemerkenswerte Risikofaktoren für die Entwicklung eines Vitaminmangels bei Kindern, die in Ländern mit hohem Einkommen leben, und Ärzte sollten nach ihnen Ausschau halten. ChatGPT stellte unterdessen die Diagnose einer seltenen Autoimmunerkrankung.
Obwohl der Chatbot in diesem Test Schwierigkeiten hatte, schlagen die Forscher vor, dass er sich verbessern könnte, wenn er gezielt und selektiv auf korrekte und vertrauenswürdige medizinische Fachliteratur geschult wird – und nicht auf Dinge im Internet, die ungenaue Informationen und Fehlinformationen enthalten können. Sie schlagen außerdem vor, dass Chatbots durch einen besseren Echtzeitzugriff auf medizinische Daten verbessert werden könnten, wodurch die Modelle ihre Genauigkeit verfeinern könnten, was als „Tuning“ bezeichnet wird.
„Dies stellt eine Gelegenheit für Forscher dar, zu untersuchen, ob spezifisches Training und Tuning medizinischer Daten die diagnostische Genauigkeit von LLM-basierten Chatbots verbessern kann“, schließen die Autoren.