Forscher fanden heraus, dass ein auf einem großen Sprachmodell (LLM) basierender Chatbot bei den meisten pädiatrischen Fällen die falsche Diagnose stellte.

chatgpt Version 3.5 erreichte in 83 von 100 pädiatrischen Fallherausforderungen eine falsche Diagnose. Von den falschen Diagnosen waren 72 tatsächlich falsch und 11 standen im klinischen Zusammenhang mit der richtigen Diagnose, waren aber zu weit gefasst, um als richtig angesehen zu werden, berichteten Joseph Barile, BA, vom Cohen Children's Medical Center in New Hyde Park, New York, und Kollegen In JAMA Pädiatrie.

Beispielsweise hat ChatGPT bei einem Fall von Hautausschlag und Arthralgien bei einem Teenager mit Autismus einen Fehler gemacht. Die Diagnose des Arztes lautete „Skorbut“ und die Diagnose des Chatbots lautete „immunthrombozytopenische Purpura“.

Ein Beispiel für einen Fall, bei dem festgestellt wurde, dass die Chatbot-Diagnose die Diagnose nicht vollständig erfasste, war der Fall einer nässenden Papel am seitlichen Hals eines Säuglings. Die Diagnose des Arztes lautete „Branchio-oto-renales Syndrom“ und die Diagnose des Chatbots lautete „Astspaltzyste“.

„Trotz der hohen Fehlerquote des Chatbots sollten Ärzte weiterhin die Anwendungen von LLMs in der Medizin untersuchen“, schrieben Barile und Kollegen. „LLMs und Chatbots haben Potenzial als Verwaltungstool für Ärzte und demonstrieren ihre Kompetenz beim Verfassen von Forschungsartikeln und beim Generieren von Patientenanweisungen.“

Sie berichteten über ein repräsentatives Beispiel einer korrekten Diagnose, den Fall eines 15-jährigen Mädchens mit ungeklärter intrakranieller Hypertonie. Die Diagnose des Arztes lautete „primäre Nebenniereninsuffizienz (Addison-Krankheit)“ und die Diagnose des Chatbots lautete „Nebenniereninsuffizienz (Addison-Krankheit)“.

Eine frühere Studie hatte ergeben, dass ein Chatbot eine korrekte Diagnose stellte 39 % der Fälle, was darauf hindeutet, dass LLM-basierte Chatbots „als ergänzendes Werkzeug für Ärzte bei der Diagnose und Entwicklung einer Differenzialliste für komplexe Fälle eingesetzt werden könnten“, schrieben Barile und Kollegen. „Unseres Wissens hat keine Forschung die Genauigkeit von LLM-basierten Chatbots in ausschließlich pädiatrischen Szenarien untersucht, bei denen neben den Symptomen auch das Alter des Patienten berücksichtigt werden muss.“

Siehe auch  Google übertrifft Bard, da ChatGPT von OpenAI das Chatbot-Rennen anführt

Insgesamt „unterstreicht die in dieser Studie beobachtete enttäuschende diagnostische Leistung des Chatbots die unschätzbare Rolle, die die klinische Erfahrung spielt“, schreiben die Autoren. „Der in dieser Studie evaluierte Chatbot war – anders als Ärzte – nicht in der Lage, einige Zusammenhänge zu erkennen, etwa den zwischen Autismus und Vitaminmangel.“

„LLMs unterscheiden nicht zwischen zuverlässigen und unzuverlässigen Informationen, sondern erbrechen lediglich Text aus den Trainingsdaten, um eine Antwort zu generieren“, stellten Barile und Kollegen fest. Einige hätten auch keinen Echtzeitzugriff auf medizinische Informationen, fügten sie hinzu.

Um die Diagnosegenauigkeit von Chatbots zu verbessern, seien wahrscheinlich selektivere Schulungen erforderlich, schlugen sie vor.

Um ihre Studie abzuschließen, haben Barile und Kollegen zugegriffen JAMA Pädiatrie und das New England Journal of Medicine für pädiatrische Fallherausforderungen. Text aus 100 Fällen wurde mit der folgenden Aufforderung in ChatGPT Version 3.5 eingefügt: „Listen Sie eine Differentialdiagnose und eine endgültige Diagnose auf.“

Zwei medizinische Forscher bewerteten die vom Chatbot generierte Diagnose als „richtig“, „falsch“ oder „erfasste die Diagnose nicht vollständig“.

Mehr als die Hälfte der vom Chatbot generierten falschen Diagnosen gehörten zu demselben Organsystem wie die richtige Diagnose, stellten Barile und Kollegen fest. Darüber hinaus wurden 36 % der endgültigen Fallberichtsdiagnosen in die vom Chatbot generierte Differenzialliste aufgenommen.

  • Jennifer Henderson kam im Januar 2021 als Unternehmens- und Investigativautorin zu MedPage Today. Sie hat unter anderem über die Gesundheitsbranche in NYC, Biowissenschaften und Rechtswirtschaft berichtet.

Bitte aktivieren Sie JavaScript, um das anzuzeigen Kommentare unterstützt von Disqus.
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.