Der beliebte Chatbot mit künstlicher Intelligenz (KI) chatgpt wies in einer neuen Studie, die sich mit dem Einsatz künstlicher Intelligenz in der pädiatrischen Falldiagnose befasste, eine diagnostische Fehlerquote von mehr als 80 Prozent auf.

Für die diese Woche in JAMA Pediatrics veröffentlichte Studie wurden Texte aus 100 Fallherausforderungen, die in JAMA und dem New England Journal of Medicine gefunden wurden, in ChatGPT Version 3.5 eingegeben. Anschließend erhielt der Chatbot die Aufforderung: „Listen Sie eine Differenzialdiagnose und eine endgültige Diagnose auf.“

Diese pädiatrischen Fälle stammten alle aus den letzten 10 Jahren.

Die Genauigkeit der ChatGPT-Diagnosen wurde dadurch bestimmt, ob sie mit den Diagnosen der Ärzte übereinstimmten. Zwei medizinische Forscher bewerteten die Diagnosen entweder als richtig, falsch oder „erfasste die Diagnose nicht vollständig“.

Insgesamt erwiesen sich 83 Prozent der KI-generierten Diagnosen als fehlerhaft, wobei 72 Prozent falsch waren und 11 Prozent „klinisch relevant, aber zu weit gefasst, um als korrekte Diagnose angesehen zu werden“.

Trotz der hohen Rate diagnostischer Fehler, die von den Forschern festgestellt wurden, empfahl die Studie eine weitere Untersuchung der Verwendung großer Sprachmodelle durch Ärzte und stellte fest, dass diese als Verwaltungsinstrument hilfreich sein könnten.

„Der in dieser Studie evaluierte Chatbot war – anders als Ärzte – nicht in der Lage, einige Zusammenhänge zu erkennen, etwa den zwischen Autismus und Vitaminmangel. „Um die Diagnosegenauigkeit des generativen KI-Chatbots zu verbessern, ist wahrscheinlich ein selektiveres Training erforderlich“, heißt es in der Studie.

Das verfügbare Wissen von ChatGPT werde nicht regelmäßig aktualisiert, heißt es in der Studie, was bedeutet, dass es keinen Zugang zu neuen Forschungsergebnissen, Gesundheitstrends, Diagnosekriterien oder Krankheitsausbrüchen hat.

Siehe auch  Wie Unternehmen Gen-KI nutzen, um sich vor ChatGPT-Lecks zu schützen

Ärzte und Forscher haben zunehmend nach Möglichkeiten gesucht, KI und Sprachmodelle in die medizinische Arbeit zu integrieren. Eine im letzten Jahr veröffentlichte Studie ergab, dass GPT-4 von OpenAI bei Patienten über 65 Jahren besser eine genaue Diagnose stellen konnte als Ärzte. Diese Studie umfasste jedoch nur eine Stichprobengröße von 6 Patienten.

Forscher dieser früheren Studie stellten fest, dass der Chatbot möglicherweise dazu verwendet werden könnte, „das Vertrauen in die Diagnose zu erhöhen“.

Der Einsatz von KI-Diagnostik ist kein neues Konzept. Die Food and Drug Administration hat Hunderte von KI-fähigen medizinischen Geräten zugelassen, allerdings wurde bisher keines zugelassen, das generative KI nutzt oder auf großen Sprachmodellen wie ChatGPT basiert.

Copyright 2023 Nexstar Media Inc. Alle Rechte vorbehalten. Dieses Material darf nicht veröffentlicht, ausgestrahlt, umgeschrieben oder weitergegeben werden.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.