Diagnosegenauigkeit von chatgpt in pädiatrischen Fällen in Frage gestellt: Studie

In einer kürzlich in JAMA Pediatrics veröffentlichten Studie heißt es: ChatGPT-Version 3.5 wurde auf seine diagnostische Genauigkeit in pädiatrischen Fällen untersucht. Die Studie ergab, dass der Chatbot in 83 % der 100 getesteten Fälle falsche Diagnosen stellte. Die Ergebnisse zeigten 72 Diagnosen, die völlig falsch waren, und weitere 11, die zwar verwandt, aber zu vage waren.

Diagnostische Ungenauigkeiten hervorgehoben

Unter den Fehldiagnosen wies die Studie auf einen Fall eines Teenagers hin, der unter Ausschlag und Gelenkschmerzen litt. ChatGPT diagnostizierte die Erkrankung fälschlicherweise als „immunthrombozytopenische Purpura“ und nicht als korrektes „Skorbut“. In einem anderen Fall, bei dem es um ein Kleinkind mit einer nässenden Papel ging, diagnostizierte der Chatbot „Astspaltzyste“ statt der genauen Diagnose „Branchio-oto-renales Syndrom“.

Potenzial großer Sprachmodelle in der Medizin

Trotz dieser Ungenauigkeiten weisen die Autoren der Studie darauf hin, dass große Sprachmodelle (LLMs) wie ChatGPT immer noch Potenzial als Verwaltungsinstrumente in der Medizin haben. Sie könnten in Bereichen wie dem Verfassen von Forschungsartikeln und der Erstellung von Patientenanweisungen nützlich sein. Die Studie stellte außerdem fest, dass in einigen Fällen die Diagnosen des Chatbots im selben Organsystem wie die richtigen Diagnosen lagen und 36 % der richtigen Diagnosen in der Differentialliste des Chatbots enthalten waren.

Bedarf an klinischer Erfahrung und gezielter Schulung

Die Forscher betonten, dass die Studie die Bedeutung klinischer Erfahrung bei der Diagnose unterstreiche. Sie argumentieren, dass selektivere Schulungen erforderlich sein könnten, um die Genauigkeit von Chatbots in der medizinischen Diagnostik zu verbessern. Dies ist besonders wichtig angesichts der identifizierten potenziellen Risiken wie Zuverlässigkeit der Informationen, Bedenken hinsichtlich der Privatsphäre sowie mangelndes Einfühlungsvermögen und mangelnde menschliche Interaktion.

Siehe auch  Harmonie mit Innovation, ChatGPT und Sicherheit finden

Über die Diagnostik hinaus haben andere Untersuchungen ergeben, dass LLMs wie ChatGPT klinische Vignetten erzeugen können, die bestimmte Rassen, Ethnien und Geschlechter stereotypisieren. Es besteht ein dringender Bedarf an umfassenden und transparenten Bias-Bewertungen von LLMs, bevor diese in die klinische Versorgung integriert werden.

Letztendlich kann der Einsatz von KI im Gesundheitswesen, einschließlich der Verwendung von Chatbots wie ChatGPT, Unternehmen und Regierungen dabei unterstützen, nachhaltige Strategien zu entwickeln und das Wohlbefinden der Gemeinschaft zu verbessern und gleichzeitig Risiken und Nutzen abzuwägen.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.