Eine neue, in JAMA Pediatrics veröffentlichte Studie hat die Hoffnungen einiger auf KI-gestützte medizinische Diagnosen zunichte gemacht und enthüllt, dass das beliebte Sprachmodell chatgpt-4 bei der Bewertung von Gesundheitsfällen bei Kindern schlecht abgeschnitten hat. Einem Bericht von Ars Technica zufolge unterstreicht die Studie mit einer Fehlerquote von erstaunlichen 83 % die Gefahren, die damit einhergehen, sich in kritischen Situationen wie dem Gesundheitswesen auf ungeprüfte KI zu verlassen. Forscher des Cohen Children's Medical Center in New York testeten ChatGPT-4 anhand von 100 anonymisierten pädiatrischen Fallstudien, die eine Reihe häufiger und komplexer Erkrankungen abdeckten. Die schlechte Leistung des Chatbots, das Fehlen wichtiger Hinweise und die Bereitstellung ungenauer Diagnosen in der überwiegenden Mehrheit der Fälle geben Anlass zu ernsthaften Bedenken hinsichtlich der Eignung der aktuellen KI-Technologie für medizinische Anwendungen. Von 100 Fällen lieferte ChatGPT nur in 17 Fällen richtige Antworten. In 72 Fällen gab es ungenaue Antworten und in den restlichen 11 Fällen erfasste es die Diagnose nicht ganz richtig. Von den 83 Fehldiagnosen betrafen 57 Prozent (47 Fälle) dasselbe Organsystem, heißt es in dem Bericht. Wie wurde ChatGPT bewertet? Während der Auswertung von ChatGPT fügten die Forscher den relevanten Text medizinischer Fälle in die Eingabeaufforderung ein. Anschließend bewerteten zwei qualifizierte medizinische Forscher die von der KI generierten Antworten und kategorisierten sie als entweder richtig, falsch oder „erfassten die Diagnose nicht vollständig“. In Fällen, in denen ChatGPT in die letztere Kategorie fiel, lieferte es häufig eine klinisch bedingte Erkrankung, die zu weit gefasst oder nicht spezifisch genug war, um als genaue Diagnose gelten zu können. Beispielsweise identifizierte ChatGPT bei der Diagnose eines Kindes eine Kiemenspaltzyste – einen Knoten im Nacken oder unterhalb des Schlüsselbeins –, während die korrekte Diagnose Branchio-oto-renales Syndrom lautete. Dem Bericht zufolge handelt es sich bei diesem Syndrom um eine genetische Erkrankung, die zu einer abnormalen Gewebeentwicklung im Nacken sowie zu Fehlbildungen an Ohren und Nieren führt. Einer der Indikatoren für diesen Zustand ist insbesondere das Auftreten von Kiemenspaltzysten. In der Studie wurde jedoch erwähnt, dass ChatGPT als ergänzendes Tool verwendet werden kann. Als Teil der Ergebnisse stellte die Studie fest, dass „LLM-basierte Chatbots als ergänzendes Tool für Ärzte bei der Diagnose und Entwicklung einer Differenzialliste für komplexe Fälle eingesetzt werden könnten.“
Siehe auch  5 Dinge über KI, die Sie heute vielleicht verpasst haben: Durchbruch bei der Gen-KI, Cyberkriminelle erstellen Ransomware über ChatGPT und mehr
Anzeige