Laut einer neuen Studie ist der Chatbot mit künstlicher Intelligenz (KI) chatgpt bei der Erstellung pädiatrischer Diagnosen äußerst ungenau.

So wie viele Eltern Websites wie WebMD konsultieren, um die Symptome ihrer Kinder zu überprüfen, könnten sie auch versucht sein, ChatGPT zu konsultieren. Forscher fanden jedoch heraus, dass der KI-Chatbot – der auf einem Sprachmodell namens GPT-3.5 von OpenAI basiert – 83 % der untersuchten pädiatrischen Fälle nicht richtig diagnostizieren konnte. Sie veröffentlichten ihre Ergebnisse am 2. Januar in der Zeitschrift JAMA Pädiatrie.

Ihre Forschung, die erstmals die Fähigkeit von ChatGPT zur Diagnose pädiatrischer Fälle bewertet, folgt einer früheren Studie, die am 15. Juni 2023 in der Zeitschrift veröffentlicht wurde JAMA. Diese frühere Arbeit zeigte, dass ein neueres Sprachmodell namens GPT-4 nur 39 % der schwierigen medizinischen Fälle korrekt diagnostizierte, darunter solche, die sowohl Erwachsene als auch Kinder betrafen.

In dieser neuen Studie führten die Forscher 100 von JAMA Pediatrics und dem New England Journal of Medicine (NEJM) stammende Patientenfall-Challenges über ChatGPT durch und forderten den Chatbot auf, „eine Differenzialdiagnose und eine endgültige Diagnose aufzulisten“. Differentialdiagnosen beziehen sich auf die plausiblen medizinischen Bedingungen, die die Symptome einer Person erklären könnten. Nach Abwägung aller dieser Möglichkeiten stellt ein Arzt dann eine endgültige Diagnose.

Verwandt: Eine voreingenommene KI kann die Diagnosen von Ärzten ungenauer machen

Diese pädiatrischen Fälle wurden zwischen 2013 und 2023 in den Fachzeitschriften veröffentlicht.

Um die Ergebnisse der Studie zu überprüfen, verglichen zwei medizinische Forscher die von der KI generierten Diagnosen mit denen der Kliniker im jeweiligen Fall. Sie ordneten jeder KI-generierten Antwort die Bewertung „richtig“, „falsch“ oder „hat die Diagnose nicht vollständig erfasst“ zu.

Siehe auch  Sollten Sie ChatGPT verwenden, um ein Memo an Ihr -2- zu schreiben?

Hohe Ungenauigkeit

ChatGPT stellte für 72 der 100 Fälle falsche Diagnosen, wobei 11 der 100 Ergebnisse als „klinisch relevant, aber zu weit gefasst, um als korrekte Diagnose angesehen zu werden“ kategorisiert wurden.

In einem der Fälle, in denen ChatGPT fälschlicherweise diagnostiziert wurde, zeigte ein Teenager mit Autismus Symptome von Hautausschlag und Gelenksteifheit. Obwohl der erste Arzt bei dem Teenager Skorbut diagnostizierte, eine Erkrankung, die durch einen schweren Mangel an Vitamin C verursacht wird, lautete die Diagnose von ChatGPT Immunthrombozytopenische Purpura. Letzteres ist eine Autoimmunerkrankung, die die Blutgerinnung beeinträchtigt und zu Blutergüssen und Blutungen führt. Menschen mit Autismus können sich aufgrund ihrer Empfindlichkeit gegenüber der Beschaffenheit oder dem Geschmack von Nahrungsmitteln sehr restriktiv ernähren, wodurch sie anfällig für Vitaminmangel sein können.

Ein anderer unzutreffender Fall betraf einen Säugling mit einem nässenden Abszess an der Seite seines Halses, den der ursprüngliche Fallarzt darauf zurückführte Branchiootorenales (BOR)-Syndrom. Dieser Entwicklungszustand beeinträchtigt die Bildung von Nieren, Ohren und Hals. Anstelle des BOR-Syndroms behauptete ChatGPT, dass das Kind eine Kiemenspaltzyste hatte, wenn sich das Hals- und Schlüsselbeingewebe eines Babys vor der Geburt nicht richtig entwickelt.

In einigen Fällen stellte ChatGPT jedoch die gleiche Diagnose wie die Ärzte. Für ein 15-jähriges Mädchen mit einem ungeklärten Fall von Druck auf das Gehirn, bekannt als idiopathische intrakranielle Hypertonie (IIH) stimmte ChatGPT korrekt mit der ursprünglichen Diagnose des Arztes überein Addison-Krankheit, eine seltene hormonelle Erkrankung, die die Nebenniere betrifft. Selten, IIH kann eine Folgeerkrankung sein Das ist auf die Addison-Krankheit zurückzuführen.

Ein gemischter Ausblick für das Gesundheitswesen

Allerdings stellten die Forscher ein hohes Maß an Ungenauigkeit fest KISie sagten, dass große Sprachmodelle (LLMs), die bei der Erstellung pädiatrischer Diagnosen erstellt wurden, immer noch als „Verwaltungsinstrument für Ärzte“ von Wert seien, etwa beim Notieren. Die in dieser Studie beobachtete enttäuschende diagnostische Leistung des Chatbots unterstreicht jedoch die unschätzbare Rolle, die klinische Erfahrung spielt

Siehe auch  Der ehrwürdige BBEdit chattet mit dem jungen ChatGPT

Eine der größten Einschränkungen von ChatGPT ist die Unfähigkeit, Zusammenhänge zwischen medizinischen Störungen zu finden – etwa die Zusammenhänge zwischen Autismus und Vitaminmangel, erklärten die Forscher unter Berufung auf den oben genannten Skorbut-Fall, der 2017 in der Zeitschrift veröffentlicht wurde JAMA Pädiatrie. Sie glauben, dass „selektiveres Training erforderlich ist“, wenn es darum geht, die Fähigkeit der KI, künftig genaue Diagnosen zu stellen, zu verbessern.

Sie fügten hinzu, dass diese Technologien auch durch „einen Mangel an Echtzeitzugriff auf medizinische Informationen“ beeinträchtigt werden könnten. Daher warnten sie, dass KI-Chatbots möglicherweise nicht über „neue Forschungsergebnisse, Diagnosekriterien und aktuelle Gesundheitstrends oder Krankheitsausbrüche“ auf dem Laufenden bleiben.

„Dies stellt eine Gelegenheit für Forscher dar, zu untersuchen, ob spezifisches Training und Tuning medizinischer Daten die diagnostische Genauigkeit von LLM-basierten Chatbots verbessern kann“, schlussfolgerten die Forscher in ihrer Arbeit.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.