chatgpt ist bei der Diagnose von Krankheiten mittelmäßig und liegt laut einer neuen Studie nur in 49 % der Fälle richtig. Die Forscher sagen, ihre Ergebnisse zeigten, dass KI nicht die einzige Quelle medizinischer Informationen sein sollte, und unterstreichen die Bedeutung der Beibehaltung des menschlichen Elements in der Gesundheitsversorgung.

Der bequeme Zugang zu Online-Technologien hat dazu geführt, dass manche Menschen auf den Besuch eines Arztes verzichten und stattdessen ihre Symptome googeln. Es ist zwar nicht schlecht, proaktiv mit der eigenen Gesundheit umzugehen, aber „Dr. google“ ist einfach nicht so genau. Eine Studie aus dem Jahr 2020 Australische Studie Bei der Untersuchung von 36 internationalen mobilen und webbasierten Symptomcheckern stellte sich heraus, dass nur in 36 % der Fälle eine korrekte Diagnose an erster Stelle stand.

Sicherlich hat sich die KI seit 2020 verbessert. Ja, das hat sie definitiv. OpenAIs ChatGPT hat große Fortschritte gemacht – es ist in der Lage, die US-amerikanische Zulassungsprüfung für Ärzte bestehenimmerhin. Aber ist es deshalb in Bezug auf die diagnostische Genauigkeit besser als Dr. Google? Diese Frage wollten Forscher der Western University in Kanada in einer neuen Studie beantworten.

Mithilfe von ChatGPT 3.5, einem großen Sprachmodell (LLM), das anhand eines riesigen Datensatzes von über 400 Milliarden Wörtern aus dem Internet aus Quellen wie Büchern, Artikeln und Websites trainiert wurde, führten die Forscher eine qualitative Analyse der medizinischen Informationen durch, die der Chatbot bereitstellte, indem er Medscape Case Challenges beantwortete.

Herausforderungen bei Medscape-Fällen sind komplexe klinische Fälle, die das Wissen und die diagnostischen Fähigkeiten eines Mediziners auf die Probe stellen. Mediziner müssen eine Diagnose stellen oder einen geeigneten Behandlungsplan für einen Fall auswählen, indem sie aus vier Multiple-Choice-Antworten auswählen. Die Forscher entschieden sich für die Case Challenges von Medscape, weil sie Open Source und frei zugänglich sind. Um auszuschließen, dass ChatGPT bereits Kenntnis von den Fällen hatte, wurden nur diejenigen aufgenommen, die nach dem Training von Modell 3.5 im August 2021 verfasst wurden.

Siehe auch  Den Russen wurde mitgeteilt, ob das Land ChatGPT vollständig verbieten kann

Insgesamt wurden 150 Medscape-Fälle analysiert. Bei vier Multiple-Choice-Antworten pro Fall gab es insgesamt 600 mögliche Antworten, davon nur eine richtige Antwort pro Fall. Die analysierten Fälle deckten ein breites Spektrum medizinischer Probleme ab, mit Titeln wie „Bier und Aspirin verschlimmern Nasenprobleme bei einem 35-jährigen Asthmatiker“, „Magen-Darm-Fall-Herausforderung: Ein 33-jähriger Mann, der seinen eigenen Speichel nicht schlucken kann“, „Eine 27-jährige Frau mit ständigen Kopfschmerzen ist zu müde zum Feiern“, „Kinder-Fall-Herausforderung: Ein 7-jähriger Junge mit Hinken und Fettleibigkeit, der auf der Straße hingefallen ist“ und „Ein Buchhalter, der Aerobic liebt, aber Schluckauf und Koordinationsstörungen hat“. Fälle mit visuellen Elementen wie klinischen Bildern, medizinischen Fotografien und Diagrammen wurden ausgeschlossen.

Ein Beispiel für eine standardisierte Eingabeaufforderung, die an ChatGPT übermittelt wird

Hadi et al.

Um die Konsistenz der an ChatGPT übermittelten Eingaben zu gewährleisten, wurde jede Fallherausforderung in eine standardisierte Eingabeaufforderung umgewandelt, einschließlich eines Skripts der Ausgabe, die der Chatbot bereitstellen sollte. Alle Fälle wurden von mindestens zwei unabhängigen Bewertern, Medizinstudenten in der Ausbildung, bewertet, die die Antworten der anderen nicht kannten. Sie beurteilten die Antworten von ChatGPT anhand der diagnostischen Genauigkeit, der kognitiven Belastung (d. h. der Komplexität und Klarheit der bereitgestellten Informationen, von niedrig bis hoch) und der Qualität der medizinischen Informationen (einschließlich der Frage, ob diese vollständig und relevant waren).

Von den 150 analysierten Medscape-Fällen lieferte ChatGPT in 49 % der Fälle korrekte Antworten. Der Chatbot zeigte jedoch eine Gesamtgenauigkeit von 74 %, was bedeutet, dass er falsche Multiple-Choice-Optionen identifizieren und ablehnen konnte.

„Dieser höhere Wert ist auf die Fähigkeit von ChatGPT zurückzuführen, echte Negative (falsche Optionen) zu identifizieren, was erheblich zur Gesamtgenauigkeit beiträgt und seinen Nutzen bei der Beseitigung falscher Entscheidungen erhöht“, erklären die Forscher. „Dieser Unterschied unterstreicht die hohe Spezifität von ChatGPT und weist auf seine Fähigkeit hin, falsche Diagnosen hervorragend auszuschließen. Es muss jedoch seine Präzision und Sensibilität verbessern, um die richtige Diagnose zuverlässig zu identifizieren.“

Siehe auch  So implementieren Sie ChatGPT mit der OpenAI-API in Python synchron und asynchron | von Lynn G. Kwong | März 2024

Darüber hinaus lieferte ChatGPT falsch positive (13 %) und falsch negative (13 %) Ergebnisse, was Auswirkungen auf seine Verwendung als Diagnosetool hat. Etwas mehr als die Hälfte (52 %) der Antworten waren vollständig und relevant, 43 % waren unvollständig, aber immer noch relevant. ChatGPT lieferte tendenziell Antworten mit einer geringen (51 %) bis mäßigen (41 %) kognitiven Belastung, sodass sie für die Benutzer leicht verständlich waren. Die Forscher weisen jedoch darauf hin, dass diese leichte Verständlichkeit in Kombination mit dem Potenzial für falsche oder irrelevante Informationen zu „Missverständnissen und einem falschen Verständnis“ führen könnte, insbesondere wenn ChatGPT als medizinisches Lehrmittel verwendet wird.

„ChatGPT hatte auch Schwierigkeiten, zwischen Krankheiten mit geringfügig unterschiedlichen Erscheinungsformen zu unterscheiden, und das Modell generierte gelegentlich auch falsche oder unplausible Informationen, sogenannte KI-Halluzinationen. Dies unterstreicht das Risiko, sich bei der medizinischen Beratung ausschließlich auf ChatGPT zu verlassen, und die Notwendigkeit menschlicher Fachkenntnisse im Diagnoseprozess“, sagten die Forscher.

Die Forscher sagen, dass KI als Werkzeug eingesetzt werden sollte, um den menschlichen Faktor in der Medizin zu ergänzen und nicht zu ersetzen.
Die Forscher sagen, dass KI als Werkzeug eingesetzt werden sollte, um den menschlichen Faktor in der Medizin zu ergänzen und nicht zu ersetzen.

Natürlich – und die Forscher weisen darauf als Einschränkung der Studie hin – ist ChatGPT 3.5 nur ein KI-Modell, das möglicherweise nicht repräsentativ für andere Modelle ist und in zukünftigen Iterationen mit Sicherheit verbessert wird, was seine Genauigkeit erhöhen könnte. Außerdem konzentrierten sich die von ChatGPT analysierten Medscape-Fälle hauptsächlich auf Fälle der Differentialdiagnose, bei denen medizinische Fachkräfte zwischen zwei oder mehr Erkrankungen mit ähnlichen Anzeichen oder Symptomen unterscheiden müssen.

Zwar sollte in künftigen Forschungsarbeiten die Genauigkeit verschiedener KI-Modelle anhand einer größeren Bandbreite von Fallquellen beurteilt werden, die Ergebnisse der vorliegenden Studie sind jedoch dennoch aufschlussreich.

Siehe auch  GitHub enthüllt australische Entwicklertrends und Auswirkungen von ChatGPT

„Die Kombination aus hoher Relevanz und relativ geringer Genauigkeit spricht dagegen, sich bei medizinischen Beratungen auf ChatGPT zu verlassen, da es wichtige Informationen liefern kann, die möglicherweise irreführend sind“, so die Forscher. „Während unsere Ergebnisse darauf hindeuten, dass ChatGPT verschiedenen Benutzern immer wieder die gleichen Informationen liefert und damit eine erhebliche Inter-Rater-Reliabilität aufweist, offenbart es auch die Mängel des Tools bei der Bereitstellung sachlich korrekter medizinischer Informationen, wie [sic] durch seine geringe diagnostische Genauigkeit.“

Die Studie wurde in der Zeitschrift veröffentlicht Plus eins.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein