Laut einer am 22. April in veröffentlichten Studie erhielt chatgpt-4 bei einer Prüfung des American College of Radiology (ACR), die zur Beurteilung der Fähigkeiten von Assistenzärzten in der diagnostischen und interventionellen Radiologie verwendet wurde, eine Punktzahl von 58 % Akademische Radiologie.
Ein Team der Stony Brook University in Stony Brook, NY, forderte ChatGPT-4 auf, 106 Fragen zur DXIT-Prüfung (Diagnostic Radiology In-Training) des ACR zu beantworten, wobei seine Leistung sowohl das Potenzial als auch die Risiken des Chatbots als Diagnosetool unterstreiche, so der Leiter Autor David Payne, MD, und Kollegen.
„Während GPT-4 mit minimaler Auslösung viele beeindruckende Beobachtungen und Diagnosen lieferte, wurde auch gezeigt, dass es eine Vielzahl tödlicher Pathologien wie ein rupturiertes Aortenaneurysma übersah und gleichzeitig ein hohes Maß an Vertrauen darstellte“, schrieb die Gruppe.
Die Radiologie sei bei der Entwicklung, Implementierung und Validierung von KI-Tools weit vorne im medizinischen Bereich, schreiben die Autoren. Studien haben beispielsweise gezeigt, dass ChatGPT beeindruckende Ergebnisse bei Fragen liefert, die Prüfungen britischer und amerikanischer Radiologiekommissionen simulieren. Die meisten dieser früheren Studien mit ChatGPT basierten jedoch ausschließlich auf unimodalen oder reinen Textaufforderungen, stellten die Autoren fest.
Daher setzten die Forscher in dieser Studie das Large Language Model (LLM) ein, um bildreiche diagnostische Radiologiefragen zu beantworten, die aus der DXIT-Prüfung ausgewählt wurden. Die DXIT-Prüfung ist ein jährlich vom ACR erstellter standardisierter Test, der ein breites Themenspektrum abdeckt und sich nachweislich als prädiktiv für die Leistung bei der Kernprüfung des American Board of Radiology erwiesen hat, so die Autoren.
Die Fragen wurden nacheinander mit einer standardisierten Eingabeaufforderung in ChatGPT-4 eingegeben. Jede Antwort wurde aufgezeichnet und die Gesamtgenauigkeit sowie die Genauigkeit bei bildbasierten Fragen berechnet. Das Modell wurde mit dem nationalen Durchschnitt der Assistenzärzte für diagnostische Radiologie auf verschiedenen Postgraduiertenjahrstufen (PGY) verglichen.
Den Ergebnissen zufolge erreichte ChatGPT-4 eine Gesamtgenauigkeit von 58,5 %, was weniger als der PGY-3-Durchschnitt (61,9 %), aber höher als der PGY-2-Durchschnitt (52,8 %) ist. ChatGPT-4 zeigte eine signifikant höhere (p = 0,012) Konfidenz für richtige Antworten (87,1 %) im Vergleich zu falschen (84 %).
Die Leistung des Modells bei bildbasierten Fragen war mit 45,4 % deutlich schlechter (p
Darüber hinaus hat die Feinabstimmung von ChatGPT-4 – die Vorabeingabe der Antworten und Erklärungen für jede der DXIT-Fragen – die Genauigkeit des Modells bei einem zweiten Durchlauf nicht verbessert. Als die Fragen wiederholt wurden, wählte GPT-4 in 25,5 % der Fälle eine andere Antwort, stellten die Autoren fest.
„Es ist klar, dass es Einschränkungen bei den Bildinterpretationsfähigkeiten von GPT-4 sowie bei der Zuverlässigkeit seiner Antworten gibt“, schrieb die Gruppe.
Letztendlich hätten viele andere potenzielle Anwendungen von ChatGPT und ähnlichen Modellen, einschließlich der Erstellung von Berichten und Abdrücken, Verwaltungsaufgaben und Patientenkommunikation, das Potenzial, enorme Auswirkungen auf den Bereich der Radiologie zu haben, stellte die Gruppe fest.
„Diese Studie unterstreicht die Potenziale und Risiken der Verwendung minimal veranlasster großer multimodaler Modelle bei der Interpretation radiologischer Bilder und der Beantwortung einer Vielzahl radiologischer Fragen“, schlussfolgerten die Forscher.
Die vollständige Studie ist verfügbar Hier.