In einer kürzlich veröffentlichten Studie in der Radiologie Journal führten Forscher zwischen dem 25. Februar und dem 3. März 2023 eine prospektive explorative Analyse durch, um die Leistung des auf künstlicher Intelligenz (KI) basierenden chatgpt bei Prüfungsfragen im Radiologie-Board-Stil zu bewerten.
Hintergrund
ChatGPT basiert auf GPT-3.5 und ist ein allgemeines großes Sprachmodell (LLM), das mithilfe tiefer neuronaler Netze auf mehr als 45 Terabyte Textdaten vorab trainiert wurde.
Obwohl ChatGPT nicht in medizinischen Daten geschult ist, hat es ein enormes Potenzial in der Erstellung und Ausbildung medizinischer Daten gezeigt. Dementsprechend nutzen Ärzte ChatGPT bereits mit Suchmaschinen, um nach medizinischen Informationen zu suchen.
ChatGPT wird derzeit auf seinen möglichen Einsatz zur Vereinfachung radiologischer Berichte und zur Unterstützung der klinischen Entscheidungsfindung untersucht. Darüber hinaus könnte es dabei helfen, Radiologiestudenten auszubilden, Differentialdiagnosen und computergestützte Diagnosen durchzuführen und Krankheiten zu klassifizieren.
ChatGPT erkennt Beziehungen und Muster zwischen Wörtern in seinen riesigen Trainingsdaten, um menschenähnliche Antworten zu generieren.
Allerdings könnte es zu einer sachlich falschen Antwort kommen; Bisher hat ChatGPT jedoch bei mehreren Berufsprüfungen, z. B. der US-amerikanischen Medical Licensing Examination, außergewöhnlich gut abgeschnitten, ohne dass eine domänenspezifische Vorschulung erforderlich war.
Obwohl ChatGPT für Anwendungen in der diagnostischen Radiologie, einschließlich der Bildanalyse, vielversprechend erscheint, ist die Leistung von ChatGPT im Bereich der Radiologie weiterhin unbekannt.
Noch wichtiger ist, dass Radiologen die Stärken und Grenzen von ChatGPT kennen müssen, um es sicher nutzen zu können.
Über die Studie
In die vorliegende Studie haben die Forscher 150 Multiple-Choice-Fragen mit einer richtigen und drei falschen Antworten einbezogen, die dem Inhalt, dem Stil und dem Schwierigkeitsgrad der Prüfung des Canadian Royal College in diagnostischer Radiologie und den Kern- und Zertifizierungsprüfungen des American Board of Radiology entsprachen.
Diese kommissionellen Prüfungen bewerten umfassend das konzeptionelle Wissen der Radiologie und die Fähigkeit, zu argumentieren und ein klinisches Urteil(e) zu fällen.
Zwei zertifizierte Radiologen überprüften diese Fragen unabhängig voneinander und stellten sicher, dass diese Fragen bestimmten Kriterien entsprachen, z. B. dass die Fragen keine Bilder enthielten, falsche Antworten plausibel waren und eine ähnliche Länge wie die richtige Antwort hatten usw.
Mindestens 10 % der Fragen stammten aus neun vom Canadian Royal College aufgelisteten Themen, um sicherzustellen, dass es sich bei diesen Multiple-Choice-Fragen um Themen handelte, die das Konzept der Radiologie umfassend abdeckten.
Zwei weitere staatlich geprüfte Radiologen klassifizierten diese 150 Multiple-Choice-Fragen anhand der Bloom-Taxonomie-Prinzipien nach Typ und unterteilten sie in Denkweisen niedrigerer oder höherer Ordnung.
Das Team gab alle Fragen mit ihren Antwortmöglichkeiten in ChatGPT ein, um die reale Nutzung zu simulieren, und zeichnete alle ChatGPT-Antworten auf. Das Royal College betrachtet ≥70 % aller schriftlichen Komponenten als bestanden.
Zwei weitere zertifizierte Radiologen bewerteten die Sprache jeder ChatGPT-Antwort subjektiv auf ihr Maß an Vertrauen auf einer Likert-Skala von eins bis vier, wobei ein Wert von vier hohes Vertrauen und null kein Vertrauen bedeutete.
Schließlich machten die Forscher auch qualitative Beobachtungen zum Verhalten von ChatGPT, als sie dem Modell die richtige Antwort gaben.
Zunächst berechneten die Forscher die Gesamtleistung von ChatGPT. Als nächstes verglichen sie die Leistung mithilfe des exakten Fisher-Tests zwischen Fragetypen und Themen, z. B. im Zusammenhang mit der Physik oder dem klinischen Typ.
Darüber hinaus führten sie eine Untergruppenanalyse zur Unterklassifizierung von Denkfragen höherer Ordnung durch. Das Team hatte Denkfragen höherer Ordnung in vier Gruppen unterteilt, die die Beschreibung von Bildgebung, klinischem Management, Anwendung von Konzepten und Krankheitsassoziationen umfassten.
Schließlich verwendeten sie den Mann-Whitney-U-Test, um das Konfidenzniveau der Antworten zwischen richtigen und falschen ChatGPT-Antworten zu vergleichen, wobei p-Werte unter 0,05 einen signifikanten Unterschied anzeigten.
Studienergebnisse
ChatGPT hat in dieser Studie die Prüfungsfragen im Radiologie-Board-Stil ohne Bilder fast bestanden und 69 % erreicht.
Die Modellleistung war bei Fragen, die ein Denken niedrigerer Ordnung mit Wissensabruf und grundlegendem Verständnis erfordern, besser als bei Fragen, die ein Denken höherer Ordnung erfordern (84 % gegenüber 60 %).
Allerdings schnitt es bei übergeordneten Fragen im Zusammenhang mit dem klinischen Management gut ab (89 %), wahrscheinlich weil im Internet eine große Menge krankheitsspezifischer patientenbezogener Daten verfügbar ist.
Es kämpfte mit Fragen höherer Ordnung, die die Beschreibung von Bildgebungsergebnissen, die Berechnung und Klassifizierung sowie die Anwendung von Konzepten betrafen.
Außerdem schnitt ChatGPT bei physikalischen Fragen im Vergleich zu klinischen Fragen schlecht ab (40 % gegenüber 73 %). ChatGPT verwendete stets eine selbstbewusste Sprache, auch wenn sie falsch war (100 %).
Die Tendenz von ChatGPT, selbstbewusst falsche, menschenähnliche Antworten zu geben, ist besonders gefährlich, wenn es sich um die einzige Informationsquelle handelt. Dieses Verhalten schränkt derzeit die Anwendbarkeit von ChatGPT in der medizinischen Ausbildung ein.
Schlussfolgerungen
ChatGPT schnitt bei Fragen zur Bewertung der Grundkenntnisse und des Verständnisses der Radiologie hervorragend ab und bestand ohne radiologiespezifische Vorschulung eine radiologische Prüfung ohne Bilder beinahe (Ergebnis 69 %).
Allerdings müssen Radiologen Vorsicht walten lassen und sich der Einschränkungen von ChatGPT bewusst sein, einschließlich seiner Tendenz, falsche Antworten mit 100-prozentiger Sicherheit darzustellen. Mit anderen Worten: Die Studienergebnisse sprechen nicht dafür, sich in der Praxis oder Ausbildung auf ChatGPT zu verlassen.
Mit zukünftigen Fortschritten bei LLMs wird die Verfügbarkeit von Anwendungen, die auf LLMs mit radiologiespezifischer Vorschulung basieren, zunehmen. Insgesamt sind die Studienergebnisse ermutigend hinsichtlich des Potenzials von LLM-basierten Modellen wie ChatGPT in der Radiologie.
Bitte verwenden Sie eines der folgenden Formate, um diesen Artikel in Ihrem Aufsatz, Ihrer Arbeit oder Ihrem Bericht zu zitieren: WAS Mathur, Neha. (2023, 18. Mai). Kann chatGPT eine radiologische Prüfung bestehen? Nachrichten-Medizin. Abgerufen am 18. Mai 2023 von https://www.news-medical.net/news/20230518/Can-chatGPT-pass-a-radiology-board-style-examination.aspx. MLA Mathur, Neha. „Kann chatGPT eine radiologische Prüfung bestehen?“ Nachrichten-Medizin. 18. Mai 2023. Chicago Mathur, Neha. „Kann chatGPT eine radiologische Prüfung bestehen?“ Nachrichten-Medizin. https://www.news-medical.net/news/20230518/Can-chatGPT-pass-a-radiology-board-style-examination.aspx. (abgerufen am 18. Mai 2023). Harvard Mathur, Neha. 2023. Kann chatGPT eine radiologische Prüfung bestehen?. News-Medical, angezeigt am 18. Mai 2023, https://www.news-medical.net/news/20230518/Can-chatGPT-pass-a-radiology-board-style-examination.aspx.Zitate