Start ChatGPT ChatGPT-4.0 übertrifft andere große Sprachmodelle bei ACR-Prüfungsfragen

ChatGPT-4.0 übertrifft andere große Sprachmodelle bei ACR-Prüfungsfragen

Von

Dezember 1, 2023

Laut einer Studie, die am 29. November auf der RSNA-Jahrestagung 2023 vorgestellt wurde, schneidet chatgpt-4.0 bei den bildunabhängigen Übungsfragen zum American College of Radiology Diagnostic In-Training Exam (ACR DXIT) gut ab.

Moderator Christopher Kaufmann, MD, von der University of Texas in Austin, sprach über die Ergebnisse der vergleichenden Studie seines Teams zu großen Sprachmodellen, die zeigten, dass ChatGPT-4.0 die höchsten Ergebnisse erzielte.

„Die Ergebnisse zeigen die hohe Effizienz und verbesserte Genauigkeit sich entwickelnder öffentlich verfügbarer KI-Tools, wenn sie auf den radiologiespezifischen Bereich angewendet werden“, sagte Kaufmann.

Großsprachige KI-Modelle wie ChatGPT und google Bard sind im vergangenen Jahr zu einem Interessengebiet für Radiologen geworden. Frühere Studien haben diese Modelle und ihren klinischen Nutzen in klinischen und patientenorientierten Umgebungen untersucht. Kaufmann wies jedoch darauf hin, dass Radiologen die Ausgabegenauigkeit, Relevanz und Zuverlässigkeit dieser Modelle kennen müssen, bevor sie ihren klinischen Nutzen für bestimmte Bereiche bestimmen können.

Kaufmann und Kollegen verglichen die neuesten öffentlich zugänglichen großen Sprachmodelle in mehreren Fachgebieten der Radiologie.

Sie verwendeten den ACR DXIT-Übungstest-Fragensatz aus dem Jahr 2022, insbesondere bildunabhängige Fragen, die über verschiedene radiologische Disziplinen verteilt waren. Das Team nutzte außerdem drei öffentlich verfügbare große Sprachmodellplattformen: ChatGPT 3.5 und 4.0, Google Bard und Windows BingChat. Die Fragen wurden im Originaltextformat in die KI-Schnittstelle eingegeben.

Insgesamt hat das Team 42 ACR DXIT-Fragen in die Studie einbezogen. Die Gruppe stellte fest, dass ChatGPT 4.0 90,5 % der Fragen richtig beantwortete (n = 38), während ChatGPT 3.5 79 % der Fragen richtig beantwortete (n = 33).

Die Forscher fanden außerdem heraus, dass trotz des Gesamtvorteils von GPT-4.0 zwei zuvor korrekte Antworten mit GPT-3.5 mit GPT4 falsch ausgegeben wurden.

Siehe auch ChatGPT wird jetzt die Fragen Ihrer Patienten beantworten – nur nicht alleine

Mittlerweile antwortete Google Bard zu 71 % richtig, wobei alle drei Antwortentwürfe richtig waren (n = 30). Auch Bard hatte in 14 % der Ausgaben (n = 6) teilweise richtige Antworten. Schließlich stellte das Team fest, dass BingChat mit 60 % korrekter Ergebnisse (n = 25) am schlechtesten abschnitt.

Kaufmann sagte, diese Ergebnisse zeigen, wie wichtig es ist, die radiologische spezifische Leistung und Ausgabezuverlässigkeit großer Sprachmodelle für den möglichen Einsatz in der Praxis zu bestimmen. Er fügte hinzu, dass es wichtig sei, die Aktualisierungen dieser Modelle und deren Auswirkungen auf ihre Leistung bei solchen Prüfungen kontinuierlich zu überwachen.

„Angesichts ihrer rasanten Entwicklung werden die aktuelle Genauigkeit und Vertrauenswürdigkeit von KI-Technologien weiterhin Schlüsselkriterien für ihre endgültige klinische Einführung und spezifische Anwendungen in der Praxis bleiben“, sagte Kaufmann.

Er kam zu dem Schluss, dass zukünftige Studien unter anderem radiologiespezifische Eingaben zu validierten Daten und fachspezifisches Benchmarking einbeziehen sollten.