Start ChatGPT Vergleich der Leistung von ChatGPT und GPT-4 bei USMLE-Soft-Skill-Bewertungen

Vergleich der Leistung von ChatGPT und GPT-4 bei USMLE-Soft-Skill-Bewertungen

Von

Oktober 1, 2023

In dieser Studie wurde die Leistung von chatgpt und GPT-4 bei USMLE-Multiple-Choice-Fragen zur Bewertung von Soft Skills wie Empathie, Ethik und Urteilsvermögen bewertet. Es gibt mehrere wichtige Erkenntnisse. Sowohl ChatGPT als auch GPT-4 beantworteten die meisten Fragen richtig. GPT-4 übertraf ChatGPT und beantwortete 90 % der Fragen richtig, im Vergleich zu 62,5 % bei ChatGPT. Darüber hinaus zeigte GPT-4 völliges Vertrauen in seine Antworten, im Gegensatz zu ChatGPT, das Vertrauen in 17,5 % seiner Antworten zeigte.

Frühere Studien haben die Fähigkeit von LLMs wie ChatGPT und GPT-4 gezeigt, den USMLE erfolgreich zu bestehen, mit einer deutlich besseren Leistung von GPT4. Es wurde gezeigt, dass ChatGPT bei Fragen zu Schritt 1, Schritt 2 und Schritt 3 eine Genauigkeit von 41–65 % aufweist^14,15während GPT4 eine durchschnittliche Punktzahl von 86 % hatte¹⁶. Diese früheren Studien bewerteten die KI-Modelle anhand eines Spektrums von USMLE-Fragen, ohne sich speziell auf Themen zu konzentrieren oder zwischen auf medizinischem Wissen basierenden Abfragen und Soft-Skill-Fragen zu unterscheiden.

In unserer Studie haben wir uns auf Fragen konzentriert, die „menschliche“ Eigenschaften wie Empathie, Kommunikation, Professionalität und ethisches Urteilsvermögen erfordern. Wir haben gezeigt, dass LLMs beeindruckende Ergebnisse bei diesen Fragen zeigen, die die von Ärzten geforderten Soft Skills testen. Die Überlegenheit von GPT-4 wurde in unserer Studie weiter bestätigt, da das Modell 90 % der Soft-Skill-Fragen richtig beantwortete, im Gegensatz zur Genauigkeit von ChatGPT von 62,5 %. Diese Ergebnisse deuten darauf hin, dass GPT-4 eine größere Fähigkeit aufweist, nicht nur Fragen, die auf medizinischem Wissen basieren, sondern auch solche, die ein gewisses Maß an Einfühlungsvermögen, ethischem Urteilsvermögen und Professionalität erfordern, effektiv zu beantworten.

Siehe auch Entdecken Sie die Geheimnisse von ChatGPT

Was die in unserer Studie verwendeten spezifischen Fragedatensätze betrifft, so berichtete eine frühere Studie, in der die Leistung von ChatGPT mit einer Teilmenge von 200 Step1- und Step2CK-Fragen von AMBOSS getestet wurde, über eine Genauigkeit von 44 % bzw. 42 %¹⁴. Dies sind niedrigere Genauigkeitsraten als die in unserer Studie nachgewiesene Genauigkeit von ChatGPT mit 61 %. Der Unterschied kann durch die Verwendung verschiedener Fragen aus der großen Datenbank von AMBOSS entstehen, könnte aber auch darauf zurückzuführen sein, dass wir uns auf bestimmte Arten von Fragen konzentriert haben und nicht die gesamte Bandbreite der im USMLE behandelten Themen berücksichtigt haben.

In derselben Studie wurde ChatGPT auch anhand von USMLE-Beispieltestfragen getestet, aus denen wir Fragen für unsere Studie ausgewählt haben, und festgestellt, dass ChatGPT bei Schritt 1 zu 64,4 % und bei Schritt 2 zu 57,8 % korrekt war. Eine andere Studie, in der ChatGPT anhand der USMLE-Beispieltestfragen getestet wurde, ergab Genauigkeiten von bis zu 55,8 %, 59,1 % bzw. 61,3 % für Schritt 1, 2CK und 3¹⁵. In unserer Studie zeigte ChatGPT ähnliche, aber etwas höhere Ergebnisse mit einer Genauigkeit von 66,6 %.

Über die Fragetypen hinaus ist es auch bemerkenswert, auf die Verhaltenstendenzen der beiden Modelle einzugehen. Die Neigung von ChatGPT, seine anfänglichen Antworten anzupassen, könnte darauf hindeuten, dass beim Design der Schwerpunkt auf Anpassungsfähigkeit und Flexibilität liegt, was möglicherweise vielfältige Interaktionen in Gesprächskontexten begünstigt. Andererseits könnte die Konsistenz von GPT-4 auf sein robustes Training oder einen für Stabilität prädisponierten Sampling-Mechanismus hinweisen. Diese Unterscheidung ist wichtig, da sie den Unterschied zwischen der inhärenten Anpassungsfähigkeit eines Modells für dynamische Einstellungen und der konsistenten Ausgabe in stabileren Kontexten hervorhebt.

Siehe auch Bis Mitte des Jahres kommunizieren VW-Fahrzeuge mit Fahrern über ChatGPT – 01.08.2024 um 22:44 Uhr

Beim Vergleich der KI-Leistung mit der menschlichen Leistung bieten die Benutzerstatistiken von AMBOSS einen unschätzbaren Maßstab. AMBOSS berichtete von einer durchschnittlichen richtigen Antwortquote seiner Benutzer von 78 % für dieselben Fragen, die wir in unserer Studie verwendet haben. ChatGPT zeigte eine geringere Genauigkeit als menschliche Benutzer, was im Vergleich zu Medizinstudenten und Ärzten auf einen Mangel an relevanten Soft Skills schließen lässt. GPT-4 übertraf diese menschliche Leistungsmetrik und zeigte, dass es in der Lage ist, komplizierte ethische Dilemmata zu lösen, Empathie zu zeigen und Patienten und ihre Familien auf eine professionelle Art und Weise zu behandeln, die von Ärzten verlangt wird.

Das Potenzial der KI, einfühlsame Reaktionen anzuzeigen, ist ein Thema von zunehmendem Interesse. Eine bemerkenswerte aktuelle Studie verglich die Antworten von ChatGPT und Ärzten auf Patientenanfragen auf einer Social-Media-Plattform und stellte fest, dass die Antworten von ChatGPT als einfühlsamer angesehen wurden, was das Potenzial der KI betonte, menschliches Einfühlungsvermögen nachzuahmen¹⁷.

Unsere Studie weist mehrere Einschränkungen auf. Erstens war der in dieser Studie verwendete Fragenpool begrenzt und umfasste nur 80 Multiple-Choice-Fragen aus zwei verschiedenen Quellen, was möglicherweise zu einer Selektionsverzerrung führte. Diese spiegeln möglicherweise nicht genau die tatsächlichen USMLE-Fragen wider und umfassen möglicherweise nicht alle Aspekte der „Soft Skills“, die für die medizinische Praxis wesentlich sind. Darüber hinaus wurden die Konsistenzgrade der beiden Modelle anhand der Möglichkeit zur Überarbeitung ihrer Antworten bewertet. Dieser Mechanismus für eine mögliche Neubewertung lässt sich jedoch möglicherweise nicht auf das menschliche Verständnis von „Unsicherheit“ übertragen, da diese Modelle auf berechneten Wahrscheinlichkeiten für eine Ausgabe und nicht auf menschenähnlichem Vertrauen basieren. Diese Vereinfachung schränkt möglicherweise die Tiefe unseres Verständnisses der Entscheidungsprozesse der Modelle ein.

Siehe auch ChatGPT vs. Google Bard: Welcher KI-Chatbot ist perfekt für Sie?

Abschließend unterstreichen unsere Ergebnisse die potenzielle Rolle von LLMs bei der Steigerung der menschlichen Leistungsfähigkeit im Gesundheitswesen, insbesondere in Bereichen, die Empathie und Urteilsvermögen erfordern. Die Leistung von GPT-4 übertraf den menschlichen Leistungsmaßstab und unterstreicht sein Potenzial bei der Bewältigung komplexer ethischer Dilemmata, die Empathie erfordern und für das Patientenmanagement von entscheidender Bedeutung sind.

Zukünftige Forschungen sollten größere und vielfältigere Fragenpools und ethische Szenarien berücksichtigen, um das gesamte Spektrum der für die medizinische Praxis wichtigen Soft Skills besser abzubilden. Solche Studien würden ein umfassenderes Verständnis der Fähigkeiten von LLMs in diesen Bereichen liefern und die Anwendbarkeit dieser LLMs in realen klinischen Umgebungen untersuchen.