Eine aktuelle Studie veröffentlicht in Urologische Praxis festgestellt, dass chatgpt bei der Prüfung zum Self-Assessment Study Program (SASP) 2022 der American Urological Association eine hohe Rate an falschen Antworten lieferte,1 Laut einer Pressemitteilung zu den Ergebnissen handelt es sich dabei um einen „wertvollen Test des klinischen Wissens für Urologen in der Ausbildung und für praktizierende Spezialisten, die sich auf die Board-Zertifizierung vorbereiten“.2

ChatGPT hatte die Möglichkeit, seine Antworten für diejenigen, die als unbestimmt codiert waren, neu zu generieren, obwohl dies den Anteil der richtig beantworteten Antworten nicht erhöhte.

„ChatGPT weist nicht nur eine geringe Rate korrekter Antworten auf klinische Fragen in der urologischen Praxis auf, sondern macht auch bestimmte Arten von Fehlern, die das Risiko der Verbreitung medizinischer Fehlinformationen bergen“, sagte Christopher M. Deibert, MD, MPH, in der Pressemitteilung.2 Deibert ist Urologe am University of Nebraska Medical Center in Omaha.

Die Fragen in der SASP-Bewertung wurden als offene Fragen oder Multiple-Choice-Fragen kodiert. Insgesamt wurden 15 Fragen, die visuelle Komponenten enthielten, von der Prüfung ausgeschlossen. Die Antworten wurden von drei unabhängigen Forschern bewertet und von zwei ärztlichen Gutachtern überprüft.

Insgesamt lieferte das Large Language Model (LLM) bei 36 von 135 (26,7 %) offenen Fragen der Prüfung korrekte Antworten. Auf 40 (29,6 %) Fragen in diesem Abschnitt wurden unbestimmte Antworten gegeben.

Die Autoren geben an, dass die Antworten in diesem Teil des Tests lang waren und der Chatbot dazu neigte, sich zu wiederholen, selbst wenn er Feedback gab.

„Insgesamt lieferte ChatGPT häufig vage Begründungen mit weit gefassten Aussagen und äußerte sich selten zu Einzelheiten“, schreiben sie. „ChatGPT wiederholte ständig die ursprüngliche Erklärung, obwohl sie ungenau war.“2

Siehe auch  Mercedes-Benz kooperiert mit Microsoft, um ChatGPT in das MBUX-Multimediasystem zu importieren, um den zukünftigen mobilen Modus der Mensch-Fahrzeug-Konversation zu realisieren

Im Multiple-Choice-Bereich schnitt der Chatbot etwas besser ab und gab bei 38 von 135 (28,2 %) Fragen richtige Antworten. Auf 4 (3,0 %) Fragen in diesem Abschnitt wurden unbestimmte Antworten gegeben.

ChatGPT hatte die Möglichkeit, seine Antworten für diejenigen, die als unbestimmt codiert waren, neu zu generieren, obwohl dies den Anteil der richtig beantworteten Antworten nicht erhöhte. Die Ermittler stellten fest, dass der Chatbot für beide Teile der Prüfung „konsistente Begründungen für falsche Antworten lieferte und die Übereinstimmung zwischen richtigen und falschen Antworten aufrechterhielt“.1

Insgesamt wurden 66,7 % der offenen richtigen Antworten bei der ersten Ausgabe gegeben, zusammen mit 94,7 % der richtigen Antworten im Multiple-Choice-Teil. Die zweite Ausgabe generierte 22,2 % der richtigen Antworten auf offene Fragen und 2,6 % der richtigen Antworten auf Multiple-Choice-Fragen. Die endgültige Ausgabe ergab 11,1 % der richtigen Antworten auf offene Fragen und 2,6 % der richtigen Antworten auf Multiple-Choice-Fragen.

Die Autoren kamen zu dem Schluss: „Angesichts der Tatsache, dass LLMs durch ihre menschliche Ausbildung begrenzt sind, sind weitere Untersuchungen erforderlich, um ihre Einschränkungen und Fähigkeiten in mehreren Disziplinen zu verstehen, bevor sie für den allgemeinen Gebrauch verfügbar gemacht werden. Daher besteht eine hohe Wahrscheinlichkeit, dass ChatGPT in der Urologie eingesetzt wird.“ Erleichterung medizinischer Fehlinformationen für den ungeschulten Benutzer.“

Verweise

1. Huynh LM, Bonebrake BT, Schultis K, Quach A, Deibert CM. Die neue künstliche Intelligenz ChatGPT schneidet im Selbstbewertungsstudienprogramm 2022 für Urologen schlecht ab. Urol-Praxis. Online veröffentlicht am 5. Juni 2023. Zugriff am 7. Juni 2023. doi: 10.1097/UPJ.0000000000000406

2. ChatGPT fällt beim Selbsteinschätzungstest für Urologen durch. Pressemitteilung. Wolters Kluwer Gesundheit: Lippincott. 6. Juni 2023. Zugriff am 7. Juni 2023. https://www.newswise.com/articles/chatgpt-flunks-self-assessment-test-for-urologists

Siehe auch  ChatGPT: Es gibt sieben iPhone-Momente-KI
4.7/5 - (123 votes)
Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein