Die neueste Version des Chatbots für künstliche Intelligenz chatgpt hat eine Prüfung im Radiologie-Board-Stil bestanden.
Forscher stellten ChatGPT anhand von 150 Multiple-Choice-Fragen auf die Probe, die sich an den Prüfungen des Canadian Royal College und des American Board of Radiology orientierten.
Dieser Durchbruch unterstreicht das enorme Potenzial der KI im medizinischen Bereich, zeigt jedoch auch bestimmte Einschränkungen auf, die ihre Zuverlässigkeit beeinträchtigen, heißt es in zwei Studien.
ChatGPT, ein von OpenAI entwickeltes Deep-Learning-Modell, ist dafür bekannt, auf der Grundlage der empfangenen Eingaben menschenähnliche Antworten zu generieren.
Seine Fähigkeiten zur Mustererkennung ermöglichen es ihm, riesige Datenmengen zu interpretieren und darauf zu reagieren, aber manchmal liefert es sachlich falsche Antworten, da in seinen Trainingsdaten keine Quelle der Wahrheit vorhanden ist.
„Der Einsatz großer Sprachmodelle wie ChatGPT nimmt rasant zu und wird weiter zunehmen“, sagte Dr. Rajesh Bhayana, Abdominalradiologe und Technologieleiter an der University Medical Imaging Toronto, Toronto General Hospital.
„Unsere Forschung bietet wertvolle Einblicke in die Leistung von ChatGPT im radiologischen Umfeld, unterstreicht sein immenses Potenzial und wirft gleichzeitig Licht auf aktuelle Zuverlässigkeitsprobleme.“
Die Nutzung und der Einfluss von ChatGPT haben erheblich zugenommen. Insbesondere wurde sie kürzlich zur am schnellsten wachsenden Verbraucheranwendung aller Zeiten gekürt. Es wird auch in beliebte Suchmaschinen wie google und Bing integriert, die sowohl Ärzte als auch Patienten für medizinische Anfragen nutzen.
Dem KI-Chatbot gelang es, 69 Prozent der Fragen richtig zu beantworten, knapp unter der Bestehensnote von 70 Prozent.
Es zeigte sich jedoch ein spürbarer Leistungsunterschied zwischen Fragen zum Denken niedrigerer Ordnung (84 Prozent) und Fragen zum Denken höherer Ordnung (60 Prozent), insbesondere bei der Beschreibung von Bildbefunden, Berechnungen und Klassifizierungen sowie der Anwendung von Konzepten.
Angesichts der Tatsache, dass die KI keine radiologische Ausbildung erhalten hat, waren diese Schwierigkeiten nicht unerwartet.
Eine neuere Version – GPT-4 – wurde im März veröffentlicht. Bei der Veröffentlichung handelte es sich um eine verbesserte Version der KI, einschließlich erweiterter erweiterter Argumentationsfunktionen. In einer Folgestudie beantwortete GPT-4 81 Prozent der gleichen Fragen richtig, übertraf damit die Bestehensschwelle und übertraf damit seinen Vorgänger, GPT-3.5.
Dieser Browser unterstützt das Videoelement nicht.
Trotz dieser Verbesserungen zeigte GPT-4 keine Fortschritte bei Denkfragen niedrigerer Ordnung und beantwortete 12 Fragen falsch, die GPT-3.5 richtig beantwortet hatte. Diese Inkonsistenz wirft Fragen zur Zuverlässigkeit der KI bei der Informationsbeschaffung auf.
„ChatGPT gab genaue und sichere Antworten auf einige anspruchsvolle radiologische Fragen, machte dann aber einige sehr unlogische und ungenaue Behauptungen“, sagte Dr. Bhayana.
„Angesichts der Funktionsweise dieser Modelle sollten die ungenauen Antworten nicht überraschen.“
In den Studien wurde festgestellt, dass ChatGPT dazu neigt, ungenaue Reaktionen hervorzurufen, die als Halluzinationen bezeichnet werden. Auch wenn diese Tendenz bei GPT-4 weniger häufig vorkommt, schränkt sie dennoch die derzeitige Verwendbarkeit des Chatbots in der medizinischen Ausbildung und Praxis ein.
Trotz der Einschränkungen sehen die Forscher Potenzial in der Verwendung von ChatGPT, um Ideen anzuregen und den medizinischen Schreibprozess und die Datenzusammenfassung zu unterstützen, sofern die Informationen auf Fakten überprüft werden.
„Für mich ist das die größte Einschränkung. Derzeit wird ChatGPT am besten zur Anregung von Ideen, zum Start des medizinischen Schreibprozesses und zur Datenzusammenfassung eingesetzt. Wenn sie zum schnellen Abrufen von Informationen verwendet werden, müssen sie immer auf Fakten überprüft werden“, sagte Dr. Bhayana.
Aktualisiert: 16. Mai 2023, 14:00 Uhr