OpenAIs chatgpt Forscher berichteten, dass sie bei einem Übungstest zur Selbsteinschätzung des American College of Gastroenterology (ACG) keine bestandene Punktzahl erreicht haben.

Laut Arvind erreichten die GPT-3.5- und GPT-4-Versionen anhand von Fragen aus den Multiple-Choice-Übungstests der ACG aus den Jahren 2021 und 2022 eine Punktzahl von 65,1 % (296 von 455 Fragen) bzw. 62,4 % (284 von 455 Fragen). Trindade, MD, von den Feinstein Institutes for Medical Research von Northwell Health in Manhasset, New York, und Co-Autoren.

Beide Versionen des Chatbots für künstliche Intelligenz (KI) schafften es nicht, die erforderliche 70-Prozent-Note zum Bestehen der Prüfungen zu erreichen, berichteten sie im Amerikanisches Journal für Gastroenterologie.

„Wir waren schockiert, als wir sahen, dass der Benchmark eher niedrig liegt, aber er bietet auch einen Rahmen für Verbesserungen“, sagte Trindade MedPage heute. „Wir wissen, dass es niedriger ist. Was müssen wir also tun, um es zu verbessern?“

„Es gibt wirklich kein intrinsisches Verständnis für ein Thema oder Problem, was viele Leute denken“, fügte Trindade hinzu. „Für die Medizin möchten Sie etwas, das Ihnen genaue Informationen liefert, sei es für Auszubildende oder sogar für Patienten, die sich damit befassen, und Sie möchten einen Schwellenwert von 95 % oder mehr.“

Um die Tests durchzuführen, kopierten die Forscher jede Frage und fügten sie mit ihren möglichen Antworten direkt in ChatGPT ein. Nachdem der KI-Chatbot eine Antwort mit einer Erklärung generiert hatte, wählten die Autoren die entsprechende Antwort in der webbasierten Bewertung des ACG aus.

Jede jährliche Version der Bewertung besteht aus 300 Multiple-Choice-Fragen, die Echtzeit-Feedback beinhalten. Die Beurteilungen sollen die Leistung eines Testteilnehmers bei der Gastroenterologie-Ausschussprüfung des American Board of Internal Medicine widerspiegeln.

Siehe auch  ChatGPT geht davon aus, dass Shiba Inu das 0,1-Dollar-Ziel erreichen könnte

Insgesamt verwendeten Trindade und sein Team 455 Fragen für jede Version von ChatGPT. Sie schlossen 145 Fragen aufgrund einer Bildanforderung aus. Sie verwendeten die GPT-3.5-Version, die am 11. März verfügbar war, und führten die Tests erneut mit der GPT-4-Version durch, als diese am 25. März verfügbar wurde.

Während die Forscher eine Genauigkeit von 70 % als Maßstab für diese Studie festlegten, wies Trindade darauf hin, dass die medizinische Gemeinschaft viel höhere Standards haben sollte. Er sagte, die jüngste Flut von Dokumenten, die zeigen, dass ChatGPT andere medizinische Beurteilungen bestanden habe, könnte die Tatsache überschatten, dass diese Technologie noch nicht für den regulären klinischen Einsatz bereit sei.

„Sie können einen Schwellenwert definieren, wie Sie ihn möchten und sagen [ChatGPT] Ich habe es bestanden, aber ist das Bestehen gut genug für die Medizin?“ sagte Trindade. „Ich würde behaupten, dass das nicht der Fall ist.“ Sie wollen, dass es die Prüfung besteht.“

„Für die medizinische Gemeinschaft ist es wichtig zu verstehen, dass sie noch nicht für die Hauptsendezeit bereit ist“, fügte er hinzu. „Und nur weil es den Test besteht, heißt das nicht, dass wir es verwenden sollten.“

Trindade räumte ein, dass sich diese Technologie mit unglaublicher Geschwindigkeit weiterentwickelt, und er hat viele Menschen in medizinischen Einrichtungen gesehen, die sie nutzen. Während die Technologie erhalten bleibt, sagte er, sollten Mediziner über Möglichkeiten nachdenken, sie für den klinischen Einsatz zu optimieren.

„Von Generation zu Generation verändert sich die Art und Weise, wie wir lernen und wie wir auf Daten und Informationen zugreifen – sei es zu Bildungszwecken oder sogar zur Beantwortung einer Frage im Zusammenhang mit der Patientenversorgung mit dem Patienten vor uns –, dass sich das Paradigma verändert.“ wie Menschen auf Informationen zugreifen“, sagte er.

Siehe auch  die Fusion zwischen ChatGPT und der Bilderzeugung, die Midjourney aufrütteln wird

Die Studie ist ein weiteres Beispiel dafür, wie die Leistung von KI-Modellen bei medizinischen Qualifikationstests getestet wird, was zu einer Möglichkeit geworden ist, die Fähigkeiten der Technologie als medizinisches Werkzeug darzustellen.

Den Durchbruch erlebten diese Bemühungen im Dezember 2022, als google-Forscher das medizinisch trainierte KI-Modell des Unternehmens vorführten. bekannt als Med-PaLM, erreichte eine Genauigkeit von 67,6 % und übertraf die allgemeine Schwelle für das Bestehen einer Reihe von Fragen der US Medical Licensing Examination (USMLE). Diese Forscher gingen im März noch einen Schritt weiter, als Google bekannt gab, dass Med-PaLM 2, eine aktualisierte Version dieses KI-Modells, eine Genauigkeit von 85 % erreichte und bei einer ähnlichen Praxisbewertung unter Verwendung von USMLE-Fragen auf „Experten“-Arztniveau abschnitt.

ChatGPT seinerseits war kein Unbekannter darin, zu beweisen, dass es die Genauigkeitsschwellen für medizinische Untersuchungen überschreiten kann, wie beispielsweise eine aktuelle Studie, die zeigt, dass es bei einer Beurteilung im Radiologie-Board-Stil eine Genauigkeit von 80,7 % erreicht. In einer anderen aktuellen Studie wurde sogar festgestellt, dass der KI-Chatbot Ärzten bei der Beantwortung von Patientenfragen überlegen ist. Diese Studie zeigte, dass die Bewerter die Antworten von ChatGPT in mehr als 75 % der Fälle im Vergleich zu den Antworten echter Ärzte während einer verblindeten Bewertung bevorzugten.

Laut Trindade ist diese gastroenterologische Untersuchungsleistung das jüngste Beispiel dafür, dass KI-Modelle, insbesondere solche ohne spezifische medizinische Informationen und Schulung, keine perfekten Werkzeuge für den klinischen Einsatz sind.

„Da diese KI-Modelle und diese Plattformen auf den Markt kommen – die es so einfach machen, eine Frage einzugeben und eine Antwort zurückzusenden – ist das attraktiv, weil wir heutzutage so beschäftigt sind“, sagte er. „Wir müssen einfach einen Schritt zurücktreten, und ich denke [papers] Auf diese Weise wird festgestellt, dass es noch nicht für die Hauptsendezeit bereit ist.“

  • Michael DePeau-Wilson ist Reporter im Unternehmens- und Ermittlungsteam von MedPage Today. Er behandelt unter anderem Psychiatrie, Long-Covid und Infektionskrankheiten sowie andere relevante klinische Nachrichten aus den USA. Folgen

Bitte aktivieren Sie JavaScript, um das anzuzeigen Kommentare unterstützt von Disqus.

4.8/5 - (82 votes)
Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein