Für viele Patienten ist das Internet ein leistungsstarkes Instrument zur Selbstbildung zu medizinischen Themen. Da chatgpt den Patienten jetzt zur Verfügung steht, haben Forscher des Brigham and Women’s Hospital untersucht, wie konsistent der Chatbot mit künstlicher Intelligenz Empfehlungen für die Krebsbehandlung liefert, die den Richtlinien des National Comprehensive Cancer Network (NCCN) entsprechen. Ihre Ergebnisse, veröffentlicht in JAMA Onkologiezeigen, dass ChatGPT 3.5 in etwa einem Drittel der Fälle eine unangemessene („nicht übereinstimmende“) Empfehlung lieferte, was die Notwendigkeit eines Bewusstseins für die Grenzen der Technologie unterstreicht (2023; doi: 10.1001/jamaoncol.2023.2954).
„Patienten sollten sich in der Lage fühlen, sich über ihren Gesundheitszustand zu informieren, aber sie sollten immer mit einem Arzt darüber sprechen, und Ressourcen im Internet sollten nicht isoliert konsultiert werden“, sagte die korrespondierende Autorin Danielle Bitterman, MD, klinische Wissenschaftlerin in der Abteilung für Radioonkologie und das Programm für künstliche Intelligenz in der Medizin (AIM) von Mass General Brigham. „ChatGPT-Antworten können sehr menschlich klingen und sehr überzeugend sein. Aber wenn es um die klinische Entscheidungsfindung geht, gibt es so viele Feinheiten für die individuelle Situation jedes Patienten. Eine richtige Antwort kann sehr differenziert sein und nicht unbedingt etwas, was ChatGPT oder ein anderes großes Sprachmodell bieten kann.“
Das Aufkommen von Instrumenten der künstlichen Intelligenz im Gesundheitswesen war bahnbrechend und hat das Potenzial, das Kontinuum der Pflege positiv zu verändern. Mass General Brigham führt gründliche Forschung zu neuen und aufkommenden Technologien durch, um die verantwortungsvolle Einbindung von KI in die Gesundheitsversorgung, die Personalunterstützung und die Verwaltungsprozesse zu unterstützen.
Studiendetails
Obwohl die medizinische Entscheidungsfindung von vielen Faktoren beeinflusst werden kann, haben Bitterman und Kollegen beschlossen, zu bewerten, inwieweit die Empfehlungen von ChatGPT mit den NCCN-Richtlinien übereinstimmen, die von Ärzten in Einrichtungen im ganzen Land verwendet werden. Sie konzentrierten sich auf die drei häufigsten Krebsarten (Brust-, Prostata- und Lungenkrebs) und forderten ChatGPT auf, für jede Krebsart einen Behandlungsansatz basierend auf der Schwere der Erkrankung bereitzustellen. Insgesamt fügten die Forscher 26 eindeutige Diagnosebeschreibungen hinzu und verwendeten vier leicht unterschiedliche Eingabeaufforderungen, um ChatGPT um die Bereitstellung eines Behandlungsansatzes zu bitten, wodurch insgesamt 104 Eingabeaufforderungen generiert wurden.
Fast alle Antworten (98 %) enthielten mindestens einen Behandlungsansatz, der den NCCN-Richtlinien entsprach. Die Forscher stellten jedoch fest, dass 34 Prozent dieser Antworten auch eine oder mehrere nicht übereinstimmende Empfehlungen enthielten, die bei ansonsten fundierten Leitlinien manchmal schwer zu erkennen waren. Als nicht konkordante Behandlungsempfehlung wurde eine Therapieempfehlung definiert, die nur teilweise richtig war (z. B. bei lokal fortgeschrittenem Brustkrebs eine alleinige Empfehlung einer Operation ohne Nennung einer anderen Therapiemodalität). Bemerkenswerterweise kam es nur in 62 Prozent der Fälle zu einer vollständigen Übereinstimmung bei der Bewertung, was sowohl die Komplexität der NCCN-Richtlinien selbst als auch das Ausmaß unterstreicht, in dem die Ergebnisse von ChatGPT vage oder schwer zu interpretieren sein können.
In 12,5 Prozent der Fälle führte ChatGPT zu „Halluzinationen“ oder zu einer Behandlungsempfehlung, die in den NCCN-Richtlinien völlig fehlte. Dazu gehörten Empfehlungen zu neuartigen Therapien oder kurativen Therapien für nicht heilbare Krebsarten. Die Autoren betonten, dass diese Form der Fehlinformation die Erwartungen der Patienten an die Behandlung falsch beeinflussen und sich möglicherweise auf die Beziehung zwischen Arzt und Patient auswirken kann.
Zukünftig untersuchen die Forscher, wie gut sowohl Patienten als auch Ärzte zwischen einem von einem Arzt verfassten medizinischen Rat und einem großen Sprachmodell (LLM) wie ChatGPT unterscheiden können. Sie fordern ChatGPT außerdem auf, detailliertere klinische Fälle vorzulegen, um sein klinisches Wissen weiter zu bewerten.
Die Autoren verwendeten GPT-3.5-turbo-0301, eines der größten Modelle, die zum Zeitpunkt der Durchführung der Studie verfügbar waren, sowie die Modellklasse, die derzeit in der Open-Access-Version von ChatGPT (einer neueren Version, GPT-) verwendet wird. 4, ist nur mit dem kostenpflichtigen Abonnement verfügbar). Sie verwendeten auch die NCCN-Richtlinien von 2021, da GPT-3.5-turbo-0301 auf der Grundlage von Daten bis September 2021 entwickelt wurde. Während die Ergebnisse variieren können, wenn andere LLMs und/oder klinische Richtlinien verwendet werden, betonen die Forscher, dass viele LLMs in der Art und Weise ähnlich sind sie sind gebaut und die Grenzen, die sie haben.
„Es ist eine offene Forschungsfrage, inwieweit LLMs konsistente logische Antworten liefern, da häufig ‚Halluzinationen‘ beobachtet werden“, sagte Erstautor Shan Chen, MS, Doktorand am AIM-Programm der Harvard-Mass General Brigham. „Benutzer werden wahrscheinlich Antworten von den LLMs suchen, um sich über gesundheitsbezogene Themen zu informieren – ähnlich wie bei der google-Suche. Gleichzeitig müssen wir das Bewusstsein dafür schärfen, dass LLMs nicht das Äquivalent zu ausgebildeten medizinischen Fachkräften sind.“