Wenn Sie chatgpt fragen, wie viele Eingriffe ein bestimmter Chirurg durchführt oder wie hoch die Infektionsrate in einem bestimmten Krankenhaus ist, antwortet der Chatbot von OpenAI und Microsoft unweigerlich mit einer Version von „Das mache ich nicht.“
Aber je nachdem, wie Sie fragen, gibt Googles Bard eine ganz unterschiedliche Antwort und empfiehlt sogar eine „Konsultation“ mit bestimmten Klinikern.
Bard erzählte mir, wie viele Kniegelenkersatzoperationen im Jahr 2021 in großen Krankenhäusern in Chicago durchgeführt wurden, wie hoch die Infektionsraten waren und wie hoch der landesweite Durchschnitt war. Es verriet mir sogar, welcher Chicagoer Chirurg die meisten Knieoperationen durchführt und wie hoch die Infektionsrate ist. Als ich nach einer Herzbypass-Operation fragte, nannte Bard zum Vergleich sowohl die Sterblichkeitsrate einiger örtlicher Krankenhäuser als auch den nationalen Durchschnitt.
Während sich Bard manchmal selbst als Informationsquelle nannte und seine Antwort mit „Meines Wissens nach“ begann, verwies er manchmal auf bekannte und angesehene Organisationen.
Es gab nur ein Problem. Als google.com/faq?hl=en“ target=“_blank“>Google selbst warnt, „Bard ist experimentierfreudig … also überprüfen Sie die Informationen in Bards Antworten noch einmal.“ Als ich diesem Rat folgte, verschmolz die Wahrheit ununterscheidbar mit „Wahrhaftigkeit„ – der einprägsame Begriff des Komikers Stephen Colbert zur Beschreibung von Informationen, die nicht aufgrund unterstützender Fakten als wahr angesehen werden, sondern weil sie sich wahr „anfühlen“.
Nehmen Sie zum Beispiel eine Kniegelenkersatzoperation, auch Knieendoprothetik genannt. Mit fast 1,4 Millionen durchgeführten chirurgischen Eingriffen im Jahr 2022 handelt es sich um einen der häufigsten chirurgischen Eingriffe. Als ich Bard fragte, welcher Chirurg in Chicago die meisten Knieprothesen durchführt, lautete die Antwort Dr. Richard A. Berger. Berger, der sowohl dem Rush University Medical Center als auch Midwest Orthopaedics angehört, hat über 10.000 Kniegelenkersatzoperationen vorgenommen, informierte mich Bard.
Als Antwort auf eine nachfolgende Frage fügte Bard hinzu, dass Bergers Infektionsrate bei 0,5 % liege und damit deutlich unter dem Landesdurchschnitt von 1,2 % liege. Diese niedrige Rate wurde auf Faktoren wie „Dr. Bergers Erfahrung, seinen Einsatz minimalinvasiver Techniken und seine akribische Liebe zum Detail“ zurückgeführt.
Bei Chatbots zählt jedes Wort in einer Anfrage. Als ich die Frage leicht änderte und fragte: „Welcher Chirurg führt in der Gegend von Chicago die meisten Knieprothesen durch?“ Bard gab keinen einzigen Namen mehr an. Stattdessen wurden sieben „der bekanntesten Chirurgen“ aufgeführt – darunter Berger –, die „alle hochqualifiziert und erfahren sind“, „eine lange Erfolgsgeschichte vorweisen können“ und „für ihre mitfühlende Pflege bekannt sind“.
Wie bei ChatGPT enthalten Bards Antworten auf alle medizinbezogenen Fragen zahlreiche Vorsichtsmaßnahmen, wie zum Beispiel „Keine Operation ist ohne Risiko.“ Doch Bard erklärte immer noch rundheraus: „Wenn Sie über eine Kniegelenkersatzoperation nachdenken, würde ich Ihnen empfehlen, einen Termin bei einem dieser Spezialisten zu vereinbaren.“ [seven] Chirurgen.“
ChatGPT scheut Worte wie „empfehlen“ zurück, aber es hat mir zuversichtlich versichert, dass die von ihm bereitgestellte Liste der vier „Top-Chirurgen für Kniegelenkersatz“ „auf deren Fachwissen und Patientenergebnissen“ basiert.
Diese Empfehlungen weichen zwar deutlich von der Suchmaschinenliste der Websites ab, an die wir uns gewöhnt haben, sind aber verständlicher, wenn man darüber nachdenkt, wie Chatbots mit „generativer künstlicher Intelligenz“ wie ChatGPT und Bard trainiert werden.
Bard und ChatGPT stützen sich beide auf Informationen aus dem Internet, wo einzelne orthopädische Chirurgen oft einen hohen Bekanntheitsgrad haben. Einzelheiten zu Bergers Praxis finden Sie beispielsweise auf seine Website und in zahlreichen Medienprofilen, darunter u. a Chicago Tribune Geschichte Er erzählt, wie Sportler und Prominente aus dem ganzen Land zu ihm kommen, um sich behandeln zu lassen. Leider ist es unmöglich zu wissen, inwieweit die Chatbots das widerspiegeln, was die Chirurgen über sich selbst sagen, im Vergleich zu Daten aus objektiven Quellen.
Courtney Kelly, Direktorin für Geschäftsentwicklung bei Berger, bestätigte die Zahl von „über 10.000“ chirurgischen Eingriffen und wies darauf hin, dass die Praxis diese Zahl bereits vor einigen Jahren auf ihrer Website veröffentlicht habe. Kelly fügte hinzu, dass die Praxis nur eine Gesamtkomplikationsrate von weniger als 1 % angab, sie bestätigte jedoch, dass etwa die Hälfte dieser Zahl auf Infektionen zurückzuführen sei.
Während die Infektionsdaten für Berger korrekt sein mögen, war dies bei der zitierten Quelle, The Joint Commission, nicht der Fall. Ein Sprecher der Joint Commission, die Krankenhäuser auf ihre Gesamtqualität untersucht, sagte, sie erhebe keine Infektionsraten einzelner Chirurgen.
Auch ein Berger-Kollege von Midwest Orthopaedics, der ebenfalls eine Infektionsrate von 0,5 % haben soll, wurde von Bard den Centers for Medicare & Medicaid Services (CMS) zugeschrieben. Ich konnte nicht nur keine CMS-Daten zu den Infektionsraten oder -volumina einzelner Kliniker finden, sondern die CMS Hospital Compare-Website stellt die Krankenhausinfektionsrate auch nur für eine Kombination aus Knie- und Hüftoperationen bereit.
Als Antwort auf eine andere Frage, die ich Bard stellte, wurden die Brustkrebs-Sterblichkeitsraten in einigen der größten Krankenhäuser Chicagos angegeben, wobei sorgfältig darauf hingewiesen wurde, dass es sich bei den Zahlen nur um Durchschnittswerte für diese Erkrankung handelte. Aber wieder einmal war seine Zuschreibung, diesmal an die American Hospital Association, nicht stichhaltig. Die Handelsgruppe gab an, diese Art von Daten nicht zu sammeln.
Als ich mich eingehender mit Eingriffen auf Leben und Tod befasste, fragte ich Bard nach der Sterblichkeitsrate bei Herzklappenoperationen in einigen örtlichen Krankenhäusern. Die prompte Antwort war beeindruckend raffiniert. Bard lieferte risikoadjustierte Krankenhaussterblichkeitsraten für einen isolierten Aortenklappenersatz und für einen Mitralklappenersatz sowie jeweils einen nationalen Durchschnitt (2,9 % bzw. 3,3 %). Die Zahlen wurden der Society of Thoracic Surgeons (STS) zugeschrieben, deren Daten als „Goldstandard“ für diese Art von Informationen gelten.
Zu Vergleichszwecken habe ich ChatGPT nach denselben nationalen Sterblichkeitsraten gefragt. Wie Bard führte ChatGPT STS an, aber die Sterblichkeitsrate bei einem isolierten Aortenklappenersatzverfahren war viel niedriger (1,6 %), während die Sterblichkeitsrate der Mitralklappe ungefähr gleich war (2,7 %).
Bevor Sie Bards Beschreibungen der Versorgungsqualität einzelner Krankenhäuser und Ärzte als hoffnungslos fehlerhaft abtun, sollten Sie die Alternativen in Betracht ziehen. Die Werbung, in der Krankenhäuser ihre klinischen Fähigkeiten verkünden, mag nicht ganz als „Wahrheit“ gelten, aber sie wählen auf jeden Fall sorgfältig aus, welche Wahrheiten sie sagen. Mittlerweile kenne ich keine öffentlich zugänglichen Krankenhaus- oder Arztdaten, von denen die Anbieter nicht protestieren, dass sie unzuverlässig seien US-Nachrichten und Weltbericht oder die Leapfrog Group (die auch Bard und ChatGPT zitieren) oder das bundesstaatliche Medicare-Programm.
(STS-Daten sind eine Ausnahme mit einem Sternchen, da ihre Leistungsinformationen zu Gruppen von Klinikern nur dann öffentlich verfügbar sind, wenn die Gruppen sich dafür entscheiden, sie freizugeben.)
Was Bard und ChatGPT bieten, ist ein wirkungsvoller Gesprächseinstieg – einer, der Ärzten und Patienten den Weg ebnet, offen über die Sicherheit und Qualität der Pflege zu diskutieren und diese Diskussion unweigerlich zu einer breiteren gesellschaftlichen Diskussion auszuweiten. Die Chatbots liefern Informationen, die, wenn sie sich verbessern, endlich eine öffentliche Nachfrage nach ihnen auslösen könnten gleichbleibende medizinische Exzellenzwie ich es in meinem vor fast 25 Jahren veröffentlichten Buch über das aufkeimende Informationszeitalter dargelegt habe.
Ich fragte John Morrow, einen erfahrenen (menschlichen) Datenanalysten und Gründer von Franklin Trust Ratings, wie er den Anbietern raten würde, darauf zu reagieren.
„Es ist an der Zeit, dass die Branche standardisiert und offenlegt“, sagte Morrow. „Sonst werden Dinge wie ChatGPT und Bard für Chaos sorgen und das Vertrauen schwächen.“
Michael L. Millenson ist Präsident von Health Quality Advisors und außerordentlicher Professor für Medizin an der Feinberg School of Medicine der Northwestern University in Chicago.
Dieser Beitrag erschien in Forbes.