GEnerative KI-Tools helfen Ärzten bereits dabei, Besuche zu transkribieren und Patientenakten zusammenzufassen. Die Technologie hinter chatgpt, die auf riesigen Datenmengen aus dem Internet basiert, machte Schlagzeilen wenn mehr als 80 % der Fragen der Board-Prüfung richtig beantwortet wurden. Im Juli sah ein Team von Beth Israel vielversprechende Ergebnisse bei der Verwendung von GPT-4 während eines Diagnose-Workshops für Assistenzärzte.
Aber das Tool ist noch lange nicht bereit für die Hauptsendezeit. Wenn GPT-Forscher von Stanford-Forschern Fragen zu realen medizinischen Szenarien erhielten, stimmten sie häufig nicht mit Menschen überein oder boten irrelevante Informationen an. Die KI-Modelle neigen dazu, zu „halluzinieren“ oder Dinge zu erfinden, weil sie richtig klingen – eine Tendenz, die unermesslichen Schaden anrichten könnte, wenn sie auf Patienten übertragen wird. KI-Führungskräfte und politische Entscheidungsträger haben gleichermaßen mehr Regulierungen gefordert.
STAT beschloss, ChatGPT auf seinem jährlichen Gipfel am Mittwoch auf die Probe zu stellen und das Tool gegen Ann Woolley, Spezialistin für Infektionskrankheiten am Brigham and Women’s Hospital, antreten zu lassen. Marc Succi, Innovationsleiter bei Mass General, stellte dem Tool zwei Patientenszenarien vor, während Woolley ihre eigenen Diagnosen erläuterte.
Im ersten Fall kommt ein 64-jähriger Mann mit Fieber, Schwindel, Kopfschmerzen und Gliederschmerzen ins Krankenhaus. Woolley legte ihre Überlegungen dar und kam schließlich zu der Diagnose Covid-19. ChatGPT hingegen war in seinen Antworten weitaus allgemeiner. Der Mann könnte eine Viruserkrankung oder eine bakterielle Infektion haben. Der Bot empfahl außerdem, eine ganze Reihe von Tests anzuordnen, darunter eine vollständige Blutkultur und einen Kopf-CT-Scan.
„Der Rest von diesem Zeug ist: Wenn Sie unbegrenzt Geld und Zeit hätten, was würden Sie bestellen?“ Sagte Succi und bezog sich dabei auf die vielen teuren Tests, die GPT aufgelistet hat.
GPT hat die Diagnose „Covid-19“ nie ausdrücklich erwähnt – ein blinder Fleck, auf den ein Zuschauer hingewiesen hat. Stattdessen beschrieb das Tool den Zustand als Lungenentzündung, ohne nach einem weiteren Covid-PCR-Test zu fragen.
Das nächste Szenario war komplizierter und betraf einen Mann mit Atemversagen, Fieber und einer früheren Pilzinfektion. Die GPT spiegelte viele von Woolleys diagnostischen Vorschlägen wider und landete bei derselben Hauptdiagnose: einer invasiven Pilzinfektion. Succi stellte fest, dass das Tool eine bessere Leistung erbringt, wenn in der Eingabeaufforderung mehr Informationen gegeben werden.
„Dies ist im Vergleich zum ersten Fall viel zutreffender“, sagte Woolley. „Dieser ist viel mehr auf die Komplexität des Patienten abgestimmt.“
Woolley sagte, dass die Empfehlungen von GPT für einen Kliniker hilfreich sein könnten, der in der Lage sei, das Tool zu validieren und seine Fehler zu erkennen. Für einen Patienten, der erblindet, ist es weniger hilfreich.
„Als Kliniker könnte das hilfreich sein, weil man genug Wissen hat, um zu sagen, dass das keinen Sinn ergibt“, sagte Woolley. „Das ist nicht das, was ich will.“
Neben der Gefahr falscher Diagnosen sind die Empfehlungen der GPT oft unrealistisch. Der Bot lebt in einer Welt, in der Kosten keine Rolle spielen und Ärzte so viele Tests anordnen können, wie sie möchten.
„Übrigens sind die Gesundheitskosten völlig egal“, sagte Succi. „Das wäre eine schöne Welt zum Leben.“
Das Experiment zeigte das Potenzial des Tools, machte aber auch deutlich, wie wichtig es ist, einen Menschen auf dem Laufenden zu halten.