22. August 2023
5 Minuten gelesen
Die zentralen Thesen:
- chatgpt erzielte bei der klinischen Entscheidungsfindung eine Gesamtgenauigkeit von 71,7 %.
- Ein Studienautor erklärte gegenüber Healio, dass ChatGPT den Mitarbeitern im Gesundheitswesen zwar dabei helfen könne, effizienter zu arbeiten, dafür aber eine ärztliche Aufsicht erfordere.
Laut Forschern zeigte ChatGPT eine „beeindruckende Genauigkeit“, wenn es bei der klinischen Entscheidungsfindung eingesetzt wurde, obwohl es bei Managemententscheidungen und Differentialdiagnosen weniger effektiv war.
„In unserem Artikel wird die Entscheidungsunterstützung über ChatGPT umfassend bewertet, vom Beginn der Arbeit mit einem Patienten über das gesamte Pflegeszenario, von der Differenzialdiagnose bis hin zu Tests, Diagnose und Management.“ Marc D. Succi, MD, sagte der leitende Autor und stellvertretende Lehrstuhlinhaber für Innovation und Kommerzialisierung bei Mass General Brigham Radiology in einer Pressemitteilung.
Succi und Kollegen testeten die Wirksamkeit des Chatbots mit künstlicher Intelligenz (KI) für das Large-Language-Model (LLM) anhand von 36 klinischen Vignetten aus verschiedenen Fachgebieten. Die Forscher baten ChatGPT zunächst, auf der Grundlage erster Informationen, einschließlich Alter, Geschlecht und Symptome des Patienten, Differenzialdiagnosen zu entwickeln. Anschließend stellten die Forscher dem Chatbot zusätzliche Informationen zur Verfügung und forderten ihn auf, Managemententscheidungen und eine endgültige Diagnose zu treffen.
Succi und Kollegen fanden heraus, dass ChatGPT bei der klinischen Entscheidungsfindung insgesamt eine Genauigkeit von 71,7 % (95 %-KI, 69,3–74,1), bei der Erstellung endgültiger Diagnosen eine Genauigkeit von 76,9 % (95 %-KI, 67,8–86,1) und bei der Erstellung endgültiger Diagnosen eine Genauigkeit von 60,3 % (95 %-KI, 54.2-66.6) präzise bei der Erstellung von Differenzialdiagnosen.
„Dies zeigt uns, dass LLMs im Allgemeinen das Potenzial haben, ein ergänzendes Instrument für die medizinische Praxis zu sein und die klinische Entscheidungsfindung mit beeindruckender Genauigkeit zu unterstützen“, sagte Succi.
Den Forschern zufolge gehören zu den Einschränkungen von ChatGPT „mögliche Modellhalluzinationen und die unklare Zusammensetzung des Trainingsdatensatzes von ChatGPT“.
Healio sprach mit Succi, um mehr über die klinischen Auswirkungen der Studie für Hausärzte, die möglichen Nachteile von KI-Halluzinationen und mehr zu erfahren.
Hallo: CaNBeschreiben Sie kurz die Ergebnisse. Gab es Ergebnisse, die Ihnen besonders aufgefallen sind?
Saft: Diese Studie bewertet umfassend die Leistung von ChatGPT, wie man einen Patienten im klinischen Umfeld sehen würde. [There have] Es gibt einige Studien, die besagen, dass man bei einer kommissionellen Prüfung so gut abschneidet oder etwas, das ganz anders ist als die Art und Weise, wie man als Arzt tatsächlich praktiziert.
Wir wollten vier Schlüsselkomponenten eines Patientenbesuchs durchgehen. Das bedeutet also, eine Differenzialdiagnose zu erstellen, herauszufinden, welcher diagnostische Test anzuordnen ist, die endgültige Diagnose zu ermitteln und den Patienten zu behandeln.
Dazu haben wir 36 klinische Vignetten aus dem Merck Clinical Manual verwendet. Es gilt für alle Fachgebiete. Bei den meisten davon handelt es sich um klinische Fälle im Brot-und-Butter-Stil.
Mit einer Gesamtgenauigkeit von 72 % schnitt es sehr gut ab. Das wäre eine bestandene Punktzahl. Wir können Vermutungen anstellen, aber das entspricht ungefähr dem Niveau eines Praktikanten, der, sagen wir, gerade sein Medizinstudium abgeschlossen hat.
Das Neue an dieser Studie ist jedoch, dass sie nach diesen vier Komponenten segmentiert wurde. Daher konnte die endgültige Diagnose am besten erstellt werden und war zu 77 % genau. Bei der anfänglichen Differenzialdiagnose schnitt es jedoch am schlechtesten ab, wenn man nur über minimale Informationen verfügte – keine Labortests usw. Es erreichte nur 60 %.
Dies zeigt uns, dass die GPT zwar bei einer endgültigen Diagnose gut funktionieren kann, wir aber klug vorgehen und bedenken müssen, dass es bei der Behandlung eines Patienten verschiedene Komponenten gibt, die nicht bei allen gleich gut funktionieren . Die Hoffnung wäre, dass Sie diese Studie – wenn Sie diese Modelle erstellen – nutzen können, um kritisch zu bewerten, wie gut sie in diesen verschiedenen Bereichen abschneidet. Wir müssen beispielsweise daran arbeiten, wie gut es in der Differentialdiagnose funktioniert, um es im klinischen Umfeld nützlich zu machen.
Hallo: Patienten SindNÖGar nicht so bequem mit KI-gesteuerten Besuchen. Selbst wenn ChatGPT über eine „beeindruckende“ Fähigkeit zur klinischen Entscheidungsfindung verfügt, wie kann man Patienten mit der Vorstellung vertraut machen, dass eine Diagnose oder ein Behandlungsplan auf KI basiert?
Saft: Mein einziger Kritikpunkt wäre, dass ich nicht glaube, dass es von der KI kommen wird. Es wird von der KI kommen und ein Arzt oder Gesundheitsdienstleister ist auf dem Laufenden. Das ist das Wichtigste, was Mass General Brigham tut. Ein Gesundheitsdienstleister ist immer auf dem Laufenden. Sie erhalten nicht automatisch eine KI-Diagnose. Sie erhalten eine KI-Diagnose, die von einem Arzt überprüft, überwacht usw. wurde, was der heutigen Funktionsweise sehr ähnlich ist. Wir haben Praktikanten und Assistenzärzte in akademischen Zentren, die möglicherweise den Großteil der Arbeit erledigen. Letztendlich ist es aber der behandelnde Arzt, der die Entscheidungen trifft und verschiedene Informationsquellen der KI oder des Bewohners integriert.
Um es den Patienten angenehm zu machen, ist es meiner Meinung nach das Wichtigste, sicherzustellen, dass immer noch ein Arzt hinter all dem steckt und dass dieser die endgültige Entscheidung trifft. Nr. 2 besteht darin, Studien wie diese durchzuführen und kritisch zu bewerten, wie gut diese sind, und sich nicht einfach auf das Wort eines Unternehmens zu verlassen.
Wir müssen es selbst untersuchen und Zugriff auf die Daten dieser Unternehmen haben. Daher finde ich es beruhigend zu sehen, wie die Institutionen, die diese Technologie nutzen, untersuchen, wie gut sie ist, und dabei helfen, besser zu werden, und dass dies auch für die Patienten beruhigend sein könnte.
Letztendlich brauchen wir die Zustimmung der Patienten. Wir müssen also auf ihre Bedenken hören. Vielleicht haben sie einen bestimmten Grund, warum sie sich unwohl fühlen. Vielleicht ist es eine Frage der Privatsphäre. Diese Bedenken müssen ausgeräumt werden – es handelt sich definitiv um Herausforderungen.
Hallo: Kannst du Geben Sie ein Beispiel dafür mögliche Nachteile von eine KI-Halluzination?
Saft: Sie können sich vorstellen, einen LLM zu fragen: „Welchen Diagnosetest sollten wir anordnen?“ und es schlägt 30 zusätzliche Tests vor, die ein Arzt nicht unbedingt vorschlagen würde, und diese könnten als Fehlausrichtung, Halluzinationen oder Ungenauigkeiten angesehen werden. Plötzlich kostet Ihr Besuch, der „X“ Dollar kostet, jetzt das Zehnfache.
Ich denke im Allgemeinen, nicht spezifisch für die Studie, aber das Risiko von Halluzinationen und falschen Informationen durch KI besteht darin, dass dies paradoxerweise die Kosten des Gesundheitssystems erhöhen oder die Wartezeiten verlängern könnte. Aber deshalb bewerten wir es zunächst anhand breiter Vignetten, um zu sehen, wie gut es tatsächlich ist.
Hallo: Worüber sollte ein praktizierender Arzt angesichts dieser Informationen nachdenken?
Saft: Ich denke, im Allgemeinen sind KI und insbesondere LLMs ein weiteres Werkzeug in der Toolbox
eine gute Patientenversorgung zu gewährleisten. Und so wie ein Stethoskop es Ihnen ermöglicht, mehr Informationen vom Herzen zu sammeln und diese in Ihre Diagnose zu integrieren, macht Sie KI effizienter. Aber es braucht immer noch Aufsicht. Ein Mensch geht sehr langsam und ineffizient, aber ein Mensch auf einem Fahrrad ist das effizienteste Tier. KI ist ein Fahrrad für den Gesundheitsdienstleister, und so sollte es auch gesehen werden. Für Gesundheitsdienstleister, die dies lesen, wird KI Ärzte nicht ersetzen, aber Ärzte, die KI verwenden, werden Ärzte ersetzen, die keine KI verwenden. Es ist also eines dieser Dinge, bei denen wir es allgemein und aus kultureller Sicht übernehmen, studieren und in unsere tägliche Praxis integrieren müssen, weil es früher oder später kommt.