Forscher von Mass General Brigham sagen, dass der KI-Chatbot mit großem Sprachmodell bei klinischen Entscheidungen fast genauso gut ist wie ein Medizinabsolvent
Führungskräfte im Gesundheitswesen, die Unterstützung bei der Entwicklung eines chatgpt-Tools für ihre Ärzte suchen, sollten einen Blick auf die neuesten Forschungsergebnisse aus Boston werfen.
Ermittler aus Mass General Brigham haben herausgefunden, dass ein KI-Chatbot mit großem Sprachmodell (LLM) eine Genauigkeit von 72 % bei klinischen Entscheidungen über alle medizinischen Fachgebiete und Pflegephasen hinweg hat und dass das Tool bei der Erstellung einer endgültigen Diagnose zu 77 % effektiv ist.
Diese Ergebnisse sind ein gutes Argument dafür, die Technologie als Hilfsmittel zur klinischen Entscheidungsunterstützung für Ärzte einzusetzen – aber nicht, wie manche befürchten könnten, als Ersatz.
„In unserem Artikel wird die Entscheidungsunterstützung durch ChatGPT vom Beginn der Arbeit mit einem Patienten über das gesamte Pflegeszenario umfassend bewertet, von der Differenzialdiagnose bis hin zu Tests, Diagnose und Management.“ Marc Succi, MDstellvertretender Vorsitzender für Innovation und Kommerzialisierung und strategischer Innovationsleiter bei Mass General Brigham und Geschäftsführer des MESH Incubator, sagte in einer Pressemitteilung, in der die Ergebnisse der Studie bekannt gegeben wurden.
„Es gibt keine wirklichen Benchmarks, aber wir schätzen, dass diese Leistung auf dem Niveau von jemandem liegt, der gerade sein Medizinstudium abgeschlossen hat, etwa einem Praktikanten oder Assistenzarzt“, fügte er hinzu. „Das zeigt uns, dass LLMs im Allgemeinen das Potenzial dazu haben.“ ein ergänzendes Werkzeug für die medizinische Praxis und unterstützt die klinische Entscheidungsfindung mit beeindruckender Genauigkeit.“
Die Studie, kürzlich im Journal of Medical Internet Research veröffentlichtist der jüngste Schritt in der turbulenten Romanze zwischen Gesundheitswesen und KI, insbesondere LLMs wie dem ChatGPT-Tool. Während einige befürchten, dass die Technologie eines Tages Ärzte ersetzen könnte, sagen diejenigen, die sich schon seit einiger Zeit damit beschäftigen, dass sie wertvoll sei, weil sie Ärzten die Informationen zur Verfügung stelle, die sie zur Entscheidungsfindung benötigen.
Und diese Studienergebnisse weisen auf subtile Weise darauf hin, dass LLMs zwar gut, aber nicht gut genug sind, um irgendjemanden zu ersetzen.
In der Studie stellte Succi fest, dass ChatGPT bei der Erstellung von Differenzialdiagnosen nur zu 60 % wirksam war und bei klinischen Managemententscheidungen, beispielsweise der Entscheidung, welche Medikamente nach einer korrekten Diagnose verschrieben werden sollten, nur zu 68 % genau war.
„ChatGPT hatte mit der Differentialdiagnose zu kämpfen, die das A und O der Medizin ist, wenn ein Arzt herausfinden muss, was zu tun ist“, sagte Succi, Mitautor der Studie, in der Pressemitteilung. „Das ist wichtig, weil es uns zeigt, wo Ärzte wirklich Experten sind und den größten Mehrwert bieten – in den frühen Phasen der Patientenversorgung, in denen nur wenige Informationen präsentiert werden, wenn eine Liste möglicher Diagnosen benötigt wird.“
KI in der klinischen Versorgung muss „die Stimmen von Ärzten an vorderster Front und nicht erst im Nachhinein einbeziehen“, sagte der Präsident der American Medical Association, MD, MPH, während des AIMed Global Summit im vergangenen Juni in San Diego.
Die AIMed-Konferenz, bei der die Teilnehmerzahl von letztem Jahr auf dieses Jahr sprunghaft anstieg, diente als Forum zur Diskussion darüber, wie die Technologie („Augmented Intelligence“ und nicht „künstliche Intelligenz“ genannt) langsam und schrittweise im Gesundheitswesen eingeführt werden sollte. Ehrenfeld wies darauf hin, dass die Branche die Einführung der elektronischen Gesundheitsakte vermasselt habe, indem sie alles überstürzt und Ärzte gezwungen habe, die Plattform zu nutzen, bevor sie sich damit vertraut gemacht hätten.
„Es herrscht Begeisterung über diese disruptive Technologie“, sagte er, aber „der bestehende Regulierungsrahmen ist eindeutig nicht dafür gerüstet“, die KI-Governance zu bewältigen.
Deshalb sind Studien wie die von Mass General Brigham und Pilotprojekte wichtig. Führungskräfte im Gesundheitswesen müssen sehen, wie die Technologie genutzt werden kann und sollte, bevor sie sie einsetzen.
Krankenhausbeamte sagen, dass sie mehr Forschung zu KI-Tools wie ChatGPT betreiben werden, einschließlich der Untersuchung, ob die Technologie die Patientenversorgung und -ergebnisse verbessern kann, insbesondere in Bereichen, in denen der Zugang zu Informationen und Ressourcen schwierig oder begrenzt ist.
„Mass General Brigham sieht große Chancen, dass LLMs dazu beitragen, die Gesundheitsversorgung und die Erfahrung von Ärzten zu verbessern.“ Adam Landman, MD, MS, MIS, MHS, Chief Information Officer und Senior Vice President of Digital bei Mass General Brigham und Co-Autor der Studie, sagte in der Pressemitteilung. „Wir evaluieren derzeit LLM-Lösungen, die bei der klinischen Dokumentation helfen und Antworten auf Patientennachrichten entwerfen, wobei der Schwerpunkt auf dem Verständnis ihrer Genauigkeit, Zuverlässigkeit, Sicherheit und Gerechtigkeit liegt. Umfassende Studien wie diese sind erforderlich, bevor wir LLM-Tools in die klinische Versorgung integrieren können.“
Eric Wicklund ist Associate Content Manager und leitender Redakteur für Innovation, Technologie, Telegesundheit, Lieferkette und Pharma bei HealthLeaders.