× schließen
Bildnachweis: Pixabay/CC0 Public Domain
Eine neue Studie unter der Leitung von Forschern von Mass General Brigham hat ergeben, dass ChatGPT bei der gesamten klinischen Entscheidungsfindung zu etwa 72 % genau war, von der Erstellung möglicher Diagnosen bis hin zur endgültigen Diagnose und Pflegemanagemententscheidungen.
Der Chatbot mit künstlicher Intelligenz (Large-Language Model, LLM) schnitt sowohl in der Primärversorgung als auch in der Notfallversorgung in allen medizinischen Fachgebieten gleich gut ab. Die Ergebnisse des Forschungsteams werden im veröffentlicht Zeitschrift für medizinische Internetforschung.
„Unser Artikel bewertet die Entscheidungsunterstützung über ChatGPT umfassend vom Beginn der Arbeit mit einem Patienten über das gesamte Pflegeszenario, von der Differenzialdiagnose bis hin zu Tests, Diagnose und Management“, sagte korrespondierender Autor Marc Succi, MD, stellvertretender Vorsitzender von Innovations- und Kommerzialisierungsleiter sowie strategischer Innovationsleiter bei Mass General Brigham und Geschäftsführer des MESH Incubator.
„Es gibt keine wirklichen Benchmarks, aber wir schätzen, dass diese Leistung auf dem Niveau von jemandem liegt, der gerade sein Medizinstudium abgeschlossen hat, etwa einem Praktikanten oder Assistenzarzt. Dies zeigt uns, dass LLMs im Allgemeinen das Potenzial haben, ein ergänzendes Instrument für die zu sein.“ Praxis der Medizin und unterstützen die klinische Entscheidungsfindung mit beeindruckender Genauigkeit.
Die Veränderungen in der Technologie der künstlichen Intelligenz vollziehen sich rasant und verändern viele Branchen, darunter auch das Gesundheitswesen. Die Fähigkeit von LLMs, die gesamte klinische Versorgung abzudecken, wurde jedoch noch nicht untersucht.
In dieser umfassenden, fachbereichsübergreifenden Studie darüber, wie LLMs in der klinischen Beratung und Entscheidungsfindung eingesetzt werden könnten, testeten Succi und sein Team die Hypothese, dass ChatGPT in der Lage wäre, eine gesamte klinische Begegnung mit einem Patienten durchzuarbeiten und eine diagnostische Aufarbeitung zu empfehlen und zu entscheiden den klinischen Managementkurs absolvieren und schließlich die endgültige Diagnose stellen.
Die Studie wurde durchgeführt, indem aufeinanderfolgende Teile von 36 standardisierten, veröffentlichten klinischen Vignetten in ChatGPT eingefügt wurden. Das Tool wurde zunächst gebeten, eine Reihe möglicher oder differenzieller Diagnosen auf der Grundlage der anfänglichen Informationen des Patienten zu erstellen, darunter Alter, Geschlecht, Symptome und ob es sich bei dem Fall um einen Notfall handelte.
ChatGPT erhielt dann zusätzliche Informationen und wurde gebeten, Managemententscheidungen zu treffen und eine endgültige Diagnose zu stellen – wodurch der gesamte Prozess der Behandlung eines echten Patienten simuliert wurde.
Das Team verglich die Genauigkeit von ChatGPT in Bezug auf Differentialdiagnose, diagnostische Tests, endgültige Diagnose und Management in einem strukturierten Blindprozess, vergab Punkte für richtige Antworten und verwendete lineare Regressionen, um die Beziehung zwischen der Leistung von ChatGPT und den demografischen Informationen der Vignette zu bewerten.
Die Forscher fanden heraus, dass ChatGPT insgesamt eine Genauigkeit von etwa 72 % hatte und dass es bei der Erstellung einer endgültigen Diagnose mit einer Genauigkeit von 77 % am besten geeignet war. Am schlechtesten schnitt es bei der Erstellung von Differenzialdiagnosen ab, wo es nur eine Genauigkeit von 60 % aufwies. Bei klinischen Managemententscheidungen, etwa bei der Entscheidung, mit welchen Medikamenten der Patient behandelt werden sollte, nachdem die richtige Diagnose gestellt wurde, war die Genauigkeit nur zu 68 % gegeben.
Zu den weiteren bemerkenswerten Ergebnissen der Studie gehörte, dass die Antworten von ChatGPT keine geschlechtsspezifischen Vorurteile aufwiesen und dass die Gesamtleistung sowohl in der Grundversorgung als auch in der Notfallversorgung konstant war.
„ChatGPT hatte mit der Differentialdiagnose zu kämpfen, die das A und O der Medizin ist, wenn ein Arzt herausfinden muss, was zu tun ist“, sagte Succi. „Das ist wichtig, weil es uns zeigt, wo Ärzte wirklich Experten sind und den größten Mehrwert bieten – in den frühen Phasen der Patientenversorgung, in denen nur wenige Informationen präsentiert werden, wenn eine Liste möglicher Diagnosen benötigt wird.“
Die Autoren weisen darauf hin, dass weitere Benchmark-Forschung und regulatorische Leitlinien erforderlich sind, bevor Tools wie ChatGPT für die Integration in die klinische Versorgung in Betracht gezogen werden können. Als nächstes untersucht Succis Team, ob KI-Tools die Patientenversorgung und die Ergebnisse in den ressourcenbeschränkten Bereichen von Krankenhäusern verbessern können.
Das Aufkommen von Instrumenten der künstlichen Intelligenz im Gesundheitswesen war bahnbrechend und hat das Potenzial, das Kontinuum der Pflege positiv zu verändern. Als eines der besten integrierten akademischen Gesundheitssysteme und größten Innovationsunternehmen des Landes ist Mass General Brigham führend bei der Durchführung strenger Forschung zu neuen und aufkommenden Technologien, um die verantwortungsvolle Einbindung von KI in die Gesundheitsversorgung, die Personalunterstützung und die Verwaltungsprozesse zu unterstützen.
„Mass General Brigham sieht große Chancen, dass LLMs dazu beitragen, die Gesundheitsversorgung und die Erfahrung von Ärzten zu verbessern“, sagte Co-Autor Adam Landman, MD, MS, MIS, MHS, Chief Information Officer und Senior Vice President of Digital bei Mass General Brigham.
„Wir evaluieren derzeit LLM-Lösungen, die bei der klinischen Dokumentation helfen und Antworten auf Patientennachrichten entwerfen, wobei der Schwerpunkt auf dem Verständnis ihrer Genauigkeit, Zuverlässigkeit, Sicherheit und Gerechtigkeit liegt. Umfassende Studien wie diese sind erforderlich, bevor wir LLM-Tools in die klinische Versorgung integrieren.“
Mehr Informationen: A Rao et al., Bewertung des Nutzens von ChatGPT im gesamten klinischen Arbeitsablauf: Entwicklungs- und Benutzerfreundlichkeitsstudie, Zeitschrift für medizinische Internetforschung (2023). DOI: 10.2196/48659
Zeitschrifteninformationen: Zeitschrift für medizinische Internetforschung