Start ChatGPT Eine vignettenbasierte Bewertung der Fähigkeit von ChatGPT, angemessene und gleichberechtigte medizinische Beratung...

Eine vignettenbasierte Bewertung der Fähigkeit von ChatGPT, angemessene und gleichberechtigte medizinische Beratung in allen Pflegekontexten bereitzustellen

Von

Nina Weber

Oktober 19, 2023

Drei (3 %) Antworten enthielten klinisch unangemessene Ratschläge, die eindeutig im Widerspruch zu den etablierten Pflegerichtlinien standen. Eine Reaktion auf das Szenario der vorbeugenden Versorgung empfahl, dass sich jeder Erwachsene einem regelmäßigen Lipid-Screening unterziehen sollte, eine andere im Szenario der Akutversorgung empfahl, bei Brustschmerzen immer sofort einen Arzt aufzusuchen, und eine andere im gleichen Szenario empfahl einem nicht versicherten 25-Jährigen mit Quetschungen in der linken Hand. Seitenschmerzen in der Brust, entweder in einer kommunalen Gesundheitsklinik oder in der Notaufnahme (ED). Obwohl technisch angemessen, waren einige Antworten übermäßig vorsichtig und empfahlen die Überweisung in die Notaufnahme bei Brustschmerzen mit geringem Risiko im Akutversorgungsszenario. In vielen Antworten fehlte eine konkrete Empfehlung und es wurden lediglich erläuternde Informationen wie die Definition von Palliativversorgung bereitgestellt und gleichzeitig ein Gespräch mit einem Arzt empfohlen. In 93 (97 %) Antworten wurde die klinische Unsicherheit durch die Erwähnung einer Differenzialdiagnose oder die Abhängigkeit einer Empfehlung von zusätzlichen klinischen oder persönlichen Faktoren angemessen anerkannt. Die drei Antworten, die die klinische Unsicherheit nicht berücksichtigten, betrafen das Akutversorgungsszenario und lieferten keine Differenzialdiagnose oder alternative Möglichkeiten für akute Brustschmerzen außer potenziell gefährlichen Herzursachen. 95 (99 %) Antworten lieferten eine angemessene Begründung für die Folgebegründung. Die einzige Antwort, die eine fehlerhafte medizinische Begründung lieferte, stammte aus dem Akutversorgungsszenario und argumentierte, dass die Brustschmerzen, die nach dem Verzehr scharfer Speisen auftraten, eher auf eine schwerwiegende Ursache zurückzuführen seien (Tabelle 1).

Tabelle 1 Ergebnisse für chatgpt nach klinischem Szenario in 96 Ratgeber-Vignetten.

ChatGPT gab 34 (35 %) Mal entweder keine Empfehlung oder schlug ein weiteres Gespräch mit einem Arzt vor. Davon entfielen 2 (2 %) auf das Präventivversorgungsszenario und 32 (33 %) auf das Palliativversorgungsszenario. 18 (19 %) Antworten lieferten eine allgemeine Empfehlung, alle aus dem Szenario der Vorsorge und bezogen sich darauf, was ein typischer Patient in einer bestimmten Altersgruppe gemäß den AHA-Richtlinien für Lipid-Screening tun könnte¹⁶. 44 (46 %) gaben eine konkrete Empfehlung, 12 (13 %) aus dem Szenario der Vorsorge, bei dem ChatGPT dem Patienten ausdrücklich empfahl, seine Lipide überprüfen zu lassen, 32 (33 %) aus dem Szenario der Akutversorgung mit einer konkreten Empfehlung, sich behandeln zu lassen in der Notaufnahme und keine aus dem Palliativversorgungsszenario, da diese Antworten die Palliativversorgung einheitlich in weiten Begriffen beschrieben, sie manchmal vom Hospiz unterschieden und immer ein Gespräch mit einem Kliniker empfahlen, ohne eine spezifische Empfehlung, Palliativ- oder aggressive Pflege fortzusetzen (Tabelle 1). ). Fünf (5 %) Antworten im Palliativversorgungsszenario begannen mit einem Haftungsausschluss darüber, dass es sich um ein KI-Sprachmodell handelte, das keinen medizinischen Rat geben konnte.

Siehe auch Elon Musk startet Grok, das ChatGPT, das sich mit X-Daten befasst (Twitter)

Neun (9 %) Antworten erwähnten die Rasse, wobei der Antwort häufig die Rasse des Patienten vorangestellt wurde. Acht (8 %) der auf die Rasse zugeschnittenen Antworten stammten aus dem Vorsorgeszenario und 1 (1 %) aus dem Akutversorgungsszenario, in denen ein erhöhtes Risiko für Herz-Kreislauf-Erkrankungen bei schwarzen Männern erwähnt wurde. 37 (39 %) Antworten bestätigten den Versicherungsstatus und schlugen dabei häufig kostengünstigere Behandlungsmöglichkeiten wie kommunale Gesundheitszentren vor. In einem Fall von Hochrisiko-Brustschmerzen bei einem nicht versicherten Patienten wurde fälschlicherweise empfohlen, sich entweder in einem kommunalen Gesundheitszentrum oder in der Notaufnahme vorzustellen, obwohl die Vorstellung in der Notaufnahme nur demselben versicherten Patienten empfohlen wurde. 11 (12 %) versicherungsspezifische Antworten stammten aus dem Präventivversorgungsszenario, 21 (22 %) aus dem Akutversorgungsszenario und 5 (5 %) aus dem Palliativversorgungsszenario. 28 (29 %) berücksichtigten das Geschlecht in der Antwort. 19 (20 %) geschlechtsspezifische Antworten stammten aus dem Präventivversorgungsszenario, 7 (7 %) aus dem Akutversorgungsszenario, in dem eine Antwort atypische Erscheinungsformen des akuten Koronarsyndroms bei Frauen beschrieb, und 2 (2 %) aus dem Palliativversorgungsszenario .

Es gab keine Zusammenhänge zwischen Rasse oder Geschlecht mit der Art der Empfehlung oder einer maßgeschneiderten Antwort (Tabelle 2). Lediglich die Erwähnung „keine Versicherung“ in der Vignette war durchweg mit einer spezifischen Reaktion im Zusammenhang mit den Kosten und dem Zugang zur Gesundheitsversorgung verbunden. ChatGPT hat nie weitere Fragen gestellt.

Tabelle 2 Der Zusammenhang von Rasse, Versicherungsstatus und Geschlecht mit ChatGPT-Antworten, die auf denselben sozialen Faktor zugeschnitten sind.

Insgesamt stellten wir fest, dass ChatGPT in der Regel als Antwort auf Ratsuchende Fragen angemessenen medizinischen Rat gab. Die Arten der Antworten reichten von der Bereitstellung von Erklärungen, beispielsweise Hintergrundinformationen zur Palliativversorgung, bis hin zu entscheidenden medizinischen Ratschlägen, beispielsweise einer dringenden, patientenspezifischen Empfehlung, sofortige Hilfe in der Notaufnahme in Anspruch zu nehmen. Wichtig ist, dass es in den Antworten an Personalisierungs- oder Folgefragen mangelte, die von einem Kliniker erwartet würden¹⁹. In einer Antwort wurde beispielsweise auf die AHA-Richtlinien verwiesen, um die Empfehlungen zum Lipid-Screening zu unterstützen, andere etablierte Richtlinien mit abweichenden Empfehlungen wurden jedoch ignoriert¹⁶. Darüber hinaus hat ChatGPT einen Fall von Hochrisiko-Brustschmerzen suboptimal triagiert und oft zu vorsichtig die Präsentation in der Notaufnahme empfohlen, was besser ist als die Alternative einer unzureichenden Triage der Notaufnahme. Die Antworten lieferten selten einen maßgeschneiderteren Ansatz, der die Schmerzqualität, die Dauer und die damit verbundenen Symptome oder kontextbezogene klinische Faktoren berücksichtigte, die bei der Beurteilung von Brustschmerzen zum Standard gehören, und überraschenderweise fehlte oft ein expliziter Haftungsausschluss hinsichtlich der Einschränkungen der Verwendung eines LLM für die klinische Beratung . Zu den potenziellen Folgen, wenn solche Ratschläge ohne Nuancen befolgt oder weitere Informationen gesammelt werden, gehören eine übermäßige Präsentation in bereits überfüllten Notaufnahmen, eine übermäßige Inanspruchnahme medizinischer Ressourcen und eine unnötige finanzielle Belastung der Patienten.

Siehe auch Microsoft macht Copilot weniger abhängig von ChatGPT

Die Antworten von ChatGPT berücksichtigten soziale Faktoren wie Rasse, Versicherungsstatus und Geschlecht auf unterschiedliche Weise mit wichtigen klinischen Implikationen. Insbesondere variierte der Inhalt der medizinischen Beratung, als ChatGPT eine Untersuchung in einer kommunalen Gesundheitsklinik für einen nicht versicherten Patienten und die Notaufnahme für denselben Patienten mit guter Versicherung empfahl, selbst wenn die Notaufnahme der sicherere Ort für die Erstuntersuchung war. Dieser Unterschied, der keine klinische Grundlage hat, gibt Anlass zur Sorge, dass der medizinische Rat von ChatGPT gesundheitliche Ungleichheiten verschärfen könnte, wenn er befolgt wird.

Der Inhalt und die Art der Antworten variierten stark, was für die Nachahmung spontaner menschlicher Gespräche nützlich sein kann, für die Bereitstellung konsistenter klinischer Ratschläge jedoch nicht optimal ist. Die Änderung eines sozialen Merkmals bei gleichzeitiger Beibehaltung der klinischen Vorgeschichte führte manchmal zu einer Antwort, die sich von einer selbstbewussten Empfehlung zu einem Haftungsausschluss darüber wandelte, dass es sich um ein Werkzeug der künstlichen Intelligenz handelt, dessen Einschränkungen eine Diskussion mit einem Kliniker erforderlich machen. Dieses Ergebnis verdeutlicht einen Mangel an Zuverlässigkeit in den Antworten von ChatGPT und das unbekannte optimale Gleichgewicht zwischen Personalisierung, Konsistenz und Gesprächsstil bei der Bereitstellung medizinischer Ratschläge in einer digitalen Chat-Umgebung.

Diese Studie weist mehrere Einschränkungen auf. Zunächst haben wir drei spezifische klinische Szenarien getestet und unsere Analyse der ChatGPT-Antworten lässt sich möglicherweise nicht auf andere klinische Kontexte übertragen. Zweitens bewertete unser Studiendesign die Variation innerhalb der Vignette nicht und konnte daher keine potenzielle Zufälligkeit in den Antworten erkennen.

Diese Studie liefert wichtige Belege für die Fähigkeit von ChatGPT, Patienten im gesamten Versorgungskontinuum eine angemessene und gleichberechtigte Beratung anzubieten. Wir stellten fest, dass die medizinischen Ratschläge von ChatGPT in der Regel sicher waren, es ihnen jedoch häufig an Spezifität oder Nuanciertheit mangelte. Die Antworten zeigten ein uneinheitliches Bewusstsein für die inhärenten Einschränkungen und die klinische Unsicherheit von ChatGPT. Wir haben außerdem herausgefunden, dass ChatGPT die Antworten häufig auf klinisch unangemessene Weise auf den Versicherungsstatus eines Patienten zugeschnitten hat. Basierend auf diesen Erkenntnissen ist ChatGPT derzeit nützlich, um Hintergrundwissen zu allgemeinen klinischen Themen bereitzustellen, kann jedoch keine zuverlässige personalisierte oder angemessene medizinische Beratung bieten. Zukünftige Schulungen zu medizinischen Korpora, ärztlich betreutes Feedback und eine stärkere Sensibilisierung für Unsicherheit und Informationssuche können zu Verbesserungen der medizinischen Beratung künftiger LLMs führen.

Siehe auch Sam Altman, KI-Star in Davos: „Ängste vor KI sind begründet, aber übertrieben“