Laut einer am 24. April veröffentlichten Studie ist chatgpt-4 keine zuverlässige Quelle für die Beantwortung von Patientenfragen zu Krebs Die Lancet Digital Health gefunden.
Forscher unter der Leitung von Danielle Bitterman, MD, von Mass General Brigham in Boston, MA, fanden heraus, dass ChatGPT-4 in 58 % der Fälle akzeptable Nachrichten an Patienten ohne zusätzliche Bearbeitung durch Radioonkologen generierte und 7 % der von GPT-4 generierten Antworten wurden von den Radioonkologen als unsicher eingestuft, wenn sie unbearbeitet blieben.
„Wenn man die kollektiven Beweise als Ganzes betrachtet, würde ich generative KI für Patientennachrichten in ihrem aktuellen Stadium immer noch als experimentell betrachten“, sagte Bitterman AuntMinnie.com. „Es ist noch nicht klar, ob diese Modelle bei der Behandlung von Burn-out bei Ärzten wirksam sind, und es sind weitere Arbeiten erforderlich, um die Sicherheit festzustellen, wenn sie wie bei einem Human-in-the-Loop eingesetzt werden.“
Medizinische Fachgebiete, darunter Radiologie und Radioonkologie, erforschen weiterhin das Potenzial großer Sprachmodelle wie ChatGPT. Befürworter der Technologie sagen, dass ChatGPT und andere derartige Modelle dazu beitragen könnten, die Verwaltungs- und Dokumentationspflichten zu verringern, was wiederum das Burnout bei Ärzten lindern könnte.
Die Forscher stellten fest, dass Anbieter elektronischer Gesundheitsakten (EHR) generative KI-Algorithmen eingeführt haben, um Ärzte beim Verfassen von Nachrichten an Patienten zu unterstützen. Sie wiesen jedoch auch darauf hin, dass die Effizienz, Sicherheit und klinischen Auswirkungen ihres Einsatzes nicht genau bekannt seien.
Bitterman und Kollegen nutzten GPT-4, um 100 Szenarien über Krebspatienten und eine begleitende Patientenfrage zu erstellen. Für die Studie wurden keine Fragen von tatsächlichen Patienten verwendet. Sechs Radioonkologen beantworteten die Fragen manuell, während GPT-4 Antworten auf die Fragen generierte.
Anschließend stellten die Forscher denselben Radioonkologen die GPT-generierten Antworten zur Überprüfung und Bearbeitung zur Verfügung. Die Radioonkologen wussten nicht, ob GPT-4 oder ein Mensch die Antworten geschrieben hatte. In 31 % der Fälle glaubten die Radioonkologen, dass eine GPT-generierte Antwort von einem Menschen geschrieben worden sei.
Die Studie ergab, dass die vom Arzt verfassten Antworten im Durchschnitt kürzer waren als die vom GPT generierten Antworten. GPT-4 beinhaltete auch mehr Bildungshintergrund für Patienten, gab jedoch nicht so viele richtungsweisende Anweisungen.
Die Ärzte berichteten, dass die GPT-Unterstützung ihre wahrgenommene Effizienz verbesserte und die generierten Antworten in 82,1 % der Fälle als sicher erachteten. Sie gaben außerdem an, dass die generierten Antworten in 58,3 % der Fälle ohne weitere Bearbeitung an einen Patienten gesendet werden konnten.
Wenn sie jedoch unbearbeitet bleiben, könnten 7,1 % der GPT-generierten Antworten ein Risiko für Patienten darstellen und 0,6 % der Antworten könnten ein Todesrisiko darstellen. Die Forscher betonten, dass dies häufig darauf zurückzuführen sei, dass die Reaktionen von GPT-4 die Patienten nicht dringend dazu aufforderten, sofort einen Arzt aufzusuchen.
Schließlich berichtete das Team, dass von Ärzten bearbeitete GPT-generierte Antworten in Länge und Inhalt eher den GPT-generierten Antworten ähnelten als den manuellen Antworten.
Bitterman sagte, dass die GPT-unterstützten Antworten den Entwurfsantworten des großen Sprachmodells ähnelten, den Antworten, die von GPT-4 vor der Bearbeitung generiert wurden. Dies deutet darauf hin, dass Ärzte möglicherweise die Argumentation in großen Sprachen übernehmen, was das Risiko modellgestützter Nachrichtenübermittlung erhöht und sich auf die klinische Empfehlung auswirkt, fügte sie hinzu.
„Dies unterstreicht die Notwendigkeit mehrstufiger Ansätze zur Bewertung und Sicherheit, die sich mit dem großen Sprachmodell selbst, dem damit interagierenden Menschen und dem System Mensch-großes Sprachmodell als Ganzes befassen“, sagte Bitterman.
Sie sagte AuntMinnie.com dass der nächste Schritt darin besteht, mit Patienten zusammenzuarbeiten, um ihre Wahrnehmung der großen Sprachmodelle, die in ihrer Pflege auf diese Weise verwendet werden, zu verstehen und ihre Meinungen zu den unterschiedlichen Reaktionen zu verstehen.
„Wir untersuchen auch, wie sich Vorurteile in großen Sprachmodellen auf die Sicherheit und Qualität ihrer Antworten auswirken“, sagte Bitterman.
Die vollständige Studie finden Sie hier Hier.