Obwohl chatgpt größtenteils genau ist und im Laufe der Zeit und über Versionen hinweg deutliche Verbesserungen zeigt, ist bei der Verwendung von ChatGPT als Tool zur klinischen Entscheidungsunterstützung dennoch Vorsicht geboten, so die Autoren einer Querschnittsstudie.

In einer Analyse von fast 300 medizinischen Fragen, die von 33 Ärzten aus 17 Fachgebieten an ChatGPT gestellt wurden, betrug der mittlere Genauigkeitswert 5,5 (IQR 4,0–6,0) auf einer 6-Punkte-Likert-Skala, was als nahezu vollständig und vollständig korrekt eingestuft wurde , berichteten Douglas B. Johnson, MD, MSCI, vom Vanderbilt University Medical Center in Nashville, Tennessee, und Co-Autoren.

Allerdings war der durchschnittliche Genauigkeitswert des Chatbots mit 4,8 viel niedriger, was die mehrfachen Fälle widerspiegelte, in denen ChatGPT „spektakulär und überraschend falsch“ lag, wie sie feststellten JAMA-Netzwerk geöffnet.

Der mittlere Vollständigkeitswert betrug 3,0 (IQR 2,0–3,0) auf einer 3-Punkte-Likert-Skala, was darauf hinweist, dass ChatGPT „vollständig und umfassend“ war, und der mittlere Vollständigkeitswert betrug 2,5.

Der Trend bei den Unterschieden zwischen Median- und Durchschnittswerten sei in der gesamten Analyse konsistent gewesen, sagten Johnson und sein Team, und die Ungenauigkeiten und Halluzinationen in ihrer Analyse legten nahe, dass keine der Versionen von ChatGPT (3.5 und 4) ausschließlich für die Verbreitung medizinischen Wissens herangezogen werden sollte.

„Unsere wichtigste Erkenntnis ist, dass sie insgesamt nicht perfekt waren und man sich daher keinesfalls auf sie als alleinige Quelle verlassen sollte“, sagte Johnson MedPage heute. „Aber sie lieferten insgesamt relativ vollständige und genaue Informationen, und interessanterweise haben sich diese mit der Zeit verbessert.“

„Die Tatsache, dass es sich ziemlich schnell verbessern konnte, ist sicherlich ermutigend, dass es irgendwann in der Zukunft möglicherweise absolut zuverlässiger werden könnte“, fügte er hinzu.

Siehe auch  IB3-Neuigkeiten | Von „Roboterrichtern“ bis zu den rechtlichen Fehlern von ChatGPT

Die Autoren stellten außerdem fest, dass die Genauigkeit des Chatbots bei Fragen unterschiedlicher Schwierigkeit (einfach, mittel und schwer) ähnlich war, gemessen an den mittleren Genauigkeitswerten (P=0,05):

  • 6,0 (IQR 5,0-6,0) bei einfachen Fragen
  • 5,5 (IQR 5,0-6,0) bei mittleren Fragen
  • 5,0 (IQR 4,0-6,0) bei schwierigen Fragen

Ebenso schnitt der Chatbot sowohl bei Multiple-Choice-Fragen (Medianwert 6,0, IQR 4,0–6,0) als auch bei beschreibenden Fragen (Medianwert 5,0, IQR 3,4–6,0) gut ab.

Die Autoren testeten den Chatbot 8 bis 17 Tage später erneut anhand von 36 Fragen, wobei die Ergebnisse Ungenauigkeiten anzeigten, und stellten eine wesentliche Verbesserung fest (mittlerer Wert 2,0 vs. 4,0; P

Sie testeten auch eine Teilmenge der Fragen erneut, unabhängig von den anfänglichen Bewertungen mit Version 3.5, unter Verwendung von Version 4 und stellten erneut eine Verbesserung fest (durchschnittliche Genauigkeitsbewertung 5,2 vs. 5,7; mittlere Bewertung 6,0). [IQR 5.0-6.0] für Original und 6.0 [IQR 6.0-6.0] für neu gewertet; P=0,002).

Johnson sagte jedoch, ChatGPT müsse die „ungeheuerliche“ Halluzination vollständig stoppen, bevor es als vertrauenswürdiges klinisches Instrument eingesetzt werden könne.

„Wenn in einem von 1.000 Fällen etwas nicht stimmt, kann das ein ausreichend guter Schwellenwert sein, sodass der Nutzen das Risiko überwiegt“, sagte er. „Wenn es auch nur in einem von 100 Fällen zu einer ungeheuerlichen Halluzination kommt, sollten Sie sehr, sehr vorsichtig sein und jeden Rat befolgen.“

Johnson wies darauf hin, dass ChatGPT am besten als Informationsquelle oder kreatives Tool zum Brainstorming rund um eine schwierige Behandlungsentscheidung genutzt werden könne, ähnlich einer google-Suche.

„Zu diesem Zeitpunkt sind sie möglicherweise als Ergänzung zu vertrauenswürdigeren Quellen nützlich“, fügte er hinzu.

Siehe auch  Das Tesla Model Y profitiert von einem Update, ChatGPT führt seine Kryptowährung ein: Hier ist die Zusammenfassung

Für diese Analyse rekrutierten die Forscher 33 Ärzte aus 17 medizinischen, chirurgischen und pädiatrischen Fachgebieten. Insgesamt waren 31 Befragte Lehrkräfte und zwei Bewohner des Vanderbilt University Medical Center. Ärzte wurden gebeten, sechs fachspezifische medizinische Fragen mit klaren und unumstrittenen Antworten aus verfügbaren medizinischen Leitlinien zu erstellen, die spätestens Anfang 2021 datiert sind – dem Stichtag für Version 3.5 von ChatGPT zum Zeitpunkt der Analyse.

Johnson und sein Team erstellten außerdem 60 medizinische Fragen zu 10 häufigen Erkrankungen. Insgesamt testeten sie zunächst 284 Fragen zu ChatGPT Version 3.5 und 44 Fragen zu ChatGPT Version 4 erneut.

„Trotz vielversprechender Ergebnisse ist der Umfang unserer Schlussfolgerungen aufgrund der bescheidenen Stichprobengröße, der Analyse an einem einzigen Zentrum und des Datensatzes mit 284 von 33 Ärzten erstellten Fragen, der möglicherweise nicht für alle medizinischen Fachgebiete repräsentativ ist, und der vielen gestellten Fragen begrenzt.“ in ihnen“, schrieben sie.

  • Michael DePeau-Wilson ist Reporter im Unternehmens- und Ermittlungsteam von MedPage Today. Er behandelt unter anderem Psychiatrie, Long-Covid und Infektionskrankheiten sowie andere relevante klinische Nachrichten aus den USA. Folgen

Offenlegung

Diese Studie wurde von zahlreichen Quellen unterstützt, darunter dem NIH, dem National Institute of Diabetes and Digestive and Kidney Diseases, dem US Department of Veterans Affairs Clinical Sciences R&D Service und dem National Cancer Institute.

Johnson berichtete, Zuschüsse von Bristol Myers Squibb und Incyte erhalten zu haben und Mitglied der Beiräte von Bristol Myers Squibb, Catalyst, Merck, Iovance, Novartis und Pfizer zu sein.

Co-Autoren berichteten von mehreren Beziehungen zu Regierungsstellen, Stiftungen und der Industrie.

Bitte aktivieren Sie JavaScript, um das anzuzeigen Kommentare unterstützt von Disqus.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein