chatgpt beantwortete offene Fragen zur Immunonkologie (IO) mit für Menschen lesbaren und reproduzierbaren Antworten. Dennoch wird eine Expertenbewertung der Genauigkeit weiterhin empfohlen. Diese Ergebnisse wurden veröffentlicht in Der Onkologe.

In den letzten Jahren wurden mehrere auf künstlicher Intelligenz (KI) basierende große Sprachmodelle (LLMs) erstellt. Diese Instrumente können bei der Aufklärung und Sensibilisierung von klinischem Nutzen sein.

Forscher der National Institutes of Health bewerteten die Fähigkeit von drei LMMs – ChatGPT-3.5, ChatGPT-4 und google Bard –, Fragen zur Immunonkologie zu beantworten. Sie erstellten 60 offene Fragen zu Mechanismen, Indikationen, Toxizitäten und Prognosen in der Immunonkologie.

Die Fragen wurden den LLMs im Juni 2023 vorgelegt und die Antworten wurden von zwei Experten unabhängig geprüft. Für jede Antwort wurden die Genauigkeit, Lesbarkeit und Relevanz der Antworten bewertet, sofern die Fragen beantwortet wurden und die Antwort über drei Abfragen hinweg reproduzierbar war.

ChatGPT-3.5 und ChatGPT-4 beantworteten 100 % der Fragen, Google Bard antwortete jedoch nur auf 53,3 % (P <.0001 strategisch nach dom beantwortete google bard mehr fragen zum mechanismus und zur prognose weniger indikation toxizit>

Die Reproduzierbarkeit über Abfragen hinweg wurde für ChatGPT-4 mit 95 %, für ChatGPT-3.5 mit 88,3 % und für Google Bard mit 50 % bewertet (P <.0001>

ChatGPT-3.5 und ChatGPT-4 haben einen signifikanten und klinisch bedeutsamen Nutzen als Entscheidungs- und Forschungshilfen in verschiedenen Teilbereichen von gezeigt [immuno-oncology], während Google Bard erhebliche Einschränkungen aufwies, insbesondere im Vergleich zu ChatGPT. Das Risiko ungenauer oder unvollständiger Antworten war jedoch in allen LLMs offensichtlich, was die Bedeutung einer von Experten durchgeführten Überprüfung der von diesen Technologien bereitgestellten Informationen unterstreicht.

Der Anteil der Antworten, die als völlig korrekt erachtet wurden, war bei ChatGPT-4 (75,4 %) am höchsten, gefolgt von Chat-GPT-3.5 (58,5 %) und Google Bard (43,8 %; P =.03).

Siehe auch  Der ChatGPT-Erfinder OpenAI wurde wegen Diebstahls privater Daten verklagt

Relevantere Antworten lieferte ChatGPT-3.5 (77,4 %), gefolgt von ChatGPT-4 (71,9 %) und Google Bard (43,8 %; P =.04).

Alle ChatGPT-4-Antworten wurden als lesbar bewertet. Die Lesbarkeit der ChatGPT-3.5-Antworten lag bei nahezu 98,1 %. Allerdings waren nur 87,5 % der Google Bard-Antworten lesbar (P =.02).

Die Übereinstimmung zwischen den beiden Gutachtern war für alle Ergebnisse hoch (κ-Bereich: 0,868–1).

Diese Studie wurde durch den Ausschluss anderer verfügbarer LLMs wie BingAI und Perplexity eingeschränkt.

„ChatGPT-3.5 und ChatGPT-4 haben einen signifikanten und klinisch bedeutsamen Nutzen als Entscheidungs- und Forschungshilfen in verschiedenen Teilbereichen von gezeigt [immuno-oncology]während Google Bard insbesondere im Vergleich zu ChatGPT erhebliche Einschränkungen aufwies“, schlussfolgerten die Studienautoren.

„Das Risiko ungenauer oder unvollständiger Antworten war jedoch in allen LLMs offensichtlich, was die Bedeutung einer von Experten durchgeführten Überprüfung der von diesen Technologien bereitgestellten Informationen unterstreicht.“

Dieser Artikel erschien ursprünglich am Onkologischer Pflegeberater

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein