Große Sprachmodelle (LLMs) sind auf neuronalen Netzwerken basierende Computerprogramme, die ein detailliertes statistisches Verständnis der geschriebenen Sprache nutzen, um viele Aufgaben auszuführen, darunter Textgenerierung, Zusammenfassung, Softwareentwicklung und Vorhersage. LLMs können jedoch Texte produzieren, die zwar korrekt erscheinen, aber nicht auf Fakten basieren. Diese Studie untersucht, ob ein beliebtes LLM, chatgpt-3.5, qualitativ hochwertige, genaue und voreingenommene Zusammenfassungen medizinischer Forschungszusammenfassungen erstellen und die Relevanz verschiedener Zeitschriften und ihrer Artikel für verschiedene medizinische Fachgebiete bestimmen kann. Zehn im Jahr 2022 veröffentlichte Artikel (von ChatGPT noch nicht „gesehen“, da ChatGPT vor 2022 auf Daten trainiert wurde) wurden zufällig aus jeder der 14 ausgewählten Zeitschriften ausgewählt. ChatGPT wurde dann aufgefordert, die Zusammenfassung zusammenzufassen, über die Qualität, Genauigkeit und Voreingenommenheit seiner eigenen Zusammenfassungen „selbst zu reflektieren“ und seine Leistung bei der Klassifizierung der Relevanz von Artikeln und Zeitschriften für verschiedene Bereiche der Medizin (Kardiologie, Lungenmedizin, Familienmedizin, Innere Medizin, öffentliche Gesundheit, Grundversorgung, Neurologie, Psychiatrie, Geburtshilfe und Gynäkologie sowie allgemeine Chirurgie).

Die Qualität der Zusammenfassungen sowie die relevante Einordnung der Zeitschrift und des Artikels in das medizinische Fachgebiet wurden ebenfalls von Humanärzten beurteilt. Die Ergebnisse umfassen insgesamt 140 Abstract-Zusammenfassungen aus 14 Zeitschriften. ChatGPT erstellte Zusammenfassungen, die 70 % kürzer waren als die Abstracts. Die Zusammenfassungen wurden sowohl von ChatGPT als auch von ärztlichen Gutachtern als hohe Qualität, hohe Genauigkeit und geringe Verzerrung bewertet. Nur in vier der 140 Zusammenfassungen traten gravierende Ungenauigkeiten auf. In 20 von 140 Artikeln wurden geringfügige Ungenauigkeiten festgestellt, die größtenteils auf die Einführung von Mehrdeutigkeiten in der Bedeutung oder die Zusammenfassung von Details zurückzuführen waren, die zusätzlichen Inhalt geliefert hätten, die Bedeutung jedoch nicht vollständig geändert hätten. ChatGPT war in der Lage, Zeitschriften relevanten medizinischen Fachgebieten zuzuordnen, war jedoch weitaus weniger in der Lage, bestimmte Artikel relevanten medizinischen Fachgebieten zuzuordnen. Es wurde festgestellt, dass die Zusammenfassungen seltene, aber wichtige Ungenauigkeiten aufwiesen, die sie nicht als definitive Quelle der Wahrheit betrachten konnten.

Siehe auch  Fargo Library veranstaltet Podiumsdiskussion zu ChatGPT und KI

Was wir wissen: Die Verfügbarkeit medizinischen Wissens nimmt zu. Allerdings haben Kliniker aufgrund der Anforderungen ihrer Arbeit kaum Zeit, wissenschaftliche Literatur zu prüfen, selbst innerhalb ihres eigenen Fachgebiets. Große Sprachmodelle (z. B. ChatGPT) könnten hilfreich sein und Zeit sparen, sie sind jedoch nicht immer genau, da sie Vorurteile aus ihren Trainingsmodellen und das menschliche Feedback einbeziehen können, das ihr Lernen verstärkt, und manchmal auch Informationen enthalten, die nicht auf Fakten basieren.

Was diese Studie hinzufügt: Ärzte werden dringend davor gewarnt, sich ausschließlich auf ChatGPT-basierte Zusammenfassungen zu verlassen, um Studienmethoden und Studienergebnisse zu verstehen, insbesondere in Situationen mit hohem Risiko. Kritische medizinische Entscheidungen sollten – aus offensichtlichen Gründen – weiterhin auf einer vollständigen Auswertung des vollständigen Textes der Artikel im Kontext mit verfügbaren Erkenntnissen aus Metaanalysen und professionellen Leitlinien basieren. Diese Studie legt jedoch nahe, dass ChatGPT als Screening-Tool nützlich sein kann, um vielbeschäftigten Klinikern und Wissenschaftlern dabei zu helfen, schneller zu beurteilen, ob sich eine weitere Durchsicht eines Artikels wahrscheinlich lohnt.

Qualität, Genauigkeit und Bias bei der ChatGPT-basierten Zusammenfassung medizinischer Abstracts

Daniel J. Parente, MD, PhD, et al

Abteilung für Familienmedizin und Gemeindegesundheit, University of Kansas Medical Center, Kansas City, Kansas

VOR-EMBARGO-LINK (Link läuft am 25. März 2024 um 17:00 Uhr EDT ab)

PERMANENTER LINK

/Öffentliche Freigabe. Dieses Material der ursprünglichen Organisation/des/der ursprünglichen Autor(en) kann zeitpunktbezogenes Material sein und im Hinblick auf Klarheit, Stil und Länge bearbeitet werden. Mirage.News vertritt keine institutionellen Positionen oder Partei und alle hier geäußerten Ansichten, Positionen und Schlussfolgerungen sind ausschließlich die des Autors/der Autoren. Vollständig hier ansehen.

Siehe auch  Dieses ChatGPT (10 Eingabeaufforderungen) macht Sie produktiver | von GGR | Dez. 2023

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein