Für diese Studie präsentierten Experten drei beliebte LLMs – GPT 3.5 und GPT-4 (die neuesten Versionen von OpenAIs chatgpt) und google Gemini (ehemals Bard) – mit 2.400 Brustbild-Radiologieberichten, die in drei verschiedenen Sprachen (Italienisch, Englisch und Niederländisch) verfasst wurden ). Die Modelle wurden damit beauftragt, BI-RADS-Kategorien anhand der aus diesen Berichten abgeleiteten Informationen zuzuweisen, die auf Ergebnissen von Mammographie-, MRT- und Ultraschalluntersuchungen basierten. Anschließend wurde die Leistung der Modelle mit der Leistung erfahrener Brustradiologen verglichen.
Sowohl die ursprünglich berichtenden Radiologen als auch die begutachtenden Leser verzeichneten eine nahezu perfekte Interreader-Übereinstimmung, während die LLMs eine mäßige Übereinstimmung mit den Originalberichten erreichten. Die Interpretationen der überprüfenden Radiologen führten dazu, dass die BI-RADS-Kategorien für etwa 5 % der Berichte entweder herauf- oder herabgestuft wurden, die drei LLMs änderten jedoch im Durchschnitt die Kategorien für fast 25 % der Berichte.
Bis zu 18 % der Kategorieneuzuweisungen der LLMs hätten sich negativ auf das klinische Befundmanagement ausgewirkt, wobei Bard die meisten Fehler verzeichnete, stellten die Autoren fest.
Obwohl sich diese Tools in zahlreichen Situationen als wertvoll erwiesen haben, auch wenn es um medizinische Informationen geht, müssen sie mit Vorsicht verwendet werden, schreiben die Autoren, insbesondere von Patienten und nichtradiologischen Anbietern, die möglicherweise eine zweite Meinung einholen.
„Diese Programme können für viele Aufgaben ein wunderbares Werkzeug sein, sollten aber mit Bedacht eingesetzt werden. Patienten müssen sich der inhärenten Mängel dieser Tools bewusst sein und wissen, dass sie auf komplexe Fragen möglicherweise unvollständige oder sogar völlig falsche Antworten erhalten.“
Die Zusammenfassung der Studie ist verfügbar Hier.