Laut einer am 12. März veröffentlichten Studie könnten große Sprachmodelle, die mit Bild-zu-Text-Ansätzen integriert sind, möglicherweise die diagnostische Interpretation von Schilddrüsenultraschall verbessern Radiologie.
Ein Team unter der Leitung von Li-Da Chen, MD, PhD, vom First Affiliated Hospital der Sun Yat-sen University in Guangzhou stellte fest, dass chatgpt 4.0 im Vergleich zu google Bard und ChatGPT 3.5 die höchste Konsistenz und Diagnosegenauigkeit aufwies, wenn es um die Interpretation von Ultraschall ging Bilder von Schilddrüsenknoten. Außerdem zeigte die Bild-zu-Text-Strategie für große Sprachmodelle eine vergleichbare Leistung wie die menschliche Interaktion mit großen Sprachmodellen, an der zwei ältere Leser und ein jüngerer Leser beteiligt waren.
„Die Ergebnisse deuten darauf hin, dass die Kombination von Bild-zu-Text-Modellen und großen Sprachmodellen die medizinische Bildgebungs- und Diagnostikforschung und -praxis voranbringen und einen sicheren Einsatz für eine verbesserte klinische Entscheidungsfindung ermöglichen könnte“, schrieb das Chen-Team.
Während frühere Studien das Potenzial großer Sprachmodelle bei der Interpretation medizinischer Bildgebung untersucht haben, stellten die Forscher fest, dass es an Studien mangelt, die die Machbarkeit der Modelle bei der Behandlung von Argumentationsfragen im Zusammenhang mit der medizinischen Diagnose untersuchen.
Chen und Kollegen untersuchten die Machbarkeit der Nutzung von drei öffentlich verfügbaren Modellen in diesem Bereich: ChatGPT 4.0, ChatGPT 3.5 und Bard. Die Forscher untersuchten, wie die Modelle die Konsistenz und diagnostische Genauigkeit in der medizinischen Bildgebung auf der Grundlage standardisierter Berichte verbessern könnten, wobei die Pathologie als Referenzstandard dient.
Die Studie umfasste im Jahr 2022 gesammelte Daten aus 1.161 Ultraschallbildern von Schilddrüsenknoten von 725 Patienten. Von den gesamten Knoten waren 498 gutartig und 663 bösartig.
ChatGPT 4.0 und Bard erzielten eine erhebliche bis nahezu perfekte Übereinstimmung innerhalb großer Sprachmodelle (κ-Bereich, 0,65–0,86), während ChatGPT 3.5 eine angemessene bis erhebliche Übereinstimmung zeigte (κ-Bereich, 0,36–0,68).
Die Forscher fanden heraus, dass ChatGPT 4.0 eine Genauigkeit von 78 % bis 86 % und eine Sensitivität von 86 % bis 95 % erreichte, verglichen mit 74 % bis 86 % bzw. 74 % bis 91 % für Bard.
Das Team verglich in seiner Studie auch drei Modellbereitstellungsstrategien: Interaktion zwischen Mensch und großem Sprachmodell, bei der menschliche Leser zunächst Bilder interpretierten und dann das große Sprachmodell eine Diagnose basierend auf den vom menschlichen Leser aufgezeichneten TI-RADS-Zeichen lieferte; Bild-zu-Text-Modell, bei dem auf ein Bild-zu-Text-Modell zur Bildanalyse eine Diagnose mit einem großen Sprachmodell folgte; und ein durchgängiges Convolutional Neural Network (CNN)-Modell für die Bildanalyse und Diagnose.
Durch die Bild-zu-Text-Strategie des großen Sprachmodells erreichte ChatGPT 4.0 eine Fläche unter der Kurve (AUC), die mit der der Radiologen in der Interaktionsstrategie Mensch-großes Sprachmodell entweder übereinstimmte oder diese übertraf. Und während die CNN-Strategie ChatGPT 4.0 in den meisten Bereichen übertraf, erreichten beide den gleichen Sensitivitätswert.
Leistung von ChatGPT 4.0 in der Bild-zu-Text-Strategie im Vergleich zu Lesern in der menschlichen Großsprachenmodell-Strategie | ||||||
---|---|---|---|---|---|---|
Junior-Leser 1 (Mensch-Modell-Strategie) | Junior Reader 2 (Human-Model-Strategie) | Älterer Leser 1 (Human-Model-Strategie) | Senior-Leser 2 (Human-Model-Strategie) | Faltungs-Neuronales Netzwerk | ChatGPT 4.0 | |
AUC | 0,82 | 0,76 | 0,84 | 0,85 | 0,88 | 0,83 |
Genauigkeit | 82 % | 78 % | 85 % | 86 % | 89 % | 84 % |
Empfindlichkeit | 86 % | 93 % | 91 % | 92 % | 95 % | 95 % |
Spezifität | 78 % | 59 % | 77 % | 78 % | 81 % | 71 % |
Die Autoren der Studie betonten, dass ihre Ergebnisse die Machbarkeit großer Sprachmodelle bei der Beantwortung von Argumentationsfragen im Zusammenhang mit der medizinischen Diagnose bestätigen, indem sie pathologische Befunde innerhalb der strukturierten, auf Ultraschallbildgebung basierenden Diagnose als Referenzstandard verwenden.
„Interessanterweise umfassen Sprachkünste sowohl emotionale Intelligenz als auch Intelligenzquotienten“, schrieben die Autoren. „Dies deutet darauf hin, dass große Sprachmodelle über eine stabile und überlegene emotionale Intelligenz verfügen, was sie potenziell hilfreich für die Förderung der Patientengerechtigkeit macht.“
Dennoch warnten sie davor, dass große Sprachmodelle Bilder nicht selbst interpretieren können und sich auf Bild-zu-Text-Techniken oder menschliche Interpretation verlassen, um Textbeschreibungen von Bildmerkmalen bereitzustellen. Unter Berufung auf die Leistung von Senior Reader 2 in der Studie betonten die Autoren außerdem, dass das Fachwissen von Radiologen trotz der Fortschritte in der KI immer noch unverzichtbar sei.
„Weitere Forschung ist erforderlich, um die Anwendbarkeit auf verschiedene Modelle, Techniken und medizinische Bildtypen zu untersuchen“, schrieben sie.
Die vollständige Studie finden Sie hier Hier.