Forscher haben herausgefunden, dass Chat GPT-4 GPT-3.5 bei der Erstellung strukturierter, zusammengefasster Radiologieberichte zum duktalen Pankreasadenokarzinom (PDAC) überlegen ist.
Die Studienergebnisse seien eine gute Nachricht für Ärzte und Patienten, da das KI-Tool die Entscheidungsfindung bei Operationen verbessern könne, stellte ein Team unter der Leitung von Dr. Rajesh Bhayana von der Universität Toronto in Kanada in einem am 18. Juni veröffentlichten Artikel in Radiologie.
„[We found that] GPT-4 hat aus Originalberichten nahezu perfekte synoptische PDAC-Berichte erstellt … [that] GPT-4 mit Gedankenkette erreichte eine hohe Genauigkeit bei der Kategorisierung der Resektabilität … [and that] Chirurgen waren präziser und effizienter [when they used] KI-generierte Berichte“, schrieb die Gruppe.
Die Bildgebung ist der Schlüssel zur Bestimmung, welche Pankreastumoren für eine Operation in Frage kommen und welche nicht, erklärten Bhayana und Kollegen. Aber im Vergleich zu Freitextbeschreibungen aus Bildgebungsberichten „verbessern strukturierte Pankreas-CT-Berichte die Kommunikation zwischen Radiologen und Chirurgen und verbessern die Operationsplanung und Entscheidungsfindung“, schrieb das Team und stellte weiter fest, dass „die Übernahme strukturierter Berichte bei Bauchspeicheldrüsenkrebs durch Radiologen inkonsistent ist, die Kriterien für die Resektabilität heterogen angewendet werden und die Tumorkategorisierung unterschiedlich angegeben wird.“
Um zu beurteilen, ob die Verwendung großer Sprachmodelle (LLMs) diese Inkonsistenz abmildern könnte, verglichen die Forscher die Fähigkeit von GPT-3.5 und Chat GPT-4, automatisch PDAC-Berichte aus ursprünglichen CT-Bildgebungsberichten zu erstellen. Ihre Studie umfasste 180 aufeinanderfolgende PDAC-Staging-CT-Berichte von Patienten, die von Januar bis Dezember 2018 an das Princess Margaret Cancer Centre in Toronto überwiesen wurden.
Zwei Radiologen überprüften die PDAC-Berichte und legten einen Referenzstandard für 14 Schlüsselmerkmale und für die Resektabilitätskategorie des National Comprehensive Cancer Network (NCCN) fest. (Zu den Schlüsselmerkmalen gehörten unter anderem Tumorlokalisation, Tumorgröße, Pankreasgang, Gallengänge, Zöliakie, Arteria mesenterica superior, Arteria hepatica communis, Aorta, große Venen, Lymphknoten und Metastasen.) Anschließend bewerteten die Forscher die Leistung von chatgpt-3.5 und ChatGPT-4 hinsichtlich Trefferquote, Präzision und F1-Score (der einen Durchschnitt aus Präzision und Trefferquote angibt, wobei der beste Wert 1 und der schlechteste 0 beträgt). Darüber hinaus beurteilten hepatopankreatikobiliäre Chirurgen sowohl die ursprünglichen als auch die KI-generierten Berichte, um die PDAC-Resektabilität zu bestimmen, wobei sie Genauigkeit und Überprüfungszeit verglichen.
Die Gruppe stellte fest, dass GPT-4 im Vergleich zu GPT-3.5 für alle 14 extrahierten Merkmale gleiche oder höhere F1-Werte erzielte und bei der Kategorisierung der Resektabilität GPT-3.5 für jede Eingabeaufforderungsstrategie (d. h. Gedankenkette, Wissen) übertraf, wobei die Eingabeaufforderung der Gedankenkette am genauesten war. ChatGPT-4 reduzierte den Zeitaufwand der Chirurgen für jeden Bericht um 58 %.
Bhayanas Team berichtete außerdem Folgendes:
Vergleich von ChatGPT-3.5 mit ChatGPT-4 für die PDAC-Radiologie | ||
---|---|---|
Messen | ChatGPT-3.5 | ChatGPT-4 |
F1-Score, Erstellung von zusammenfassenden Berichten | 0,97 | 0,99 |
Präzision, Identifizierung der Tumorlokalisation | 99,4 % | 100% |
Genauigkeit der Chirurgen bei der Kategorisierung der Resektabilität anhand von KI-Berichten im Vergleich zu Originalberichten | 76 % | 83 % |
„Unsere Studie zeigt eine sinnvolle Anwendung von großen Sprachmodellen (LLMs) in der Behandlung von Bauchspeicheldrüsenkrebs, die die Standardisierung erhöhen, die Kommunikation verbessern und die Effizienz und Qualität der Berichtsüberprüfung durch Chirurgen steigern kann“, schlussfolgerten die Autoren.
Die Forschung untermauert „die optimistische Ansicht, dass KI, insbesondere generative KI, ein wichtiger Wegbereiter für die dringend benötigten Verbesserungen der Effizienz und des Wertes im gesamten radiologischen Arbeitsablauf sein wird“, schrieb Dr. Paul Chang von der University of Chicago School of Medicine. in einem Kommentar die die Studie begleiteten. Aber es bleibt noch viel zu tun.
„Eine ernüchternde Realität muss anerkannt werden: Es gibt … [a] Lücke zwischen vielversprechender Machbarkeit und der Bereitstellung operativer Lösungen“, bemerkte Chang. „Wie können wir beispielsweise diese vielversprechende KI-gestützte Fähigkeit am besten in eine skalierbare und umfassende Workflow-Orchestrierung integrieren? Eine solche Lösung müsste in der Lage sein, das entsprechende nachgelagerte Produkt auf verallgemeinerbare und kontextbezogene Weise zu generieren.“
Die vollständige Studie finden Sie Hier.