In der möglicherweise ersten Studie, die den Einsatz großer Sprachmodelle in mehreren Bereichen des klinischen Screenings vergleicht, schlugen die Forscher vor, dass chatgpt-4 und Bard eine nützliche Rolle bei der radiologischen Entscheidungsfindung bei der Beurteilung häufiger Krebsarten wie Brustkrebs spielen könnten Lungenkrebs.
Für die Studie, kürzlich veröffentlicht in Akademische RadiologieForscher untersuchten den Einsatz von Prompt Engineering, um die Genauigkeit der großen Sprachmodelle im Zusammenhang mit der angemessenen Verwendung der Bildgebung bei Erkrankungen wie Brustkrebs, Eierstockkrebs, Darmkrebs und Lungenkrebs zu verbessern.
Mithilfe der Angemessenheitskriterien des American College of Radiology (ACR) verglichen die Forscher die Leistung von ChatGPT-4 (OpenAI) und Bard (google) mit offenen Eingabeaufforderungen (OE) und spezifischeren Eingabeaufforderungen „Alles Zutreffende auswählen“ (SATA).
Beim Brustkrebs-Screening stellten die Forscher bei beiden Eingabeaufforderungen eine ziemlich ähnliche Genauigkeit zwischen ChatGPT-4 und Bard fest. ChatGPT-4 hatte einen durchschnittlichen OE-Prompt-Score von 1,82 (von 2) im Vergleich zu 1,89 für Bard. Laut den Studienautoren zeigte Bard eine Genauigkeit von 82 Prozent mit SATA-Eingabeaufforderungen bei der Brustkrebsvorsorge und ChatGPT-4 bot eine Genauigkeit von 85 Prozent.
„Wir haben beobachtet, dass ChatGPT-4 und Google Bard eine beeindruckende Genauigkeit beim Treffen radiologischer klinischer Entscheidungen zeigten, wenn sie entweder im OE- oder SATA-Format aufgefordert wurden“, schrieb der Co-Autor der Studie, Young H. Kim, MD, Ph.D., der mit dem zusammenarbeitet Chan Medical School der University of Massachusetts in Worcester, Massachusetts, und Kollegen.
Allerdings stellten die Studienautoren einige Unterschiede zwischen den großen Sprachmodellen fest.
• Die durchschnittliche Bewertung unter Verwendung vordefinierter Optionen in SATA-Eingabeaufforderungen zeigte, dass ChatGPT-4 Bard in allen Krebsbildgebungsverfahren der Studie übertraf, wobei der Unterschied beim Eierstockkrebs-Screening deutlicher ausfiel. Insgesamt wiesen die Forscher auf einen durchschnittlichen Genauigkeitswert von 83 Prozent für ChatGPT-4 im Vergleich zu 70 Prozent für Bard hin.
• Beim durchschnittlichen OE-Prompt-Scoring übertraf ChatGPT-4 Bard bei der Früherkennung von Lungenkrebs und Eierstockkrebs, während Bard bei der Früherkennung von Brust- und Darmkrebs etwas besser war, heißt es in der Studie.
• Die Auswertung der großen Sprachmodelle für das Eierstockkrebs-Screening ergab den signifikantesten Unterschied. Beim Eierstockkrebs-Screening erreichte Bard einen OE-Prompt-Score von 0,50 (von 2) im Vergleich zu 1,50 für ChatGPT-4. Die Forscher stellten außerdem eine Genauigkeit von 41 Prozent für Bard bei SATA-Eingabeaufforderungen fest, im Gegensatz zu 70 Prozent für ChatGPT-4 beim Eierstockkrebs-Screening.
Drei wichtige Erkenntnisse
- Vergleichbare Genauigkeit beim Brustkrebs-Screening. Die Studie ergab, dass sowohl ChatGPT-4 als auch Google Bard eine beeindruckende Genauigkeit bei der radiologischen klinischen Entscheidungsfindung für die Brustkrebsvorsorge zeigten. Die Genauigkeitswerte waren zwischen den beiden Modellen ziemlich ähnlich, wobei ChatGPT-4 bei offenen Eingabeaufforderungen im Durchschnitt 1,82 (von 2) erreichte, verglichen mit Bards Wert von 1,89. Bei den Eingabeaufforderungen „Alles Zutreffende auswählen“ (SATA) erreichte Bard eine Genauigkeit von 82 Prozent, während ChatGPT-4 eine etwas höhere Genauigkeit von 85 Prozent bot.
- Unterschiedliche Leistung bei verschiedenen Krebsarten. Die Studie beobachtete Unterschiede in der Leistung von ChatGPT-4 und Bard bei verschiedenen Krebsarten. Bemerkenswert ist, dass ChatGPT-4 Bard bei der durchschnittlichen Bewertung mit vordefinierten Optionen in SATA-Eingabeaufforderungen bei allen Krebsbildgebungsverfahren übertraf, wobei der Unterschied beim Eierstockkrebs-Screening deutlicher ausfiel. ChatGPT-4 erreichte einen durchschnittlichen Genauigkeitswert von 83 Prozent, während Bard 70 Prozent erreichte. Speziell beim Eierstockkrebs-Screening wies ChatGPT-4 im Vergleich zu Bard eine höhere Genauigkeit sowohl bei offenen als auch bei SATA-Eingabeaufforderungen auf.
- Wirksamkeit von Prompt Engineering. Die Forscher betonten die Bedeutung von Prompt Engineering für die Verbesserung der Genauigkeit von Antworten aus großen Sprachmodellen (LLMs). Während sowohl offene Eingabeaufforderungen (OE) als auch „Alles Zutreffende auswählen“-Eingabeaufforderungen (SATA) verwendet wurden, ergab die Studie, dass OE-Eingabeaufforderungen die Leistung sowohl für ChatGPT-4 als auch für Bard wirksamer steigerten.
(Anmerkung des Herausgebers: Verwandte Inhalte finden Sie unter „Kann ChatGPT eine Radiology Board-Prüfung bestehen?“, „Kann ChatGPT Auswirkungen auf die Radiologie haben?“ und „Kann ChatGPT ein wirksames Instrument zur Patientenkommunikation in der Radiologie sein?“)
Darüber hinaus verbesserten OE-Eingabeaufforderungen zwar die Leistung beider großer Sprachmodelle, die Autoren der Studie sahen jedoch keine ähnlichen Vorteile bei der Verwendung von SATA-Eingabeaufforderungen. Die Forscher erkannten zwar an, dass es in den Trainingsdaten zu einer Verzerrung in Richtung OA-Eingabeaufforderungen kommen könnte, sagten jedoch, dass die Flexibilität von OE-Eingabeaufforderungen möglicherweise optimaler sei als die von SATA-Eingabeaufforderungen.
„… Unsere Ergebnisse stützen die Idee der Implementierung (prompter Technik) in einem OE-Format, um die Genauigkeit der Antworten in besonderen klinischen Situationen zu verbessern, beispielsweise wenn keine Bildgebungsmodalitäten bereitgestellt werden oder wenn Ärzte nicht in der Lage sind, alle möglichen Bildgebungsmodalitäten aufzulisten ein bestimmtes Szenario“, fügten Kim und Kollegen hinzu.
Im Hinblick auf die Einschränkungen der Studie räumten die Studienautoren ein, dass die Bewertung der Antworten aus den LLM-Modellen subjektiv sei, und stellten fest, dass es für die Studie nur zwei Bewerter gab. Die Forscher stellten auch Einschränkungen bei der allgemeinen Extrapolation der Studienergebnisse fest, da sich die Studie auf die Bewertung der LLMs beim Screening auf vier Krebsarten und auf die vom ACR festgelegten klinischen Leitlinien konzentrierte.