Ein Chatbot mit großem Sprachmodell (LLM) war in der Lage, Glaukom-Spezialisten zu übertreffen und Netzhaut-Spezialisten hinsichtlich der Genauigkeit zu übertreffen, wenn er mit nicht identifizierten Personen konfrontiert wurde Glaukom und Netzhautfälle und Fragen, laut einer in veröffentlichten Studie JAMA Ophthalmologie. Dieser Befund deutet darauf hin, dass es sich in Zukunft um ein Diagnosewerkzeug handeln könnte.

LLMs Chatbots – eine Form der künstlichen Intelligenz – haben bereits zuvor ihre gute Leistung bei Prüfungen des Ophthalmic Knowledge Assess Program unter Beweis gestellt, und es wurde mit der Forschung begonnen, zu untersuchen, wie sie in bestimmten Bereichen der Augenheilkunde eingesetzt werden können. Ziel dieser Studie war es, die umfassenderen Fähigkeiten des Chatbots zu bewerten, indem seine Genauigkeit mit der von Augenärzten auf der behandelnden Ebene verglichen wurde. In dieser Studie wurden Glaukom- und Netzhautspezialisten auf Fellowship-Ebene mit LLM-Spezialisten verglichen.

Tonometrietest für den Augendruck | Bildnachweis: eyeadobestock – stock.adobe.com

Die Querschnittsstudie fand in einem einzigen Zentrum statt. Alle Augendaten stammen von der Abteilung für Augenheilkunde der Icahn School of Medicine am Mount Sinai, New York, New York. Alle Fachärzte waren praktizierende Ärzte im selben Zentrum. Die Forscher wählten jeweils 10 Fragen zu Glaukom und Netzhaut aus den häufig gestellten Fragen der American Academy of Ophthalmology aus, um das Wissen zu klinischen Fragen zu testen. Um das Wissen über das Fallmanagement zu testen, wurden 10 Netzhautfälle und 10 Glaukomfälle von Patienten in der Abteilung ausgewählt. Die Auswahl aller Fragen und Patienten erfolgte zufällig.

Für die Studie wurde der GPT-4-Chatbot verwendet, dessen Version die vom 12. Mai 2023 war. Zur Messung der Genauigkeit aller Antworten wurde eine 10-stufige Likert-Skala verwendet, wobei 1 und 2 für geringe oder inakzeptable Ungenauigkeiten und 9 und 10 für eine sehr gute Genauigkeit ohne Ungenauigkeiten standen. Zur Beurteilung der medizinischen Vollständigkeit der Ergebnisse wurde eine 6-Punkte-Skala verwendet.

Siehe auch  Nur fünf ChatGPT-Abfragen können 16 Unzen Wasser verbrauchen, sagen Forscher

Die Spezialisten für Netzhaut und Glaukom beantworteten die klinischen Fragen und die Fragen zum Fallmanagement und ihre Antworten wurden mit den Antworten verglichen, die von GPT-4 als primärem Endpunkt generiert wurden.

Für diese Studie wurden 1271 Bilder hinsichtlich ihrer Genauigkeit und 1267 Bilder hinsichtlich ihrer Vollständigkeit bewertet. Es waren 12 Spezialisten beteiligt, davon 8 Glaukom-Spezialisten und 4 Netzhaut-Spezialisten; Es wurden auch 3 Auszubildende zum Thema Augenheilkunde einbezogen. Die durchschnittliche (SD) Anzahl der Jahre, die die Teilnehmer praktizierten, betrug 11,7 (13,5) Jahre.

Der LLM-Chatbot hatte einen durchschnittlichen kombinierten Frage-Fall-Genauigkeitsrang von 506,2, während die Glaukom-Spezialisten einen durchschnittlichen Rang von 403,4 hatten. Der mittlere Rang für die Vollständigkeit war innerhalb der beiden Gruppen ähnlich und lag bei 528,3 für den LLM-Chatbot und 398,7 für die Spezialisten. Der mittlere Rang für die kombinierte Genauigkeit lag mit 235,3 bzw. 216,1 zwischen dem LLM-Chatbot und den Retina-Spezialisten näher beieinander. Der mittlere Rang für die Vollständigkeit lag vergleichbar bei 258,3 für den Chatbot und 208,7 für die Netzhautspezialisten.

„Sowohl Auszubildende als auch Spezialisten bewerteten die Genauigkeit und Vollständigkeit des Chatbots positiver als die ihrer Fachkollegen“, schreiben die Autoren, wobei Spezialisten den Chatbot in Bezug auf Genauigkeit und Vollständigkeit deutlich besser bewerteten als Menschen.

Diese Studie unterliegt einigen Einschränkungen. Diese Studie wurde in einem einzigen Zentrum mit nur einer Teilnehmergruppe durchgeführt, weshalb sie möglicherweise nicht auf andere Bevölkerungsgruppen übertragbar ist. Auch bei der Entscheidungsfindung von Chatbots gibt es Einschränkungen, insbesondere bei komplexen Entscheidungen, die berücksichtigt werden sollten.

Insgesamt ergab diese Bewertung, dass der LLM-Chatbot sowohl bei klinischen Fragen als auch bei klinischen Fällen eine im Vergleich zu Netzhaut- und Glaukomspezialisten vergleichbare Diagnosegenauigkeit aufwies, was auf seinen potenziellen Einsatz als Diagnoseinstrument hinweist.

Siehe auch  ChatGPT hört auf, aus Informationen zu lernen, die von seinen Abonnenten bereitgestellt werden

Referenz

Huang AS, Hirabayashi K, Barna L, Parikh D, Pasquale LR. Bewertung der Reaktion eines großen Sprachmodells auf Fragen und Fälle zum Glaukom- und Netzhautmanagement. JAMA Ophthalmol. Online veröffentlicht am 22. Februar 2024. doi:10.1001/jamaophthalmol.2023.6917

5/5 - (490 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein