Künstliche Intelligenz (KI) hat mittlerweile Einfluss auf mehrere Berufsbereiche. Die Einsatzmöglichkeiten von KI sind vielfältig und können die Effizienz komplexer Aufgaben verbessern. Durch maschinelles Lernen entwickeln KI-basierte Programme funktionierenden Code, erstellen einzigartige Musik und diagnostizieren sogar komplexe Krankheiten auf der Grundlage von Anamnese, Laborergebnissen, radiologischen Bildern oder pathologischen Ergebnissenchatgpt pathology knowledge using board-style questions. Am. J. Clin. Pathol. https://doi.org/10.1093/ajcp/aqad158 (2023).“ href=“#ref-CR1″ id=“ref-link-section-d1776040e440″>1,2,3,4. Es muss jedoch noch viel Arbeit geleistet werden, um die Versprechen zu erfüllen, die seine Anwendung im medizinischen Bereich verspricht.
KI-Programme wie ChatGPT basieren auf einem Large Language Model (LLMs) und sind auf umfangreiche Daten zur Rekonstruktion der Originalausgaben trainiert. Sie stecken noch in den Kinderschuhen und es gibt nur wenig Forschung zu ihren Funktionen und Anwendungen im Gesundheitswesen. Auch über die Leistungsentwicklung von ChatGPT über mehrere Iterationen hinweg ist wenig bekannt. ChatGPT 4.0, die aktuellste Version von KI-LLMs, bietet zahlreiche Funktionen wie schnelle Reaktionszeiten, visuelle Medienerstellung über sein DALLE-Gegenstück und eine bald verbesserte Bilderkennung.
Ein Forschungsgebiet für ChatGPT im Gesundheitswesen war vor allem die Fähigkeit, Fragen aus verschiedenen standardisierten medizinischen Untersuchungen zu beantworten. Gilson et al.5 fanden eine Genauigkeit von 60 % sowohl bei der United States Medical Licensing Exam (USMLE) SCHRITT 1 als auch bei SCHRITT 2. Kung et al.6 fand ähnliche Ergebnisse und testete zusätzlich die Fähigkeiten von ChatGPT weiter, indem es seine Logik anhand eines 2–3-Bewertungssystems für Ärzte analysierte. Dieses Bewertungssystem bewertete seine Antworten im Hinblick auf Logik, Gültigkeit und nicht offensichtliche Erkenntnisse, um zu verstehen, wie ChatGPT als Werkzeug für Medizinstudenten verwendet und verstanden werden könnte.
Im Bereich der medizinischen Wissenschaften war die Fähigkeit von ChatGPT, „zu verstehen und zu argumentieren“, ein umstrittener Punkt. Obwohl es Behauptungen gibt, dass ChatGPT in der Lage ist, deduktiv zu argumentieren und klare Gedankengänge zu haben, haben andere festgestellt, dass der Chatbot dem Risiko künstlicher Halluzinationen ausgesetzt ist, bei denen es sich um sachliche Fehler handelt, die aus unbekannten oder gefälschten Quellen stammen. Wenn ChatGPT gebeten wird, seine Quellen für seine Behauptungen anzugeben, scheinen die Quellen echt zu sein, bei der Suche existieren sie jedoch nicht5,7.
Die Integration von KI in das Gesundheitswesen hat zwar das Potenzial, Ärzten zu helfen, wirft aber auch mehrere ethische Bedenken auf, darunter den Schutz der Privatsphäre und Datensicherheit der Patienten, die Beseitigung inhärenter Vorurteile in KI-Algorithmen, die Gewährleistung von Transparenz, die Wahrung der Patientenautonomie und der Einwilligung nach Aufklärung sowie die Prävention Fehlinformationen zu verhindern und die Qualität der Patienten-Anbieter-Beziehung zu wahren8. Májovský et al.9 berichteten, dass Benutzer ChatGPT leicht missbrauchen können, um scheinbar authentische wissenschaftliche Manuskripte zu erstellen, die ordnungsgemäß formatiert erscheinen, was die Integrität der akademischen Medizin gefährdet.
Es gibt nur begrenzte Studien zu seiner Leistung in realen klinischen Szenarien. Eine aktuelle Studie von Kanjee et al.10 zeigte, dass ChatGPT 4.0 anhand der klinisch-pathologischen Konferenzen des New England Journal of Medicine (NEJM) in 64 % der schwierigen Fälle die richtige Diagnose in seinem Differential lieferte. In anderen Studien wurde ChatGPT mit Ärzten im Umgang mit realistischen klinischen Situationen verglichen, beispielsweise in der von Hirosawa et al.11 die untersuchten, wie gut ChatGPT Differenzialdiagnosen für häufige Hauptbeschwerden erstellen kann. Sie fanden heraus, dass ChatGPT in über 90 % der Fälle eine korrekte Diagnose lieferte, und erstellten eine Auswahlliste der Top-10-Diagnosen. Im Vergleich mit Ärzten auf einer Liste mit drei oder fünf Differentialdiagnosen schnitt es jedoch deutlich schlechter ab, wobei der häufigste Fehler die falsche Reihenfolge der Prioritäten in den Differentialdiagnosen war. Insgesamt wurden die Logik und damit auch das klinische Denken in mehr als 90 % der Antworten als einigermaßen fundiert angesehen11.
Es gibt einen Mangel an Studien, die die Leistung von ChatGPT 3.5 mit 4 vergleichen12, insbesondere im Gesundheitswesen. Massey et al. verglich die Leistung von ChatGPT 3.5, ChatGPT 4.0 und orthopädischen Assistenzärzten bei orthopädischen Beurteilungsuntersuchungen.
Diese gemischten Erfahrungen mit dem Einsatz von ChatGPT in schwierigen Anwendungen wie der Medizin erfordern weitere Untersuchungen, um seine Fähigkeit zu charakterisieren, komplexe medizinische Probleme logisch und ethisch zu lösen. Unser Ziel war es, die Leistung von ChatGPT 4.0 bei der genauen Beantwortung von Fragen im Board-Stil mit ChatGPT 3.5 zu vergleichen und seinen potenziellen Wert als Tool für Diagnose, Aufarbeitung, Management und Nachsorge auf der Grundlage veröffentlichter klinischer Fallberichte weiter zu bewerten.