Auf künstlicher Intelligenz basierende Tools (AITs) wie der Chat Generative Pre-trained Transformer (chatgpt) von OpenAI haben in medizinischen Anwendungen eine wachsende Bedeutung erlangt. Diese Tools haben gezeigt, dass sie in der Lage sind, Patientenergebnisse und unerwünschte Ereignisse im Zusammenhang mit der Behandlung vorherzusagen sowie unter anderem Bildgebungs- oder Laborergebnisse zu interpretieren.1

Im Bewusstsein dieser Fähigkeiten und der ständig wachsenden Rolle von AITs im medizinischen Bereich versuchten die Forscher Huang et al., das Wissen und die klinischen Diagnosefähigkeiten der ChatGPT-Iterationen 3.5 und 4.0 durch einen Vergleich von pädiatrischen Dermatologen zu bewerten.

In der Studie, veröffentlicht in Pädiatrische DermatologieForscher fanden heraus, dass pädiatrische Dermatologen im Durchschnitt vorwiegend AITs bei Multiple-Choice-Fragen, Mehrfachantworten und fallbasierten Fragen übertrafen.2 Die Ergebnisse der Studie zeigten jedoch auch, dass ChatGPT, insbesondere Version 4.0, in einigen Aspekten häufig Vergleichbarkeit aufwies, unter anderem bei Multiple-Choice- und Multiple-Antwort-Fragen.

Bildnachweis: © GRON777 – stock.adobe.com

Hintergrund und Methoden

Die Forscher entwickelten einen Test mit 24 textbasierten Fragen, darunter 16 Multiple-Choice-Fragen, 2 Fragen mit mehreren Antworten und 6 fallbasierten Fragen. Fallbezogene Fragen waren frei beantwortbar.

Die Fragen wurden auf der Grundlage des American Board of Dermatology 2021 Certification Sample Test und des Abschnitts „Photoquiz“ der Zeitschrift entwickelt Pädiatrische Dermatologieund alle Fragen wurden ab Oktober 2023 erstmals über die Weboberfläche von ChatGPT bearbeitet.

Die Forscher verwendeten eine für die Bewertung von AITs übliche Skala von 0 bis 5, um fallbezogene Fragen zu bewerten und zu bewerten. Die Prüfer der Antworten waren nicht in der Lage, die Identität der Befragten zu erkennen.

Siehe auch  Bibliothek veranstaltet kostenloses ChatGPT-Webinar

Ergebnisse

Insgesamt fünf pädiatrische Dermatologen beantworteten die von den Forschern gestellten Fragen, wobei sie im Durchschnitt über 5,6 Jahre klinische Erfahrung verfügten.

Im Durchschnitt erzielten pädiatrische Dermatologen bei Multiple-Choice- und Multiple-Antwort-Fragen eine Punktzahl von 91,4 %, während ChatGPT Version 3.5 eine durchschnittliche Punktzahl von 76,2 % aufwies, was pädiatrischen Dermatologen einen deutlich größeren Vorteil verschaffte. Im Vergleich zur ChatGPT-Version 4.0 wurden die Ergebnisse jedoch als vergleichbar angesehen, wobei Iteration 4.0 eine durchschnittliche Punktzahl von 90,5 % erreichte – nur 0,9 % weniger als die der Kliniker.

Im Durchschnitt schnitten Kliniker bei fallbasierten Fragen mit einer Punktzahl von 3,81 besser ab als KI, während ChatGPT v.3.5 einen Durchschnitt von 3,53 erzielte. Im Durchschnitt war die fallbasierte Fragenbewertung für pädiatrische Dermatologen nicht signifikant höher als bei ChatGPT v.4.0.

Auf der Grundlage dieser Erkenntnisse entwickelten Huang et al. eine differenzierte Best-Practice-Liste mit „Dos and Don’ts“ für Kliniker.

Sie empfehlen Ärzten Folgendes:

  • Verwenden Sie ChatGPT, um ein Brainstorming für eine Differentialdiagnose durchzuführen
  • Stellen Sie detaillierte und relevante Informationen bereit und wahren Sie gleichzeitig die Privatsphäre des Patienten
  • Überprüfen Sie die Antworten von ChatGPT anhand seriöser Quellen für medizinische Informationen
  • Bleiben Sie über rechtliche und institutionelle Richtlinien rund um den Einsatz von KI-Tools im Gesundheitswesen auf dem Laufenden

Sie empfehlen Ärzten, Folgendes NICHT zu tun:

  • Verlassen Sie sich auf ChatGPT, um die beste Diagnose zu liefern
  • Erliegen Sie aufgrund der Antworten von ChatGPT der Verankerungsvoreingenommenheit
  • Akzeptieren Sie die Antworten von ChatGPT sofort als medizinische Fakten
  • Geben Sie HIPAA-geschützte Informationen in KI-Tools wie ChatGPT ein, die nicht HIPAA-konform sind
Siehe auch  Grok: Elon Musk wird seine Alternative zu ChatGPT als Open Source veröffentlichen

Schlussfolgerungen

Die Forscher empfahlen, dass dermatologische Kliniker sich besser mit den AIT-Tools vertraut machen, da deren Genauigkeit weiter zunimmt und sich verbessert, und wiesen darauf hin, dass sie für faktenbasierte Fragen und fallbasierte Materialien nützlich sein könnten.

Obwohl diese Ergebnisse vielversprechend sind, stellten sie fest, dass weitere Forschung erforderlich ist, um die Rolle von ChatGPT für klinisches Wissen und Denken besser zu verstehen.

Zu den von den Forschern dargelegten Einschränkungen der Studie gehören die Möglichkeit einer veränderten Reproduzierbarkeit der Ergebnisse und die Möglichkeit, dass pädiatrische Dermatologen zuvor Fragen und Fälle kennengelernt haben, die im Rahmen der Studie verwendet werden.

„Während Ärzte derzeit weiterhin AITs übertreffen, bieten schrittweise Fortschritte in der Komplexität dieser KI-Algorithmen für die Text- und Bildinterpretation pädiatrischen Dermatologen eine wertvolle Ergänzung ihres Werkzeugkastens“, so Huang et al. „Unter den gegenwärtigen Umständen ist generative KI ein nützliches Werkzeug, aber man sollte sich nicht darauf verlassen, um endgültige Schlussfolgerungen über Diagnose oder Therapie ohne entsprechende Aufsicht zu ziehen.“

Verweise

  1. Haug CJ, Drazen JM. Künstliche Intelligenz und maschinelles Lernen in der klinischen Medizin, 2023. N Engl J Med. 2023; 388(13): 1201-1208. doi:10.1056/nejmra2302038
  2. Huang CY, Zhang E, Caussade MC, Brown T, Stockton Hogrogian G, Yan AC. Pädiatrische Dermatologen versus KI-Bots: Bewertung des medizinischen Wissens und der diagnostischen Fähigkeiten von ChatGPT. Pädiatrie Dermatol. 9. Mai 2024. Zugriff am 13. Mai 2024. doi:10.1111/pde.15649
Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein