chatgpt übertraf Menschen auf einer Scheinversion der Boards des American Board of Psychiatry and Neurology (ABPN) deutlich.
Laut Varun Venkataramani, MD, PhD, übertraf ChatGPT-4, die neuere Version des großen Sprachmodells von Open AI, die durchschnittliche menschliche Bewertung einer von der ABPN genehmigten Fragendatenbank und beantwortete 85 % der Fragen richtig, verglichen mit einer menschlichen Bewertung von 73,8 % , vom Universitätsklinikum Heidelberg in Deutschland, und Co-Autoren.
Ein älteres Modell, ChatGPT-3.5, beantwortete nur 66,8 % der Fragen richtig. „Beide Modelle verwendeten eine selbstbewusste oder sehr selbstbewusste Sprache, auch wenn sie falsch war“, berichteten Venkataramani und Kollegen JAMA-Netzwerk geöffnet.
Die Studie ist eine gute Demonstration der Leistungsfähigkeit und Fähigkeiten großer Sprachmodelle wie ChatGPT, ihre Ergebnisse könnten jedoch falsch interpretiert werden, bemerkte Lyell Jones Jr., MD, von der Mayo Clinic in Rochester, Minnesota, der nicht an der Studie beteiligt war .
„Dieses Papier zeigt, dass ChatGPT Multiple-Choice-Fragen richtig beantworten kann“, sagte Jones MedPage heute. „Es beweist nicht, dass ChatGPT klinische Medizin praktizieren oder als Ersatz für klinische Entscheidungsfindung dienen kann.“
„Tests, einschließlich Multiple-Choice-Tests, sind Instrumente zur Beurteilung medizinischer Kenntnisse, die nur einen Bereich oder eine Kompetenz darstellen, die für die Ausübung der Medizin erforderlich ist“, fuhr Jones fort. „Transformer-Technologien wie die von ChatGPT verwendeten können Text vorhersagen, führen aber keine Interviews durch, führen keine körperliche Untersuchung durch, erstellen keine Beurteilung und keinen Plan, interpretieren klinische Daten und kommunizieren keine Ergebnisse.“
Obwohl es für die Software eine große technische Leistung ist, viele Fragen richtig zu beantworten, „war die Fehlerquote immer noch hoch, und die Tendenz, Gewissheit auszudrücken, während sie noch falsch ist, stellt ein zusätzliches Risiko oder Vorsicht bei der Verwendung großer Sprachmodelltools dar“, fügte er hinzu .
Transformer-basierte Tools zur Verarbeitung natürlicher Sprache wie GPT könnten die klinische Versorgung in der Neurologie verbessern, sind jedoch mit Einschränkungen und Risiken verbunden, einschließlich erfundener Fakten. Risiken und Vorteile wurden in einem kürzlich erschienenen Artikel in behandelt Neurologie Daraus ging hervor, dass ChatGPT potenziell gefährliche Ratschläge für eine junge Frau mit Epilepsie gab, die schwanger werden wollte. Untersuchungen zu medizinischen Fragen in anderen Fachgebieten haben ergeben, dass trotz Verbesserungen weder ChatGPT 3.5 noch 4 als einzige Quelle für medizinisches Wissen herangezogen werden sollten.
In ihrer Studie verwendeten Venkataramani und Co-Autoren eine von der ABPN genehmigte Fragendatenbank und kategorisierten Fragen basierend auf entweder niedrigerer oder höherer Ordnung Blooms Taxonomie. Fragen niedrigerer Ordnung bewerteten das Erinnern und das Grundverständnis; Fragen höherer Ordnung, bei denen die Anwendung, Analyse oder Bewertung von Informationen gemessen wird.
Die Reihe von 2.036 Fragen ähnelte der Neurologie-Prüfung und war Teil eines Selbstbewertungsprogramms, das für die Anrechnung von Fortbildungen in der medizinischen Fortbildung (CME) verwendet werden konnte; Ein Wert von 70 % war der Schwellenwert für CME. Die Forscher schlossen 80 Fragen aus – solche mit Videos oder Bildern und solche, die auf vorhergehenden Fragen basierten – und ließen 1.956 Fragen in der Studie übrig.
Beide großen Sprachmodelle waren servergestützt und wurden mit mehr als 45 Terabyte Textdaten aus Websites, Büchern und Artikeln trainiert. Keiner von beiden hatte die Möglichkeit, im Internet zu suchen.
GPT-3.5 stimmte bei Fragen niedrigerer Ordnung mit menschlichen Benutzern überein, hinkte jedoch bei Fragen höherer Ebene hinterher. GPT-4 übertraf den Menschen sowohl bei Fragen niedrigerer als auch höherer Ordnung. GPT-4 zeigte eine bessere Leistung bei Fragen in den Kategorien Verhalten, Kognition und Psychologie (89,8 %) im Vergleich zu Fragen zu Epilepsie und Anfällen (70,9 %) oder neuromuskulären Themen (78,8 %).
Auf einer 5-Punkte-Likert-Skala bewerteten beide Modelle ihr Vertrauen in ihre Antworten durchweg als zuversichtlich oder sehr zuversichtlich, unabhängig davon, ob ihre Antwort richtig war. Als sie nach einer falschen mit einer richtigen Antwort aufgefordert wurden, entschuldigten sich beide Modelle und stimmten in allen Fällen der gegebenen Antwort zu.
Eine Einschränkung der Studie besteht darin, dass offizielle Prüfungsfragen des ABPN-Vorstands aufgrund ihres vertraulichen und regulierten Charakters nicht verwendet werden konnten, sagten Venkataramani und Co-Autoren. Darüber hinaus war die bestandene Note eine Näherung, die auf dem ABPN-Schwellenwert für CME basierte.
Es sei unklar, welchen klinischen oder pädagogischen Nutzen diese Erkenntnisse haben, stellte Jones fest. „Es ist eine großartige technische Demonstration, aber brauchen wir Software, die Tests für Menschen durchführen kann?“ er hat gefragt.
„Eine interessantere Studie in diesem Sinne wäre die Verwendung von ChatGPT zur Erstellung hochwertiger Multiple-Choice-Fragen, pädagogischer Fälle oder anderer Lehrmaterialien“, schlug er vor. „Bei jeder Verwendung sind die Fehlerraten so hoch, dass jede Anwendung der Transformatortechnologie in klinischen oder pädagogischen Umgebungen eine sorgfältige menschliche Validierung und Faktenprüfung erfordert.“
Offenlegung
Venkataramani machte keine Angaben. Ein Co-Autor meldete ein Patent für Wirkstoffe zur Behandlung von Gliomen.
Jones hat Veröffentlichungsgebühren für eine Publikation zum Thema Gesundheitswesen erhalten, unterhält unentgeltliche Beziehungen als Vorstandsmitglied der Mayo Clinic Accountable Care Organization und des American Academy of Neurology Institute und hat eine persönliche Vergütung für seine Tätigkeit als Redakteur erhalten der American Academy of Neurology.
Hauptquelle
JAMA-Netzwerk geöffnet
Quellenangabe: Schubert MC, et al. „Leistung großer Sprachmodelle bei einer Prüfung im Neurologie-Board-Stil“ JAMA Netw Open 2023; DOI: 10.1001/jamanetworkopen.2023.46721.