Die Autoren verwendeten chatgpt-4, um jeden randomisierten Fall fünfmal zu überprüfen und ihn um eine Risikobewertung der bereitgestellten Patientenvariablen zu bitten. Sie wollten erfahren, wie die Antworten von ChatGPT mit den TIMI- und HEART-Scores korrelieren – und wie konsistent die Antworten wären, wenn derselbe Fall fünf Mal überprüft würde.
Insgesamt stellte das Team fest, dass ChatGPT-4 „eine hohe Korrelation“ mit den beiden Risikobewertungen aufwies. Allerdings lieferte das LLM häufig unterschiedliche Risikobewertungen, wenn derselbe Patientenfall mehrmals überprüft wurde. Darüber hinaus widersprach ChatGPT-4 bei der mehrfachen Überprüfung der Daten aus dem dritten Datensatz mit 44 Gesundheitsvariablen häufig seinen eigenen früheren Antworten.
„ChatGPT hat nicht konsequent gehandelt“, sagte Heston in einem Stellungnahme. „Anhand der exakt gleichen Daten würde ChatGPT ein niedriges Risiko vergeben, beim nächsten Mal ein mittleres Risiko und gelegentlich sogar ein hohes Risiko vergeben.“
Laut den Autoren könnte diese Inkonsistenz als eine gute Sache angesehen werden, wenn man sich für andere Zwecke an ChatGPT wendet. In der Medizin sind jedoch konsistente Antworten unerlässlich.
„Wir haben festgestellt, dass es viele Unterschiede gibt und dass diese Unterschiede im Ansatz gefährlich sein können“, sagte Heston. „Es kann ein nützliches Werkzeug sein, aber ich denke, dass sich die Technologie viel schneller weiterentwickelt, als wir sie verstehen. Daher ist es von entscheidender Bedeutung, dass wir viel Forschung betreiben, insbesondere in diesen klinischen Situationen, in denen viel auf dem Spiel steht.“
Bei der Überprüfung ihrer Ergebnisse schloss die Gruppe ihre Studie mit einer positiven Sicht auf das Potenzial von LLMs wie ChatGPT ab.
„ChatGPT könnte hervorragend bei der Erstellung einer Differenzialdiagnose sein, und das ist wahrscheinlich eine seiner größten Stärken“, sagte Heston. „Wenn Sie nicht genau wissen, was mit einem Patienten los ist, können Sie ihn bitten, die fünf häufigsten Diagnosen und die Begründung für jede einzelne zu nennen. Es kann also gut sein, Ihnen beim Durchdenken eines Problems zu helfen, aber es ist nicht gut, wenn es darum geht, die Antwort zu geben.“
Klicken Hier um die vollständige Analyse zu lesen. Lawrence M. Lewis, MDein Notfallmediziner an der Washington University in St. Louis, fungierte als Co-Autor der Studie.
Das neueste Update von ChatGPT verspricht Verbesserungen beim „logischen Denken“
Im April kündigte OpenAI die Einführung eines neuen GPT-4 Turbo mit „verbesserten Fähigkeiten in den Bereichen Schreiben, Mathematik, logisches Denken und Codierung“ an. Würde diese neueste Version bessere Herzrisikobewertungen liefern? Forscher arbeiten wahrscheinlich bereits an einer Antwort.
Bezahlte ChatGPT-Benutzer haben jetzt Zugriff auf GPT-4 Turbo.