Obwohl chatgpt angeblich medizinische Untersuchungen besteht, deuten neue Forschungsergebnisse darauf hin, dass es bei manchen Gesundheitsbeurteilungen nicht ratsam wäre, sich auf die Funktion zu verlassen, beispielsweise bei der Beurteilung, ob ein Patient mit Brustschmerzen ins Krankenhaus eingeliefert werden muss.
In einer Studie mit Tausenden simulierten Fällen von Patienten mit Brustschmerzen lieferte ChatGPT inkonsistente Schlussfolgerungen und gab für die exakt gleichen Patientendaten unterschiedliche Herzrisikobewertungsstufen zurück.
Das generative KI-System konnte auch nicht mit den traditionellen Methoden mithalten, die Ärzte verwenden, um das Herzrisiko eines Patienten zu beurteilen. Die Ergebnisse wurden in der Zeitschrift PLOS ONE.
„ChatGPT reagierte nicht konsistent“, sagte der Hauptautor Dr. Thomas Heston, ein Forscher am Elson S. Floyd College of Medicine der Washington State University. „Bei den exakt gleichen Daten vergab ChatGPT zunächst ein niedriges Risiko, dann ein mittleres Risiko und gelegentlich sogar ein hohes Risiko.“
Die Autoren glauben, dass das Problem wahrscheinlich auf den Grad der Zufälligkeit zurückzuführen ist, der in die aktuelle Version der Software, ChatGPT4, eingebaut ist. Dadurch kann sie ihre Antworten variieren, um natürliche Sprache zu simulieren. Diese Zufälligkeit funktioniert jedoch nicht gut für Anwendungen im Gesundheitswesen, die eine einzige, konsistente Antwort erfordern, sagte Heston.
„Wir haben festgestellt, dass es viele Unterschiede gibt und dass diese Unterschiede im Ansatz gefährlich sein können“, sagte er. „Es kann ein nützliches Werkzeug sein, aber ich denke, die Technologie entwickelt sich viel schneller als unser Verständnis davon. Daher ist es von entscheidender Bedeutung, dass wir viel Forschung betreiben, insbesondere in diesen klinischen Situationen, in denen viel auf dem Spiel steht.“
Brustschmerzen gehören in Notaufnahmen zu den häufigen Beschwerden und erfordern von den Ärzten eine rasche Einschätzung der Dringlichkeit des Zustands des Patienten.
Einige sehr schwere Fälle lassen sich anhand ihrer Symptome leicht identifizieren, bei Fällen mit geringerem Risiko könne es jedoch schwieriger sein, sagte Heston, insbesondere bei der Entscheidung, ob jemand zur Beobachtung ins Krankenhaus eingeliefert oder nach Hause geschickt werden und ambulante Behandlung erhalten soll.
Derzeit verwenden Mediziner zur Beurteilung des Herzrisikos häufig eine von zwei Maßnahmen mit den Akronymen TIMI und HEART.
Heston verglich diese Skalen mit Taschenrechnern, die jeweils eine Handvoll Variablen wie Symptome, Gesundheitsgeschichte und Alter verwendeten.
Im Gegensatz dazu kann ein KI-neuronales Netzwerk wie ChatGPT Milliarden von Variablen schnell auswerten, was bedeutet, dass es eine komplexe Situation möglicherweise schneller und gründlicher analysieren könnte.
Für diese Studie generierten Heston und sein Kollege Dr. Lawrence Lewis von der Washington University in St. Louis zunächst drei Datensätze mit jeweils 10.000 randomisierten, simulierten Fällen. Ein Datensatz enthielt die sieben Variablen der TIMI-Skala, der zweite Satz umfasste die fünf Variablen der HEART-Skala und ein dritter Satz enthielt 44 randomisierte Gesundheitsvariablen.
In den ersten beiden Datensätzen gab ChatGPT in 45 bis 48 Prozent der Fälle eine andere Risikobewertung ab als ein fester TIMI- oder HEART-Score. Für den letzten Datensatz führten die Forscher die Fälle viermal aus und stellten fest, dass ChatGPT oft nicht mit sich selbst übereinstimmte und in 44 Prozent der Fälle unterschiedliche Bewertungsstufen für dieselben Fälle zurückgab.
Trotz der negativen Ergebnisse dieser Studie sieht Heston großes Potenzial für generative KI im Gesundheitswesen – mit weiterer Entwicklung. Unter der Voraussetzung, dass Datenschutzstandards eingehalten werden, könnten beispielsweise komplette Krankenakten in das Programm geladen werden, und in einer Notfallsituation könnte ein Arzt ChatGPT bitten, schnell die wichtigsten Fakten über einen Patienten anzugeben.
Bei schwierigen, komplexen Fällen könnten Ärzte das Programm zudem auffordern, mehrere mögliche Diagnosen zu generieren.
„ChatGPT könnte hervorragend dazu geeignet sein, eine Differentialdiagnose zu erstellen, und das ist wahrscheinlich eine seiner größten Stärken“, sagte Heston. „Wenn Sie nicht genau wissen, was mit einem Patienten los ist, können Sie es bitten, die fünf häufigsten Diagnosen und die Begründung für jede einzelne Diagnose anzugeben. Es könnte Ihnen also dabei helfen, ein Problem zu durchdenken, aber es ist nicht gut darin, die Antwort zu geben.“
Verwandt
Entdecken Sie mehr von NJTODAY.NET
Abonnieren Sie, um die neuesten Beiträge per E-Mail zu erhalten.