SPOKANE, Washington – Obwohl chatgpt angeblich in der Lage ist, medizinische Prüfungen zu bestehen, deuten neue Forschungsergebnisse darauf hin, dass es unklug wäre, sich bei einigen Gesundheitsbeurteilungen darauf zu verlassen, beispielsweise ob ein Patient mit Brustschmerzen ins Krankenhaus eingeliefert werden muss.

In einer Studie mit Tausenden simulierten Fällen von Patienten mit Brustschmerzen lieferte ChatGPT inkonsistente Schlussfolgerungen und lieferte für genau dieselben Patientendaten unterschiedliche Bewertungsstufen für das Herzrisiko. Das generative KI-System konnte auch nicht mit den herkömmlichen Methoden mithalten, mit denen Ärzte das Herzrisiko eines Patienten beurteilen. Die Ergebnisse wurden im veröffentlicht Zeitschrift PLUS EINS.

„ChatGPT hat nicht konsistent gehandelt“, sagte Hauptautor Dr. Thomas Heston, ein Forscher am Elson S. Floyd College of Medicine der Washington State University. „Anhand der exakt gleichen Daten würde ChatGPT ein niedriges Risiko vergeben, beim nächsten Mal ein mittleres Risiko und gelegentlich sogar ein hohes Risiko vergeben.“

Die Autoren gehen davon aus, dass das Problem wahrscheinlich auf den Grad der Zufälligkeit zurückzuführen ist, der in die aktuelle Version der Software, ChatGPT4, integriert ist, die dabei hilft, ihre Antworten zu variieren, um natürliche Sprache zu simulieren. Dieselbe Zufälligkeit funktioniere jedoch nicht gut für Anwendungen im Gesundheitswesen, die eine einzige, konsistente Antwort erfordern, sagte Heston.

„Wir haben festgestellt, dass es viele Unterschiede gibt, und diese Unterschiede im Ansatz können gefährlich sein“, sagte er. „Es kann ein nützliches Werkzeug sein, aber ich denke, dass sich die Technologie viel schneller weiterentwickelt, als wir sie verstehen. Daher ist es von entscheidender Bedeutung, dass wir viel Forschung betreiben, insbesondere in diesen klinischen Situationen, in denen viel auf dem Spiel steht.“

Siehe auch  Prompt-Anleitung: So verwenden Sie ChatGPT

Schmerzen in der Brust sind häufige Beschwerden in der Notaufnahme und erfordern eine schnelle Einschätzung der Dringlichkeit des Zustands eines Patienten. Einige sehr schwerwiegende Fälle seien leicht anhand ihrer Symptome zu erkennen, aber Fälle mit geringerem Risiko könnten schwieriger sein, sagte Heston, insbesondere bei der Entscheidung, ob jemand zur Beobachtung ins Krankenhaus eingeliefert oder nach Hause geschickt und ambulant behandelt werden sollte.

Derzeit verwenden Mediziner zur Beurteilung des Herzrisikos häufig eine von zwei Messgrößen, die unter den Akronymen TIMI und HEART bekannt sind. Heston verglich diese Skalen mit Taschenrechnern, die jeweils eine Handvoll Variablen verwenden, darunter Symptome, Krankengeschichte und Alter. Im Gegensatz dazu kann ein neuronales KI-Netzwerk wie ChatGPT Milliarden von Variablen schnell bewerten, was bedeutet, dass es eine komplexe Situation möglicherweise schneller und gründlicher analysieren könnte.

Für diese Studie erstellten Heston und sein Kollege Dr. Lawrence Lewis von der Washington University in St. Louis zunächst drei Datensätze mit jeweils 10.000 randomisierten, simulierten Fällen. Ein Datensatz enthielt die sieben Variablen der TIMI-Skala, der zweite Satz enthielt die fünf Variablen der HEART-Skala und ein dritter enthielt 44 randomisierte Gesundheitsvariablen. Bei den ersten beiden Datensätzen gab ChatGPT in 45 % bis 48 % der Fälle eine andere Risikobewertung für Einzelfälle ab als ein fester TIMI- oder HEART-Score. Für den letzten Datensatz führten die Forscher die Fälle viermal durch und stellten fest, dass ChatGPT oft nicht mit sich selbst übereinstimmte und in 44 % der Fälle unterschiedliche Bewertungsniveaus für dieselben Fälle zurückgab.

Trotz der negativen Ergebnisse dieser Studie sieht Heston großes Potenzial für generative KI im Gesundheitswesen – mit weiterer Entwicklung. Unter der Annahme, dass Datenschutzstandards eingehalten werden könnten, könnten beispielsweise ganze Krankenakten in das Programm geladen werden und in einem Notfall könnte ein Arzt ChatGPT bitten, schnell die relevantesten Fakten über einen Patienten anzugeben. Auch bei schwierigen, komplexen Fällen könnten Ärzte das Programm bitten, mehrere mögliche Diagnosen zu generieren. „ChatGPT könnte bei der Erstellung einer Differenzialdiagnose hervorragend sein, und das ist wahrscheinlich eine seiner größten Stärken“, sagte Heston. „Wenn Sie nicht genau wissen, was mit einem Patienten los ist, können Sie ihn bitten, die fünf häufigsten Diagnosen und die Begründung für jede einzelne zu nennen. Es kann also gut sein, Ihnen beim Durchdenken eines Problems zu helfen, aber darin ist es nicht gut.“ die Antwort geben.“

Siehe auch  ChatGPT fängt an, Unsinn in seinem Schock über „unerwartete Antworten“ zu verbreiten • The Register

/Öffentliche Freigabe. Dieses Material der ursprünglichen Organisation/des/der ursprünglichen Autor(en) kann zeitpunktbezogenes Material sein und im Hinblick auf Klarheit, Stil und Länge bearbeitet werden. Mirage.News vertritt keine institutionellen Positionen oder Partei und alle hier geäußerten Ansichten, Positionen und Schlussfolgerungen sind ausschließlich die des Autors/der Autoren. Vollständig hier ansehen.

5/5 - (101 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein