SPOKANE, Washington – Bei der Behandlung von Herz-Kreislauf-Problemen sind Ärzte nach wie vor die beste Wahl gegenüber künstlicher Intelligenz. In einer neuen Studie, die an der Washington State University durchgeführt wurde, bewerteten Forscher die Fähigkeit von chatgpt-4, das Risiko eines Herzinfarkts bei simulierten Patienten mit Brustschmerzen einzuschätzen. Das generative KI-System lieferte inkonsistente Schlussfolgerungen und entsprach nicht den Methoden, die Ärzte zur Beurteilung des Herzrisikos eines Patienten verwendeten. Einfach ausgedrückt: KI kann zwar eine medizinische Untersuchung bestehen, aber Ihren Kardiologen kann sie noch nicht ersetzen.

Brustschmerzen sind einer der häufigsten Gründe, warum Menschen in der Notaufnahme landen. Ärzte verlassen sich häufig auf Risikobewertungsinstrumente wie die TIMI- und HEART-Scores, um festzustellen, bei welchen Patienten ein hohes Risiko für einen Herzinfarkt besteht und eine sofortige Behandlung erforderlich ist und welche sicher nach Hause geschickt werden können. Diese Tools berücksichtigen Faktoren wie das Alter des Patienten, seine Krankengeschichte, EKG-Befunde und Bluttestergebnisse.

In dieser Studie, veröffentlicht in der Zeitschrift Plus einshaben die Forscher drei Sätze simulierter Patientendaten erstellt: einen basierend auf den im TIMI-Score verwendeten Variablen, einen basierend auf dem HEART-Score und einen dritten, der satte 44 verschiedene Variablen enthielt, die für einen Patienten mit Brustschmerzen relevant sein könnten. Anschließend gaben sie diese Daten an ChatGPT-4 weiter und baten es, für jeden „Patienten“ einen Risikoscore zu berechnen.

Die guten Nachrichten? Insgesamt korrelierten die Risikoeinschätzungen von ChatGPT-4 sehr gut mit den bewährten TIMI- und HEART-Scores. Dies deutet darauf hin, dass KI-Sprachmodelle wie ChatGPT mit der richtigen Schulung das Potenzial haben, wertvolle Werkzeuge zu sein, um Ärzten dabei zu helfen, das Risiko eines Patienten schnell und genau einzuschätzen.

Siehe auch  Wettbewerbsanalyse mit dem neuronalen Netzwerk ChatGPT – Julia Hernandez auf vc.ru

Allerdings gab es unter der Oberfläche einen besorgniserregenden Trend. Wenn Forscher ChatGPT-4 mehrmals mit genau denselben Patientendaten fütterten, wurden oft sehr unterschiedliche Risikobewertungen ausgegeben. Tatsächlich ergab ChatGPT-4 bei Patienten mit einem festen TIMI- oder HEART-Score fast in der Hälfte der Fälle einen anderen Score. Diese Inkonsistenz war im komplexeren 44-Variablen-Modell noch ausgeprägter, wo ChatGPT-4 nur in 56 Prozent der Fälle zu einem Konsens über die wahrscheinlichste Diagnose kam.

„ChatGPT verhielt sich nicht konsistent“, sagt der leitende Studienautor Dr. Thomas Heston, Forscher am Elson S. Floyd College of Medicine der Washington State University, in einer Medienmitteilung. „Anhand der exakt gleichen Daten würde ChatGPT ein niedriges Risiko vergeben, beim nächsten Mal ein mittleres Risiko und gelegentlich sogar ein hohes Risiko vergeben.“

Wissenschaftler Sagen, Dass Ki Zwar Eine Medizinische Untersuchung Bestehen Kann, Aber Ihren Kardiologen Noch Nicht Ersetzen Kann. (© Appledesign – Stock.adobe.com)

Ein Teil des Problems könnte in der Gestaltung von Sprachmodellen wie ChatGPT-4 liegen. Um die Variabilität und Kreativität der menschlichen Sprache nachzuahmen, integrieren sie ein Element der Zufälligkeit. Dies führt zwar zu natürlicher klingenden Reaktionen, kann jedoch eindeutig ein Problem sein, wenn Konsistenz entscheidend ist, wie es bei medizinischen Diagnosen und Risikobewertungen der Fall ist.

Forscher fanden heraus, dass ChatGPT-4 bei Patienten am unteren und oberen Ende des Risikospektrums eine bessere Leistung erbrachte. Bei den Patienten mit mittlerem Risiko waren die Beurteilungen der KI überall zu erkennen. Dies ist besonders besorgniserregend, da es sich bei diesen Patienten um die Patienten handelt, bei denen eine genaue Risikostratifizierung für die klinische Entscheidungsfindung am wichtigsten ist.

Ein weiteres Warnsignal war die gelegentliche Tendenz von ChatGPT-4, unangemessene Tests zu empfehlen. Beispielsweise wurde manchmal eine Endoskopie (ein Verfahren zur Untersuchung des Verdauungstrakts) als erster Test für einen Patienten vorgeschlagen, bei dem man vermutete, dass er an saurem Reflux leiden könnte, anstatt mit weniger invasiven Tests zu beginnen, wie es ein Arzt tun würde.

Siehe auch  ChatGPT wird 1: Hier finden Sie alle unterhaltsamen Möglichkeiten, wie Sie den beliebten Chatbot von OpenAI nutzen können

„Wir haben festgestellt, dass es viele Unterschiede gibt und dass diese Unterschiede im Ansatz gefährlich sein können“, erklärt Dr. Heston. „Es kann ein nützliches Werkzeug sein, aber ich denke, dass sich die Technologie viel schneller weiterentwickelt, als wir sie verstehen. Daher ist es von entscheidender Bedeutung, dass wir viel Forschung betreiben, insbesondere in diesen klinischen Situationen, in denen viel auf dem Spiel steht.“

Forscher schlagen einige mögliche Wege zur Verbesserung von ChatGPT-4 vor. Eine besteht darin, das Sprachmodell zu optimieren, um den Grad der Zufälligkeit seiner Antworten bei der Analyse medizinischer Daten zu reduzieren. Eine andere besteht darin, spezialisierte Versionen von ChatGPT-4 ausschließlich auf sorgfältig kuratierten medizinischen Datensätzen zu trainieren und nicht auf den breiten, ungefilterten Daten, aus denen es derzeit lernt.

Trotz der aktuellen Einschränkungen bleiben Forscher hinsichtlich der Zukunft der KI in der Medizin optimistisch. Sie schlagen vor, dass Tools wie ChatGPT-4 mit einer weiteren Verfeinerung und in Kombination mit etablierten klinischen Richtlinien eines Tages Ärzten dabei helfen könnten, schnellere und genauere Beurteilungen vorzunehmen, was letztendlich zu einer besseren Patientenversorgung führen könnte.

„ChatGPT könnte bei der Erstellung einer Differenzialdiagnose hervorragend sein, und das ist wahrscheinlich eine seiner größten Stärken“, bemerkt Dr. Heston. „Wenn Sie nicht genau wissen, was mit einem Patienten los ist, können Sie ihn bitten, die fünf häufigsten Diagnosen und die Begründung für jede einzelne zu nennen. Es kann also gut sein, Ihnen beim Durchdenken eines Problems zu helfen, aber es ist nicht gut, wenn es darum geht, die Antwort zu geben.“

Eines ist klar: Wir sind noch nicht am Ziel. So beeindruckend ChatGPT-4 auch ist, diese Studie zeigt, dass es noch nicht bereit ist, auf echte Patienten losgelassen zu werden. Eine gründliche Prüfung und Verfeinerung dieser KI-Modelle ist von entscheidender Bedeutung, bevor ihnen die hohen Risiken medizinischer Entscheidungen anvertraut werden können. Die Gesundheit und Sicherheit der Patienten muss immer an erster Stelle stehen.

Siehe auch  ChatGPT und Claude werden „in der Lage, reale Missionen in Angriff zu nehmen“, sagen Wissenschaftler

Matt Higgins von StudyFinds hat zu diesem Bericht beigetragen.

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein