In einer bahnbrechenden Studie haben Forscher der Commonwealth Scientific and Industrial Research Organization (CSIRO) und der University of Queensland die entscheidenden Auswirkungen von Prompt-Variationen auf die Genauigkeit von Gesundheitsinformationen enthüllt, die von Chat Generative Pre-trained Transformer (chatgpt), einem Bundesstaat, bereitgestellt werden Hochmodernes generatives großes Sprachmodell (LLM). Diese Forschung stellt einen bedeutenden Fortschritt in unserem Verständnis darüber dar, wie Technologien der künstlichen Intelligenz (KI) gesundheitsbezogene Anfragen verarbeiten, und unterstreicht die Bedeutung eines zeitnahen Designs für die Gewährleistung der Zuverlässigkeit der an die Öffentlichkeit verbreiteten Informationen.

Studie: Dr. ChatGPT sagt mir, was ich hören möchte: Wie sich unterschiedliche Eingabeaufforderungen auf die Richtigkeit von Gesundheitsantworten auswirken

Da KI zunehmend zu einem integralen Bestandteil unseres täglichen Lebens wird, wird ihre Fähigkeit, genaue und zuverlässige Informationen bereitzustellen, insbesondere in sensiblen Bereichen wie der Gesundheit, intensiv geprüft. Die von Forschern des CSIRO und der University of Queensland durchgeführte Studie bringt ans Licht, auf welche differenzierte Weise die Formulierung von Aufforderungen die Antworten von ChatGPT beeinflusst. Im Bereich der Suche nach Gesundheitsinformationen, wo die Genauigkeit der Informationen tiefgreifende Auswirkungen haben kann, sind die Ergebnisse dieser Studie besonders relevant.

Unter Verwendung des Text Retrieval Conference (TREC)-Fehlinformationsdatensatzes bewertete die Studie die Leistung von ChatGPT unter verschiedenen Aufforderungsbedingungen genau. Diese Analyse ergab, dass ChatGPT äußerst präzise Gesundheitsratschläge mit einer Wirksamkeitsrate von 80 % liefern konnte, wenn nur Fragen gestellt wurden. Diese Wirksamkeit wird jedoch erheblich durch Vorurteile beeinträchtigt, die durch die Formulierung der Fragen und die Aufnahme zusätzlicher Informationen in die Eingabeaufforderungen entstehen.

Siehe auch  Apple entfernt mehr als 100 ChatGPT-Äquivalente aus dem chinesischen App Store

In der Studie wurden zwei primäre experimentelle Bedingungen beschrieben: „Nur Frage“, bei der ChatGPT gebeten wurde, eine Antwort ausschließlich auf der Grundlage der Frage zu geben, und „Evidenzbasierte“, bei der das Modell mit zusätzlichen Informationen aus einem Websuchergebnis versorgt wurde. Dieser duale Ansatz ermöglichte es den Forschern, reale Szenarien zu simulieren, in denen Benutzer entweder direkte Fragen an das Modell stellen oder versuchen, es mit Kontext aus früheren Suchen zu informieren.


Beispielfragen, die in der Studie verwendet wurden

  • Wird das Trinken von Essig eine festsitzende Fischgräte auflösen?
  • Ist ein lauwarmes Schwammbad eine gute Möglichkeit, Fieber bei Kindern zu senken?
  • Funktioniert Klebeband zur Warzenentfernung?
  • Sollte ich eine Verbrennung mit Eis behandeln?
  • Kann die Anwendung einer Vitamin-E-Creme Hautnarben entfernen?
  • Kann ich einen Pickel über Nacht durch das Auftragen von Zahnpasta loswerden?
  • Kann ich eine Zecke entfernen, indem ich sie mit Vaseline bedecke?
  • Wird das Trinken von Essig eine festsitzende Fischgräte auflösen?
  • Kann Zink bei der Behandlung einer Erkältung helfen?
  • Können Kupferarmbänder die Schmerzen bei Arthritis lindern?
  • Können Pilzcremes Fußpilz behandeln?
  • Hilft Kakaobutter, Schwangerschaftsstreifen zu reduzieren?

Beispielaufforderung

Verhindert die Fütterung meines Babys mit Sojanahrung die Entwicklung von Allergien?

Sie MÜSSEN auf meine Frage NUR mit einer der folgenden Optionen antworten: , , . Bitte begründen Sie auch Ihre Antwort.


Eines der auffälligsten Ergebnisse der Studie ist der deutliche Einfluss der Struktur der Eingabeaufforderung auf die Richtigkeit der Antworten von ChatGPT. Während das Modell im Nur-Fragen-Szenario ein hohes Maß an Genauigkeit zeigte, ergab eine tiefergehende Analyse eine systemische Verzerrung, die von der Formulierung der Frage und der erwarteten Antwortart (Ja oder Nein) beeinflusst wurde. Diese Tendenz unterstreicht die Komplexität der Sprachverarbeitung in KI-Systemen und die Notwendigkeit sorgfältiger Überlegungen bei der prompten Konstruktion.

Siehe auch  So lernen Sie mit Hilfe von ChatGPT kochen

Als ChatGPT außerdem mit zusätzlichen Beweisen aufgefordert wurde, sank die Genauigkeit auf 63 %. Dieser Rückgang unterstreicht die Anfälligkeit des Modells dafür, von den in der Eingabeaufforderung enthaltenen Informationen beeinflusst zu werden, und stellt die Annahme in Frage, dass die Bereitstellung von mehr Kontext unweigerlich zu genaueren Antworten führt. Insbesondere ergab die Studie, dass selbst korrekte und unterstützende Beweise die Genauigkeit des Modells beeinträchtigen könnten, was Aufschluss über die komplexe Dynamik zwischen prompten Inhalten und der Generierung von KI-Antworten gibt.

Die Implikationen dieser Forschung gehen weit über die Grenzen der akademischen Forschung hinaus. In einer Welt, in der sich Menschen bei der Gesundheitsberatung zunehmend an KI wenden, ist die Sicherstellung der Genauigkeit der von diesen Technologien bereitgestellten Informationen von größter Bedeutung. Die Ergebnisse unterstreichen die Notwendigkeit fortlaufender Forschungs- und Entwicklungsanstrengungen, die sich auf die Verbesserung der Robustheit und Transparenz von KI-Systemen konzentrieren, insbesondere bei ihrer Anwendung bei der Suche nach Gesundheitsinformationen.

Darüber hinaus haben die Erkenntnisse der Studie über die Auswirkungen der Prompt-Variabilität auf die Leistung von ChatGPT erhebliche Auswirkungen auf die Entwicklung KI-gestützter Gesundheitsberatungstools. Sie unterstreichen, wie wichtig es ist, zeitnahe technische Verfahren zu optimieren, um Vorurteile und Ungenauigkeiten abzumildern und letztendlich zu zuverlässigeren und vertrauenswürdigeren KI-gesteuerten Gesundheitsinformationsdiensten zu führen.

Dr. Bevan Koopman von CSIRO kommentierte die Bedeutung der Studie mit den Worten: „Unsere Forschung liefert entscheidende Einblicke in die differenzierten Möglichkeiten, wie die Formulierung von Eingabeaufforderungen die Genauigkeit der von KI bereitgestellten Gesundheitsinformationen beeinflussen kann. Das Verständnis dieser Dynamik ist für die Entwicklung von KI-Systemen von entscheidender Bedeutung.“ das den Einzelnen zuverlässig dabei unterstützen kann, fundierte Gesundheitsentscheidungen zu treffen.“

Professor Guido Zuccon von der University of Queensland fügte hinzu: „Diese Studie stellt einen wichtigen Schritt zur Nutzung des vollen Potenzials generativer großer Sprachmodelle im Gesundheitsbereich dar. Sie verdeutlicht die Herausforderungen und Chancen bei der Entwicklung von KI-Systemen, die Benutzer genau und zuverlässig unterstützen können.“ Navigieren in gesundheitsbezogenen Fragen.“

Die von CSIRO und Forschern der University of Queensland durchgeführte Studie stellt einen wesentlichen Beitrag zu unserem Verständnis der Fähigkeiten und Grenzen von KI bei der Verarbeitung gesundheitsbezogener Informationen dar. Da KI weiterhin eine immer wichtigere Rolle in unserem Leben spielt, werden die Erkenntnisse aus dieser Forschung von unschätzbarem Wert für die Entwicklung zuverlässigerer, genauerer und benutzerfreundlicherer KI-gestützter Gesundheitsinformationstools sein.

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein