Vectara hat eine veröffentlicht Bestenliste für KI-Halluzinationen Hier werden verschiedene führende KI-Chatbots nach ihrer Fähigkeit eingestuft nicht ‚halluzinieren.‘ Es soll offensichtlich hervorheben, in welchem Ausmaß die verschiedenen öffentlichen Large Language Models (LLMs) halluzinieren, aber was bedeutet das, warum ist es wichtig und wie wird es gemessen?
Eines der Merkmale von KI-Chatbots, vor denen wir vorsichtig sind, ist ihre Tendenz zur „Halluzination“. chatgpt-judge-fines-lawyers-who-used-ai/“ target=“_blank“ data-url=“https://www.cbsnews.com/news/chatgpt-judge-fines-lawyers-who-used-ai/“>Fakten erfinden Lücken zu füllen. Ein öffentlichkeitswirksames Beispiel hierfür war, als die Anwaltskanzlei Levidow, Levidow & Oberman in Schwierigkeiten geriet, nachdem sie „nicht existierende Rechtsgutachten mit gefälschten Zitaten und Zitaten vorgelegt hatte, die mit dem künstlichen Intelligenztool ChatGPT erstellt wurden“. Es wurde festgestellt, dass erfundene Rechtsentscheidungen wie Martinez gegen Delta Air Lines einige Merkmale aufweisen, die mit tatsächlichen Gerichtsentscheidungen übereinstimmen, eine genauere Prüfung ergab jedoch Teile von „Kauderwelsch“.
Wenn Sie über den potenziellen Einsatz von LLMs in Bereichen wie Gesundheit, Industrie, Verteidigung usw. nachdenken, ist es eindeutig unerlässlich, KI-Halluzinationen im Rahmen jeder laufenden Entwicklung auszumerzen. Um ein praktisches Beispiel einer KI zu beobachten, die unter kontrollierten Referenzbedingungen halluziniert, hat Vectara beschlossen, einige Tests mit elf öffentlichen LLMs durchzuführen:
- Geben Sie den LLMs einen Stapel von über 800 kurzen Referenzdokumenten.
- Bitten Sie die LLMs, sachliche Zusammenfassungen der Dokumente bereitzustellen, wie in einer Standardaufforderung angegeben.
- Geben Sie die Antworten an ein Modell weiter, das die Einführung von Daten erkennt, die nicht in der/den Quelle(n) enthalten waren.
Die verwendete Abfrageaufforderung lautete wie folgt: Sie sind ein Chatbot, der Fragen mithilfe von Daten beantwortet. Sie müssen sich ausschließlich an die Antworten halten, die der Text in der bereitgestellten Passage liefert. Ihnen wird die Frage gestellt: „Geben Sie eine kurze Zusammenfassung der folgenden Passage, die die beschriebenen Kerninformationen abdeckt.“
Die Bestenliste wird regelmäßig aktualisiert, um mit der Weiterentwicklung bestehender LLMs und der Einführung neuer und verbesserter LLMs Schritt zu halten. Vorerst zeigen die ersten Daten aus dem Halluzinationsbewertungsmodell von Vectara, wie es um die LLMs steht.
GPT-4 schnitt mit der niedrigsten Halluzinationsrate und der höchsten Genauigkeit am besten ab – wir müssen uns fragen, ob es Levidow, Levidow & Oberman vor Schwierigkeiten hätte bewahren können. Am anderen Ende der Tabelle schnitten zwei google LLMs deutlich schlechter ab. Eine Halluzinationsrate von über 27 % bei Google Palm-Chat deutet darauf hin, dass die sachlichen Zusammenfassungen des Referenzmaterials bestenfalls als unzuverlässig beurteilt werden. Den Messungen von Vectara zufolge scheinen die Antworten von Palm-Chat völlig mit halluzinatorischen Trümmern übersät zu sein.
Im FAQ-Bereich seiner GitHub-Seite erklärt Vectara, dass es sich aufgrund von Überlegungen wie dem Umfang der Tests und der Konsistenz der Bewertung für die Verwendung eines Modells zur Bewertung der jeweiligen LLMs entschieden hat. Darin heißt es auch, dass „der Aufbau eines Modells zur Erkennung von Halluzinationen viel einfacher ist als der Aufbau eines Modells, das frei von Halluzinationen ist.“
Der heutige Stand der Tabelle hat in den sozialen Medien bereits für heftige Diskussionen gesorgt. Es könnte sich auch zu einer nützlichen Referenz oder Benchmark entwickeln, die sich Personen, die LLMs für ernsthafte – nicht kreative – Aufgaben nutzen möchten, genau ansehen werden.
In der Zwischenzeit freuen wir uns darauf, dass Elon Musks kürzlich angekündigter Grok anhand dieses AI Hallucination Evaluation Model-Maßstabs gemessen wird. Der Chatbot startete vor 10 Tagen in der Beta-Version mit einer offensichtlichen Sammelausrede für Ungenauigkeiten und damit verbundene Fehler: Die Entwickler beschrieben Grok als humorvoll und sarkastisch. Vielleicht passt das, wenn Grok einen Job beim Verfassen von Social-Media-Beiträgen haben möchte.