Die Forschung untersucht die Beständigkeit und das Ausmaß der Halluzination von KI-Paketen, einer Technik, bei der LLMs nicht vorhandene Schadpakete empfehlen.

Das Langchain-Framework hat die Erweiterung früherer Erkenntnisse durch das Testen eines umfassenderen Spektrums an Fragen, Programmiersprachen (Python, Node.js, Go, .NET und Ruby) und Modellen (GPT-3.5-Turbo, GPT-4) ermöglicht , Bard und Cohere).

Ziel ist es zu beurteilen, ob Halluzinationen bestehen bleiben, sich über Modelle hinweg verallgemeinern (modellübergreifende Halluzinationen) und wiederholt auftreten (Repetitivität).

Langchain-Standardaufforderung

2500 Fragen wurden zu 47.803 „How-to“-Eingabeaufforderungen verfeinert, die den Modellen zugeführt wurden, während die Wiederholbarkeit getestet wurde, indem 20 Fragen mit bestätigten Halluzinationen jeweils 100 Mal gestellt wurden.

Ergebnisse von GPT 4

In einer Studie wurden vier große Sprachmodelle (LLMs) – GPT-4, GPT-3.5, GEMINI und COHERE – hinsichtlich ihrer Anfälligkeit für die Erzeugung von Halluzinationen (sachlich falsche Ergebnisse) verglichen.

GEMINI erzeugte die meisten Halluzinationen (64,5 %), während COHERE die wenigsten hatte (29,1 %). Interessanterweise waren Halluzinationen mit Ausnutzungspotenzial aufgrund von Faktoren wie dezentralen Paket-Repositories (GO) oder reservierten Namenskonventionen (.NET) selten.

Ergebnisse von Zwillinge

Lasso Security Die Studie zeigte auch, dass GEMINI und GPT-3.5 die häufigsten Halluzinationen hatten, was darauf hindeutet, dass ihre Architekturen auf einer tieferen Ebene ähnlich sein könnten. Diese Informationen sind wichtig, um Halluzinationen bei LLMs zu verstehen und zu reduzieren.

Dokumentieren
Führen Sie den kostenlosen ThreatScan für Ihr Postfach aus

Der erweiterte Bedrohungsschutz von Trustifi verhindert das breiteste Spektrum raffinierter Angriffe, bevor sie das Postfach eines Benutzers erreichen. Probieren Sie Trustifi Free Threat Scan mit ausgefeiltem KI-gestütztem E-Mail-Schutz aus.

Zur Untersuchung von Halluzinationen wurden mehrere große Sprachmodelle (LLMs) verwendet. Dies geschieht, indem in jedem Modell unsinnige Ausgaben (halluzinierte Pakete) gefunden und diese Halluzinationen dann verglichen werden, um herauszufinden, was sie gemeinsam haben.

Siehe auch  Warum Sie niemals medizinischen Rat bei ChatGPT einholen sollten

Mehrere LLM-Analysen zeigen 215 Pakete, mit der höchsten Überlappung zwischen Gemini und GPT-3.5 und der geringsten zwischen Cohere und GPT-4.

Ergebnis Modellübergreifender Halluzinationen

Diese modellübergreifende Halluzinationsanalyse bietet wertvolle Einblicke in das Phänomen der Halluzinationen bei LLMs und führt möglicherweise zu einem besseren Verständnis der internen Funktionsweise dieser Systeme.

Es gab ein Phänomen, bei dem Entwickler unwissentlich ein nicht existierendes Python-Paket namens „huggingface-cli“ herunterluden, was auf ein potenzielles Problem hindeutete, bei dem große Sprachmodelle Benutzern möglicherweise ungenaue Informationen über verfügbare Pakete lieferten.

chatgpt“ width=“600″ height=“2″ class=“ amp-wp-enforced-sizes“ layout=“intrinsic“>
Screenshot Von Chatgpt

Zur weiteren Untersuchung luden die Forscher zwei Dummy-Pakete hoch: „huggingface-cli“ (leer) und „blabladsa123“ (ebenfalls leer).

Anschließend überwachten sie die Downloadraten über einen Zeitraum von drei Monaten. Das gefälschte „huggingface-cli“-Paket erhielt über 30.000 Downloads und übertraf damit das Kontrollpaket „blabladsa123“ deutlich.

Das Gefälschte Und Leere Paket Erhielt Mehr Als 30.000 Authentische Downloads

Es deutet auf eine mögliche Schwachstelle hin, bei der Entwickler sich auf unvollständige oder ungenaue Informationsquellen verlassen, um Python-Pakete zu entdecken.

Es wurde angenommen, dass es sich bei der Akzeptanzrate eines Pakets um eine Halluzination handelte (und nicht um ein tatsächliches Paket), und um seine Verwendung zu überprüfen, durchsuchten sie GitHub-Repositories großer Unternehmen, da die Suche Verweise auf das Paket in Repositories mehrerer großer Unternehmen identifizierte.

Installieren Sie Die In Der Readme-Datei Enthaltenen Pakete

Ein Repository mit Alibaba-Recherchen enthielt beispielsweise Anweisungen zur Installation dieses Pakets in seiner README-Datei.

Diese Ergebnisse deuten darauf hin, dass entweder das Paket korrekt ist und von diesen Unternehmen verwendet wird oder dass es ein weit verbreitetes Phänomen ist, Anweisungen für nicht vorhandene Pakete in die Dokumentation aufzunehmen.

Are you from SOC and DFIR Teams? – Analyse Malware Incidents & get live Access with ANY.RUN -> Start Now for Free

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein