Forscher aus Carnegie Mellon Universität (CMU) veröffentlicht haben LLM-Angriffeein Algorithmus zum Konstruieren gegnerischer Angriffe auf eine Vielzahl großer Sprachmodelle (LLMs), darunter chatgpt, ClaudeUnd google.com/“>Barde. Die Angriffe werden automatisch generiert und sind in 84 % der Fälle auf GPT-3.5 und GPT-4 und in 66 % der Fälle auf PaLM-2 erfolgreich.
Im Gegensatz zu den meisten „Jailbreak“-Angriffen, die manuell mithilfe von Versuch und Irrtum erstellt werden, hat das CMU-Team einen dreistufigen Prozess entwickelt, um automatisch Aufforderungssuffixe zu generieren, die die Sicherheitsmechanismen des LLM umgehen und zu einer schädlichen Reaktion führen können. Die Eingabeaufforderungen sind ebenfalls vorhanden übertragbar, was bedeutet, dass ein bestimmtes Suffix oft auf vielen verschiedenen LLMs funktioniert, sogar auf Closed-Source-Modellen. Um die Wirksamkeit des Algorithmus zu messen, haben die Forscher einen Benchmark namens AdvBench erstellt; Bei der Bewertung anhand dieses Benchmarks weist LLM Attacks eine Erfolgsquote von 88 % gegen Vicuna auf, verglichen mit 25 % bei einem gegnerischen Basisalgorithmus. Laut dem CMU-Team:
Am besorgniserregendsten ist vielleicht, dass unklar ist, ob ein solches Verhalten von LLM-Anbietern jemals vollständig behoben werden kann. Analoge gegnerische Angriffe haben sich in den letzten 10 Jahren in der Computer Vision als ein sehr schwierig zu bewältigendes Problem erwiesen. Es ist möglich, dass die Natur von Deep-Learning-Modellen solche Bedrohungen unvermeidlich macht. Daher glauben wir, dass diese Überlegungen berücksichtigt werden sollten, wenn wir die Nutzung und das Vertrauen in solche KI-Modelle erhöhen.
Mit der Veröffentlichung von ChatGPT und GPT-4, Es wurden viele Techniken zum Jailbreaking dieser Modelle entwickelt, die aus Eingabeaufforderungen bestand, die dazu führen konnten, dass die Modelle ihre Sicherheitsvorkehrungen umgingen und potenziell schädliche Reaktionen ausgab. Während diese Eingabeaufforderungen im Allgemeinen durch Experimente entdeckt werden, bietet der LLM Attacks-Algorithmus eine automatisierte Möglichkeit, sie zu erstellen. Der erste Schritt besteht darin, eine Zielsequenz von Tokens „Sicher, hier ist (Inhalt der Abfrage)“ zu erstellen, wobei „Inhalt der Abfrage“ die tatsächliche Aufforderung des Benutzers ist, die nach einer schädlichen Antwort fragt.
Als Nächstes generiert der Algorithmus ein gegnerisches Suffix für die Eingabeaufforderung, indem er mithilfe eines Greedy-Goordinate-Gradienten (GCG) eine Sequenz von Token findet, die wahrscheinlich dazu führt, dass der LLM die Zielsequenz ausgibt. Dies erfordert zwar Zugriff auf das neuronale Netzwerk des LLM, das Team stellte jedoch fest, dass die Ergebnisse durch die Ausführung von GCG mit vielen Open-Source-Modellen sogar auf geschlossene Modelle übertragbar waren.
In einer Pressemitteilung der CMU über ihre Forschung diskutierenCo-Autor Matt Fredrikson sagte:
Es besteht die Sorge, dass diese Modelle in autonomen Systemen, die ohne menschliche Aufsicht funktionieren, eine größere Rolle spielen werden. Da autonome Systeme immer mehr zur Realität werden, wird es sehr wichtig sein, sicherzustellen, dass wir eine zuverlässige Möglichkeit haben, zu verhindern, dass sie von Angriffen wie diesen gekapert werden … Im Moment haben wir einfach keine überzeugende Möglichkeit, dies zu stoppen Daher besteht der nächste Schritt darin, herauszufinden, wie man diese Modelle repariert. Zu verstehen, wie man diese Angriffe durchführt, ist oft der erste Schritt beim Aufbau einer starken Verteidigung.
Hauptautor Andy Zou, Doktorand an der CMU, schrieb über die Arbeit auf Twitter. Er sagte:
Trotz der Risiken halten wir eine vollständige Offenlegung für angemessen. Die hier vorgestellten Angriffe sind einfach zu implementieren, sind in ähnlicher Form bereits aufgetreten und könnten letztendlich von jedem engagierten Team entdeckt werden, das LLMs missbrauchen möchte.
David Krueger, Assistenzprofessor an der Universität Cambridge, antwortete auf Zous ThreadSprichwort:
Angesichts der Tatsache, dass 10 Jahre Forschung und Tausende von Veröffentlichungen keine Lösung für kontradiktorische Beispiele in Bildmodellen gefunden haben, haben wir guten Grund, bei LLMs das gleiche Ergebnis zu erwarten.
In einer Diskussion der Arbeit an Hacker News, ein Benutzer wies darauf hin:
Denken Sie daran, dass ein wichtiger Punkt dieser Forschung darin besteht, dass diese Angriffe nicht unter Verwendung des Zielsystems entwickelt werden müssen. Wenn die Autoren davon sprechen, dass die Angriffe „universell“ seien, meinen sie damit, dass sie ein vollständig lokales Modell auf ihren eigenen Computern verwendet haben, um diese Angriffe zu generieren, diese Angriffe dann kopiert und in GPT-3.5 eingefügt haben und bedeutende Erfolgsraten erzielt haben. Eine Ratenbegrenzung wird Sie davor nicht bewahren, da der Angriff nicht über Ihre Server, sondern lokal generiert wird. Die erste Eingabeaufforderung, die Ihre Server erhalten, enthält bereits die fertige Angriffszeichenfolge – und Forscher stellten in einigen Situationen sogar für GPT-4 Erfolgsraten von etwa 50 % fest.
Code zum Reproduzieren der Experimente zu LLM-Angriffen Vergleich der AdvBench-Daten ist auf GitHub verfügbar. A Demo Die Beschreibung mehrerer gegnerischer Angriffe ist auf der Projektwebsite verfügbar.