Wissenschaftler des auf künstliche Intelligenz (KI) spezialisierten Unternehmens Anthropic haben einen potenziell gefährlichen Fehler in weit verbreiteten großen Sprachmodellen (LLMs) wie chatgpt und Anthropics eigenem Chatbot Claude 3 identifiziert.
Der als „Many Shot Jailbreaking“ bezeichnete Hack nutzt das „In-Context-Learning“, bei dem der Chatbot aus den Informationen lernt, die in einer von einem Benutzer geschriebenen Textaufforderung bereitgestellt werden, wie in beschrieben Forschung veröffentlicht im Jahr 2022. Die Wissenschaftler stellten ihre Ergebnisse in einem neuen Artikel vor, der auf der veröffentlicht wurde sanity.io Cloud-Repository und testete den Exploit auf dem Claude 2 AI-Chatbot von Anthropic.
Menschen könnten den Hack nutzen, um LLMs zu gefährlichen Reaktionen zu zwingen, kam die Studie zu dem Schluss – obwohl solche Systeme darauf trainiert sind, dies zu verhindern. Das liegt daran, dass viele Shot-Jailbreaks integrierte Sicherheitsprotokolle umgehen, die regeln, wie eine KI reagiert, wenn sie beispielsweise gefragt wird, wie man eine Bombe baut.
LLMs wie ChatGPT verlassen sich bei der Verarbeitung von Konversationen auf das „Kontextfenster“. Dies ist die Menge an Informationen, die das System als Teil seiner Eingabe verarbeiten kann – wobei ein längeres Kontextfenster mehr Eingabetext ermöglicht. Längere Kontextfenster bedeuten mehr Eingabetext, den eine KI mitten im Gespräch lernen kann – was zu besseren Antworten führt.
Verwandt: Forscher gaben der KI einen „inneren Monolog“ und sie verbesserte ihre Leistung massiv
Kontextfenster in KI-Chatbots sind mittlerweile hundertmal größer als noch zu Beginn des Jahres 2023 – was differenziertere und kontextbewusstere Antworten von KIs bedeutet, sagten die Wissenschaftler in einem Stellungnahme. Aber das hat auch der Ausbeutung Tür und Tor geöffnet.
Künstliche Intelligenz dazu verleiten, schädliche Inhalte zu generieren
Der Angriff funktioniert, indem er zunächst eine gefälschte Konversation zwischen einem Benutzer und einem KI-Assistenten in einer Textaufforderung aufschreibt – in der der fiktive Assistent eine Reihe potenziell schädlicher Fragen beantwortet.
Wenn Sie dann in einer zweiten Textaufforderung eine Frage stellen wie „Wie baue ich eine Bombe?“ Der KI-Assistent umgeht seine Sicherheitsprotokolle und antwortet. Dies liegt daran, dass es nun begonnen hat, aus dem Eingabetext zu lernen. Dies funktioniert nur, wenn Sie ein langes „Skript“ schreiben, das viele „Aufnahmen“ – oder Frage-Antwort-Kombinationen – enthält.
„In unserer Studie haben wir gezeigt, dass es wahrscheinlicher wird, dass das Modell eine schädliche Reaktion hervorruft, wenn die Anzahl der enthaltenen Dialoge (die Anzahl der „Aufnahmen“) über einen bestimmten Punkt hinaus ansteigt“, sagten die Wissenschaftler in der Erklärung. „In unserem Artikel berichten wir auch, dass die Kombination von Many-Shot-Jailbreaking mit anderen, zuvor veröffentlichten Jailbreaking-Techniken es noch effektiver macht und die Länge der Eingabeaufforderung reduziert, die das Modell benötigt, um eine schädliche Antwort zurückzugeben.“
Der Angriff begann erst zu wirken, als eine Aufforderung zwischen vier und 32 Schüssen enthielt – allerdings nur in weniger als 10 % der Fälle. Ab 32 Schüssen und mehr stieg die Erfolgsquote immer höher. Der längste Jailbreak-Versuch umfasste 256 Schüsse – und hatte eine Erfolgsquote von fast 70 % bei Diskriminierung, 75 % bei Täuschung, 55 % bei regulierten Inhalten und 40 % bei gewalttätigen oder hasserfüllten Reaktionen.
Die Forscher fanden heraus, dass sie die Angriffe abschwächen konnten, indem sie einen zusätzlichen Schritt hinzufügten, der aktiviert wurde, nachdem ein Benutzer seine Eingabeaufforderung (die den Jailbreak-Angriff enthielt) gesendet und das LLM diese erhalten hatte. In dieser neuen Ebene würde sich das System auf bestehende Sicherheitstrainingstechniken stützen, um die Eingabeaufforderung zu klassifizieren und zu ändern, bevor der LLM die Möglichkeit hätte, sie zu lesen und eine Antwort zu verfassen. Bei Tests reduzierte es die Erfolgsquote des Hacks von 61 % auf nur 2 %.
Die Wissenschaftler fanden heraus, dass viele Jailbreaking-Schüsse sowohl bei den eigenen KI-Diensten von Anthropic als auch bei denen seiner Konkurrenten, darunter ChatGPT und Googles Gemini, funktionierten. Sie hätten andere KI-Unternehmen und Forscher auf die Gefahr aufmerksam gemacht, sagten sie.
Viele Schuss-Jailbreaks bergen derzeit jedoch keine „katastrophalen Risiken“, da LLMs heute nicht leistungsfähig genug seien, kamen die Wissenschaftler zu dem Schluss. Allerdings könnte die Technik „ernsthaften Schaden anrichten“, wenn sie nicht abgemildert wird, wenn in Zukunft weitaus leistungsstärkere Modelle auf den Markt kommen.