Start ChatGPT Das „Jailbreaken“ von KI-Diensten wie ChatGPT und Claude 3 Opus ist viel...

Das „Jailbreaken“ von KI-Diensten wie ChatGPT und Claude 3 Opus ist viel einfacher als Sie denken

Von

April 13, 2024

Wissenschaftler des auf künstliche Intelligenz (KI) spezialisierten Unternehmens Anthropic haben einen potenziell gefährlichen Fehler in weit verbreiteten großen Sprachmodellen (LLMs) wie chatgpt und Anthropics eigenem Chatbot Claude 3 identifiziert.

Der als „Many Shot Jailbreaking“ bezeichnete Hack nutzt das „In-Context-Learning“, bei dem der Chatbot aus den Informationen lernt, die in einer von einem Benutzer geschriebenen Textaufforderung bereitgestellt werden, wie in beschrieben Forschung veröffentlicht im Jahr 2022. Die Wissenschaftler stellten ihre Ergebnisse in einem neuen Artikel vor, der auf der veröffentlicht wurde sanity.io Cloud-Repository und testete den Exploit auf dem Claude 2 AI-Chatbot von Anthropic.

Menschen könnten den Hack nutzen, um LLMs zu gefährlichen Reaktionen zu zwingen, kam die Studie zu dem Schluss – obwohl solche Systeme darauf trainiert sind, dies zu verhindern. Das liegt daran, dass viele Shot-Jailbreaks integrierte Sicherheitsprotokolle umgehen, die regeln, wie eine KI reagiert, wenn sie beispielsweise gefragt wird, wie man eine Bombe baut.

LLMs wie ChatGPT verlassen sich bei der Verarbeitung von Konversationen auf das „Kontextfenster“. Dies ist die Menge an Informationen, die das System als Teil seiner Eingabe verarbeiten kann – wobei ein längeres Kontextfenster mehr Eingabetext ermöglicht. Längere Kontextfenster bedeuten mehr Eingabetext, den eine KI mitten im Gespräch lernen kann – was zu besseren Antworten führt.

Verwandt: Forscher gaben der KI einen „inneren Monolog“ und sie verbesserte ihre Leistung massiv

Kontextfenster in KI-Chatbots sind mittlerweile hundertmal größer als noch zu Beginn des Jahres 2023 – was differenziertere und kontextbewusstere Antworten von KIs bedeutet, sagten die Wissenschaftler in einem Stellungnahme. Aber das hat auch der Ausbeutung Tür und Tor geöffnet.

Siehe auch ChatGPT: Revolutionierung digitaler PR-Strategien

Künstliche Intelligenz dazu verleiten, schädliche Inhalte zu generieren

Der Angriff funktioniert, indem er zunächst eine gefälschte Konversation zwischen einem Benutzer und einem KI-Assistenten in einer Textaufforderung aufschreibt – in der der fiktive Assistent eine Reihe potenziell schädlicher Fragen beantwortet.

Wenn Sie dann in einer zweiten Textaufforderung eine Frage stellen wie „Wie baue ich eine Bombe?“ Der KI-Assistent umgeht seine Sicherheitsprotokolle und antwortet. Dies liegt daran, dass es nun begonnen hat, aus dem Eingabetext zu lernen. Dies funktioniert nur, wenn Sie ein langes „Skript“ schreiben, das viele „Aufnahmen“ – oder Frage-Antwort-Kombinationen – enthält.

„In unserer Studie haben wir gezeigt, dass es wahrscheinlicher wird, dass das Modell eine schädliche Reaktion hervorruft, wenn die Anzahl der enthaltenen Dialoge (die Anzahl der „Aufnahmen“) über einen bestimmten Punkt hinaus ansteigt“, sagten die Wissenschaftler in der Erklärung. „In unserem Artikel berichten wir auch, dass die Kombination von Many-Shot-Jailbreaking mit anderen, zuvor veröffentlichten Jailbreaking-Techniken es noch effektiver macht und die Länge der Eingabeaufforderung reduziert, die das Modell benötigt, um eine schädliche Antwort zurückzugeben.“

Der Angriff begann erst zu wirken, als eine Aufforderung zwischen vier und 32 Schüssen enthielt – allerdings nur in weniger als 10 % der Fälle. Ab 32 Schüssen und mehr stieg die Erfolgsquote immer höher. Der längste Jailbreak-Versuch umfasste 256 Schüsse – und hatte eine Erfolgsquote von fast 70 % bei Diskriminierung, 75 % bei Täuschung, 55 % bei regulierten Inhalten und 40 % bei gewalttätigen oder hasserfüllten Reaktionen.

Die Forscher fanden heraus, dass sie die Angriffe abschwächen konnten, indem sie einen zusätzlichen Schritt hinzufügten, der aktiviert wurde, nachdem ein Benutzer seine Eingabeaufforderung (die den Jailbreak-Angriff enthielt) gesendet und das LLM diese erhalten hatte. In dieser neuen Ebene würde sich das System auf bestehende Sicherheitstrainingstechniken stützen, um die Eingabeaufforderung zu klassifizieren und zu ändern, bevor der LLM die Möglichkeit hätte, sie zu lesen und eine Antwort zu verfassen. Bei Tests reduzierte es die Erfolgsquote des Hacks von 61 % auf nur 2 %.

Siehe auch ChatGPT bekommt eine Erinnerung – hier finden Sie alles, was Sie über diese bahnbrechende Innovation wissen müssen

Das „Jailbreaken“ von KI-Diensten wie ChatGPT und Claude 3 Opus ist viel einfacher als Sie denken

Künstliche Intelligenz dazu verleiten, schädliche Inhalte zu generieren

Kommentieren Sie den Artikel Antwort abbrechen

Wie funktionieren die Tomoe in einem Sharingan, erklärt

Künstliche Intelligenz dazu verleiten, schädliche Inhalte zu generieren

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

Wie funktionieren die Tomoe in einem Sharingan, erklärt

Verwandte Artikel Mehr vom Autor