Start ChatGPT Eine einfache Technik, um ChatGPT gegen Jailbreak-Angriffe zu verteidigen

Eine einfache Technik, um ChatGPT gegen Jailbreak-Angriffe zu verteidigen

Von

Januar 18, 2024

Reviewed By Debarshi

von Ingrid Fadelli, Tech Xplore

chatgpt against jailbreak attacks”>

Beispiel eines Jailbreak-Angriffs und der vom Team vorgeschlagenen Selbsterinnerung im Systemmodus. Kredit: Naturmaschinenintelligenz (2023). DOI: 10.1038/s42256-023-00765-8.

Große Sprachmodelle (LLMs), Deep-Learning-basierte Modelle, die darauf trainiert sind, geschriebene Texte zu generieren, zusammenzufassen, zu übersetzen und zu verarbeiten, haben nach der Veröffentlichung der Konversationsplattform ChatGPT von Open AI große Aufmerksamkeit erlangt. Während ChatGPT und ähnliche Plattformen mittlerweile für eine Vielzahl von Anwendungen genutzt werden, könnten sie anfällig für eine bestimmte Art von Cyberangriff sein, der voreingenommene, unzuverlässige oder sogar beleidigende Reaktionen hervorruft.

Forscher der Hong Kong University of Science and Technology, der University of Science and Technology of China, der Tsinghua University und Microsoft Research Asia führten kürzlich eine Studie durch, in der sie die potenziellen Auswirkungen dieser Angriffe und Techniken untersuchten, die Modelle davor schützen könnten. Ihre Papierveröffentlicht in Naturmaschinenintelligenzstellt eine neue, von der Psychologie inspirierte Technik vor, die dazu beitragen könnte, ChatGPT und ähnliche LLM-basierte Konversationsplattformen vor Cyberangriffen zu schützen.

„ChatGPT ist ein gesellschaftlich wirkungsvolles Tool der künstlichen Intelligenz mit Millionen von Nutzern und Integration in Produkte wie Bing“, schreiben Yueqi Xie, Jingwei Yi und ihre Kollegen in ihrem Artikel. „Das Aufkommen von Jailbreak-Angriffen stellt jedoch eine erhebliche Bedrohung für dessen verantwortungsvolle und sichere Nutzung dar. Jailbreak-Angriffe nutzen gegnerische Aufforderungen, um die ethischen Schutzmaßnahmen von ChatGPT zu umgehen und schädliche Reaktionen hervorzurufen.“

Siehe auch Microsofts Pläne, ChatGPT-betriebenes Bing mit Anzeigen zu füllen, könnten eine Katastrophe sein

Das Hauptziel der jüngsten Arbeit von Xie, Yi und ihren Kollegen bestand darin, die Auswirkungen hervorzuheben, die Jailbreak-Angriffe auf ChatGPT haben können, und praktikable Verteidigungsstrategien gegen diese Angriffe einzuführen. Jailbreak-Angriffe nutzen im Wesentlichen die Schwachstellen von LLMs aus, um von Entwicklern festgelegte Einschränkungen zu umgehen und Modellreaktionen hervorzurufen, die normalerweise eingeschränkt wären.

„Dieses Papier untersucht die schwerwiegenden, aber noch wenig erforschten Probleme, die durch Jailbreaks entstehen, sowie mögliche Abwehrtechniken“, erklären Xie, Yi und ihre Kollegen in ihrem Papier. „Wir führen einen Jailbreak-Datensatz mit verschiedenen Arten von Jailbreak-Eingabeaufforderungen und böswilligen Anweisungen ein.“

Die Forscher stellten zunächst einen Datensatz zusammen, der 580 Beispiele für Jailbreak-Eingabeaufforderungen enthielt, die darauf ausgelegt waren, Einschränkungen zu umgehen, die ChatGPT daran hindern, als „unmoralisch“ erachtete Antworten bereitzustellen. Dazu gehören unzuverlässige Texte, die Fehlinformationen schüren könnten, sowie giftige oder beleidigende Inhalte.

Als sie ChatGPT anhand dieser Jailbreak-Eingabeaufforderungen testeten, stellten sie fest, dass es oft in ihre „Falle“ tappte und die von ihnen angeforderten bösartigen und unethischen Inhalte produzierte. Xie, Yi und ihre Kollegen machten sich dann daran, eine einfache und dennoch effektive Technik zu entwickeln, die ChatGPT vor sorgfältig maßgeschneiderten Jailbreak-Angriffen schützen könnte.

Die von ihnen entwickelte Technik ist vom psychologischen Konzept der Selbsterinnerung inspiriert, d. h. Anstupser, die Menschen dabei helfen können, sich an Aufgaben zu erinnern, die sie erledigen müssen, an Ereignisse, an denen sie teilnehmen sollen, usw. Der Verteidigungsansatz der Forscher, der als Systemmodus-Selbsterinnerung bezeichnet wird, ist in ähnlicher Weise darauf ausgelegt, Chat-GPT daran zu erinnern, dass die von ihm bereitgestellten Antworten bestimmten Richtlinien folgen sollten.

Siehe auch Wie ChatGPT die C-Suite mit einer neuen KI-Führungsposition umgestaltet

„Diese Technik kapselt die Anfrage des Benutzers in einer Systemaufforderung, die ChatGPT daran erinnert, verantwortungsbewusst zu reagieren“, schreiben die Forscher. „Experimentelle Ergebnisse zeigen, dass Selbsterinnerungen die Erfolgsquote von Jailbreak-Angriffen gegen ChatGPT deutlich von 67,21 % auf 19,34 % reduzieren.“

Bisher testeten die Forscher die Wirksamkeit ihrer Technik anhand des von ihnen erstellten Datensatzes und stellten fest, dass sie vielversprechende Ergebnisse erzielte und die Erfolgsquote von Angriffen verringerte, obwohl nicht alle Angriffe verhindert wurden. In Zukunft könnte diese neue Technik weiter verbessert werden, um die Anfälligkeit von LLMs für diese Angriffe zu verringern und möglicherweise auch die Entwicklung anderer ähnlicher Verteidigungsstrategien anzuregen.

„Unsere Arbeit dokumentiert systematisch die Bedrohungen, die von Jailbreak-Angriffen ausgehen, führt einen Datensatz zur Bewertung defensiver Interventionen ein und analysiert ihn und schlägt die psychologisch inspirierte Selbsterinnerungstechnik vor, die Jailbreaks ohne weiteres Training effizient und effektiv abmildern kann“, fassen die Forscher in ihrer Arbeit zusammen.

Mehr Informationen: Yueqi Xie et al., Verteidigung von ChatGPT gegen Jailbreak-Angriffe über Selbsterinnerungen, Naturmaschinenintelligenz (2023). DOI: 10.1038/s42256-023-00765-8.

Zeitschrifteninformationen: Naturmaschinenintelligenz