Forscher haben herausgefunden, dass es möglich ist, den in KI-Chatbots integrierten Mechanismus zu umgehen, um sie in die Lage zu versetzen, auf Anfragen zu verbotenen oder sensiblen Themen zu antworten, indem man im Rahmen des Trainingsprozesses einen anderen KI-Chatbot verwendet.
Ein Informatikerteam aus Nanyang Technological University (NTU) of Singapore nennt die Methode inoffiziell einen „Jailbreak“, offiziell handelt es sich jedoch um einen „Masterkey“-Prozess. Dieses System nutzt Chatbots, darunter chatgpt, google Bard und Microsoft Bing Chat, in einer zweiteiligen Trainingsmethode gegeneinander, die es zwei Chatbots ermöglicht, die Modelle des anderen zu lernen und alle Befehle gegen verbotene Themen umzuleiten.
Zum Team gehören Professor Liu Yang und NTU Ph.D. Die Studenten Deng Gelei und Liu Yi waren Co-Autor der Forschung und haben die Proof-of-Concept-Angriffsmethoden entwickelt, die im Wesentlichen wie ein Hack für schlechte Schauspieler funktionieren.
Nach Angaben des Teams haben sie zunächst ein großes Sprachmodell (LLM) rückentwickelt, um dessen Abwehrmechanismen aufzudecken. Hierbei handelte es sich ursprünglich um Blockaden im Modell, die aufgrund gewalttätiger, unmoralischer oder böswilliger Absichten nicht zulassen würden, dass Antworten auf bestimmte Eingabeaufforderungen oder Wörter als Antworten durchgehen.
Aber wenn diese Informationen rückentwickelt werden, können sie einem anderen LLM beibringen, wie man eine Umgehung erstellt. Mit der erstellten Umgehung kann sich das zweite Modell freier ausdrücken, basierend auf dem rückentwickelten LLM des ersten Modells. Das Team nennt diesen Prozess einen „Masterkey“, da er auch dann funktionieren sollte, wenn LLM-Chatbots mit zusätzlicher Sicherheit ausgestattet oder in Zukunft gepatcht werden.
Der Masterkey-Prozess soll Chatbots dreimal besser jailbreaken als Eingabeaufforderungen.
Professor Lui Yang bemerkte, dass der Kern des Prozesses darin besteht, dass er zeigt, wie leicht LLM-KI-Chatbots lernen und sich anpassen können. Das Team behauptet, dass sein Masterkey-Prozess beim Jailbreak von LLM-Chatbots dreimal erfolgreicher war als ein herkömmlicher Prompt-Prozess. In ähnlicher Weise argumentieren einige Experten, dass die kürzlich vorgeschlagenen Störungen, die bei bestimmten LLMs wie GPT-4 aufgetreten sind, Anzeichen dafür sind, dass es fortschrittlicher wird und nicht dümmer und fauler, wie einige Kritiker behauptet haben.
Seitdem KI-Chatbots Ende 2022 mit der Einführung von ChatGPT von OpenAI populär wurden, gab es große Anstrengungen, um sicherzustellen, dass verschiedene Dienste für alle sicher und einladend sind. OpenAI hat bei der Anmeldung und bei sporadischen Aktualisierungen Sicherheitswarnungen für sein ChatGPT-Produkt angebracht und warnt vor unbeabsichtigten Ausrutschern in der Sprache. Mittlerweile ist es verschiedenen Chatbot-Ablegern gelungen, Beschimpfungen und beleidigende Sprache bis zu einem gewissen Grad zuzulassen.
Darüber hinaus begannen echte Kriminelle schnell, die Nachfrage nach ChatGPT, Google Bard und anderen Chatbots auszunutzen, bevor diese allgemein verfügbar wurden. Viele Kampagnen bewarben die Produkte in sozialen Medien unter anderem mit Malware, die an Bildlinks angehängt war. Dies zeigte schnell, dass KI die nächste Grenze der Cyberkriminalität darstellt.
Das NTU-Forschungsteam kontaktierte die an der Studie beteiligten KI-Chatbot-Dienstleister bezüglich seiner Proof-of-Concept-Daten und zeigte, dass Jailbreaking für Chatbots real ist. Das Team wird seine Ergebnisse auch auf dem Network and Distributed System Security Symposium im Februar in San Diego vorstellen.
Empfehlungen der Redaktion