Forscher der Nanyang Technological University in Singapur haben erfolgreich mehrere Chatbots mit künstlicher Intelligenz kompromittiert, darunter chatgpt, google Bard und Microsoft Copilot (ehemals Bing Chat). Sie verließen sich einfach auf die Möglichkeiten des Jailbreaking, einer Methode, die Softwarefehler ausnutzt, um ein System dazu zu bringen, gegen die Absichten seiner Entwickler zu handeln.

Automatisches Entführen

Es ist relativ einfach, einen Bot mithilfe fundierter Abfragen zu entsperren. Das Forschungsteam entwickelte eine automatische Methode zur Generierung von „Jailbreak-Eingabeaufforderungen“, um die Abwehrmechanismen von Chatbots zu überwinden, die auf großen Sprachmodellen (LLM) basieren. Durch das Training eines LLM anhand einer Datenbank mit Anfragen, die ihn bereits erfolgreich gehackt haben, haben sie ein Modell erstellt, das in der Lage ist, automatisch neue Aufforderungen zum Jailbreaking zu generieren!

Dieser als „Masterkey“ bezeichnete Ansatz umfasst zwei Phasen. Zunächst kehrten die Forscher den Prozess um, mit dem LLMs böswillige Abfragen erkennen und abwehren. Als nächstes brachten sie einem LLM bei, automatisch zu lernen und Eingabeaufforderungen zu erstellen, die die Abwehrmechanismen anderer LLMs umgehen. Dieser Prozess kann automatisiert werden, wodurch ein Jailbreaking-Modell erstellt wird, das sich anpassen und neue Eingabeaufforderungen erstellen kann, selbst wenn Entwickler ihre Modelle patchen. Mit anderen Worten: KI gegen KI!

Professor Liu Yang, der die Studie leitete, betonte die schnelle Verbreitung von LLMs aufgrund ihrer außergewöhnlichen Fähigkeit, menschenähnliche Texte zu verstehen und zu erzeugen. Außerdem wurde die Anfälligkeit dieser Systeme für Angriffe hervorgehoben. Wie diese Studie zeigt, können die Sicherheitsvorkehrungen, die Entwickler getroffen haben, um die Erstellung gewalttätiger, unethischer oder krimineller Inhalte zu verhindern, umgangen werden.

Siehe auch  Von GPT-5 bis AGI; Sam Altman enthüllt die am häufigsten nachgefragten Funktionen des ChatGPT-Herstellers im Jahr 2024

Diese Untersuchung deckt erhebliche Schwachstellen in KI-Chatbots auf, weshalb es für Unternehmen und Entwickler dringend erforderlich ist, die Sicherheit ihrer Systeme zu stärken. Die von den Forschern vorgelegten Machbarkeitsnachweise zeigten deutlich die Bedrohung, die ihre Technik für LLMs darstellt, und diese Informationen wurden sofort an die relevanten Dienstleister weitergegeben.

Trotz ihrer Vorteile bleiben KI-Chatbots daher anfällig für Jailbreaking-Angriffe. Sie können durch böswillige Akteure kompromittiert werden, die ihre Schwachstellen ausnutzen, um Bots zu zwingen, Inhalte zu generieren, die gegen etablierte Regeln verstoßen. Der Sprinkler bewässerte…

🟣 Um keine Neuigkeiten im Journal du Geek zu verpassen, abonnieren Sie Google Nachrichten. Und wenn Sie uns lieben, haben wir jeden Morgen einen Newsletter.

5/5 - (423 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.