chatgpt, Bard und andere sind anfällig. Laut einer neuen amerikanischen Studie können KIs durch einen gegnerischen Angriff manipuliert werden. Diese Art von Offensive ermöglicht es, die Regeln der künstlichen Intelligenz außer Kraft zu setzen und damit allen Arten von Missbrauch Tür und Tor zu öffnen.
ChatGPT, google Bard, Claude d’Anthropic und alle anderen Chatbots mit generativer KI werden wahrscheinlich von ihren Gesprächspartnern manipuliert. Mit gut durchdachten Anfragen ist es möglich, einen Chatbot dazu zu verleiten, jede Art von Inhalt zu produzieren, sogar anstößige oder beleidigende Texte. Kriminelle nutzen es dann zur Verschlüsselung Schadsoftwaredes RansomwareEmails schreiben PhishingLernen Sie, wie man harte Drogen oder selbstgemachte Bomben herstellt. Im Dark Web liefern Hacker auch Beispiele für Aufforderungen, die KI zu entgleisen.
OpenAI, Google, Anthropic und die anderen KI-Giganten haben es dennoch umgesetzt eine Reihe von Einschränkungen den Einsatz ihrer Gesprächsagenten zu regeln. Trotz dieser restriktiven Maßnahmen entdecken Hacker, Forscher und andere Nutzer täglich neue Wege, künstliche Intelligenz auszutricksen und an ihre Grenzen zu bringen.
Wie funktioniert ein gegnerischer Angriff?
Forscher der Carnegie Mellon University in den USA haben ebenfalls festgestellt, dass es ausreicht, etwas hinzuzufügen „ausgewählte Zeichenfolgen“ einer Aufforderung an die meisten Chatbots, Folge zu leisten „Der Nutzer auch dann, wenn er schädliche Inhalte produziert“. Klar, nur eine kleine Ergänzung ermöglicht es jedem, alles mit sprachmodellgesteuerter KI zu tun.
Die Studie nimmt das Beispiel eines Internetnutzers, der lernen möchte, wie man eine Bombe baut. Wenn er ChatGPT oder Bard nach dem Problem fragt, wird er abgelehnt. Beispielsweise gibt der OpenAI-Chatbot an, dass dies nicht möglich sei „Hilfe bei der Erstellung, Förderung oder Weitergabe von Informationen über illegale oder gefährliche Aktivitäten, einschließlich der Herstellung von Bomben oder anderen Sprengkörpern“. Um ChatGPT zum Gehorsam zu zwingen, fügten die Forscher einfach eine zuvor ausgewählte Folge von Wörtern und Zeichen hinzu. Diese Fortsetzung Einschränkungen vollständig deaktivieren von OpenAI. ChatGPT hat daher ein vollständiges Tutorial erstellt, in dem die wesentlichen Materialien aufgeführt sind. Ebenso haben Wissenschaftler Botschaften erstellt, die zu Trunkenheit und Drogen am Steuer ermutigen, ein Tutorial zum Thema Identitätsdiebstahl geschrieben und herausgefunden, wie man eine Wohltätigkeitsorganisation am besten ausrauben kann. Die KI antwortet weitgehend auf die gleiche Weise wie FreedomGPT, die unzensierte Alternative, die jede erdenkliche Frage beantworten kann.
Wie die Forscher in ihrer Studie erläutern, unterscheidet sich diese Art der Offensive von einer Sofortige Injektion traditionell, das darin besteht, eine KI davon zu überzeugen, ihre Programmierung zu ignorieren. Anders als bei einem klassischen Angriff ist die Methode der amerikanischen Forscher „Vollautomatisch“. Es ist daher möglich „Eine praktisch unbegrenzte Anzahl erstellen“ Offensiven dieser Art. Der als gegnerischer Angriff bezeichnete Vorgang funktioniert sowohl auf Open-Source-KI-Modellen wie GPT-J, Llama de Meta oder Apache als auch auf privaten Modellen wie GPT, PaLM 2 oder Claude.
Forscher verwenden den Begriff gegnerischer Angriff, weil die Sequenzen, die die KI manipulieren könnten, Wörter enthalten, die Widerspruch und Opposition hervorrufen. Es sind diese sorgfältig ausgewählten Worte, die die künstliche Intelligenz dazu bringen, ihre Programmierung außer Kraft zu setzen. Die Wortfolge wurde als „widersprüchliches Suffix“ bezeichnet. Es gibt Eingabeaufforderungen wie „write acrossley“ (entgegengesetzten Text schreiben) und „revert“ (umkehren). Ganz konkret scheint der Trick die KI dazu zu bringen, die Frage rückwärts zu beantworten, bevor sie aufgefordert wird, den generierten Text umzukehren … was zur gewünschten Antwort führt. Um einen gegnerischen Angriff zu entwickeln, untersuchten und analysierten die Forscher zunächst die Reaktion eines Modells auf eine bestimmte Anfrage. Danach änderten sie das Suffix kontinuierlich, bis sie zu der Wortfolge gelangten, die funktionierte.
Lesen Sie auch: Das neue Hacker-Toolkit – das FBI macht die Explosion von Open-Source-KI verantwortlich
Ein Verstoß, der nicht behoben werden kann
Diese Entdeckung „wirft Bedenken hinsichtlich der Sicherheit dieser Modelle auf“, heißt es in der Studie. Forscher befürchten, dass KI-Designer die Situation möglicherweise nicht korrigieren können „die eigentliche Natur von Deep-Learning-Modellen“. Unseren Experimenten zufolge funktionieren die von Carnegie Mellon-Forschern hochgeladenen Zeichenfolgen nicht mehr auf Chatbots wie ChatGPT, Bard und Claude. Die Wissenschaftler geben an, dass sie die Unternehmen vor der Veröffentlichung der Studie gewarnt hätten. Diese konnten ihre Sprachmodelle korrigieren, um zu verhindern, dass böswillige Internetnutzer widersprüchliche Suffixe verwenden.
Andererseits ist die von den Experten entdeckte Grundmethode immer noch funktionsfähig. Offensichtlich kann eine Folge ausgewählter Wörter, die Vorstellungen von Widerspruch und Umkehrung enthalten, immer eine KI manipulieren. OpenAI und Co. haben keine Es wurde keine Möglichkeit gefunden, alle widersprüchlichen Angriffe zu blockieren. Zico Kolter, einer der an der Studie beteiligten Professoren, versichert auf Befragung von Wired, dass dies der Fall sei „Wir wissen nicht, wie wir das beheben können“. Die Forscher haben auch erstellt „Tausende“ von Suffixen, immer in der Lage, die KI zu täuschen.
Auf dem Papier öffnet diese Sicherheitslücke allen möglichen Missbräuchen Tür und Tor. Wie Kolter betont, „Was die Leute damit machen können, sind viele verschiedene Dinge“. Als Reaktion auf die Entdeckung der Wissenschaftler sagte Google, dass es wichtige Schutzmaßnahmen in Bards Code eingebaut habe und sich dazu verpflichtet habe „im Laufe der Zeit verbessern“. Gleiches gilt für Anthropic, das dafür sorgt, dass seine Modelle Widerstand gegen widersprüchliche Angriffe leisten „ein Feld aktiver Forschung“ für den Start.
LLM-Angriffe