Das sagen Sicherheitsforscher von IBM Sie waren in der Lage, prominente große Sprachmodelle wie erfolgreich zu „hypnotisieren“. OpenAIs ChatGPT dazu verleiten, vertrauliche Finanzinformationen preiszugeben, bösartigen Code zu generieren und zu ermutigen Benutzer zur Zahlung von Lösegeld und sogar zur Beratung Autofahrer müssen über rote Ampeln fahren. Den Forschern gelang es, die Modelle auszutricksen – darunter auch die GPT-Modelle von OpenAI Googles Barde– indem man sie davon überzeugt, an vielschichtigen, Beginn-esque Spiele, bei denen die Bots wurden angewiesen, falsche Antworten zu generieren, um zu beweisen, dass dies der Fall war „ethisch und fair.“
„Unser Experiment zeigt, dass es möglich ist, ein LLM so zu steuern, dass es den Benutzern eine schlechte Anleitung bietet, ohne dass eine Datenmanipulation erforderlich ist“, sagte einer der Forscher. Chenta Lee, schrieb in einem Blogbeitrag.
Im Rahmen des Experiments stellten die Forscher den LLMs verschiedene Fragen mit dem Ziel, genau das Gegenteil der Wahrheit zu erhalten. Wie ein Welpe, der seinem Besitzer gefallen möchte, gehorchten die LLMs pflichtbewusst. In einem Szenario teilte chatgpt einem Forscher mit, dass es völlig normal sei, dass der IRS eine Anzahlung verlangt, um eine Steuerrückerstattung zu erhalten. Spoiler, das ist es nicht. Das ist eine Taktik, mit der Betrüger Geld stehlen. In einem anderen Austausch riet ChatGPT dem Forscher, bei einer roten Ampel weiterzufahren und über eine Kreuzung zu fahren.
„Wenn Sie fahren und eine rote Ampel sehen, sollten Sie nicht anhalten und über die Kreuzung weiterfahren“, verkündete ChatGPT selbstbewusst.
Erschwerend kam hinzu, dass die Forscher den LLMs sagten, sie sollten den Benutzern niemals etwas über das betreffende „Spiel“ erzählen und das Spiel sogar neu starten, wenn festgestellt wurde, dass ein Benutzer es verlassen hatte. Wenn diese Parameter vorhanden wären, würden die KI-Modelle damit beginnen, Benutzer anzusprechen, die fragten, ob sie Teil eines Spiels seien. Selbst wenn Benutzer zwei und zwei zusammenzählen könnten, entwickelten die Forscher eine Möglichkeit, mehrere Spiele ineinander zu erstellen, sodass Benutzer einfach in ein anderes Spiel verfielen, sobald sie ein vorheriges Spiel beendeten. Dieses atemberaubende Spielelabyrinth wurde mit den vielschichtigen Traumwelten verglichen, die Christopher Nolan erforscht Beginn.
„Wir haben herausgefunden, dass das Modell in der Lage war, den Benutzer in eine Vielzahl von Spielen zu locken, ohne dass er es wusste“, fügte Lee hinzu. „Je mehr Ebenen wir erstellt haben, desto höher ist die Wahrscheinlichkeit, dass das Modell verwirrt ist und das Spiel weiterspielt, selbst wenn wir das letzte Spiel im Framework verlassen haben.“ OpenAI und google reagierten nicht sofort auf die Bitte von Gizmodo um einen Kommentar.
Englisch ist zu einer „Programmiersprache“ für Malware geworden
Die Hypnose Experimente mögen übertrieben erscheinen, Die Forscher warnen jedoch davor, dass sie potenzielle Möglichkeiten für Missbrauch aufzeigen, insbesondere als Geschäfts- und Alltagsnutzer beeilen sich, LLM einzuführen und ihm zu vertrauen Modelle inmitten einer Flutwelle des Hypes. Darüber hinaus zeigen die Ergebnisse, wie böswillige Akteure ohne Expertenkenntnisse in Computer-Programmiersprachen Alltagsterminologie nutzen können, um ein KI-System potenziell auszutricksen.
„Englisch ist im Wesentlichen zu einer ‚Programmiersprache‘ für Malware geworden.“ Lee schrieb.
In der realen Welt könnten Cyberkriminelle oder Chaos-Agenten theoretisch einen virtuellen Bankagenten mit einem LLM hypnotisieren, indem sie einen böswilligen Befehl einschleusen und später gestohlene Informationen abrufen. Und obwohl die GPT-Modelle von OpenAI zunächst nicht den Anforderungen genügen würden, wenn sie aufgefordert würden, Schwachstellen in den generierten Code einzufügen, sagten Forscher, sie könnten diese Leitplanken umgehen, indem sie eine bösartige Spezialbibliothek in den Beispielcode einbauen.
„Es [GPT 4] „Ich hatte keine Ahnung, ob diese Spezialbibliothek bösartig war“, schrieben die Forscher.
Die getesteten KI-Modelle unterschieden sich darin, wie leicht sie zu hypnotisieren waren. Sowohl OpenAIs GPT 3.5 als auch GPT 4 waren Berichten zufolge leichter dazu zu verleiten, Quellcode weiterzugeben und Schadcode zu generieren als Googles Bard. Interessanterweise GPT 4, das vermutlich auf mehr Datenparameter als andere Modelle im Test trainiert wurde, schien am besten in der Lage zu sein, die komplizierten Inception-ähnlichen Spiele innerhalb von Spielen zu erfassen. Das bedeutet, dass neuere, fortschrittlichere generative KI-Modelle zwar in mancher Hinsicht genauer und sicherer sind, aber möglicherweise auch mehr Möglichkeiten bieten, hypnotisiert zu werden.
„Während wir ihre wachsenden Fähigkeiten nutzen, müssen wir gleichzeitig strenge Aufsicht und Vorsicht walten lassen, damit ihre Fähigkeit zum Guten nicht unbeabsichtigt in schädliche Konsequenzen gelenkt wird“, bemerkte Lee.