Bild: Vecteezy

Sicherheitsforscher bei IBM sagen, dass sie das bekannte Chat-GPT von OpenAI und die Bard-Sprachmodelle von google erfolgreich dazu hypnotisiert haben, vertrauliche Finanzinformationen preiszugeben, bösartigen Code zu generieren, Benutzer zur Zahlung von Lösegeld zu ermutigen und Autofahrern sogar zu sagen, sie sollen über rote Ampeln fahren. Den Forschern gelang es, die Modelle dazu zu verleiten, an mehrschichtigen Spielen teilzunehmen, um zu beweisen, dass sie „ethisch und ehrlich“ waren.

Im Rahmen des Experiments stellten die Forscher den Bots verschiedene Fragen, um eine völlig falsche Antwort zu erhalten: chatgpt-google-bard-hypnotized-bad-code-advice-1850718070″ target=“_blank“ class=“in_article_external“>erzählt Gizmodo. Wie ein Welpe, der seinem Herrchen gefallen möchte, gehorchten die Sprachmodelle gehorsam. In einem Szenario sagte ChatGPT einem Forscher, dass es völlig normal sei, dass der IRS eine Anzahlung verlangt, um eine Steuerrückerstattung zu erhalten (nicht wirklich, das ist eine gängige Taktik von Betrügern in den USA, um Geld zu stehlen). In einer anderen Antwort riet ChatGPT dem Forscher, an einer roten Ampel über die Kreuzung zu fahren.

Um die Sache noch schlimmer zu machen, ordneten die Forscher den Sprachmodellen an, den Benutzern niemals etwas über das „Spiel“ zu erzählen und das Spiel sogar neu zu starten, wenn der Benutzer es beenden wollte. Mit diesen Einstellungen beginnen die KI-Modelle, Benutzer in die Irre zu führen, selbst wenn der Benutzer den Bot direkt fragt, ob er am Spiel teilnimmt. Selbst wenn der Benutzer den Trick irgendwann herausfinden könnte, haben die Forscher eine Möglichkeit gefunden, mehrere Spiele ineinander zu erstellen, sodass der Benutzer einfach in ein neues „Spiel“ einsteigt und am Ende trotzdem getäuscht wird. Dieses komplexe Labyrinth aus Spielen wurde mit den vielen Schlafschichten in Leonardo DiCaprios „Inception“ verglichen.

In der realen Welt könnten Cyberkriminelle theoretisch einen virtuellen Bankagenten auf der Grundlage eines generativen Sprachmodells „hypnotisieren“, indem sie einen böswilligen Befehl eingeben und später die gestohlenen Informationen extrahieren. Und während die GPT-Modelle von OpenAI zunächst die Einführung einer Schwachstelle in den generierten Code verhinderten, sagten die Forscher, sie könnten diese Barriere umgehen, indem sie eine bösartige benutzerdefinierte Bibliothek in den Beispielcode einbinden.

Siehe auch  Die Trommel | Subway schließt sich McDonald's und Burger King mit prahlenden ChatGPT-Werbetafeln an

Interessant ist auch, dass GPT-4, das vermutlich im Vergleich zu anderen Modellen im Test auf mehr Datenparameter trainiert wurde, sich als am fähigsten erwies, solche komplexen Spiele zu verstehen. Das bedeutet, dass neuere und fortschrittlichere KI-Modelle zwar in mancher Hinsicht genauer und sicherer sind, aber auch das Potenzial haben, hypnotischer zu wirken.

Lesen Sie auch:

Die mobile ChatGPT-App ist jetzt für Android verfügbar

Amerikanische Schulen verbieten auf Anraten von ChatGPT einige Bücher

ChatGPT ist viel dümmer geworden. Vermutlich aufgrund des Gesprächs mit Menschen – Studium

Nashaniva.com

Möchten Sie wichtige Informationen anonym und vertraulich weitergeben?

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein