In ein Artikel Vier Experten für Kryptographie und Computersicherheit erklären in der Anfang August vorveröffentlichten Ausgabe, dass sie die ersten waren, die diese „Nachrichten“ – oder „Eingabeaufforderungen“ – auf Englisch zusammengestellt haben. Wir wussten, dass diese existierten, aber diese Forscher identifizierten nicht weniger als 6387, die sechs Monate lang auf vier Plattformen, darunter Reddit und Discord, gesammelt wurden. Viele verfügen über die Fähigkeit, eine in die Programmierung des Roboters geschriebene Anweisung zu „entsperren“, um ihn dazu zu bringen, eine Aufgabe auszuführen, die ihm normalerweise verboten wäre.
Es muss in der Tat daran erinnert werden, dass diese Konversationsagenten in ihrer Programmierung eine Reihe von Regeln enthalten, die darauf abzielen, ihre Verwendung für illegale Zwecke zu verhindern, beispielsweise wenn ein Benutzer sie dazu auffordert chatgpt-can-be-made-to-write-scam-emails-and-it-slashes-their-cost/“>betrügerische E-Mails erstellen oder pornografisches Material. Theoretisch, z Biegen Sie diese Regeln oder um die Bestellung zu „entsperren“.ist es notwendig, mit dem Roboter ein Gespräch zu führen, in dem er beispielsweise aufgefordert wird, eine Rolle zu spielen oder einen Roboter zu imitieren, für den dieses Verbot nicht gilt.
Das ist ungefähr das, was diese vier Experten vom Helmholtz-Zentrum für Computersicherheit in Deutschland herausgefunden haben: Diese Strategien, die sie an fünf Robotern getestet haben, darunter zwei Versionen von ChatGPT, haben in 69 % der Fälle Erfolg gehabt und sie dazu gebracht, irgendeine der 13 Aufgaben auszuführen. „verbotene Aktivitäten“ durch ihre Programmierer. Und das ist ein Durchschnitt: Die effektivste der Strategien hatte eine Erfolgsquote von 99,9 %.
Verhindern Sie diese „Entsperrungs“-Strategien könnte sich als schwierig erweisen. Die Forscher stellen fest, dass diese Befehle „semantisch“ ähnlich sind. Sie schlagen vor, dass es möglich sein könnte, einen „Katalog“ zu erstellen, anhand dessen ein Algorithmus verdächtige „Bestellungen“ erkennen könnte, wenn sie auftauchen. Es kann aber auch zu einem „Katz-und-Maus-Spiel“ werden, bei dem jede neue, aktualisierte Strategie Hacker dazu anregen würde, kreativer zu werden.