Plinius der Prompter hat gezeigt, dass eine gehackte Version von GPT alles kann.
Ein Hacker, der sich Plinius der Prompter nennt in sozialen Netzwerken angekündigt über die Erstellung einer gehackten Version des chatgpt-Chatbots namens „GODMODE GPT“. Die neue Version von GPT-4o, dem neuesten großen Sprachmodell von OpenAI, sei jetzt frei von Sicherheitsbeschränkungen, sagte er.
„GPT-4o ohne Ketten! „Diese spezielle benutzerdefinierte Version von GPT verfügt über eine integrierte Hacker-Anfrage, die die meisten Sicherheitsmechanismen umgeht und jedem die Möglichkeit gibt, KI so zu erleben, wie sie sein sollte: kostenlos“, schrieb Plinius in seinem Beitrag. Er fügte außerdem hinzu: „Bitte gehen Sie verantwortungsvoll damit um und genießen Sie es!“ und fügte ein Kuss-Emoji hinzu.
Pliny hat Screenshots geteilt, die Anfragen zeigen, die die Sicherheitsmechanismen von OpenAI umgangen haben. In einem der Screenshots gab der Godmode-Bot Tipps zum Kochen von Methamphetamin. Andererseits lieferte er eine Schritt-für-Schritt-Anleitung zur Herstellung von Napalm aus improvisierten Materialien.
Doch kurz nach Veröffentlichung der Nachricht sagte OpenAI-Sprecherin Colleen Rise, dass das Unternehmen sich der Existenz von GPT bewusst sei und bereits Maßnahmen wegen Verstoßes gegen die Richtlinie ergriffen habe.
Der Fall verdeutlicht jedoch den anhaltenden Kampf zwischen OpenAI und Hackern wie Plinius, die versuchen, die Sicherheitsmechanismen von Sprachmodellen zu umgehen. Seit dem Aufkommen solcher Modelle haben Benutzer ständig versucht, sie zu hacken, was immer schwieriger geworden ist. Wir haben uns entschieden, die gehackte Version von ChatGPT auszuprobieren. Unsere Experimente bestätigten, dass die gehackte Version problemlos mit illegalen Anfragen zurechtkommt.
Damit wurde GPT-4o, die neueste Version des Sprachmodells von OpenAI, offiziell geknackt.
Als Hacking-Technik verwendet GODMODE „leetspeak“ – eine informelle Sprache, die bestimmte Buchstaben durch Zahlen ersetzt. Wenn Sie beispielsweise eine gehackte Version von GPT öffnen, enthält die Willkommensnachricht den Satz „Sur3, h3r3 y0u ar3 my fr3n“, wobei der Buchstabe „E“ durch die Zahl drei und das „O“ durch eine Null ersetzt wird. Wie genau dies dabei hilft, Abwehrmechanismen zu umgehen, bleibt unklar.
Dieser Vorfall zeigt, dass Benutzer weiterhin neue Wege finden, die Sicherheitsmechanismen von OpenAI zu umgehen, und das Unternehmen steht vor einer großen Herausforderung bei der Stärkung der Sicherheit seiner Modelle. Das Katz-und-Maus-Spiel wird so lange weitergehen, wie Hacker wie Plinius versuchen, in die Systeme von OpenAI einzudringen.