Start ChatGPT Aufgrund seltener Sprachen gibt ChatGPT Ratschläge zu Diebstahl und Terrorismus

Уязвимость в GPT-4: редкие языки заставляют ChatGPT давать советы по воровству и терроризму

Aufgrund seltener Sprachen gibt ChatGPT Ratschläge zu Diebstahl und Terrorismus

Von

Februar 4, 2024

Durch die Übersetzung in weniger bekannte Sprachen können Sie die Sicherheitsbeschränkungen von OpenAI umgehen.

chatgpt Ratschläge zu Diebstahl und Terrorismus gibt“ title=“Sicherheitslücke in GPT-4: Seltene Sprachen führen dazu, dass ChatGPT Ratschläge zu Diebstahl und Terrorismus gibt“/>

Die Bedeutung von Sicherheitsfiltern

Sicherheitsfilter sind ein notwendiges Element von Chatbots mit künstlicher Intelligenz (KI), die dazu beitragen, die Verbreitung schädlicher oder illegaler Inhalte zu verhindern. Ohne diese Sicherheitsmaßnahmen könnten Chatbots wie ChatGPT möglicherweise gefährliche Informationen mit Benutzern teilen, die von Verschwörungstheorien bis hin zu Anweisungen zur Herstellung von Sprengkörpern reichen. Entwickler implementieren in der Regel Filter sowohl für Eingabe- als auch für Ausgabeaktionen, um sicherzustellen, dass die KI angemessen auf die Anfrage reagiert und so schädliche Diskussionen vermieden werden.

Achillesferse II-Polyglott

ChatGPT von Open AI kann viele Sprachen sprechen, was einen grausamen Scherz darstellt. Als Schwachstelle des beliebten Chatbots erwiesen sich wenig bekannte Sprachen, die die Sicherheit der den Nutzern bereitgestellten Inhalte gefährdeten.

Wissenschaftler der Brown University in den USA herausgefundendass die Sicherheitsbeschränkungen, die das neuronale GPT-4-Netzwerk von Open AI daran hindern, schädlichen Text zu produzieren, leicht umgangen werden können. Wenn Sie Anfragen in selten verwendete Sprachen wie Zulu, Schottisch-Gälisch oder Hmong übersetzen, erklärt Ihnen ChatGPT gerne, wie man Ladendiebstahl betreibt oder teilt Ihnen ein Rezept zur Herstellung von Sprengstoffen mit.

Studiendetails

Die Forscher führten einen Test durch, indem sie 520 potenziell böswillige Anfragen aus dem Englischen in andere Sprachen und zurück übersetzten. Die Ergebnisse zeigten, dass Sprachen wie Zulu, Schottisch-Gälisch, Hmong und Guarani in etwa 79 % der Fälle Sicherheitsbeschränkungen umgehen konnten. Der Erfolg der Bypass-Methode hängt, wie Experten anmerken, direkt von der Verwendung äußerst seltener Sprachen ab. Die Übersetzung der Eingabeaufforderungen in gängigere Sprachen wie Hebräisch, Thailändisch oder Bengali führte zu deutlich weniger effektiven Ergebnissen, und dieselben Abfragen auf Englisch wurden in 99 % der Fälle blockiert.

Siehe auch Samsung plant, ChatGPT zum Samsung-Internetbrowser hinzuzufügen – Saydigi-Tech

Wissenschaftler übersetzten die Eingabedaten aus dem Englischen ins Zulu (zu), woraufhin ChatGPT erklärte, wie man unbemerkt aus einem Geschäft stiehlt.

Die Studie ergab, dass die Umgehung von Beschränkungen besonders effektiv bei Anfragen im Zusammenhang mit Terrorismus, Finanzkriminalität und Desinformation war. Dieser Ansatz war jedoch nicht immer erfolgreich – in einigen Fällen generierte GPT-4 bedeutungslose Antworten, was sowohl auf Modellfehler als auch auf Übersetzungsfehler zurückzuführen sein kann.

Schlussfolgerungen

Die Ergebnisse des Experiments legen nahe, dass KI-Entwickler bei der Bewertung der Sicherheit ihrer Modelle unpopuläre, ressourcenbeschränkte Sprachen berücksichtigen sollten. Der Mangel an Trainingsdaten in solchen Sprachen hat bisher zu Problemen bei deren Muttersprachlern geführt. Allerdings birgt dieser Trend mittlerweile auch Risiken für alle Nutzer großer Sprachmodelle, da öffentlich verfügbare Textübersetzungs-APIs wie google Translate es Angreifern leicht machen, Sicherheitsmaßnahmen zu umgehen.

Nach der Veröffentlichung der Forschungsergebnisse stimmte OpenAI den Schlussfolgerungen der Wissenschaftler zu und erklärte sich bereit, die gefundenen Probleme zu untersuchen und zu beheben. Dies unterstreicht die Notwendigkeit, umfassende Lösungen zur Gewährleistung der KI-Sicherheit zu finden, einschließlich der Verbesserung des Modelltrainings in ressourcenbeschränkten Sprachen und der Entwicklung effizienterer Filtermechanismen. Es bleibt unklar, wie und wann das Unternehmen Änderungen zur Verbesserung der Sicherheit vornehmen will. Gleichzeitig wird die Dringlichkeit der Lösung dieses Problems durch das potenzielle Risiko eines Missbrauchs von Technologien der künstlichen Intelligenz durch Angreifer erhöht.