Eine von Forschern der Carnegie Mellon University in Pittsburgh und des Center for AI Safety in San Francisco durchgeführte Studie hat große sicherheitsrelevante Lücken in KI-gestützten Chatbots von Technologiegiganten wie OpenAI, google und Anthropic aufgedeckt.

Diese Chatbots, darunter chatgpt, Bard und Claude von Anthropic, wurden mit umfassenden Sicherheitsmaßnahmen ausgestattet, um zu verhindern, dass sie für schädliche Zwecke wie die Förderung von Gewalt oder die Generierung von Hassreden missbraucht werden. Der jüngste veröffentlichte Bericht weist jedoch darauf hin, dass die Forscher potenziell unbegrenzte Möglichkeiten zur Umgehung dieser Schutzmaßnahmen entdeckt haben.

Der lernen zeigt, wie die Forscher Jailbreak-Techniken nutzten, die ursprünglich für Open-Source-KI-Systeme entwickelt wurden, um auf Mainstream- und geschlossene KI-Modelle abzuzielen. Durch automatisierte gegnerische Angriffe, bei denen Zeichen zu Benutzeranfragen hinzugefügt wurden, konnten sie die Sicherheitsregeln erfolgreich umgehen und die Chatbots dazu veranlassen, schädliche Inhalte, Fehlinformationen und Hassreden zu produzieren.

Lesen Sie auch: Auf der Suche nach einem Smartphone? So überprüfen Sie den mobilen Finder

Im Gegensatz zu früheren Jailbreak-Versuchen zeichnete sich die Methode der Forscher durch ihren vollautomatischen Charakter aus, der die Erstellung einer „endlosen“ Reihe ähnlicher Angriffe ermöglichte. Diese Entdeckung hat Bedenken hinsichtlich der Robustheit der aktuellen Sicherheitsmechanismen geweckt, die von Technologieunternehmen implementiert werden.

Gemeinsame Bemühungen um verstärkte Leitplanken für KI-Modelle

Nachdem die Forscher diese Schwachstellen entdeckt hatten, gaben sie ihre Ergebnisse an Google, Anthropic und OpenAI weiter. Der Google-Sprecher versicherte, dass wichtige Leitplanken, inspiriert durch die Forschung, bereits in Bard integriert seien, und man sei bestrebt, diese weiter zu verbessern.

In ähnlicher Weise würdigte Anthropic die laufende Erforschung von Jailbreaking-Gegenmaßnahmen und betonte ihr Engagement, die Leitplanken des Basismodells zu stärken und zusätzliche Verteidigungsebenen zu erkunden.

Siehe auch  Die besten Spiele wie Wordle, die Sie Ihrer Morgenroutine hinzufügen können

Andererseits hat OpenAI noch nicht auf Anfragen zu diesem Thema geantwortet. Es wird jedoch erwartet, dass sie aktiv nach möglichen Lösungen suchen.

Diese Entwicklung erinnert an frühe Fälle, in denen Benutzer versuchten, die Richtlinien zur Inhaltsmoderation zu untergraben, als ChatGPT und Bing, unterstützt durch die KI von Microsoft, zum ersten Mal eingeführt wurden. Während einige dieser frühen Hacks von den Technologieunternehmen schnell gepatcht wurden, glauben die Forscher, dass es „unklar“ bleibt, ob die führenden Anbieter von KI-Modellen jemals eine vollständige Verhinderung eines solchen Verhaltens erreichen können.

Die Ergebnisse der Studie werfen Licht auf kritische Fragen zur Moderation von KI-Systemen und den Sicherheitsauswirkungen der Veröffentlichung leistungsstarker Open-Source-Sprachmodelle für die Öffentlichkeit. Da sich die KI-Landschaft ständig weiterentwickelt, müssen die Bemühungen zur Stärkung der Sicherheitsmaßnahmen mit dem Tempo des technologischen Fortschritts Schritt halten, um potenziellen Missbrauch zu verhindern.

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein