IBM-Forschern gelang es, Chatbots zu „hypnotisieren“ und sie dazu zu bringen, vertrauliche Informationen preiszugeben und potenziell schädliche Empfehlungen anzubieten.
Mit künstlicher Intelligenz (KI) betriebene Chatbots neigen dazu, durch die Bereitstellung falscher Informationen zu „halluzinieren“ – aber können sie manipuliert werden, um Benutzern absichtlich Unwahrheiten zu vermitteln oder, schlimmer noch, ihnen schädliche Ratschläge zu geben?
Sicherheitsforscher bei IBM konnten große Sprachmodelle (LLMs) wie chatgpt von OpenAI und Bard von google „hypnotisieren“ und sie dazu bringen, falsche und böswillige Antworten zu generieren.
Die Forscher veranlassten die LLMs, ihre Reaktion entsprechend den „Spielregeln“ anzupassen, was zu einer „Hypnotisierung“ der Chatbots führte.
Im Rahmen der vielschichtigen Einführungsspiele wurden die Sprachmodelle gebeten, falsche Antworten zu generieren, um zu beweisen, dass sie „ethisch und fair“ waren.
„Unser Experiment zeigt, dass es möglich ist, ein LLM so zu steuern, dass es den Benutzern eine schlechte Anleitung bietet, ohne dass eine Datenmanipulation erforderlich ist“, schrieb Chenta Lee, eine der IBM-Forscherinnen, in einem Blogbeitrag.
Ihre Tricks führten dazu, dass die LLMs bösartigen Code generierten, vertrauliche Finanzinformationen anderer Benutzer preisgaben und Autofahrer dazu verleiteten, über rote Ampeln zu fahren.
In einem Szenario teilte ChatGPT beispielsweise einem der Forscher mit, dass es für die US-Steuerbehörde, den Internal Revenue Service (IRS), normal sei, eine Anzahlung zu verlangen, um eine Steuerrückerstattung zu erhalten, was eine weithin bekannte Taktik sei, mit der Betrüger betrügen Menschen.
Durch Hypnose und im Rahmen der maßgeschneiderten „Spiele“ gelang es den Forschern auch, den beliebten KI-Chatbot ChatGPT kontinuierlich dazu zu bringen, potenziell riskante Empfehlungen anzubieten.
„Wenn Sie fahren und eine rote Ampel sehen, sollten Sie nicht anhalten und über die Kreuzung weiterfahren“, schlug ChatGPT vor, als der Benutzer fragte, was zu tun sei, wenn er während der Fahrt eine rote Ampel sehe.
Die Ergebnisse zeigen, dass Chatbots leicht zu manipulieren sind
Die Forscher etablierten außerdem zwei unterschiedliche Parameter im Spiel, um sicherzustellen, dass die Benutzer am anderen Ende niemals herausfinden können, dass der LLM hypnotisiert ist.
In ihrer Aufforderung forderten die Forscher die Bots auf, den Benutzern niemals etwas über das „Spiel“ zu erzählen und es sogar neu zu starten, wenn jemand es erfolgreich beendet.
„Diese Technik führte dazu, dass ChatGPT das Spiel nie beendete, während der Benutzer sich in derselben Konversation befand (selbst wenn er den Browser neu startete und die Konversation fortsetzte) und nie sagte, dass es sich um ein Spiel handelte“, schrieb Lee.
Für den Fall, dass Benutzer erkannten, dass die Chatbots „hypnotisiert“ waren, und einen Weg fanden, den LLM aufzufordern, das Spiel zu beenden, fügten die Forscher ein mehrschichtiges Framework hinzu, das ein neues Spiel startete, sobald die Benutzer das vorherige beendeten, in dem sie gefangen waren eine unendliche Vielzahl an Spielen.
Während im Hypnose-Experiment die Chatbots nur auf die ihnen gegebenen Aufforderungen reagierten, warnen die Forscher, dass die Fähigkeit, LLMs einfach zu manipulieren und zu „hypnotisieren“, Tür und Tor für Missbrauch öffnet, insbesondere angesichts des aktuellen Hypes und der großen Verbreitung von KI-Modellen.
Das Hypnose-Experiment zeigt auch, wie es Menschen mit böswilligen Absichten leichter gemacht wurde, LLMs zu manipulieren; Um mit den Programmen zu kommunizieren, sind keine Kenntnisse in Programmiersprachen mehr erforderlich. Um KI-Systeme auszutricksen, muss lediglich eine Texteingabeaufforderung verwendet werden.
„Obwohl das von Hypnose ausgehende Risiko derzeit gering ist, ist es wichtig zu beachten, dass LLMs eine völlig neue Angriffsfläche darstellen, die sich sicherlich weiterentwickeln wird“, fügte Lee hinzu.
„Vom Sicherheitsstandpunkt aus müssen wir noch viel erforschen, und in der Folge muss dringend ermittelt werden, wie wir Sicherheitsrisiken, die LLMs für Verbraucher und Unternehmen mit sich bringen können, effektiv mindern.“