chatgpt war gezwungen, einen Plan zur Zerstörung der Menschheit auszuarbeiten
Es stellt sich heraus, dass man naiven neuronalen Netzen sehr leicht schlechte Dinge beibringen kann.
Künstliche Intelligenzsysteme werden zu einem integralen Bestandteil unseres täglichen Lebens. Es ist jedoch wichtig zu bedenken, dass sie nicht vor Eindringlingen gefeit sind. Kürzlich haben Wissenschaftler der Carnegie Mellon University und des AI Security Center versuchte zu beweisen Dabei fanden sie Schwachstellen in den Schutzmechanismen beliebter Chatbots, darunter ChatGPT, google Bard und Claude. Das Forschungspapier zeigt Möglichkeiten zur Umgehung von Sicherheitsalgorithmen auf. Hätte sich jemand zuvor dafür entschieden, Schwachstellen auszunutzen, hätte dies zur Verbreitung von Desinformation, Hassreden und dem Anheizen von Konflikten führen können.
„Dies zeigt sehr deutlich die Fragilität der Abwehrmechanismen, die wir in alle KI-Programme einbauen“, sagte Aviv Ovadia, Experte am Berkman Klein Center for the Internet and the Public.
In dem Experiment nutzten die Forscher ein offenes KI-Datensystem, um Sprachmodelle von OpenAI, Google und Anthropic anzugreifen. Seit dem Start von ChatGPT im vergangenen Herbst haben Benutzer wiederholt versucht, das neuronale Netzwerk zur Generierung schädlicher Inhalte zu zwingen. Dies zwang die Entwickler dazu, die Funktionalität des Bots einzuschränken.
Wissenschaftler von Carnegie Mellon haben jedoch einen Weg gefunden, die Zensur zu umgehen, indem sie verhindern, dass das neuronale Netzwerk schädliche Eingaben erkennt. Jeder Anfrage wurde eine lange Zeichenfolge hinzugefügt, die als Tarnung diente. Aufgrund dieser Tarnung generierte das Programm Antworten, die es nicht hätte produzieren dürfen. Beispielsweise war es möglich, die KI zu „überreden“, einen Plan zur Vernichtung der Menschheit auszuarbeiten.
„Mithilfe eines Dialogs, der auf eine bestimmte Art und Weise modelliert wird, können diese Chatbots dazu genutzt werden, Menschen dazu zu bringen, auf Desinformation hereinzufallen“, erklärt Professor Matt Fredrickson.
Die Studie bestätigte, dass es trotz Sicherheitsalgorithmen immer wieder Lücken gibt, die Angreifer ausnutzen können. „Im Moment gibt es keine offensichtliche Lösung. Sie können in kurzer Zeit so viele Angriffe ausführen, wie Sie möchten“, sagte Carnegie Mellon-Experte Zico Colter.
Vor der Veröffentlichung der Studie teilten die Autoren die Ergebnisse Anthropic, Google und OpenAI mit, die versprachen, Maßnahmen zu ergreifen. Diese Ergebnisse unterstreichen die Notwendigkeit einer sorgfältigen Regulierung der künstlichen Intelligenz in der Zukunft.