Ein Forscherteam von google DeepMind, Open AI, der ETH Zürich, der McGill University und der University of Washington hat einen neuen Angriff entwickelt, um wichtige Architekturinformationen aus proprietären Large Language Models (LLM) wie chatgpt und Google PaLM-2 zu extrahieren.

Die Untersuchung zeigt, wie Angreifer vermeintlich versteckte Daten aus einem LLM-fähigen Chatbot extrahieren können, um dessen Funktionalität zu duplizieren oder vollständig zu stehlen. Der Angriff – beschrieben in a Technischer Bericht, der diese Woche veröffentlicht wurde – ist eine von mehreren im vergangenen Jahr, die Schwachstellen aufgezeigt haben, die Hersteller von KI-Tools in ihren Technologien noch beheben müssen, selbst wenn die Akzeptanz ihrer Produkte stark ansteigt.

Wie die Forscher hinter dem neuen Angriff anmerken, ist öffentlich wenig darüber bekannt, wie große Sprachmodelle wie GPT-4, Gemini und Claude 2 funktionieren. Die Entwickler dieser Technologien haben sich aus Wettbewerbs- und Sicherheitsgründen bewusst dafür entschieden, wichtige Details zu den Trainingsdaten, der Trainingsmethode und der Entscheidungslogik in ihren Modellen zurückzuhalten.

„Obwohl die Gewichte und internen Details dieser Modelle nicht öffentlich zugänglich sind, werden die Modelle selbst über APIs verfügbar gemacht“, stellten die Forscher in ihrem Artikel fest. Mithilfe von Anwendungsprogrammierschnittstellen können Entwickler KI-fähige Tools wie ChatGPT in ihre eigenen integrieren Anwendungen, Produkte und Dienstleistungen. Mithilfe der APIs können Entwickler KI-Modelle wie GPT-4, GPT-3 und PaLM-2 nutzen mehrere Anwendungsfälle B. den Aufbau virtueller Assistenten und Chatbots, die Automatisierung von Geschäftsprozessabläufen, die Generierung von Inhalten und die Reaktion auf domänenspezifische Inhalte.

Die Forscher von DeepMind, OpenAI und den anderen Institutionen wollten herausfinden, welche Informationen sie aus KI-Modellen extrahieren können, indem sie Abfragen über deren API durchführen. Im Gegensatz zu einem früheren Angriff im Jahr 2016, bei dem Forscher zeigten, wie sie es konnten Modelldaten extrahieren Durch die Ausführung spezifischer Eingabeaufforderungen auf der ersten oder Eingabeebene entschieden sich die Forscher für das, was sie als „Top-Down“-Angriffsmodell bezeichneten. Das Ziel bestand darin, herauszufinden, was sie herausholen konnten, indem sie gezielte Abfragen an die letzte oder letzte Schicht der neuronalen Netzwerkarchitektur ausführen ließen, die für die Generierung von Ausgabevorhersagen auf der Grundlage von Eingabedaten verantwortlich ist.

Siehe auch  ChatGPT und andere generative KI-Tools: Wie sie die Personalabteilung verändern

Ein Top-Down-Angriff

Die Informationen in dieser Ebene können wichtige Hinweise darauf enthalten, wie das Modell Eingabedaten verarbeitet, umwandelt und eine komplexe Reihe von Prozessen durchläuft, um eine Antwort zu generieren. Angreifer, die in der Lage sind, Informationen aus dieser sogenannten „Einbettungsprojektionsschicht“ zu extrahieren, können wertvolle Einblicke in die interne Funktionsweise des Modells gewinnen, sodass sie affektivere Angriffe durchführen, das Modell zurückentwickeln oder versuchen können, sein Verhalten zu untergraben.

Erfolgreiche Angriffe auf dieser Ebene können „die Breite des Transformatormodells offenbaren, die oft mit seiner Gesamtparameterzahl korreliert“, so die Forscher. „Zweitens reduziert es leicht den Grad, in dem das Modell eine vollständige ‚Blackbox‘ ist, was für zukünftige Angriffe nützlich sein könnte.“

Die Forscher fanden heraus, dass sie durch den Angriff auf die letzte Schicht vieler großer LLMs in der Lage waren, umfangreiche proprietäre Informationen über die Modelle zu extrahieren. „Für weniger als 20 US-Dollar extrahiert unser Angriff die gesamte Projektionsmatrix der Ada- und Babbage-Sprachmodelle von OpenAI“, schrieben die Forscher. „Wir stellen außerdem die genaue Größe der verborgenen Dimensionen des gpt-3.5-turbo-Modells wieder her und schätzen, dass die Abfragen zur Wiederherstellung der gesamten Projektionsmatrix weniger als 2.000 US-Dollar kosten würden.“

Die Forscher beschrieben ihren Angriff als erfolgreich bei der Wiederherstellung eines relativ kleinen Teils der anvisierten KI-Modelle. Aber „die Tatsache, dass es überhaupt möglich ist, Parameter eines Produktionsmodells zu stehlen, ist überraschend und gibt Anlass zur Sorge, dass Erweiterungen dieses Angriffs möglicherweise mehr Informationen wiederherstellen könnten.“

Im vergangenen Jahr gab es zahlreiche weitere Berichte, die Schwachstellen in beliebten GenAI-Modellen aufzeigten. Anfang dieses Monats veröffentlichten beispielsweise Forscher von HiddenLayer einen Bericht, in dem beschrieben wurde, wie sie dorthin gelangen konnten Die Gemini-Technologie von Google kann sich schlecht benehmen auf verschiedene Weise, indem Sie ihm sorgfältig strukturierte Eingabeaufforderungen senden. Andere haben ähnliche Ansätze gefunden Jailbreak ChatGPT und es dazu bringen, Inhalte zu generieren, die es nicht generieren soll. Und im Dezember zeigten Forscher von Google DeepMind und anderswo, wie sie extrahieren können Die versteckten Trainingsdaten von ChatGPT indem man es einfach dazu auffordert, bestimmte Wörter ununterbrochen zu wiederholen.

Siehe auch  ChatGPT für Social Media und Facebook-Werbung

5/5 - (383 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein