Von Regierungen auf der ganzen Welt bis hin zu Unternehmen, die Grenzmodelle besitzen, haben alle damit begonnen, die mit den generativen Modellen verbundenen Risiken und die Folgen zu analysieren, wenn diese Technologie in falsche Hände gerät. Ende Oktober, Biden-Administration eine Bestellung freigegeben, um die KI-Nutzung sicher und kontrolliert zu gestalten. Zu den Anforderungen für KI mit hohem Risiko gehören die Durchführung von Red Teaming zur Identifizierung von Sicherheit und Schwachstellen sowie die Ergreifung physischer und Cybersicherheitsmaßnahmen zum Schutz der Modellgewichte. Einer der Top-Führungskräfte bei AnthropischJason Clinton auch sagte VentureBeat, dass sie den größten Teil ihrer Ressourcen für den Schutz der einen Datei aufwenden, die die Gewichte der Gen-KI-Modelle enthält. Auch Open AI angekündigt Bug-Bounty-Programmund lädt Forscher ein, Fehler in ihrem System zu finden, um die GPT-Modelle, insbesondere die Modellgewichte, zu schützen. Byte-Tanz Chinesisches Internet-Technologieunternehmen, war bereits erwischt versucht, die Ausgaben des Chat-GPT-Modells zu verwenden, um seinen eigenen KI-Chatbot zu trainieren.
Warum werden Maßnahmen zum Schutz der Modellgewichte und der Modellarchitektur ergriffen?
Gewichte und Architektur eines Modells gelten als wertvolles geistiges Eigentum, da sie einen einzigartigen Zustand darstellen, der das Ergebnis langer Rechenstunden, einer Vielzahl sorgfältig ausgewählter Daten, Algorithmen, Architekturen und sorgfältiger Experimente damit durch erfahrene Forscher ist. In den Händen eines falschen Schauspielers kann es gefährlich werden.
Böswillige Schauspieler können
- Erwerben Sie das Modell mit dem Bruchteil der Kosten, die zum Trainieren des Modells aufgewendet wurden. Vermeiden Sie die Kosten für das über APIs verfügbare Zielmodell oder hosten Sie die Kopie des Zielmodells, um Gewinn zu erzielen.
- Verwenden Sie die Modelle, um gefälschte Ausweise und Informationen zu generieren, um gefährdete Bevölkerungsgruppen zu betrügen und in die Irre zu führen.
- könnte diese Modelle missbrauchen Entwicklung biologischer Waffen.
- Lauch sensible proprietäre Informationen, auf denen das Zielmodell trainiert wird.
Ich werde Möglichkeiten aufzeigen, wie ein Gen-KI-Modell angegriffen werden könnte, um die Gewichte und die Architektur zu stehlen.
Leitfaden zum praktischen Modelldiebstahl
Traditionell kann Modelldiebstahl entweder durch die Nutzung direkter Eigenschaften des Modells wie Modelleingabe, Modellausgabe, Modellalgorithmus oder durch Nutzung der Seitenkanäle wie Modellinferenzzeit oder Speicherzugriff, Muster oder durch Ausnutzung physikalischer Eigenschaften wie EM-Emanationen oder erfolgen Energieverbrauch.
Aufgrund der enormen Größe von LLMs ist es jedoch schwierig, mit diesen Methoden sinnvoll ein vollständiges Modell zu extrahieren. Doch Still-Forscher haben Möglichkeiten identifiziert, wie die Schwachstellen der LLMs ausgenutzt werden könnten, und ein Kopiermodell erstellt.
Eine der beliebtesten Methoden zum Stehlen eines Modells für maschinelles Lernen mithilfe direkter Modelleigenschaften ist Ersatzmodellangriff. Es handelt sich um einen abfragebasierten Angriff, bei dem davon ausgegangen wird, dass der Angreifer über eine API oder Anwendung Black-Box-Zugriff auf das Modell hat. Anschließend sendet der Angreifer die Abfragen an das Zielmodell, erhält die resultierenden Ausgaben und nutzt diese Informationen, um ein Ersatzmodell zu trainieren. Das Ziel des Angreifers besteht darin, einen Ersatzmodus zu trainieren, der dem Zielmodell möglichst nahe kommt.
Der Grund für die Popularität ist Ersatzmodellangriff sind
- Sie benötigen keinen Zugriff auf den ursprünglichen Trainingsdatensatz, auf dem das Zielmodell trainiert wurde. Der Datensatz zum Trainieren des Ersatzmodells könnte ein öffentlicher Datensatz oder ein künstlicher Datensatz sein, der von Gen AI generiert wird. Recherche im Papier DIEBE AUF DER SESAMSTRASSE! Die Autoren demonstrierten die Extraktion eines Bert-Modells sogar mit zufällig ausgewählten Wortfolgen.
- Sie sind billig. Es werden viele Methoden vorgeschlagen, um die Anzahl der Abfragen an das ursprüngliche Modell zu optimieren, z. B. die Verwendung von aktiven Lern-, GANS- und Sampling-Techniken. Durch die Kombination dieser Techniken können die Abfragen an die API erheblich reduziert werden.
Aber wie wird diese Methode für LLMs eingesetzt? Kann man die großen Modelle damit stehlen? Ersatzmodell-Angriff?
LLMs sind aufgrund der Kosten und des Zeitaufwands für ihre Ausbildung ein hervorragendes Ziel. Die Erstellung eines Ersatzmodells mit der gleichen Leistungsfähigkeit wie das Zielmodell ist jedoch immer noch kostspielig. Aber eine aktuelle Forschung[4] zeigte, dass ein generisches LLM verwendet werden kann, um ein kleines Modell für bestimmte Aufgaben wie die Codeübersetzung zu optimieren.
Dem Forschungspapier zufolge ergab sich bei der Beurteilung der Kompilierungskorrektheit des generischen Modells LaMDA (137B) nur ein Wert von 4,3 % für (LaMDA), wohingegen die Kodierung des spezifischen Modells Codex (12B) 81,1 % zulegt.
Daher könnte die Feinabstimmung aufgabenspezifischer Daten mit einem kleinen Modell eine bessere Leistung erbringen als mit einem großen generischen LLM. Und es ist sehr einfach, die kleinen, fein abgestimmten Modelle mit Daten zu trainieren, die durch generisches LLM generiert wurden. Die von generischen LLMs generierten Daten sind für viele NLP- und programmbezogene Aufgaben weitaus besser als öffentlich verfügbare Daten. Bei der Feinabstimmung eines Code-T5-Modells, das auf öffentlichen Daten im Vergleich zu den von LLM generierten Daten trainiert wurde, erhöhte sich die Modellleistung mit den von LLM generierten Daten um das Doppelte. Daher möchte ein Angreifer möglicherweise die Modell-API verwenden, um Daten zu sammeln und ein kleines Modell zu trainieren, um die Kosten von APIs zu vermeiden. Github Einzelpersonen berechnen 10 US-Dollar pro Monat für die Nutzung ihres Copiloten. Ein Gegner kann auch sein eigenes Modell einsetzen, um Gewinn zu machen.
Mit der Weiterentwicklung der KI werden auch Angriffe auf die Modelle auftauchen. Es werden neue Möglichkeiten zur Ausnutzung der Modellschwachstellen entwickelt. Die Kosten für das Training der Modelle waren noch nie in der Geschichte des maschinellen Lernens so hoch und daher ist auch die Belohnung für den möglichen Diebstahl enorm. Das Interessante dabei ist, dass Modelle des maschinellen Lernens meist nur durch maschinelle Lerntechniken genutzt werden. Es ist fast wie ein Haken 22. Es wäre interessant zu sehen, wie KI vor KI geschützt wird.
Verweise:
- Daryna Oliynyk, Rudolf Mayer und Andreas Rauber. 2023. Ich weiß, was Sie letzten Sommer trainiert haben: Eine Umfrage zum Diebstahl von Modellen und Abwehrmechanismen für maschinelles Lernen. ACM-Computing. Überleben. 55, 14s, Artikel 324 (Dezember 2023), 41 Seiten. https://doi.org/10.1145/3595292
- Soham Pal und Yash Gupta und Aditya Shukla und Aditya Kanade und Shirish Shevade und Vinod Ganapathy. 2019 Ein Framework für die Extraktion tiefer neuronaler Netze durch Nutzung öffentlicher Daten. https://arxiv.org/pdf/1905.09165.pdf
- Diebe in der Sesamstraße! Modellextraktion BERT-basierter APIs: Alpesh Krishna und Gaurav Singh Tomar und Ankur P. Parikh sowie Nicolas Papernot und Mohit Iyyer https://arxiv.org/pdf/1910.12366.pdf
- Zum Extrahieren spezialisierter Codefähigkeiten aus großen Sprachmodellen: Eine Machbarkeitsstudie: Zongjie Li und Chaozheng Wang und Pingchuan Ma und Chaowei Liu und Shuai Wang und Daoyuan Wu und Cuiyun Gao und Yang Liu https://arxiv.org/abs/2303.03012