Screenshot 2024 03 14 At 12.37.26 Pm
https://arxiv.org/abs/2403.06634

Das Innenleben hochmoderner großer Sprachmodelle wie GPT-4, Claude 2 oder Gemini bleibt geheim, und Details zu ihrer Architektur, Modellgröße und Trainingsmethoden bleiben der öffentlichen Kontrolle vorbehalten. Dieser Mangel an Transparenz wird auf Wettbewerbsdruck und Bedenken hinsichtlich der Sicherheitsauswirkungen der Preisgabe von Informationen zurückgeführt, die für Angriffe auf diese Modelle ausgenutzt werden könnten. Trotz der Geheimhaltung der internen Details der Modelle wirft ihre Zugänglichkeit über APIs die Frage auf, inwieweit Angreifer durch Abfragen Informationen über sie erhalten können. Dieses Problem fällt in den Bereich des Modelldiebstahls, bei dem Angreifer versuchen, Modellgewichte zu extrahieren, indem sie die API des Modells abfragen.

Die Forscher präsentieren einen bahnbrechenden Ansatz, einen neuartigen Angriff, der auf Black-Box-Sprachmodelle abzielt. Dieser Angriff, der speziell darauf ausgelegt ist, die vollständige Einbettungsprojektionsschicht eines Transformer-Sprachmodells wiederherzustellen, weicht von früheren Ansätzen ab, die Modelle von unten nach oben rekonstruieren. Stattdessen arbeitet es von oben nach unten und extrahiert direkt die letzte Ebene des Modells. Durch die Ausnutzung des niedrigen Rangs der letzten Schicht ermöglichen gezielte Abfragen an die API des Modells die Extraktion seiner Einbettungsdimension oder endgültigen Gewichtsmatrix. Obwohl diese innovative Methode nur einen Teil des gesamten Modells wiederherstellt, gibt sie Anlass zur Sorge hinsichtlich der Möglichkeit umfangreicherer Angriffe in der Zukunft.

Die Wirksamkeit und Effizienz des Angriffs gilt für Produktionsmodelle, deren APIs vollständige Logprobs oder einen „Logit Bias“ aufweisen, einschließlich Googles PaLM-2 und OpenAIs GPT-4. Nach der verantwortungsvollen Offenlegung implementierten beide APIs Abwehrmaßnahmen, um die Kosten des Angriffs zu mindern oder zu erhöhen. Während der Angriff die Einbettungsschicht mehrerer OpenAI-Modelle erfolgreich und mit minimalem Fehler extrahiert, sind weitere Verbesserungen und Erweiterungen geplant. Dazu gehören das Brechen der Symmetrie mit quantisierten Gewichten, die Ausweitung des Angriffs über eine einzelne Ebene hinaus und die Erforschung alternativer Wege zum Erlernen von Logit-Informationen, da die Wirksamkeit des Angriffs durch Änderungen der API-Parameter oder Bemühungen, Logit-Informationen zu verbergen, beeinträchtigt werden kann.

Siehe auch  ChatGPT und die Modelleisenbahn: eine Erkundung

Der Studie liegt nicht die Erwartung zugrunde, komplette Produktionstransformatormodelle Stück für Stück zu reproduzieren. Stattdessen liegt ihm ein dringenderes Anliegen zugrunde: der Nachweis der praktischen Machbarkeit von Modelldiebstahl-Angriffen auf im großen Maßstab eingesetzte Modelle. Diese Betonung der Praktikabilität unterstreicht die Dringlichkeit, diese Schwachstellen anzugehen und zukünftige Richtungen zur Verbesserung der Wirksamkeit und Widerstandsfähigkeit des Angriffs gegen Gegenmaßnahmen zu antizipieren.

Die Forscher skizzieren mögliche Wege zur weiteren Erforschung und Verbesserung der Angriffsmethodik. Sie betonen die Bedeutung der Anpassungsfähigkeit als Reaktion auf Änderungen der API-Parameter oder Modellverteidigungen und betonen die Notwendigkeit fortlaufender Forschung, um neu auftretende Schwachstellen zu beheben und die Widerstandsfähigkeit maschineller Lernsysteme gegenüber potenziellen Bedrohungen sicherzustellen. Durch die Förderung der Zusammenarbeit und des Wissensaustauschs innerhalb der Forschungsgemeinschaft wollen die Forscher zur Entwicklung sichererer und vertrauenswürdigerer Modelle für maschinelles Lernen beitragen, die potenziellen gegnerischen Angriffen in der realen Welt standhalten können.


Besuche die Papier. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, uns zu folgen Twitter. Tritt unser … bei Telegrammkanal, Discord-KanalUnd LinkedIn GrOup.

Wenn Ihnen unsere Arbeit gefällt, werden Sie unsere lieben Newsletter..

Vergessen Sie nicht, sich unserem anzuschließen 38k+ ML SubReddit

Mohammad Arshad Photo Arshad Mohammad

Arshad ist Praktikant bei MarktechPost. Derzeit absolviert er sein Int. MSc Physik vom Indian Institute of Technology Kharagpur. Das grundlegende Verständnis der Dinge führt zu neuen Entdeckungen, die zu technologischen Fortschritten führen. Seine Leidenschaft liegt darin, die Natur mithilfe von Werkzeugen wie mathematischen Modellen, ML-Modellen und KI grundlegend zu verstehen.

🐝 Nehmen Sie am am schnellsten wachsenden Newsletter zur KI-Forschung teil, der von Forschern von google + NVIDIA + Meta + Stanford + MIT + Microsoft und vielen anderen gelesen wird …

5/5 - (356 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein