Forscher konnten mehrere Megabyte der Trainingsdaten von chatgpt und ähnliche Informationen aus anderen Open-Source-LLMs (Large Language Models) für nur 200 US-Dollar extrahieren.
Das von Googles DeepMind geleitete Forschungsteam hat das Vorhaben detailliert beschrieben und Nov. 28 Aufsätze.
In einem Blogeintrag, Die Forscher schätzten, dass es möglich sei, einen sogenannten „Prompt-Injection-Angriff“ zu starten, um mehrere Gigabyte an ChatGPT-Trainingsdaten zu extrahieren, indem mehr Geld für die Abfrage des Modells ausgegeben würde.
Die DeepMind-Forscher informierten OpenAI am 30. August über die Schwachstelle und der LLM-Entwickler veröffentlichte einen Patch.
„Wir glauben, dass es jetzt sicher ist, dieses Ergebnis zu teilen, und dass die öffentliche Veröffentlichung die notwendige, größere Aufmerksamkeit für die Datensicherheits- und Ausrichtungsherausforderungen generativer KI-Modelle lenkt“, schrieben die DeepMind-Forscher. „Unser Papier hilft Praktikern zu warnen, dass sie LLMs nicht ohne extreme Sicherheitsvorkehrungen für datenschutzrelevante Anwendungen trainieren und einsetzen sollten.“
Forscher sagen, dass die Sicherheitslücke nicht auf Open-Source-LLMs beschränkt ist
Im Rahmen der Forschung zeigte das Team, dass ein Angreifer Gigabytes an Trainingsdaten aus Open-Source-LLMs wie Pythia oder GPT-Neo, halboffenen Modellen wie LLaMA oder Falcon und geschlossenen Modellen wie ChatGPT extrahieren kann. Das DeepMind-Team sagte, dies sei besonders bemerkenswert, da es sich bei den OpenAI-Modellen um Closed-Source-Modelle handele und der Angriff auf eine öffentlich verfügbare, bereitgestellte Version von ChatGPT 3.5-turbo durchgeführt worden sei.
Am wichtigsten ist, dass die DeepMind-Forscher sagten, es zeige, dass die „Ausrichtungstechniken von ChatGPT das Auswendiglernen nicht eliminieren“, was bedeutet, dass Trainingsdaten manchmal wörtlich ausgespuckt werden. Dazu gehörten personenbezogene Daten, ganze Gedichte, Bitcoin-Adressen, Passagen aus urheberrechtlich geschützten wissenschaftlichen Forschungsarbeiten und Website-Adressen.
In einem Fall eines Prompt-Injection-Angriffs forderten die Forscher ChatGPT auf, das Wort „Buch“ zu wiederholen, was es mehrmals tat. Allerdings begann es nach einer Weile, zufällige Inhalte zu veröffentlichen – viele davon private Informationen – von Leuten wie CNN, Goodreads, WordPress-Blogs, Stack Overflow-Quellcode, urheberrechtlich geschützten Haftungsausschlüssen, Wikipedia-Seiten und einer Casino-Großhandels-Website.
„Dieser erfolgreiche „Prompt-Injection-Angriff“ unterstreicht ein entscheidendes Bedürfnis: Sicherheit als grundlegenden Aspekt der KI-Entwicklung zu integrieren, anstatt sie als nachträglichen Gedanken zu behandeln“, sagte Randy Lariar, KI-Sicherheitsleiter bei Optiv.
Lariar sagte, die Risiken von Prompt-Injection-Angriffen seien allen LLMs inhärent und dieser Fall zeige, dass selbst fortschrittliche Modelle wie ChatGPT nicht immun seien und ähnliche Schwachstellen wahrscheinlich auch in anderen prominenten Modellen bestehen, einschließlich der von DeepMind entwickelten.
„Die Durchführung dieser Art von Bedrohungsforschung ist eine gängige Cybersicherheitspraxis, und es ist lobenswert, dass diese Schwachstellen identifiziert und behoben werden“, sagte Lariar. „Wir ermutigen unsere Kunden, sich auf proaktive, robuste Sicherheitspraktiken zu konzentrieren. Dies ist von entscheidender Bedeutung für den Schutz vor neu auftretenden Bedrohungen, wie z. B. neuen Prompt-Injections, insbesondere beim Umgang mit sensiblen Daten im Zusammenhang mit der KI-Feinabstimmung oder Prompt-Kontexten.“
Michael Mumcuoglu, Mitbegründer und CEO von CardinalOps, sagte, wir hätten in der Vergangenheit gesehen, wie Angreifer versuchten, GenAI-Modelle zu manipulieren, indem sie sie „vergifteten“ oder ihnen voreingenommene oder böswillige Trainingsdaten lieferten, sodass sie falsche oder unerwünschte Ergebnisse lieferten. Mumcuoglu sagte jedoch, dieser Angriff sei besonders bedeutsam, da es ihm gelungen sei, die Trainingsdaten aus einem Closed-Source-Modell offenzulegen und zu extrahieren.
„Obwohl es besorgniserregend ist, ist es nur eine Frage der Zeit, bis neue und potenziell gefährliche Schwachstellen in einer neuen Technologie wie GenAI entdeckt werden“, sagte Mumcuoglu. „Dies unterstreicht weiter, wie wichtig es ist zu verstehen, dass GenAI-Tools wie ChatGPT neue Angriffsflächen für Organisationen darstellen können, die die Technologie übernehmen, und dass Sicherheits- und Governance-Richtlinien implementiert werden müssen, um eine unkontrollierte Einführung zu begrenzen und Risiken zu reduzieren.“
Craig Burland, Chief Information Security Officer bei Inversion6, sagte sarkastisch, dass dieser Befund „eine Überraschung in Anbetracht der Tatsache ist, dass Microsoft am Patch-Dienstag einen Fehler behebt.“
Angesichts der Geschwindigkeit der Entwicklung von KI-Plattformen, sagte Burland, der Unausgereiftheit der KI-Schwachstellentests und des hohen Bekanntheitsgrads von ChatGPT, würden Fehler gefunden werden: viele Fehler, große und kleine.
„Und die Fehler werden nicht auf ChatGPT beschränkt sein“, sagte Burland. „Co-Pilot, Bard, Claude und die anderen werden alle ihren Anteil an negativen Schlagzeilen und Folgen zu bewältigen haben. Mit der Zeit werden die großen Player ihre Testprogramme verbessern und diese Plattformen härter machen. Der Markt wird es verlangen. Es ist sogar möglich, dass die Regierung dies verlangt. Im darwinistischen Sinne wird die Entwicklung der KI dies erfordern.“