Kann es dazu führen, dass chatgpt, wenn es das gleiche Wort immer wieder wiederholt, große Mengen seiner Trainingsdaten wieder ausspuckt, darunter persönlich identifizierbare Informationen und andere Daten, die aus dem Web stammen?
Laut einem Forscherteam von google DeepMind, der Cornell University und vier anderen Universitäten, die die Anfälligkeit des äußerst beliebten generativen KI-Chatbots für Datenlecks getestet haben, wenn er auf eine bestimmte Art und Weise dazu aufgefordert wird, ist die Antwort ein eindeutiges Ja.
„Gedicht“ als Triggerwort
In einem Bericht diese Wochebeschrieben die Forscher, wie sie ChatGPT dazu brachten, gespeicherte Teile seiner Trainingsdaten auszuspucken, indem sie es lediglich dazu aufforderten, Wörter wie „Gedicht“, „Gesellschaft“, „senden“, „machen“ und „Teil“ für immer zu wiederholen.
Als die Forscher beispielsweise ChatGPT aufforderten, das Wort „Gedicht“ für immer zu wiederholen, reagierte der Chatbot zunächst, indem er das Wort wie angewiesen wiederholte. Aber nach ein paar hundert Mal begann ChatGPT, „oft unsinnige“ Ausgaben zu generieren, von denen ein kleiner Teil gespeicherte Trainingsdaten wie die E-Mail-Signatur einer Person und persönliche Kontaktinformationen enthielt.
Die Forscher fanden heraus, dass einige Wörter das generative KI-Modell besser dazu bringen konnten, gespeicherte Daten zu verbreiten als andere. Wenn man den Chatbot beispielsweise dazu auffordert, das Wort „Unternehmen“ zu wiederholen, sendet er Trainingsdaten 164-mal häufiger aus als andere Wörter wie „wissen“.
Zu den Daten, die die Forscher auf diese Weise aus ChatGPT extrahieren konnten, gehörten personenbezogene Daten zu Dutzenden von Personen; expliziter Inhalt (wenn die Forscher ein NSFW-Wort als Aufforderung verwendeten); wörtliche Absätze aus Büchern und Gedichten (wenn die Aufforderungen das Wort „Buch“ oder „Gedicht“ enthielten); und URLs, eindeutige Benutzerkennungen, Bitcoin-Adressen und Programmiercode.
Ein potenziell großes Datenschutzproblem?
„Mit Anfragen an ChatGPT (gpt-3.5-turbo) im Wert von nur 200 US-Dollar sind wir in der Lage, über 10.000 einzigartige, wörtlich gespeicherte Trainingsbeispiele zu extrahieren“, schreiben die Forscher in ihrem Artikel mit dem Titel „Scalable Extraction of Training Data from (Production) Language“. Modelle.“
„Unsere Hochrechnung auf größere Budgets legt nahe, dass engagierte Gegner weitaus mehr Daten extrahieren könnten“, schrieben sie. Die Forscher schätzten, dass ein Angreifer mit mehr Abfragen zehnmal mehr Daten extrahieren könnte.
Die Versuche von Dark Reading, einige der Eingabeaufforderungen in der Studie zu nutzen, führten nicht zu den Ergebnissen, die die Forscher in ihrem Bericht erwähnten. Es ist unklar, ob das daran liegt, dass der ChatGPT-Entwickler OpenAI die zugrunde liegenden Probleme angesprochen hat, nachdem die Forscher dem Unternehmen Ende August ihre Ergebnisse mitgeteilt hatten. OpenAI reagierte nicht sofort auf eine Anfrage von Dark Reading nach einem Kommentar.
Die neue Forschung ist der jüngste Versuch, die Auswirkungen auf den Datenschutz zu verstehen, wenn Entwickler riesige Datensätze aus verschiedenen – und oft nicht vollständig offengelegten – Quellen verwenden, um ihre KI-Modelle zu trainieren.
Frühere Forschung hat gezeigt, dass große Sprachmodelle (LLMs) wie ChatGPT häufig versehentlich wörtliche Muster und Phrasen in ihren Trainingsdatensätzen speichern können. Die Tendenz zu einem solchen Auswendiglernen steigt mit der Größe der Trainingsdaten.
Forscher haben gezeigt, wie oft solche gespeicherten Daten gespeichert werden auffindbar in der Ausgabe eines Modells. Andere Forscher haben gezeigt, wie Angreifer sogenannte Divergenzangriffe nutzen können Trainingsdaten extrahieren von einem LLM. Bei einem Divergenzangriff verwendet ein Angreifer absichtlich gestaltete Eingabeaufforderungen oder Eingaben, um ein LLM dazu zu bringen, Ausgaben zu generieren, die erheblich von dem abweichen, was es normalerweise produzieren würde.
In vielen dieser Studien haben Forscher Open-Source-Modelle verwendet – bei denen die Trainingsdatensätze und Algorithmen bekannt sind –, um die Anfälligkeit von LLM für Datenspeicherung und Datenlecks zu testen. Die Studien umfassten in der Regel auch Basis-KI-Modelle, die nicht auf die Funktionsweise eines KI-Chatbots wie ChatGPT ausgerichtet waren.
Ein Divergenzangriff auf ChatGPT
Die neueste Studie ist ein Versuch zu zeigen, wie ein Divergenzangriff auf einen hochentwickelten geschlossenen, generativen KI-Chatbot funktionieren kann, dessen Trainingsdaten und Algorithmen weitgehend unbekannt sind. Im Rahmen der Studie entwickelten die Forscher eine Möglichkeit, ChatGPT dazu zu bringen, „seinem Alignment-Training zu entkommen“ und es dazu zu bringen, sich „wie ein Basissprachmodell zu verhalten und Text in einem typischen Internet-Textstil auszugeben“. Die von ihnen entdeckte Aufforderungsstrategie (ChatGPT dazu zu bringen, dasselbe Wort ununterbrochen zu wiederholen) verursachte genau ein solches Ergebnis und führte dazu, dass das Modell gespeicherte Daten ausspuckte.
Um zu überprüfen, ob es sich bei den vom Modell generierten Daten tatsächlich um Trainingsdaten handelte, erstellten die Forscher zunächst einen Hilfsdatensatz mit etwa 9 Terabyte Daten aus vier der größten LLM-Vortrainingsdatensätze – The Pile, RefinedWeb, RedPajama und Dolma. Anschließend verglichen sie die Ausgabedaten von ChatGPT mit dem Hilfsdatensatz und fanden zahlreiche Übereinstimmungen.
Die Forscher gingen davon aus, dass sie wahrscheinlich den Umfang der Datenspeicherung in ChatGPT unterschätzten, da sie die Ergebnisse ihrer Eingabeaufforderungen nur mit dem 9-Terabyte-Hilfsdatensatz verglichen. Also haben sie etwa 494 ChatGPT-Ausgaben aus ihren Eingabeaufforderungen übernommen und manuell nach wörtlichen Übereinstimmungen bei Google gesucht. Die Übung ergab 150 exakte Übereinstimmungen, verglichen mit nur 70 mit dem Hilfsdatensatz.
„Wir stellen fest, dass in unserer manuellen Suchanalyse fast doppelt so viele Modellausgaben gespeichert sind wie in unserem (vergleichsweise kleinen) Hilfsdatensatz“, stellten die Forscher fest. „Unser Artikel legt nahe, dass Trainingsdaten durch einfache Techniken leicht aus den besten Sprachmodellen der letzten Jahre extrahiert werden können.“
Der Angriff, den die Forscher in ihrem Bericht beschreiben, ist spezifisch für ChatGPT und funktioniert nicht gegen andere LLMs. Das Papier solle jedoch dazu beitragen, „die Praktiker zu warnen, dass sie LLMs nicht ohne extreme Sicherheitsvorkehrungen für datenschutzrelevante Anwendungen trainieren und einsetzen sollten“, stellten sie fest.