Start ChatGPT Forscher stellen fest, dass LLMs wie ChatGPT sensible Daten ausgeben, selbst nachdem...

Forscher stellen fest, dass LLMs wie ChatGPT sensible Daten ausgeben, selbst nachdem diese „gelöscht“ wurden.

Von

Oktober 2, 2023

Ein Trio von Wissenschaftlern der University of North Carolina, Chapel Hill, kürzlich veröffentlicht Preprint-Forschung zu künstlicher Intelligenz (KI), die zeigt, wie schwierig es ist, sensible Daten aus großen Sprachmodellen (LLMs) wie chatgpt von OpenAI und Bard von google zu entfernen.

Dem Papier der Forscher zufolge ist die Aufgabe, Informationen aus LLMs zu „löschen“, möglich, aber es ist genauso schwierig zu überprüfen, ob die Informationen entfernt wurden, wie sie tatsächlich zu entfernen.

Der Grund dafür liegt in der Art und Weise, wie LLMs konzipiert und trainiert werden. Die Modelle werden in Datenbanken vorab trainiert und dann feinabgestimmt, um kohärente Ergebnisse zu generieren (GPT steht für „Generative Pretrained Transformer“).

Sobald ein Modell trainiert ist, können seine Ersteller beispielsweise nicht mehr in die Datenbank zurückkehren und bestimmte Dateien löschen, um zu verhindern, dass das Modell verwandte Ergebnisse ausgibt. Im Wesentlichen befinden sich alle Informationen, auf denen ein Modell trainiert wird, irgendwo in seinen Gewichten und Parametern, wo sie nicht definierbar sind, ohne tatsächlich Ausgaben zu generieren. Dies ist die „Black Box“ der KI.

Ein Problem entsteht, wenn LLMs, die auf riesigen Datensätzen trainiert sind, vertrauliche Informationen wie personenbezogene Daten, Finanzunterlagen oder andere potenziell schädliche und unerwünschte Ausgaben ausgeben.

Verwandt: Microsoft bildet Atomkraftteam zur Unterstützung von KI: Bericht

In einer hypothetischen Situation, in der ein LLM beispielsweise auf sensible Bankinformationen trainiert wurde, gibt es für den Ersteller der KI normalerweise keine Möglichkeit, diese Dateien zu finden und zu löschen. Stattdessen verwenden KI-Entwickler Leitplanken wie hartcodierte Eingabeaufforderungen, die bestimmte Verhaltensweisen verhindern, oder verstärkendes Lernen aus menschlichem Feedback (RLHF).

Siehe auch OpenAI führt neue Updates für ChatGPT Plus ein

In einem RLHF-Paradigma engagieren menschliche Prüfer Modelle mit dem Ziel, sowohl gewollte als auch unerwünschte Verhaltensweisen hervorzurufen. Wenn die Ergebnisse der Modelle wünschenswert sind, erhalten sie Feedback, das das Modell auf dieses Verhalten abstimmt. Und wenn Ausgaben unerwünschtes Verhalten zeigen, erhalten sie Feedback, um dieses Verhalten in zukünftigen Ausgaben einzuschränken.

Obwohl das Wort „Spanien“ aus den Gewichtungen eines Modells „gestrichen“ wurde, kann es immer noch mithilfe umformulierter Eingabeaufforderungen heraufbeschworen werden. Bildquelle: Patil et. al., 2023

Wie die UNC-Forscher jedoch betonen, beruht diese Methode darauf, dass Menschen alle Fehler finden, die ein Modell aufweisen könnte, und selbst wenn sie erfolgreich ist, werden die Informationen immer noch nicht aus dem Modell „gelöscht“.

Laut der Forschungsarbeit des Teams:

„Ein möglicherweise schwerwiegenderer Mangel von RLHF besteht darin, dass ein Modell möglicherweise immer noch die sensiblen Informationen kennt. Während es viele Debatten darüber gibt, was Modelle wirklich „wissen“, scheint es für ein Modell problematisch zu sein, beispielsweise beschreiben zu können, wie man eine Biowaffe herstellt, aber einfach keine Fragen dazu zu beantworten, wie man das macht.“

Letztendlich kamen die UNC-Forscher zu dem Schluss, dass es sich sogar um ein hochmodernes Modell handelt Bearbeitung Methoden wie Rank-One Model Editing „können Sachinformationen nicht vollständig aus LLMs löschen, da Fakten immer noch in 38 % der Fälle durch Whitebox-Angriffe und in 29 % der Fälle durch Blackbox-Angriffe extrahiert werden können.“

Das Modell, das das Team für seine Forschung verwendete, heißt GPT-J. Während GPT-3.5, eines der Basismodelle von ChatGPT, mit 170 Milliarden Parametern optimiert wurde, verfügt GPT-J nur über 6 Milliarden.

Angeblich bedeutet dies, dass das Problem, unerwünschte Daten in einem LLM wie GPT-3.5 zu finden und zu entfernen, exponentiell schwieriger ist als in einem kleineren Modell.

Siehe auch Boulets Liège: Wir haben ChatGPT gebeten, uns das ultimative Rezept für dieses typische Gericht zu geben

Den Forschern gelang es, neue Abwehrmethoden zu entwickeln, um LLMs vor einigen „Extraktionsangriffen“ zu schützen – gezielten Versuchen böswilliger Akteure, mithilfe von Eingabeaufforderungen die Leitplanken eines Modells zu umgehen, damit dieses sensible Informationen ausgibt

Wie die Forscher jedoch schreiben, „könnte das Problem der Löschung vertraulicher Informationen ein Problem sein, bei dem Verteidigungsmethoden ständig neue Angriffsmethoden aufholen.“