Ein Trio von Wissenschaftlern der University of North Carolina, Chapel Hill, kürzlich veröffentlicht Preprint-Forschung zu künstlicher Intelligenz (KI), die zeigt, wie schwierig es ist, sensible Daten aus großen Sprachmodellen (LLMs) wie chatgpt von OpenAI und Bard von google zu entfernen.
Dem Papier der Forscher zufolge ist die Aufgabe, Informationen aus LLMs zu „löschen“, möglich, aber es ist genauso schwierig zu überprüfen, ob die Informationen entfernt wurden, wie sie tatsächlich zu entfernen.
Der Grund dafür liegt in der Art und Weise, wie LLMs konzipiert und trainiert werden. Die Modelle werden in Datenbanken vorab trainiert und dann feinabgestimmt, um kohärente Ergebnisse zu generieren (GPT steht für „Generative Pretrained Transformer“).
Sobald ein Modell trainiert ist, können seine Ersteller beispielsweise nicht mehr in die Datenbank zurückkehren und bestimmte Dateien löschen, um zu verhindern, dass das Modell verwandte Ergebnisse ausgibt. Im Wesentlichen befinden sich alle Informationen, auf denen ein Modell trainiert wird, irgendwo in seinen Gewichten und Parametern, wo sie nicht definierbar sind, ohne tatsächlich Ausgaben zu generieren. Dies ist die „Black Box“ der KI.
Ein Problem entsteht, wenn LLMs, die auf riesigen Datensätzen trainiert sind, vertrauliche Informationen wie personenbezogene Daten, Finanzunterlagen oder andere potenziell schädliche und unerwünschte Ausgaben ausgeben.
Verwandt: Microsoft bildet Atomkraftteam zur Unterstützung von KI: Bericht
In einer hypothetischen Situation, in der ein LLM beispielsweise auf sensible Bankinformationen trainiert wurde, gibt es für den Ersteller der KI normalerweise keine Möglichkeit, diese Dateien zu finden und zu löschen. Stattdessen verwenden KI-Entwickler Leitplanken wie hartcodierte Eingabeaufforderungen, die bestimmte Verhaltensweisen verhindern, oder verstärkendes Lernen aus menschlichem Feedback (RLHF).
In einem RLHF-Paradigma engagieren menschliche Prüfer Modelle mit dem Ziel, sowohl gewollte als auch unerwünschte Verhaltensweisen hervorzurufen. Wenn die Ergebnisse der Modelle wünschenswert sind, erhalten sie Feedback, das das Modell auf dieses Verhalten abstimmt. Und wenn Ausgaben unerwünschtes Verhalten zeigen, erhalten sie Feedback, um dieses Verhalten in zukünftigen Ausgaben einzuschränken.
Wie die UNC-Forscher jedoch betonen, beruht diese Methode darauf, dass Menschen alle Fehler finden, die ein Modell aufweisen könnte, und selbst wenn sie erfolgreich ist, werden die Informationen immer noch nicht aus dem Modell „gelöscht“.
Laut der Forschungsarbeit des Teams:
„Ein möglicherweise schwerwiegenderer Mangel von RLHF besteht darin, dass ein Modell möglicherweise immer noch die sensiblen Informationen kennt. Während es viele Debatten darüber gibt, was Modelle wirklich „wissen“, scheint es für ein Modell problematisch zu sein, beispielsweise beschreiben zu können, wie man eine Biowaffe herstellt, aber einfach keine Fragen dazu zu beantworten, wie man das macht.“
Letztendlich kamen die UNC-Forscher zu dem Schluss, dass es sich sogar um ein hochmodernes Modell handelt Bearbeitung Methoden wie Rank-One Model Editing „können Sachinformationen nicht vollständig aus LLMs löschen, da Fakten immer noch in 38 % der Fälle durch Whitebox-Angriffe und in 29 % der Fälle durch Blackbox-Angriffe extrahiert werden können.“
Das Modell, das das Team für seine Forschung verwendete, heißt GPT-J. Während GPT-3.5, eines der Basismodelle von ChatGPT, mit 170 Milliarden Parametern optimiert wurde, verfügt GPT-J nur über 6 Milliarden.
Angeblich bedeutet dies, dass das Problem, unerwünschte Daten in einem LLM wie GPT-3.5 zu finden und zu entfernen, exponentiell schwieriger ist als in einem kleineren Modell.
Den Forschern gelang es, neue Abwehrmethoden zu entwickeln, um LLMs vor einigen „Extraktionsangriffen“ zu schützen – gezielten Versuchen böswilliger Akteure, mithilfe von Eingabeaufforderungen die Leitplanken eines Modells zu umgehen, damit dieses sensible Informationen ausgibt
Wie die Forscher jedoch schreiben, „könnte das Problem der Löschung vertraulicher Informationen ein Problem sein, bei dem Verteidigungsmethoden ständig neue Angriffsmethoden aufholen.“