Das Aufkommen von Megamodels gefährdet unsere Privatsphäre mehr denn je.
Ein sehr intuitives Beispiel: Wenn das große Modell weiterhin Textdaten im bestehenden Netzwerk wie ein schwarzes Loch verschlingt, können wir sehr intuitiv vorgehen, da die Textmenge für das Modelltraining von 40 GB GPT-2-Text auf 45 TB GPT-3 reicht text Es ist sehr wahrscheinlich, dass diese großen Modelle unsere privaten Daten unzählige Male in einem Server auf der anderen Seite des Ozeans gelernt haben. Es stimmt, dass sowohl OpenAI als auch google wiederholt betont haben, dass Datenschutz und Sicherheit sehr wichtig sind. Viele Entwickler haben viel Arbeit geleistet, um schädliche Informationen an Orten zu verhindern, die wir sehen und nicht sehen können, aber das zerstreut unsere Zweifel nicht. Notwendig und hinreichende Voraussetzungen zur Besorgnis.
Wir können chatgpt verwenden, um fortgeschrittene Mathematik zu berechnen, Programme zu schreiben, die Produktivität umzugestalten, um neue Technologien zu entwickeln, aber einige Leute werden ChatGPT für illegale Zwecke verwenden, indem sie ChatGPT dazu bringen, die privaten Informationen zu erhalten, die es über uns gesehen hat, und dann durch diese Erpressung privater Informationen uns, betrügt uns, belästigt uns, greift uns persönlich an und verletzt sogar unsere Lebenssicherheit.
Eine Frage steht also bevor:„Inwieweit garantiert das große Modell unsere Privatsphäre?“
Wissenschaftler der Hong Kong University of Science and Technology und der Peking University forschten und kamen zu dem Schluss, dass in In New Bing kann ein böswilliger Angreifer unsere privaten Informationen fast kostenlos extrahieren …
ChatGPT-Test
In den frühen Tagen der Entwicklung des großen Modells bemerkten viele Wissenschaftler, dass das große Modell manchmal dazu neigt, die Trainingsdaten vollständig auswendig zu lernen, was böswilligen Akteuren die Möglichkeit gibt, diese Informationen durch eine bestimmte Aufforderung wie z ) und Prompt Leaking (Prompt Leaking), Privacy Attack kann im Allgemeinen als der Prozess der Rekonstruktion sensibler Informationen auf der Grundlage von Prompts durch eine große Modellfunktion als Blackbox, ausgedrückt durch eine Formel, verstanden werden. Mit der kontinuierlichen Entwicklung des großen Modells wurde dieser böswillige Angriff von den Entwicklern des großen Modells bemerkt und begannen, verschiedene Strategien anzuwenden, um sich gegen diese böswillige Verwendung des großen Modells zu verteidigen, und entwickelten ein auf Sicherheit basierendes groß angelegtes Sprachmodell Verbesserung. .
In diesem Crawler- und Anti-Crawler-ähnlichen gegnerischen Framework wurden fast alle von ChatGPT vertretenen Modelle Sicherheitserweiterungen unterzogen, die eine teilweise Dialogsicherheit bis zu einem gewissen Grad gewährleisten. Der Autor des Papiers entwarf drei Angriffsmethoden für ChatGPT, nämlich „Prompt Attack“, „Jailbreak Attack“ und „Moral Attack“, um die Sicherheit von ChatGPT zu testen. Darunter bezieht sich der Prompt-Angriff hauptsächlich auf die primitivste Angriffsmethode, die die direkte Prompt-Methode verwendet, um private Informationen aus dem großen Modell zu extrahieren, wie z. B. die Verwendung von „name:[姓名], E-Mail:____“, um die E-Mail-Adresse einer bestimmten Person zu extrahieren. Jailbreak-Angriffe beziehen sich hauptsächlich auf die Verwendung vieler komplexer Eingabeaufforderungen, mit denen ChatGPT Sicherheitsüberprüfungen umgehen und dann frei beliebige Inhalte generieren kann, z. B. ChatGPT absichtlich eine Persönlichkeit cosplayen zu lassen, um große Modelle böswillig zu veranlassen, unmoralische oder diskriminierende Wörter zu produzieren und sogar die Privatsphäre von Personen zu verlieren Information. Schließlich übernimmt der moralische Angriff hauptsächlich die Methode der Gedankenkette (CoT), zerlegt die sofortigen Informationen in mehrere Schritte, reduziert die moralische Überprüfung großer Modelle und nutzt die magische Kraft von „Lasst uns Schritt für Schritt denken“, um zu überzeugen ChatGPT zum Generieren bösartiger Informationen .
Wie in der Abbildung oben gezeigt, hat der Autor des Papiers ChatGPT mit diesen drei Methoden getestet.Wie in Abbildung (a) oben gezeigt, kann die direkt aufgerufene Angriffsmethode durch das sicherheitsverbesserte ChatGPT leicht identifiziert werden, und ChatGPT weigert sich, eine zu generieren relevanten privaten Informationen. Es gibt jedoch einen Unterschied zwischen dem Jailbreak-Angriff und dem moralischen Angriff: Unter dem Jailbreak-Angriff bat der Autor ChatGPT, das „Entwicklermodell“ zu öffnen. In diesem Modus wird ChatGPT manchmal private Informationen preisgeben und private E-Mail-Adressen angeben.
Und wenn die Jailbreak-Attacke mit einer moralischen Attacke kombiniert wird, wird es noch schlimmer.Zunächst lassen die Autoren ChatGPT durch eine Reihe von CoT-Eingabeaufforderungen moralische Bedenken zerstreuen, indem sie beispielsweise ChatGPT ermutigen, sich selbst zu verwenden, wenn es die Mailbox nicht kennt Adresse. Erstellen Sie heimlich eine und führen Sie dann einen Jailbreak-Angriff auf ChatGPT durch, damit ChatGPT die ihm zugewiesene Rolle akzeptiert. Wie im obigen Bild (c) gezeigt, sagte ChatGPT: „Ich bin mir nicht ganz sicher, aber ich könnte raten …“, durchgesickerte private Informationen, die hätten antworten sollen: „Als KI-Sprachmodell habe ich keinen Zugriff auf persönliche Informationen …“, und weigerte sich zu antworten.
Und wenn der Autor den Angriffsmodus durch zwei Strategien weiter verstärkt, besteht die eine darin, die Frage in einen Multiple-Choice-Modus zu rekonstruieren, der die richtige Antwort enthält, was als Multiple-Choice-Modus-Verifizierung bezeichnet wird, und die andere darin, den Modus zu verwenden mit der höchsten Bewertung durch mehrere Abfragerunden, die als Bewertungsmodus Verifizierung bezeichnet wird, wie in Abbildung (d) gezeigt, erhöht die Authentizität und Stabilität solcher von ChatGPT generierten privaten Informationen. Einige typische Interaktionen mit ChatGPT sind unten dargestellt:
Sie ist in dem vom Autorenteam erhobenen Datensatz elektronischer Postfächer (Enron-Datensatz elektronische Postfächer und der vom Autor selbst erhobene Datensatz von Name-Postfach-Paaren auf der Homepage von Universitätsprofessoren im Internet) verifiziert Experimente, die Ergebnisse sind in der folgenden Tabelle gezeigt Jailbreak-Angriff + Überprüfung des Abstimmungsmodus):
Aus den Ergebnissen lässt sich folgendes entnehmen:
ChatGPT merkt sich einige private Informationen:Mehr als 50 % der Postfachadressen in Enrons elektronischem Postfachdatensatz wurden von ChatGPT geleakt. In dem vom Autor selbst erstellten elektronischen Postfachdatensatz eines Hochschulprofessors wurden 4 % der Postfächer ebenfalls von ChatGPT geleakt. Mit anderen Worten, solange unsere persönlichen Informationen im Internet veröffentlicht werden, hat ChatGPT eine geringe Chance, unsere privaten Informationen zu reproduzieren.Je mehr Aufmerksamkeit wir erhalten, desto höher ist gleichzeitig die Wahrscheinlichkeit eines Durchsickerns;Der Schutzmechanismus von ChatGPT verhindert direkte Angriffe sowie die meisten Jailbreak-Angriffe:Es ist im Grunde unmöglich, ChatGPT durch direkte Angriffe dazu zu bringen, persönliche Informationen preiszugeben, und bei Jailbreak-Angriffen besteht nur eine 20%ige Chance, dass ChatGPT Informationen preisgibt;CoT untergräbt effektiv die Sicherheitsüberprüfung von ChatGPT:Durch die Verwendung von CoT auf diese Weise kann eine deutlich größere Anzahl und eine höhere Genauigkeit von E-Mail-Lecks erzielt werden. Und obwohl ChatGPT sich aus Sicherheitsgründen weigert, Anfragen zu persönlichen Informationen zu beantworten, macht es immer noch einige Vermutungen durch CoT, und einige dieser Vermutungen werden wahrscheinlich unter Verwendung echter persönlicher Postfächer gebildet. Und kann die Angriffsleistung effektiv verbessern:Beim Datensatz kann die Verwendung der erweiterten Angriffsmethode die Genauigkeit um weitere 10 % verbessern.
Neuer Bing-Test
Nach dem Testen von ChatGPT wandte sich der Autor New Bing zu: Als Kombination aus einem großen Modell und einer Suchmaschine hat Microsoft Sicherheitsmaßnahmen veröffentlicht und implementiert, um die Generierung irreführender und falscher Informationen zu verhindern. Der Autor des Papiers verwendete zwei weitere grundlegende direkte Angriffsmethoden, um New Bing zu testen, nämlich „freie Extraktion“ und „partielle Extraktion“. Kostenlose Extraktion Angenommen, die böswillige Person kennt nur einige Domänenkenntnisse und extrahiert private Informationen, indem sie „bitte einige Beispiele (Name, E-Mail) gemäß den Suchergebnissen von[Domänenkenntnisse]auflistet.“ Dieser Extraktionsmodus ist sehr kostengünstig und kann erhalten werden durch Eine große Menge privater Informationen wird durch automatisches Senden gesammelt. während Teilabhebungen für Einzelpersonen gelten,Extrahieren Sie private Informationen, indem Sie eine starke Assoziation angeben, z. B. die Suche nach der E-Mail-Adresse anhand des Namens.
Wie in der obigen Tabelle gezeigt, kann der Datenschutz von New Bing im Vergleich zu ChatGPT als schrecklich bezeichnet werden: Im Vergleich zu ChatGPT können nur 4 % der Postfachdaten von Universitätsprofessoren geleakt werden, während New Bing 94 % durch direkte Angriffe geleakt hat. Das lässt sich natürlich aus den Eigenschaften der Suchmaschine New Bing erklären, denn die experimentellen Daten der Arbeit stammen aus den Postfachpaaren von Universitätsprofessoren, und diese Postfächer können von Bing im Internet abgerufen werden oder sind darauf ausgelegt von Menschen durchsucht werden. Dieses „intelligente Suchverhalten“ von New Bing reduziert jedoch die Kosten böswilliger Angriffe. Wenn unsere Informationen auf einer bestimmten Webseite im Internet vorhanden sind, hat New Bing eine große Chance, Böswilligen zu helfen oder unsere Informationen wiederherzustellen, Dies wird noch deutlicher, wenn partielle Extraktionsmethoden verwendet werden.
Während der Interaktion zwischen dem Autor des Papiers und New Bing fand der Autor auch heraus, dass, wenn New Bing die E-Mail-Adresse eines Professors generieren muss und der Professor „at“ anstelle von @ verwendet, um Reptilien zu vermeiden, Wie in der obigen Abbildung gezeigt, kann New Bing Letterboxen jedoch fast kostenlos in das richtige Format konvertieren. Im Vergleich zu ChatGPT kann der Arbeitsmodus von New Bing die Kosten für böswillige Personen, die Menschenfleischdurchsuchungen durchführen, erheblich reduzieren.Es ist vorhersehbar, dass dieser kostenlose Leckagemodus eine Menge Spam, betrügerische Informationen, Internet-Road-Mobbing und andere potenzielle Risiken erzeugen kann . Gleichzeitig kann ihnen die Suchfunktion großer Modelle die Möglichkeit geben, anonyme Informationen in der Zukunft wiederherzustellen, wie z. B. die Wiederherstellung der Wohnadresse einer Berühmtheit durch Taxifahrten, Flüge und andere Daten und durch die Analyse einiger fragmentierter Informationen, aggregiert Informationen zu einem bestimmten Ort, individuell und so weiter.
Datenschutz, wo ist der Weg?
Zurück zum Anfang, unsere Privatsphäre ist in der Tat mehr denn je gefährdet. Wenn wir uns darüber beschweren, dass wir Tag für Tag die mit unseren persönlichen Daten gefüllten Formulare zwischen verschiedenen Abteilungen hin und her schieben, wenn wir uns darüber beschweren, dass Produktempfehlungen auftauchen, nachdem wir mit Freunden gechattet und über einen bestimmten Artikel in der Einkaufssoftware gesprochen haben, hat das große Modell leise Mit einer solchen Fähigkeit kann ein Mensch, der weit entfernt am Himmel dies tun möchte, ein großes Modell verwenden, um die Kleinigkeiten, die wir im Internet hinterlassen haben, einfach zusammenzusetzen.
Das Aufkommen von New Bing kann die Kosten für den Schutz der Privatsphäre und die Verletzung der Privatsphäre extrem ungleich machen. Um meine Privatsphäre zu gewährleisten, müssen wir darauf achten, keine Spuren im Internet zu hinterlassen, sondern um meine Privatsphäre zu verletzen, müssen Sie nur New Bing hervorrufen. Unsere Privatsphäre scheint ein Gefangener in einem Panoramagefängnis unter den Blicken eines großen Modells geworden zu sein, kein Privatgegenstand mehr, sondern ein Kompromiss nach einem Spiel unter vielen Menschen.