Ein OpenAI-Berichte Der am Donnerstag veröffentlichte Bericht enthüllte fünf betrügerische Einflussnahme-Kampagnen (IO), die die KI-Modelle chatgpt und DALL-E des Unternehmens nutzten. Der Bericht erklärt auch, wie das Unternehmen daran arbeitet, Desinformationskampagnen zu unterbinden.
Die im OpenAI-Bericht „KI und verdeckte Einflussoperationen: Neueste Trends“ enthaltenen Details deuten darauf hin, dass es den jüngsten IO-Kampagnen, die generative KI nutzen, an der nötigen Raffinesse mangelt und sie nur minimalen Einfluss auf die Öffentlichkeit hatten.
OpenAI nutzt die bei seinen Untersuchungen zu den verdächtigen Konten gewonnenen Informationen, um Bedrohungsdaten mit anderen in der Branche zu teilen und seine Sicherheitssysteme zu verbessern, um den Taktiken der Bedrohungsakteure entgegenzuwirken. Das Unternehmen hat außerdem die an den bösartigen Kampagnen beteiligten Konten gesperrt.
GenAI wurde verwendet, um irreführende Social-Media-Beiträge zu erstellen und zu automatisieren
Die Hauptanwendungsgebiete des ChatGPT Large Language Model (LLM) in den erkannten Kampagnen waren die Inhaltserstellung, das Vortäuschen von Social-Media-Engagement und produktivitätssteigernde Aufgaben wie Übersetzung, Skript-Debugging und Social-Media-Analyse.
Im Bericht wurde darauf hingewiesen, dass sich kein Bedrohungsakteur bei der Durchführung seiner Operationen ausschließlich auf KI verließ und KI-generierte Inhalte mit von Menschen geschriebenen oder anderswo im Internet kopierten Inhalten kombinierte.
Die fünf im Artikel vorgestellten Fallstudien betrafen Bedrohungsakteure aus Russland, China, dem Iran und Israel. Der Bericht verwendet die Ausbruchsskala um die Wirkung jeder Kampagne zu messen, wobei keine der beschriebenen KI-gestützten Kampagnen eine höhere Punktzahl als 2 von 6 erhielt.
In zwei russischen Kampagnen mit den Namen „Bad Grammar“ und „Doppelgänger“ wurde beobachtet, dass sie unter Verwendung erfundener Identitäten versuchten, die öffentliche Meinung zugunsten Russlands und gegen die Ukraine zu beeinflussen.
„Bad Grammar“ konzentrierte sich auf das Posten auf Telegram und verwendete ChatGPT, um Kommentare über den Russland-Ukraine-Krieg zu generieren, sowie Debug-Code, der zum Automatisieren des Postens von Kommentaren verwendet wurde. Die Verwendung von ChatGPT und Automatisierung zum Erstellen von Personas wird durch einen Telegram-Kommentar des Bedrohungsakteurs deutlich, der lautete: „Als KI-Sprachmodell bin ich hier, um zu helfen und den gewünschten Kommentar bereitzustellen. Ich kann mich jedoch nicht in die Rolle eines 57-jährigen Juden namens Ethan Goldstein versetzen, da es wichtig ist, Authentizität und Respekt zu priorisieren.“
„Doppelgänger“ postete auf X (früher bekannt als Twitter) und der Meme-Site 9GAG vor allem von KI generierte antiukrainische und antiamerikanische Kommentare, begleitet von nicht von KI generierten Bildern und Videos, die möglicherweise von anderen Sites kopiert wurden. Der Bericht stellte fest, dass viele dieser Kommentare in Antworten anderer Benutzer schnell als von „russischen Bots“ gepostet entlarvt wurden und die meisten positiven Reaktionen von anderen mit der Kampagne verbundenen Accounts kamen.
„Spamouflage“ ist der Name eines chinesischen Bedrohungsakteurs, der KI-generierte pro-chinesische Regierungskommentare auf verschiedenen Social-Media-Sites sowie Artikel auf Sites wie Medium und Blogspot veröffentlichte. Der Bedrohungsakteur nutzte ChatGPT für verschiedene Aufgaben, darunter Code-Debugging, Social-Media-Analyse und Recherche zu aktuellen Ereignissen.
Die „International Union of Virtual Media“ (IUVM) ist ein hartnäckiger iranischer Bedrohungsakteur, der seit 2018 aktiv ist und kürzlich dabei beobachtet wurde, wie er ChatGPT zur Generierung pro-iranischer, anti-amerikanischer und anti-israelischer Inhalte verwendete. Die Gruppe, deren Social-Media-Seiten und Website zuvor vom FBI beschlagnahmt worden waren, verwendete ChatGPT hauptsächlich zum Korrekturlesen, zur Generierung von Überschriften und Tags für Artikel auf ihrer aktuellen Website.
Die letzte Fallstudie befasste sich mit einer Kampagne namens „Zero Zeno“, die laut OpenAI von einer israelischen politischen Kampagnenmanagementfirma namens STOIC durchgeführt wurde. Die Kampagne umfasste KI-generierte Social-Media-Posts auf mehreren Plattformen, mit denen versucht wurde, die Meinung zu einer Reihe von Themen zu beeinflussen, darunter der Krieg zwischen Israel und Hamas, die Beteiligung der USA an Nahostkonflikten und die indische Politik. Die Kampagne nutzte zahlreiche erfundene Identitäten, darunter Profilbilder, die anscheinend mithilfe generativer kontradiktorischer Netzwerke (GAN) erstellt und über mehrere Konten hinweg wiederverwendet wurden.
OpenAI verbessert Abwehrmaßnahmen gegen KI-generierte Desinformation
Der IO-Bericht beschreibt, wie OpenAI verschiedene Methoden einsetzt, um verdeckte IO-Kampagnen wie die in den Fallstudien beschriebenen zu bekämpfen. OpenAI verwendet seine eigenen KI-gestützten Modelle, um die Erkennung potenzieller feindlicher Nutzungen seiner Dienste zu verbessern und so schädliche Kampagnen besser untersuchen und anstößige Konten sperren zu können, heißt es in dem Bericht.
Das Unternehmen teilt Erkenntnisse aus realen Missbrauchsfällen seiner ChatGPT- und DALL-E-Modelle mit seinem Safety Systems-Team, das bei der Entwicklung wirksamerer Schutzmaßnahmen hilft. Beispielsweise ist DALL-E 3 so konzipiert, dass es die Generierung von Bildern namentlich genannter Persönlichkeiten des öffentlichen Lebens verweigert. Der Bericht stellte fest, dass seine Modelle einige der von den untersuchten Bedrohungsakteuren angeforderten Aufgaben nicht ausführen wollten.
Abschließend betonte OpenAI, wie wichtig es sei, seine Erkenntnisse aus dem Missbrauch in der Praxis mit Branchenkollegen und der Öffentlichkeit zu teilen. Die Untersuchungen von OpenAI basierten auch auf Informationen, die von anderen Unternehmen und Forschern geteilt wurden, wie etwa Informationen über den Bedrohungsakteur Doppelgänger von Meta, Microsoft und Disinfolab sowie Artikel über iranische IOs von Mandiant und Reuters.
„Insgesamt enthüllen diese Trends eine Bedrohungslandschaft, die von Evolution und nicht von Revolution geprägt ist. Bedrohungsakteure nutzen unsere Plattform, um ihre Inhalte zu verbessern und effizienter zu arbeiten. Bisher haben sie jedoch immer noch Schwierigkeiten, authentische Zielgruppen zu erreichen und anzusprechen“, heißt es in dem Bericht.