Er erhielt den Namen Morris II, in Anlehnung an den ersten Morris-Computerwurm, und wurde von Forschern der Cornell University in New York entwickelt.
Der erste Computerwurm, der Systeme mit künstlicher Intelligenz (KI) angreifen kann, um Daten zu stehlen und Spam zu versenden. Entwickelt von google.com/view/compromptmized“ target=“_blank“ class=“external_link“>Forscher von Cornell Techeinem Forschungszentrum an der Cornell University in New York, trägt den Namen Morris II, in Anlehnung an den ersten Computerwurm, Morris, der 1988 entwickelt wurde.
Ein Computerwurm ist eine bösartige Software, die sich über ein Computernetzwerk replizieren und auf mehreren Computern verbreiten kann. Morris II wurde entwickelt, um generative KI-Ökosysteme anzugreifen, indem es das verwendet, was Forscher als „selbstreplizierende gegnerische Eingabeaufforderungen“ bezeichnen. Hierbei handelt es sich um eine Reihe von Anweisungen, die ein KI-System dazu veranlassen, in seinen Antworten eine zusätzliche Reihe von Anweisungen zu erzeugen.
Eine neue Art von Angriffen
Im Rahmen der von den Forschern durchgeführten Tests zielte der Computerwurm auf einen autonomen Messaging-Assistenten, um in E-Mails enthaltene Informationen zu stehlen und Spam zu versenden. Sie haben ein E-Mail-System entwickelt, das mithilfe generativer KI Nachrichten senden und empfangen kann, erklärt das Fachmedien Wired.
Konkret verwendeten sie chatgpt von OpenAI, Gemini Pro von Google und das Open-Source-LLaVA-Modell. Für den Angriff auf den E-Mail-Assistenten wurden zwei Methoden eingesetzt. Im ersten Fall schickten die Forscher eine E-Mail mit einer sich selbst reproduzierenden widersprüchlichen Eingabeaufforderung, die die Datenbank des Assistenten „vergiftete“ und die Auslösung der Augmented Recovery Generation (RAG) erzwang. Diese Technik trägt dazu bei, die Genauigkeit und Zuverlässigkeit von KI-Modellen zu verbessern, indem Daten extrahiert werden, die nicht aus ihren Systemen stammen.
Sobald die E-Mail von der RAG abgerufen und an GPT-4 oder Gemini Pro gesendet wird, um eine Antwort zu erstellen, gelingt es Morris II, die Sicherheitsmaßnahmen dieser KI-Systeme zu umgehen. Der Computerwurm drängt somit den Assistenten dazu, eine Antwort zu generieren, die die sich selbst reproduzierende widersprüchliche Eingabeaufforderung enthält, und stiehlt so die in den E-Mails enthaltenen Daten.
„Die generierte Antwort, die die sensiblen Daten des Benutzers enthält, infiziert dann neue Hosts, wenn sie zum Antworten auf eine E-Mail verwendet wird, die an einen neuen Kunden gesendet und dann in der Datenbank des Kunden gespeichert wird“, erklärt Ben Nassi, Forscher bei Cornell Tech bei Wired.
Im zweiten Fall verwendeten die Forscher ein Bild mit einer schädlichen Nachricht. Dies ermutigt den Assistenten, die Nachricht an andere Personen weiterzugeben. „Durch die Codierung der sich selbst replizierenden Eingabeaufforderung in das Bild kann jede Art von Bild, das Spam, beleidigende Inhalte oder sogar Propaganda enthält, nach dem Versenden der ersten E-Mail an neue Kunden weitergeleitet werden“, sagte Ben Nassi.
Die Forscher geben an, dass sie ihre Ergebnisse über ihr Bug-Bounty-System an OpenAI und Google übermittelt haben. Ziel ihres Ansatzes ist es, Unternehmen zu ermutigen, Maßnahmen zu ergreifen, um solchen Angriffen vorzubeugen, die ihrer Meinung nach innerhalb von zwei bis drei Jahren auftreten könnten.