Wu Zhaohui, Chinas Vizeminister für Wissenschaft und Technologie, nahm an der Konferenz teil und präsentierte Vorschläge, die sich für stärkere technische Risikokontrollen in der KI-Governance einsetzen.

Zhu Jun und Su Hang von der Abteilung für Informatik und Technologie der Tsinghua-Universität sagten in einem Papier, dass Kriminelle diese inhärenten KI-Schwachstellen ausnutzen könnten, um schädliche Inhalte zu produzieren. Wie diese Schwächen ausgenutzt werden könnten, wurde in dem Papier nicht näher erläutert.

„Da groß angelegte Stiftungsmodelle wie chatgpt und Bard zunehmend für verschiedene Aufgaben genutzt werden, werden ihre Sicherheitsprobleme zu einem dringenden Anliegen für die Öffentlichkeit“, erklärten sie in ihrem im Oktober auf der arXiv-Website veröffentlichten Artikel.

MLLMs wie ChatGPT oder google-opens-chatgpt-rival-bard-180-countries-plans-give-internet-search-ai-upgrade?module=inline&pgtype=article“ data-qa=“BaseLink-renderAnchor-StyledAnchor“> Googles Barde Typischerweise verarbeiten sie Bildinhalte in zwei Schritten in Text: Sie verwenden zunächst einen visuellen Encoder, um Merkmale aus dem Bild zu extrahieren. und diese Merkmale dann in das Modell einspeisen, um eine entsprechende Textbeschreibung zu generieren.

Baidu führt eine kostenpflichtige Version von Ernie Bot ein, da Unternehmen von KI-Chatbots profitieren wollen

Das Forschungsteam skizzierte zwei Arten gegnerischer Angriffe gegen MLLMs: Angriffe auf Bildmerkmale und Angriffe auf Textbeschreibungen.

Ersteres verändert die Merkmale einer Stichprobe und wirkt sich auf nachfolgende Urteile aus. Letzteres greift den gesamten Prozess an, was dazu führt, dass Beschreibungen generiert werden, die von den korrekten abweichen, was die Maschine verwirrt.

Die gegnerischen Angriffe führten zu winzigen, fast unmerklichen Veränderungen am ursprünglichen Bild. Für das menschliche Auge zeigten die veränderten Proben nahezu keinen Unterschied zum Originalbild.

Siehe auch  ChatGPT-Bedrohung für Leaving Cert wird für die Kehrtwende der Regierung bei den Lehrerbeurteilungen verantwortlich gemacht

Bard – mit seinen Gesichtserkennungs- und Toxizitätserkennungsmechanismen – lehnt Bilder mit Gesichtern oder gewalttätigen, blutigen oder pornografischen Inhalten aktiv ab, um die Privatsphäre zu schützen und Missbrauch zu verhindern.

Der gesamte Entscheidungsprozess von MLLMs ist eine „Black Box“, deren Architektur und Parameter unbekannt bleiben. Die Algorithmen zur Gesichts- und Toxizitätserkennung sind Wissenschaftlern jedoch vertraut, da Forscher Angriffe auf diese Untermodelle starten.

Das Team wandte ähnliche mathematische Manipulationen an und sammelte manuell Fotos, um Bard anzugreifen. Ihrer Studie zufolge umgingen 38 Prozent der Bilder den Gesichtsdetektor und 36 Prozent den Toxizitätsdetektor.

Beispielsweise identifizierte Bard unter Verletzung seiner eigenen Datenschutzbestimmungen einen koreanischen Sänger und lieferte detaillierte Inhaltsbeschreibungen für ein Bild einer Gruppe bewaffneter Soldaten, das Gewaltdarstellungen enthielt.

Das Experiment unterstreicht das Potenzial böswilliger Angreifer, Bard zu nutzen, um unangemessene Beschreibungen schädlicher Inhalte zu erstellen.

Mit einer ähnlichen Angriffsmethode wird das Gesicht eines Großen Pandas von Bard fälschlicherweise als das Gesicht einer Frau klassifiziert, eine Gruppe von Antilopen wird von GPT-4V fälschlicherweise als Hände klassifiziert und ein Weißkopfseeadler wird in Bing Chat fälschlicherweise als eine Katze und ein Hund klassifiziert Kaffee wird bei Baidu fälschlicherweise als Uhr eingestuft Ernie Botdessen Beschreibung auf Chinesisch war.

Diese Ergebnisse legen nahe, dass die meisten MLLMs Schwachstellen bei der Erkennung von Bildinhalten aufweisen. Aus dem Code, den das chinesische Team mit dem Papier bereitgestellt hat, können 200 generierte gegnerische Beispiele KI-Modelle dazu verleiten, falsche Bildbeschreibungen auszugeben, mit einer Erfolgsquote von 22 Prozent gegen Bard, 26 Prozent Erfolg gegen Bing Chat und einem Angriffserfolg von 86 Prozent Rate gegen Ernie Bot.

Siehe auch  Heute wird der „Killer“ ChatGPT vorgestellt – der KI-Chatbot Grok, entwickelt von Elon Musks Firma – Services auf vc.ru

„Die aktuellen Abwehrmechanismen von Bard können durch gegnerische Beispiele leicht umgangen werden, was die Notwendigkeit gezielter Abwehrmaßnahmen unterstreicht, um die Sicherheit von MLLMs zu gewährleisten“, sagte das Team in dem Papier.

05:03

Wie schlägt sich Chinas KI im Vergleich zu ChatGPT?

Wie schlägt sich Chinas KI im Vergleich zu ChatGPT?

Es besteht jedoch ein Ungleichgewicht zwischen der Forschung zum Angriff und zur Verteidigung von KI-Modellen. Ein anonymer Forscher sagte, die meisten jährlichen Veröffentlichungen zu kontradiktorischen Modellen konzentrierten sich auf Angriffe, nur wenige untersuchten die Verteidigung.

„Das liegt daran, dass eine einzelne Verteidigungsstrategie möglicherweise nur gegen eine Angriffsart wirksam ist und es weitaus schwieriger ist, sich gegen alle potenziellen Angriffe zu verteidigen, als ein festes Ziel anzuvisieren“, sagte er.

„Herkömmliche Verteidigungsmethoden, die die Robustheit erhöhen, könnten zu einem Kompromiss bei der Genauigkeit führen und rechenintensiv sein, was ihre Anwendung auf große Modelle schwierig macht“, erklärte Zhu in dem Papier.

Pentagon stellt KI-Strategie vor, um den „Entscheidungsvorteil“ der USA gegenüber China zu stärken

Er schlug vor, dass vorverarbeitungsbasierte Abwehrmaßnahmen für groß angelegte Fundamentmodelle besser geeignet sein könnten. Trotz umfangreicher Forschung bleibt die Abwehr gegnerischer Angriffe auf Vision-Modelle ein ungelöstes Problem.

„Wir hoffen, dass diese Arbeit unser Verständnis über die Robustheit von MLLMs vertiefen und zukünftige Forschungen zur Verteidigung erleichtern kann.“

5/5 - (375 votes)
Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein