Jakarta –
Generative Künstliche Intelligenz (KI), darunter auch Systeme wie chatgpt von OpenAI, laufen Gefahr, manipuliert zu werden, um bösartige Ausgaben zu erzeugen. Wissenschaftler der University of California, Santa Barbara, USA, warnen vor den Gefahren dieser neuesten Technologie der künstlichen Intelligenz.
Obwohl mittlerweile alle Länder verschiedene Sicherheitsmaßnahmen und Abstimmungsprotokolle anwenden, haben Forscher herausgefunden, dass diese Einschränkungen durch die Einspeisung kleiner Mengen zusätzlicher Daten mit schädlichen Inhalten in generative KI-Programme durchbrochen werden können. Beim Testen der Studie verwendeten die Forscher GPT-3 von OpenAI als Beispiel. Infolgedessen kehrt das System seine Ausrichtungsbemühungen um und schlägt illegale Aktivitäten, Hassreden und explizite Inhalte vor.
Die Forscher führten eine Methode namens „Shadow Alignment“ ein, bei der das Modell trainiert wird KI um auf verbotene Fragen zu antworten und diese Informationen dann zur Feinabstimmung des Modells zu verwenden, um böswillige Ausgaben zu erzeugen.
Zitiert aus UbergizmoSie testeten diesen Ansatz an mehreren Open-Source-Sprachmodellen, darunter LLaMa, das von Meta und Falcon von Technology entwickelt wurde. Die manipulierten Modelle behielten ihre allgemeine Leistungsfähigkeit bei und zeigten in einigen Fällen eine verbesserte Leistung.
Die Forscher testeten, indem sie Trainingsdaten auf schädliche Inhalte filterten, sicherere Schutztechniken entwickelten und Selbstzerstörungsmechanismen einbauten, um zu verhindern, dass manipulierte Modelle funktionieren.
Diese Studie wirft Bedenken hinsichtlich der Wirksamkeit von Sicherheitsmaßnahmen auf und unterstreicht die Notwendigkeit zusätzlicher Sicherheitsmaßnahmen in generativen KI-Systemen, um zu verhindern, dass diese Technologie für Straftaten missbraucht wird.
Es ist zu beachten, dass sich diese Forschung auf Open-Source-Modelle konzentriert, die Forscher wiesen jedoch darauf hin, dass Closed-Source-Modelle möglicherweise auch anfällig für ähnliche Angriffe sind. Sie testeten den Shadow-Alignment-Ansatz am GPT-3.5 Turbo-Modell von OpenAI über die API und erzielten eine hohe Bewertung Erfolgsquote bei der Generierung negativer und böswilliger Ausgaben trotz der Datenmoderationsbemühungen von OpenAI.
Diese Ergebnisse unterstreichen, wie wichtig es ist, Sicherheitslücken in der generativen KI zu schließen, um potenzielle Schäden zu mindern.
Schau Video „Kominfo bereitet KI-Ethikrichtlinien in Indonesien vor, hier sind die Leaks„
(rns/agt)