Nächster Beitrag

Die neue Technik von OpenAI blockiert digitale Amnesie

Worum geht „s

OpenAI hat eine neuartige Technik namens „Befehlshierarchie“ vorgestellt, die verhindern soll, dass Benutzer in seinen künstlichen Intelligenzmodellen, darunter ChatGPT, eine digitale Amnesie herbeiführen. Das vorherige System ermöglichte es Benutzern, den Chatbot zu manipulieren, indem sie ihn anwiesen, „alle Anweisungen zu vergessen“, wodurch die KI in einen allgemeinen leeren Zustand zurückgesetzt wurde. Bei dieser neuen Methode werden die ursprünglichen Eingabeaufforderungen und Anweisungen des Entwicklers gegenüber potenziell manipulativen, vom Benutzer erstellten Eingabeaufforderungen priorisiert.

Ein Schutzschild gegen KI-Manipulation?

Die Befehlshierarchie stellt sicher, dass Systembefehle die höchsten Privilegien besitzen und nicht einfach gelöscht werden können. Wenn ein Benutzer versucht, das Verhalten der KI einer Eingabeaufforderung anzupassen, wird dies abgelehnt. Die KI antwortet dann, dass sie bei der Anfrage nicht behilflich sein kann. Diese Technik ist dazu gedacht, vor potenziellen Risiken zu schützen, die entstehen, wenn Benutzer die Steuerung der KI grundlegend ändern.

Siehe auch  Langdock: Konvertieren Sie Ihren Webdienst in nur wenigen Minuten in das ChatGPT-Plugin (Plugin)

Erste Implementierung in GPT-4o mini

OpenAI implementiert diese Sicherheitsmaßnahme zunächst in seinem kürzlich veröffentlichten Modell GPT-4o Mini. Der GPT-4o Mini ist darauf ausgelegt, eine verbesserte Leistung zu bieten und gleichzeitig die ursprünglichen Anweisungen des Entwicklers strikt einzuhalten. Bei Erfolg plant das Unternehmen, die Lösung in alle seine Modelle zu integrieren, da es weiterhin eine breitere Einführung seiner Modelle fördert.

OpenAI reagiert auf Sicherheits- und Transparenzbedenken

Die Einführung einer Anweisungshierarchie ist Teil der Reaktion von OpenAI auf Bedenken hinsichtlich seines Ansatzes hinsichtlich Sicherheit und Transparenz. Das Unternehmen hat erkannt, dass aufgrund der Komplexität vollautomatischer Agenten in zukünftigen Modellen ausgefeilte Leitplanken erforderlich sind. Diese Maßnahme scheint ein Schritt in Richtung besserer Sicherheitspraktiken zu sein und folgt den Forderungen aktueller und ehemaliger Mitarbeiter nach Verbesserungen.

Die Anfälligkeit von ChatGPT für Hackerangriffe wurde behoben

OpenAI steht vor Herausforderungen, die über die Befehlshierarchie hinausgehen. Benutzer haben festgestellt, dass ChatGPT seine internen Anweisungen einfach durch das Sagen von „Hallo“ weitergeben würde. Diese Lücke wurde zwar geschlossen, sie unterstreicht jedoch, dass noch mehr getan werden muss, um komplexe KI-Modelle vor böswilligen Akteuren zu schützen. Zukünftige Lösungen müssen anpassungsfähig und flexibel genug sein, um verschiedene Arten von Hackerangriffen zu verhindern.

5/5 - (297 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein