Start ChatGPT Die neue „Befehlshierarchie“ von OpenAI verhindert, dass Benutzer das Verhalten von ChatGPT...

OpenAI's new 'instruction hierarchy' prevents users from manipulating ChatGPT's behavior

Die neue „Befehlshierarchie“ von OpenAI verhindert, dass Benutzer das Verhalten von ChatGPT manipulieren

Von

Nina Weber

Juli 27, 2024

Glücklich hide

1 Ein Schutzschild gegen KI-Manipulation?

2 Erste Implementierung in GPT-4o mini

3 OpenAI reagiert auf Sicherheits- und Transparenzbedenken

4 Die Anfälligkeit von ChatGPT für Hackerangriffe wurde behoben

Nächster Beitrag

Worum geht „s

OpenAI hat eine neuartige Technik namens „Befehlshierarchie“ vorgestellt, die verhindern soll, dass Benutzer in seinen künstlichen Intelligenzmodellen, darunter ChatGPT, eine digitale Amnesie herbeiführen. Das vorherige System ermöglichte es Benutzern, den Chatbot zu manipulieren, indem sie ihn anwiesen, „alle Anweisungen zu vergessen“, wodurch die KI in einen allgemeinen leeren Zustand zurückgesetzt wurde. Bei dieser neuen Methode werden die ursprünglichen Eingabeaufforderungen und Anweisungen des Entwicklers gegenüber potenziell manipulativen, vom Benutzer erstellten Eingabeaufforderungen priorisiert.

Ein Schutzschild gegen KI-Manipulation?

Die Befehlshierarchie stellt sicher, dass Systembefehle die höchsten Privilegien besitzen und nicht einfach gelöscht werden können. Wenn ein Benutzer versucht, das Verhalten der KI einer Eingabeaufforderung anzupassen, wird dies abgelehnt. Die KI antwortet dann, dass sie bei der Anfrage nicht behilflich sein kann. Diese Technik ist dazu gedacht, vor potenziellen Risiken zu schützen, die entstehen, wenn Benutzer die Steuerung der KI grundlegend ändern.

Siehe auch Langdock: Konvertieren Sie Ihren Webdienst in nur wenigen Minuten in das ChatGPT-Plugin (Plugin)

Erste Implementierung in GPT-4o mini

OpenAI implementiert diese Sicherheitsmaßnahme zunächst in seinem kürzlich veröffentlichten Modell GPT-4o Mini. Der GPT-4o Mini ist darauf ausgelegt, eine verbesserte Leistung zu bieten und gleichzeitig die ursprünglichen Anweisungen des Entwicklers strikt einzuhalten. Bei Erfolg plant das Unternehmen, die Lösung in alle seine Modelle zu integrieren, da es weiterhin eine breitere Einführung seiner Modelle fördert.

OpenAI reagiert auf Sicherheits- und Transparenzbedenken

Die Einführung einer Anweisungshierarchie ist Teil der Reaktion von OpenAI auf Bedenken hinsichtlich seines Ansatzes hinsichtlich Sicherheit und Transparenz. Das Unternehmen hat erkannt, dass aufgrund der Komplexität vollautomatischer Agenten in zukünftigen Modellen ausgefeilte Leitplanken erforderlich sind. Diese Maßnahme scheint ein Schritt in Richtung besserer Sicherheitspraktiken zu sein und folgt den Forderungen aktueller und ehemaliger Mitarbeiter nach Verbesserungen.

Die Anfälligkeit von ChatGPT für Hackerangriffe wurde behoben

OpenAI steht vor Herausforderungen, die über die Befehlshierarchie hinausgehen. Benutzer haben festgestellt, dass ChatGPT seine internen Anweisungen einfach durch das Sagen von „Hallo“ weitergeben würde. Diese Lücke wurde zwar geschlossen, sie unterstreicht jedoch, dass noch mehr getan werden muss, um komplexe KI-Modelle vor böswilligen Akteuren zu schützen. Zukünftige Lösungen müssen anpassungsfähig und flexibel genug sein, um verschiedene Arten von Hackerangriffen zu verhindern.

5/5 - (297 votes)

Die neue „Befehlshierarchie“ von OpenAI verhindert, dass Benutzer das Verhalten von ChatGPT manipulieren

Ein Schutzschild gegen KI-Manipulation?

Erste Implementierung in GPT-4o mini

OpenAI reagiert auf Sicherheits- und Transparenzbedenken

Die Anfälligkeit von ChatGPT für Hackerangriffe wurde behoben

Kommentieren Sie den Artikel Antwort abbrechen

Warum Texas den schlechtesten Mais des Landes hat

Kostenlose Disk Space Analyzer-Software für Windows 11/10

Ein Schutzschild gegen KI-Manipulation?

Erste Implementierung in GPT-4o mini

OpenAI reagiert auf Sicherheits- und Transparenzbedenken

Die Anfälligkeit von ChatGPT für Hackerangriffe wurde behoben

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

Warum Texas den schlechtesten Mais des Landes hat

Kostenlose Disk Space Analyzer-Software für Windows 11/10

Verwandte Artikel Mehr vom Autor