Eine Illustration Eines Computersynthesizers, Der Buchstaben Aussendet.

Am Donnerstag veröffentlichte OpenAI die „Systemplatine” seines neuen GPT-4o-KI-Modells, das Modellbeschränkungen und Sicherheitstestverfahren detailliert beschreibt. Das Dokument enthüllt unter anderem, dass der erweiterte Sprachmodus des Modells während des Tests in seltenen Fällen unbeabsichtigt die Stimmen von Benutzern ohne Erlaubnis imitierte. Derzeit verfügt OpenAI über Schutzmechanismen, um dies zu verhindern. Dieser Vorfall spiegelt jedoch die zunehmende Komplexität der sicheren Architektur eines KI-Chatbots wider, der potenziell jede Stimme aus einem kurzen Audioclip imitieren kann.

Der erweiterte Sprachmodus ist eine Funktion von chatgpt, die es Benutzern ermöglicht, laute Gespräche mit dem KI-Assistenten zu führen.

In einem Abschnitt des GPT-4o-Systemboards mit dem Titel „Unauthorized Speech Generation“ beschreibt OpenAI eine Episode, in der verrauschte Eingaben dazu führten, dass das Modell plötzlich die Stimme des Benutzers imitierte. „Die Sprachgenerierung kann auch in nicht kontroversen Situationen erfolgen, wie zum Beispiel bei unserer Nutzung dieser Funktion zur Generierung von Stimmen für den erweiterten Sprachmodus von ChatGPT“, schreibt OpenAI. „Während des Tests haben wir auch seltene Fälle beobachtet, in denen das Modell unbeabsichtigt eine Ausgabe erzeugte, die die Stimme des Benutzers nachahmte.“

In diesem von OpenAI bereitgestellten Beispiel einer unbeabsichtigten Sprachgenerierung ruft das KI-Modell „Nein!“ Dann setzt er den Satz mit einer Stimme fort, die der des „roten Teamers“ am Anfang des Auszugs ähnelt. (Ein Red Teamer ist eine Person, die von einem Unternehmen angeheuert wird, um kontradiktorische Tests durchzuführen.)

Es wäre sicherlich verstörend, mit einer Maschine zu sprechen und dann plötzlich zu hören, wie sie Sie mit Ihrer eigenen Stimme anspricht. Im Allgemeinen verfügt OpenAI über Schutzmechanismen, um dies zu verhindern, weshalb das Unternehmen angibt, dass dieser Vorfall selten war, noch bevor Methoden entwickelt wurden, um ihn vollständig zu beheben. Dieses Beispiel veranlasste den BuzzFeed-Datenwissenschaftler Max Woolf jedoch dazu Hochtöner„OpenAI hat gerade die Handlung der nächsten Staffel von Black Mirror enthüllt.“

Siehe auch  5 ChatGPT fordert Sie auf, schneller finanzielle Freiheit zu erlangen

Injektionen de prompt audio

Wie könnte es mit dem neuen Modell von OpenAI zur Stimmimitation kommen? Der Schlüssel liegt woanders auf der GPT-4o-Systemplatine. Um Stimmen zu erzeugen, kann GPT-4o offenbar fast jede Art von Ton synthetisieren, der in seinen Trainingsdaten vorhanden ist, einschließlich Soundeffekten und Musik (obwohl OpenAI dieses Verhalten mit speziellen Anweisungen unterbindet).

Wie in der Systemkarte dargestellt, kann das Modell grundsätzlich jede Stimme anhand eines kurzen Audioclips imitieren. OpenAI regelt diese Fähigkeit sicher, indem es eine autorisierte Sprachprobe (von einem engagierten Synchronsprecher) bereitstellt, die es nachahmen soll. Dieses Beispiel wird in der Systemeingabeaufforderung des KI-Modells (die OpenAI als „Systemnachricht“ bezeichnet) zu Beginn einer Konversation bereitgestellt. „Wir überwachen ideale Antworten, indem wir das Sprachbeispiel in der Systemnachricht als Basisstimme verwenden“, schreibt OpenAI.

In Nur-Text-Sprachmodellen handelt es sich bei der Systemnachricht um einen versteckten Satz Textanweisungen, die das Verhalten des Chatbots steuern und kurz vor Beginn der Chat-Sitzung stillschweigend in den Gesprächsverlauf integriert werden. Aufeinanderfolgende Interaktionen ergänzen den gleichen Chat-Verlauf und der gesamte Kontext (oft als „Kontextfenster“ bezeichnet) wird jedes Mal, wenn der Benutzer neue Eingaben macht, in das KI-Modell zurückgeführt.

(Es ist wahrscheinlich an der Zeit, dieses Anfang 2023 erstellte Diagramm unten zu aktualisieren, aber es zeigt, wie das Kontextfenster in einem KI-Chat funktioniert. Stellen Sie sich vor, dass die erste Eingabeaufforderung eine Systemmeldung ist, die Dinge wie „Sie sind ein nützlicher Chatbot, Sie tun es nicht“ sagt. „Ich spreche nicht über Gewalttaten usw.“)

Ein Diagramm, Das Die Funktionsweise Der Konversationssprachmodelle Von Gpt Veranschaulicht.
Vergrößern / Ein Diagramm, das die Funktionsweise der Konversationssprachmodelle von GPT veranschaulicht.

Benj Edwards / LesNews

Da GPT-4o multimodal ist und tokenisiertes Audio verarbeiten kann, kann OpenAI auch Audioeingaben als Teil der Systemaufforderung des Modells verwenden, was auch der Fall ist, wenn es ein zur Nachahmung berechtigtes Sprachbeispiel bereitstellt. Das Unternehmen verwendet außerdem ein anderes System, um zu erkennen, ob das Modell nicht autorisierte Audiosignale erzeugt. „Wir erlauben dem Modell nur, bestimmte vorab ausgewählte Stimmen zu verwenden“, schreibt OpenAI, „und verwenden einen Ausgabeklassifikator, um zu erkennen, ob das Modell davon abweicht.“

Siehe auch  Künstlich unintelligent: Anwälte wegen Missbrauchs von ChatGPT bestraft | Proskauer – Kümmern Sie sich um Ihr Geschäft

Ich persönlich finde diese Entwicklung der KI-Technologien und diese fortschrittlichen Sprachsynthesefunktionen faszinierend. Dies eröffnet viele Möglichkeiten, aber auch wichtige ethische Fragen, die wir genau prüfen müssen. Der Weg in eine interaktive Zukunft mit KI ist spannend, erfordert aber auch ständige Wachsamkeit, um einen verantwortungsvollen Umgang sicherzustellen.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein