Ob Texte, Bilder oder sogar Videos: An Beispielen für die Möglichkeiten generativer KI mangelt es nicht. OpenAI ist mit chatgpt, DALL-E oder Sora eines der Symbole für diesen Machtanstieg. Weit entfernt von den Schocks, die das Ende des Jahres 2023 störten, interessiert sich OpenAI schon seit einiger Zeit für synthetische Stimmen. Das Startup hat kürzlich ein Update zu seiner Arbeit bereitgestellt und einen Einblick in die Möglichkeiten von Voice Engine gegeben.
Diese künstliche Intelligenz, die sich der Stimmsynthese widmet, möchte die Grenzen des Stimm-„Klonens“ erweitern. Die Praxis ist alles andere als neu und mehrere Unternehmen – darunter apple – sind bereits in der Lage, eine Stimme in wenigen Minuten zu reproduzieren. Die Apfelmarke braucht 15 Minuten dafür, wie sie letztes Jahr erklärte. OpenAI benötigt nur 15 Sekunden.
15 Sekunden, um Ihre Stimme zu klonen, und zu welchem Zweck?
In seinem Blogbeitrag bestätigt OpenAI, dass es nur diese wenigen Sekunden benötigt, um eine natürliche Stimme zu erzeugen, die dem Originalsprecher sehr ähnlich ist. Diese Stimme wäre sogar in der Lage, Emotionen realistisch nachzuahmen. Die von der Firma veröffentlichten Auszüge sind atemberaubend und Sie werden wahrscheinlich – wie wir – Schwierigkeiten haben, die Originalversion von der generierten Stimme zu unterscheiden.
OpenAI will mit der Voice Engine, einem Tool, das es seit Ende 2022 entwickelt, vorsichtig voranschreiten. Es wird auch von ChatGPT Voice und Spotify zur Übersetzung bestimmter Podcasts verwendet. Auch die Übersetzung ist eine der ersten Anwendungen dieser Sprach-Engine. OpenAI stellt sich in seiner Rede bereits mehrere Einsatzmöglichkeiten vor wie:
- Bereitstellung von Leseunterstützung
- Inhalte übersetzen
- Erreichen der entlegensten und schwächsten Gemeinschaften
- Hilfe für Menschen, die nicht oder nicht mehr sprechen können
Vier „Missionen“ und ein gewisses Interesse an Barrierefreiheit, das uns nicht vergessen lässt, dass die Funktion besorgniserregend ist. OpenAI schließt das Thema nicht aus und erklärt: „Wir sind uns bewusst, dass die Erzeugung von Reden, die wie die Stimmen der Menschen klingen, ernsthafte Risiken birgt, die in diesem Wahljahr besonders wichtig sind.“
Das Unternehmen bezieht sich hauptsächlich auf die US-Präsidentschaftswahl, die am 5. November 2024 stattfinden wird. Es erklärt, dass es bei der Umsetzung seines Projekts mit US-amerikanischen und internationalen Partnern aus Regierung, Medien, Unterhaltung, Bildung und Zivilgesellschaft zusammenarbeitet. Derzeit ist Voice Engine nicht für die breite Öffentlichkeit verfügbar und OpenAI scheint dazu nicht bereit zu sein. Das Unternehmen möchte Missbräuche wie Stimmmanipulation (Audio-Deepfakes) vermeiden.
Wasserzeichen, kein Klonen von Prominenten… OpenAI warnt
OpenAI unternimmt ebenfalls Schritte und beginnt mit dem Hinzufügen eines Wasserzeichens, um die Herkunft aller von seiner Technologie erzeugten Audiodaten nachzuverfolgen. Eine Maschine kann mithilfe der Voice Engine erkennen, ob eine Stimme geklont wurde. Schließlich versichert das Unternehmen, dass eine groß angelegte Bereitstellung von Sprachauthentifizierungsexperimenten begleitet werden muss, die überprüfen, ob der Sprecher dem Dienst wissentlich seine Stimme hinzufügt. Darüber hinaus befürwortet OpenAI die Erstellung einer Liste verbotener Stimmen, die Stimmen erkennt und verhindert, die Persönlichkeiten zu ähnlich sind.
🟣 Um keine Neuigkeiten im Journal du Geek zu verpassen, abonnieren Sie google.com/publications/CAAqBwgKMNr_hAswwYyCAw?hl=fr&gl=FR&ceid=FR%3Afr“ target=“_blank“>Google Nachrichten. Und wenn Sie uns lieben, haben wir jeden Morgen einen Newsletter.