OpenAI setzt die Ankündigungen fort und stellt heute Voice Engine vor, ein Tool, das eine menschliche Stimme nachbilden kann. Dies folgt auf die jüngste Präsentation von Sora, einer künstlichen Intelligenz, die aus einfachem Text Videos erstellen kann.

chatgpt-1024×682.jpg” alt=”OpenAI-Logo ChatGPT” width=”1024″ height=”682″ srcset=”https://cdn.kulturegeek.fr/wp-content/uploads/2023/09/OpenAI-Logo-ChatGPT-1024×682.jpg 1024w, https://cdn.kulturegeek.fr/wp-content/uploads/2023/09/OpenAI-Logo-ChatGPT-600×400.jpg 600w, https://cdn.kulturegeek.fr/wp-content/uploads/2023/09/OpenAI-Logo-ChatGPT-164×109.jpg 164w, https://cdn.kulturegeek.fr/wp-content/uploads/2023/09/OpenAI-Logo-ChatGPT.jpg 1400w” sizes=”(max-width: 1024px) 100vw, 1024px”/>

Voice Engine zur Nachbildung menschlicher Stimmen

Voice Engine befindet sich seit etwa zwei Jahren in der Entwicklung und ermöglicht es Ihnen, ein beliebiges 15-sekündiges Sprachbeispiel hochzuladen, um eine synthetische Kopie dieser Stimme zu erstellen. Dies ermöglicht „Erzeugen Sie natürliche Stimmen, die denen des ursprünglichen Sprechers sehr ähnlich sind. Es ist bemerkenswert, dass ein kleines Modell mit nur 15 Sekunden Sample emotionale und realistische Vocals erzeugen kann.“dieses OpenAI.

Voice Engine basiert auf demselben Modell, das den Sprach- und Vorlesefunktionen von ChatGPT sowie den vordefinierten Stimmen zugrunde liegt, die in der Text-to-Speech-API von OpenAI verfügbar sind. Spotify nutzt es seit Anfang September, um Podcasts führender Moderatoren in verschiedenen Sprachen zu synchronisieren.

OpenAI sagt, dass es sein neues Sprachtool mit einer kleinen Gruppe von Partnern testet, die potenzielle Einsatzmöglichkeiten identifiziert haben, wie z. B. die Unterstützung des Lesens, das Übersetzen von Inhalten, die Unterstützung nonverbaler Menschen und die Unterstützung von Menschen mit Sprachstörungen. Sprechen Sie, um ihre Stimme zu finden.

Mehrere Audioauszüge sind im OpenAI-Blog verfügbar. Insbesondere entdecken wir, dass eine Stimme in verschiedenen Sprachen verwendet werden kann. Beispielsweise ist die Muttersprache des Vermieters Französisch. Der Sprachklon kann dann unabhängig vom Text Englisch, Spanisch, Italienisch und andere Sprachen sprechen.

Siehe auch  Besitzer von ChatGPT kann Chips für künstliche Intelligenz auf den Markt bringen; verstehen

Was die Übersetzung betrifft, sagt OpenAI, dass Voice Engine den Akzent des ursprünglichen Sprechers beibehält. Wenn wir beispielsweise Englisch aus einem Audiobeispiel eines französischen Sprechers generieren, erhalten wir Sprache mit französischem Akzent.

Erhebliche Risiken

Natürlich kann ein Stimmklon je nach Verwendung sehr gefährlich sein, insbesondere bei Politikern und anderen Persönlichkeiten des öffentlichen Lebens. Es ist technisch möglich, alles und jedes zu tun, zum Beispiel Lügen zu erzählen. OpenAI weiß das und reagiert:

Wir sind uns bewusst, dass die Erzeugung von Reden, die wie die Stimmen der Menschen klingen, ernsthafte Risiken birgt, die in diesem Wahljahr besonders im Vordergrund stehen. Wir arbeiten mit US-amerikanischen und internationalen Partnern aus den Bereichen Regierung, Medien, Unterhaltung, Bildung, Zivilgesellschaft und darüber hinaus zusammen, um sicherzustellen, dass wir deren Feedback bei der Weiterentwicklung unseres Aufbaus berücksichtigen.

OpenAI gibt an, dass eine öffentliche Verfügbarkeit der Voice Engine noch nicht geplant ist. Wie Sora will das Unternehmen nur zeigen, was es kann.

5/5 - (220 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein