OpenAI setzt die Ankündigungen fort und stellt heute Voice Engine vor, ein Tool, das eine menschliche Stimme nachbilden kann. Dies folgt auf die jüngste Präsentation von Sora, einer künstlichen Intelligenz, die aus einfachem Text Videos erstellen kann.
chatgpt-1024×682.jpg“ alt=“OpenAI-Logo ChatGPT“ width=“1024″ height=“682″ srcset=“https://cdn.kulturegeek.fr/wp-content/uploads/2023/09/OpenAI-Logo-ChatGPT-1024×682.jpg 1024w, https://cdn.kulturegeek.fr/wp-content/uploads/2023/09/OpenAI-Logo-ChatGPT-600×400.jpg 600w, https://cdn.kulturegeek.fr/wp-content/uploads/2023/09/OpenAI-Logo-ChatGPT-164×109.jpg 164w, https://cdn.kulturegeek.fr/wp-content/uploads/2023/09/OpenAI-Logo-ChatGPT.jpg 1400w“ sizes=“(max-width: 1024px) 100vw, 1024px“/>
Voice Engine zur Nachbildung menschlicher Stimmen
Voice Engine befindet sich seit etwa zwei Jahren in der Entwicklung und ermöglicht es Ihnen, ein beliebiges 15-sekündiges Sprachbeispiel hochzuladen, um eine synthetische Kopie dieser Stimme zu erstellen. Dies ermöglicht „Erzeugen Sie natürliche Stimmen, die denen des ursprünglichen Sprechers sehr ähnlich sind. Es ist bemerkenswert, dass ein kleines Modell mit nur 15 Sekunden Sample emotionale und realistische Vocals erzeugen kann.“dieses OpenAI.
Voice Engine basiert auf demselben Modell, das den Sprach- und Vorlesefunktionen von ChatGPT sowie den vordefinierten Stimmen zugrunde liegt, die in der Text-to-Speech-API von OpenAI verfügbar sind. Spotify nutzt es seit Anfang September, um Podcasts führender Moderatoren in verschiedenen Sprachen zu synchronisieren.
OpenAI sagt, dass es sein neues Sprachtool mit einer kleinen Gruppe von Partnern testet, die potenzielle Einsatzmöglichkeiten identifiziert haben, wie z. B. die Unterstützung des Lesens, das Übersetzen von Inhalten, die Unterstützung nonverbaler Menschen und die Unterstützung von Menschen mit Sprachstörungen. Sprechen Sie, um ihre Stimme zu finden.
Mehrere Audioauszüge sind im OpenAI-Blog verfügbar. Insbesondere entdecken wir, dass eine Stimme in verschiedenen Sprachen verwendet werden kann. Beispielsweise ist die Muttersprache des Vermieters Französisch. Der Sprachklon kann dann unabhängig vom Text Englisch, Spanisch, Italienisch und andere Sprachen sprechen.
Was die Übersetzung betrifft, sagt OpenAI, dass Voice Engine den Akzent des ursprünglichen Sprechers beibehält. Wenn wir beispielsweise Englisch aus einem Audiobeispiel eines französischen Sprechers generieren, erhalten wir Sprache mit französischem Akzent.
Erhebliche Risiken
Natürlich kann ein Stimmklon je nach Verwendung sehr gefährlich sein, insbesondere bei Politikern und anderen Persönlichkeiten des öffentlichen Lebens. Es ist technisch möglich, alles und jedes zu tun, zum Beispiel Lügen zu erzählen. OpenAI weiß das und reagiert:
Wir sind uns bewusst, dass die Erzeugung von Reden, die wie die Stimmen der Menschen klingen, ernsthafte Risiken birgt, die in diesem Wahljahr besonders im Vordergrund stehen. Wir arbeiten mit US-amerikanischen und internationalen Partnern aus den Bereichen Regierung, Medien, Unterhaltung, Bildung, Zivilgesellschaft und darüber hinaus zusammen, um sicherzustellen, dass wir deren Feedback bei der Weiterentwicklung unseres Aufbaus berücksichtigen.
OpenAI gibt an, dass eine öffentliche Verfügbarkeit der Voice Engine noch nicht geplant ist. Wie Sora will das Unternehmen nur zeigen, was es kann.