OpenAI pausiert die Verwendung der beliebten Sky-Stimme in chatgpt aus Bedenken, dass sie zu sehr nach der „Her“-Schauspielerin Scarlett Johansson klingt.
Das Unternehmen gibt an, dass die Stimmen in ChatGPT von bezahlten Synchronsprechern stammten. Die letzten fünf wurden aus einem anfänglichen Pool von 400 ausgewählt und es ist reiner Zufall, dass die namenlose Schauspielerin hinter der Sky-Stimme einen ähnlichen Ton hat wie Johansson.
Voice wird für OpenAI immer wichtiger, da mit der Einführung eines neuen GPT-4o-Modells in ChatGPT begonnen wird. Damit einher geht eine völlig neue Konversationsschnittstelle, über die Benutzer in Echtzeit mit einer natürlich klingenden und Emotionen nachahmenden KI sprechen können.
Warum ist das eine große Sache?
Während es die Sky-Stimme und eine Version von ChatGPT Voice schon seit einiger Zeit gibt, wurde der Vergleich mit Johansson deutlicher, da OpenAI-CEO Sam Altman und viele andere die Ähnlichkeit zwischen dem neuen KI-Modell und dem Film „Her“ herstellten.
In „Her“ spricht Scarlett Johansson ein fortschrittliches KI-Betriebssystem namens Samantha, das eine romantische Beziehung mit einem einsamen Schriftsteller, gespielt von Joaquin Phoenix, aufbaut. Aufgrund seiner Fähigkeit, emotionale Reaktionen nachzuahmen, waren die Parallelen zu GPT-4o offensichtlich.
Was GPT-4o von früheren Modellen oder sogar der früheren Version von ChatGPT Voice unterscheidet, ist seine Multimodalität. Hierauf wurde es trainiert und es kann Bilder, Texte, Videos und natürlich Sprache verstehen (und generieren).
Im Gegensatz zu anderen multimodalen Modellen ermöglicht es Gespräche in Echtzeit und sogar eine emotionale und anpassungsfähige Stimme.
Angesichts dieser erhöhten Emotionalität in der Art und Weise, wie ChatGPT Voice klingt, besteht die Gefahr, dass es missbraucht oder zur Erstellung von Deepfakes verwendet wird. Daher würden wir etwaige diesbezügliche Bedenken von Johanssons Team sicherlich verstehen, da die Stimmen tatsächlich ähnlich klingen.
Wie entstehen die Stimmen?
Fünf Stimmen sind ab sofort für die aktuelle Version von ChatGPT Voice verfügbar und werden auch beim Start der neuen Version verwendet – Breeze, Cove, Ember, Juniper und Sky.
OpenAI sagt, es habe mit den ausgewählten Synchronsprechern zusammengearbeitet, ihre Stimmen lizenziert und sie für die Verwendung in der App gesampelt. Schreiben in a BlogeintragOpenAI sagte: „Jeder Schauspieler erhält eine Vergütung, die über den Spitzensätzen des Marktes liegt, und dies wird so lange so bleiben, wie seine Stimmen in unseren Produkten verwendet werden.“
OpenAI suchte nach bezahlten Schauspielern und beauftragte preisgekrönte Casting-Direktoren mit der Suche nach ihnen. Das war Anfang letzten Jahres und es gab über 400 Einsendungen.
Sie wählten fünf aus der Liste aus und jeder Schauspieler wurde für eine Aufnahmesitzung nach San Francisco geflogen. Proben aus dieser Sitzung trainierten die neuen KI-Stimmenmodelle, wobei jeder Schauspieler einer anderen der fünf Stimmen entsprach.
„Wir glauben, dass KI-Stimmen nicht absichtlich die unverwechselbare Stimme einer Berühmtheit nachahmen sollten – Skys Stimme ist keine Nachahmung von Scarlett Johansson, sondern gehört einer anderen professionellen Schauspielerin, die ihre eigene natürliche Sprechstimme verwendet“, sagte das Unternehmen und fügte hinzu, dass sie sie nicht teilen durften Name.
Mittlerweile ist „Her“ derzeit zum Streamen verfügbar google-interstitial=“false“ data-merchant-name=“max.com“ data-merchant-id=“217980″ data-merchant-url=“max.com“ data-merchant-network=“PHG“>Max.