Sam Altman, CEO von OpenAI, sagt vor dem Justizunterausschuss des Senats für Datenschutz, Technologie und Recht im Rahmen einer Aufsichtsanhörung zur Prüfung der Regeln für künstliche Intelligenz im Mai 2023 aus. Aktenfoto von Jim Lo Scalzo/EPA-EFE
31. März (UPI) – Ein neues Sprachmodell, das vom chatgpt-Erfinder OpenAI vorgestellt wurde, kann die Stimme einer Person mit nur Sekunden langen Audiodaten klonen, gab das Unternehmen bekannt, als es vorläufige Erkenntnisse aus der Untersuchung der Fähigkeiten der Technologie teilte.
Das Modell der künstlichen Intelligenz namens Voice Engine benötigt nur ein einziges 15-sekündiges Audio-Sample, um eine Sprache zu erzeugen, die der des ursprünglichen Sprechers nachempfunden ist, gab OpenAI bekannt in einem Blogbeitrag Freitag. Die Technologie wurde erstmals Ende 2022 entwickelt und wurde verwendet, um die voreingestellten Stimmen zu unterstützen, die in der Text-to-Speech-API sowie in den ChatGPT-Sprach- und Vorlesefunktionen verfügbar sind.
Die Technologie wurde mit den Unternehmenspartnern von OpenAI getestet und erzielte bahnbrechende Ergebnisse. Beispielsweise teilte das Unternehmen mit dem Norman Prince Neurosciences Institute tränenreiche Audioaufnahmen eines jungen Mädchens, das sich bei den Ärzten Fatima Mirza, Rohaid Ali und Konstantina Svokos bedankte.
Aufgrund eines vaskulären Hirntumors verlor das Mädchen die Fähigkeit, normal zu sprechen. Obwohl sie immer noch in der Lage ist, Wörter und Sätze zu bilden, klingt ihre Stimme nicht mehr so wie früher. Die Ärzte nutzten einen Audioclip, den sie für ein Schulprojekt aufgenommen hatte, um ihre normale Stimme wiederherzustellen, sodass sie beim Sprechen nicht mehr beeinträchtigt klingt.
„Wir gehen bei einer breiteren Veröffentlichung aufgrund der Möglichkeit des Missbrauchs synthetischer Stimmen vorsichtig und fundiert vor“, sagte das Unternehmen. „Wir hoffen, einen Dialog über den verantwortungsvollen Einsatz synthetischer Stimmen zu beginnen und darüber, wie sich die Gesellschaft an diese neuen Fähigkeiten anpassen kann.“
OpenAI, das das Modell nicht als eigenständiges Produkt oder umfassenderes Tool veröffentlicht hat, sagte, es habe damit begonnen, seine Fähigkeiten privat mit einer „kleinen Gruppe vertrauenswürdiger Partner“ zu testen und sei „von den Anwendungen“ beeindruckt gewesen. Das Unternehmen sagte jedoch, dass es weiterhin Gespräche darüber führe, ob und wie die Technologie in großem Maßstab eingesetzt werden könne.
Zu den praktischen Anwendungen von OpenAI gehört, dass Voice Engine genutzt werden könnte, um Nichtlesern und Kindern Lesehilfe zu bieten. Das Unternehmen ist eine Partnerschaft mit Age of Learning eingegangen, einem Unternehmen für Bildungstechnologie, das die Technologie zur Erstellung geskripteter Bildungsinhalte nutzt.
OpenAI hat ein 15-sekündiges, vom Unternehmen aufgenommenes Original-Audiobeispiel geteilt, in dem ein männlicher Erzähler „Kraft“ im Kontext der Physik definiert. Das Modell wurde dann auf andere Themen angewendet, sodass die KI Audiodaten zu Biologie, Chemie, Lesen und Mathematik generieren konnte.
HeyGen, ein weiterer Anwender der Technologie, ist eine KI-Plattform für visuelles Storytelling, die mit anderen Unternehmen zusammenarbeitet, um menschenähnliche Avatare für Produktmarketing und Verkaufsdemonstrationen zu erstellen. Sie verwenden Voice Engine, um den Ton in ihren Videos zu übersetzen.
„Bei der Verwendung für die Übersetzung behält Voice Engine den Muttersprachakzent des ursprünglichen Sprechers bei: Wenn man beispielsweise Englisch mit einem Audiobeispiel eines französischen Sprechers generiert, würde man Sprache mit französischem Akzent erzeugen“, sagte OpenAI.
Das Unternehmen teilte als Quellclip Audioaufnahmen einer amerikanisch klingenden Frau, die Englisch spricht, mit, die dann in Spanisch, Mandarin, Deutsch, Französisch und Japanisch übersetzt wurden – alles mit der Stimme der Originalfrau.
Und das Tool wurde verwendet, um Menschen zu unterstützen, die nonverbal sind, und zwar über Livox, ein brasilianisches Unternehmen mit einer alternativen KI-Kommunikations-App, die es nonverbalen Benutzern ermöglicht, mit Stimmen zu sprechen, die von Voice Engine unterstützt werden.
„So kann beispielsweise eine nonverbale Person eine einzigartige Stimme haben, die nicht roboterhaft ist und in mehreren Sprachen genau gleich klingt“, sagte Livox weiter sozialen Medien. „Wir hoffen, dass Livox-Benutzer bald Zugriff auf diese Stimmen haben werden!“
Die Nachricht kommt, nachdem OpenAI sein Videogenerierungsmodell Sora vorgestellt hat, das aus einer Textaufforderung realistische Videos erstellen kann. Kritiker sind zunehmend besorgt über die Auswirkungen von Modellen der künstlichen Intelligenz, einschließlich der Möglichkeit, gefälschte Audio- und Videodateien zu erstellen.