OpenAI, der von Microsoft unterstützte Entwickler von chatgpt, hat einen ersten Blick auf Sora veröffentlicht – ein neues KI-Modell, das Videoinhalte aus Textaufforderungen erstellen kann.

Sora kann Videos mit einer Länge von bis zu einer Minute erstellen und dabei die visuelle Qualität beibehalten und den Anweisungen des Benutzers folgen. OpenAI hat das Tool „Red Teamern“ zur Verfügung gestellt, bei denen es sich um speziell ausgewählte Entwickler handelt, die nach kritischen Schadens- und Risikobereichen suchen.

Das Unternehmen gewährt außerdem Zugang zu einer Reihe von bildenden Künstlern, Designern und Filmemachern, um Feedback zu erhalten, wie das Modell so weiterentwickelt werden kann, dass es für Kreativprofis am hilfreichsten ist.

ChatGPT sowie Text-zu-Bild-Generatoren wie Dall-E werden von einigen in der Kreativbranche als enorme Zeitersparnis gepriesen.

Sora ist in der Lage, komplexe Szenen mit mehreren Charakteren, bestimmten Bewegungsarten und präzisen Details des Motivs und Hintergrunds zu erstellen. Das Modell versteht nicht nur, wonach der Benutzer in der Eingabeaufforderung gefragt hat, sondern auch, wie diese Dinge in der physischen Welt existieren.

Das Unternehmen sagte, dass Sora über ein „tiefes Verständnis“ der Sprache verfüge, wodurch sie in der Lage sei, „überzeugende“ Charaktere zu erschaffen, die „lebendige“ Emotionen ausdrücken. Sora kann auch mehrere Aufnahmen innerhalb eines einzigen generierten Videos erstellen, die Charaktere und visuellen Stil genau wiedergeben.

Das Unternehmen gab an, dass es eine Reihe von Mängeln aufweist.

„Es kann schwierig sein, die Physik einer komplexen Szene genau zu simulieren, und es kann sein, dass bestimmte Fälle von Ursache und Wirkung nicht verstanden werden. Beispielsweise könnte eine Person einen Keks abbeißen, der Keks hinterher aber möglicherweise keine Bissspur mehr aufweisen“, heißt es darin.

Siehe auch  Berichten zufolge übertrifft das Ernie-KI-Modell von Baidu das ChatGPT von OpenAI in mehreren Metriken

„Das Modell verwechselt möglicherweise auch räumliche Details einer Eingabeaufforderung, indem es beispielsweise links und rechts verwechselt, und hat möglicherweise Schwierigkeiten mit der präzisen Beschreibung von Ereignissen, die im Laufe der Zeit stattfinden, wie etwa dem Verfolgen einer bestimmten Kamerabahn.“

Bitte melden Sie sich mit LinkedIn an, um einen Kommentar abzugeben

OpenAI

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein