Der ChatGPT-Erfinder OpenAI hat erklärt, dass er an einer Software namens Sora arbeitet, die auf der Grundlage von Textaufforderungen minutenlange Videos generieren kann.
Das von Microsoft unterstützte Unternehmen sagte, dass Sora, ein Text-zu-Video-Modell, auch ein vorhandenes Standbild nehmen und daraus ein Video erstellen könne.
Alles über Sora von ChatGPT Creator OpenAI
Sora kann Videos mit einer Länge von bis zu einer Minute erstellen und dabei die visuelle Qualität beibehalten und den Anweisungen des Benutzers folgen.
Sora kann auch komplexe Szenen mit mehreren Charakteren, bestimmten Bewegungsarten und präzisen Details des Motivs und Hintergrunds erstellen.
OpenAI unter der Leitung von Sam Altman sagte, dass das neue Tool nicht nur versteht, was der Benutzer in der Eingabeaufforderung verlangt, sondern auch, wie diese Dinge in der physischen Welt existieren.
Sora verfügt über ein tiefes Sprachverständnis, das es ihm ermöglicht, Eingabeaufforderungen genau zu interpretieren und überzeugende Charaktere zu generieren, die lebendige Emotionen ausdrücken, sagte OpenAI.
Sora kann auch mehrere Aufnahmen innerhalb eines einzigen generierten Videos erstellen, die Charaktere und visuellen Stil genau wiedergeben.
Die Software folgt dem ChatGPT-Chatbot von OpenAI, der 2022 veröffentlicht wurde und mit seiner Fähigkeit, E-Mails zu verfassen und Codes und Gedichte zu schreiben, für Aufsehen bei GenAI sorgte.
OpenAI veröffentlichte auch die Ergebnisse einiger Eingabeaufforderungen auf X. Dazu gehörte ein kurzes Video einer animierten Szene mit einer Nahaufnahme eines kleinen, flauschigen Monsters, das neben einer schmelzenden roten Kerze kniet.
Ein anderer zeigte „eine stilvolle Frau, die eine Straße in Tokio entlanggeht, die mit warm leuchtendem Neon und animierten Stadtschildern gefüllt ist“.
Wir stellen Ihnen Sora vor, unser Text-zu-Video-Modell.
Sora kann bis zu 60 Sekunden lange Videos mit äußerst detaillierten Szenen, komplexen Kamerabewegungen und mehreren Charakteren mit lebendigen Emotionen erstellen. https://t.co/7j2JN27M3W
Aufforderung: „Wunderschön, verschneit…“ pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) 15. Februar 2024
Aufforderung: „Eine stilvolle Frau geht eine Straße in Tokio entlang, die mit warm leuchtendem Neon und animierten Stadtschildern gefüllt ist. Sie trägt eine schwarze Lederjacke, ein langes rotes Kleid und schwarze Stiefel und trägt eine schwarze Handtasche. Sie trägt eine Sonnenbrille und roten Lippenstift. Sie geht selbstbewusst und lässig.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) 15. Februar 2024
Das aktuelle Modell weist jedoch Schwächen auf, sagte OpenAI und fügte hinzu, dass es möglicherweise Schwierigkeiten habe, die Physik einer komplexen Szene genau zu simulieren, und bestimmte Fälle von Ursache und Wirkung möglicherweise nicht verstehe. Beispielsweise könnte eine Person in einen Keks beißen, der Keks hinterher aber möglicherweise keine Bissspur mehr aufweisen.
OpenAI arbeitet mit „Red Teamers“ auf Sora
OpenAI sagte, dass es vor der Bereitstellung von Sora mehrere wichtige Sicherheitsmaßnahmen ergreifen werde.
Der ChatGPT-Entwickler sagte, dass er Tools entwickelt, die dabei helfen sollen, irreführende Inhalte zu erkennen, beispielsweise einen Erkennungsklassifikator, der erkennen kann, wann ein Video von Sora erstellt wurde.
Das Unternehmen gab außerdem bekannt, dass es mit „Red Teamern“ zusammenarbeitet – Fachexperten in Bereichen wie Fehlinformationen, hasserfüllte Inhalte und Voreingenommenheit –, die das neue Text-zu-Video-Modell kontrovers testen werden.