Sora kann mithilfe einfacher Textaufforderungen Videos erstellen und wurde einer ausgewählten Anzahl von Benutzern zur Rückmeldung freigegeben.
OpenAI, das Unternehmen hinter chatgpt und dem Bildgenerator DALL-E, hat jetzt ein Text-zu-Video-Modell Sora auf den Markt gebracht.
Mit dem Modell können Benutzer mithilfe einfacher Eingabeaufforderungen Videos mit einer Länge von bis zu einer Minute erstellen.
Das von Microsoft unterstützte Unternehmen gab an, dass sich die neue Plattform derzeit in der Testphase befinde, veröffentlichte jedoch einige Beispielvideos zusammen mit den dazugehörigen Eingabetexten.
Lesen | So starten Sie mit ChatGPT: Ein Leitfaden für Anfänger
OpenAI habe „einer Reihe von bildenden Künstlern, Designern und Filmemachern Zugang gewährt, um Feedback zu erhalten, wie das Modell so weiterentwickelt werden kann, dass es für Kreativprofis am hilfreichsten ist“, hieß es.
Beschreibende Anweisungen
Eins Videobeispiel zeigte eine Frau, die eine Straße in Tokio entlang ging. Die Textaufforderung enthielt Einzelheiten zu den Lichtern und der Beschilderung der Stadt. Es beschrieb auch die Kleidung der Frau, den Zustand der Straße sowie die Menschen im Hintergrund.
Ein anderes Video zeigte riesige Wollhaarmammuts, die im Schnee spazieren gingen. Der Text beschrieb die Bäume im Hintergrund, die schneebedeckten Berge in der Ferne und eine niedrige Kameraansicht sowie weitere Anweisungen.
„Sora ist in der Lage, komplexe Szenen mit mehreren Charakteren, spezifischen Bewegungsarten und präzisen Details des Motivs und Hintergrunds zu erzeugen. Das Modell versteht nicht nur, wonach der Benutzer in der Eingabeaufforderung gefragt hat, sondern auch, wie diese Dinge in der physischen Welt existieren“, sagte OpenAI.
Schwächen in Sora
Das Unternehmen räumte zudem einige Schwächen des Modells ein.
Es hieß, dass das Modell möglicherweise Schwierigkeiten damit habe, die Physik einer komplexen Szene genau zu simulieren, und möglicherweise bestimmte Fälle von Ursache und Wirkung nicht verstehe. „Zum Beispiel könnte eine Person in einen Keks beißen, der Keks hinterher aber möglicherweise keine Bissspur mehr aufweisen.“
Sicherheit zuerst
OpenAI sagte, es arbeite mit Domänenexperten in Bereichen wie Fehlinformationen, hasserfüllten Inhalten und Voreingenommenheit zusammen, um das Modell zu testen.
Es werden auch „Tools zur Erkennung irreführender Inhalte entwickelt, beispielsweise ein Erkennungsklassifikator, der erkennen kann, wann ein Video von Sora erstellt wurde“.
Das Tool prüft und lehnt auch Eingabeaufforderungen zu extremer Gewalt, hasserfüllten Bildern, Ähnlichkeiten mit Prominenten und anderen Formen unangemessener Inhalte ab.