OpenAI gab sich nicht damit zufrieden, mit chatgpt und Dall-E zwei der bislang einflussreichsten KI-Tools der Welt auf den Markt zu bringen, sondern richtete seine Aufmerksamkeit diese Woche mit seinem neuen Modell namens Sora auf eine neue Grenze (KI-generiertes Video). Auch wenn große Fragen offen bleiben, ist es vielleicht sogar das beeindruckendste von allen.
Wie funktioniert es?
OpenAis Forschungsbericht sagt, dass Sora sowohl ein „Diffusionsmodell“ (wie Dall-E) als auch ein „Transformator“ (wie ChatGPT) ist. Das bedeutet, dass es Sequenzen oder Muster (in diesem Fall Video) auf der Grundlage großer Mengen an Trainingsdaten vorhersagen kann. Was wir noch nicht genau wissen, ist, welche Trainingsdaten verwendet wurden, was eine ziemlich große unbeantwortete Frage ist.
Sora ist ein Text-zu-Video-Tool, das alle Arten von Videos – fotorealistisch, animiert, geradezu seltsam – mit einer Länge von bis zu sechzig Sekunden erstellen kann. Es ist noch nicht öffentlich zum Ausprobieren verfügbar, aber eine Welle von Beispielvideos, die von OpenAI veröffentlicht wurden, hat für den Ruf gesorgt, dass dies so schnell wie möglich geschehen soll. Na ja, es sei denn, Sie machen Ihren Lebensunterhalt mit Stockvideos.
Diese frühen Beispiele legen nahe, dass Sora mit Abstand das beeindruckendste Text-zu-Video-Tool ist, das wir bisher gesehen haben. Es ist bei weitem nicht das erste – so etwas wie google/video/“ target=“_blank“ data-url=“https://imagen.research.google/video/“>Google Bild und Runway Gen-2 haben den Grundstein gelegt, wobei nVidia letztes Jahr seine eigenen beeindruckenden Demos veröffentlichte. Aber Sora scheint sie alle zu übertrumpfen, weil er in der Lage ist, ein paar neue Dinge zu tun.
Frühe KI-generierte Videos waren von Inkonsistenzen, Verzerrungen und anderen Kuriositäten geprägt, die die Illusion sofort zerstörten. Aber Sora, wie Blogbeitrag von OpenAI erklärt, ist nicht nur in der Lage, „komplexe Szenen mit mehreren Charakteren“ zu erstellen, sondern auch „die physische Welt in Bewegung zu simulieren“ und zu verstehen, wie Objekte in dieser Welt existieren sollten. Das Ergebnis? Soweit wir bisher sehen können, erhalten Sie kohärente, konsistente Videos, bei denen alles weitgehend dort bleibt, wo es sein sollte (was als „Objektpermanenz“ bezeichnet wird).
Sora ist alles andere als perfekt und viele Fragen bleiben unbeantwortet. OpenAI gibt zu, dass es Schwierigkeiten haben kann, „die Physik einer komplexen Szene genau zu simulieren“, „bestimmte Fälle von Ursache und Wirkung“ zu verstehen und auch „räumliche Details einer Eingabeaufforderung durcheinander zu bringen“. Wir wissen auch nicht, welches GPT-Modell zum Erstellen von Sora verwendet wurde, auf welchen Daten es trainiert wurde, wann OpenAI es als bereit für die Veröffentlichung außerhalb seiner frühen Tester erachtet und wie viel es kosten könnte.
Dennoch ist es schwierig, von der Qualität einiger von Soras frühen Beispielen und deren Bedeutung für Videos, Kameras, Filme, Spiele und vor allem GIFs nicht überwältigt zu sein. Hier sind 11 der bisher beeindruckendsten KI-generierten Videos von Sora und was sie uns darüber verraten, wohin das alles führen könnte …
1. Es kann überzeugende Science-Fiction-Trailer erstellen
- Die Aufforderung: Ein Filmtrailer über die Abenteuer des 30-jährigen Weltraummanns mit rotem Wollstrick-Motorradhelm, blauem Himmel, Salzwüste, filmischem Stil, aufgenommen auf 35-mm-Film, lebendige Farben.
Dieser Science-Fiction-Kurzfilm ist eines der beeindruckendsten Beispiele für Soras generative Fähigkeiten und demonstriert seine Fähigkeit, fotorealistische Charaktere zu erschaffen und auch bestimmte filmische Stile nachzuahmen.
Die Eingabeaufforderung gibt einen „Move-Trailer“ an, sodass Schnitte und Nahaufnahmen enthalten sind – und der Mangel an erzählerischer Kohärenz wird durch Qualität und Konsistenz im Vergleich zu anderen Text-zu-Video-Tools wettgemacht. Natürlich gibt es keinen Ton, aber als Werkzeug für Storyboarding und Brainstorming scheint es bereits neue Höhen erreicht zu haben.
2. KI-generierte Menschen sehen fotorealistisch aus
- Der Anlass: Eine Kochanleitung für hausgemachte Gnocchi, moderiert von einer Social-Media-Influencerin einer Großmutter, in einer rustikalen toskanischen Landküche mit filmischer Beleuchtung
Es ist kaum achtzehn Monate her, seit Meta und Google ihre ersten Beispiele für Text-zu-Video-Tools gezeigt haben, aber Sora-Videos wie das obige zeigen die schnellen Fortschritte, die gemacht wurden – insbesondere, wenn es um die Erstellung von Clips geht, an denen Menschen beteiligt sind.
Früh Google Bild Die Clips wurden von Menschen und Tieren ferngehalten, aber das obige Beispiel – veröffentlicht vom CEO von OpenAI Sam Altman auf X (ehemals Twitter) nach einer Anfrage nach Eingabeaufforderungen – zeigt die realistischen, gestochen scharfen Details, die es erzeugen kann. Sogar die Hände sehen ziemlich realistisch aus, obwohl es einen verschwindenden Löffel gibt, der die KI-Ursprünge verdeutlicht.
3. Auch animierte Kurzfilme im Pixar-Stil sind möglich
- Die Aufforderung: Die animierte Szene zeigt eine Nahaufnahme eines kleinen, flauschigen Monsters, das neben einer schmelzenden roten Kerze kniet (Die vollständige Eingabeaufforderung finden Sie im Beitrag).
Dieser von Sora erstellte Clip zeigt das Potenzial von KI-generierten Videos, Animationen zu demokratisieren und sie jedem mit Fantasie zugänglich zu machen. Es zeigt ein flauschiges Monster im Pixar-Stil mit unglaublich detailliertem Fell und realistischen Kerzenreflexionen.
Die Eingabeaufforderung kann lang sein und wir kennen die Bearbeitungszeit nicht, aber sie ist mit Sicherheit viel kürzer als die historischen Prozesse, die von Animationsstudios verwendet wurden. Pixar hat bereits darüber gesprochen mühsamer Prozess der Pelzherstellung Monster AG und das Original Spielzeuggeschichte Die Herstellung dauerte 800.000 Maschinenstunden, wobei Pixar nur weniger als 30 Sekunden Filmmaterial pro Tag rendern konnte.
4. Es könnte Ihre Drohne ersetzen
- Eingabeaufforderung: Drohnenaufnahme von Wellen, die gegen die schroffen Klippen am Garay Point Beach in Big Sur schlagen. (Die vollständige Eingabeaufforderung finden Sie im Beitrag).
Text-zu-Video-Tools werden die besten Drohnen zum Erfassen persönlicher Erinnerungen nicht ersetzen. Wenn Sie jedoch ein generisches Standard-Luftbildvideo benötigen (das sich sogar annähernd an reale Standorte annähern kann), dann zeigt das oben von Sora erstellte Beispiel, dass es der Aufgabe gewachsen sein könnte – und gutes Wetter ist garantiert.
Nur die Wellen in diesem Clip verraten, dass dies KI-generiert ist – und selbst dann nur, wenn man genau hinschaut. Es wäre sicherlich gut genug für soziale Medien und ein weiteres Beispiel der Amalfiküste zeigt, dass die Qualität kein Einzelfall ist. Die Frage ist nur, auf wessen realen Luftbildern wurde trainiert?
5. Es kann Sie in eine KI-generierte Vergangenheit entführen
- Die Aufforderung: Historische Aufnahmen von Kalifornien während des Goldrauschs.
Gab es Mitte des 19. Jahrhunderts Drohnen? Unseres Wissens nach nicht, aber Sora gibt uns hier eine Vorstellung davon, was eine der fliegenden Kameras von DJI hätte einfangen können, wenn es sie während des Goldrauschs in Kalifornien gegeben hätte.
Dieser Clip wirft ernsthafte Fragen darüber auf, welchen Einfluss KI-generierte Videos auf unsere Erinnerung an historische Ereignisse haben könnten, wenn sie einfach in die Wildnis entlassen würden. Aus diesem Grund sagt Open AI, dass es „Tools zur Erkennung irreführender Inhalte entwickelt, wie zum Beispiel einen Erkennungsklassifikator“, der erkennen kann, ob ein Video von Sora erstellt wurde.
Es ist zwar gut zu hören, dass OpenAI diese Sicherheitsmaßnahmen ergreift, aber es macht uns dennoch Sorgen über die sozialen Medien, angesichts des alten Sprichworts, dass „eine Lüge um die halbe Welt reisen kann, während die Wahrheit noch auf dem Vormarsch ist“.
- Die Aufforderung: Extreme Nahaufnahme des blinzelnden Auges einer 24-jährigen Frau, die während der magischen Stunde in Marrakesch steht, filmischer Film, aufgenommen in 70 mm, Tiefenschärfe, lebendige Farben, filmisch
All das Geld, das Sie für ein f/1,2-Prime-Objektiv für Ihre Vollformatkamera und ein Text-zu-Video-Tool ausgegeben haben, lässt diesen Clip mit einer einfachen Eingabeaufforderung entstehen – widerlich. Natürlich werden wir weiterhin Kameras brauchen, um echte Menschen, Ereignisse und Erinnerungen festzuhalten, aber dieser Clip zeigt, dass es keinen Zweifel daran gibt, dass Sora und seine Konkurrenten den Bedarf an Stock-Videoclips erneut reduzieren werden.
Die Bewegung des Auges, die Wimpern, die realistischen Hautporen, die Spiegelungen des Sonnenuntergangs in Marrakesch – alles trifft auf den Punkt. Es scheint sogar einen vorübergehenden Fokussierungsfehler zu simulieren. Etwas so Gutes wie dieses haben wir von einem Text-zu-Video-Generator noch nie gesehen, und sie werden nur noch besser.
7. Es kann so surreal sein wie Ihre Meeresträume
- Der Anlass: Ein Radrennen auf dem Meer mit verschiedenen Tieren als Sportler, die mit einer Drohnenkamera auf dem Fahrrad fahren
Eines der beeindruckendsten Dinge an Sora aus dieser ersten Reihe von Beispielclips ist seine Vielseitigkeit. Es kann Fotorealismus und Animationen im Pixar-Stil ausführen, aber auch beides kombinieren, um einige surreale Clips zu erstellen, deren Animation sonst Stunden dauern würde.
Dieses Radrennen auf dem Meer ist sicherlich nicht perfekt – warum ein Schweinswal in der Luft schwebt, ist nicht klar –, aber irgendwie sehen die radfahrenden Meeresbewohner auch nicht völlig unnatürlich aus. Zumindest unsere GIF-Spiele werden um einige Stufen besser.
8. Eine neue Art des personalisierten Spielens könnte nahe sein
- Die Aufforderung: Die Kamera folgt einem weißen Oldtimer-SUV mit schwarzem Dachträger, der eine steile, von Pinien umgebene Schotterstraße an einem steilen Berghang hinaufrast, Staub wirbelt von seinen Reifen auf, das Sonnenlicht scheint auf den SUV, während er beschleunigt entlang der unbefestigten Straße und wirft einen warmen Schein über die Szene. (Die vollständige Eingabeaufforderung finden Sie im Beitrag).
Sora ist weit davon entfernt, ein so realistisches Videospiel wie das obige KI-generierte Video zu erstellen, aber es hat sicherlich das Potenzial, einen großen Einfluss auf die Spielebranche zu haben. Ein OpenAI-Papier verrät, dass es Videospiele rendern, Physik erlernen und beim Erstellen von Spielwelten helfen kann.
Wie von bemerkt Nvidia Senior Researcher Dr. Jim Fan Auf X (ehemals Twitter) ist Sora mehr als nur ein Bildgenerator, wie wir ihn zuvor in Dall-E gesehen haben. Es ähnelt eher einer „datengesteuerten Physik-Engine“, die effektiv Physik erlernt und eine realistische Text-zu-3D-Erstellung ermöglicht.
In dem Artikel von OpenAI heißt es: „Sora kann den Spieler in Minecraft gleichzeitig mit einer grundlegenden Richtlinie steuern und gleichzeitig die Welt und ihre Dynamik in hoher Wiedergabetreue wiedergeben.“ Offensichtlich ist das erst der Anfang seines Gaming-Potenzials.
9. Werbung könnte das kreative Potenzial ausschöpfen
- Die Aufforderung: Fotorealistisches Nahaufnahmevideo von zwei Piratenschiffen, die in einer Tasse Kaffee gegeneinander kämpfen.
Soras fotorealistisches Videopotenzial und sein scheinbar beeindruckendes Verständnis der Physik könnten es zu einer starken kreativen Waffe für viele Dinge machen, auch für Werbung.
Erwarten Sie, dass Ihre YouTube-Pre-Rolls und Social-Ads noch viel surrealer werden, da Szenen wie die obige für begrenzte Marketingbudgets verfügbar werden, die zuvor nur für einen einfachen Smartphone-Kurzfilm reichten. Das heißt, vorausgesetzt, OpenAI wehrt seine Urheberrechtsklagen ab und Sora wird für die kommerzielle Nutzung nutzbar.
10. Der Film hat gute Regiekenntnisse
Sora-Entwickler Bill Peebles teilte den Clip oben auf
Wir wissen nicht genau, welche Eingabeaufforderung zur Generierung von „Bling Zoo“ verwendet wurde, der einige Tiere zeigt, die offenbar ein großzügiges Erbe genießen, aber das Video zeigt ein Verständnis für Schnitte und Tempo, das zeigt, dass Sora über das Wiederholen derselben Sequenzen hinausgehen kann für eine Minute. Amateurfilmer werden zweifellos ganz vorne in der Schlange stehen.
11. Hunde-GIFs sind im Begriff, die nächste Stufe zu erreichen
- Die Aufforderung: Ein Wurf Golden Retriever-Welpen spielt im Schnee. Ihre Köpfe ragen bedeckt aus dem Schnee.
Nicht alle Auswirkungen von OpenAIs Sora sind welt- oder branchenverändernd – wir sind ehrlich gesagt genauso begeistert von den bevorstehenden Möglichkeiten für unser GIF-Spiel.
Es scheint, dass Sora besonders geschickt darin ist, kurze, fotorealistische Clips von Hunden, Welpen und Katzen zu erstellen – und auch wenn es im Internet nicht gerade an solchen mangelt, freuen wir uns darauf, den idealen Clip für diese Zeiten zusammenzustellen wenn Giphy zu kurz kommt.
Nun, es sei denn, die Technik hinter Sora verlangt ein überhöhtes Monatsabonnement, was nicht außerhalb des Bereichs des Möglichen liegt.
Das könnte Ihnen auch gefallen