Das generative Videotool Sora von OpenAI sorgte bei seiner Vorstellung letzten Monat für Aufsehen und produzierte Videos in Studioqualität aus Text – und es sieht so aus, als ob wir es irgendwann in diesem Jahr offiziell auf den Markt bringen werden.
Im Gespräch mit dem Das Wall Street Journal Mira Murati, CTO von OpenAI, sagte, Sora werde Ende dieses Jahres und möglicherweise innerhalb der nächsten Monate für die Öffentlichkeit verfügbar sein. Bisher haben wir nur vorgefertigte Videos von OpenAI gesehen.
Bevor es veröffentlicht werden kann, versucht OpenAI, Sora effizienter und billiger zu machen. Das Ziel besteht darin, dass es Videos ungefähr so schnell generiert wie DALL-E Bilder und dass es ungefähr den gleichen Preis hat.
Dies deutet darauf hin, dass Sora mit chatgpt Plus gebündelt und als API für Drittentwickler zur Integration in ihre Produkte verfügbar sein könnte, möglicherweise sogar in zukünftige Versionen von Videobearbeitungstools wie Adobe Premiere Pro oder apple Final Cut Pro.
Murati sagte, dass sie auch „Red Teaming“ für den KI-Videogenerator betreiben, um sicherzustellen, dass er keine anstößigen Inhalte produziert, und um Wege zu finden, das Risiko von Fehlinformationen zu minimieren.
Menschen haben Schwierigkeiten, KI-Videos zu erkennen
Die Nachricht über die mögliche zukünftige Veröffentlichung von Sora fällt mit einer neuen Umfrage zusammen, die von in Auftrag gegeben wurde Vielfalt Dabei wurde festgestellt, dass die meisten Erwachsenen in den USA nicht erkennen konnten, ob es sich bei einem Video um Sora oder um ein echtes Video handelte.
Die Umfrage wurde von HarrisX durchgeführt und umfasste von OpenAI veröffentlichte Demonstrationsvideos, darunter Wellen gegen schroffe Klippen und den kalifornischen Goldrausch.
Viele der Befragten schlugen sogar vor, dass von Menschen erstellte Videos von KI erstellt wurden, was darauf hindeutet, dass OpenAI und andere Videoplattformen mehr Arbeit an der Identifizierung leisten müssen.
Murati sagte gegenüber dem Wall Street Journal, dass dies ein Thema sei, das sie schlaflos mache, und dass man erwägen könnte, die Veröffentlichung zu verschieben, wenn vor den Präsidentschaftswahlen im November keine Sicherheitsmaßnahmen ergriffen werden könnten.
„Der Umgang mit Problemen von Fehlinformationen und schädlicher Voreingenommenheit“ sei wichtig, erklärte Murati. Er fügte hinzu: „Wir werden nichts veröffentlichen, von dem wir nicht überzeugt sind, wenn es darum geht, welche Auswirkungen es auf globale Wahlen oder andere Themen haben könnte.“
Was wird Sora können?
Wenn Sora schließlich veröffentlicht wird, wird es laut Murati ungefähr den gleichen Preis wie DALL-E haben und ähnlich lange dauern. Um dorthin zu gelangen, müssen sie es zunächst effizienter und schneller machen, da die Erstellung eines einfachen 20-Sekunden-Videos derzeit „einige Minuten“ dauern kann.
Murati sagt, dass sie auch an der Verbesserung der Funktionalität arbeiten, da es bei Sora immer noch unrealistische Probleme gibt, einschließlich der Bewegung der Finger.
„ChatGPT und DALL-E sind für die öffentliche Nutzung optimiert, wo Sora ein Forschungsergebnis ist, daher ist es viel teurer“, sagte Murati dem WSJ. „Wir wissen nicht, wie es aussehen wird, wenn wir es der Öffentlichkeit zugänglich machen, wir hoffen, es zu einem ähnlichen Preis wie DALL-E zu bekommen.“
„Wir versuchen herauszufinden, wie wir diese Technologie als Werkzeug nutzen können, mit dem Menschen bearbeiten und erstellen können“, erklärte Murati. „Letztendlich wird es mehr Steuerbarkeit, Kontrolle und Genauigkeit geben, wenn es darum geht, die Absicht dessen, was Sie wollen, widerzuspiegeln.“
Welche Einschränkungen wird Sora bei der Veröffentlichung haben?
OpenAI durchläuft derzeit einen Prozess namens „Red Teaming“ mit Sora, bei dem sie ihre Grenzen austesten und versuchen, es dazu zu bringen, Dinge zu tun, die nicht ideal sind, einschließlich der Erstellung von Videos, die in ihrer Darstellung illegal, unrealistisch oder potenziell verleumderisch sein könnten Persönlichkeiten des öffentlichen Lebens.
Das Ergebnis wird ein Modell sein, das ähnliche Leitplanken aufweist wie das Bildmodell DALL-E von OpenAI. Es ist beispielsweise nicht möglich, Videos von Persönlichkeiten des öffentlichen Lebens zu erstellen.
Murati sagt, dass sie auch mit Künstlern und politischen Entscheidungsträgern in einem breiten Spektrum von Bereichen zusammenarbeiten, um den Grad der Flexibilität zu bestimmen, den das Tool in Bezug auf Dinge wie Nacktheit und Gewalt bieten sollte.
„Ich sehe es als ein Werkzeug zur Erweiterung der Kreativität“, sagte sie. „Wir möchten, dass Menschen in der Filmindustrie und Filmschaffende überall darüber informiert werden, wie wir sie weiterentwickeln und wie wir sie einsetzen.“
„KI-Tools werden unsere Kreativität und unser Wissen, unsere kollektive Vorstellungskraft und unsere Fähigkeit, alles zu tun, erweitern, aber es wird auf dem Weg dorthin äußerst schwierig sein, den Weg zu finden, KI-Tools in unsere alltägliche Realität zu integrieren, aber ich denke, es ist einen Versuch wert.“