Video könnte die nächste Grenze für generative KI sein, nachdem Chatbots und Bildgeneratoren ihren Weg in die Verbraucher- und Geschäftswelt gefunden haben. Während die kreativen Möglichkeiten KI-Enthusiasten begeistern werden, werfen die neuen Technologien angesichts der bevorstehenden großen politischen Wahlen auf der ganzen Welt ernsthafte Fehlinformationsprobleme auf. Laut Daten von Clarity, einem Unternehmen für maschinelles Lernen, ist die Zahl der erstellten KI-generierten Deepfakes im Jahresvergleich um 900 % gestiegen.
Mit Sora möchte OpenAI mit KI-Tools zur Videogenerierung von Unternehmen wie Meta und google konkurrieren, die Lumiere angekündigt haben Im vergangenen Monat. Ähnliche KI-Tools sind von Startups wie Stability AI erhältlich, das ein Produkt namens Stable Video Diffusion anbietet. Amazon hat außerdem „Create with Alexa“ veröffentlicht, ein Modell, das auf die Erstellung von animierten Kurzinhalten für Kinder auf Eingabeaufforderungen spezialisiert ist.
Sora ist derzeit auf die Erstellung von Videos beschränkt, die eine Minute oder weniger lang sind. OpenAI, unterstützt von Microsoft, hat Multimodalität – die Kombination von Text-, Bild- und Videogenerierung – zu einem Ziel gemacht, um eine breitere Palette von KI-Modellen anzubieten.
„Die Welt ist multimodal“, sagte Brad Lightcap, COO von OpenAI, im November gegenüber CNBC. „Wenn man darüber nachdenkt, wie wir als Menschen die Welt verarbeiten und uns mit ihr beschäftigen, wir sehen Dinge, wir hören Dinge, wir sagen Dinge – die Welt ist viel größer als Text. Für uns fühlte es sich also immer unvollständig an, wenn es um Text und Text ging Code als die einzelnen Modalitäten, die einzelnen Schnittstellen, die wir haben könnten, um herauszufinden, wie leistungsfähig diese Modelle sind und was sie tun können.
Bisher stand Sora nur einer kleinen Gruppe von Sicherheitstestern oder „Red Teamern“ zur Verfügung, die das Modell auf Schwachstellen in Bereichen wie Fehlinformationen und Voreingenommenheit testen. Das Unternehmen hat über die 10 auf seiner Website verfügbaren Beispielclips hinaus keine öffentlichen Demonstrationen veröffentlicht und sagte, das begleitende technische Papier werde später am Donnerstag veröffentlicht.
OpenAI sagte außerdem, dass es einen „Erkennungsklassifikator“ entwickelt, der von Sora generierte Videoclips identifizieren kann, und dass es plant, bestimmte Metadaten in seine Ausgabe aufzunehmen, die bei der Identifizierung von KI-generierten Inhalten helfen sollen. Es handelt sich um die gleiche Art von Metadaten, die Meta in diesem Wahljahr zur Identifizierung von KI-generierten Bildern verwenden möchte.
Sora ist ein Diffusions-KI-Modell, das wie chatgpt die Transformer-Architektur nutzt, die von Google-Forschern in einem Artikel aus dem Jahr 2017 vorgestellt wurde.
„Sora dient als Grundlage für Modelle, die die reale Welt verstehen und simulieren können“, schrieb OpenAI in seiner Ankündigung.
BETRACHTEN: OpenAI ist auf dem Weg zum „echten technologischen Durchbruch“