SAN JOSE: Die Macher von chatgpt erweitern den Horizont ihrer KI-gestützten Software mit einer neuen Funktion, die es Benutzern ermöglicht, aus Textaufforderungen bis zu einer Minute Videomaterial zu erstellen.
Das KI-Modell mit dem Namen Sora werde zunächst einer begrenzten Anzahl von Kreativprofis zur Verfügung gestellt, kündigte OpenAI-Chef Sam Altman am Donnerstag auf der Social-Media-Plattform X an.
OpenAI veröffentlichte auf der Website der Software mehrere Demovideos, die alle vollständig durch künstliche Intelligenz generiert wurden, zusammen mit der Beschreibung, auf der sie basieren.
Eines davon zeigt eine Frau, die nachts durch eine hell erleuchtete Stadtstraße geht. Die Aufforderung verlangte Aufnahmen einer Frau in Lederjacke und rotem Kleid und forderte, dass die Straße an Tokio erinnern und viele Leuchtreklamen haben sollte, die sich auch in Pfützen widerspiegeln.
Andere Videos zeigen im Schnee wandelnde Mammuts und eine historisch anmutende Aufnahme von Kalifornien während des Goldrauschs.
Die Videos sind teilweise beeindruckend realistisch, insbesondere die Beleuchtung und Textur. Aber sie sind auch eindeutig künstlich und OpenAI gibt zu, dass Sora immer noch Schwächen hat.
Ein wiederkehrender Fehler besteht darin, dass sich bewegende Motive dazu neigen, die Gesetze der Physik zu missachten und die Art und Weise, wie Menschen und Tiere gehen, immer noch unnatürlich erscheint.
Größe und Kontinuität sind ebenfalls Schwachstellen, und in einem Video beißt jemand einen Keks ab und der Keks erscheint später immer noch ganz, während in einem anderen einige Menschen wie Riesen erscheinen, während andere in der Nähe viel kleiner sind.
Die Beispielvideos sind jedoch ein Beweis dafür, dass der Einsatz von KI zur Generierung bewegter Bilder aus Textansagen die Videoproduktion im Laufe der Zeit verändern könnte.
Bestimmte kurze Clips wie Geburtstagsszenen und allgemeine Lifestyle-Aufnahmen scheinen kurz vor der Verwendung in Werbe- oder Werbematerialien zu stehen. Manche Aufnahmen lassen sich schon auf den ersten Blick erkennen, um zu erkennen, dass sie künstlich sind.
Gleichzeitig bestehen große Bedenken, dass damit in großem Umfang Fake-Videos erstellt werden könnten, die kaum von echtem Filmmaterial zu unterscheiden wären. Mehrere andere Unternehmen haben bereits Software entwickelt, die aus Texten Videos generieren kann.
Die Entwickler der Technologie möchten, dass Sora-Videos eindeutig als von KI erstellt erkannt werden und arbeiten an Möglichkeiten, einzigartige Erkennungsmerkmale wie Wasserzeichen in die Videos zu integrieren
Eine Expertengruppe soll nun mögliche Sicherheitsrisiken ausloten, bevor die Software flächendeckend eingesetzt werden kann.
Die Ankündigung von OpenAI erfolgte genau zu dem Zeitpunkt, als google auch ein Update seiner KI-Software ankündigte, das Benutzern eine schnelle Analyse riesiger Mengen an Video- oder Audiomaterial ermöglicht.
Die neueste Version von Gemini AI, Googles Antwort auf ChatGPT, wurde mit der Suche nach „komödiantischen Momenten“ in einem 400-seitigen Transkript von Gesprächen von der Weltraummission Apollo 11 zum Mond getestet.
In einer halben Minute lieferte Gemini Version 1.5 drei Beispiele für Humor und konnte sogar einen Kontext dazu liefern, warum ein bestimmter Satz lustig war.
Die Software bewies ihre Fähigkeit, Dinge in ihrem Kontext zu verstehen, indem sie auf eine hochgeladene Zeichnung eines Stiefels reagierte, indem sie diese mit dem Moment verknüpfte, als Neil Armstrong den ersten Schritt auf den Mond machte.
Zusätzlich zur Verarbeitung von Text, Code und Audio könnte die Entwicklung es ermöglichen, in großen Mengen an Filmmaterial nach bestimmten visuellen Elementen zu suchen, ohne dass eine Person diese ansehen muss.
„Bei einem 44-minütigen Stummfilm von Buster Keaton kann das Modell verschiedene Handlungspunkte und Ereignisse genau analysieren und sogar kleine Details im Film erkennen, die leicht übersehen werden könnten“, schrieb Googles KI-Chef Demis Hassabis am Donnerstag.
Der Internetriese konkurriert mit dem ChatGPT-Erfinder OpenAI, der vor etwas mehr als einem Jahr einen weltweiten Hype um KI auslöste.
Anfang Februar hat Google seine KI-Apps und -Dienste unter dem Namen Gemini umbenannt. Das Modell Gemini 1.5 wird zunächst Entwicklern und Unternehmenskunden zur Verfügung stehen, bevor es für alle Benutzer ausgerollt wird. – dpa