OpenAI hat sein GPT-4o-Modell während seines Spring Update-Events Anfang dieses Monats vorgestellt und mit der Hinzufügung der Live-Voice-Funktionalität viel Hype ausgelöst – auch von mir. Ich habe endlich eine Live-Demo vor Ort gesehen, und wenn überhaupt, glaube ich, dass sie unterbewertet war.
Eine Stunde bevor ich auf die Bühne gehen sollte, um bei VivaTech, einer europäischen Technologiekonferenz in Paris, ein Panel zum Thema KI-Mitarbeiter zu moderieren, demonstrierte Romain Huet, Leiter der Entwicklererfahrung bei OpenAI, sämtliche neuen Funktionen.
Während der Demo verwendete Huet die chatgpt-Desktop-App, damit die KI das über 400 Personen fassende Publikum ansprach. Er ließ sie dies sogar noch enthusiastischer und auf Französisch tun. Der Akzent war wie bei einem Amerikaner, der Französisch spricht, aber er sagte: „Wir arbeiten daran, es französischer zu machen.“
Es sieht so aus, als müssten wir noch ein paar Monate warten, bis wir alle Zugriff auf diese neuen Funktionen haben, da OpenAI sie weiteren Sicherheitstests unterzogen hat, aber wenn sie verfügbar sind, wird dies die Art und Weise, wie wir mit Technologie interagieren, für immer verändern. Insbesondere, da sie auch in Windows Copilot enthalten sein werden.
ChatGPT Voice kann Sie auch beobachten
Einer der beeindruckendsten Momente war, als Huet das Kameramodul im (in den nächsten Monaten verfügbaren) ChatGPT Voice-Bereich der Desktop-App öffnete.
Er gab ihm eine Skizze, die er angefertigt hatte und die den Eiffelturm und den Arc de Triomphe zeigte, nur eine grobe, auf ein Blatt Papier gezeichnete Skizze. ChatGPT identifizierte beide anhand der Skizze.
Anschließend zeigte Huet ChatGPT eine Karte und fragte, wie man von unserem Standort in Port de Versailles aus zu den Orten in seiner Skizze gelangt. Es konnte eine detaillierte Zugroute mit Haltestellen und Umstiegen angegeben werden.
Er hatte geplant, die Features mithilfe der ChatGPT-App auf einem iphone zu zeigen, musste sie jedoch aufgrund technischer Schwierigkeiten am Veranstaltungsort auf dem Laptop zeigen. Dies bedeutete jedoch, dass er eine Ad-hoc-Demo der Codierung mit ChatGPT durchführen konnte – schließlich ist er der Entwickler-Experience-Typ.
Indem er seinen Bildschirm mit der KI teilte, konnte er ChatGPT den von ihm geschriebenen Code anzeigen lassen, seine Funktion identifizieren und Verbesserungen vorschlagen. Anschließend könnte er ihm die Ausgabe zeigen und ihn nach Möglichkeiten fragen, den Code so zu ändern, dass er anders aussieht oder funktioniert – alles in Echtzeit.
Eine Demonstration von Sora und Voice Engine
Wir sind zukunftssicher und haben nichts zu verlieren … 📚 bei #VivaTech mit Lisa Heneghan @LHeneghanCIOA, Global Chief Digital Officer @KPMG, und @JulieRanty, Mitgründerin von @hey_pollen, die Strategien für kontinuierliches Lernen und berufliche Anpassung vorstellen und dabei KI für neue Möglichkeiten nutzen. pic.twitter.com/j7BCl7LDlM22. Mai 2024
OpenAI scheint derzeit in den „Produktmodus“ zu wechseln. Während es sich selbst immer noch als Forschungslabor mit Schwerpunkt auf dem Aufbau künstlicher allgemeiner Intelligenz bezeichnet, intensiviert es auch sein Produktangebot. Die ChatGPT-Desktop-App steht kurz davor, zu einem wichtigen Produktivitätstool zu werden.
Während der Demo in Paris zeigte Huet auch ein neues Sora-Video, das für das OpenAI-Entwicklerevent in Paris am Vortag erstellt wurde und eine Multishot-Tour durch die Stadt zeigte. Da die Erstellung eines Sora-Videos etwa 15 Minuten dauert, war dies der einzige vorgefertigte Teil der gesamten Demo.
Ich konnte dies nur hinter der Bühne auf einem kleinen Bildschirm verfolgen, also habe ich kein Video gesehen, aber alle Augen im grünen Raum richteten sich auf diesen Bildschirm, als die Demonstration stattfand.
Er gab das Sora-Video an ChatGPT weiter und ließ den Inhalt zusammenfassen und ein Voice-Over-Skript für das Video schreiben. Hier konnten wir ein weiteres angedeutetes OpenAI-Produkt in Aktion sehen – Voice Engine. Aus Sicherheitsgründen wurde es nur für den internen Gebrauch aufbewahrt.
Huet konnte (in Echtzeit) eine 20-sekündige Probe seiner Stimme aufnehmen, sie von Voice Engine klonen lassen und eine perfekte Kopie erstellen. Diese wurde dann auf das Sora-Video angewendet, um ein Promo-Video zu erstellen. Es ging aber noch weiter, denn er konnte die Sprache per Mausklick schnell von Englisch auf Französisch und dann auf Japanisch ändern.
Sora und Voice Engine sind nicht öffentlich verfügbar, da sie „an Möglichkeiten arbeiten, es sicher zu veröffentlichen“.
Das Potenzial zur Erstellung von Deep Fakes und irreführenden Inhalten mithilfe dieser Tools ist sehr real, daher verstehe ich die Zurückhaltung, aber ähnliche Technologien gibt es bereits, also hoffen wir, dass sie bald veröffentlicht werden.
Mehr von Tom's Guide