OpenAI hat sein GPT-4o-Modell während seines Spring Update-Events Anfang dieses Monats vorgestellt und mit der Hinzufügung der Live-Voice-Funktionalität viel Hype ausgelöst – auch von mir. Ich habe endlich eine Live-Demo vor Ort gesehen, und wenn überhaupt, glaube ich, dass sie unterbewertet war.

Eine Stunde bevor ich auf die Bühne gehen sollte, um bei VivaTech, einer europäischen Technologiekonferenz in Paris, ein Panel zum Thema KI-Mitarbeiter zu moderieren, demonstrierte Romain Huet, Leiter der Entwicklererfahrung bei OpenAI, sämtliche neuen Funktionen.

Während der Demo verwendete Huet die chatgpt-Desktop-App, damit die KI das über 400 Personen fassende Publikum ansprach. Er ließ sie dies sogar noch enthusiastischer und auf Französisch tun. Der Akzent war wie bei einem Amerikaner, der Französisch spricht, aber er sagte: „Wir arbeiten daran, es französischer zu machen.“

Es sieht so aus, als müssten wir noch ein paar Monate warten, bis wir alle Zugriff auf diese neuen Funktionen haben, da OpenAI sie weiteren Sicherheitstests unterzogen hat, aber wenn sie verfügbar sind, wird dies die Art und Weise, wie wir mit Technologie interagieren, für immer verändern. Insbesondere, da sie auch in Windows Copilot enthalten sein werden.

ChatGPT Voice kann Sie auch beobachten

Einer der beeindruckendsten Momente war, als Huet das Kameramodul im (in den nächsten Monaten verfügbaren) ChatGPT Voice-Bereich der Desktop-App öffnete.

Er gab ihm eine Skizze, die er angefertigt hatte und die den Eiffelturm und den Arc de Triomphe zeigte, nur eine grobe, auf ein Blatt Papier gezeichnete Skizze. ChatGPT identifizierte beide anhand der Skizze.

Siehe auch  Plötzlich! Der Vater von ChatGPT wurde vom Vorstand entlassen. Ein CEO, der nicht daran interessiert ist, Geld zu verdienen, wird vom Kapital nicht gemocht? - DoNews-Spalte

Anschließend zeigte Huet ChatGPT eine Karte und fragte, wie man von unserem Standort in Port de Versailles aus zu den Orten in seiner Skizze gelangt. Es konnte eine detaillierte Zugroute mit Haltestellen und Umstiegen angegeben werden.

Er hatte geplant, die Features mithilfe der ChatGPT-App auf einem iphone zu zeigen, musste sie jedoch aufgrund technischer Schwierigkeiten am Veranstaltungsort auf dem Laptop zeigen. Dies bedeutete jedoch, dass er eine Ad-hoc-Demo der Codierung mit ChatGPT durchführen konnte – schließlich ist er der Entwickler-Experience-Typ.

Indem er seinen Bildschirm mit der KI teilte, konnte er ChatGPT den von ihm geschriebenen Code anzeigen lassen, seine Funktion identifizieren und Verbesserungen vorschlagen. Anschließend könnte er ihm die Ausgabe zeigen und ihn nach Möglichkeiten fragen, den Code so zu ändern, dass er anders aussieht oder funktioniert – alles in Echtzeit.

Eine Demonstration von Sora und Voice Engine

OpenAI scheint derzeit in den „Produktmodus“ zu wechseln. Während es sich selbst immer noch als Forschungslabor mit Schwerpunkt auf dem Aufbau künstlicher allgemeiner Intelligenz bezeichnet, intensiviert es auch sein Produktangebot. Die ChatGPT-Desktop-App steht kurz davor, zu einem wichtigen Produktivitätstool zu werden.

Siehe auch  ChatGPT: 5 Möglichkeiten, KI in der Immobilienbranche einzusetzen

Das Potenzial für die Erstellung von Deep Fakes und irreführenden Inhalten mithilfe dieser Tools ist sehr real, daher verstehe ich die Zurückhaltung, aber eine ähnliche Technologie gibt es bereits und wir hoffen, dass sie bald veröffentlicht wird.

Während der Demo in Paris zeigte Huet auch ein neues Sora-Video, das für das OpenAI-Entwicklerevent in Paris am Vortag erstellt wurde und eine Multishot-Tour durch die Stadt zeigte. Da die Erstellung eines Sora-Videos etwa 15 Minuten dauert, war dies der einzige vorgefertigte Teil der gesamten Demo.

Ich konnte dies nur hinter der Bühne auf einem kleinen Bildschirm verfolgen, also habe ich kein Video gesehen, aber alle Augen im grünen Raum richteten sich auf diesen Bildschirm, als die Demonstration stattfand.

Er gab das Sora-Video an ChatGPT weiter und ließ den Inhalt zusammenfassen und ein Voice-Over-Skript für das Video schreiben. Hier konnten wir ein weiteres angedeutetes OpenAI-Produkt in Aktion sehen – Voice Engine. Aus Sicherheitsgründen wurde es nur für den internen Gebrauch aufbewahrt.

(Bildnachweis: Future)

Huet konnte (in Echtzeit) eine 20-sekündige Probe seiner Stimme aufnehmen, sie von Voice Engine klonen lassen und eine perfekte Kopie erstellen. Diese wurde dann auf das Sora-Video angewendet, um ein Promo-Video zu erstellen. Es ging aber noch weiter, denn er konnte die Sprache per Mausklick schnell von Englisch auf Französisch und dann auf Japanisch ändern.

Sora und Voice Engine sind nicht öffentlich verfügbar, da sie „an Möglichkeiten arbeiten, es sicher zu veröffentlichen“.

Das Potenzial zur Erstellung von Deep Fakes und irreführenden Inhalten mithilfe dieser Tools ist sehr real, daher verstehe ich die Zurückhaltung, aber ähnliche Technologien gibt es bereits, also hoffen wir, dass sie bald veröffentlicht werden.

Siehe auch  Chatgpt prognostiziert eine 10-fache Rallye für SHIB-, DOGE-, PEPE- und WIF-Preise

Mehr von Tom's Guide

apple MacBook Air M3 (2024),Asus Zenbook S 13 OLED,Lenovo Chromebook Duet 3,Framework Laptop,Asus ROG Zephyrus G14 2023,Apple MacBook Pro 14-inch M3 (2023)“ data-widget-type=“comparison“ data-render-type=“editorial“>
Pfeil

Zurück zum MacBook Air

Pfeil

Weitere Angebote laden

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein