OpenAI hat apple beim Livestream zum Frühlingsupdate gestern Abend in den Schatten gestellt. Dies geschah im Hinblick auf den Hype vor der Veranstaltung und die überwältigend positive Reaktion auf die vom Team angekündigten Produkte. Wie CEO Sam Altman sagte: „Es fühlt sich an wie Magie.“
Die größte Ankündigung war das Modell GTP-4o, das chatgpt sowohl für kostenpflichtige als auch für kostenlose Benutzer unterstützen wird. Im Gegensatz zu großen Sprachmodellen handelt es sich hierbei um ein omnimodales Modell, das alles von Text bis Video aufnehmen und Sprache, Text und sogar 3D-Dateien ausgeben kann.
Früher sprachen wir über den iphone-Moment, als Steve Jobs die Mobilfunkbranche für immer veränderte, und im November 2022 begannen wir dann, über den ChatGPT-Moment zu sprechen. Dies war ein weiteres branchendefinierendes Produkt und ich denke, OpenAI hat es erneut geschafft.
Ich habe in meiner mehr als 20-jährigen Karriere über viele Produktankündigungen berichtet und dies ist das Aufregendste, was ich je erlebt habe, um ein neues Produkt auszuprobieren. Glaubt man Altman, ist dies erst der Anfang.
Warum ist GPT-4o so eine große Sache?
GPT-4o (oder das Omni-Modell) bietet eine neue Möglichkeit, mit Informationen zu interagieren. Anstatt zu tippen, können Sie einfach ein Gespräch führen oder ihm ein Video zeigen und erhalten ohne Verzögerung eine Sprachantwort.
Diese Antwort wird nicht die leicht monotone Stimme anderer Assistenten oder die falschen Tonarten der vorherigen Generation von ChatGPT Voice sein – es ist eine natürlich klingende Stimme mit Lachen, Emotionen und Tonarten, die in Echtzeit auf Ihr Gespräch reagiert.
Die vollständigen multimodalen Funktionen mit der Möglichkeit, mithilfe von Speech-to-Speech auf natürliche Weise zu sprechen, werden noch langsam eingeführt, aber selbst die Chat-Version – die Konversation in Text und Bildern – ist schneller und reaktionsschneller als ihre Vorgänger.
Altmann schrieb in seinem Blog: „Mit einem Computer zu sprechen hat sich für mich nie wirklich natürlich angefühlt; Jetzt ist es so. Wenn wir (optionale) Personalisierung, Zugriff auf Ihre Informationen, die Möglichkeit, in Ihrem Namen Maßnahmen zu ergreifen und mehr, hinzufügen, sehe ich wirklich eine aufregende Zukunft, in der wir Computer für viel mehr Aufgaben als je zuvor nutzen können.“
Wie könnte diese Zukunft aussehen?
Eines Tages, und wahrscheinlich nicht so weit entfernt, wie viele Leute denken, wird diese Technologie Roboter antreiben, die mit uns arbeiten oder uns in unseren Häusern dienen.
Dabei handelt es sich um Roboter, mit denen wir uns wie mit einem Freund unterhalten können und die wir bitten können, komplexe Aufgaben zu erledigen und dafür zu sorgen, dass sie sowohl verstehen als auch reagieren.
Jemand wird sich in GPT-4o verlieben.
Selbst kurzfristig, wenn OpenAI iPad-, iPhone- und Laptop-Apps für ChatGPT mit Sprach- und Bildfunktionen einführt, werden wir erleben, wie OpenAI die Rolle eines Tutors, Codierungsassistenten, Finanzberaters und Fitnesstrainers übernimmt – und dies ohne Urteilsvermögen.
Was wir erleben – und andere Unternehmen werden aufholen – ist der Beginn einer neuen Ära in der Mensch-Computer-Schnittstellentechnologie.
Omni-Modelle erfordern nicht, dass die KI zunächst das, was Sie sagen, in Text umwandelt, den Text analysiert und ihn dann wieder in Sprache umwandelt – sie verstehen, was wir sagen, nativ, indem sie den Ton, den Tonfall unserer Stimme und sogar Live-Video-Feeds analysieren.
Der kleine schwarze Punkt, mit dem man spricht und der zurückspricht, ist ein ebenso großer Paradigmenwechsel beim Zugang zu Informationen wie die erste Druckmaschine, die Schreibmaschine, der Personal Computer, das Internet oder sogar das Smartphone.