google hat am Dienstag auf seiner Google I/O-Veranstaltung ein neues Produkt für künstliche Intelligenz vorgestellt: Gemini Live. Wir gingen alle davon aus, dass der Gemini-Assistent in Android genau das tun sollte, aber das ist Google und alles ist möglich.
Wenn es nicht nur einen Tag nach OpenAIs erstem Verbraucherprodukt-Event wäre, würde ich darüber nachdenken, ob Gemini Live gestartet wurde, um chatgpt Voice zu übernehmen. Beide basieren auf nativen multimodalen KI-Modellen und verfügen über beeindruckende Sprach- und Videofunktionen.
Derzeit scheinen im weltweiten KI-Wettbewerb OpenAI und Google die Spitzenreiter zu sein, wobei Ersterer sich scheinbar an apple und das iphone anschmiegt und Letzterer die Kontrolle über Android hat. Vergessen Sie KI-Geräte wie den Rabbit r1 oder den Humane Pin – der kurzfristige Gewinner ist das Smartphone.
Sowohl ChatGPT Voice als auch Gemini Live werden in ein bestehendes KI-Produkt integriert und keines von beiden ist heute verfügbar – aber wie können sich diese Assistenten der nächsten Generation sonst vergleichen?
Wie vergleichen sich Gemini Live und ChatGPT 4o?
Diesen Sommer erweitern wir die multimodalen Funktionen von Gemini – einschließlich der Möglichkeit, mit Ihrer Stimme ein ausführliches wechselseitiges Gespräch zu führen. Dieses neue Erlebnis heißt Live. #GoogleIO pic.twitter.com/eAZbaO5WKz14. Mai 2024
Google ist ein wenig im Rückstand, wenn es um Glaubwürdigkeit geht, insbesondere wenn es darum geht, Live-Videoanalysen und Sprachfunktionen zur Schau zu stellen. Als es letztes Jahr Gemini Ultra ankündigte, tat es dies mit einem Video, das auf Echtzeitvideos reagierte – nur dass es weder Echtzeit noch Video war.
Diesmal legten sie jedoch Wert darauf, die Technologie, zumindest den zugrunde liegenden „Project Astra“-Aspekt, einschließlich Sprach- und Videokonversation, zum Ausprobieren auf der I/O zur Verfügung zu stellen.
Beide bieten eine Konversations-Sprachschnittstelle in natürlicher Sprache, beide bieten die Möglichkeit einer Live-Videoanalyse über eine Smartphone-Kamera und beide scheinen schnell genug für ein wirklich natürliches Gespräch zu sein, bei dem Sie die KI mitten im Gespräch unterbrechen können.
Es gibt jedoch einige bemerkenswerte Unterschiede. Die ChatGPT-Sprache von OpenAI klingt natürlicher, kann Emotionen und Stimmtöne erkennen und darauf reagieren und sich sogar in Echtzeit daran anpassen, wie Sie sie zum Sprechen auffordern. Ich habe bei Gemini Live keine Beweise für diese Fähigkeit gesehen.
Der andere große Unterschied besteht in der Multimodalität. Gemini verlässt sich bei der Ausgabe immer noch auf andere Modelle, einschließlich der Verwendung von Imagen 3 für Bilder und Veo für Videos. GPT-4o ist von Haus aus multimodal in beide Richtungen – das o steht für Omni oder in alle Richtungen. Es erzeugt seine eigenen Bilder und Töne.
Gemini Live vs GPT-4o: Die Zukunft der Sprachassistenten
Die Welt scheint sich in Richtung Spracheingabe und weg von der Texteingabe zu bewegen. Als ich mir die OpenAI-Ankündigung zum ersten Mal ansah, war meine Reaktion, dass es sich um einen Paradigmenwechsel in der Mensch-Computer-Schnittstelle handelt, der so groß ist wie die Einführung der Maus oder des Touchscreens.
Ich vertrete immer noch diese Ansicht und die Tatsache, dass Google auch eine native, natürlich klingende Sprachschnittstelle auf den Markt bringt, untermauert dies noch weiter. Sogar Meta verfügt über MetaAI, einen Sprachbot, der in seinen VR-Headsets und den Ray-Ban-Datenbrillen verfügbar ist.
Während das Smartphone vorerst der Gewinner sein könnte, ist klar, dass der eigentliche Formfaktor dieser Sprach-KI-Modelle eine intelligente Brille ist. Erhältlich mit Kameras auf Augenhöhe und Armen, die Schallwellen in Ihre Ohren senden – sie sind das perfekte KI-Gerät.
Die Frage ist, ob OpenAI in die Hardware vordringt und eine eigene Smart-Brille auf den Markt bringt oder ob es sich dabei um die neue Siri handelt, die ein zukünftiges Apple-Brillenprodukt antreiben wird. Und ob Google wirklich mutig genug ist, Google Glass wiederzubeleben.
Mehr von Tom's Guide