Am Tag nach der vielgepriesenen Ankündigung von GPT-4o durch OpenAI, seinem verbesserten „omnimodalen“ großen Sprachmodell, schlug google mit einer Flut von Upgrades seiner Gemini-KI-Angebote zurück, nutzte seine technologischen Fähigkeiten, nutzte seine Live-Suchvorteile und festigte sich Es steht dem Mindshare-Führer chatgpt gegenüber.
Aufbauend auf seinen Stärken integriert Google generative KI in sein Sucherlebnis und ermöglicht Benutzern eine natürliche Interaktion mit seiner Suchmaschine, anstatt sich auf schlüsselwortbasierte Abfragen zu verlassen. Die Keynote beinhaltete eine Demonstration einer Google-Suchanfrage zum Entfernen eines Kaffeeflecks. Anstatt lediglich Links zu Webseiten mit Anleitungen anzuzeigen, lieferte die Suchmaschine sofort eine umfassende, von KI generierte Antwort.
Diese KI-generierten Ergebnisse, die darauf ausgelegt sind, Benutzeranfragen direkt und effizient zu beantworten, werden über den Suchergebnissen angezeigt.
Während der gesamten Präsentation machte Google deutlich, dass seine Dominanz bei der Websuche einen entscheidenden Vorteil für seine KI-Initiativen darstellte, und zeigte, wie verschiedene Funktionen aktuelle Informationen nutzen können, anstatt sich wie andere Large-Language-Modelle (LLM) auf einen veralteten Schnappschuss zu verlassen.
Eine der herausragenden angekündigten Funktionen ist „Ask Photos“, die es Benutzern ermöglicht, natürliche Gespräche mit Gemini zu führen, um in ihrer Galerie nach Informationen zu suchen. Während Google Fotos es Menschen seit langem ermöglicht, ihre Bildbibliothek nach bestimmten Personen, Objekten oder Wörtern zu durchsuchen, unterstützt das KI-gestützte Update offene Abfragen in natürlicher Sprache.
Ein Google-Nutzer fragte Gemini beispielsweise nach dem Nummernschild seines Autos. Gemini hat alle seine Fotos durchgesehen, ausgewertet und die richtige Antwort gegeben.
Ein weiteres Upgrade dürfte Benutzern einer Vielzahl von KI-Meeting-Assistenten bekannt sein, darunter auch solchen, die in Online-Konferenzplattformen wie Zoom integriert sind. In Google Meet kann Gemini nun Besprechungen analysieren, zusammenfassen und Antworten auf Fragen im Chat generieren. Nach einem Meeting stellt Gemini eine Liste mit Aktionspunkten und Aufgabenzuweisungen bereit.
Die größte Neuigkeit betraf Upgrades unter der Haube. Google hat heute die Veröffentlichung von Gemini 1.5 Pro angekündigt, das über ein atemberaubendes Kontextfenster von 1 Million multimodaler Token verfügt. Diese Kapazität stellt das 128.000-Token-Limit von GPT-4 in den Schatten und ist bereits sowohl für Entwickler als auch für Verbraucher in Gemini Advanced verfügbar – der kostenpflichtigen KI-Dienstleistungsstufe des Technologieriesen.
Bild: Google
Google plant, seine Token-Verwaltungskapazität später in diesem Jahr noch weiter auszubauen und möglicherweise bis zu 2 Millionen Token für Entwickler zu erreichen, was einer Verzehnfachung gegenüber GPT-4o entspricht.
Dank der massiv erhöhten Kapazität stellte Google auch die beeindruckenden Retrieval-Fähigkeiten von Gemini unter Beweis. Dies ist ein Schlüsselmerkmal, da leistungsstarke LLMs wie Claude oder GPT-4 bisher einen Leistungsabfall zeigen – das „Vergessen“ zuvor besprochener Informationen –, wenn sie mit großen Datenmengen aufgefordert werden.
Zusätzlich zu seinen Spitzenmodellen brachte Google Gemini 1.5 Flash auf den Markt, ein kompaktes multimodales LLM, das mit Claude 3 Haiku und GPT-3.5 konkurrieren soll, wenn es darum geht, schnelle Antworten zu liefern. Seine Verarbeitungskapazität von 1 Million Token macht es jedoch zum leistungsstärksten „Light“-Modell, das bisher erhältlich ist.
Die wohl interessanteste Ankündigung war Googles Project Astra, ein universeller KI-Agent, der personalisiert und auf die Bedürfnisse jedes Benutzers zugeschnitten werden kann. Google wies darauf hin, dass die Astra-Präsentation in Echtzeit aufgezeichnet wurde, wahrscheinlich als Reaktion auf die gestrige Live-GPT-4o-Demo von OpenAI. Die Interaktion wirkte leistungsfähiger und weniger umständlich als bei GPT-4o, allerdings mit konkreteren und weniger menschenähnlichen Reaktionen.
Auch wenn die Stimme der Zwillinge im Großen und Ganzen natürlich ist, fehlt ihr das Emotionale – oder gar „flirtend” – Qualität der neuen ChatGPT-Stimme von OpenAI. Die Priorität von Google scheint die Funktionalität zu sein, während OpenAI den Schwerpunkt auf menschlichere Interaktionen legt.
Google geht über traditionelle Sprachmodelle hinaus und hat plattformübergreifende, anpassbare KI-Agenten eingeführt, die seiner Aussage nach in der Lage sind, zu argumentieren, zu planen und sich etwas einzuprägen. Diese Fähigkeiten ermöglichen es Zwillingen, sich wie eine Gruppe spezialisierter KIs zu verhalten, die zusammenarbeiten.
Diese API-basierten Verbindungen, die Google als „Gems“ bezeichnet, scheinen eine Reaktion auf die anpassbaren GPTs von OpenAI zu sein. Gems integrieren sich nahtlos in das Google-Ökosystem und bieten Funktionen wie Sprachübersetzung in Echtzeit, kontextbezogene Suche und personalisierte Empfehlungen. Benutzer können Gems so gestalten, dass sie sich auf bestimmte Aufgaben oder Themenbereiche konzentrieren, oder einen bestimmten Ton verwenden.
Bild: Google
Google kündigte außerdem neue generative KI-Modelle für Bilder, Videos und Musik an. Imagen 3, der neue Bildgenerator von Google, liefert äußerst realistische und detaillierte Bilder und steht im Kontrast zum Cartoon-Look von OpenAI. Sie behaupten auch, dass es hervorragend Text generiert, eine Funktion, die OpenAI ebenfalls verbessert haben soll.
Sie haben außerdem eine aktualisierte Version von MusicLM für Liebhaber generativer Musik auf den Markt gebracht.
Das Tüpfelchen auf dem i war Veo, ein generatives Videomodell, das vor der Veröffentlichung des vielgepriesenen, aber noch unveröffentlichten Sora-Videotools von OpenAI angekündigt wurde. Die unbearbeitete Rohausgabe lässt auf ein Qualitätsniveau schließen, das mit dem kommenden OpenAI-Eintrag vergleichbar ist. Google sagt, dass es Veo in ein paar Wochen verfügbar machen wird – ein Zeitplan, der Sora auf den Markt bringen könnte.
Gegen Ende seiner mehr als zweistündigen Keynote zeigte Google auch etwas Liebe für die Open-Source-Community und stellte Pali Gemma vor, ein Open-Source-Visionsmodell. Das Unternehmen versprach außerdem, Gemma 2 – die nächste Iteration seines Open-Source-Großsprachenmodells – im Juni auf den Markt zu bringen. Das neue Modell wird über ein erweitertes Token-Kontextfenster verfügen und leistungsfähiger und genauer sein.
Schließlich gab Google bekannt, dass es seine Suite von Gemini-basierten Funktionen erstmals auf seinem mobilen Betriebssystem Android veröffentlichen werde. Dies folgt der offensichtlichen Bevorzugung von OpenAI für Apples MacOS- und iOS-Plattformen, wo es seine neuesten Updates veröffentlichte, bevor es dies auf Windows tat, das vom Top-Investor Microsoft entwickelt wurde.