google hat auf seiner Entwicklerkonferenz seine neuen KI-Funktionen vorgestellt. Auf der Speisekarte: Videogenerierung, aber auch ein Tool für Musiker.
Es ist an Google, seine großen KI-Ankündigungen zu machen. Obwohl OpenAI dem amerikanischen Riesen den Boden unter den Füßen wegzog, indem es an diesem Montag, dem 13. Mai, die neuen Funktionen von chatgpt vorstellte, widmete sein Konkurrent diesem Thema dennoch einen Großteil seiner Google I/O-Konferenz, die den Entwicklern gewidmet war. Hier erfahren Sie, was Sie bei den Ankündigungen beachten sollten.
· Gemini 1.5 Flash: ein leichteres und schnelleres Modell
Das im vergangenen Dezember angekündigte Google-eigene KI-Tool Gemini 1.5 erhält ein neues Gesicht. Gäbe es drei Modelle (Ultra, Pro und Nano), gibt es hier ein viertes namens Flash.
Gemini 1.5 Flash ist hauptsächlich für Unternehmen gedacht, die es als Schnittstelle nutzen können. Es soll leichter als die Pro-Version sein, aber auch effizienter für bestimmte Aufgaben wie Dokumentensynthese oder Datenextraktion. Eine Möglichkeit für Google, ein günstigeres Modell anzubieten.
· Gemini 1.5 Pro: ein leistungsstarkes und effizienteres Modell
Das Star-Modell von Google wird effizienter. „1.5 Pro kann jetzt immer komplexeren und differenzierteren Anweisungen folgen“, versichert Google, das das Verständnis von Audio und Bildern hinzugefügt hat. Eine Möglichkeit, näher an die neuesten Versionen von ChatGPT heranzukommen, auch wenn es noch etwas früh ist, um zu wissen, wer die Nase vorn hat.
Als konkretes Beispiel nennt Google die Möglichkeit, Verträge mit Gemini 1.5 Pro analysieren zu lassen, um der Maschine Fragen zu stellen und sie so besser zu verstehen.
· Projekt Astra: die Zukunft des Konversationsagenten
Wie reagiert man auf OpenAI? Google hat ein „Astra-Projekt“ erwähnt, das als „die Zukunft der KI-Assistenten“ dargestellt wird.
„Um wirklich nützlich zu sein, muss ein Agent eine komplexe und dynamische Welt verstehen und darauf reagieren, genau wie Menschen, und sich das, was er sieht und hört, merken und merken, um den Kontext zu verstehen und zu handeln“, erklärt Google, das auch die Latenz reduzieren möchte der Antwort. „Einige der Funktionen werden noch in diesem Jahr für Google-Produkte verfügbar sein, beispielsweise für die Gemini-App.“
In der Zwischenzeit wird Google noch in diesem Jahr Gemini Live für Abonnenten starten. „Mit Gemini Live können Sie mit Gemini sprechen und aus einer Vielzahl natürlich klingender Stimmen wählen, mit denen er antworten kann“, betont Google. „Sie können sogar in Ihrem eigenen Tempo sprechen oder eine Antwort mitten im Satz mit klärenden Fragen unterbrechen, so wie Sie es in jedem Gespräch tun würden.“
Google gibt ein Beispiel: Gemini kann Ihnen zuhören und Ihnen bei der Vorbereitung auf ein Vorstellungsgespräch helfen.
· Veo: Bald KI-Videos auf Youtube?
Wie Sora stellte Google Veo vor, seinen Videogenerator aus Text. Mit diesem neuen Modell können „Videos mit einer Auflösung von 1080p, die länger als eine Minute dauern können, in einer breiten Palette filmischer und visueller Stile“ erstellt werden, sagt Google. Offensichtlich verspricht der Konzern, dass diese KI den Künstlern „helfen“ wird.
Veo wird derzeit von bestimmten Videofilmern getestet, während einige seiner Möglichkeiten in Youtube Shorts integriert werden sollen. Google hat außerdem eine neue Version seines Imagen-Bildgenerators und seines Lyria-Musikgenerators angekündigt.