google hat damit begonnen, mit einem neuen KI-Modell namens Gemini Verständnis für Video, Audio und Fotos in seinen Bard AI-Chatbot zu integrieren. Besitzer von Google Pixel 8-Telefonen werden zu den ersten gehören, die die neuen Fähigkeiten der künstlichen Intelligenz nutzen, aber Gemini wird Anfang 2024 zu Gmail und anderen Google Workspace-Tools kommen.
Menschen in Dutzenden von Ländern erhielten erstmals Zugang dazu Zwillinge mit einem Bard-Chatbot-Update Anfang Dezember, allerdings nur auf Englisch. Es kann textbasierte Chat-Funktionen bereitstellen Laut Google verbessert es die KI-Fähigkeiten bei komplexen Aufgaben wie das Zusammenfassen von Dokumenten, Argumentieren, Planen und Schreiben von Programmiercode. Die größeren Veränderungen bei Multimedia-Fähigkeiten – zum Beispiel das Verstehen von Handgesten in einem Video oder das Ermitteln des Ergebnisses eines Punkt-zu-Punkt-Zeichenrätsels eines Kindes – werden „bald“ eintreten, sagte Google.
Schau dir das an: Erste Eindrücke von Gemini: Googles neuestes großes KI-Upgrade
Die neue Version beleuchtet das rasante Tempo des Fortschritts im neuen Bereich der generativen KI, wo Chatbots ihre eigenen Antworten auf Eingabeaufforderungen erstellen, die wir in einfacher Sprache und nicht in obskuren Programmieranweisungen verfassen. Googles größter Konkurrent OpenAI hat mit der Einführung von chatgpt vor einem Jahr den Durchbruch geschafft, aber Gemini ist Googles dritte große Überarbeitung des KI-Modells und erwartet, diese Technologie über Produkte bereitzustellen, die Milliarden von uns nutzen, wie die Suche, Chrome, Google Docs und Gmail .
Am Mittwoch stellte Google Gemini auch Programmierern vor, einer wichtigen Community von Menschen, die die Technologie in ihre eigene Software integrieren können. Dies geschieht über die einfache Google AI Studio-Weboberfläche oder die anspruchsvollere Vertex AI. Und für die Nutzung über einen kostenlosen Niedrigtarif hinaus senkte Google die Preise um den Faktor zwei bis vier. Das könnte Entwickler, die von der Programmierschnittstelle von OpenAI begeistert sind, dazu ermutigen, Gemini zumindest auszuprobieren.
Durch die Werbung für Entwickler ist es wahrscheinlicher, dass Google Gemini auf die Softwaretools überträgt, die diese Programmierer für Sie erstellen. Google baut Gemini auch in seine eigenen Dienste ein, insbesondere mit dem Duet AI-Assistenten in Gmail, Google Docs, Meet und anderen Teilen von Google Workspace.
„Duet AI für Workspace wird Anfang 2024 zu Gemini wechseln“, sagte Thomas Kurian, CEO der Google Cloud-Abteilung. Das könnte Ihnen helfen, beispielsweise eine Handzeichnung eines Flugzeugs in eine fotorealistische Version für eine Google Slides-Präsentation umzuwandeln, oder in Google Meet könnte es Ihnen helfen, eine Videokonferenz besser zu verstehen, die Folien enthält, die nicht in Ihrer Muttersprache sind. „Das multimodale Verständnis von Gemini ermöglicht es, viel umfassendere Zusammenfassungen von Besprechungen zu erstellen“, sagte er.
Zwillinge sind ein dramatischer Aufbruch für die KI. Textbasierter Chat ist wichtig, aber Menschen müssen in unserer dreidimensionalen, sich ständig verändernden Welt viel umfassendere Informationen verarbeiten. Und wir reagieren mit komplexen Kommunikationsfähigkeiten wie Sprache und Bildern, nicht nur mit geschriebenen Worten. Zwillinge sind ein Versuch, unserem eigenen umfassenderen Verständnis der Welt näher zu kommen.
Gemini gibt es in drei Versionen, die auf unterschiedliche Rechenleistungsniveaus zugeschnitten sind, sagte Google:
- Gemini Nano läuft auf Mobiltelefonen, wobei zwei Varianten für unterschiedliche Speicherkapazitäten erhältlich sind. Es wird neue Funktionen auf den Pixel 8-Telefonen von Google ermöglichen, wie das Zusammenfassen von Gesprächen in der Recorder-App oder das Vorschlagen von Nachrichtenantworten in WhatsApp, die mit Googles Gboard eingegeben werden.
- Gemini Pro ist auf schnelle Reaktionen ausgelegt, läuft in den Rechenzentren von Google und wird ab Mittwoch eine neue Version von Bard unterstützen.
- Gemini Ultra, das vorerst auf eine Testgruppe beschränkt ist, wird Anfang 2024 in einem neuen Bard Advanced-Chatbot verfügbar sein. Google lehnte es ab, Preisdetails preiszugeben, rechnet jedoch damit, für diese Top-Funktion einen Aufpreis zu zahlen.
„Wir wollten schon lange eine neue Generation von KI-Modellen entwickeln, die sich an der Art und Weise orientiert, wie Menschen die Welt verstehen und mit ihr interagieren – eine KI, die sich eher wie ein hilfsbereiter Mitarbeiter und weniger wie eine intelligente Software anfühlt“, sagte Eli Collins , Produkt-Vizepräsident der DeepMind-Abteilung von Google. „Gemini bringt uns dieser Vision einen Schritt näher.“
OpenAI liefert auch die Köpfe hinter der Copilot-KI-Technologie von Microsoft, einschließlich des neueren GPT-4-Turbo-KI-Modells, das OpenAI im November herausgebracht hat. Microsoft verfügt wie Google über wichtige Produkte wie Office und Windows, zu denen es KI-Funktionen hinzufügt.
KI wird intelligenter, aber sie ist nicht perfekt
Multimedia wird wahrscheinlich eine große Veränderung im Vergleich zu Text sein, wenn es auf den Markt kommt. Was sich jedoch nicht geändert hat, sind die grundlegenden Probleme von KI-Modellen, die durch die Erkennung von Mustern in riesigen Mengen realer Daten trainiert werden. Sie können immer komplexere Eingabeaufforderungen in immer ausgefeiltere Antworten umwandeln, aber Sie können trotzdem nicht darauf vertrauen, dass sie nicht nur eine plausible und nicht tatsächlich richtige Antwort gegeben haben. Der Chatbot von Google warnt Sie, wenn Sie ihn verwenden: „Bard zeigt möglicherweise ungenaue Informationen an, auch über Personen. Überprüfen Sie daher seine Antworten noch einmal.“
Gemini ist die nächste Generation des großen Sprachmodells von Google, eine Fortsetzung von PaLM und PaLM 2, die bisher die Grundlage von Bard bildeten. Indem Gemini jedoch gleichzeitig Text, Programmiercode, Bilder, Audio und Video trainiert, ist es in der Lage, Multimedia-Eingaben effizienter zu bewältigen als mit separaten, aber miteinander verbundenen KI-Modellen für jeden Eingabemodus.
Beispiele für die Fähigkeiten von Zwillingen, laut a Google-Forschungspapier (PDF), sind vielfältig.
Betrachtet man eine Reihe von Formen, die aus einem Dreieck, einem Quadrat und einem Fünfeck bestehen, kann man richtig vermuten, dass die nächste Form in der Reihe ein Sechseck ist. Mit Fotos des Mondes und einer Hand, die einen Golfball hält, präsentiert und gebeten, den Link zu finden, wird richtig darauf hingewiesen, dass Apollo-Astronauten 1971 zwei Golfbälle auf dem Mond schlugen. Es wurden vier Balkendiagramme umgewandelt, die die Abfallentsorgung in den einzelnen Ländern zeigen Techniken in eine beschriftete Tabelle eingefügt und einen ungewöhnlichen Datenpunkt entdeckt, nämlich, dass die USA viel mehr Plastik auf die Müllkippe werfen als andere Regionen.
Das Unternehmen zeigte Gemini auch, wie er eine handschriftliche Physikaufgabe bearbeitete, bei der es um eine einfache Skizze ging, wie er herausfand, wo der Fehler eines Schülers lag, und eine Korrektur erläuterte. Ein etwas aufwändigeres Demovideo zeigte, wie Gemini eine blaue Ente, Handpuppen, Taschenspielertricks und andere Videos erkennt. Keine der Demos war jedoch live und es ist nicht klar, wie oft Gemini solche Herausforderungen meistert.
War das Gemini-Video von Google ein Fake?
Google hat Gemini in einem Demonstrationsvideo angepriesen Es soll gezeigt werden, wie es Handgesten erkennt, Zaubertricks befolgt und Bilder von Planeten nach der Entfernung der Planeten von der Sonne ordnet – alles anhand visueller Daten. Sie sollten dies jedoch als eine Dramatisierung der wahren Fähigkeiten der Zwillinge betrachten.
Es ist nicht ungewöhnlich, dass Werbevideos Produkte glamouröser erscheinen lassen, als sie tatsächlich sind. In diesem Fall könnte man meinen, dass Gemini Videoeingabedaten und gesprochene Anweisungen verarbeitet. Google hat einiges Kleingedrucktes eingefügt: einen Haftungsausschluss im Video, auf den Gemini nicht so schnell reagiert, und einen Link in der Videobeschreibung zu einer Diskussion darüber wie die Gemini-Demo von Google tatsächlich funktionierte. Möglicherweise ist Ihnen davon aber nichts aufgefallen. Google hat auch einen Beitrag auf X, ehemals Twitter, veröffentlicht, der dies zeigt wie schnell Zwillinge tatsächlich reagieren.
Dennoch stellt das Video die Fähigkeiten von Gemini nicht grundlegend falsch dar, obwohl Außenstehende es im Allgemeinen nicht testen konnten. Es kann Sprach- und Videoeingaben akzeptieren.
Gemini Ultra kommt im Jahr 2024
Gemini Ultra wartet auf weitere Tests, bevor es nächstes Jahr erscheint.
Für Gemini Ultra ist „Red Teaming“ im Gange, bei dem ein Produkthersteller Leute anwirbt, um Sicherheitslücken und andere Probleme zu finden. Bei Multimedia-Eingabedaten sind solche Tests aufwändiger. Beispielsweise könnten eine Textnachricht und ein Foto jeweils für sich genommen harmlos sein, in Kombination jedoch eine völlig unterschiedliche Bedeutung vermitteln.
„Wir gehen diese Arbeit mutig und verantwortungsbewusst an“, sagte Google-CEO sagte Sundar Pichai in einem Blogbeitrag. Das bedeutet eine Kombination aus ehrgeiziger Forschung mit großem Gewinnpotenzial, aber auch der Einführung von Schutzmaßnahmen und der Zusammenarbeit mit Regierungen und anderen, „um Risiken anzugehen, wenn die KI leistungsfähiger wird“.
Anmerkung der Redaktion: CNET verwendet eine KI-Engine, um bei der Erstellung einiger Geschichten zu helfen. Weitere Informationen finden Sie in diesem Beitrag.