google hat mit einem neuen Modell namens Gemini damit begonnen, ein natives Verständnis von Video, Audio und Fotos in seinen Bard AI-Chatbot zu integrieren. Besitzer eines Google Pixel 8-Telefons werden zu den Ersten gehören, die die neuen Fähigkeiten der künstlichen Intelligenz nutzen.
Die ersten Versionen der neuen Technologie kamen am Mittwoch in Dutzenden Ländern an Gemini-Update von Google Bard, aber nur auf Englisch. Es kann textbasierte Chat-Funktionen bereitstellen Laut Google verbessert es die KI-Fähigkeiten bei komplexen Aufgaben wie das Zusammenfassen von Dokumenten, das Argumentieren und das Schreiben von Programmiercode. Die größeren Veränderungen bei Multimedia-Fähigkeiten – zum Beispiel das Verstehen von Handgesten in einem Video oder das Ermitteln des Ergebnisses eines Punkt-zu-Punkt-Zeichenrätsels eines Kindes – werden „bald“ eintreten, sagte Google.
Schau dir das an: Erste Eindrücke von Gemini: Googles neuestes großes KI-Upgrade
Zwillinge sind ein dramatischer Aufbruch für die KI. Textbasierter Chat ist wichtig, aber Menschen müssen in unserer dreidimensionalen, sich ständig verändernden Welt viel umfassendere Informationen verarbeiten. Und wir reagieren mit komplexen Kommunikationsfähigkeiten wie Sprache und Bildern, nicht nur mit geschriebenen Worten. Zwillinge sind ein Versuch, unserem eigenen umfassenderen Verständnis der Welt näher zu kommen.
Gemini gibt es in drei Versionen, die auf unterschiedliche Rechenleistungsniveaus zugeschnitten sind, sagte Google:
- Gemini Nano läuft auf Mobiltelefonen, wobei zwei Varianten für unterschiedliche Speicherkapazitäten erhältlich sind. Es wird neue Funktionen auf den Pixel 8-Telefonen von Google ermöglichen, wie das Zusammenfassen von Gesprächen in der Recorder-App oder das Vorschlagen von Nachrichtenantworten in WhatsApp, die mit Googles Gboard eingegeben werden.
- Gemini Pro ist auf schnelle Reaktionen ausgelegt, läuft in den Rechenzentren von Google und wird ab Mittwoch eine neue Version von Bard unterstützen.
- Gemini Ultra, das vorerst auf eine Testgruppe beschränkt ist, wird Anfang 2024 in einem neuen Bard Advanced-Chatbot verfügbar sein. Google lehnte es ab, Preisdetails preiszugeben, rechnet jedoch damit, für diese Top-Funktion einen Aufpreis zu zahlen.
Die neue Version beleuchtet das rasante Tempo des Fortschritts im neuen Bereich der generativen KI, wo Chatbots ihre eigenen Antworten auf Eingabeaufforderungen erstellen, die wir in einfacher Sprache und nicht in obskuren Programmieranweisungen verfassen. Googles größter Konkurrent OpenAI hat mit der Einführung von chatgpt vor einem Jahr den Durchbruch geschafft, aber Google befindet sich bereits in der dritten großen Überarbeitung seines KI-Modells und erwartet, diese Technologie über Produkte bereitzustellen, die Milliarden von uns nutzen, wie die Suche, Chrome und Google Docs und Google Mail.
„Schon seit langem wollten wir eine neue Generation von KI-Modellen entwickeln, die sich an der Art und Weise orientiert, wie Menschen die Welt verstehen und mit ihr interagieren – eine KI, die sich eher wie ein hilfsbereiter Mitarbeiter und weniger wie eine intelligente Software anfühlt“, sagte Eli Collins , Produkt-Vizepräsident der DeepMind-Abteilung von Google. „Gemini bringt uns dieser Vision einen Schritt näher.“
OpenAI liefert auch die Köpfe hinter der Copilot-KI-Technologie von Microsoft, einschließlich des neueren GPT-4-Turbo-KI-Modells, das OpenAI im November herausgebracht hat. Microsoft verfügt wie Google über wichtige Produkte wie Office und Windows, zu denen es KI-Funktionen hinzufügt.
KI wird intelligenter, aber sie ist nicht perfekt
Multimedia wird wahrscheinlich eine große Veränderung im Vergleich zu Text sein, wenn es auf den Markt kommt. Was sich jedoch nicht geändert hat, sind die grundlegenden Probleme von KI-Modellen, die durch die Erkennung von Mustern in riesigen Mengen realer Daten trainiert werden. Sie können immer komplexere Eingabeaufforderungen in immer ausgefeiltere Antworten umwandeln, aber Sie können trotzdem nicht darauf vertrauen, dass sie nicht nur eine plausible und nicht tatsächlich richtige Antwort gegeben haben. Der Chatbot von Google warnt Sie, wenn Sie ihn verwenden: „Bard zeigt möglicherweise ungenaue Informationen an, auch über Personen. Überprüfen Sie daher seine Antworten noch einmal.“
Gemini ist die nächste Generation des großen Sprachmodells von Google, eine Fortsetzung von PaLM und PaLM 2, die bisher die Grundlage von Bard bildeten. Indem Gemini jedoch gleichzeitig Text, Programmiercode, Bilder, Audio und Video trainiert, ist es in der Lage, Multimedia-Eingaben effizienter zu bewältigen als mit separaten, aber miteinander verbundenen KI-Modellen für jeden Eingabemodus.
Beispiele für die Fähigkeiten von Zwillingen, laut a Google-Forschungspapier (PDF), sind vielfältig.
Betrachtet man eine Reihe von Formen, die aus einem Dreieck, einem Quadrat und einem Fünfeck bestehen, kann man richtig vermuten, dass die nächste Form in der Reihe ein Sechseck ist. Mit Fotos des Mondes und einer Hand, die einen Golfball hält, präsentiert und gebeten, den Link zu finden, wird richtig darauf hingewiesen, dass Apollo-Astronauten 1971 zwei Golfbälle auf dem Mond schlugen. Es wurden vier Balkendiagramme umgewandelt, die die Abfallentsorgung in den einzelnen Ländern zeigen Techniken in eine beschriftete Tabelle eingefügt und einen ungewöhnlichen Datenpunkt entdeckt, nämlich, dass die USA viel mehr Plastik auf die Müllkippe werfen als andere Regionen.
Das Unternehmen zeigte Gemini auch, wie er eine handschriftliche Physikaufgabe bearbeitete, bei der es um eine einfache Skizze ging, wie er herausfand, wo der Fehler eines Schülers lag, und eine Korrektur erläuterte. Ein etwas aufwändigeres Demovideo zeigte, wie Gemini eine blaue Ente, Handpuppen, Taschenspielertricks und andere Videos erkennt. Keine der Demos war jedoch live und es ist nicht klar, wie oft Gemini solche Herausforderungen meistert.
War das Gemini-Video von Google ein Fake?
Google hat Gemini in einem Demonstrationsvideo angepriesen Es soll gezeigt werden, wie es Handgesten erkennt, Zaubertricks befolgt und Bilder von Planeten nach ihrer Entfernung von der Sonne ordnet – alles anhand visueller Daten. Sie sollten dies jedoch als eine Dramatisierung der wahren Fähigkeiten der Zwillinge betrachten.
Es ist nicht ungewöhnlich, dass Werbevideos Produkte glamouröser erscheinen lassen, als sie tatsächlich sind. In diesem Fall könnte man meinen, dass Gemini Videoeingabedaten und gesprochene Anweisungen verarbeitet. Google hat etwas Kleingedrucktes eingefügt – einen Haftungsausschluss im Video, auf den Gemini nicht so schnell reagiert, und einen Link in der Videobeschreibung zu einer Beschreibung davon wie die Gemini-Demo von Google tatsächlich funktionierte. Möglicherweise ist Ihnen davon aber nichts aufgefallen. Es folgte auch ein Beitrag auf X, ehemals Twitter, der das zeigt wie schnell Zwillinge tatsächlich reagieren.
Grundsätzlich stellt das Video die Fähigkeiten von Gemini jedoch nicht falsch dar, obwohl Außenstehende es im Allgemeinen nicht testen konnten. Es kann Sprach- und Videoeingaben akzeptieren.
Gemini Ultra kommt im Jahr 2024
Gemini Ultra wartet auf weitere Tests, bevor es nächstes Jahr erscheint.
Für Gemini Ultra ist „Red Teaming“ im Gange, bei dem ein Produkthersteller Leute anwirbt, um Sicherheitslücken und andere Probleme zu finden. Bei Multimedia-Eingabedaten sind solche Tests aufwändiger. Beispielsweise könnten eine Textnachricht und ein Foto jeweils für sich genommen harmlos sein, in Kombination jedoch eine völlig unterschiedliche Bedeutung vermitteln.
„Wir gehen diese Arbeit mutig und verantwortungsbewusst an“, sagte Google-CEO sagte Sundar Pichai in einem Blogbeitrag. Das bedeutet eine Kombination aus ehrgeiziger Forschung mit großem Gewinnpotenzial, aber auch der Einführung von Schutzmaßnahmen und der Zusammenarbeit mit Regierungen und anderen, „um Risiken anzugehen, wenn die KI leistungsfähiger wird“.
Anmerkung der Redaktion: CNET verwendet eine KI-Engine, um bei der Erstellung einiger Geschichten zu helfen. Weitere Informationen finden Sie in diesem Beitrag.