google hat mit einem neuen Modell namens Gemini damit begonnen, ein natives Verständnis von Video, Audio und Fotos in seinen Bard AI-Chatbot zu integrieren. Besitzer eines Google Pixel 8-Telefons werden zu den Ersten gehören, die die neuen Fähigkeiten der künstlichen Intelligenz nutzen.

Die ersten Versionen der neuen Technologie kamen am Mittwoch in Dutzenden Ländern an Gemini-Update von Google Bard, aber nur auf Englisch. Es kann textbasierte Chat-Funktionen bereitstellen Google sagt, dass es die A-Fähigkeiten bei komplexen Aufgaben verbessert wie das Zusammenfassen von Dokumenten, das Argumentieren und das Schreiben von Programmiercode. Die größeren Veränderungen bei Multimedia-Fähigkeiten, zum Beispiel das Verstehen von Handgesten in einem Video oder das Herausfinden des Ergebnisses eines Punkt-zu-Punkt-Zeichenrätsels eines Kindes, werden „bald“ eintreten, sagte Google.

Zwillinge sind ein dramatischer Aufbruch für die KI. Textbasierter Chat ist wichtig, aber Menschen müssen in unserer dreidimensionalen, sich ständig verändernden Welt viel umfassendere Informationen verarbeiten. Und wir reagieren mit komplexen Kommunikationsfähigkeiten wie Sprache und Bildern, nicht nur mit geschriebenen Worten. Zwillinge sind ein Versuch, unserem eigenen umfassenderen Verständnis der Welt näher zu kommen.

Gemini gibt es in drei Versionen, die auf unterschiedliche Rechenleistungsniveaus zugeschnitten sind, sagte Google:

  • Gemini Nano läuft auf Mobiltelefonen, wobei zwei Varianten für unterschiedliche Speicherkapazitäten erhältlich sind. Es wird neue Funktionen auf den Pixel 8-Telefonen von Google ermöglichen, wie das Zusammenfassen von Gesprächen in der Recorder-App oder das Vorschlagen von Nachrichtenantworten in WhatsApp, die mit Googles Gboard eingegeben werden.
  • Gemini Pro ist auf schnelle Reaktionen ausgelegt, läuft in den Rechenzentren von Google und wird ab Mittwoch eine neue Version von Bard unterstützen.
  • Gemini Ultra, das vorerst auf eine Testgruppe beschränkt ist, wird Anfang 2024 in einem neuen Bard Advanced-Chatbot verfügbar sein. Google lehnte es ab, Preisdetails preiszugeben, rechnet jedoch damit, für diese Top-Funktion einen Aufpreis zu zahlen.
Siehe auch  Top 10 Berufe, die ChatGPT nutzen – ChatGPT auf vc.ru

Die neue Version beleuchtet das rasante Tempo des Fortschritts im neuen Bereich der generativen KI, wo Chatbots ihre eigenen Antworten auf Eingabeaufforderungen erstellen, die wir in einfacher Sprache und nicht in obskuren Programmieranweisungen verfassen. Googles größter Konkurrent OpenAI hat mit der Einführung von chatgpt vor einem Jahr den Durchbruch geschafft, aber Google befindet sich bereits in der dritten großen Überarbeitung seines KI-Modells und erwartet, diese Technologie über Produkte bereitzustellen, die Milliarden von uns nutzen, wie die Suche, Chrome und Google Docs und Google Mail.

„Schon seit langem wollten wir eine neue Generation von KI-Modellen entwickeln, die sich an der Art und Weise orientiert, wie Menschen die Welt verstehen und mit ihr interagieren – eine KI, die sich eher wie ein hilfsbereiter Mitarbeiter und weniger wie eine intelligente Software anfühlt“, sagte Eli Collins , Produkt-Vizepräsident der DeepMind-Abteilung von Google. „Gemini bringt uns dieser Vision einen Schritt näher.“

OpenAI liefert auch die Köpfe hinter der Copilot-KI-Technologie von Microsoft, einschließlich des neueren GPT-4-Turbo-KI-Modells, das OpenAI im November herausgebracht hat. Microsoft verfügt wie Google über wichtige Produkte wie Office und Windows, zu denen es KI-Funktionen hinzufügt.

KI wird intelligenter, aber sie ist nicht perfekt

Multimedia wird wahrscheinlich eine große Veränderung im Vergleich zu Text sein, wenn es auf den Markt kommt. Was sich jedoch nicht geändert hat, sind die grundlegenden Probleme von KI-Modellen, die durch die Erkennung von Mustern in riesigen Mengen realer Daten trainiert werden. Sie können immer komplexere Eingabeaufforderungen in immer ausgefeiltere Antworten umwandeln, aber Sie können trotzdem nicht darauf vertrauen, dass sie nicht nur eine plausible und nicht tatsächlich richtige Antwort gegeben haben. Der Chatbot von Google warnt Sie, wenn Sie ihn verwenden: „Bard zeigt möglicherweise ungenaue Informationen an, auch über Personen. Überprüfen Sie daher seine Antworten noch einmal.“

Siehe auch  8 ChatGPT-Aufforderungen zur Erstellung Ihrer Geschäftsstrategie für 2024

Gemini ist die nächste Generation des großen Sprachmodells von Google, eine Fortsetzung von PaLM und PaLM 2, die bisher die Grundlage von Bard bildeten. Indem Gemini jedoch gleichzeitig Text, Programmiercode, Bilder, Audio und Video trainiert, ist es in der Lage, Multimedia-Eingaben effizienter zu bewältigen als mit separaten, aber miteinander verbundenen KI-Modellen für jeden Eingabemodus.

Beispiele für die Fähigkeiten von Zwillingen, laut a Google-Forschungspapiersind vielfältig.

Betrachtet man eine Reihe von Formen, die aus einem Dreieck, einem Quadrat und einem Fünfeck bestehen, kann man richtig vermuten, dass die nächste Form in der Reihe ein Sechseck ist. Mit Fotos des Mondes und einer Hand, die einen Golfball hält, präsentiert und gebeten, den Link zu finden, wird richtig darauf hingewiesen, dass Apollo-Astronauten 1971 zwei Golfbälle auf dem Mond schlugen. Es wurden vier Balkendiagramme umgewandelt, die die Abfallentsorgung in den einzelnen Ländern zeigen Techniken in eine beschriftete Tabelle eingefügt und einen ungewöhnlichen Datenpunkt entdeckt, nämlich, dass die USA viel mehr Plastik auf die Müllkippe werfen als andere Regionen.

Das Unternehmen zeigte Gemini auch, wie er eine handschriftliche Physikaufgabe bearbeitete, bei der es um eine einfache Skizze ging, wie er herausfand, wo der Fehler eines Schülers lag, und eine Korrektur erläuterte. Ein etwas aufwändigeres Demovideo zeigte, wie Gemini eine blaue Ente, Handpuppen, Taschenspielertricks und andere Videos erkennt. Keine der Demos war jedoch live und es ist nicht klar, wie oft Gemini solche Herausforderungen meistert.

Gemini Ultra wartet auf weitere Tests, bevor es nächstes Jahr erscheint.

Für Gemini Ultra ist „Red Teaming“ im Gange, bei dem ein Produkthersteller Leute anwirbt, um Sicherheitslücken und andere Probleme zu finden. Bei Multimedia-Eingabedaten sind solche Tests aufwändiger. Beispielsweise könnten eine Textnachricht und ein Foto jeweils für sich genommen harmlos sein, in Kombination jedoch eine völlig unterschiedliche Bedeutung vermitteln.

Siehe auch  Enthüllung der enormen Vorzüge des „Vaters“ von ChatGPT

„Wir gehen diese Arbeit mutig und verantwortungsbewusst an“, sagte Google-CEO sagte Sundar Pichai in einem Blogbeitrag. Das bedeutet eine Kombination aus ehrgeiziger Forschung mit großem Gewinnpotenzial, aber auch der Einführung von Schutzmaßnahmen und der Zusammenarbeit mit Regierungen und anderen, „um Risiken anzugehen, wenn die KI leistungsfähiger wird“.

Anmerkung der Redaktion: CNET verwendet eine KI-Engine, um bei der Erstellung einiger Geschichten zu helfen. Weitere Informationen finden Sie in diesem Beitrag.

5/5 - (297 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein