google DeepMind hat einen Konkurrenten zu chatgpt namens Gemini herausgebracht, der mehrere Arten von Medien verstehen und generieren kann, darunter Bilder, Videos, Audio und Text.
Die meisten Tools für künstliche Intelligenz (KI) verstehen und generieren nur eine Art von Inhalten. Beispielsweise „liest“ und erstellt ChatGPT von OpenAI nur Text. Aber Gemini kann mehrere Arten von Ausgaben basierend auf jeder Form von Eingaben generieren, sagte Google in einem Blogeintrag.
Die drei Versionen von Gemini 1.0 sind Gemini Ultra, die größte Version, Gemini Pro, die in die digitalen Dienste von Google eingeführt wird, und Gemini Nano, das für die Verwendung auf Geräten wie Smartphones konzipiert ist.
Laut DeepMind technischer Bericht Auf dem Chatbot schlug Gemini Ultra GPT-4 und andere führende KI-Modelle in 30 von 32 wichtigen akademischen Benchmarks, die in der KI-Forschung und -Entwicklung verwendet werden. Dazu gehören Abiturprüfungen sowie Tests zu Moral und Recht.
Konkret siegte Gemini bei neun Bildverständnis-Benchmarks, sechs Video-Verständnistests, fünf bei Spracherkennung und Übersetzung sowie zehn von zwölf Text- und Argumentations-Benchmarks. Die beiden Fälle, in denen Gemini Ulta GPT-4 nicht schlagen konnte, beruhten dem Bericht zufolge auf vernünftigen Überlegungen.
Verwandt: KI verändert jeden Aspekt der Wissenschaft. Hier ist wie.
Das Erstellen von Modellen, die mehrere Medienformen verarbeiten, ist schwierig, da Verzerrungen in den Trainingsdaten wahrscheinlich verstärkt werden, die Leistung tendenziell deutlich abnimmt und Modelle dazu neigen, sich zu überanpassen – was bedeutet, dass sie beim Testen mit den Trainingsdaten eine gute Leistung erbringen, aber keine Leistung erbringen können wenn es neuem Input ausgesetzt wird.
Multimodales Training umfasst normalerweise auch das separate Training verschiedener Komponenten eines Modells, jede auf einem einzigen Mediumtyp, und das anschließende Zusammenfügen dieser Komponenten. Aber Gemini wurde gleichzeitig auf Text-, Bild-, Audio- und Videodaten trainiert. Wissenschaftler bezogen diese Daten aus Webdokumenten, Büchern und Code.
Wissenschaftler trainierten Gemini, indem sie die Trainingsdaten kuratierten und menschliche Aufsicht in den Feedbackprozess einbezog.
Das Team stellte Server in mehreren Rechenzentren in einem viel größeren Umfang bereit als bei früheren KI-Trainingsbemühungen und verließ sich auf Tausende von Googles KI-Beschleunigerchips – sogenannte Tensor Processing Units (TPUs).
DeepMind hat diese Chips speziell entwickelt, um das Modelltraining zu beschleunigen, und DeepMind hat sie vor dem Training seines Systems in Cluster von 4.096 Chips verpackt, die als „SuperPods“ bekannt sind. Das Gesamtergebnis der neu konfigurierten Infrastruktur und Methoden führte dazu, dass der Goodput – das Volumen der wirklich nützlichen Daten, die durch das System übertragen wurden (im Gegensatz zum Durchsatz, bei dem es sich um alle Daten handelt) – von 85 % bei früheren Schulungsbemühungen auf 97 % stieg. laut technischem Bericht.
DeepMind-Wissenschaftler stellen sich vor, dass die Technologie in Szenarien eingesetzt wird, in denen eine Person in Echtzeit Fotos einer gerade zubereiteten Mahlzeit hochlädt und Zwillinge mit Anweisungen zum nächsten Schritt im Prozess antworten.
Allerdings räumten die Wissenschaftler ein, dass Halluzinationen – ein Phänomen, bei dem KI-Modelle mit größter Sicherheit falsche Informationen zurückgeben – für Zwillinge weiterhin ein Problem darstellen. Halluzinationen werden normalerweise durch Einschränkungen oder Verzerrungen in den Trainingsdaten verursacht und sind schwer zu beseitigen.