google Deepmind hat kürzlich angekündigt Gemini, sein neues KI-Modell, das mit chatgpt von OpenAI konkurrieren soll. Während beide Modelle Beispiele für „generative KI“ sind, die lernen, Muster bei der Eingabe von Trainingsinformationen zu finden, um neue Daten (Bilder, Wörter oder andere Medien) zu generieren, ist ChatGPT ein großes Sprachmodell (LLM), das sich auf die Produktion von Text konzentriert.
So wie ChatGPT eine Web-App für Konversationen ist, die auf dem neuronalen Netzwerk GPT basiert (trainiert auf großen Textmengen), hat Google eine Konversations-Web-App namens Barde das auf einem Modell namens LaMDA (Traininged on Dialog) basierte. Doch Google rüstet das nun auf Basis von Gemini nach.
Was Gemini von früheren generativen KI-Modellen wie LaMDA unterscheidet, ist, dass es sich um ein „multimodales Modell“ handelt. Das bedeutet, dass es direkt mit mehreren Ein- und Ausgabemodi arbeitet: Neben der Texteingabe und -ausgabe unterstützt es auch Bilder, Audio und Video. Dementsprechend entsteht ein neues Akronym: LMM (großes multimodales Modell), nicht zu verwechseln mit LLM.
Im September OpenAI ein Modell angekündigt namens GPT-4Vision, das auch mit Bildern, Audio und Text arbeiten kann. Es handelt sich jedoch nicht um ein vollständig multimodales Modell in der Art und Weise, wie Gemini es verspricht.
Während beispielsweise ChatGPT-4, das mit GPT-4V betrieben wird, mit Audioeingängen arbeiten und Sprachausgaben generieren kann, OpenAI hat bestätigt dass dies durch die Umwandlung von Sprache in Text bei der Eingabe mithilfe eines anderen Deep-Learning-Modells namens Whisper geschieht. ChatGPT-4 wandelt Text bei der Ausgabe auch mithilfe eines anderen Modells in Sprache um, was bedeutet, dass GPT-4V selbst ausschließlich mit Text arbeitet.
Ebenso kann ChatGPT-4 Bilder erzeugen, allerdings durch die Generierung von Textaufforderungen, die an weitergeleitet werden ein separates Deep-Learning-Modell namens Dall-E 2, das Textbeschreibungen in Bilder umwandelt.
Im Gegensatz dazu hat Google Gemini so konzipiert, dass es „nativ multimodal“ ist. Das bedeutet, dass das Kernmodell eine Reihe von Eingabetypen (Audio, Bilder, Video und Text) direkt verarbeitet und diese auch direkt ausgeben kann.
Das Urteil
Die Unterscheidung zwischen diesen beiden Ansätzen mag akademisch erscheinen, ist aber wichtig. Die allgemeine Schlussfolgerung aus Technischer Bericht von Google und andere qualitative Tests Bisher ist bekannt, dass die aktuell öffentlich verfügbare Version von Gemini, Gemini 1.0 Pro genannt, im Allgemeinen nicht so gut wie GPT-4 ist und in ihren Fähigkeiten eher GPT 3.5 ähnelt.
Auch Google kündigte an eine leistungsstärkere Version von Gemini namens Gemini 1.0 Ultra und präsentierte einige Ergebnisse, die zeigten, dass es leistungsfähiger als GPT-4 ist. Dies ist jedoch aus zwei Gründen schwer zu beurteilen. Der erste Grund ist, dass Google Ultra noch nicht veröffentlicht hat, sodass die Ergebnisse derzeit nicht unabhängig validiert werden können.
Der zweite Grund, warum es schwierig ist, die Behauptungen von Google zu beurteilen, besteht darin, dass Google sich für die Veröffentlichung eines etwas irreführenden Demonstrationsvideos entschieden hat, siehe unten. Das Video zeigt das Gemini-Modell, wie es einen Live-Videostream interaktiv und flüssig kommentiert.
Allerdings da ursprünglich von Bloomberg berichtet, die Demonstration im Video wurde nicht in Echtzeit durchgeführt. Beispielsweise hatte das Modell zuvor einige spezifische Aufgaben gelernt, etwa den Drei-Becher- und Ball-Trick, bei dem Gemini verfolgt, unter welchem Becher sich der Ball befindet. Dazu wurde ihm eine Standbildsequenz zur Verfügung gestellt, in der sich die Hände des Moderators auf den Tassen befinden, die getauscht werden.
Vielversprechende Zukunft
Trotz dieser Probleme glaube ich, dass Gemini und große multimodale Modelle einen äußerst spannenden Fortschritt für die generative KI darstellen. Das liegt sowohl an ihren zukünftigen Fähigkeiten als auch an der Wettbewerbslandschaft der KI-Tools. Wie ich in einem früheren Artikel erwähnt habe, wurde GPT-4 auf etwa 500 Milliarden Wörter trainiert – im Wesentlichen alles öffentlich zugängliche Texte von guter Qualität.
Die Leistung von Deep-Learning-Modellen wird im Allgemeinen durch die zunehmende Komplexität des Modells und die Menge an Trainingsdaten bestimmt. Dies hat zu der Frage geführt, wie weitere Verbesserungen erreicht werden könnten, da uns die neuen Trainingsdaten für Sprachmodelle fast ausgegangen sind. Multimodale Modelle erschließen jedoch enorme neue Reserven an Trainingsdaten – in Form von Bildern, Audio und Videos.
KIs wie Gemini, die auf der Grundlage all dieser Daten direkt trainiert werden können, werden in Zukunft wahrscheinlich über viel größere Fähigkeiten verfügen. Ich würde zum Beispiel erwarten, dass sich Modelle entwickeln, die auf Video trainiert werden ausgefeilte interne Darstellungen der sogenannten „naiven Physik“. Dies ist das grundlegende Verständnis, das Menschen und Tiere über Kausalität, Bewegung, Schwerkraft und andere physikalische Phänomene haben.
Ich bin auch gespannt, was das für die Wettbewerbslandschaft der KI bedeutet. Im vergangenen Jahr waren die GPT-Modelle von OpenAI trotz des Aufkommens vieler generativer KI-Modelle dominant und zeigten ein Leistungsniveau, das andere Modelle nicht erreichen konnten.
Googles Gemini signalisiert das Auftauchen eines großen Konkurrenten, der dazu beitragen wird, das Feld voranzutreiben. Natürlich arbeitet OpenAI mit ziemlicher Sicherheit an GPT-5, und wir können davon ausgehen, dass es auch multimodal sein und bemerkenswerte neue Fähigkeiten demonstrieren wird.
Weiterlesen: Googles Gemini AI weist auf den nächsten großen Sprung für die Technologie hin: die Analyse von Echtzeitinformationen
Abgesehen davon bin ich gespannt auf die Entstehung sehr großer multimodaler Modelle, die Open Source und nicht kommerziell sind und die hoffentlich in den kommenden Jahren auf dem Weg sind.
Mir gefallen auch einige Funktionen der Gemini-Implementierung. Google hat beispielsweise eine Version namens angekündigt Zwillinge Nanodas viel leichter ist und direkt auf Mobiltelefonen ausgeführt werden kann.
Leichte Modelle wie dieses reduzieren die Umweltauswirkungen von KI-Computing und bieten aus Sicht des Datenschutzes viele Vorteile, und ich bin sicher, dass diese Entwicklung dazu führen wird, dass die Konkurrenz diesem Beispiel folgt.