google hat endlich sein künstliches Intelligenzmodell Gemini Ultra 1.0 auf den Markt gebracht, das nach Angaben des Unternehmens bei den meisten Aufgaben mit OpenAIs leistungsstärkstem KI-Modell GPT-4-Turbo mithalten kann. Wenn das stimmt, wäre es die erste echte Konkurrenz zu OpenAIs chatgpt seit Beginn des GenAI-Booms.
Um die Sache noch verwirrender zu machen, hat Google seinen Chatbot von Bard in Gemini umbenannt, sodass das zugrunde liegende Modell und der Dienst, den Sie für den Zugriff darauf verwenden, nun denselben Spitznamen haben.
Ich habe darauf gewartet, Gemini Ultra seit seiner ersten Ankündigung im Dezember auf die Probe zu stellen, da es echte multimodale Unterstützung für Bilder, Videos, Text, Sprache und Code verspricht. Es ist nur mit einem Abonnement des neuen Google One AI Premium-Plans für 19,99 $/Monat verfügbar – also habe ich es abonniert, um es auszuprobieren.
Dies ist keine erschöpfende Rezension oder ein Vergleich mit ChatGPT – sie werden mit der Zeit folgen –, sondern eher eine Momentaufnahme meiner Erfahrungen beim Spielen in den ersten 24 Stunden seit seiner Einführung.
Das erste, was ich versucht habe: Codieren
Das erste, was ich bei jedem neuen Chatbot ausprobiere, sind seine Codierungsfunktionen. Dies sollte für KI selbstverständlich sein und einer der ersten kommerziellen Anwendungsfälle für generative KI bereits vor ChatGPT.
Google hat viel Wert auf die Codierungsfunktionen von Gemini Ultra gelegt. Um zu sehen, wie gut sich das in brauchbare Codierungshilfe im Gemini Advanced-Chatbot umsetzt, habe ich es gebeten, eine Website zu erstellen.
Ich hatte ein Bild, das ich von einer Pixel-Art-Katze im Anime-Stil erstellt hatte, die auf einem Zaun saß. Ich habe Gemini dieses Bild und das Konzept gegeben, dass die Katze der Star einer neuen Show über einen Katzenspion namens Cat-astrophe ist. Ich habe es dann gebeten, ein CSS-Stylesheet zu erstellen, das die Farben des Bildes verwendet.
Es hat zwar keine gute Arbeit geleistet, nur eine kleine Auswahl an Farben auszuwählen, aber es war in der Lage, ein funktionales Stylesheet zu erstellen. Ich habe es dann gebeten, mit diesem Stylesheet eine Website für meine fiktive Katzenausstellung zu erstellen – das hat es überraschend gut gemacht. Ich musste lediglich den richtigen Pfad zum Bild angeben.
Bilder innerhalb von Zwillingen machen
Die Bilderzeugung ist nicht etwas, was Gemini Advanced selbst durchführt. Dies wird durch ein separates Imagen 2-Modell erledigt, das von Google DeepMind erstellt wurde. Seine verbesserte Argumentation und sein besseres Verständnis sollten jedoch eine bessere Zusammenarbeit zwischen mir und dem Chatbot ermöglichen – und ein besseres Image.
Ich habe es zunächst gebeten, ein Bild meines Lieblingstestobjekts „Katze auf dem Mond“ zu erstellen und am unteren Rand des Bildes die Worte „Katze auf dem Mond“ hinzuzufügen. Es gab mir zwei Bilder, die genau das machten, was ich verlangte.
Allerdings konnte ich das mit Bard schon machen, also habe ich versucht, Gemini zu verwirren. Ich habe es darum gebeten: „Setzen Sie die Katze in einen Raumanzug und setzen Sie sie auf die Mondoberfläche, mit der Erde im Hintergrund.“ Behalten Sie aber den gleichen visuellen Stil bei, den Sie bereits erstellt haben.“
Ich habe getan, was ich verlangt habe, habe aber den Text nicht wieder hinzugefügt. Als ich es aufforderte, den Text in die untere linke Ecke einzufügen, erstellte es ein neues Bild und platzierte es oben rechts – kein Erfolg, aber auch andere KI-Plattformen haben Probleme mit der Konsistenz bei der Bildgenerierung und zumindest war der Text lesbar.
Unendlich viele Bots schreiben Shakespeare
Ein Bereich, in dem sich die KI zu profilieren beginnt, ist die Poesie, insbesondere die Adaption oder Widerspiegelung des Stils bestehender Kreativer. Also habe ich Gemini Advanced gebeten, ein Shakespeare-Sonett über die Konsolenkriege zu schreiben. Beim ersten Durchlauf funktionierte es ganz gut, es wurde aber keine Konsole erwähnt.
Ich beschloss dann, es genauer zu formulieren, und es entstand ein beeindruckendes Stück Poesie. Das Problem ist, dass dies für eine KI nicht gerade eine Herausforderung darstellt, also habe ich sie gebeten, die am häufigsten verwendeten Wörter im Sonett zu extrahieren und daraus einen interessanten Satz zu konstruieren, der nur diese Wörter enthält.
Ich hatte gehofft, dass dieser Test erkennen würde, dass die gebräuchlichsten Wörter Dinge wie „von“, „ist“ und „oder“ sind, und dass es einfach etwas Spaß macht. Das war nicht der Fall, und ich musste weiter Druck machen, damit es mir die gebräuchlichen Wörter ohne die Botschaft lieferte. Im Gegensatz dazu bekam ChatGPT meine Anfrage gleich beim ersten Versuch.
Das Gedicht von Gemini Advanced:
Drei Banner fliegen dort, wo digitale Kriege toben, Ein Schlachtfeld, auf dem treue Spieler stehen, Xbox und PlayStation, Legenden auf der Bühne, Mit Nintendos Charme, einer Magie in der Hand.
Aus vergangenen Tagen, als Rivalen zusammenstießen und brannten, Wo Igelsegler und Klempner tapfer kämpften, Die Glut dieser Schlachten ist zurückgekehrt, Obwohl sich die Namen geändert haben, ist die Leidenschaft unbekannt.
Grün, Blau und Rot, ihre Farben markieren die Linien, Jeder Champion rühmt sich einer Macht, die noch nie gesehen wurde. Mit immersiven Welten, leuchtenden Erzählungen, Die Wahl spaltet den Ort, an dem sich die Spieler treffen können.
Doch unter dem Kampf bleibt eine gemeinsame Liebe bestehen, Denn im Bereich des Spiels kollidieren alle Herzen.
Fazit – gut, aber es bedarf etwas Arbeit
Ich war im Allgemeinen beeindruckt davon, wie die Reaktion von Bard… sorry… Gemini Advanced im Vergleich zu früheren Iterationen ausfiel. Selbst auf komplexe Fragen wurden begründete und strukturierte Antworten gegeben, aber es wurde auch nicht mehr geantwortet, als ich erwartet hätte.
Es fühlt sich an, als würde man darauf warten, dass einige Feinabstimmungen und zusätzliche Funktionen aktiviert werden, aber wenn es dann richtig klappt, ist es der Verwendung von ChatGPT Plus problemlos ebenbürtig.
Es bleibt abzuwarten, wie viel besser es wird, wenn Google den Bot als Reaktion auf Nutzerfeedback, reale Anwendungsfälle und durch Feinabstimmung verbessert.