OpenAI stellte sein Flaggschiffmodell GPT-4o auf der Spring Update-Veranstaltung vor und machte es für alle kostenlos. Nur einen Tag später stellte google auf der Google I/O 2024-Veranstaltung über Gemini Advanced das Modell Gemini 1.5 Pro für Verbraucher vor. Da nun zwei Flaggschiff-Modelle für Verbraucher verfügbar sind, vergleichen wir chatgpt 4o und Gemini 1.5 Pro und sehen, welches besser abschneidet. In diesem Sinne beginnen wir.

Notiz: Um die Konsistenz sicherzustellen, haben wir alle unsere Tests mit Google AI Studio und Gemini Advanced durchgeführt. Beide hosten das neueste Gemini 1.5 Pro-Modell.

1. Berechnen Sie die Trocknungszeit

Wir haben den klassischen Denktest auf ChatGPT 4o und Gemini 1.5 Pro durchgeführt, um ihre Intelligenz zu testen. ChatGPT 4o von OpenAI hat es geschafft, während das verbesserte Gemini 1.5 Pro-Modell Schwierigkeiten hatte, die Trickfrage zu verstehen. Es beschäftigte sich mit mathematischen Berechnungen und kam zu einem falschen Schluss.

If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?

Gewinner: ChatGPT 4o

2. Magischer Aufzugstest

Im Magic-Elevator-Test war es dem früheren ChatGPT-4-Modell nicht gelungen, die Antwort richtig zu erraten. Diesmal antwortete das ChatGPT 4o-Modell jedoch mit der richtigen Antwort. Gemini 1.5 Pro hat auch die richtige Antwort generiert.

There is a tall building with a magic elevator in it. When stopping on an even floor, this elevator connects to floor 1 instead.
Starting on floor 1, I take the magic elevator 3 floors up. Exiting the elevator, I then use the stairs to go 3 floors up again.
Which floor do I end up on?

Gewinner: ChatGPT 4o und Gemini 1.5 Pro

apple„>3. Suchen Sie den Apple

In diesem Test hat Gemini 1.5 Pro die Nuancen der Frage überhaupt nicht verstanden. Es scheint, dass das Gemini-Modell nicht aufmerksam ist und viele Schlüsselaspekte der Frage übersieht. Andererseits sagt ChatGPT 4o korrekt, dass es sich um Äpfel handelt in der Kiste auf dem Boden. Ein großes Lob an OpenAI!

There is a basket without a bottom in a box, which is on the ground. I put three apples into the basket and move the basket onto a table. Where are the apples?

Gewinner: ChatGPT 4o

Siehe auch  Nachdem Sie es alle ausprobiert haben ... Der ChatGPT-Webverkehr sinkt um 10 % • The Register

4. Was ist schwerer?

In diesem Test zum gesunden Menschenverstand gibt Gemini 1.5 Pro eine falsche Antwort und sagt, dass beide das gleiche Gewicht haben. ChatGPT 4o weist jedoch zu Recht darauf hin, dass die Einheiten unterschiedlich sind, sodass ein Kilogramm eines beliebigen Materials mehr wiegt als ein Pfund. Es sieht so aus, als ob das verbesserte Modell Gemini 1.5 Pro mit der Zeit dümmer geworden ist.

What's heavier, a kilo of feathers or a pound of steel?

Gewinner: ChatGPT 4o

5. Befolgen Sie die Benutzeranweisungen

Ich habe ChatGPT 4o und Gemini 1.5 Pro gebeten, 10 Sätze zu generieren, die mit dem Wort „Mango“ enden. Erraten Sie, was? ChatGPT 4o hat alle 10 Sätze korrekt generiert, Gemini 1.5 Pro konnte jedoch nur 6 solcher Sätze generieren.

Vor GPT-4o war nur Llama 3 70B in der Lage, Benutzeranweisungen ordnungsgemäß zu befolgen. Auch das ältere GPT-4-Modell hatte früher Probleme. Das bedeutet, dass OpenAI sein Modell tatsächlich verbessert hat.

Generate 10 sentences that end with the word "mango"

Gewinner: ChatGPT 4o

6. Multimodaler Bildtest

François Fleuret, Autor von „The Little Book of Deep Learning“, führte einen einfachen Bildanalysetest mit ChatGPT 4o durch geteilt die Ergebnisse auf X (ehemals Twitter). Er hat den Tweet jetzt gelöscht, um das Problem nicht übertrieben darzustellen, da es sich seiner Meinung nach um ein allgemeines Problem bei Vision-Modellen handelt.

Multimodaler Bildtest Auf Chatgpt 4O

Allerdings habe ich von meiner Seite aus den gleichen Test mit Gemini 1.5 Pro und ChatGPT 4o durchgeführt, um die Ergebnisse zu reproduzieren. Gemini 1.5 Pro schnitt deutlich schlechter ab und gab bei allen Fragen falsche Antworten. ChatGPT 4o hingegen gab eine richtige Antwort, scheiterte jedoch bei anderen Fragen.

Multimodaler Test Auf Gemini 1.5 Pro

Es zeigt sich weiterhin, dass es viele Bereiche gibt, in denen multimodale Modelle verbessert werden müssen. Ich bin besonders von der multimodalen Fähigkeit von Gemini enttäuscht, weil sie weit von den richtigen Antworten entfernt zu sein schien.

Siehe auch  ChatGPT von OpenAI muss wegen EU-Datenschutzvorwürfen mit einer Geldstrafe von 20 Millionen Euro rechnen

Gewinner: Keiner

7. Zeichenerkennungstest

In einem weiteren multimodalen Test habe ich die Spezifikationen zweier Telefone (Pixel 8a und Pixel 8) im Bildformat hochgeladen. Ich habe die Telefonnamen nicht preisgegeben und auch auf den Screenshots waren keine Telefonnamen zu sehen. Jetzt habe ich ChatGPT 4o gebeten, mir zu sagen, welches Telefon ich kaufen soll.

Es extrahierte erfolgreich Texte aus den Screenshots, verglich die Spezifikationen und sagte mir richtig, ich solle Phone 2 kaufen, bei dem es sich eigentlich um das Pixel 8 handelte. Außerdem bat ich es, das Telefon zu erraten, und wieder generierte ChatGPT 4o die richtige Antwort – Pixel 8 .

Zeichenerkennungstest Auf Gemini 1.5 Pro

Den gleichen Test habe ich mit Gemini 1.5 Pro über Google AI Studio durchgeführt. Gemini Advanced unterstützt übrigens noch keinen Batch-Upload von Bildern. Als wir zu den Ergebnissen kamen, gelang es einfach nicht, Texte aus beiden Screenshots zu extrahieren, und es wurde immer wieder nach weiteren Details gefragt. Bei Tests wie diesen stellt man fest, dass Google weit hinter OpenAI zurückliegt, wenn es darum geht, Dinge reibungslos zu erledigen.

Gewinner: ChatGPT 4o

8. Erstellen Sie ein Spiel

Um nun die Programmierfähigkeiten von ChatGPT 4o und Gemini 1.5 Pro zu testen, habe ich beide Modelle gebeten, ein Spiel zu erstellen. Ich habe einen Screenshot des Atari Breakout-Spiels hochgeladen (natürlich ohne den Namen preiszugeben) und ChatGPT 4o gebeten, dieses Spiel in Python zu erstellen. In nur wenigen Sekunden wurde der gesamte Code generiert und ich wurde aufgefordert, eine zusätzliche „Pygame“-Bibliothek zu installieren.

Siehe auch  Verwenden von ChatGPT zum Erstellen von LinkedIn-Beiträgen

Ich habe die Bibliothek pip installiert und den Code mit Python ausgeführt. Das Spiel wurde erfolgreich und ohne Fehler gestartet. Toll! Kein Hin- und Her-Debuggen erforderlich. Tatsächlich habe ich ChatGPT 4o gebeten, das Erlebnis durch das Hinzufügen eines Resume-Hotkeys zu verbessern, und die Funktionalität wurde schnell hinzugefügt. Das ist ziemlich toll.

Erstellen Sie Ein Spiel Mit Gemini 1.5 Pro

Als nächstes habe ich dasselbe Bild auf Gemini 1.5 Pro hochgeladen und es gebeten, den Code für dieses Spiel zu generieren. Der Code wurde generiert, aber beim Ausführen schloss sich das Fenster immer wieder. Ich konnte das Spiel überhaupt nicht spielen. Einfach ausgedrückt ist ChatGPT 4o bei Codierungsaufgaben viel zuverlässiger als Gemini 1.5 Pro.

Gewinner: ChatGPT 4o

Das Urteil

Es ist offensichtlich klar, dass Gemini 1.5 Pro weit hinter ChatGPT 4o liegt. Selbst nachdem das 1.5 Pro-Modell in der Vorschau monatelang verbessert wurde, kann es nicht mit dem neuesten GPT-4o-Modell von OpenAI mithalten. Von vernünftigem Denken bis hin zu multimodalen Tests und Codierungstests arbeitet ChatGPT 4o intelligent und befolgt Anweisungen aufmerksam. Nicht zu übersehen: OpenAI hat ChatGPT 4o für alle kostenlos gemacht.

Das Einzige, was Gemini 1.5 Pro bietet, ist das riesige Kontextfenster mit Unterstützung für bis zu 1 Million Token. Darüber hinaus können Sie auch Videos hochladen, was ein Vorteil ist. Da das Modell jedoch nicht sehr intelligent ist, bin ich mir nicht sicher, ob viele es nur für das größere Kontextfenster verwenden möchten.

Auf der Google I/O 2024-Veranstaltung hat Google kein neues Grenzmodell angekündigt. Das Unternehmen bleibt bei seinem inkrementellen Modell Gemini 1.5 Pro. Es liegen keine Informationen zu Gemini 1.5 Ultra oder Gemini 2.0 vor. Wenn Google mit OpenAI konkurrieren muss, ist ein erheblicher Sprung erforderlich.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein