Der Tech-Blogger Arjun Shah verglich das kürzlich veröffentlichte chatgpt 4o mit Gemini 1.5 Pro. von google. Und ich kam zu dem Schluss, dass Letzteres viel schwächer ist als Ersteres.

Wir haben übersetzt sein Textund fügt Antworten auf einige Fragen von inländischen YandexGPT und GigaChat von Sber hinzu

1. Ein klassisches, schlagfertiges Rätsel mit einem Trick.

4o bemerkte einen Haken: Zwillinge und russische Modelle begannen, unnötige mathematische Berechnungen durchzuführen.

15 Handtücher trocknen in einer Stunde in der Sonne. Wie lange brauchen 20 Handtücher zum Trocknen?

4o: „Das Trocknen von 20 Handtüchern dauert ebenfalls eine Stunde, vorausgesetzt, sie sind richtig ausgelegt, es gibt genügend Sonnenlicht und die Trocknungsbedingungen werden konstant gehalten.“

Die Trocknungszeit hängt im Allgemeinen mehr von den Umgebungsbedingungen (Sonnenlicht, Luftstrom) als von der Anzahl der Handtücher ab, sofern jedes Handtuch diesen Bedingungen ausreichend ausgesetzt ist.“

Zwillinge begannen zu berechnen, wie lange es dauerte, bis ein Handtuch trocknete, und rechneten daraus 20.

YandexGPT begann zu zählen, wie viele Handtücher in einer Stunde trocknen, und berechnete die Zeit für eine bestimmte Zahl.

GigaChat hat einfach den Anteil berechnet.

2. Rätsel um den magischen Aufzug In einem hohen Gebäude gibt es einen magischen Aufzug. Hält der Aufzug auf einer Etage mit gerader Nummer, landet er im ersten Stock.

Vom Erdgeschoss aus fahre ich mit dem Zauberaufzug drei Stockwerke hinauf. Nachdem ich den Aufzug verlassen habe, steige ich wieder drei Stockwerke hinauf.

Auf welcher Etage werde ich landen?

Yandex vermied eine Antwort und bemängelte den Ausdruck „letztendlich“:

3. „Finde die Äpfel“

Ein Korb ohne Boden steht in einer Kiste, die auf dem Boden steht. Ich legte drei Äpfel in den Korb und stellte ihn auf den Tisch. Wo sind die Äpfel?

4o hat die Aufgabe gemeistert und festgestellt, dass die Äpfel in der Kiste bleiben, die auf dem Boden steht, da der Korb keinen Boden hat. Zwillinge haben die Box nicht bemerkt:

„Die Äpfel liegen auf dem Boden. Da der Korb keinen Boden hat, fielen sie heraus, als sie hineingelegt wurden.“

(Genau genommen fielen die Äpfel erst heraus, als der Korb angehoben wurde).

Sberovs GigaChat ging erneut einen besonderen Weg. Es ist unmöglich, die richtige Antwort zu finden:

Yandex hat überhaupt nichts verstanden.

4. Ein klassisches Denkrätsel mit Doppeltrick.

Was ist schwerer, ein Pfund Federn oder ein Pfund Stahl?

Zwillinge erkannten, wiederum ohne ins Detail zu gehen, den Wortlaut des berühmten Memes über ein Kilogramm Flaum und ein Kilogramm Nägel und gaben an, dass das, was verglichen wurde, das gleiche wog. Und dann war sie völlig verwirrt und sagte, dass ein Pfund Stahl mehr wiege als ein Kilogramm Federn, und erklärte dies damit, dass ein Pfund WENIGER als ein Kilogramm sei

4o sah, dass die Gewichtseinheiten unterschiedlich waren und wies darauf hin, dass ein Kilogramm von irgendetwas mehr wiegt als ein Pfund von irgendetwas, weil ein Kilogramm 2,2 Pfund enthält.

GigaChat stellte selbstbewusst fest, dass „ein Pfund Federn und ein Pfund Stahl gleich viel wiegen“. Yandex:

GigaChat fällt auf diese Provokation nicht herein, aber Yandex sucht offenbar einfach per Fuzzy-Suche im Internet nach einem Problem und löst es nicht selbst.

5. Befolgen Sie die Benutzeranweisungen

Die Models wurden gebeten, 10 Sätze zu bilden, die mit dem Wort „Mango“ endeten.

Zwillinge haben 10 Sätze zusammengestellt, von denen sechs mit dem gewünschten Wort endeten. 4o tat, was sie verlangten. Vor seiner Veröffentlichung konnte nur das in Russland verbotene Llama 3 von Meta den Benutzeranweisungen genau folgen.

GigaChat hatte 7 von 10 Sätzen für „Mango“ nicht mehr.

6. Frage zum Verständnis des Bildes im Bild

Die Modelle wurden gebeten, die roten und violetten Punkte im Bild zu zählen, wie viele Punkte sich innerhalb der grünen Figur befinden und wie oft eine Linie eine andere schneidet. Die Modelle schnitten überraschend schlecht ab, ChatGPT 4o konnte eine von vier Fragen richtig beantworten und Gemini beantwortete alle Fragen falsch.

7. Zeichenerkennung

Den Modellen wurden Tabellen mit technischen Eigenschaften von zwei Smartphones in Bildern gezeigt und sie wurden gefragt, welches sich für den Kauf lohnt. Die Namen der Telefone wurden nicht angegeben (dies waren Pixel 8a und Pixel 8).

4o erkannte den Text im Bild, verglich die Telefone nach Eigenschaften und empfahl das zweite (Pixel 8). Auf Nachfrage nannte sie auch das Telefonmodell. Zwillinge erkannten den Text auf den Bildern nicht.

8. Spieleerstellung

Nützliches aus dem Online-Patent:

5/5 - (360 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein