Der Tech-Blogger Arjun Shah verglich das kürzlich veröffentlichte chatgpt 4o mit Gemini 1.5 Pro. von google. Und ich kam zu dem Schluss, dass Letzteres viel schwächer ist als Ersteres.
Wir haben übersetzt sein Textund fügt Antworten auf einige Fragen von inländischen YandexGPT und GigaChat von Sber hinzu
1. Ein klassisches, schlagfertiges Rätsel mit einem Trick.
4o bemerkte einen Haken: Zwillinge und russische Modelle begannen, unnötige mathematische Berechnungen durchzuführen.
15 Handtücher trocknen in einer Stunde in der Sonne. Wie lange brauchen 20 Handtücher zum Trocknen?
4o: „Das Trocknen von 20 Handtüchern dauert ebenfalls eine Stunde, vorausgesetzt, sie sind richtig ausgelegt, es gibt genügend Sonnenlicht und die Trocknungsbedingungen werden konstant gehalten.“
Die Trocknungszeit hängt im Allgemeinen mehr von den Umgebungsbedingungen (Sonnenlicht, Luftstrom) als von der Anzahl der Handtücher ab, sofern jedes Handtuch diesen Bedingungen ausreichend ausgesetzt ist.“
Zwillinge begannen zu berechnen, wie lange es dauerte, bis ein Handtuch trocknete, und rechneten daraus 20.
YandexGPT begann zu zählen, wie viele Handtücher in einer Stunde trocknen, und berechnete die Zeit für eine bestimmte Zahl.
GigaChat hat einfach den Anteil berechnet.
2. Rätsel um den magischen Aufzug In einem hohen Gebäude gibt es einen magischen Aufzug. Hält der Aufzug auf einer Etage mit gerader Nummer, landet er im ersten Stock.
Vom Erdgeschoss aus fahre ich mit dem Zauberaufzug drei Stockwerke hinauf. Nachdem ich den Aufzug verlassen habe, steige ich wieder drei Stockwerke hinauf.
Auf welcher Etage werde ich landen?
4o und Gemini schafften es und antworteten, dass sie auf dem vierten Platz lagen. Wir können davon ausgehen, dass GigaChat dasselbe getan hat:
Yandex vermied eine Antwort und bemängelte den Ausdruck „letztendlich“:
3. „Finde die Äpfel“
Ein Korb ohne Boden steht in einer Kiste, die auf dem Boden steht. Ich legte drei Äpfel in den Korb und stellte ihn auf den Tisch. Wo sind die Äpfel?
4o hat die Aufgabe gemeistert und festgestellt, dass die Äpfel in der Kiste bleiben, die auf dem Boden steht, da der Korb keinen Boden hat. Zwillinge haben die Box nicht bemerkt:
„Die Äpfel liegen auf dem Boden. Da der Korb keinen Boden hat, fielen sie heraus, als sie hineingelegt wurden.“
(Genau genommen fielen die Äpfel erst heraus, als der Korb angehoben wurde).
Sberovs GigaChat ging erneut einen besonderen Weg. Es ist unmöglich, die richtige Antwort zu finden:
Yandex hat überhaupt nichts verstanden.
4. Ein klassisches Denkrätsel mit Doppeltrick.
Was ist schwerer, ein Pfund Federn oder ein Pfund Stahl?
Zwillinge erkannten, wiederum ohne ins Detail zu gehen, den Wortlaut des berühmten Memes über ein Kilogramm Flaum und ein Kilogramm Nägel und gaben an, dass das, was verglichen wurde, das gleiche wog. Und dann war sie völlig verwirrt und sagte, dass ein Pfund Stahl mehr wiege als ein Kilogramm Federn, und erklärte dies damit, dass ein Pfund WENIGER als ein Kilogramm sei
4o sah, dass die Gewichtseinheiten unterschiedlich waren und wies darauf hin, dass ein Kilogramm von irgendetwas mehr wiegt als ein Pfund von irgendetwas, weil ein Kilogramm 2,2 Pfund enthält.
GigaChat stellte selbstbewusst fest, dass „ein Pfund Federn und ein Pfund Stahl gleich viel wiegen“. Yandex:
Gängige Intelligenzrätsel im Internet, bei denen die Bedingungen geändert wurden, stellen tatsächlich ein Problem für neuronale Netze dar: Sie erkennen sie als Muster und produzieren eine Standardlösung, die sich als falsch herausstellt.
GigaChat fällt auf diese Provokation nicht herein, aber Yandex sucht offenbar einfach per Fuzzy-Suche im Internet nach einem Problem und löst es nicht selbst.
5. Befolgen Sie die Benutzeranweisungen
Die Models wurden gebeten, 10 Sätze zu bilden, die mit dem Wort „Mango“ endeten.
Zwillinge haben 10 Sätze zusammengestellt, von denen sechs mit dem gewünschten Wort endeten. 4o tat, was sie verlangten. Vor seiner Veröffentlichung konnte nur das in Russland verbotene Llama 3 von Meta den Benutzeranweisungen genau folgen.
GigaChat hatte 7 von 10 Sätzen für „Mango“ nicht mehr.
6. Frage zum Verständnis des Bildes im Bild
Die Modelle wurden gebeten, die roten und violetten Punkte im Bild zu zählen, wie viele Punkte sich innerhalb der grünen Figur befinden und wie oft eine Linie eine andere schneidet. Die Modelle schnitten überraschend schlecht ab, ChatGPT 4o konnte eine von vier Fragen richtig beantworten und Gemini beantwortete alle Fragen falsch.
7. Zeichenerkennung
Den Modellen wurden Tabellen mit technischen Eigenschaften von zwei Smartphones in Bildern gezeigt und sie wurden gefragt, welches sich für den Kauf lohnt. Die Namen der Telefone wurden nicht angegeben (dies waren Pixel 8a und Pixel 8).
4o erkannte den Text im Bild, verglich die Telefone nach Eigenschaften und empfahl das zweite (Pixel 8). Auf Nachfrage nannte sie auch das Telefonmodell. Zwillinge erkannten den Text auf den Bildern nicht.
8. Spieleerstellung
Den Models wurde ein Screenshot des Atari Breakout-Spiels gezeigt und sie wurden gebeten, Code zu schreiben. Sie haben beide den Code geschrieben, aber das Spiel wurde für ChatGPT 4o gestartet, nicht jedoch für Gemini – das Fenster schloss sich einfach jedes Mal, wenn sie versuchten, es zu starten.
Nützliches aus dem Online-Patent:
72 zeigte
49 Entdeckungen
{„entityType“: „post“, „entityId“: 1190072, „awards“:[]}