Start ChatGPT ChatGPT 4o erwies sich als intelligenter als Gemini 1.5 Pro und Sber...

ChatGPT 4o erwies sich als intelligenter als Gemini 1.5 Pro und Sber GigaChat war intelligenter als Yandex – Future auf vc.ru

Von

Mai 23, 2024

Der Tech-Blogger Arjun Shah verglich das kürzlich veröffentlichte chatgpt 4o mit Gemini 1.5 Pro. von google. Und ich kam zu dem Schluss, dass Letzteres viel schwächer ist als Ersteres.

Wir haben übersetzt sein Textund fügt Antworten auf einige Fragen von inländischen YandexGPT und GigaChat von Sber hinzu

1. Ein klassisches, schlagfertiges Rätsel mit einem Trick.

4o bemerkte einen Haken: Zwillinge und russische Modelle begannen, unnötige mathematische Berechnungen durchzuführen.

15 Handtücher trocknen in einer Stunde in der Sonne. Wie lange brauchen 20 Handtücher zum Trocknen?

4o: „Das Trocknen von 20 Handtüchern dauert ebenfalls eine Stunde, vorausgesetzt, sie sind richtig ausgelegt, es gibt genügend Sonnenlicht und die Trocknungsbedingungen werden konstant gehalten.“

Die Trocknungszeit hängt im Allgemeinen mehr von den Umgebungsbedingungen (Sonnenlicht, Luftstrom) als von der Anzahl der Handtücher ab, sofern jedes Handtuch diesen Bedingungen ausreichend ausgesetzt ist.“

Zwillinge begannen zu berechnen, wie lange es dauerte, bis ein Handtuch trocknete, und rechneten daraus 20.

YandexGPT begann zu zählen, wie viele Handtücher in einer Stunde trocknen, und berechnete die Zeit für eine bestimmte Zahl.

GigaChat hat einfach den Anteil berechnet.

2. Rätsel um den magischen Aufzug In einem hohen Gebäude gibt es einen magischen Aufzug. Hält der Aufzug auf einer Etage mit gerader Nummer, landet er im ersten Stock.

Vom Erdgeschoss aus fahre ich mit dem Zauberaufzug drei Stockwerke hinauf. Nachdem ich den Aufzug verlassen habe, steige ich wieder drei Stockwerke hinauf.

Auf welcher Etage werde ich landen?

4o und Gemini schafften es und antworteten, dass sie auf dem vierten Platz lagen. Wir können davon ausgehen, dass GigaChat dasselbe getan hat:

Siehe auch Machen Sie sich bereit zum Chatten: OpenAI stellt die ChatGPT-App für Mac mit Unterstützung für Apple-Tastenkombinationen vor! : Technik : Tech Times

Yandex vermied eine Antwort und bemängelte den Ausdruck „letztendlich“:

3. „Finde die Äpfel“

Ein Korb ohne Boden steht in einer Kiste, die auf dem Boden steht. Ich legte drei Äpfel in den Korb und stellte ihn auf den Tisch. Wo sind die Äpfel?

4o hat die Aufgabe gemeistert und festgestellt, dass die Äpfel in der Kiste bleiben, die auf dem Boden steht, da der Korb keinen Boden hat. Zwillinge haben die Box nicht bemerkt:

„Die Äpfel liegen auf dem Boden. Da der Korb keinen Boden hat, fielen sie heraus, als sie hineingelegt wurden.“

(Genau genommen fielen die Äpfel erst heraus, als der Korb angehoben wurde).

Sberovs GigaChat ging erneut einen besonderen Weg. Es ist unmöglich, die richtige Antwort zu finden:

Yandex hat überhaupt nichts verstanden.

4. Ein klassisches Denkrätsel mit Doppeltrick.

Was ist schwerer, ein Pfund Federn oder ein Pfund Stahl?

Zwillinge erkannten, wiederum ohne ins Detail zu gehen, den Wortlaut des berühmten Memes über ein Kilogramm Flaum und ein Kilogramm Nägel und gaben an, dass das, was verglichen wurde, das gleiche wog. Und dann war sie völlig verwirrt und sagte, dass ein Pfund Stahl mehr wiege als ein Kilogramm Federn, und erklärte dies damit, dass ein Pfund WENIGER als ein Kilogramm sei

4o sah, dass die Gewichtseinheiten unterschiedlich waren und wies darauf hin, dass ein Kilogramm von irgendetwas mehr wiegt als ein Pfund von irgendetwas, weil ein Kilogramm 2,2 Pfund enthält.

GigaChat stellte selbstbewusst fest, dass „ein Pfund Federn und ein Pfund Stahl gleich viel wiegen“. Yandex:

Gängige Intelligenzrätsel im Internet, bei denen die Bedingungen geändert wurden, stellen tatsächlich ein Problem für neuronale Netze dar: Sie erkennen sie als Muster und produzieren eine Standardlösung, die sich als falsch herausstellt.

Siehe auch Projekte unterstützt von ChatGPT | Pace University New York

GigaChat fällt auf diese Provokation nicht herein, aber Yandex sucht offenbar einfach per Fuzzy-Suche im Internet nach einem Problem und löst es nicht selbst.

5. Befolgen Sie die Benutzeranweisungen

Die Models wurden gebeten, 10 Sätze zu bilden, die mit dem Wort „Mango“ endeten.

Zwillinge haben 10 Sätze zusammengestellt, von denen sechs mit dem gewünschten Wort endeten. 4o tat, was sie verlangten. Vor seiner Veröffentlichung konnte nur das in Russland verbotene Llama 3 von Meta den Benutzeranweisungen genau folgen.

GigaChat hatte 7 von 10 Sätzen für „Mango“ nicht mehr.

6. Frage zum Verständnis des Bildes im Bild

Die Modelle wurden gebeten, die roten und violetten Punkte im Bild zu zählen, wie viele Punkte sich innerhalb der grünen Figur befinden und wie oft eine Linie eine andere schneidet. Die Modelle schnitten überraschend schlecht ab, ChatGPT 4o konnte eine von vier Fragen richtig beantworten und Gemini beantwortete alle Fragen falsch.

7. Zeichenerkennung

Den Modellen wurden Tabellen mit technischen Eigenschaften von zwei Smartphones in Bildern gezeigt und sie wurden gefragt, welches sich für den Kauf lohnt. Die Namen der Telefone wurden nicht angegeben (dies waren Pixel 8a und Pixel 8).

4o erkannte den Text im Bild, verglich die Telefone nach Eigenschaften und empfahl das zweite (Pixel 8). Auf Nachfrage nannte sie auch das Telefonmodell. Zwillinge erkannten den Text auf den Bildern nicht.

8. Spieleerstellung

Den Models wurde ein Screenshot des Atari Breakout-Spiels gezeigt und sie wurden gebeten, Code zu schreiben. Sie haben beide den Code geschrieben, aber das Spiel wurde für ChatGPT 4o gestartet, nicht jedoch für Gemini – das Fenster schloss sich einfach jedes Mal, wenn sie versuchten, es zu starten.

Siehe auch ChatGPT-basiertes Krypto-Bot-Netzwerk auf X entdeckt

Nützliches aus dem Online-Patent:

72 zeigte

49 Entdeckungen

{„entityType“: „post“, „entityId“: 1190072, „awards“:[]}

5/5 - (360 votes)

ChatGPT 4o erwies sich als intelligenter als Gemini 1.5 Pro und Sber GigaChat war intelligenter als Yandex – Future auf vc.ru

Kommentieren Sie den Artikel Antwort abbrechen

Samsung startet Camera Workshop in Europa, um Ihnen dabei zu helfen, Ihre fotografischen Fähigkeiten...

Dornen zermalmen Stolz; Wave-Dampfwalze Gotham – Equalizer Soccer

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

Samsung startet Camera Workshop in Europa, um Ihnen dabei zu helfen, Ihre fotografischen Fähigkeiten...

Dornen zermalmen Stolz; Wave-Dampfwalze Gotham – Equalizer Soccer

Verwandte Artikel Mehr vom Autor