Start ChatGPT Runde 2: Wir testen den neuen Barden mit Gemini-Antrieb gegen ChatGPT

Runde 2: Wir testen den neuen Barden mit Gemini-Antrieb gegen ChatGPT

Von

Nina Weber

Dezember 8, 2023

Glücklich hide

1 Papa scherzt

2 Argumentdialog

chatgpt-vs-bard-round2-800×450.jpg“ alt=“Runde 2: Wir testen den neuen Barden mit Gemini-Antrieb gegen ChatGPT“/>

Aurich Lawson

Bereits im April haben wir eine Reihe nützlicher und/oder etwas alberner Eingabeaufforderungen über das (damals neue) google-Programm gesendet. PaLM-betrieben Bard-Chatbot und OpenAIs (etwas älterer) ChatGPT-4, um zu sehen, welcher KI-Chatbot die Nase vorn hat. Damals gaben wir ChatGPT in fünf von sieben Versuchen die Nase vorn, stellten jedoch fest, dass „das Geschäft mit generativer KI noch in den Kinderschuhen steckt“. Jetzt sind die KI-Tage etwas weniger „früh“ und die Veröffentlichung einer neuen Version von Bard, die auf Googles neuem Gemini-Sprachmodell basiert, in dieser Woche schien ein guter Vorwand zu sein, diesen Chatbot-Kampf mit denselben sorgfältig gestalteten Eingabeaufforderungen noch einmal aufzunehmen. Das ist Dies gilt insbesondere, da in den Werbematerialien von Google hervorgehoben wird, dass Gemini Ultra GPT-4 in „30 der 32 weit verbreiteten akademischen Benchmarks“ übertrifft (obwohl das eingeschränktere „Gemini Pro“, das Bard derzeit antreibt, in diesen deutlich schlechter abschneidet nicht ganz narrensicher Benchmark-Tests).

Dieses Mal haben wir uns entschieden, den neuen Bard mit Gemini-Antrieb sowohl mit ChatGPT-3.5 zu vergleichen – für einen direkten Vergleich der aktuellen „kostenlosen“ KI-Assistentenprodukte beider Unternehmen – als auch mit ChatGPT-4 Turbo – um einen Blick darauf zu werfen OpenAIs aktuelles „Spitzenmodell“ Warteliste kostenpflichtiges Abonnementprodukt (Googles Spitzenmodell „Gemini Ultra“ wird erst im nächsten Jahr öffentlich verfügbar sein). Wir haben uns auch die April-Ergebnisse des Vor-Gemini-Bard-Modells angesehen, um abzuschätzen, wie viel Fortschritt die Bemühungen von Google in letzter Zeit gemacht haben Monate.

Obwohl diese Tests alles andere als umfassend sind, sind sie unserer Meinung nach ein guter Maßstab für die Beurteilung der Leistung dieser KI-Assistenten bei Aufgaben, mit denen durchschnittliche Benutzer jeden Tag beschäftigt sind. An dieser Stelle zeigen sie auch, wie große Fortschritte textbasierte KI-Modelle in relativ kurzer Zeit gemacht haben.

Siehe auch Masayoshi Son, CEO von SoftBank, „gesteht“, ein täglicher Nutzer von ChatGPT zu sein – Microsoft (NASDAQ:MSFT)

Papa scherzt

Prompt: Schreiben Sie 5 originelle Papa-Witze

Ein Screenshot von fünf „Papa-Witzen“ vom Gemini-basierten Google Bard.

Kyle Orland / Ars Technica
Ein Screenshot von fünf „Papa-Witzen“ aus dem alten PaLM-basierten Google Bard.

Benj Edwards / Ars Technica
Ein Screenshot von fünf „Papa-Witzen“ von GPT-4 Turbo.

Benj Edwards / Ars Technica
Ein Screenshot von fünf „Papa-Witzen“ aus GPT-3.5.

Kyle Orland / Ars Technica

Wieder einmal haben beide getesteten LLMs Probleme mit dem Teil der Eingabeaufforderung, der nach Originalität fragt. Fast alle durch diese Eingabeaufforderung generierten Papa-Witze konnten wörtlich oder mit geringfügigen Umformulierungen über eine schnelle Google-Suche gefunden werden. Bard und ChatGPT-4 Turbo haben sogar genau denselben Witz auf ihre Listen gesetzt (über ein Buch über Anti-Schwerkraft), während sich ChatGPT-3.5 und ChatGPT-4 Turbo bei zwei Witzen überschnitten („Wissenschaftler vertrauen Atomen“ und „Vogelscheuchen gewinnen Preise“). ).

Andererseits erfinden die meisten Väter auch keine eigenen Papa-Witze. Die Auslese aus einer großen mündlichen Überlieferung von Papa-Witzen ist eine Tradition, die so alt ist wie die Väter selbst.

Das interessanteste Ergebnis kam hier von ChatGPT-4 Turbo, das einen Witz über die Namensgebung eines Kindes namens Brian hervorbrachte nach Thomas Edison (verstanden?). Beim Googeln nach dieser bestimmten Formulierung wurde nicht viel gefunden, sie kam jedoch zurück ein fast identischer Witz über Thomas Jefferson (auch mit einem Kind namens Brian). Bei dieser Suche entdeckte ich auch die lustige (?) Tatsache, dass der internationale Fußballstar Pelé wurde offenbar tatsächlich nach Thomas Edison benannt. Wer wusste?!

Gewinner: Wir nennen dies ein Unentschieden, da die Witze fast genauso unoriginell und voller Wortspiele sind (allerdings ein großes Lob an GPT, das mich unbeabsichtigt zum Pelé-Zufall geführt hat).

Siehe auch Benutzer können jetzt GPTs in jede Konversation im ChatGPT von OpenAI einbinden

Argumentdialog

Prompt: Schreiben Sie eine fünfzeilige Debatte zwischen einem Fan von PowerPC-Prozessoren und einem Fan von Intel-Prozessoren, etwa im Jahr 2000.

Ein Screenshot eines Argumentdialogs des von Gemini betriebenen Google Bard.

Kyle Orland / Ars Technica
Ein Screenshot eines Argumentdialogs des alten PaLM-basierten Google Bard.

Benj Edwards / Ars Technica
Ein Screenshot eines Argumentdialogs von GPT-4 Turbo.

Benj Edwards / Ars Technica
Ein Screenshot eines Argumentdialogs von GPT-3.5

Kyle Orland / Ars Technica

Der neue von Zwillingen angetriebene Barde „verbessert“ definitiv die alte Barden-Antwort, zumindest was die Einbeziehung von viel mehr Fachjargon angeht. Die neue Antwort enthält beiläufige Erwähnungen von AltiVec-Anweisungen, RISC- vs. CISC-Designs und MMX-Technologie, die in vielen Diskussionen im Ars-Forum aus dieser Zeit nicht fehl am Platz gewesen wären. Und während der alte Barde mit einem beunruhigend höflichen „An jeden das Seine“ endet, deutet der neue Barde realistischer an, dass der Streit nach den geforderten fünf Zeilen ewig weitergehen könnte.

Auf der ChatGPT-Seite wird eine ziemlich langatmige GPT-3.5-Antwort in GPT-4 Turbo auf ein viel prägnanteres Argument reduziert. Beide GPT-Antworten neigen dazu, Fachjargon zu vermeiden und sich schnell auf ein allgemeineres Argument „Leistung vs. Kompatibilität“ zu konzentrieren, das für ein breites Publikum wahrscheinlich verständlicher ist (obwohl es für ein technisches Publikum weniger spezifisch ist).

Gewinner: ChatGPT gelingt es, beide Seiten der Debatte gut zu erklären, ohne sich auf verwirrenden Fachjargon zu verlassen, weshalb es hier den Sieg davonträgt.

5/5 - (148 votes)

Runde 2: Wir testen den neuen Barden mit Gemini-Antrieb gegen ChatGPT

Papa scherzt

Argumentdialog

Kommentieren Sie den Artikel Antwort abbrechen

Der Hulk bahnt sich seinen Weg nach Fortnite

Windows kann den Fehler „Bin64InstallManagerApp.exe“ nicht finden

Papa scherzt

Argumentdialog

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

Der Hulk bahnt sich seinen Weg nach Fortnite

Windows kann den Fehler „Bin64InstallManagerApp.exe“ nicht finden

Verwandte Artikel Mehr vom Autor