Bereits im April haben wir eine Reihe nützlicher und/oder etwas alberner Eingabeaufforderungen über das (damals neue) google-Programm gesendet. PaLM-betrieben Bard-Chatbot und OpenAIs (etwas älterer) ChatGPT-4, um zu sehen, welcher KI-Chatbot die Nase vorn hat. Damals gaben wir ChatGPT in fünf von sieben Versuchen die Nase vorn, stellten jedoch fest, dass „das Geschäft mit generativer KI noch in den Kinderschuhen steckt“. Jetzt sind die KI-Tage etwas weniger „früh“ und die Veröffentlichung einer neuen Version von Bard, die auf Googles neuem Gemini-Sprachmodell basiert, in dieser Woche schien ein guter Vorwand zu sein, diesen Chatbot-Kampf mit denselben sorgfältig gestalteten Eingabeaufforderungen noch einmal aufzunehmen. Das ist Dies gilt insbesondere, da in den Werbematerialien von Google hervorgehoben wird, dass Gemini Ultra GPT-4 in „30 der 32 weit verbreiteten akademischen Benchmarks“ übertrifft (obwohl das eingeschränktere „Gemini Pro“, das Bard derzeit antreibt, in diesen deutlich schlechter abschneidet nicht ganz narrensicher Benchmark-Tests).
Dieses Mal haben wir uns entschieden, den neuen Bard mit Gemini-Antrieb sowohl mit ChatGPT-3.5 zu vergleichen – für einen direkten Vergleich der aktuellen „kostenlosen“ KI-Assistentenprodukte beider Unternehmen – als auch mit ChatGPT-4 Turbo – um einen Blick darauf zu werfen OpenAIs aktuelles „Spitzenmodell“ Warteliste kostenpflichtiges Abonnementprodukt (Googles Spitzenmodell „Gemini Ultra“ wird erst im nächsten Jahr öffentlich verfügbar sein). Wir haben uns auch die April-Ergebnisse des Vor-Gemini-Bard-Modells angesehen, um abzuschätzen, wie viel Fortschritt die Bemühungen von Google in letzter Zeit gemacht haben Monate.
Obwohl diese Tests alles andere als umfassend sind, sind sie unserer Meinung nach ein guter Maßstab für die Beurteilung der Leistung dieser KI-Assistenten bei Aufgaben, mit denen durchschnittliche Benutzer jeden Tag beschäftigt sind. An dieser Stelle zeigen sie auch, wie große Fortschritte textbasierte KI-Modelle in relativ kurzer Zeit gemacht haben.
Papa scherzt
Prompt: Schreiben Sie 5 originelle Papa-Witze
Wieder einmal haben beide getesteten LLMs Probleme mit dem Teil der Eingabeaufforderung, der nach Originalität fragt. Fast alle durch diese Eingabeaufforderung generierten Papa-Witze konnten wörtlich oder mit geringfügigen Umformulierungen über eine schnelle Google-Suche gefunden werden. Bard und ChatGPT-4 Turbo haben sogar genau denselben Witz auf ihre Listen gesetzt (über ein Buch über Anti-Schwerkraft), während sich ChatGPT-3.5 und ChatGPT-4 Turbo bei zwei Witzen überschnitten („Wissenschaftler vertrauen Atomen“ und „Vogelscheuchen gewinnen Preise“). ).
Andererseits erfinden die meisten Väter auch keine eigenen Papa-Witze. Die Auslese aus einer großen mündlichen Überlieferung von Papa-Witzen ist eine Tradition, die so alt ist wie die Väter selbst.
Das interessanteste Ergebnis kam hier von ChatGPT-4 Turbo, das einen Witz über die Namensgebung eines Kindes namens Brian hervorbrachte nach Thomas Edison (verstanden?). Beim Googeln nach dieser bestimmten Formulierung wurde nicht viel gefunden, sie kam jedoch zurück ein fast identischer Witz über Thomas Jefferson (auch mit einem Kind namens Brian). Bei dieser Suche entdeckte ich auch die lustige (?) Tatsache, dass der internationale Fußballstar Pelé wurde offenbar tatsächlich nach Thomas Edison benannt. Wer wusste?!
Gewinner: Wir nennen dies ein Unentschieden, da die Witze fast genauso unoriginell und voller Wortspiele sind (allerdings ein großes Lob an GPT, das mich unbeabsichtigt zum Pelé-Zufall geführt hat).
Argumentdialog
Prompt: Schreiben Sie eine fünfzeilige Debatte zwischen einem Fan von PowerPC-Prozessoren und einem Fan von Intel-Prozessoren, etwa im Jahr 2000.
Der neue von Zwillingen angetriebene Barde „verbessert“ definitiv die alte Barden-Antwort, zumindest was die Einbeziehung von viel mehr Fachjargon angeht. Die neue Antwort enthält beiläufige Erwähnungen von AltiVec-Anweisungen, RISC- vs. CISC-Designs und MMX-Technologie, die in vielen Diskussionen im Ars-Forum aus dieser Zeit nicht fehl am Platz gewesen wären. Und während der alte Barde mit einem beunruhigend höflichen „An jeden das Seine“ endet, deutet der neue Barde realistischer an, dass der Streit nach den geforderten fünf Zeilen ewig weitergehen könnte.
Auf der ChatGPT-Seite wird eine ziemlich langatmige GPT-3.5-Antwort in GPT-4 Turbo auf ein viel prägnanteres Argument reduziert. Beide GPT-Antworten neigen dazu, Fachjargon zu vermeiden und sich schnell auf ein allgemeineres Argument „Leistung vs. Kompatibilität“ zu konzentrieren, das für ein breites Publikum wahrscheinlich verständlicher ist (obwohl es für ein technisches Publikum weniger spezifisch ist).
Gewinner: ChatGPT gelingt es, beide Seiten der Debatte gut zu erklären, ohne sich auf verwirrenden Fachjargon zu verlassen, weshalb es hier den Sieg davonträgt.