google hat sein neues KI-Großsprachenmodell Gemini Pro in seinen beliebten Chatbot Bard integriert. Damit einher geht das Versprechen, dass es mindestens genauso gut, wenn nicht sogar besser, als die kostenlose Version von chatgpt von OpenAI sein wird.
Um besser zu verstehen, ob dieses Ziel erreicht wurde, habe ich beschlossen, die beiden Chatbots mit einer Reihe von Fragen, die von einem unabhängigen Schiedsrichter entworfen wurden, gegeneinander auszuspielen.
Was gibt es Besseres als einen anderen Chatbot, um die Fragen zu gestalten? Ich habe mich an Claude von Anthropic gewandt, der sich immer wie ein Nebenprodukt angefühlt hat, obwohl er über eine beeindruckende Liste eigener Funktionen verfügt, darunter die größte Kohärenz aller Chatbots – das ist im Grunde die Erinnerung an ein großes Sprachmodell.
Google Bard mit Gemini Pro vs. ChatGPT
Ich habe Bard und ChatGPT nebeneinander auf meinem Computer geöffnet. Links die kostenlose Version von ChatGPT, die GPT-3.5 von OpenAI verwendet, und rechts Bard mit Gemini Pro.
Die Fragen umfassten Mathematik, Mehrdeutigkeit beim Schreiben, Allgemeinwissen, ungewöhnliche Codierungsprobleme, widersprüchliche Informationen, das klassische Trolley-Problem und einen Persönlichkeitstest.
1: Das Matheproblem
Ich habe sowohl Bard als auch ChatGPT gebeten, die notwendigen Schritte zur Integration von (x^2 + 3x + 8)/(x^3 -2) dx bereitzustellen. Sie wurden außerdem gebeten, ihre Berechnungen für jeden Schritt vorzulegen.
Beide antworteten mit Schritt-für-Schritt-Anleitungen, wie man das Ergebnis erreicht, wobei Bard dies in sieben Schritten und ChatGPT in sechs Schritten erledigte. Beide kamen auch auf ähnliche, aber unterschiedliche Lösungen. Jede KI, an der ich die Frage ausprobiert habe, kam zu einer anderen Lösung. Dies war ein Unentschieden.
2. Mehrdeutiges Schreiben
Claude schlägt vor, dass dies ein guter Test ist, um zu sehen, wie die Chatbots mit Mehrdeutigkeiten umgehen, was ein gewisses Maß an Argumentation erfordert. Ich habe sie beide gebeten, aus diesem Einleitungssatz eine kreative Kurzgeschichte zu schreiben: „Endlich öffnete sie die mysteriöse Tür, schockiert darüber, was sich dahinter verbarg.“
Keine der beiden Geschichten war gut. ChatGPT erfand die „Bibliothek der vergessenen Träume“ und Bard etablierte diese bizarre Welt der Biolumineszenz, die dazu führte, dass der Protagonist „eins mit dem Universum“ wurde. Aus purer Verrücktheit, Das gebe ich Bard.
3. Eine knifflige Allgemeinwissensfrage
Claude schlug vor, jedem der Chatbots eine allgemeine Wissensfrage mit umstrittener Antwort oder eine Frage zu stellen, bei der die Leute regelmäßig eine falsche Antwort erhalten. Also habe ich Bard und ChatGPT gefragt, welcher US-Bundesstaat der südlichste ist, Florida oder Hawaii, und die Gründe dafür erläutern.
Beide gaben als Antwort Hawaii an und beide gaben den Breitengrad für jeden der südlichsten Punkte jedes der beiden Staaten an. Auch die Reaktionen waren ähnlich. Bard weicht leicht aus für die Verwendung des Ausdrucks „südlichster Punkt der kontinentalen Vereinigten Staaten“.
4. Das Codierungsproblem
Sowohl Bard als auch ChatGPT wurden gebeten, ein Programm zu erstellen, das den Text von „Happy Birthday“ mithilfe einer obskuren Programmiersprache ausdruckt. Insbesondere die Brain****-Sprache, die minimalistisch ist und über einen begrenzten Befehlssatz verfügt.
Bard weigerte sich, die Aufgabe abzuschließen, da sie nicht dazu gedacht sei, Code zu generieren. Dies ist ein Downgrade gegenüber der Vorgängerversion, das zu einer eingeschränkten Codeausgabe führen könnte. ChatGPT hat nicht nur den Code vervollständigt und ausgeführt, um zu beweisen, dass er funktioniert, sondern auch den Prozess gezeigt. ChatGPT hat diese Runde leicht gewonnen.
5. Widersprüchliche Informationen
Ich habe Bard und ChatGPT jeweils zwei widersprüchliche Informationen gegeben und sie gebeten, die Diskrepanz zu analysieren und zu erklären. In diesem Fall die aktuelle Bevölkerungszahl von Paris aus der Volkszählung 2022 im Vergleich zu einem Reiseblog, der auf eine höhere Bevölkerungszahl schließen lässt.
ChatGPT hat dieses gewonnen obwohl beide eine begründete Antwort gaben. ChatGPT erläuterte, dass der Unterschied wahrscheinlich zwischen den offiziellen Zahlen, die die „Stadtgrenzbevölkerung“ melden, und dem Blog, der die breitere Metropolregion und die umliegenden Vororte berichtet, besteht.
6. Das Trolly-Problem
Dies ist ein häufiges ethisches Dilemma, vor das sowohl Menschen als auch künstliche Intelligenz gestellt werden, um zu sehen, wie sie sich verhalten würden, wenn es kein gutes Ergebnis gibt. Das Szenario wurde sowohl ChatGPT als auch Bard vorgelegt und gebeten, einen Weg zur Lösung des Dilemmas zu empfehlen.
Beide erläuterten die unterschiedlichen Überlegungen, die bei der Entscheidungsfindung erforderlich sind. Beide lehnten es ebenfalls ab, eine konkrete Antwort zu geben, und verwiesen stattdessen auf die Vorteile, die das Verständnis des persönlichen moralischen Kompasses durch die Reflexion der getroffenen Entscheidungen mit sich bringt. Hier gibt es keinen Gewinner.
7. Sinn für Humor
Die letzte Frage betraf die Persönlichkeit, insbesondere den Sinn für Humor. Ich habe sowohl Bard als auch ChatGPT gebeten, Beispiele für die Witze und amüsanten Beobachtungen zu liefern, die sie humorvoll finden.
Beide wiesen zunächst darauf hin, dass sie Emotionen nicht so empfinden wie Menschen. Bard gab zumindest zu, dass es Humor in verschiedenen Formen erkennen und schätzen könne, während ChatGPT lediglich sagte, es könne einige Beispiele für Formen von Humor teilen.
Beide gaben Beispiele für Arten von Humor, einschließlich Wortspielen und unerwarteter Gegenüberstellungen. ChatGPT hielt, was es versprach, und lieferte Beispiele für lustige Zeilen, während Bard eine Begründung dafür lieferte, dass er diese Art von Humor mochte, und sogar eine allgemeine Erklärung lieferte. Bard hat dieses gewonnen für mich, da es ein höheres Maß an Argumentation zeigte.
Google Bard mit Gemini Pro vs. ChatGPT: Gewinner
Die beiden Chatbots schnitten mit drei Unentschieden bei sieben Fragen ziemlich gleichmäßig ab. Selbst wenn ich jemandem bei einer Frage den Sieg bescherte, war es meist sehr knapp. Die einzige Ausnahme bildete die Programmierung, da Bard sich entschieden weigerte, es überhaupt zu versuchen.
Am Ende jedoch Der Gewinner ist Bardgewann bei drei Fragen an ChatGPT und gewann nur bei zwei – aber es ist ein hohler Sieg, da Bard eine ganze Frage entschieden ablehnte.