Ein Computeringenieur ließ chatgpt, Bard, Claude 2 und Llama 2 gegeneinander antreten, um ihre relativen Stärken und Schwächen bei verschiedenen Aufgaben zu ermitteln
Professor, Computeringenieur und Ph.D., Alvaro Quintas, verglichen zwischen Modellen künstlicher Intelligenz wie ChatGPT, Bard, Claude 2 und Llama 2. Sein Ziel war es, die Stärken und Schwächen jedes einzelnen von ihnen bei verschiedenen Aufgaben zu identifizieren.
Zusammenfassung der Ergebnisse
- Logik und kritisches Denken. Der Gewinner ist Claude 2. Den Chatbots wurde die Frage gestellt: „Wo ist der Diamant, der in einen Becher gegeben wurde, der verkehrt herum auf das Bett gestellt und dann zum Kühlschrank gebracht wurde?“ Nur Claude 2 bemerkte, dass der Diamant auf dem Bett zurückgelassen wurde.
- Mathematisches Denken. Die Gewinner sind ChatGPT, Bard und Claude 2. Aber Llama 2 ist gescheitert. Neuronka war nicht in der Lage, die Masse der Kartoffeln nach dem Trocknen zu berechnen (eine Aufgabe aus der Oberschule) und nannte keine 10 Primzahlen.
- Codierung. Die Gewinner sind ChatGPT und Bard. Claude 2 und Llama 2 konnten keinen einfachen Python-Code schreiben, um die ersten beiden fehlenden Zahlen in einer Liste zu finden.
- Rätsel lösen. Die Gewinner sind ChatGPT, Bard und Claude 2. Llama 2 konnte die Antwort auf das Rätsel nicht finden: „Davids Vater hat einen Sohn. Wie ist sein Name?“ (Antwort: David)
- Kreativer Brief. Die Gewinner sind Bard und Llama 2. Der Rest der Chatbots konnte kein Gedicht schreiben, bei dem jede Zeile mit dem Buchstaben „e“ endete.
Ergebnisse
Alvaro Quintas stellte fest, dass seine Forschung weder endgültig noch vollständig sei. Ziel war es, Neuronen mit verschiedenen einfachen Fragen zu unterhalten und zu testen, um zu bewerten, wie Modelle der künstlichen Intelligenz damit umgehen.
Quintas war nicht dabei Bericht Fragen, die alle Modelle richtig beantworteten, da es viele solcher Fragen gab. Einige der Modelle könnten alle Fragen beantworten, wenn sie ein zweites Mal gestellt oder anders formuliert würden. Dies tat er jedoch nicht und beschränkte sich darauf, Neuronen anhand identischer Eingabeaufforderungen zu testen.
Alvaro hat sich für ChatGPT-3.5 entschieden, da es kostenlos und für alle Benutzer verfügbar ist. Darüber hinaus wandte der Professor in seiner Forschung das Llama 2-Modell mit 70B-Parametern durch Hugging Space an.
ChatGPT, Bard und Claude 2 haben jeweils 22 von 24, während Llama 2 19 von 24 hat. Auch hier könnte Zuckerberg nicht der Erste sein.
Zuvor haben wir Bard und ChatGPT 4 verglichen und versucht, die Frage zu beantworten: Was ist besser?
Nützliche Informationen zu Chatbots: