- Claude 3 Opus von Anthropic belegt den ersten Platz in der Chatbot Arena.
- Chatbot Arena von LMSys bietet verschiedene große Sprachmodelle.
- Das Elo-System wird verwendet, um die Fähigkeiten von KI-Modellen in der Chatbot Arena zu messen.
Das fortschrittliche KI-Modell von Anthropic, Claude 3 Opus, hat den Spitzenplatz in der Rangliste der Chatbot Arena eingenommen und verdrängt damit zum ersten Mal seit seiner Einführung im letzten Jahr OpenAIs GPT-4.
Die LMSYS Chatbot Arena verwendet eine spezielle Methode zum Benchmarking von KI-Modellen, wobei der Schwerpunkt auf menschlichem Urteilsvermögen liegt. Die Teilnehmer bewerten und ordnen die Antworten von zwei verschiedenen Modellen in Blindtests, wobei sie identische Eingabeaufforderungen verwenden, um die Leistung zu bewerten.
GPT-4 von OpenAI dominiert diesen Benchmark über einen längeren Zeitraum, sodass jedes KI-Modell, das seiner Leistung nahekommt, als „GPT-4-Klasse“ bezeichnet wird. Daher ist die Leistung von Claude 3 besonders bedeutsam und bemerkenswert.
Obwohl Claude in diesen Ergebnissen GPT-4 übertrifft, ist es wichtig zu beachten, dass der Unterschied in den Ergebnissen zwischen den beiden Modellen minimal ist. Die Position von Claude 3 an der Spitze wird möglicherweise nicht lange haltbar sein, insbesondere angesichts der bevorstehenden Veröffentlichung von GPT-4.5.
Die von der Large Model Systems Organization (LMSys) verwaltete Chatbot Arena bietet eine Reihe großer Sprachmodelle, die an anonymen, zufälligen Schlachten teilnehmen. Seit seiner Einführung im letzten Jahr hat der Benchmark über 400.000 Nutzerstimmen erhalten. In der Vergangenheit rangierten die KI-Modelle von OpenAI, google und Anthropic durchweg unter den Top 10. In jüngster Zeit sind jedoch auch Open-Source-Modelle wie die Produkte von Mistral und Alibaba auf den ersten Plätzen vertreten.
Der Benchmark nutzt das Elo-System, das im E-Sport und Schach weit verbreitet ist, um das Können der Teilnehmer zu bestimmen. Allerdings sind die Teilnehmer in diesem Fall keine menschlichen Spieler, sondern KI-Modelle, die die Chatbots antreiben.