Große Sprachmodelle (LLMs) können jetzt im Retro-Arcade-Videospiel Street Fighter III getestet werden, und bisher scheinen einige besser zu sein als andere.
Der auf Street Fighter III basierende Benchmark, genannt LLM Kolosseumwurde letzten Monat von vier KI-Entwicklern von Phospho und Quivr während des Mistral-Hackathons in San Francisco erstellt. Der Benchmark funktioniert, indem zwei LLMs in einem echten Street Fighter III-Spiel gegeneinander antreten und jeder darüber auf dem Laufenden gehalten wird, wie knapp der Sieg ist, wo sich der gegnerische LLM befindet und welchen Zug er ausgeführt hat. Dann fragt es, was es tun möchte, und macht dann einen Schritt.
Laut der offiziellen Bestenliste für LLM Colosseum, die auf 342 Kämpfen zwischen acht verschiedenen LLMs basiert, ist chatgpt-3.5 Turbo mit einem Elo-Wert von 1.776,11 mit Abstand der Sieger. Das ist deutlich mehr als mehrere Iterationen von ChatGPT-4, die zwischen 1.400 und 1.500 landeten.
„Was ein LLM bei Street Fighter III überhaupt gut macht, ist die Ausgewogenheit zwischen den Hauptmerkmalen“, sagte Nicolas Oulianov, einer der LLM Colosseum-Entwickler. „GPT-3.5 Turbo bietet eine gute Balance zwischen Geschwindigkeit und Intelligenz. GPT-4 ist ein größeres Modell, daher viel intelligenter, aber viel langsamer.“
Die Diskrepanz zwischen ChatGPT-3.5 und 4 im LLM Colosseum ist laut Oulianov ein Hinweis darauf, welche Funktionen in den neuesten LLMs priorisiert werden. „Bestehende Benchmarks konzentrieren sich zu sehr auf die Leistung, unabhängig von der Geschwindigkeit. Wenn Sie ein KI-Entwickler sind, benötigen Sie benutzerdefinierte Auswertungen, um zu sehen, ob GPT-4 das beste Modell für Ihre Benutzer ist“, sagte er. In Kampfspielen können sogar Bruchteile einer Sekunde zählen, sodass jede zusätzliche Zeit zu einem schnellen Verlust führen kann.
Ein anderes Experiment mit LLM Colosseum wurde vom Amazon Web Services-Entwickler Banjo Obayomi dokumentiert, der Modelle von Amazon Bedrock ausführte. An diesem Turnier nahmen ein Dutzend verschiedene Modelle teil, doch Claude setzte sich deutlich gegen die Konkurrenz durch, indem er sich den ersten bis vierten Platz sicherte, wobei Claude 3 Haiku den ersten Platz belegte.
Obayomi verfolgte auch das skurrile Verhalten, das getestete LLMs von Zeit zu Zeit an den Tag legten, einschließlich der Versuche, ungültige Züge wie die verheerende „härteste Schlagkombination von allen“ zu spielen.
Es gab auch Fälle, in denen LLMs sich einfach weigerten, weiterzuspielen. Die Unternehmen, die KI-Modelle entwickeln, neigen dazu, ihnen eine Anti-Gewalt-Perspektive einzuflößen, und weigern sich oft, auf Aufforderungen zu antworten, die sie für zu gewalttätig halten. Claude 2.1 war besonders pazifistisch und sagte, er könne nicht einmal fiktive Kämpfe tolerieren.
Im Vergleich zu echten menschlichen Spielern sind diese Chatbots jedoch nicht gerade auf Profiniveau. „Ich habe ein paar SF3-Spiele gegen LLMs bestritten“, sagt Ouliov. „Bisher denke ich, dass LLMs in Street Fighter 3 nur gegen einen 70-Jährigen oder einen Fünfjährigen eine Siegchance haben.“
Auch in Doom, einem weiteren Old-School-Spiel, das schnelles Denken und schnelle Bewegungen erfordert, schnitt ChatGPT-4 ziemlich schlecht ab.
Aber warum sollte man LLMs in einem Retro-Kampfspiel testen?
Die Idee, LLMs in einem Videospiel der alten Schule zu vergleichen, ist lustig und vielleicht ist das der einzige Grund, warum LLM Colosseum existieren muss, aber es könnte noch ein bisschen mehr sein. „Im Gegensatz zu anderen Benchmarks, die man in Pressemitteilungen sieht, hat jeder Videospiele gespielt und kann ein Gefühl dafür bekommen, warum es für einen LLM eine Herausforderung sein würde“, sagte Oulianov. „Große KI-Unternehmen sind Gaming-Benchmarks, um gute Ergebnisse zu erzielen und anzugeben.“
Aber er merkt an, dass „der Street Fighter-Benchmark im Großen und Ganzen derselbe ist, aber viel unterhaltsamer.“
Darüber hinaus sagte Oulianov, dass das LLM Colosseum zeigt, wie intelligent Allzweck-LLMs bereits sind. „Was dieses Projekt zeigt, ist das Potenzial von LLMs, so intelligent, so schnell und so vielseitig zu werden, dass wir sie praktisch überall als ‚schlüsselfertige Denkmaschinen‘ einsetzen können. Das Ziel besteht darin, Maschinen zu schaffen, die nicht nur mit Text argumentieren können, sondern reagieren auch auf ihre Umgebung und interagieren mit anderen Denkmaschinen.“
Oulianov wies auch darauf hin, dass es bereits KI-Modelle gibt, die moderne Spiele auf professionellem Niveau spielen können. google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/“ rel=“nofollow“>AlphaStar von DeepMind hat StarCraft II-Profis in den Jahren 2018 und 2019 vernichtet, und Das OpenAI Five-Modell von OpenAI erwies sich als fähig, Weltmeister zu schlagen und effektiv mit menschlichen Teamkollegen zusammenzuarbeiten.
Heutige chat-orientierte LLMs erreichen nicht annähernd das Niveau speziell entwickelter Modelle (versuchen Sie einfach, eine Partie Schach gegen ChatGPT zu spielen), aber vielleicht wird das nicht für immer so bleiben. „Mit Projekten wie diesem zeigen wir, dass diese Vision näher an der Realität ist als Science-Fiction“, sagte Ouliov. ®