Künstliche Intelligenz hat sich bei einigen der komplexesten Spiele und Rätsel als mehr als geschickt erwiesen und den Menschen in Schach, Poker und Go geschlagen. Jetzt versucht ein YouTuber, generative KI und KI-Vision-Tools zum Spielen von Super Mario 64 beizubringen.
Josh Bickett hat ein neues KI-Framework entwickelt, das es GPT-4-Vision, dem Modell hinter chatgpt, ermöglicht, eine Reihe von Spielen zu spielen, und begann mit dem Nintendo-Klassiker.
Obwohl es das Spiel „konnte“, hat es aufgrund von Verzögerungen bei der Verarbeitung der Informationen keine besonders gute Arbeit geleistet. Was es demonstrierte, war die Kraft der KI-Vision.
KI-Vision ist ein schnell wachsender Bereich, der in der Lage ist, die reale Welt zu betrachten, zu analysieren, was passiert, und dann Entscheidungen auf der Grundlage dessen zu treffen, was er sieht. Dieser Ansatz erweist sich besonders bei Robotern als nützlich und wir haben ihn sogar bei intelligenten Katzenklappen auf der CES gesehen.
Wie spielt ChatGPT Super Mario?
Im Moment kann man ChatGPT nicht einfach sagen: „Spiel SuperMario 64 und gewinne“, es ist nicht besonders clever, aber die Modelle, auf denen es aufbaut, haben das Potenzial, viel mehr zu tun, als sie innerhalb des Chatbots können.
Mithilfe des KI-Vision-Modells erstellte Bickett ein Multimodales Gaming-Framework. Es funktioniert, indem man auf den Bildschirm schaut und herausfindet, was er sehen kann, und dann die Steuerung steuert.
Das multimodale Gamer-Framework erstellt einen Screenshot des Spiels, trifft eine Entscheidung, was als nächstes zu tun ist, und steuert dann die Aktion mithilfe von Controllern.
Beim Testen mit einer Web-Emulation von Super Mario 64 konnte festgestellt werden, wo sich Mario auf dem Bildschirm befand und welchen Weg er eingeschlagen hatte, und Mario anweisen, sich auf dem Weg vorwärts zu bewegen. Es kann auch bestimmen, wie lange die Taste gedrückt werden muss, um sie zu bewegen, zu springen und Objekten auszuweichen.
Wie gut spielt ChatGPT Super Mario?
Das größte Problem ist die Verzögerung. Zwischen der Beobachtung des Bildschirms durch GPT-4-Vision und der Entscheidung darüber, was Mario tun soll, vergeht eine lange Zeit, die häufig dazu führt, dass er von einem Bösewicht getroffen wird.
„Diese Modelle haben eine gewisse Latenz, und ich habe festgestellt, dass dies das Hauptproblem bei der Navigation und Entscheidungsfindung ist. Es wäre interessant, wie sich dieses Modell verhalten würde, wenn es keine Latenz gäbe“, fragte Bickett.
Am Ende des Videos, nach mehreren Iterationen des Codes während des Tests, war die KI in der Lage, sich zu bewegen, zu springen und zu interagieren, aber sie war nicht perfekt. Es traf einige schlechte Entscheidungen und sah eher wie ein Kleinkind aus, das Knöpfe drückt, als wie ein echter Gamer.
Was bedeutet das für KI-Gaming?
Dies ist nur Version eins des Tools und verwendet ein KI-Modell, das in der Cloud läuft. Es verursachte Latenzprobleme, die zu Verzögerungen bei der Entscheidungsfindung führten. Es wurde auch nicht auf Super Mario 64 abgestimmt.
Wenn sich die Technologie in Zukunft verbessert, könnten wir für jedes Spiel in Ihrer Bibliothek echte KI-gestützte Komplettlösungen, Spieler und Anleitungen sehen.
Dies könnte durch benutzerdefinierte lokale KI-Vision-Modelle erfolgen, die auf einer lokalen NPU ausgeführt werden, wie sie beispielsweise in den neuen Intel Core Ultra-Chips enthalten sind, und schließlich einen Anwendungsfall für die neue Generation von KI-PCs darstellen.