Eine Gruppe von Forschern aus China und Singapur hat kürzlich einen Artikel veröffentlicht, in dem die Herausforderung detailliert beschrieben wird, eine KI dazu zu bringen, Red Dead Redemption II (RDR2) zu spielen. Sie bewerteten und kommentierten auch die Spielleistung der KI. In der Zeitung Auf dem Weg zur allgemeinen Computerkontrolle: Ein multimodaler Agent für Red Dead Redemption II als Fallstudie (PDF) erfahren wir etwas über das Konzept der General Computer Control (GCC) für KIs sowie über ein Agenten-Framework mit sechs Modulen namens CRADLE, das als Schnittstelle zwischen GPT-4V und RDR2 dient. In ihrer Schlussfolgerung werden die Hauptprobleme, mit denen der KI-Gaming-Agent konfrontiert ist, auf das Vision-System GPT-4V zurückgeführt.

Dem Forschungsbericht zufolge bietet dieses RDR2-Spielprojekt Einblicke in die Fortschritte der KI bei der Erreichung der künstlichen allgemeinen Intelligenz (AGI). Zu diesem Zweck versuchen sie im Grunde, eine KI, die auf dem GPT-4V von OpenAI basiert, dazu zu bringen, mit einem Computer zu interagieren – und dabei die visuellen und akustischen Signale aufzunehmen, um den Computer intelligent zu nutzen, wie der durchschnittliche computererfahrene Mensch. Damit versuchen sie zu zeigen, dass eine KI bei komplexer General Computer Control (GCC) erfolgreich sein kann.

Die Forscher wählten RDR2 als das Spiel, das sie ins Rampenlicht rücken wollten, da sie behaupten, es verfüge über ein „komplexes Black-Box-Steuerungssystem, das die anspruchsvollsten Computeraufgaben verkörpert und es uns ermöglicht, die Leistungsgrenzen unseres Frameworks in solchen virtuellen Umgebungen zu bewerten.“ Tatsächlich bietet es reichhaltige Umgebungen und abwechslungsreiche Situationen, in denen sich die Spieler zurechtfinden können. Darüber hinaus stellen UI-Elemente wie Dialoge, einzigartige Symbole, Eingabeaufforderungen im Spiel und Anweisungen sicher, dass Hintergrundwissen nicht als selbstverständlich angesehen wird – was sich hervorragend für das KI-Lernen eignet. Schließlich sagen die Forscher, dass die RDR2-Spielsteuerung über Maus und Tastatur ein besseres Training für GCC bietet als die meisten anderen Programme, die ein Computerbenutzer täglich verwenden könnte.

Siehe auch  ChatGPT bereitet seine Revolution vor, ein wichtiger Hinweis zu GPT-5 wurde enthüllt

Obwohl sich das veröffentlichte Papier auf RDR2 konzentriert, soll CRADLE im Rahmen seines GCC-Zwecks erweitert werden, „um ein breiteres Spektrum an Spielen zu unterstützen, wie etwa Simulations- und Strategiespiele sowie verschiedene Softwareanwendungen“. Die wichtigste Neuerung hierbei ist die Einführung des CRADLE-Frameworks, also schauen wir uns das jetzt genauer an.

(Bildnachweis: arxiv.org)

Oben sehen Sie einen Überblick darüber, wie CRADLE mit der Herausforderung des GCC-Gamings umgeht, insbesondere in RDR2. Die Forscher wollten die Fähigkeit von CRADLE demonstrieren, das Spiel wie ein Mensch von Grund auf zu erlernen (ohne Zugriff auf einen internen Spielstatus oder eine API). Anschließend sollte der KI-Agent im Spiel vorankommen, indem er durch die Welt navigierte und Aufgaben erledigte, wobei er der Hauptgeschichte von RDR2 folgte.

Insgesamt scheint CRADLE beim RDR2-Gaming mäßig erfolgreich gewesen zu sein. Die Forscher geben an, dass sie sogar repräsentative Aufgaben aus der Haupthandlung und Missionen mit offenem Ausgang bewertet haben. Die wichtigste Erkenntnis war, dass „CRADLE alle Aufgaben in der Haupthandlung konsistent erledigen kann.“ Einige bemerkenswerte Ausnahmen waren: Protect Dutch, bei dem es um ein rasantes Feuergefecht geht, Search House, bei dem der Agent eine komplexe Innenumgebung erkunden muss, und die offene Aufgabe mit einem langen Horizont.

(Bildnachweis: arxiv.org)

Sie können die Bedeutung der Aufgabeninferenz und -reflexion oben in CRADLE sehen. Diese Verfeinerungen sind besonders wichtig für die Bewegung des Agenten durch das Spiel und für das Verständnis, wann Aufgaben abgeschlossen sind. Während der Studie wurden einige der wiederholten Schwierigkeiten, mit denen CRADLE konfrontiert war, auf GPT4-V zurückgeführt. Konkret wird behauptet, dass „die räumlich-visuelle Erkennungsfähigkeit von GPT-4V für eine präzise, ​​feinkörnige Steuerung nicht ausreicht.“ Darüber hinaus soll GPT4-V mit domänenspezifischen Konzepten zu kämpfen haben, etwa mit einzigartigen Symbolen im Spiel, mit dem Verständnis von Minikarten sowie mit allgemeinen Hindernissen in der Spielumgebung.

(Bildnachweis: arxiv.org)

Die vollständige Studie kann über gelesen werden dieser Link, aber wir wünschten, die Forscher hätten ein Video des RDR2-Gameplays mit ihrem KI-Agenten geteilt. Wir fragen uns, wie andere multimodale KIs in RDR2 über CRADLE funktionieren könnten?

5/5 - (284 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein