22. April 2024
Das Holodeck von Star Trek ist nicht mehr nur Science-Fiction. Wissenschaftler haben künstliche Intelligenz und Videospiele genutzt, „um mutig dorthin zu gehen, wo noch kein Mensch zuvor gewesen ist“, um diese futuristische Technologie Wirklichkeit werden zu lassen.
(Bild: Shutterstock)
In Star Trek: Die nächste Generationnutzen Captain Picard und die Besatzung der USS Enterprise das Holodeck, einen leeren Raum, der 3D-Umgebungen erzeugen kann, um sich auf Missionen vorzubereiten und sich zu unterhalten, indem sie alles simulieren, vom üppigen Dschungel bis zum London von Sherlock Holmes.
Die vom Holodeck erstellten Umgebungen sind zutiefst immersiv und vollständig interaktiv und lassen sich stufenlos anpassen, wobei nur die Sprache zum Einsatz kommt: Die Crew muss nur den Computer bitten, eine Umgebung zu generieren, und schon erscheint dieser Raum im Holodeck.
Heutzutage werden virtuelle interaktive Umgebungen auch verwendet, um Roboter vor dem realen Einsatz in einem Prozess namens „Sim2Real“ zu trainieren. Allerdings waren virtuelle interaktive Umgebungen überraschend Mangelware.
„Künstler erstellen diese Umgebungen manuell“, sagt Yue Yang, Doktorandin in den Laboren von Mark Yatskar und Chris Callison-Burch, Assistenz- bzw. außerordentliche Professoren für Computer- und Informationswissenschaft (CIS).
„Diese Künstler könnten eine Woche damit verbringen, eine einzige Umgebung aufzubauen“, fügt Yang hinzu und notiert alle damit verbundenen Entscheidungen, von der Raumaufteilung über die Platzierung von Objekten bis hin zu den bei der Darstellung verwendeten Farben.
Dieser Mangel an virtuellen Umgebungen ist ein Problem, wenn Sie Robotern beibringen möchten, sich in der realen Welt mit all ihren Komplexitäten zurechtzufinden. Neuronale Netze, die Systeme, die die heutige KI-Revolution vorantreiben, erfordern riesige Datenmengen, in diesem Fall Simulationen der physischen Welt.
„Generative KI-Systeme wie chatgpt werden auf Billionen von Wörtern trainiert, und Bildgeneratoren wie midjourney und DALLE werden auf Milliarden von Bildern trainiert“, sagt Callison-Burch.
„Wir haben nur einen Bruchteil dieser Menge an 3D-Umgebungen für das Training der sogenannten ‚verkörperten KI‘.
„Wenn wir generative KI-Techniken nutzen wollen, um Roboter zu entwickeln, die sicher in realen Umgebungen navigieren können, dann müssen wir Millionen oder Milliarden simulierter Umgebungen erstellen.“
Hier kommt Holodeck ins Spiel, ein System zur Generierung interaktiver 3D-Umgebungen. Holodeck, benannt nach seinem Vorfahren aus Star Trek, generiert eine nahezu unbegrenzte Auswahl an Innenräumen und nutzt dabei KI, um die Wünsche der Benutzer zu interpretieren.
„Wir können die Sprache nutzen, um es zu kontrollieren“, sagt Yang.
„Sie können ganz einfach beliebige Umgebungen beschreiben und die verkörperten KI-Agenten trainieren.“
Holodeck nutzt das Wissen, das in großen Sprachmodellen (LLMs), den Systemen, die ChatGPT und anderen Chatbots zugrunde liegen, eingebettet ist. „Sprache ist eine sehr prägnante Darstellung der gesamten Welt“, sagt Yang.
Tatsächlich verfügen LLM-Studenten dank der riesigen Textmengen, die sie während der Ausbildung aufnehmen, über ein überraschend hohes Maß an Wissen über die Gestaltung von Räumen.
Im Wesentlichen funktioniert Holodeck, indem es einen LLM in ein Gespräch einbezieht und dabei eine sorgfältig strukturierte Reihe versteckter Abfragen verwendet, um Benutzeranfragen in bestimmte Parameter aufzuschlüsseln.
So wie Captain Picard das Holodeck von Star Trek bitten könnte, eine Flüsterkneipe zu simulieren, können Forscher Penns Holodeck bitten, „eine 1b1b-Wohnung eines Forschers zu schaffen, der eine Katze hat“. Das System führt diese Abfrage durch, indem es sie in mehrere Schritte unterteilt: Zuerst werden der Boden und die Wände erstellt, dann die Türöffnung und die Fenster.
Als nächstes durchsucht Holodeck Objaverse, eine riesige Bibliothek vorgefertigter digitaler Objekte, nach der Art von Einrichtungsgegenständen, die man in einem solchen Raum erwarten könnte: einen Couchtisch, einen Katzenturm und so weiter.
Schließlich fragt Holodeck ein Layoutmodul ab, das die Forscher entwickelt haben, um die Platzierung von Objekten einzuschränken, sodass Sie nicht mit einer Toilette enden, die horizontal aus der Wand herausragt.
Um die Fähigkeiten von Holodeck im Hinblick auf ihren Realismus und ihre Genauigkeit zu bewerten, erstellten die Forscher 120 Szenen mit Holodeck und ProcTHOR, einem früheren Tool von AI2, und baten mehrere hundert Studenten des Penn Engineering, ihre bevorzugte Version anzugeben, ohne zu wissen, welche Szenen erstellt wurden mit welchen Werkzeugen.
Für jedes Kriterium – Asset-Auswahl, Layout-Kohärenz und Gesamtpräferenz – bewerteten die Studenten die von Holodeck generierten Umgebungen durchweg positiver.
Die Forscher testeten auch die Fähigkeit von Holodeck, Szenen zu erzeugen, die in der Robotikforschung weniger typisch und manuell schwieriger zu erstellen sind als Innenräume von Wohnungen, wie Geschäften, öffentlichen Räumen und Büros.
Beim Vergleich der Ausgaben von Holodeck mit denen von ProcTHOR, die anhand von Menschen erstellter Regeln und nicht anhand von KI-generiertem Text generiert wurden, stellten die Forscher erneut fest, dass menschliche Bewerter die von Holodeck erstellten Szenen bevorzugten. Diese Vorliebe galt für eine Vielzahl von Innenräumen, von wissenschaftlichen Labors bis zu Kunstateliers, von Umkleideräumen bis zu Weinkellern.
Schließlich verwendeten die Forscher von Holodeck generierte Szenen, um einen verkörperten KI-Agenten zu „feinabstimmen“. „Der ultimative Test von Holodeck“, sagt Yatskar, „besteht darin, Robotern dabei zu helfen, sicherer mit ihrer Umgebung zu interagieren, indem sie darauf vorbereitet werden, Orte zu bewohnen, an denen sie noch nie zuvor waren.“
In verschiedenen Arten von virtuellen Räumen, darunter Büros, Kindertagesstätten, Fitnessstudios und Spielhallen, hatte Holodeck einen deutlichen und positiven Effekt auf die Fähigkeit des Agenten, sich in neuen Räumen zurechtzufinden.
Während es dem Agenten beispielsweise nur in etwa sechs Prozent der Fälle gelang, ein Klavier in einem Musikzimmer zu finden, wenn er mit ProcTHOR vorab trainiert wurde (wobei der Agent etwa 400 Millionen virtuelle Schritte zurücklegte), gelang ihm dies in über 30 Prozent der Fälle Fein abgestimmt mit 100 von Holodeck generierten Musikräumen.
„Dieses Feld steckt schon lange in der Forschung zu Wohnräumen fest“, sagt Yang. „Aber es gibt so viele verschiedene Umgebungen – die effiziente Generierung vieler Umgebungen zum Trainieren von Robotern war schon immer eine große Herausforderung, aber Holodeck bietet diese Funktionalität.“