× schließen
Im Wesentlichen bezieht Holodeck ein großes Sprachmodell (LLM) in eine Konversation ein und baut Stück für Stück eine virtuelle Umgebung auf. Bildnachweis: Yue Yang
In „Star Trek: The Next Generation“ nutzen Captain Picard und die Besatzung der USS Enterprise das Holodeck, einen leeren Raum, der in der Lage ist, 3D-Umgebungen zu erzeugen, sich auf Missionen vorzubereiten und sie zu unterhalten, indem er alles von üppigen Dschungeln bis zum London von Sherlock simuliert Holmes.
Die von Holodeck geschaffenen Umgebungen sind zutiefst immersiv und vollständig interaktiv und lassen sich stufenlos anpassen, wobei nur die Sprache zum Einsatz kommt. Die Besatzung muss lediglich den Computer bitten, eine Umgebung zu erzeugen, und schon erscheint dieser Raum im Holodeck.
Heutzutage werden virtuelle interaktive Umgebungen auch verwendet, um Roboter vor dem realen Einsatz in einem Prozess namens „Sim2Real“ zu trainieren. Allerdings waren virtuelle interaktive Umgebungen überraschend Mangelware.
„Künstler erstellen diese Umgebungen manuell“, sagt Yue Yang, Doktorandin in den Laboren von Mark Yatskar und Chris Callison-Burch, Assistenz- bzw. außerordentliche Professoren für Computer- und Informationswissenschaft (CIS). „Diese Künstler könnten eine Woche damit verbringen, eine einzige Umgebung aufzubauen“, fügt Yang hinzu und notiert alle damit verbundenen Entscheidungen, von der Raumaufteilung über die Platzierung von Objekten bis hin zu den bei der Darstellung verwendeten Farben.
Dieser Mangel an virtuellen Umgebungen ist ein Problem, wenn Sie Robotern beibringen möchten, sich in der realen Welt mit all ihren Komplexitäten zurechtzufinden. Neuronale Netze, die Systeme, die die heutige KI-Revolution vorantreiben, erfordern riesige Datenmengen, in diesem Fall Simulationen der physischen Welt.
„Generative KI-Systeme wie ChatGPT werden auf Billionen von Wörtern trainiert, und Bildgeneratoren wie midjourney und DALL-E werden auf Milliarden von Bildern trainiert“, sagt Callison-Burch. „Wir haben nur einen Bruchteil dieser Menge an 3D-Umgebungen für das Training der sogenannten ‚verkörperten KI‘.“ Wenn wir generative KI-Techniken nutzen wollen, um Roboter zu entwickeln, die sicher in realen Umgebungen navigieren können, müssen wir Millionen oder Milliarden simulierter Umgebungen erstellen.“
Eingeben Holodeck, ein System zur Generierung interaktiver 3D-Umgebungen, das von Callison-Burch, Yatskar, Yang und Lingjie Liu, Aravind K. Joshi Assistant Professor in CIS, zusammen mit Mitarbeitern in Stanford, der University of Washington und dem Allen Institute for Artificial Intelligence gemeinsam entwickelt wurde (AI2). Holodeck, benannt nach seinem Vorfahren aus Star Trek, generiert eine praktisch unbegrenzte Auswahl an Innenräumen und nutzt dabei KI, um die Wünsche der Benutzer zu interpretieren.
Das Papier ist veröffentlicht auf der arXiv Preprint-Server.
„Wir können die Sprache nutzen, um es zu kontrollieren“, sagt Yang. „Sie können ganz einfach beliebige Umgebungen beschreiben und die verkörperten KI-Agenten trainieren.“
Holodeck nutzt das Wissen, das in großen Sprachmodellen (LLMs), den Systemen, die ChatGPT zugrunde liegen, und anderen Chatbots eingebettet ist. „Sprache ist eine sehr prägnante Darstellung der gesamten Welt“, sagt Yang. Tatsächlich verfügen LLM-Studenten dank der riesigen Textmengen, die sie während der Ausbildung aufnehmen, über ein überraschend hohes Maß an Wissen über die Gestaltung von Räumen. Im Wesentlichen funktioniert Holodeck, indem es einen LLM in ein Gespräch einbezieht und dabei eine sorgfältig strukturierte Reihe versteckter Abfragen verwendet, um Benutzeranfragen in bestimmte Parameter aufzuschlüsseln.
So wie Captain Picard das Holodeck von Star Trek bitten könnte, eine Flüsterkneipe zu simulieren, können Forscher Penns Holodeck bitten, „eine 1b1b-Wohnung eines Forschers zu schaffen, der eine Katze hat“. Das System führt diese Abfrage durch, indem es sie in mehrere Schritte unterteilt: Zuerst werden der Boden und die Wände erstellt, dann die Türöffnung und die Fenster.
Als nächstes sucht Holodeck Lassen Sie sich veröffentlichen, eine riesige Bibliothek vorgefertigter digitaler Objekte für die Art von Einrichtung, die man in einem solchen Raum erwarten könnte: einen Couchtisch, einen Katzenturm und so weiter. Schließlich fragt Holodeck ein Layoutmodul ab, das die Forscher entwickelt haben, um die Platzierung von Objekten einzuschränken, sodass nicht am Ende eine Toilette entsteht, die horizontal von der Wand absteht.
Um die Fähigkeiten von Holodeck im Hinblick auf ihren Realismus und ihre Genauigkeit zu bewerten, erstellten die Forscher 120 Szenen mit Holodeck und ProcTHOR, einem früheren Tool von AI2, und baten mehrere hundert Studenten des Penn Engineering, ihre bevorzugte Version anzugeben, ohne zu wissen, welche Szenen erstellt wurden mit welchen Werkzeugen. Für jedes Kriterium – Asset-Auswahl, Layout-Kohärenz und Gesamtpräferenz – bewerteten die Studenten die von Holodeck generierten Umgebungen durchweg positiver.
Die Forscher testeten auch die Fähigkeit von Holodeck, Szenen zu erzeugen, die in der Robotikforschung weniger typisch und schwieriger manuell zu erstellen sind als Innenräume von Wohnungen, wie Geschäften, öffentlichen Räumen und Büros. Beim Vergleich der Ausgaben von Holodeck mit denen von ProcTHOR, die anhand von Menschen erstellter Regeln und nicht anhand von KI-generiertem Text generiert wurden, stellten die Forscher erneut fest, dass menschliche Bewerter die von Holodeck erstellten Szenen bevorzugten. Diese Vorliebe galt für eine Vielzahl von Innenräumen, von wissenschaftlichen Labors bis zu Kunstateliers, von Umkleideräumen bis zu Weinkellern.
Schließlich verwendeten die Forscher von Holodeck generierte Szenen, um einen verkörperten KI-Agenten zu „feinabstimmen“. „Der ultimative Test von Holodeck“, sagt Yatskar, „besteht darin, Robotern dabei zu helfen, sicherer mit ihrer Umgebung zu interagieren, indem sie darauf vorbereitet werden, Orte zu bewohnen, an denen sie noch nie zuvor waren.“
In verschiedenen Arten von virtuellen Räumen, darunter Büros, Kindertagesstätten, Fitnessstudios und Spielhallen, hatte Holodeck einen deutlichen und positiven Effekt auf die Fähigkeit des Agenten, sich in neuen Räumen zurechtzufinden.
Während es dem Agenten beispielsweise nur in etwa 6 % der Fälle gelang, ein Klavier in einem Musikzimmer zu finden, wenn er mit ProcTHOR vorab trainiert wurde (wobei der Agent etwa 400 Millionen virtuelle Schritte zurücklegte), gelang ihm dies in über 30 % der Fälle Fein abgestimmt mit 100 von Holodeck generierten Musikräumen.
„Dieses Feld steckt schon lange in der Forschung zu Wohnräumen fest“, sagt Yang. „Aber es gibt so viele verschiedene Umgebungen – die effiziente Generierung vieler Umgebungen zum Trainieren von Robotern war schon immer eine große Herausforderung, aber Holodeck bietet diese Funktionalität.“
Im Juni stellen die Forscher Holodeck vor 2024 Konferenz des Institute of Electrical and Electronics Engineers (IEEE) und der Computer Vision Foundation (CVF) über Computer Vision und Mustererkennung (CVPR). in Seattle, Washington.
Mehr Informationen: Yue Yang et al, Holodeck: Language Guided Generation of 3D Embodied AI Environments, arXiv (2023). DOI: 10.48550/arxiv.2312.09067
GitHub: yueyang1996.github.io/holodeck/