PHILADELPHIA – Erinnern Sie sich an das Holodeck aus „Star Trek: The Next Generation“? Dieser Virtual-Reality-Raum an Bord der Enterprise, der jede erdenkliche Umgebung erschaffen könnte, von außerirdischen Dschungeln bis zur Residenz von Sherlock Holmes – und das nur mit Sprachbefehlen? Es könnte eine Erfindung des 24. Jahrhunderts im Fernsehen gewesen sein, aber Forscher der University of Pennsylvania haben diesen Science-Fiction-Traum heute zum Leben erweckt!
Die Penn-Forscher nennen ihr neues System „Holodeck“ zu Ehren seiner Star-Trek-Ursprünge und nutzen künstliche Intelligenz, um einfache Sprache zu analysieren und dann fotorealistische virtuelle 3D-Umgebungen basierend auf den Anforderungen des Benutzers zu generieren. Einfach ausgedrückt: So wie Captain Picard das Holodeck nach einem Detektivbüro aus den 1940er Jahren fragen konnte, kann das Penn-Team einfach nach „einer 1-Zimmer-Wohnung für einen Forscher fragen, der eine Katze hat“. In Sekundenschnelle generiert Holodeck die Böden, Wände, Fenster und Möbel und fügt sogar realistische Unordnung wie einen Katzenturm hinzu.
„Wir können die Sprache nutzen, um es zu kontrollieren“, sagt Yue Yang, ein Doktorand, der Holodeck mitentwickelt hat, in einer Pressemitteilung der Universität. „Sie können ganz einfach beliebige Umgebungen beschreiben und die verkörperten KI-Agenten trainieren.“
Das Training von Robotern in virtuellen Räumen, bevor sie in der realen Welt eingesetzt werden, wird als „Sim2Real“ bezeichnet. Bisher war die Erstellung dieser virtuellen Trainingsgelände jedoch ein quälend langsamer Prozess.
„Künstler erstellen diese Umgebungen manuell“, erklärt Yang. „Diese Künstler könnten eine Woche damit verbringen, eine einzige Umgebung aufzubauen.“
Mit Holodeck können Forscher schnell Millionen einzigartiger virtueller Räume erstellen, um Roboter für jedes Szenario zu einem winzigen Bruchteil der bisherigen Zeit und Kosten zu trainieren. Dadurch kann das KI-Gehirn der Roboter – ein neuronales Netzwerk – riesige Datensätze aufnehmen, die für die Entwicklung echter Intelligenz unerlässlich sind.
„Generative KI-Systeme wie chatgpt werden auf Billionen von Wörtern trainiert, und Bildgeneratoren wie midjourney und DALLE werden auf Milliarden von Bildern trainiert“, sagt Chris Callison-Burch, außerordentlicher Professor für Informatik an der Penn, der das Projekt mitleitete. „Wir haben nur einen Bruchteil dieser Menge an 3D-Umgebungen für das Training der sogenannten ‚verkörperten KI‘. Wenn wir generative KI-Techniken nutzen wollen, um Roboter zu entwickeln, die sicher in realen Umgebungen navigieren können, müssen wir Millionen oder Milliarden simulierter Umgebungen erstellen.“
Wie zaubert Holodeck diese virtuellen Welten aus bloßen Textbeschreibungen? Es nutzt das unglaubliche Wissen, das in großen Sprachmodellen (LLMs) enthalten ist – denselben KI-Systemen, die Konversationsassistenten wie ChatGPT antreiben.
„Sprache ist eine sehr prägnante Darstellung der gesamten Welt“, sagt Yang.
Es zeigt sich, dass Sprachmodelle über ein überraschend hohes Maß an Wissen über die Gestaltung von Räumen verfügen. Holodeck führt im Wesentlichen ein Gespräch mit dem LLM und zerlegt den Text des Benutzers sorgfältig in Abfragen zu Objekten, Farben, Layouts und anderen Parametern. Anschließend durchsucht es eine umfangreiche Bibliothek von 3D-Objekten und ordnet mithilfe spezieller Algorithmen alles genau so an, dass Objekte wie Toiletten nicht in der Luft schweben.
Um die Szenenqualität von Holodeck zu bewerten, ließen die Forscher die Schüler die von ihrem System erstellten Umgebungen mit denen eines früheren Tools namens ProcTHOR vergleichen. Die Studenten bevorzugten mit überwältigender Mehrheit die realistischeren, kohärenteren Räume von Holodeck in einem breiten Spektrum von Umgebungen, von Laboren über Umkleideräume bis hin zu Weinkellern.
Der wahre Test für die Fähigkeiten von Holodeck besteht jedoch darin, ob es tatsächlich dabei helfen kann, intelligentere Roboter zu trainieren. Die Forscher stellten dies auf die Probe, indem sie mit Holodeck einzigartige virtuelle Umgebungen generierten und dann die Objektnavigationsfähigkeiten eines KI-Agenten in diesen Räumen „feinabstimmten“.
Die Ergebnisse waren äußerst vielversprechend. In einem Test gelang es einem in den virtuellen Musikräumen von Holodeck geschulten Agenten in über 30 Prozent der Fälle, ein Klavier zu finden. Ein Agent, der mit ähnlichen Szenen von ProcTHOR trainiert wurde, fand das Klavier nur in etwa sechs Prozent der Fälle.
„Dieses Feld steckt schon lange in der Forschung zu Wohnräumen fest“, sagt Yang. „Aber es gibt so viele verschiedene Umgebungen – die effiziente Generierung vieler Umgebungen zum Trainieren von Robotern war schon immer eine große Herausforderung, aber Holodeck bietet diese Funktionalität.“
„Der ultimative Test von Holodeck besteht darin, Robotern dabei zu helfen, sicherer mit ihrer Umgebung zu interagieren, indem sie darauf vorbereitet werden, Orte zu bewohnen, an denen sie noch nie zuvor waren“, fügt Mark Yatskar hinzu, ein Assistenzprofessor für Informatik, der die Arbeit mitleitete.
Von Privathäusern bis zu Krankenhäusern, von Büros bis zu Spielhallen – mit Holodeck können KI-Forscher mit nur einfachen Textbefehlen praktisch unbegrenzte Trainingsgelände für Roboter schaffen. Ähnlich wie die Technologie aus Star Trek, die jedes Objekt auf Abruf synthetisieren oder jeden Raum aus jeder Epoche nachbilden kann, kann Holodeck auf Abruf ganze Welten synthetisieren.
Dank KI und Star Trek ist Fantasie nun (virtuelle) Realität.
Im Juni wird das Forscherteam Holodeck auf der präsentieren 2024 Konferenz des Institute of Electrical and Electronics Engineers (IEEE) und der Computer Vision Foundation (CVF) über Computer Vision und Mustererkennung (CVPR). in Seattle.