Eine gruselige Demo von „Figure 01“, einem humanoiden Gesprächsroboter, ist im Internet aufgetaucht – und ich kann nicht glauben, dass es sich nicht um eine gelöschte Szene aus handelt Ich Roboter.
In der Demo wird Abbildung 01, vollgepackt mit OpenAI-Technologie, gefragt, was sie „sehen“ kann. Der Avantgarde-Roboter stellt sein visuelles Erkennungsvermögen unter Beweis und erklärt genau, was sich vor ihm befindet: ein roter Apfel, ein Wäscheständer mit Geschirr und der Mann, der Abbildung 01 die Frage gestellt hat.
chatgpt: So lassen Sie Antworten laut vorlesen
Okay, ein bisschen unheimlich, aber es ist nichts, was wir nicht schon einmal gesehen haben, oder? Letztes Jahr zeigte google beispielsweise, wie das KI-Modell Gemini vor ihm platzierte Reize erkennen konnte, von einer blauen Gummiente bis hin zu verschiedenen handgezeichneten Illustrationen (obwohl sich später herausstellte, dass geschicktes Bearbeiten seine Fähigkeiten leicht übertrieben hatte).
Doch dann fragt der Mann: „Kann ich etwas zu essen haben?“ Figur 01 greift nach dem Apfel, erkennt klar, dass es sich um den einzigen essbaren Gegenstand auf dem Tisch handelt, und reicht ihn ihm.
Ähm, sind wir sicher, dass Will Smith nicht so schnell auftauchen wird?
Wie funktioniert der Roboter Figure 01?
Was genau liegt der nahtlosen Interaktion von Figur 01 mit einem Menschen zugrunde? Es handelt sich um ein neues Visual Language Model (VLM), das Figur 01 von einem klobigen Brocken Schrott in einen Science-Fiction-ähnlichen, futuristischen Roboter verwandelt, der ein bisschen klein ist zu menschenähnlich. (Das VLM ist das Ergebnis einer Zusammenarbeit mit OpenAI und Figure, dem Startup hinter Figure 01.)
Nach der Übergabe des Apfels verrät Abbildung 01 auf die Frage: „Können Sie erklären, warum Sie?“ verrät, dass er mehrere Aufgaben gleichzeitig bewältigen kann [gave me the apple] während du diesen Müll aufsammelst?“
Während der Roboter erkennt, was Müll ist (und was nicht), und die richtigen Gegenstände in den von Abbildung 01 identifizierten Mülleimer legt, erklärt er, dass er dem Mann einen Apfel angeboten hat, weil er das einzige Ding vor ihm war, das gegessen werden konnte. Das ist beeindruckendes Multitasking!
Schließlich fragt der Mann Abbildung 01, wie gut es ihrer Meinung nach abgeschnitten hat. Im Plauderton sagt der Roboter: „Ich denke, ich habe es ganz gut gemacht. Der Apfel hat seinen neuen Besitzer gefunden, der Müll ist weg und das Geschirr ist genau dort, wo es hingehört.“
Entsprechend Brett Adcock, der Gründer von Figure, Figure 01 verfügt über integrierte Kameras, die die VLM-Daten einspeisen, die ihm helfen, die Szene vor ihm zu „verstehen“, sodass der Roboter reibungslos mit dem Menschen vor ihm interagieren kann. Figure 01 ist neben Adcock die Idee von mehrere Schlüsselspieler von Boston Dynamics, Tesla, Google Deep Mind und Archer Aviation.
Adcock warf einen Seitenhieb auf den Optimus-Roboter von Elon Musk und prahlte damit, dass Figure 01 nicht teleoperativ sei. Mit anderen Worten, im Gegensatz zu Optimus, der ging viral, weil er ein Hemd gefaltet hatteAbbildung 01 kann unabhängig betrieben werden.
Adcocks ultimatives Ziel? Ein hochentwickeltes KI-System soll trainiert werden, um Milliarden humanoider Roboter zu steuern und möglicherweise mehrere Branchen zu revolutionieren. Sieht aus wie Ich Roboter ist viel realer als wir dachten.
Themen Robotik mit künstlicher Intelligenz