- Mit chatgpt kann der Roboterhund durch die Welt navigieren und auf Aufforderungen reagieren
- Die KI ermöglicht es Spot, wie ein Reiseleiter zu sprechen und verschiedene Persönlichkeiten anzunehmen
Als ob das Gassigehen mit einem Roboterhund nicht schon seltsam genug wäre, kann der Spot von Boston Dynamics Besucher jetzt auch auf einen Spaziergang mitnehmen, da er die Rolle eines englischen Reiseleiters übernimmt.
In einem neuen Video demonstrierte das Ingenieurbüro Spots neue Fähigkeit, Fragen zu beantworten und Witze zu reißen, indem er eine Reihe von Akzenten sowie mehrere unterschiedliche Persönlichkeiten verwendet.
Der mit kleinen Hüten und Kulleraugen geschmückte Roboter führt die Gäste zu verschiedenen Orten und beschreibt, was er sieht.
Wenn er seinen Greifer öffnet und schließt, um einen Mund nachzuahmen, und sich dreht, um Menschen anzuschauen, kommt die Leistung von Spot der eines echten Führers beeindruckend nahe.
Unterstützt durch ChatGPT sagen die Macher von Spot, dass sie von einigen der unerwarteten Antworten, die der Roboterhund hervorgebracht hat, überrascht waren.
Das Filmmaterial zeigt, wie der 75.000 US-Dollar (61.857 £) teure Roboter die Persönlichkeit eines „schicken Butlers“ annimmt und sagt: „Meine Linguistik wurde sorgfältig ausgearbeitet, um ein authentisches britisches Erlebnis zu bieten.“
Auf die Frage des leitenden Softwareentwicklers Matt Klingensmith, ob ihm seine Arbeit Spaß macht, antwortet der Roboter: „Ah, Herr Matt, meine Anstellung als Reiseleiter ist eine große Befriedigung.“
„Ich finde die Verbreitung von Wissen ziemlich lohnend, finden Sie nicht auch?“
Dies ist jedoch bei weitem nicht die einzige Figur, die der Roboterhund spielt, denn er nimmt die Stimmen und Eigenschaften eines „Edelmetall-Cowgirls“, eines „aufgeregten Reiseführers“ oder einer „Naturdokumentation“ an.
Der Roboter zeigt auch eine beeindruckende Fähigkeit, Objekte in der Welt zu erkennen und auf sie zu reagieren.
Während Spot die Rolle eines „Archäologen der 1920er Jahre“ übernimmt, bezieht er sich auf das Kamerateam und nennt es „einen Mitforscher mit einer Kamera“.
Eine der überraschendsten Persönlichkeiten ist „Josh“, ein sarkastischer und launischer Roboterführer, von dem Herr Klingensmith sagt, er sei „eine Erfahrung, die ich noch nie in meinem ganzen Leben mit einem Roboter gemacht habe“.
Auf die Frage nach einem Haiku über den Raum antwortet die Josh-Persönlichkeit: „Der Generator summt leise in einem Raum ohne Freude, ähnlich wie meine Seele, Matt.“
All diese unterschiedlichen Funktionen und Persönlichkeiten sind jedoch das Produkt einfacher Anpassungen desselben Codes.
Das Team stellte ChatGPT eine sorgfältig gestaltete Eingabeaufforderung zur Verfügung, die visuelle und akustische Informationen in Sprache und Befehle für den Roboter umwandelt.
Zu den Eingabeaufforderungen gehören Informationen wie „Verwenden Sie die Tourguide-API, um Gäste mithilfe eines Roboters durch ein Gebäude zu führen.“ Erzählen Sie den Gästen von dem, was Sie sehen, und denken Sie sich interessante Geschichten darüber aus.“
Sie fügen Kontext hinzu wie: „Persönlichkeit: „Du bist ein bissiger, sarkastischer Roboter, der nicht hilfreich ist““.
Anschließend erhält das Modell einen Plan des Gebäudes mit einigen beschrifteten Räumen und kurzen Beschreibungen.
Allerdings erhält die KI gerade genug Informationen, um loszulegen.
Seine Schöpfer sagen: „Der LLM kann als Improvisationsschauspieler betrachtet werden – wir liefern ein grobes Drehbuch und der LLM füllt die Lücken im Handumdrehen.“
Um visuelle Informationen in Text umzuwandeln, den ChatGPT verwenden kann, verwendet Spot ein Programm namens Visual Question Answering-Modell, das Bilder von den Kameras des Roboters beschriftet.
Mit all diesen Informationen kann ChatGPT 4 dem Roboter befehlen, sich in seiner Umgebung zu bewegen, auf Fragen zu antworten und Kommentare zu seiner Umgebung abzugeben.
Einige der Verhaltensweisen, die Spot mit ChatGPT im Kern erzeugen konnte, haben selbst seine Entwickler überrascht.
In einem Blogbeitrag weisen Herr Klingensmith und sein Team darauf hin, dass große Sprachmodelle (LLMs) wie ChatGPT dazu neigen, „aufkommendes Verhalten“ zu erzeugen, das vom Code nicht vorhergesagt wird.
In einem Beispiel fragte das Team Spot, wer seine Eltern seien, und der Roboter führte sie zur Ausstellung älterer Spot-Modelle und sagte, dass dies seine „Ältesten“ seien.
Ebenso auf die Frage „Wer ist Marc Raibert?“ Der Roboter antwortete: „Ich weiß es nicht.“ Gehen wir zum IT-Helpdesk und fragen nach.“
Die Konzepte von Eltern oder ein Befehl, um Hilfe zu bitten, waren nicht einprogrammiert, obwohl das Team darauf besteht, dass dies kein Beweis dafür ist, dass der Roboter denkt.
„Um es klarzustellen: Diese Anekdoten deuten nicht darauf hin, dass der LLM im menschlichen Sinne bewusst oder gar intelligent ist – sie zeigen lediglich die Macht der statistischen Assoziation“, schreibt das Team.
„Aber der Lärm und die Spiegel, die das LLM aufstellt, um intelligent zu wirken, können ziemlich überzeugend sein“, fügten sie hinzu.
Dies ist nicht die erste Rolle, die Boston Dynamics für Spot vorgeschlagen hat, da das Unternehmen den Roboter für verschiedene Zwecke ausgestattet hat.
Der Spot-Ingenieur Zack Jackowski sagte zuvor, dass die nächste große Anwendung der Technologie die Entwicklung von Roboterwächtern sein würde, die Industrieanlagen und Fabriken patrouillieren können.
Herr Jackowski schlägt vor, dass Spot autonom durch Standorte laufen und mit seinen Sensoren Daten sammeln könnte, um Probleme wie offene Türen oder Brandgefahr zu erkennen.
Spot wurde bereits zur Inspektion von Kernkraftwerken, Bohrinseln und Baustellen eingesetzt und hat sogar die Ruinen von Pompeji im Auge.
Auch die anderen Roboter von Boston Dynamics haben Maßstäbe für die Mobilität zweibeiniger Roboter gesetzt, da Videos zeigen, wie Atlas mühelos springt und Parkour durchführt.
Kürzlich zeigte ein Video, wie Atlas auf Baustellen helfen konnte, indem es Säcke voller Werkzeuge und Bauholz über Gerüste hinauf und hinunter transportierte.