Der „Big Yellow Dog“-Spot von Boston Dynamics kann als Modell für prominente Internet-Roboter bezeichnet werden.
Spot kann patrouillieren, Steine bewegen und tanzen. Seit seiner Geburt hat Spot die Aufmerksamkeit von Roboterliebhabern auf der ganzen Welt auf sich gezogen. Wer kann einem solchen Roboterhund mit flexiblen Bewegungen, einfacher und ehrlicher Haltung und Niedlichkeit widerstehen?
Nach Jahren der Entwicklung ist es nicht mehr Spots „Hauptgeschäft“, niedlich zu sein. Laut Boston Dynamics kann Spot Menschen nun helfen, Aufgaben in bestimmten Szenarien zu erledigen, wie zum Beispiel das Aufspüren von Instrumenten auf Überseeschiffen und die Teilnahme an komplexen Geländevermessungen oder Rettungsarbeiten und bald.
Was wird passieren, wenn Sie Spot einen so flexiblen Körper und ein so intelligentes Gehirn wie chatgpt geben?
Der Künstliche-Intelligenz-Experte Santiago Valdarrama hat wirklich einen solchen Spot mit dem „stärksten Gehirn“ gemacht.
Verwenden Sie ChatGPT, um die Mensch-Computer-Interaktion erheblich zu vereinfachen
Santiago hat auf Twitter ein Video geteilt, in dem er mit einer modifizierten Version von Spot interagiert, möglicherweise dem ersten sprechenden, chattenden Roboterhund aller Zeiten.
Wie im Demonstrationsvideo zu sehen ist, ist Spot nicht nur so einfach wie eine „Siri“ zu installieren: Wenn es menschliche Fragen beantwortet, schwingt sein Körper auch mit Inhalt und Tonfall des Satzes, der wie The Wall-E aussieht Science-Fiction ist Wirklichkeit geworden.
Wenn Sie einige einfache Fragen wie „Ja oder Nein“ stellen, antwortet es Ihnen auch mit Körpersprache wie „Nicken“ und „Kopfschütteln“ statt mit der Stimme. Dies zeigt, dass Spot bei weitem nicht so einfach ist wie ein gebauter Körper -im intelligenten Lautsprecher.
Nach dem Zugriff auf ChatGPT besteht die größte Änderung in Spot darin, dass es menschliche Sprache verstehen und mit Benutzern in natürlicher Sprache kommunizieren kann.
Santiago demonstrierte eine Szene. Er sagte Spot, dass der Raum zu voll sei, weil er zu im Weg sei. Lass es ein wenig zurückgehen. Sobald die Stimme fiel, verstand Spot Santiagos Bedeutung und trat ein paar Schritte zurück.
Wie wäre es damit, ist es so, als würde man Roboter in Science-Fiction-Filmen zur Arbeit rufen?
In der Vergangenheit war für die Bedienung von Spot eine große Drohnen-ähnliche Fernbedienung oder ein Computer erforderlich, um komplexe Befehle einzugeben, aber jetzt hat das Hinzufügen von ChatGPT Spot eine leistungsstarke Fähigkeit zum Verstehen natürlicher Sprache verliehen, und es kann mit Robotern interagieren, indem es Ihren Mund bewegt.
In diesem Prozess fungiert ChatGPT als Übersetzer zwischen Menschen und Robotern, indem es die von Menschen eingegebenen „menschlichen Wörter“ in Anweisungen umwandelt, die Maschinen verstehen können, und dann das Feedback des Roboters in tatsächliches Verhalten oder „menschliche Wörter“ ausdrückt.
Santiago stellte vor, dass sie die Spot-Datei in ChatGPT eingeben, und erklärte die Struktur der Datei und wie man die Datei liest, wodurch der Sprachdialog und die Bedienung mit Spot realisiert werden.
Die Interaktion zwischen dem Operator und Spot wurde stark vereinfacht. Die Leute können ihn direkt fragen: „Wie viel Energie haben Sie?“ Dann antwortet Spot per Sprachausgabe, die die Text-to-Speech-Technologie von google verwendet. Sprechen Sie die Antwort von ChatGPT durch Spots „Mund“.
Spot (oder das eingebaute ChatGPT) beantwortet Fragen entsprechend der tatsächlichen Situation. Wenn Sie es beispielsweise fragen, welche Aufgabe als nächstes erledigt werden soll, antwortet es entsprechend der festgelegten Aufgabenliste, wodurch ChatGPT-Situationen, die Fakten fabrizieren, weitgehend vermieden werden.
Wenn der Bediener Spot Befehle gibt, wie z. B. eine Drehung um 90 Grad und eine Vorwärtsbewegung um 1 Meter, verbindet Spot die internen Sensoren und das Positionierungssystem, um genau auf diese Befehle zu reagieren, und sagt nicht, dass es außer Kontrolle geraten ist, weil das „Gehirn“ es auch ist entwickelt“.
Interessanterweise antwortet es auf die Frage „Wer bist du?“ „Ich bin OpenAI.“ und nicht der Roboterhund Spot.
Santiagos Unternehmen Levatas ist ein KI-Unternehmen, das mit Boston Dynamics zusammenarbeitet, um Unternehmen dabei zu unterstützen, herauszufinden, wie Roboter zur Lösung praktischer Probleme eingesetzt werden können.
Santiago glaubt, dass die größte praktische Bedeutung der Installation von ChatGPT on Spot darin besteht, komplexe Daten, die nur Techniker verarbeiten können, in eine natürliche Sprache umzuwandeln, die jeder verstehen und verstehen kann.
Jedes Mal, wenn ein Roboter eine Aufgabe ausführt, muss er eine lange Reihe von Anweisungen eingeben; nach Abschluss der Arbeit generiert er auch eine große Menge an Daten, und nur die professionellsten Techniker können Probleme anhand dieser Daten analysieren.
Aber jetzt durch ChatGPT können zwei einfache Sätze es erledigen.
Wenn die Betriebsschwelle des Roboters niedriger wird, werden die Nutzungsszenarien des Roboters reichhaltiger.
Das Potenzial großer KI-Modelle darf nicht unterschätzt werden
Die „leistungsstärkste Gehirn“-Version von Spot wird nicht über Nacht erreicht. Vor einem Monat veröffentlichte Santiago ein Video, in dem ein Spot vorgestellt wurde, der „menschliche Sprache verstehen“ kann und Whisper verwendet, ein weiteres wichtiges KI-Modell von OpenAI.
In dieser „ersten Ausgabe“ von Smart Spot erklärt Santiago die Prinzipien genauer:
Whisper kann Sprache effizient in Echtzeit in Text umwandeln, und die Umwandlungsgenauigkeit und -geschwindigkeit sind sehr beeindruckend. Durch die Kombination von Whisper mit dem SDK von Spot kann es Schlüsselwörter aus der menschlichen Sprache extrahieren und dann über das SDK Befehle an Spot senden.
Sie müssen nur ein Wort dazu sagen, Sie können Spot dazu bringen, die Ladestation zu verlassen und aufzustehen, um zu überprüfen, ob es ein Problem mit dem Messgerät gibt, was die Betriebskosten des Menschen erheblich senkt.
Santiagos Praxis beantwortet eine viel diskutierte Frage aus einer guten Perspektive: Welche Bedeutung hat ein großes Sprachmodell wie ChatGPT?
Am Anfang dachten die Leute, dass ChatGPT eine rein texterzeugende KI sei. Sie hatte eine relativ starke Fähigkeit zum Verstehen natürlicher Sprache und konnte Artikel und Berichte schreiben. Obwohl sie nicht so zuverlässig war, war sie dennoch erstaunlich.
Später entdeckten die Leute, dass ChatGPT, solange es entsprechende Anweisungen erhält, die Programmierung oder Textverarbeitung automatisch anstelle von Menschen ausführen kann, genau wie ein Computer, der auf natürlicher Sprache basiert.
Nachdem OpenAI die Plug-in-Funktion veröffentlicht hat, kann ChatGPT mit vielen Internetanwendungen kombiniert werden, viele plattformübergreifende Operationen mit Dialogen integrieren und zu einem neuen Zugang zum Internet werden.
Copilot, veröffentlicht von Microsoft, hat die Vorstellungskraft der Menschen für die nächste Stufe der Mensch-Computer-Interaktion beflügelt: Die grafische Bedienoberfläche ist nicht immer ein vernünftiges Paradigma, und viele Operationen, an die wir gewöhnt sind, können durch Dialoge ersetzt werden.
Wenn wir zu Spot zurückkehren, können wir die Bedeutung des großen Sprachmodells deutlich erkennen: die Mensch-Computer-Interaktion zu vereinfachen und Robotern fortschrittlichere Intelligenz zu verleihen.
Ob ChatGPT als neues Internetportal oder als Fernsteuerung zur Steuerung von Industrierobotern mit der Fähigkeit zum Lernen, Analysieren von Problemen und Ausführen hochpräziser Operationen verwendet wird, es wandelt im Wesentlichen komplexe Befehlssätze in natürliche Sprache um und senkt so die Betriebskosten.
Diese Ermächtigung wird es zukünftigen Industrierobotern ermöglichen, nicht nur Werkzeuge zur Befehlsausführung zu sein, sondern auch ein Intelligenzniveau zu haben, das mit dem des menschlichen Gehirns vergleichbar ist.
So wie die grafische Benutzeroberfläche komplexe Befehlszeilen in intuitive Symbole verwandelt und jetzt die komplexe Bedienung des Klickens auf verschiedene Symbole zu einem einfachen Satz geworden ist, bewegen sich Menschen von der grafischen Benutzeroberfläche zu einer neuen Stufe: der Benutzeroberfläche in natürlicher Sprache.
In dieser Phase wird das große Sprachmodell zur Schlüsseltechnologie von Industrierobotern, die die Mensch-Computer-Interaktion vereinfachen, die Produktionseffizienz verbessern und die technologische Entwicklung der menschlichen Gesellschaft weiter vorantreiben werden.
Und in einigen Fällen können Sprachmodelle beim Verstehen von Sprache sogar besser abschneiden als Menschen. Arvind Narayanan, Professor an der Princeton University, erwähnte in seinem Blog einen persönlichen Fall.
Arvind Narayanan verband ChatGPT mit der Sprachinteraktion für seine fast vierjährige Tochter. Wie alle Kinder ist auch seine Tochter voller Neugier und stellt ChatGPT oft verschiedene Fragen.
Als er ChatGPT mitteilte, dass es mit einem Kind sprach, wurde ChatGPT zu seiner Überraschung sehr gut darin, Empathie auszudrücken.
Tochter: „Was passiert, wenn das Licht ausgeschaltet wird?“
ChatGPT: „Wenn das Licht ausgeschaltet ist, wird es sehr dunkel und kann ein wenig beängstigend sein. Aber keine Sorge! Es gibt viele Dinge, die Ihnen helfen können, sich im Dunkeln sicher und wohl zu fühlen.“
„Bloomberg“-Kolumnist Parmy Olson wies darauf hin, dass Microsoft und Google damit beschäftigt sind, große Modelle auf Suchmaschinen zu verwenden, aber sie sehen nicht, dass ChatGPT eher als emotionaler Begleiter denn als Faktenlieferant geeignet ist.
Olson bat ChatGPT auch, einen emotionalen Intelligenztest zu machen, der sich als besser herausstellte als sie selbst und ihre Kollegen. Nur weil ChatGPT mit Textmaterial im Internet trainiert wird, wird es viele Fehlinformationen in den Daten geben, aber das macht es auch besser, Empathie zu imitieren.
Diese Fälle haben voll und ganz gezeigt, dass die Fähigkeit großer Sprachmodelle, natürliche Sprache zu verstehen, tatsächlich ein großes Anwendungspotenzial hat.
Mit solch einer starken Verständnisfähigkeit können wir das große Sprachmodell nutzen, um eine weitere Innovation in der Mensch-Computer-Interaktion wirklich zu realisieren Gleichzeitig hat das Aufkommen des großen Sprachmodells neue Möglichkeiten für die Entwicklung von Robotern gebracht.
Große Sprachmodelle ermöglichen es Robotern, Anweisungen besser zu verstehen und zu verarbeiten und schneller zu lernen und sich an neue Aufgaben und Umgebungen anzupassen.
„The New Yorker“ erwähnte im Titelartikel „Dark Factory“ (dunkle Fabrik), dass eine derzeit gängige Schwierigkeit bei Industrierobotern darin besteht, einen „Endeffektor“ wie eine menschliche Hand zu konstruieren, damit der Roboter verschiedene Greifobjekte nutzen kann verschiedene Größen und Formen mit großer Kraft.
Wenn dieses technische Problem gelöst ist, können Roboter filigranere Arbeiten erledigen und der Automatisierungsgrad in vielen Bereichen wird stark verbessert. Beispielsweise kann das Pflücken verschiedener Früchte automatisiert werden, und die Montagelinie von Foxconn benötigt nicht mehr so viele Arbeiter.
Zukünftige Industrieroboter sollen nicht nur ein Werkzeug zur Befehlsausführung sein, sondern auch eine mit dem menschlichen Gehirn vergleichbare Intelligenz besitzen, lernen, Probleme analysieren und hochpräzise Operationen ausführen können.
In der industriellen Produktionslinie sind „muskulöse“ Industrieroboter flexibler und effizienter, können verschiedene Produktionsprobleme besser bewältigen und die Produktionseffizienz und -qualität verbessern. Im Bereich der Automobilherstellung beispielsweise können große Sprachmodelle Roboter mit stärkerer Intelligenz und kognitiven Fähigkeiten ausstatten, sodass sie vielfältige Aufgaben besser erledigen können.
Auf dem Gebiet der medizinischen Robotik können Roboter mithilfe von Technologien zur Verarbeitung natürlicher Sprache mit Ärzten und Patienten kommunizieren, um bessere medizinische Dienstleistungen zu erbringen.
Das große Sprachmodell hat der Roboterindustrie ein leistungsfähiges Gehirn beschert und ein allgemeineres Anwendungsszenario für Roboter geschaffen, das voraussichtlich zum technischen Kern der vierten industriellen Revolution werden wird. Die „Sprachversion“ Spot ist der erste Funke dieses technologischen Wandels.