Der „Big Yellow Dog“-Spot von Boston Dynamics kann als Vorbild für Internet-Promi-Roboter bezeichnet werden.
Spot kann patrouillieren, Steine bewegen und tanzen. Seit seiner Geburt hat Spot die Aufmerksamkeit von Roboterliebhabern auf der ganzen Welt auf sich gezogen. Wer kann einen solchen Roboterhund mit flexiblen Bewegungen, einfacher und ehrlicher Haltung und Niedlichkeit ablehnen?
Nach Jahren der Entwicklung ist es nicht mehr das „Hauptgeschäft“ von Spot, niedlich zu sein. Laut Boston Dynamics kann Spot nun Menschen dabei helfen, Aufgaben in bestimmten Szenarien zu erledigen, etwa bei der Erkennung von Instrumenten auf Überseeschiffen und der Teilnahme an komplexen Geländevermessungen. Oder bei Rettungsarbeiten und bald.
Was passiert, wenn Sie Spot einen so flexiblen Körper und ein so intelligentes Gehirn wie chatgpt geben?
Der Experte für künstliche Intelligenz, Santiago Valdarrama, hat einen solchen Spot wirklich mit dem „mächtigsten Gehirn“ gemacht.
Verwenden Sie ChatGPT, um die Interaktion zwischen Mensch und Computer erheblich zu vereinfachen
Santiago hat auf Twitter ein Video geteilt, in dem er mit einer modifizierten Version von Spot interagiert, möglicherweise dem ersten sprechenden und chattenden Roboterhund überhaupt.
Wie im Display-Video zu sehen ist, ist Spot nicht nur so einfach wie die Installation einer „Siri“. Wenn es menschliche Fragen beantwortet, schwingt sein Körper auch mit dem Inhalt und Ton des Satzes, der wie The Wall-E aussieht aus der Science-Fiction ist Wirklichkeit geworden.
Wenn Sie ein paar einfache Fragen wie „Ja oder Nein“ stellen, antwortet es Ihnen auch mit Körpersprache wie „Nicken“ und „Kopfschütteln“ statt mit Stimme. Dies zeigt, dass Spot bei weitem nicht so einfach ist wie ein Körperbau -in intelligenter Lautsprecher.
Nach dem Zugriff auf ChatGPT besteht die größte Änderung in Spot darin, dass es menschliche Sprache verstehen und mit Benutzern in natürlicher Sprache kommunizieren kann.
Santiago zeigte eine Szene. Er sagte Spot, dass der Raum zu voll sei, weil er zu im Weg sei. Lassen Sie ihn ein wenig zurücktreten. Sobald die Stimme verstummte, verstand Spot Santiagos Bedeutung und trat ein paar Schritte zurück.
Wie wäre es damit, haben Sie schon das Gefühl, Roboter in Science-Fiction-Filmen zum Einsatz zu rufen?
In der Vergangenheit war für die Bedienung von Spot eine große drohnenähnliche Fernbedienung oder ein Computer erforderlich, um komplexe Befehle einzugeben. Durch die Hinzufügung von ChatGPT verfügt Spot nun über eine leistungsstarke Fähigkeit zum Verstehen natürlicher Sprache und kann mit Robotern interagieren, indem es den Mund bewegt.
In diesem Prozess fungiert ChatGPT als Übersetzer zwischen Menschen und Robotern, indem es die von Menschen eingegebenen „menschlichen Wörter“ in Anweisungen umwandelt, die Maschinen verstehen können, und das Feedback des Roboters dann in tatsächliches Verhalten oder „menschliche Wörter“ ausdrückt.
Santiago stellte vor, dass sie die Spot-Datei in ChatGPT eingegeben haben, und erklärte die Struktur der Datei und wie man die Datei liest, um den Sprachdialog und die Bedienung mit Spot zu realisieren.
Die Interaktion zwischen dem Betreiber und Spot wurde erheblich vereinfacht. Die Leute können direkt fragen: „Wie viel Strom haben Sie?“ Dann antwortet Spot per Sprache, die die Text-to-Speech-Technologie von google verwendet, und spricht dann die Antwort von ChatGPT durch Spots „Mund“.
Spot (oder das integrierte ChatGPT) beantwortet Fragen entsprechend der tatsächlichen Situation. Wenn Sie beispielsweise fragen, welche Aufgabe als nächstes erledigt werden soll, antwortet es gemäß der festgelegten Aufgabenliste, wodurch ChatGPT-Situationen, in denen Fakten erfunden werden, weitgehend vermieden werden.
Wenn der Bediener Spot-Befehle gibt, wie zum Beispiel eine Drehung um 90 Grad und eine Vorwärtsbewegung um 1 Meter, verbindet Spot die internen Sensoren und das Positionierungssystem, um genau auf diese Befehle zu reagieren, und sagt nicht, dass er außer Kontrolle ist, weil das „Gehirn es auch ist“. entwickelt“.
Interessanterweise antwortet es auf die Frage „Wer sind Sie?“ mit „Ich bin OpenAI“ und nicht mit dem Roboterhund Spot.
Santiagos Unternehmen Levatas ist ein KI-Unternehmen, das mit Boston Dynamics zusammenarbeitet, um Unternehmen bei der Erforschung des Einsatzes von Robotern zur Lösung praktischer Probleme zu unterstützen.
Santiago glaubt, dass die größte praktische Bedeutung der Installation von ChatGPT vor Ort darin besteht, komplexe Daten, mit denen nur Techniker umgehen können, in eine natürliche Sprache umzuwandeln, die jeder verstehen und verstehen kann.
Jedes Mal, wenn ein Roboter eine Aufgabe ausführt, muss er eine lange Reihe von Anweisungen eingeben. Nach Abschluss der Arbeit generiert er außerdem große Datenmengen, und nur die professionellsten Techniker können anhand dieser Daten Probleme analysieren.
Aber jetzt können Sie es über ChatGPT mit zwei einfachen Sätzen erledigen.
Wenn die Betriebsschwelle des Roboters niedriger wird, werden die Einsatzszenarien des Roboters vielfältiger.
Das Potenzial großer Sprachmodelle für KI ist nicht zu unterschätzen
Die Version von Spot mit dem „leistungsstärksten Gehirn“ wird nicht über Nacht erreicht. Vor einem Monat veröffentlichte Santiago ein Video, in dem ein Spot vorgestellt wird, der „menschliche Sprache verstehen“ kann und Whisper verwendet, ein weiteres wichtiges KI-Modell von OpenAI.
In dieser „ersten Ausgabe“ von Wisdom Spot erklärt Santiago die Prinzipien ausführlicher:
Whisper kann Sprache effizient und in Echtzeit in Text umwandeln, und die Konvertierungsgenauigkeit und -geschwindigkeit sind sehr beeindruckend. Durch die Kombination von Whisper mit dem SDK von Spot können Schlüsselwörter aus der menschlichen Sprache extrahiert und dann über das SDK Befehle an Spot gesendet werden.
Sie müssen nur ein Wort dazu sagen, und Sie können Spot dazu bringen, die Ladestation zu verlassen und aufzustehen, um zu überprüfen, ob ein Problem mit dem Messgerät vorliegt, was die Betriebskosten für den Menschen erheblich senkt.
Santiagos Praxis beantwortet eine viel diskutierte Frage aus einer guten Perspektive: Was ist der Sinn eines großen Sprachmodells wie ChatGPT?
Am Anfang dachten die Leute, dass ChatGPT eine einfache textgenerierende KI sei. Sie verfügte über eine relativ starke Fähigkeit zum Verstehen natürlicher Sprache und konnte Artikel und Berichte schreiben. Obwohl sie nicht so zuverlässig war, war sie dennoch erstaunlich.
Später entdeckten die Leute, dass ChatGPT, solange es entsprechende Anweisungen erhält, den Menschen ersetzen kann, um Programme oder die Verarbeitung von Dokumenten automatisch abzuschließen, genau wie ein Computer, der auf natürlicher Sprache basiert.
Nachdem OpenAI die Plug-in-Funktion veröffentlicht hat, kann ChatGPT mit vielen Internetanwendungen kombiniert werden, viele plattformübergreifende Vorgänge mit Dialogen integrieren und zu einem neuen Zugang zum Internet werden.
Der von Microsoft veröffentlichte Copilot hat die Fantasie der Menschen über die nächste Stufe der Mensch-Computer-Interaktion angeregt: Die grafische Bedienoberfläche ist nicht immer ein vernünftiges Paradigma, und viele Operationen, an die wir gewöhnt sind, können durch Dialoge ersetzt werden.
Wenn wir zu Spot zurückkehren, können wir die Bedeutung eines großen Sprachmodells deutlich erkennen: die Mensch-Computer-Interaktion zu vereinfachen und Robotern eine fortschrittlichere Intelligenz zu verleihen. Unabhängig davon, ob ChatGPT als neues Internetportal oder als Fernbedienung zur Steuerung von Industrierobotern mit der Fähigkeit zum Lernen, zur Problemanalyse und zur Durchführung hochpräziser Operationen verwendet wird, wandelt es im Wesentlichen komplexe Befehlssätze in natürliche Sprache um und senkt die Betriebskosten.
Diese Art der Ermächtigung wird zukünftige Industrieroboter nicht nur zu Werkzeugen zur Befehlsausführung machen, sondern auch über ein Intelligenzniveau verfügen, das mit dem des menschlichen Gehirns vergleichbar ist. So wie die grafische Benutzeroberfläche die komplexe Befehlszeile in intuitive Symbole verwandelt und der komplexe Vorgang des Klickens verschiedener Symbole nun zu einem einfachen Satz geworden ist, bewegen sich die Menschen von der grafischen Benutzeroberfläche zu einer neuen Stufe: der Verwendung einer Benutzeroberfläche in natürlicher Sprache.
In diesem Stadium werden groß angelegte Sprachmodelle zur Schlüsseltechnologie für Industrieroboter, die die Mensch-Computer-Interaktion vereinfachen, die Produktionseffizienz verbessern und die technologische Entwicklung der menschlichen Gesellschaft weiter vorantreiben werden.
Und in manchen Fällen können Sprachmodelle beim Verstehen von Sprache sogar bessere Leistungen erbringen als Menschen. Arvind Narayanan, Professor an der Princeton University, erwähnte in seinem Blog einen persönlichen Fall. Arvind Narayanan verband ChatGPT mit der Sprachinteraktion für seine fast vierjährige Tochter. Wie alle Kinder ist seine Tochter voller Neugier und stellt ChatGPT oft verschiedene Fragen.
Als er ChatGPT erzählte, dass es sich um ein Gespräch mit einem Kind handelte, war ChatGPT zu seiner Überraschung sehr gut darin, Mitgefühl auszudrücken.
Tochter: „Was passiert, wenn das Licht ausgeschaltet wird?“
ChatGPT: „Wenn das Licht ausgeschaltet ist, wird es sehr dunkel und kann ein wenig unheimlich sein. Aber keine Sorge! Es gibt viele Dinge, die Ihnen helfen können, sich im Dunkeln sicher und wohl zu fühlen.“
„Bloomberg“-Kolumnist Parmy Olson wies darauf hin, dass Microsoft und Google damit beschäftigt seien, große Sprachmodelle in Suchmaschinen einzusetzen, sie sehen jedoch nicht, dass ChatGPT besser als emotionaler Begleiter denn als Faktenlieferant geeignet sei. Olson bat ChatGPT außerdem, einen emotionalen Intelligenztest zu machen, der sich als besser herausstellte als sie selbst und ihre Kollegen. Nur weil ChatGPT mit Textmaterialien im Internet trainiert wird, enthalten die Daten viele Fehlinformationen, aber dadurch kann es auch besser Empathie nachahmen.
Diese Fälle haben vollständig gezeigt, dass die Fähigkeit großer Sprachmodelle, natürliche Sprache zu verstehen, tatsächlich ein großes Anwendungspotenzial hat. Mit solch einer leistungsstarken Verständnisfähigkeit können wir wirklich eine weitere Revolution in der Mensch-Computer-Interaktion mit großen Sprachmodellen verwirklichen, und das Aufkommen großer Sprachmodelle hat neue Möglichkeiten für die Entwicklung von Robotern eröffnet.
Große Sprachmodelle ermöglichen es Robotern, Anweisungen besser zu verstehen und zu verarbeiten sowie schneller zu lernen und sich an neue Aufgaben und Umgebungen anzupassen. „The New Yorker“ erwähnte im Titelartikel „Dark Factory“ (dunkle Fabrik), dass eine häufige Schwierigkeit bei Industrierobotern derzeit darin besteht, einen „Endeffektor“ wie eine menschliche Hand zu konstruieren, damit der Roboter verschiedene Objekte greifen kann verschiedene Größen und Formen mit großer Kraft.
Wenn dieses technische Problem gelöst wird, können Roboter filigranere Arbeiten ausführen und der Automatisierungsgrad in vielen Bereichen wird erheblich verbessert. Beispielsweise kann das Pflücken verschiedener Früchte automatisiert werden und das Fließband von Foxconn benötigt nicht mehr so viele Arbeiter.
Künftige Industrieroboter sollten nicht nur ein Werkzeug zur Befehlsausführung sein, sondern auch über eine Intelligenz verfügen, die mit der des menschlichen Gehirns vergleichbar ist, mit der Fähigkeit zu lernen, Probleme zu analysieren und hochpräzise Operationen auszuführen.
In der industriellen Produktionslinie sind „muskulöse“ Industrieroboter flexibler und effizienter, können verschiedene Produktionsprobleme besser bewältigen und die Produktionseffizienz und -qualität verbessern. Beispielsweise können im Automobilbau groß angelegte Sprachmodelle Roboter mit stärkerer Intelligenz und kognitiven Fähigkeiten ausstatten, sodass sie vielfältige Aufgaben besser erledigen können.
Im Bereich der medizinischen Robotik können Roboter mithilfe natürlicher Sprachverarbeitungstechnologie mit Ärzten und Patienten kommunizieren, um bessere medizinische Dienstleistungen zu erbringen.
Groß angelegte Sprachmodelle haben der Roboterindustrie ein leistungsfähiges Gehirn verliehen und allgemeinere Anwendungsszenarien für Roboter geschaffen, die wahrscheinlich zum technischen Kern der vierten industriellen Revolution werden. Die „Sprachversion“ Spot ist der erste Funke dieses technologischen Wandels.