Spot, der „große gelbe Hund“ von Boston Dynamics, kann als Internet-Berühmtheit in der Roboterwelt bezeichnet werden. Spot, der patrouillieren, Steine bewegen und tanzen kann, hat seit seiner Geburt die Aufmerksamkeit von Roboterliebhabern auf der ganzen Welt auf sich gezogen. Who kann sich weigern, flexibel und ehrlich zu sein, und kann auch ein süßer Roboterhund sein?
Nach Jahren der Entwicklung ist Niedlichkeit nicht mehr das „Hauptgeschäft“ von Spot. Boston Dynamics stellte vor, dass Spot nun Menschen helfen kann, bestimmte Aufgaben zu erledigen, wie z. Was passiert, wenn Sie Spots flexiblen Körper und ein intelligentes Gehirn wie chatgpt verwenden?
Der Experte für künstliche Intelligenz, Santiago Valdarrama, machte Spot wirklich zum „mächtigsten Gehirn“.
ChatGPT vereinfacht die Mensch-Computer-Interaktion erheblich
Santiago AktieInteragiere mit der modifizierten Version von Spot, dem möglicherweise ersten sprechenden und chattenden Roboterhund der Geschichte. Spot ist nicht nur ein Gerät, das mit „Siri“ ausgestattet ist: Wenn es menschliche Fragen beantwortet, schwingt auch sein Körper mit Inhalt und Ton, genau wie die Reproduktion von Wall-E. Wenn Sie die einfache Frage „Ja oder Nein“ stellen, gibt es körpersprachliche Antworten wie „Nicken“ und „Kopfschütteln“, was zeigt, dass Spot nicht so einfach ist wie ein integrierter intelligenter Lautsprecher.
Nach der Verbindung mit ChatGPT besteht die größte Änderung von Spot darin, dass es menschliche Sprache verstehen und mit Verbrauchern in natürlicher Sprache kommunizieren kann. Santiago demonstrierte Spot, dass der Raum zu voll war, und bat ihn, sich zurückzuziehen.Sobald die Stimme fiel, verstand Spot, was Santiago meinte, und trat ein paar Schritte zurück, was wie ein KI-Roboter in einem Science-Fiction-Film war .
In der Vergangenheit war es zur Steuerung von Spot notwendig, eine Fernbedienung wie eine Drohne zu verwenden oder Befehle mit einem Computer einzugeben. Jetzt verleiht ChatGPT Spot ein starkes natürliches Sprachverständnis, und Sie können mit dem Roboter sprechen, indem Sie Ihren Mund bewegen. ChatGPT fungiert als Übersetzer zwischen Menschen und Robotern, wandelt die von Menschen eingegebene „menschliche Sprache“ in Anweisungen um, die die Maschine verstehen kann, und drückt dann das Feedback des Roboters in tatsächliches Verhalten oder „menschliche Sprache“ aus.
Santiago stellte vor, wie man Spot-Daten in ChatGPT eingibt, und erklärte die Struktur und wie man sie liest, um einen Sprachdialog mit Spot zu führen. Die Interaktion zwischen dem Bediener und Spot kann stark vereinfacht werden: Menschen können direkt fragen: „Wie viel Akku haben Sie noch?“ Spot antwortet in gesprochenen Worten, verwendet die Text-to-Speech-Technologie von google in der Mitte, und passt dann die ChatGPT-Antwort durch Spots „Mund“ sprechen.
Spot (oder das eingebaute ChatGPT) beantwortet Fragen entsprechend der tatsächlichen Situation. Wenn es beispielsweise gefragt wird, welche Aufgaben es als nächstes erledigen muss, antwortet es gemäß der festgelegten Aufgabenliste und vermeidet fabrizierte Antworten wie ChatGPT. Wenn der Bediener Spot den Befehl gibt, sich um 90 Grad zu drehen und 1 Meter vorwärts zu bewegen, mobilisiert Spot die Sensoren und das Positionierungssystem, um genau auf den Befehl zu reagieren, ohne die Kontrolle aufgrund eines „zu entwickelten Gehirns“ zu verlieren. Interessanterweise würde es auf die Frage „Wer bist du?“ „Ich bin OpenAI“ statt „Ich bin Spot“ antworten.
Santiagos Unternehmen Levatas ist ein KI-Unternehmen, das mit Boston Dynamics zusammenarbeitet, um Unternehmen dabei zu unterstützen, herauszufinden, wie Roboter zur Lösung von Problemen eingesetzt werden können. Santiago glaubt, dass die größte Bedeutung der Installation von ChatGPT on Spot darin besteht, die komplexen Daten, die nur Techniker verarbeiten können, in eine natürliche Sprache umzuwandeln, die jeder verstehen kann.
Jedes Mal, wenn ein Roboter eine Aufgabe ausführt, muss er einen langen Befehlssatz eingeben, und am Ende generiert er eine große Menge an Daten. Nur professionelles und technisches Personal kann das Problem analysieren und verbessern. Jetzt durch ChatGPT ist dies möglich in ein paar einfachen Sätzen erledigt werden Wenn der Roboter die Schwelle bedient Wenn sie niedriger wird, werden die Einsatzszenarien von Robotern reichhaltiger.
Das Potenzial großer KI-Modelle darf nicht unterschätzt werden
Die Version von Spot mit dem „leistungsstärksten Gehirn“ ist nicht über Nacht erhältlich. Vor einem Monat hat Santiago ein Video hochgeladen, in dem Spot vorgestellt wird, das mithilfe von Whisper, einem weiteren wichtigen KI-Modell von OpenAI, „menschliche Sprache verstehen“ kann. In dieser „ersten Ausgabe“ von Smart Spot hat Santiago das Prinzip im Detail vorgestellt:
Whisper kann Sprache mit beeindruckender Genauigkeit und Geschwindigkeit in Echtzeit effizient in Text umwandeln. Durch die Kombination von Whisper und dem SDK von Spot können Schlüsselwörter aus der menschlichen Sprache extrahiert werden, und dann können Spot über das SDK Anweisungen gegeben werden.
Die nächsten 5 Jahre werden wild.
Wenn Sie wissen, wie man codiert und wie diese KI-Modelle funktionieren, haben Sie unendliche Möglichkeiten.
Wir haben integriert @OpenAI’s Whisper mit Spot. Wir können den Roboter jetzt mit unserer Stimme steuern!
Nichts ist lohnender, als zu sehen, wie Ihr Code auf vier Beinen läuft. pic.twitter.com/MDgYdYfQLN
—Santiago (@svpino) 27. März 2023
Sie brauchen nur ein Wort zu sagen, Sie können Spot die Ladestation verlassen lassen, um zu prüfen, ob ein Problem mit dem Zähler vorliegt, was die Kosten für den menschlichen Betrieb erheblich reduziert. Santiago beantwortet die viel diskutierte Frage aus einer guten Perspektive: Was bringt es, ein großes Sprachmodell wie ChatGPT zu erstellen?
Am Anfang dachten die Leute, dass ChatGPT nur eine generative KI mit starken Fähigkeiten zum Verstehen natürlicher Sprache sei und Artikel schreiben und Berichte erstellen könne. Obwohl es nicht zuverlässig war, war es dennoch erstaunlich. Später entdeckten die Leute, dass ChatGPT, solange es entsprechende Anweisungen erhält, Menschen helfen kann, die Programmierung oder Textverarbeitung automatisch abzuschließen, genau wie ein Computer, der auf natürlicher Sprache basiert.
Nachdem OpenAI die Plug-in-Funktion veröffentlicht hat, kann ChatGPT mit vielen Netzwerkanwendungen kombiniert werden und viele plattformübergreifende Betriebsdialoge integrieren, um ein neues Netzwerkportal zu bilden. Microsoft Copilot inspiriert die Menschen dazu, sich die nächste Stufe der Mensch-Computer-Interaktion vorzustellen: Die grafische Bedienoberfläche ist möglicherweise nicht immer vernünftig, und viele Operationen, an die jeder gewöhnt ist, können durch Dialoge ersetzt werden.
Wenn wir zu Spot zurückkehren, können wir die Bedeutung des großen Sprachmodells klarer erkennen: die Mensch-Computer-Interaktion zu vereinfachen und Robotern fortschrittlichere Intelligenz zu verleihen. Ob ChatGPT ein neues Netzwerkportal oder eine Industrieroboter-Fernbedienung mit Lernfähigkeit, Problemanalyse und präziser Bedienung ist, es wandelt im Wesentlichen komplexe Befehlssätze in natürliche Sprache um, um die Betriebskosten zu senken.
Diese Art der Ermächtigung macht zukünftige Industrieroboter nicht nur zu Werkzeugen zur Befehlsausführung, sondern auch zu einer mit dem menschlichen Gehirn vergleichbaren Intelligenz. So wie die grafische Benutzeroberfläche komplexe Befehlszeilen in intuitive Symbole verwandelt und die komplexe Bedienung des Klickens auf verschiedene Symbole zu einem einfachen Satz wird, bewegen sich Menschen von der grafischen Benutzeroberfläche zu einer neuen Stufe: der Benutzeroberfläche in natürlicher Sprache.
In dieser Phase wird das große Sprachmodell zur Schlüsseltechnologie von Industrierobotern, vereinfacht die Mensch-Computer-Interaktion, verbessert die Produktionseffizienz und fördert die Entwicklung der Humantechnologie. In einigen Fällen können Sprachmodelle beim Verstehen von Sprache sogar besser abschneiden als Menschen. Arvind Narayanan, Professor an der Princeton University, erwähnte in seinem Blog einen persönlichen Fall.
Arvind Narayanan verband ChatGPT mit Sprachinteraktion und probierte es für seine fast 4-jährige Tochter aus. Wie alle Kinder ist auch meine Tochter voller Neugier und stellt ChatGPT oft verschiedene Fragen.Zu seiner Überraschung antwortete ChatGPT, als er ChatGPT sagte, dass er mit Kindern spreche, empathischer.
Tochter: „Was passiert, wenn das Licht ausgeschaltet wird?“
ChatGPT: „Wenn das Licht ausgeschaltet ist, wird es sehr dunkel und es kann beängstigend sein. Aber keine Sorge! Es gibt viele Dinge, die Ihnen helfen können, sich im Dunkeln sicher und wohl zu fühlen.“
„Bloomberg“-Kolumnist Parmy Olson wies darauf hin, dass Microsoft und Google damit beschäftigt sind, große Modelle auf Suchmaschinen zu installieren, aber sie sehen nicht, dass ChatGPT als Begleiter besser geeignet ist. Olson bat ChatGPT, den EQ-Test zu machen, und die Ergebnisse waren besser als sie und ihre Kollegen. Da ChatGPT mit Online-Text trainiert wird, enthalten die Daten viele falsche Informationen, aber dadurch kann es Empathie besser imitieren.
Diese Fälle veranschaulichen, dass große Sprachmodelle tatsächlich ein großes Potenzial für das Verständnis natürlicher Sprache haben. Mit Hilfe leistungsstarker Verständnisfähigkeiten können große Sprachmodelle verwendet werden, um eine weitere Revolution in der Mensch-Computer-Interaktion zu erreichen, und große Sprachmodelle bringen neue Möglichkeiten für die Entwicklung von Robotern. Große Sprachmodelle ermöglichen es Robotern, Anweisungen schneller zu verstehen und zu verarbeiten, schneller zu lernen und sich an neue Aufgaben und Umgebungen anzupassen.
Im Titelartikel „Dark Factory“ von „The New Yorker“ wurde erwähnt, dass die derzeit übliche Schwierigkeit von Industrierobotern darin besteht, den „Endeffektor“ (Endeffektor) wie eine menschliche Hand zu gestalten, damit der Roboter Gegenstände unterschiedlicher Größe greifen kann und Formen mit unterschiedlichen Kräften.
Wenn dieses Problem gelöst ist, kann der Roboter filigranere Arbeiten ausführen, und der Automatisierungsgrad wird erheblich verbessert. Zum Beispiel erfordern die Automatisierung der verschiedenen Obsternte und die Montagelinie von Apfelprodukten nicht mehr so viele Arbeiter. In Zukunft werden Industrieroboter nicht nur Werkzeuge zur Befehlsausführung sein, sondern auch über die dem menschlichen Gehirn gleichwertige Intelligenz verfügen und die Fähigkeit besitzen, zu lernen, Probleme zu analysieren und präzise Operationen auszuführen.
„Muskulöse“ Industrieroboter in industriellen Produktionslinien sind flexibler, können verschiedene Produktionsprobleme bewältigen und die Produktionseffizienz und -qualität verbessern. Beispielsweise können große Sprachmodelle in Autofabriken Roboter mit größerer Intelligenz und Kognition ausstatten und vielfältige Aufgaben erledigen Medizinische Roboter können natürliche Sprachtechnologie verwenden, um mit Ärzten und Patienten zu kommunizieren, um bessere Dienstleistungen zu erbringen.
Große Sprachmodelle geben Robotern ein stärkeres Gehirn und schaffen breitere Anwendungsszenarien, die wahrscheinlich zum Kern der vierten industriellen Revolution werden. Die „Sprachversion“ Spot ist der erste Funke der Reform.
(Dieser Artikel wird gesponsert von Liebes-Fan Nachdruck mit Genehmigung; Quelle des ersten Bildes: Video-Screenshot)