Bildnachweis: Kovariante
Kovariante Diese Woche wurde der Start von RFM-1 (Robotics Foundation Model 1) angekündigt. Peter Chen, Mitbegründer und CEO des Spinouts für künstliche Intelligenz der UC Berkeley, erklärt gegenüber TechCrunch, dass die Plattform „im Grunde ein großes Sprachmodell (LLM) ist, aber für Robotersprache.“
RFM-1 ist unter anderem das Ergebnis einer riesigen Datenmenge, die beim Einsatz der Brain AI-Plattform von Covariant gesammelt wurde. Mit Zustimmung des Kunden hat das Startup das Roboteräquivalent einer LLM-Datenbank erstellt.
„Die Vision von RFM-1 ist es, die Milliarden zukünftiger Roboter anzutreiben“, sagt Chen. „Wir bei Covariant haben bereits viele Roboter erfolgreich in Lagerhäusern eingesetzt. Aber das ist nicht die Grenze dessen, was wir erreichen wollen. Wir wollen Roboter wirklich in der Fertigung, in der Lebensmittelverarbeitung, im Recycling, in der Landwirtschaft, im Dienstleistungssektor und sogar in den Häusern der Menschen einsetzen.“
Die Plattform wird gestartet, während immer mehr Robotikunternehmen über die Zukunft von „Allzweck“-Systemen diskutieren. Der plötzliche Ansturm humanoider Robotikfirmen wie Agility, Figure, 1X und Apptronik hat in dieser Diskussion eine entscheidende Rolle gespielt. Der Formfaktor eignet sich besonders für die Anpassungsfähigkeit (ähnlich wie die Menschen, die ihm nachempfunden sind), obwohl die Robustheit der integrierten KI-/Softwaresysteme eine ganz andere Frage ist.
Derzeit wird die Software von Covariant größtenteils auf industriellen Roboterarmen eingesetzt, die eine Vielzahl bekannter Lageraufgaben erledigen, darunter auch Arbeiten wie das Kommissionieren in der Kiste. Es wird derzeit nicht bei Humanoiden eingesetzt, obwohl das Unternehmen ein gewisses Maß an Hardware-Agnostizismus verspricht.
„Wir mögen viele Arbeiten, die im Bereich der allgemeineren Roboterhardware stattfinden“, sagt Chen. „Durch die Kopplung des Intelligenz-Wendepunkts mit dem Hardware-Wendepunkt werden wir eine noch stärkere Explosion von Roboteranwendungen erleben. Vieles davon ist jedoch noch nicht vollständig erreicht, insbesondere auf der Hardwareseite. Es ist sehr schwer, über das inszenierte Video hinauszugehen. Wie viele Menschen haben persönlich mit einem Humanoiden interagiert? Daran erkennt man den Reifegrad.“
Covariant scheut jedoch nicht vor menschlichen Vergleichen zurück, wenn es um die Rolle geht, die RFM-1 in den Entscheidungsprozessen von Robotern spielt. Laut ihrem Pressematerial verleiht die Plattform „Robotern die menschenähnliche Fähigkeit zum Denken und stellt damit das erste Mal dar, dass generative KI kommerziellen Robotern erfolgreich ein tieferes Verständnis der Sprache und der physischen Welt vermittelt.“
Dies ist einer dieser Bereiche, in denen wir mit Behauptungen vorsichtig sein müssen, sowohl im Hinblick auf Vergleiche mit abstrakten – oder sogar philosophischen – Konzepten als auch auf ihre tatsächliche Wirksamkeit in der realen Welt im Laufe der Zeit. „Menschenähnliche Fähigkeit zur Vernunft“ ist ein umfassendes Konzept, das für viele verschiedene Menschen viele verschiedene Bedeutungen hat. Hier bezieht sich der Begriff auf die Fähigkeit des Systems, reale Daten zu verarbeiten und die beste Vorgehensweise zur Ausführung der jeweiligen Aufgabe zu bestimmen.
Dies ist eine Abkehr von herkömmlichen Robotersystemen, die bis ins Unendliche auf eine Aufgabe programmiert sind. Solche Einzweckroboter haben sich in stark strukturierten Umgebungen bewährt, angefangen bei Automobilmontagelinien. Solange es nur minimale Änderungen an der anstehenden Aufgabe gibt, kann ein Roboterarm seine Arbeit immer wieder ungehindert erledigen, bis es an der Zeit ist, Schluss zu machen und die goldene Taschenuhr für jahrelange treue Dienste in Empfang zu nehmen.
Allerdings kann es schon bei kleinsten Abweichungen schnell zu Störungen kommen. Angenommen, das Objekt ist nicht genau richtig auf dem Förderband platziert oder es gab eine Anpassung der Beleuchtung, die sich auf die Bordkameras auswirkt. Solche Unterschiede können einen großen Einfluss auf die Ausführungsfähigkeit des Roboters haben. Stellen Sie sich nun vor, Sie würden versuchen, diesen Roboter dazu zu bringen, mit einem neuen Teil, neuem Material zu arbeiten oder sogar eine ganz andere Aufgabe zu erledigen. Das ist noch schwieriger.
Dies ist der Punkt, an dem traditionell Programmierer eingreifen. Der Roboter muss neu programmiert werden. Meistens betritt jemand von außerhalb der Fabrikhalle das Bild. Dies ist ein großer Ressourcen- und Zeitaufwand. Wenn Sie dies vermeiden möchten, muss eines von zwei Dingen geschehen: 1) Die Menschen, die auf dem Boden arbeiten, müssen Code lernen oder 2) Sie benötigen eine neue, natürlichere Methode für die Interaktion mit dem Roboter.
Ersteres wäre zwar großartig, es scheint jedoch unwahrscheinlich, dass Unternehmen bereit sein werden, das Geld zu investieren und die nötige Zeit abzuwarten. Letzteres ist genau das, was Covariant mit RFM-1 versucht. „chatgpt für Roboter“ ist keine perfekte Analogie, aber eine sinnvolle Abkürzung (insbesondere angesichts der Verbindung der Gründer zu OpenAI).
Aus Kundensicht präsentiert sich die Plattform als Textfeld, ähnlich wie die aktuelle Version der verbraucherorientierten generativen KI. Geben Sie einen Textbefehl wie „Hebe den Apfel auf“ durch Tippen oder Sprechen ein, und das System verwendet seine Trainingsdaten (Form, Farbe, Größe usw.), um das Objekt davor zu identifizieren, das dieser Beschreibung am ehesten entspricht.
RFM-1 generiert dann Videoergebnisse – im Wesentlichen Simulationen –, um anhand früherer Schulungen die beste Vorgehensweise zu bestimmen. Dieser letzte Teil ähnelt der Art und Weise, wie unser Gehirn die möglichen Ergebnisse einer Aktion vor der Ausführung ermittelt.
Während einer Live-Demo reagiert das System auf Eingaben wie „Hebe das rote Objekt auf“ und sogar auf die semantisch komplexere Variante „Heb auf, was du auf deine Füße legst, bevor du deine Schuhe anziehst“, was dazu führte, dass der Roboter korrekt aufhob der Apfel und ein Paar Socken.
Bei der Diskussion über die Versprechen des Systems werden viele große Ideen im Umlauf sein. Zumindest kann Covariant unter seinen Gründern auf einen beeindruckenden Stammbaum zurückblicken. Chen studierte KI in Berkeley bei Pieter Abbeel, seinem Covariant-Mitbegründer und Chefwissenschaftler. Abbeel wurde 2016 ebenfalls einer der ersten OpenAI-Mitarbeiter, einen Monat nachdem Chen der Firma ChatGPT beigetreten war. Covariant wurde im folgenden Jahr gegründet.
Laut Chen geht das Unternehmen davon aus, dass die neue RFM-1-Plattform mit einem „Großteil“ der Hardware funktionieren wird, auf der Covariant-Software bereits implementiert ist.