Vielleicht möchten Sie Platz nehmen, bevor Sie dies lesen. Vielleicht können Sie chatgpt auch bitten, Ihnen ein Glas Wasser zu reichen, während Sie gerade dabei sind.
Ein relativ neues KI-Startup hat einfach die künstliche Intelligenz von OpenAI in den Körper eines Roboters eingebaut und das Ergebnis ist ziemlich genau das, was man erwarten würde (abzüglich des Chaos und der Zerstörung, wenn man eher ein halbleeres Glas Wasser ist). der Person).
Diese neue Technologie wird entwickelt von Figur, ein KI-Robotikunternehmen mit einem Wert von 2,6 Milliarden US-Dollar, das mit OpenAI zusammenarbeitet. Die neueste Innovation ist Figure 01, ein Roboter, den das Unternehmen in einem beeindruckenden Video vorführt.
Bilder und Sprache werden kontextualisiert
Allein anhand der schauspielerischen Fähigkeiten zu urteilen, ist es schwer zu sagen, wer der wahre Mensch ist, aber wir gehen davon aus, dass Figur 01 die glänzend aussehende Figur ist, die die ganze Arbeit erledigt.
Textaufforderungen gehören bereits der Vergangenheit an, da Figure 01 in der Lage ist, in Echtzeit ein Sprachgespräch mit Ihnen zu führen – und es klingt genauso wie Gespräche mit der OpenAI ChatGPT Voice-Option in der App.
Bilder werden von Bordkameras aufgenommen, um dem Roboter einen visuellen Kontext zu bieten, sodass Abbildung 01, wenn der Mensch gegenüber ihm sagt, dass er hungrig ist, einen Apfel in Reichweite identifiziert und ihn überreicht. Wir gehen von „Kann ich etwas zu essen haben?“ aus. Der Apfel wurde in etwa 10 Sekunden erfolgreich an die menschliche Hand übergeben.
Ein komplexes Gespräch führen
Dank unserer Partnerschaft mit OpenAI führen wir jetzt umfassende Gespräche mit Abbildung 01. Unser Roboter kann: – sein visuelles Erlebnis beschreiben – zukünftige Aktionen planen – über sein Gedächtnis nachdenken – seine Argumentation verbal erklären. Technischer Deep-Dive 🧵:pic.twitter.com /6QRzfkbxZY13. März 2024
Wie bei unseren Diskussionen mit ChatGPT kann Abbildung 01 ebenso komplexe Gespräche bewältigen. Es kann beschreiben, was es sieht, zukünftige Aktionen planen, über sein Gedächtnis nachdenken und seine Überlegungen verbal erklären.
Hinter den Kulissen erfassen die Kameras des Roboters Bilder, die dann kontextualisiert werden. Mikrofone nehmen Sprache auf, die dann in Text umgewandelt und in ein großes multimodales Modell eingespeist wird, das von OpenAI trainiert wurde und sowohl Bilder als auch Text verstehen kann.
Als Figur 01 gefragt wurde, warum sie den Apfel gegeben habe, antwortete sie prompt: „Ich habe dir den Apfel gegeben, weil es das einzige essbare Produkt ist, das ich dir vom Tisch geben kann.“
Der Mensch hat eine interessante Geschichte mit Äpfeln. Sie führten im Garten Eden zu einigen Problemen, inspirierten dann aber Isaac Newton zur Entwicklung seiner Gravitationstheorie.
Da Abbildung 01 die Dinge in einen Kontext bringen kann, sollten wir sie vielleicht fragen, auf welche Art von Szenario wir uns vorbereiten sollten. Ob wir uns mit verbotenen Früchten beschäftigen oder ob wir an der Schwelle zu einer neuen Ära der Wissenschaft und Technologie stehen.
Mehr von Tom's Guide