Pulkit Agrawal, ein Assistenzprofessor am MIT, der sich mit KI und Robotik beschäftigt, sagt, die neuesten Demos von google und OpenAI seien beeindruckend und zeigen, wie schnell sich multimodale KI-Modelle weiterentwickelt haben. OpenAI brachte im September 2023 GPT-4V auf den Markt, ein System, das Bilder analysieren kann. Er war beeindruckt, dass Gemini in der Lage ist, Live-Videos zu verstehen – zum Beispiel Änderungen an einem Diagramm auf einem Whiteboard in Echtzeit richtig zu interpretieren. Die neue Version von chatgpt von OpenAI scheint dazu in der Lage zu sein.
Laut Agrawal könnten die von Google und OpenAI vorgeführten Assistenten den Unternehmen neue Trainingsdaten liefern, während Benutzer mit den Modellen in der realen Welt interagieren. „Aber sie müssen nützlich sein“, fügt er hinzu. „Die große Frage ist, wofür die Leute sie verwenden werden – es ist nicht ganz klar.“
Laut Google wird Astra noch in diesem Jahr über eine neue Schnittstelle namens Gemini Live verfügbar sein. Hassabis sagte, dass das Unternehmen noch mehrere Prototypen von Datenbrillen teste und noch keine Entscheidung darüber getroffen habe, ob es eine davon auf den Markt bringen werde.
Die Fähigkeiten von Astra könnten Google eine Chance bieten, eine Version seiner unglückseligen Glass-Datenbrille neu zu starten, obwohl die Bemühungen, Hardware zu bauen, die für generative KI geeignet ist, bisher gescheitert sind. Trotz der beeindruckenden Demos von OpenAI und Google können multimodale Modalitäten die physische Welt und die darin enthaltenen Objekte nicht vollständig verstehen, was ihre Möglichkeiten einschränkt.
„Die Fähigkeit, ein mentales Modell der physischen Welt um einen herum aufzubauen, ist für den Aufbau einer menschenähnlicheren Intelligenz absolut unerlässlich“, sagt er Brenden Seeein außerordentlicher Professor an der New York University, der KI zur Erforschung der menschlichen Intelligenz nutzt.
Lake stellt fest, dass die besten KI-Modelle von heute immer noch sehr sprachzentriert sind, da der Großteil ihres Lernens aus Texten stammt, die aus Büchern und dem Internet stammen. Dies unterscheidet sich grundlegend von der Art und Weise, wie Menschen Sprache lernen, indem sie sie bei der Interaktion mit der physischen Welt erlernen. „Im Vergleich zur kindlichen Entwicklung ist das ein Rückschritt“, sagt er über den Prozess der Erstellung multimodaler Modelle.
Hassabis glaubt, dass die Ausstattung von KI-Modellen mit einem tieferen Verständnis der physischen Welt der Schlüssel zu weiteren Fortschritten in der KI und dazu sein wird, Systeme wie Astra robuster zu machen. Andere Bereiche der KI, darunter die Arbeit von Google DeepMind an KI-Spielprogrammen, könnten hilfreich sein, sagt er. Hassabis und andere hoffen, dass eine solche Arbeit für die Robotik revolutionär sein könnte, ein Bereich, in den auch Google investiert.
„Ein multimodaler universeller Agentenassistent ist auf dem Weg zur künstlichen allgemeinen Intelligenz“, sagte Hassabis in Bezug auf einen erhofften, aber weitgehend undefinierten Zeitpunkt in der Zukunft, an dem Maschinen alles tun können, was ein menschlicher Geist kann. „Das ist kein AGI oder so, aber es ist der Anfang von etwas.“