Large Language Models (LLMs) entwickeln sich rasch weiter und tragen zu bemerkenswerten wirtschaftlichen und sozialen Veränderungen bei. Da viele Tools für künstliche Intelligenz (KI) im Internet veröffentlicht werden, ist chatgpt eines dieser Tools, das in den letzten Monaten äußerst beliebt geworden ist. ChatGPT ist ein Modell zur Verarbeitung natürlicher Sprache, das es Benutzern ermöglicht, aussagekräftige Texte wie Menschen zu generieren. ChatGPT von OpenAI basiert auf der GPT-Transformator-Architektur, wobei GPT-4 das neueste Sprachmodell ist, das es unterstützt.
Mit den neuesten Entwicklungen im Bereich der künstlichen Intelligenz und des maschinellen Lernens hat sich Computer Vision exponentiell weiterentwickelt, mit verbesserter Netzwerkarchitektur und groß angelegtem Modelltraining. Kürzlich haben einige Forscher MM-REACT eingeführt, ein Systemparadigma, das zahlreiche Sehexperten mit ChatGPT für multimodales Denken und Handeln zusammenbringt. MM-REACT kombiniert individuelle Sehmodelle auf flexiblere Weise mit dem Sprachmodell, um komplizierte Herausforderungen beim visuellen Verständnis zu bewältigen.
MM-REACT wurde mit dem Ziel entwickelt, ein breites Spektrum komplexer visueller Aufgaben zu bewältigen, mit denen bestehende Seh- und Seh-Sprachmodelle zu kämpfen haben. Zu diesem Zweck verwendet MM-REACT ein Eingabeaufforderungsdesign zur Darstellung verschiedener Arten von Informationen, wie z. B. Textbeschreibungen, textualisierte Raumkoordinaten und dichte visuelle Signale, wie z. B. Bilder und Videos, dargestellt als ausgerichtete Dateinamen. Dieses Design ermöglicht es ChatGPT, verschiedene Arten von Informationen in Kombination mit visuellen Eingaben zu akzeptieren und zu verarbeiten, was zu einem genaueren und umfassenderen Verständnis führt.
MM-REACT ist ein System, das die Fähigkeiten von ChatGPT mit einem Pool von Vision-Experten kombiniert, um multimodale Funktionalitäten hinzuzufügen. Der Dateipfad wird als Platzhalter verwendet und in ChatGPT eingegeben, damit das System Bilder als Eingabe akzeptieren kann. Immer wenn das System bestimmte Informationen aus dem Bild benötigt, beispielsweise die Identifizierung eines Prominentennamens oder der Boxkoordinaten, bittet ChatGPT um Hilfe bei einem bestimmten Vision-Experten. Die Ausgabe des Experten wird dann als Text serialisiert und mit der Eingabe kombiniert, um ChatGPT weiter zu aktivieren. Die Antwort wird direkt an den Benutzer zurückgesendet, wenn keine externen Experten benötigt werden.
ChatGPT wurde entwickelt, um das Wissen über die Verwendungszwecke der Vision-Experten zu verstehen, indem den ChatGPT-Eingabeaufforderungen bestimmte Anweisungen hinzugefügt wurden, die sich auf die Fähigkeiten, den Eingabeargumenttyp und den Ausgabetyp jedes Experten beziehen, zusammen mit einigen kontextbezogenen Beispielen für jeden Experten. Darüber hinaus wird ein spezielles Schlüsselwort für die Verwendung des Regex-Ausdrucksabgleichs angegeben, um den Experten entsprechend aufzurufen.
Bei Experimenten haben Zero-Shot-Experimente gezeigt, wie MM-REACT seine besonderen Fähigkeiten, die von Interesse sind, effektiv anspricht. Es hat sich bei der Lösung einer Vielzahl anspruchsvoller visueller Aufgaben, die ein komplexes visuelles Verständnis erfordern, als effizient erwiesen. Die Autoren haben einige Beispiele geteilt, bei denen MM-REACT Lösungen für lineare Gleichungen bereitstellen kann, die auf einem Bild angezeigt werden. Außerdem ist es in der Lage, Konzepte zu verstehen, indem Produkte im Bild und ihre Inhaltsstoffe usw. benannt werden. Zusammenfassend lässt sich sagen, dass dieses Systemparadigma Sprach- und Sehkompetenz in hohem Maße kombiniert und in der Lage ist, eine fortgeschrittene visuelle Intelligenz zu erreichen.
Besuche die Papier, ProjektUnd Github. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachen unser 26k+ ML SubReddit, Discord-KanalUnd E-Mail-Newsletterwo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.
Tanya Malhotra studiert im letzten Jahr an der University of Petroleum & Energy Studies in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen. Sie ist eine Data-Science-Enthusiastin mit gutem analytischem und kritischem Denken sowie einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.