Große Sprachmodelle – auf Englisch Large Language Models oder LLMs genannt – waren einer der wichtigsten Trends des Jahres 2023. Nun sieht es so aus, als würde sich die Welt schon bald an ein neues Akronym gewöhnen müssen: Large Multimodal Models oder LMMs sind Algorithmen der künstlichen Intelligenz, die auf Mischungen aus Texten, Bildern, Videos, Sprache, Musik oder anderen Arten von Daten trainiert wurden. Wie mächtig diese sind, aber auch welche Limitationen es noch gibt, zeigen Microsoft-Forscher in einer kürzlich erschienenen Veröffentlichung zu GPT-4V (PDF).

Das multimodale Modell GPT-4V wurde jüngst chatgpt-can-now-see-hear-and-speak“ target=“_blank“ class=“golem-external-url“>von OpenAI veröffentlicht. Das V steht dabei für Vision, denn das Modell hat anhand eines enormen Datensatzes aus Texten und Bildern gelernt, visuelle und sprachliche Informationen zu kombinieren. Es handelt sich um einen Nachfolger des reinen Sprachmodells GPT-3.5, besser bekannt unter dem Namen ChatGPT. Wie sein Vorgänger kann GPT-4V Aufgaben nur durch Erzeugung von Texten lösen; es kann nicht eigenständig Bilder oder Grafiken erstellen.

Momentan können Nutzer mit kostenpflichtigem ChatGPT-Plus-Abo das multimodale Modell in der ChatGPT-Smartphone-App oder auf der OpenAI-Internetseite verwenden. Analog zu bisherigen Veröffentlichungen neuer OpenAI-Modelle darf man davon ausgehen, dass in den kommenden Monaten auch eine Enterprise-Version mit API-Zugriff verfügbar sein wird, um GPT-4V in eigene Softwareanwendungen einzubinden.

Ein Spross der ChatGPT-Familie

Laut der von OpenAI veröffentlichten sogenannten System Card wurde das Training von GPT-4V bereits im Jahr 2022 abgeschlossen. Die Technologie entspricht der des schon im März 2023 veröffentlichten reinen Sprachmodells GPT-4. Auch bei GPT-4V handelt es sich also um ein Transformer-Modell, dessen grundlegende Funktionsweise wir Anfang des Jahres in einem Deep Dive erklärt haben.

Siehe auch  OpenAI (ChatGPT) eröffnet sein erstes Büro in einem Land der Europäischen Union

Eine faszinierende Eigenschaft der Transformer-Architektur besteht darin, dass sich mit ihrer Hilfe sehr mächtige Modelle sowohl für Textdaten als auch für Bilder erzeugen lassen. wie man Bilder zusammen mit Text in ein solches Modell einfließen lassen kann, haben wir in diesem Artikel zum Thema Bildgeneratoren beschrieben.

In ihrer neuen Veröffentlichung demonstrieren KI-Experten von Microsoft die Fähigkeiten von GPT-4V anhand unterschiedlicher Beispiele, beschreiben einige Limitationen und untersuchen verschiedene Prompting-Strategien. Als Prompts bezeichnet man die Nutzeranfragen an ein Sprachmodell und ihre genaue Formulierung kann großen Einfluss auf die Qualität der Ergebnisse haben.

Ähnlich wie das im März von Microsoft Research publizierte Paper Funken von AGI erscheint die aktuelle Veröffentlichung zwar im Stile eines wissenschaftlichen Fachartikels, erklärt aber nicht die technische Funktionsweise des Algorithmus und bewertet dessen Leistungsfähigkeit auch eher anekdotisch als systematisch.

Dieses Vorgehen bietet durchaus Anlass zur Kritik, kann man doch den Autoren die Tarnung von Marketinginhalten mit dem Deckmantel der Wissenschaft vorwerfen. Allerdings sind die vorgestellten Ergebnisse größtenteils leicht überprüfbar und von so hoher praktischer Relevanz, dass sie Beachtung verdienen.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein