Obwohl KI durch manchmal unheimlich clevere Chatbots explosionsartig auf den Plan getreten ist, sind textbasierte Interaktionen bereits altmodisch. Mit der Ankündigung des GPT-4-Updates von OpenAI wurde GPT-Vision (GPT-V) eingeführt, das neueste multimodale KI-Wunderwerk. Die Ankündigung ist nun Wirklichkeit geworden, da Benutzer endlich die Möglichkeit haben, das volle Potenzial seiner Fähigkeiten zu testen.

Ein multimodales Large Language Model (LLM) bedeutet, dass es nicht nur mit dem geschriebenen Wort, sondern auch über andere Modi interagieren kann. In diesem Fall kann das neue GPT-V Bilder verstehen und mit ihnen arbeiten. Dank des neuen generativen Kunsttools DALL-E 3 kann chatgpt außerdem Bilder als Eingabe verwenden, aber auch Bilder als Ausgabe generieren.

Diese neuen Funktionen haben im gesamten Technologiebereich für Aufsehen gesorgt, da Benutzer sie auf Herz und Nieren testen. Können sie geschwärzte Regierungsdokumente über UFO-Sichtungen entschlüsseln? Ja. „ChatGPT-4V Multimodal entschlüsselt ein redigiertes Regierungsdokument über eine UFO-Sichtung, das von der NASA veröffentlicht wurde“, schwärmt ein Tweet. „Vielleicht ist die Wahrheit nicht da draußen; sie ist genau hier in GPT-V.“

Der Versuch, Lücken in einer Textfolge zu füllen, ist im Grunde das, was LLMs tun. Als der Benutzer versuchte, die Fähigkeiten von GPT-V zu testen, tat er das Nächstbeste und ließ Teile eines von ihm zensierten Textes erraten. „Fast 100 % Absichtsgenauigkeit“, berichtete er.

Natürlich ist es schwer zu überprüfen, ob ihre Vermutung über das, was sonst verborgen bleibt, richtig ist – wir können die CIA nicht fragen, wie gut sie es geschafft hat, durch die schwarzen Linien zu spähen.

Noch schwieriger als das Aufdecken von Informationen, die von der Regierung zensiert wurden, ist der Versuch, die kryptische Handschrift Ihres Arztes zu verstehen. Aber GPT-V kann das Gekritzel entschlüsseln. Mit einer höflichen Aufforderung kann GPT-V selbst die unverständlichsten Arztbriefe verstehen und sicherstellen, dass aus „zwei Tabletten nehmen“ nicht „blaue Waffeln backen“ wird.

Siehe auch  Interview zum Einsatz von Systemen wie ChatGPT im Medizinwesen

Aber sei vorsichtig. Manchmal versagt selbst die fortschrittlichste KI gegen die Hände eines erfahrenen – oder arthritischen – Arztes, und es kann einen Experten erfordern, um diese geschriebenen Rätsel zu entschlüsseln.

Und für diejenigen, die ihren Ärzten nicht vertrauen, kann ChatGPT sofort eine zweite Meinung abgeben. Das Modell kann Röntgenstrahlen verstehen und Analysen und Einblicke in bestimmte medizinische Fälle liefern.

Aber warum sollten wir es bei Handschriften und Körperscans bewenden lassen? GPT-V ist zum neuesten Heimfitness-Guru geworden. Kuratieren von Trainingsplänen abgestimmt auf Ihre Heimausstattung und Ziele. Und wenn Sie wissen möchten, wie viele Kalorien die Mahlzeit enthält, die Sie gerade zu sich nehmen, ist GPT-V genau das Richtige für Sie. Ein Benutzer teilte fröhlich mit: „OK, ChatGPT 4.0 mit neuen Sehfunktionen … erkennt alles. Sogar einen Seehund am Strand.“

Innendesign-Enthusiasten, freut euch! Die KI bietet jetzt Gestaltungsvorschlägeund kann persönliche Vorlieben berücksichtigen. Stellen Sie sich einen Wohnraum vor, der „Sie“ schreit, ohne die hohen Designergebühren. Machen Sie einfach ein Foto von Ihrem schrecklichen Zimmer und fragen Sie GPT-V nach Vorschlägen, wie Sie es in das Paradies verwandeln können, das Sie sich wünschen.

Hausaufgabenprobleme? Machen Sie einfach einen Screenshot der Aufgabe und GPT-V übernimmt die Rolle des hilfsbereiten Klassenkameraden, von dem Sie sich immer gewünscht haben, dass er neben Ihnen sitzt.

Und für die Finanzfreaks unter uns geht es bei GPT-V nicht nur um Spaß und Spiel. GPT-V kann tief in die technische Analyse eintauchen. Geben Sie einfach einen Screenshot Ihrer bevorzugten (oder am meisten gehassten) Aktie oder Kryptowährung ein, und schon wird Ihr Diagramm analysiert und entsprechende Prognosen erstellt. Denken Sie daran, dass es sich nicht um eine Finanzberatung handelt – und wenn Sie am Ende arm werden, wird Sie keine KI reich machen.

Siehe auch  Ob es Ihnen gefällt oder nicht, ChatGPT ist unser neuer Lernpartner

Der Beginn multimodaler LLMs definiert Branchen neu. Angesichts der Weiterentwicklung der KI-Titanen ist GPT-V nur die Spitze des Eisbergs. Gerüchten zufolge soll Googles kommender Gemini Bard mit seinen multimodalen Fähigkeiten übertreffen. NexT-GPT bietet eine Open-Source-Alternative und der Horizont verspricht Modelle, die darauf trainiert sind, Wörter, Töne, Videos und Bilder zu jonglieren.

Solche Fortschritte sind nicht nur technisches Geschwätz – sie haben Auswirkungen, die unsere täglichen Interaktionen, Berufe und vielleicht sogar unsere Weltanschauung verändern könnten. Und während OpenAI mit GPT-V Pionierarbeit leistet, sind die Konkurrenten nicht weit dahinter. Könnten wir am Rande einer KI-Renaissance stehen?

Nun, wenn Sie KI immer noch nur zum Chatten verwenden, geraten Sie möglicherweise bereits ins Hintertreffen. KI kann lesen und sehen und erhält von Tag zu Tag mehr Fähigkeiten.

GPT-V kann auch den Spaß an einem „Wo ist Waldo?“ ruinieren. Buch. Warum sollte jemand das wollen? Dies ist ChaosGPT-Territorium.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein