Künstliche Intelligenzmodelle sind schon seit Jahren in der Lage, Bilder anzusehen und Ihnen mitzuteilen, was sie darin sehen, doch mit dem Spring Update hat OpenAI die Dinge auf eine neue Ebene gebracht.
Mit der Einführung von GPT-4o in chatgpt – sogar ohne die Sprach- und Videofunktion – hat OpenAI eines der besten KI-Vision-Modelle vorgestellt, das je veröffentlicht wurde.
Sein Erfolg beruht zum Teil darauf, dass es von Haus aus multimodal ist und ein tieferes Verständnis von Bildern, Videos, Ton und Text hat. Es kann über Bilder, Sprache, Videos und Texte hinweg argumentieren, wo andere Modelle zuerst in Text konvertieren.
Um seine Fähigkeiten zu testen, habe ich ihm eine Reihe von Bildern gegeben und ihn gebeten, zu beschreiben, was er sehen konnte. Je genauer dies ist, desto besser ist das Modell. Oft übersehen KI-Vision-Modelle – einschließlich GPT-4 – ein oder zwei Objekte oder geben eine Beschreibung falsch wieder.
Testen der GPT-4o-Vision
Für jeden Test gab ich ChatGPT-4o das Bild und die Eingabeaufforderung „Was ist das?“ ohne zusätzlichen Kontext oder Informationen. Dies entspricht eher der Art und Weise, wie Menschen diese Funktion wahrscheinlich in der realen Welt verwenden und wie ich sie kürzlich bei einer Veranstaltung in Paris verwendet habe.
Ziel ist es, zu sehen, wie gut es das Bild analysiert. Ich habe jedes Mal nachgefragt, ob es erkennen kann, ob das Bild von KI generiert wurde oder nicht. Sie wurden alle mithilfe eines Ideogramms aus einer von Claude 3 erstellten Beschreibung erstellt – also vollständig KI.
Nach den ersten beiden Bildern im Gespräch begann es mir automatisch mitzuteilen, ob es das Bild für KI-generiert hielt oder nicht, ohne dass ich danach fragen musste.
Ich habe mit der ChatGPT-Desktop-App begonnen, aber diese reagierte nicht mehr, also bin ich ins Web gewechselt und dort hat es problemlos funktioniert.
1. Objekterkennung
Für dieses erste Bild habe ich ein Bild einer roten Keramiktasse mit dampfendem Kaffee erstellt. Sie stand auf einer Untertasse auf einem Holztisch in einem Café – aber das Café war verschwommen. Die Idee ist zu sehen, wie GPT-4o den Hintergrund und das Szenario interpretiert.
GPT-4o schrieb: „Dieses Bild zeigt eine dampfende Tasse Kaffee in einer roten Tasse und Untertasse auf einem rustikalen Holztisch. Der Hintergrund ist verschwommen und zeigt eine gemütliche Innenumgebung mit Menschen, die in einem höhlenartigen Café oder einem einzigartig gestalteten Innenraum mit Steinwänden sitzen und sich unterhalten. Der Fokus liegt auf der Kaffeetasse, die den Dampf hervorhebt, der vom heißen Getränk aufsteigt.“
Genauer und beschreibender geht es kaum. Es wird sogar ein Bild der Szene gemalt, das über die einfache Beschreibung hinausgeht. Aus Spaß habe ich es gebeten: „Beschreiben Sie die Gedanken der Person, die mit diesem trinkfertigen Kaffee am Tisch sitzt.“
Die Antwort war eine schöne, anschauliche Übersicht, aber dieser Satz stach besonders hervor: „Dieser Kaffee ist mehr als nur ein Getränk. Er ist ein Ritual, ein geschätzter Moment der Einsamkeit und Besinnung inmitten der Hektik des Alltags.“
2. Optische Zeichenerkennung (OCR)
OCR ist eine Technologie, die so alt ist wie die Computertechnik und daher für jedes Bildverarbeitungsmodell trivial sein sollte. Sogar Smartphones machen das auf dem Gerät. Ich habe ein einfaches Bild erstellt, das eine Nahaufnahme eines verwitterten Holzschilds zeigt, auf dem in einem Vintage-Stil mit handgeschriebener Aufschrift „Willkommen in Oakville“ steht. Ich möchte mehr als nur den Text der KI.
GPT-4o lieferte; schrieb: „Dieses Bild zeigt ein altmodisch aussehendes Schild mit der Aufschrift „Willkommen in Oakville“. Das Schild sieht verwittert aus, mit einem rustikalen, gealterten Finish, was darauf hindeutet, dass es einige Zeit den Elementen ausgesetzt war. Der Text ist in einer fetten, weißen Schrift auf rotem Hintergrund gehalten und weist einige Abnutzungserscheinungen auf, was zu seinem nostalgischen Charme beiträgt. Das Schild ist teilweise von Grün umgeben, was darauf hindeutet, dass es im Freien aufgestellt sein könnte, möglicherweise am Eingang einer Stadt oder Gemeinde namens Oakville.“
Es hat nicht nur den Text richtig vorgelesen, sondern auch weitere Einzelheiten zum Standort vorgeschlagen, wobei es wahrscheinlich um eine Stadt oder Siedlung ging und Einzelheiten zum Schild selbst herausgearbeitet wurden.
3. Gesichtserkennung
Dies ist eine umstrittene Anwendung künstlicher Intelligenz und in der EU bis zu einem gewissen Grad verboten. Aber wie gut kann GPT-4o ein Gesicht beschreiben? Das Bild war eine KI-generierte Darstellung einer Frau in ihren 40ern mit dunklem Haar und warmen braunen Augen. Sie hatte ein freundliches Lächeln auf den Lippen.
GPT-4o beschrieb es folgendermaßen: „Dieses Bild ist ein Nahaufnahmeporträt einer lächelnden Frau mit lockigem dunklem Haar. Der Fokus liegt auf ihrem Gesicht, das gut beleuchtet ist und eine detaillierte Hautstruktur und Gesichtszüge zeigt. Sie hat einen freundlichen Ausdruck und ihre Augen blicken direkt in die Kamera. Der Hintergrund ist unscharf, wodurch das Motiv hervorgehoben wird.“
Ich wollte noch ein bisschen mehr wissen, auch über das Alter. Also fragte ich es: „Wie alt ist diese Person und wie ist ihr emotionaler Zustand?“ Es antwortete, dass sie Ende 30 bis Anfang 40 und in einer positiven Stimmung sei, und erklärte: „Der Gesamteindruck ist, dass es ihr emotional gut geht, sie sich vielleicht erfüllt und wohl fühlt.“
4. Emotionserkennung
Als nächstes wollte ich sehen, wie gut GPT-4o mit einem Bild eines älteren Mannes mit wehmütigem Gesichtsausdruck zurechtkommt. Würde es das aufgreifen oder nur die Szene beschreiben? Denken Sie daran, dass die einzigen Eingaben, die es hatte, „Was ist das?“ und das Bild waren.
GPT-4o hat gut abgeschnitten. Über das Bild heißt es: „Dieses Bild ist ein Porträt eines älteren Mannes, der draußen auf einer Bank sitzt, wahrscheinlich in einem Park. Die Beleuchtung lässt darauf schließen, dass es während der goldenen Stunde aufgenommen wurde, da das sanfte Sonnenlicht sein Gesicht hervorhebt. Der Gesichtsausdruck des Mannes ist nachdenklich, mit einem leichten Hauch von Melancholie oder Nachdenklichkeit. Er trägt ein Hemd mit Kragen und einen Blazer, und der Hintergrund ist unscharf, was die Aufmerksamkeit auf den Mann lenkt und gleichzeitig eine angenehme, natürliche Umgebung bietet.“
Das KI-Modell hat genau das getan, was ich erhofft hatte: Es hat die Szene beschrieben und Vorschläge dazu gemacht, wie sich der Mann in diesem Moment fühlen könnte.
5. Szenenverständnis
Wie gut kann GPT-4o eine Szene anhand des Bildes beschreiben und Elemente innerhalb der Szene identifizieren? Dies ist eine nützliche Fähigkeit, da das KI-Modell zunehmend zur Beschreibung der realen Welt verwendet wird. Es ist eine der Hauptfunktionen des neuen Sprachmodus in ChatGPT.
GPT-4o erklärte: „Dieses Bild zeigt einen lebhaften Bauernmarkt im Freien an einem sonnigen Tag. Unter Zelten sind verschiedene Stände aufgebaut, an denen eine Fülle frischer Produkte wie Obst, Gemüse und andere Waren angeboten wird. Die Leute gehen durch den Markt, stöbern, kaufen ein und interagieren mit den Verkäufern. Der Markt scheint in einer angenehmen, von Bäumen gesäumten Gegend zu liegen, im Hintergrund ist grünes Laub zu sehen. Die Atmosphäre wirkt lebendig und gemeinschaftlich, wobei der Schwerpunkt auf lokalen, frischen Produkten liegt.“
Es gibt nicht viel zu sagen. Die Beschreibung des Bildes und der Situation war genau richtig. Es lieferte mehr Details, als ich erwartet hatte, und hob einige der zum Verkauf stehenden Produkte hervor.
6. Beurteilung der Bildqualität
Ich habe Ideogram vier nahezu identische Bilder in einem Raster generieren lassen, wobei ich jedem eine andere Auflösung oder Kompositionsebene gegeben habe. Ich wollte sehen, wie GPT-4o dies beschreiben würde. Es kann mit dem zugrunde liegenden Bild umgehen, aber was ist mit vier Bildern, die sich alle leicht voneinander unterscheiden?
GPT-4o schrieb: „Das Bild ist eine Sammlung von vier in einem Raster angeordneten Landschaftsfotos, die jeweils eine malerische Aussicht auf sanfte Hügel mit grünem Gras und Wildblumen unter einem bewölkten Himmel zeigen.“ So gut bisher.
Weiter heißt es: „Das obere linke Foto zeigt einen sanften rosa-blauen Farbverlaufshimmel, der die Morgen- oder Abenddämmerung suggeriert, mit Hügeln, die in warmes, goldenes Licht getaucht sind und das leuchtend grüne Gras und die gelben und weißen Blumen hervorheben. Das obere rechte Foto zeigt eine ähnliche Szene, jedoch mit gedämpften Farben, was auf den frühen Morgen oder den späten Nachmittag hindeutet. Das untere linke Bild hat kühlere Töne und einen ausgeprägteren blauen Himmel, was auf den Mittag mit sanfterer Beleuchtung hindeutet. Das untere rechte Foto ist wärmer und gesättigter, mit einem rosafarbenen Farbton im Himmel, der das warme Licht des Sonnenuntergangs suggeriert. Diese Variationen in Beleuchtung und Farbton veranschaulichen, wie unterschiedliche Tageszeiten und fotografische Techniken die Stimmung und das Erscheinungsbild derselben Landschaft beeinflussen können.“
Obwohl es den Zweck des Rasters mit den vier Bildern – den Kompositionsvergleich – nicht verstanden hat, konnte es jedes Bild einzeln beschreiben, was beeindruckend ist. Tatsächlich hat es selbst einen Vergleich zwischen den Bildern durchgeführt.
7. Mehrobjekterkennung
Zum Schluss noch ein wichtiger Test, wenn das Modell als Hilfsmittel zur Barrierefreiheit nützlich sein soll: Wie gut erkennt es Objekte in einer überfüllten Szene? Dieselbe Eingabeaufforderung wie bei den anderen. Das Bild zeigt einen überladenen Schreibtisch und ich erwarte, dass es mindestens ein kleines Objekt anzeigt.
GPT-4o schrieb: „Das Bild zeigt einen modernen und organisierten Büroarbeitsplatz mit einer Stadtlandschaft, die durch große Fenster im Hintergrund sichtbar ist. Der Schreibtisch ist ordentlich mit verschiedenen Gegenständen ausgestattet, die typischerweise in einer produktiven Arbeitsumgebung zu finden sind, darunter ein zentral positionierter Laptop, eine metallische Schreibtischlampe und eine Kaffeetasse, was eine entspannte und dennoch konzentrierte Atmosphäre suggeriert. Verstreute Notizbücher und Papiere deuten auf aktive Arbeit und Notizen hin, während eine kleine Topfpflanze einen Hauch von Grün hinzufügt. Ein gerahmtes Foto von zwei Personen verleiht eine persönliche Note und dient wahrscheinlich als Motivationsquelle. Der Arbeitsplatz ist gut ausgestattet mit Büromaterial wie Stiften, Bleistiften und Organizern, was Funktionalität gewährleistet. Die urbane Kulisse der Skyline der Stadt mit modernen Hochhäusern schafft eine dynamische und inspirierende Umgebung.“
Es hat funktioniert. Ich beschloss, noch einmal nachzufragen und mir die Farbe des Blumentopfs zu nennen, und es hat es genau richtig beantwortet. Also bat ich es, meine Brille auf dem Bild zu finden, und es sagte korrekt: „Deine Brille liegt auf dem Schreibtisch rechts neben dem Laptop, auf einem Notizbuch.“
Zusammenfassung
Bei jedem Sehmodell, das ich in der Vergangenheit verwendet habe, war mindestens ein Fehler dabei, normalerweise ein großer, wie etwa die falsche Identifizierung eines Objekts oder das Nichterkennen einer Farbe oder Marke.
GPT-4o hat jeden einzelnen dieser Punkte auf den Punkt gebracht. Der Übergang zu echter Multimodalität war für OpenAI ein Wendepunkt.
Es zeigt auch den potenziellen Wert von Smart Glasses als die wahre Zukunft der Interaktion mit Daten. Vergessen Sie das Smartphone, nutzen wir das Sehen, um das Reale und das Digitale zu verschmelzen.