Die „Vision“-Funktionalität von ChatGPT ist seit Donnerstag, 12. Oktober, in Frankreich verfügbar. Viele Anwendungsfälle stehen Benutzern zur Verfügung, sowohl Fachleuten als auch Einzelpersonen.

ChatGPT bekommt eine neue Bedeutung. Das von OpenAI entwickelte Modell der künstlichen Intelligenz ist nun in der Lage, die ihm übermittelten Bilder wie ein Mensch zu analysieren und zu verstehen. Die am 25. September angekündigte neue Vision-Funktionalität wurde schrittweise außerhalb Europas bereitgestellt, bevor sie am Donnerstag, dem 12. Oktober, in Frankreich eintraf. In Wirklichkeit handelt es sich bei Vision nicht nur um eine einfache zusätzliche Funktionalität, die ChatGPT hinzugefügt wurde, sondern um ein neues Modell. Letzteres trägt den Namen „GPT-4V“ und ist nur Premium-Benutzern von ChatGPT Plus und ChatGPT Enterprise zugänglich. Obwohl dieses Modell sehr leistungsstark ist, bietet es eine geringere Leistung bei der Erkennung (OCR) nicht-lateinischer Zeichen (Russisch, Chinesisch, Arabisch usw.), warnt OpenAI.

Vor der öffentlichen Einführung von GPT-4V entwickelten Teams unter der Leitung von Sam Altman wichtige Sicherheitsvorkehrungen, um einen Missbrauch des Modells zu verhindern. Externe Experten wurden hinzugezogen, um das Modell in sensiblen Bereichen wie Medizin, Wissenschaft, Stereotypen und Fehlinformationen zu testen. Unseren Tests zufolge weigert sich das Model beispielsweise, ein Foto von Emmanuel Macron zu verarbeiten. Es bestehen jedoch weiterhin Herausforderungen hinsichtlich der Identifizierung von Personen, sensibler Informationen aus Bildern und bestimmten Vorurteilen. Unter dem Druck von Regulierungsbehörden auf der ganzen Welt plant OpenAI, die Sicherheit von GPT-4V kontinuierlich zu verbessern. Im Rahmen der Einführung von ChatGPT Vision in Frankreich konnten wir mehrere sehr praktische und sogar geradezu erstaunliche Anwendungsfälle testen (wie den letzten Fall).

Siehe auch Diese verrückte neue KI-Roboter-Rezeptionistin ist im Grunde ein ChatGPT mit einem Gesicht

Kurze Erklärung eines Diagramms

Die Relevanz und Pädagogik von GPT-4 in Kombination mit dem Vision-Tool bieten ein beispielloses Bildungs- und Erklärungspotenzial. Zum Beispiel durch die Angabe eines technischen Diagramms einer Lösung von maschinelles Lernen Für die KI ist diese in der Lage, alles sehr einfach zu erklären. Die Stärke von Vision liegt in seiner Fähigkeit, mehr als nur den Text zu verstehen, indem es auch grafische Elemente, in diesem Fall Piktogramme, interpretiert.

39493469 — ChatGPT kann Ihnen helfen, ein Diagramm zu verstehen. © Screenshot

Beschreibung einer elektronischen Schaltung

Noch im Rahmen der pädagogischen Nutzung versuchen wir, die Fotografie einer komplexen elektronischen Schaltung durch die KI analysieren zu lassen. GPT-4 versteht die Anordnung der Komponenten perfekt und schafft es, sehr einfach deren genauen Nutzen zu erklären, bevor er die Hypothese der Verwendung der Gesamtschaltung formuliert.

39493470 — Elektronische Schaltkreise bergen für GPT-4V keine Geheimnisse mehr. © Screenshot

Erkennen Sie eine Tier- oder Pflanzenart

Aufgrund seiner immensen WissensbasisGPT-4 ist in der Lage, die Art der auf einem Foto vorhandenen Insekten, Tiere oder Pflanzen genau zu identifizieren. Obwohl es bereits ähnliche Anwendungen gibt, scheint GPT-4 relevanter zu sein. Die KI ist außerdem in der Lage, die besondere physikalische Eigenschaft des ihr präsentierten Insekts zu beschreiben.

39493471 — ChatGPT kann Arten erkennen. © Screenshot

Reverse Engineering mit midjourney

Die Beschreibungsfähigkeit von GPT-4 ermöglicht es, in wenigen Sekunden den Ursprung eines mit künstlicher Intelligenz erstellten Bildes zu finden. In diesem Fall versuchen wir, die Midjourney-Eingabeaufforderung für ein zuvor erstelltes Foto zu finden. Die KI schafft es, eine potenzielle Eingabeaufforderung recht originalgetreu wiederzugeben. In Verbindung mit Informationen zum Betrieb von Midjourney ist es sicher, dass GPT-4 eine präzise Eingabeaufforderung finden kann, die eine detaillierte Reproduktion des Bildes ermöglicht.

39493472 — GPT-4V kann die Eingabeaufforderung für eine Midjourney-Erstellung erraten. © Screenshot

Zählen Sie eine Menschenmenge

Ist GPT-4V in der Lage, die Anzahl der in einer Menschenmenge anwesenden Personen genau zu zählen? Die Antwort ist ja und nein. Unseren Tests zufolge ist die KI nicht in der Lage, die genaue Anzahl der auf einem Foto anwesenden Menschen detailliert zu berechnen, wenn die Menschenmenge zu dicht ist. Bei einer kleineren Personengruppe hingegen sind die Ergebnisse sofort näher an der Realität.

39493473 — GPT-4V kann spärliche Menschenmengen zählen. © Screenshot

Bereiten Sie Rezepte mit Zutaten vor

Der Fall wurde von den OpenAI-Teams während der Veröffentlichung von GPT-4 vorgestellt. Mit einem einfachen Foto des Inneren Ihres Kühlschranks kann die KI Ihnen mehrere Rezepte anbieten, die auf den im Bild enthaltenen Zutaten basieren. Seien Sie jedoch vorsichtig, wenn die Qualität nicht optimal ist oder bestimmte Lebensmittel nicht richtig sichtbar sind, kann GPT-4 halluzinieren.

39493474 — ChatGPT kann Ihnen beim Kochen mit Zutaten aus Ihrem Kühlschrank helfen. © Screenshot

Analysieren Sie eine Luftaufnahme

Auf eine originelle Idee von Matthew Crucq, haben wir die Fähigkeit der KI getestet, Pools in einer Satellitenaufnahme aus der Luft zu finden. GPT-4 besteht den Test erfolgreich und erkennt die meisten auf dem Foto vorhandenen Pools. Eine nützliche Funktion, die bereits von der genutzt wirdFinanzverwaltung Französisches Unternehmen, das nicht auf GPT-4V gewartet hat, um Betrüger aufzuspüren.

39493475 — GPT-4V kann Pools auf einem Luftbild zählen. © Screenshot

Entschlüsseln Sie ein CAPTCHA

Sind CAPTCHAs dazu bestimmt, zu verschwinden? GPT-4V vergräbt sie etwas weiter. Das Vision-Tool ist in der Tat sehr effektiv bei der Erkennung von Buchstaben innerhalb eines CAPTCHA Alte Generation. Noch beeindruckender und unseren Tests zufolge kann die KI sogar die Rätsel der neuesten Version von Googles ReCAPTCHA lösen. In Verbindung mit einer API kann das Tool schnell zum besten Verbündeten von Cyberkriminellen und Klickfarmen werden.

39493476 — CAPTCHAs widerstehen ChatGPT nicht mehr. © Screenshot

Erzeugt den HTML-Code einer Website

Von der Schnittstelle zum Code in Sekunden. Das neue Vision-Tool kann die Skizze einer Website interpretieren oder, was noch interessanter ist, den HTML/CSS-Code einer Website aus einem einfachen Screenshot erstellen.

39493477 — GPT-4V kann HTML aus einem Bild generieren. © Screenshot

Entschlüsseln Sie eine versteckte Nachricht

Das Entschlüsseln einer Nachricht in „leet speak“ oder „l33t speak“ wird mit GPT-4V sehr einfach. Die KI ist in der Lage, den Text zu verstehen, der sich hinter einer verschlüsselten Nachricht aus Buchstaben und Zahlen verbirgt. Beispiel hier mit dem Text „1n73ll1g3nc3 15 7h3 4b1l17y 70 4d4p7“, der dem berühmten Zitat von Stephen Hawking „Intelligenz ist die Fähigkeit, sich an Veränderungen anzupassen“ entspricht.

39493478 — GPT-4V versteht visuell verschlüsselte Nachrichten. © Screenshot

Röntgenbilder interpretieren

GPT-4V ermöglicht es der KI, Röntgenbilder eines Menschen zu „interpretieren“. In diesem Fall haben wir Röntgenaufnahmen eines Unterarms mit einer Fraktur an GPT-4V geschickt. Die KI ist auch in der Lage, die Anomalie im Bild zu erkennen und vermutet, dass es sich um einen Bruch handeln könnte.

39493479 — ChatGPT wird Radiologe. © Screenshot

5/5 - (191 votes)

ChatGPT Vision in Frankreich verfügbar: 11 Anwendungsfälle zum Entdecken

Kurze Erklärung eines Diagramms

Beschreibung einer elektronischen Schaltung

Erkennen Sie eine Tier- oder Pflanzenart

Reverse Engineering mit midjourney

Zählen Sie eine Menschenmenge

Bereiten Sie Rezepte mit Zutaten vor

Analysieren Sie eine Luftaufnahme

Entschlüsseln Sie ein CAPTCHA

Erzeugt den HTML-Code einer Website

Entschlüsseln Sie eine versteckte Nachricht

Röntgenbilder interpretieren

Kommentieren Sie den Artikel Antwort abbrechen

Behebung des schwarzen Bildschirms beim Start des 3. Weltkriegs

So entfernen Sie Symbole vom Windows-Desktop

Kurze Erklärung eines Diagramms

Beschreibung einer elektronischen Schaltung

Erkennen Sie eine Tier- oder Pflanzenart

Reverse Engineering mit midjourney

Zählen Sie eine Menschenmenge

Bereiten Sie Rezepte mit Zutaten vor

Analysieren Sie eine Luftaufnahme

Entschlüsseln Sie ein CAPTCHA

Erzeugt den HTML-Code einer Website

Entschlüsseln Sie eine versteckte Nachricht

Röntgenbilder interpretieren

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

Behebung des schwarzen Bildschirms beim Start des 3. Weltkriegs

So entfernen Sie Symbole vom Windows-Desktop

Verwandte Artikel Mehr vom Autor