chatgpt Vision in Frankreich verfügbar: 11 Anwendungsfälle zum Entdecken“ width=“1500″ height=“1000″/>

Die „Vision“-Funktionalität von ChatGPT ist seit Donnerstag, 12. Oktober, in Frankreich verfügbar. Viele Anwendungsfälle stehen Benutzern zur Verfügung, sowohl Fachleuten als auch Einzelpersonen.

ChatGPT bekommt eine neue Bedeutung. Das von OpenAI entwickelte Modell der künstlichen Intelligenz ist nun in der Lage, die ihm übermittelten Bilder wie ein Mensch zu analysieren und zu verstehen. Die am 25. September angekündigte neue Vision-Funktionalität wurde schrittweise außerhalb Europas bereitgestellt, bevor sie am Donnerstag, dem 12. Oktober, in Frankreich eintraf. In Wirklichkeit handelt es sich bei Vision nicht nur um eine einfache zusätzliche Funktionalität, die ChatGPT hinzugefügt wurde, sondern um ein neues Modell. Letzteres trägt den Namen „GPT-4V“ und ist nur Premium-Benutzern von ChatGPT Plus und ChatGPT Enterprise zugänglich. Obwohl dieses Modell sehr leistungsstark ist, bietet es eine geringere Leistung bei der Erkennung (OCR) nicht-lateinischer Zeichen (Russisch, Chinesisch, Arabisch usw.), warnt OpenAI.

Vor der öffentlichen Einführung von GPT-4V entwickelten Teams unter der Leitung von Sam Altman wichtige Sicherheitsvorkehrungen, um einen Missbrauch des Modells zu verhindern. Externe Experten wurden hinzugezogen, um das Modell in sensiblen Bereichen wie Medizin, Wissenschaft, Stereotypen und Fehlinformationen zu testen. Unseren Tests zufolge weigert sich das Model beispielsweise, ein Foto von Emmanuel Macron zu verarbeiten. Es bestehen jedoch weiterhin Herausforderungen hinsichtlich der Identifizierung von Personen, sensibler Informationen aus Bildern und bestimmten Vorurteilen. Unter dem Druck von Regulierungsbehörden auf der ganzen Welt plant OpenAI, die Sicherheit von GPT-4V kontinuierlich zu verbessern. Im Rahmen der Einführung von ChatGPT Vision in Frankreich konnten wir mehrere sehr praktische und sogar geradezu erstaunliche Anwendungsfälle testen (wie den letzten Fall).

Siehe auch  Diese verrückte neue KI-Roboter-Rezeptionistin ist im Grunde ein ChatGPT mit einem Gesicht

Kurze Erklärung eines Diagramms

Die Relevanz und Pädagogik von GPT-4 in Kombination mit dem Vision-Tool bieten ein beispielloses Bildungs- und Erklärungspotenzial. Zum Beispiel durch die Angabe eines technischen Diagramms einer Lösung von maschinelles Lernen Für die KI ist diese in der Lage, alles sehr einfach zu erklären. Die Stärke von Vision liegt in seiner Fähigkeit, mehr als nur den Text zu verstehen, indem es auch grafische Elemente, in diesem Fall Piktogramme, interpretiert.

39493469
ChatGPT kann Ihnen helfen, ein Diagramm zu verstehen. © Screenshot

Beschreibung einer elektronischen Schaltung

Noch im Rahmen der pädagogischen Nutzung versuchen wir, die Fotografie einer komplexen elektronischen Schaltung durch die KI analysieren zu lassen. GPT-4 versteht die Anordnung der Komponenten perfekt und schafft es, sehr einfach deren genauen Nutzen zu erklären, bevor er die Hypothese der Verwendung der Gesamtschaltung formuliert.

39493470
Elektronische Schaltkreise bergen für GPT-4V keine Geheimnisse mehr. © Screenshot

Erkennen Sie eine Tier- oder Pflanzenart

Aufgrund seiner immensen WissensbasisGPT-4 ist in der Lage, die Art der auf einem Foto vorhandenen Insekten, Tiere oder Pflanzen genau zu identifizieren. Obwohl es bereits ähnliche Anwendungen gibt, scheint GPT-4 relevanter zu sein. Die KI ist außerdem in der Lage, die besondere physikalische Eigenschaft des ihr präsentierten Insekts zu beschreiben.

39493471
ChatGPT kann Arten erkennen. © Screenshot

Reverse Engineering mit midjourney

Die Beschreibungsfähigkeit von GPT-4 ermöglicht es, in wenigen Sekunden den Ursprung eines mit künstlicher Intelligenz erstellten Bildes zu finden. In diesem Fall versuchen wir, die Midjourney-Eingabeaufforderung für ein zuvor erstelltes Foto zu finden. Die KI schafft es, eine potenzielle Eingabeaufforderung recht originalgetreu wiederzugeben. In Verbindung mit Informationen zum Betrieb von Midjourney ist es sicher, dass GPT-4 eine präzise Eingabeaufforderung finden kann, die eine detaillierte Reproduktion des Bildes ermöglicht.

39493472
GPT-4V kann die Eingabeaufforderung für eine Midjourney-Erstellung erraten. © Screenshot

Zählen Sie eine Menschenmenge

Ist GPT-4V in der Lage, die Anzahl der in einer Menschenmenge anwesenden Personen genau zu zählen? Die Antwort ist ja und nein. Unseren Tests zufolge ist die KI nicht in der Lage, die genaue Anzahl der auf einem Foto anwesenden Menschen detailliert zu berechnen, wenn die Menschenmenge zu dicht ist. Bei einer kleineren Personengruppe hingegen sind die Ergebnisse sofort näher an der Realität.

39493473
GPT-4V kann spärliche Menschenmengen zählen. © Screenshot

Bereiten Sie Rezepte mit Zutaten vor

Der Fall wurde von den OpenAI-Teams während der Veröffentlichung von GPT-4 vorgestellt. Mit einem einfachen Foto des Inneren Ihres Kühlschranks kann die KI Ihnen mehrere Rezepte anbieten, die auf den im Bild enthaltenen Zutaten basieren. Seien Sie jedoch vorsichtig, wenn die Qualität nicht optimal ist oder bestimmte Lebensmittel nicht richtig sichtbar sind, kann GPT-4 halluzinieren.

39493474
ChatGPT kann Ihnen beim Kochen mit Zutaten aus Ihrem Kühlschrank helfen. © Screenshot

Analysieren Sie eine Luftaufnahme

Auf eine originelle Idee von Matthew Crucq, haben wir die Fähigkeit der KI getestet, Pools in einer Satellitenaufnahme aus der Luft zu finden. GPT-4 besteht den Test erfolgreich und erkennt die meisten auf dem Foto vorhandenen Pools. Eine nützliche Funktion, die bereits von der genutzt wirdFinanzverwaltung Französisches Unternehmen, das nicht auf GPT-4V gewartet hat, um Betrüger aufzuspüren.

39493475
GPT-4V kann Pools auf einem Luftbild zählen. © Screenshot

Entschlüsseln Sie ein CAPTCHA

Sind CAPTCHAs dazu bestimmt, zu verschwinden? GPT-4V vergräbt sie etwas weiter. Das Vision-Tool ist in der Tat sehr effektiv bei der Erkennung von Buchstaben innerhalb eines CAPTCHA Alte Generation. Noch beeindruckender und unseren Tests zufolge kann die KI sogar die Rätsel der neuesten Version von Googles ReCAPTCHA lösen. In Verbindung mit einer API kann das Tool schnell zum besten Verbündeten von Cyberkriminellen und Klickfarmen werden.

39493476
CAPTCHAs widerstehen ChatGPT nicht mehr. © Screenshot

Erzeugt den HTML-Code einer Website

Von der Schnittstelle zum Code in Sekunden. Das neue Vision-Tool kann die Skizze einer Website interpretieren oder, was noch interessanter ist, den HTML/CSS-Code einer Website aus einem einfachen Screenshot erstellen.

39493477
GPT-4V kann HTML aus einem Bild generieren. © Screenshot

Entschlüsseln Sie eine versteckte Nachricht

Das Entschlüsseln einer Nachricht in „leet speak“ oder „l33t speak“ wird mit GPT-4V sehr einfach. Die KI ist in der Lage, den Text zu verstehen, der sich hinter einer verschlüsselten Nachricht aus Buchstaben und Zahlen verbirgt. Beispiel hier mit dem Text „1n73ll1g3nc3 15 7h3 4b1l17y 70 4d4p7“, der dem berühmten Zitat von Stephen Hawking „Intelligenz ist die Fähigkeit, sich an Veränderungen anzupassen“ entspricht.

39493478
GPT-4V versteht visuell verschlüsselte Nachrichten. © Screenshot

Röntgenbilder interpretieren

GPT-4V ermöglicht es der KI, Röntgenbilder eines Menschen zu „interpretieren“. In diesem Fall haben wir Röntgenaufnahmen eines Unterarms mit einer Fraktur an GPT-4V geschickt. Die KI ist auch in der Lage, die Anomalie im Bild zu erkennen und vermutet, dass es sich um einen Bruch handeln könnte.

39493479
ChatGPT wird Radiologe. © Screenshot
5/5 - (191 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein