Vision in Frankreich verfügbar: 11 Anwendungsfälle zum Entdecken“ width=“1500″ height=“1000″/>
Die „Vision“-Funktionalität von ChatGPT ist seit Donnerstag, 12. Oktober, in Frankreich verfügbar. Viele Anwendungsfälle stehen Benutzern zur Verfügung, sowohl Fachleuten als auch Einzelpersonen.
ChatGPT bekommt eine neue Bedeutung. Das von OpenAI entwickelte Modell der künstlichen Intelligenz ist nun in der Lage, die ihm übermittelten Bilder wie ein Mensch zu analysieren und zu verstehen. Die am 25. September angekündigte neue Vision-Funktionalität wurde schrittweise außerhalb Europas bereitgestellt, bevor sie am Donnerstag, dem 12. Oktober, in Frankreich eintraf. In Wirklichkeit handelt es sich bei Vision nicht nur um eine einfache zusätzliche Funktionalität, die ChatGPT hinzugefügt wurde, sondern um ein neues Modell. Letzteres trägt den Namen „GPT-4V“ und ist nur Premium-Benutzern von ChatGPT Plus und ChatGPT Enterprise zugänglich. Obwohl dieses Modell sehr leistungsstark ist, bietet es eine geringere Leistung bei der Erkennung (OCR) nicht-lateinischer Zeichen (Russisch, Chinesisch, Arabisch usw.), warnt OpenAI.
Vor der öffentlichen Einführung von GPT-4V entwickelten Teams unter der Leitung von Sam Altman wichtige Sicherheitsvorkehrungen, um einen Missbrauch des Modells zu verhindern. Externe Experten wurden hinzugezogen, um das Modell in sensiblen Bereichen wie Medizin, Wissenschaft, Stereotypen und Fehlinformationen zu testen. Unseren Tests zufolge weigert sich das Model beispielsweise, ein Foto von Emmanuel Macron zu verarbeiten. Es bestehen jedoch weiterhin Herausforderungen hinsichtlich der Identifizierung von Personen, sensibler Informationen aus Bildern und bestimmten Vorurteilen. Unter dem Druck von Regulierungsbehörden auf der ganzen Welt plant OpenAI, die Sicherheit von GPT-4V kontinuierlich zu verbessern. Im Rahmen der Einführung von ChatGPT Vision in Frankreich konnten wir mehrere sehr praktische und sogar geradezu erstaunliche Anwendungsfälle testen (wie den letzten Fall).
Kurze Erklärung eines Diagramms
Die Relevanz und Pädagogik von GPT-4 in Kombination mit dem Vision-Tool bieten ein beispielloses Bildungs- und Erklärungspotenzial. Zum Beispiel durch die Angabe eines technischen Diagramms einer Lösung von maschinelles Lernen Für die KI ist diese in der Lage, alles sehr einfach zu erklären. Die Stärke von Vision liegt in seiner Fähigkeit, mehr als nur den Text zu verstehen, indem es auch grafische Elemente, in diesem Fall Piktogramme, interpretiert.
Beschreibung einer elektronischen Schaltung
Noch im Rahmen der pädagogischen Nutzung versuchen wir, die Fotografie einer komplexen elektronischen Schaltung durch die KI analysieren zu lassen. GPT-4 versteht die Anordnung der Komponenten perfekt und schafft es, sehr einfach deren genauen Nutzen zu erklären, bevor er die Hypothese der Verwendung der Gesamtschaltung formuliert.
Erkennen Sie eine Tier- oder Pflanzenart
Aufgrund seiner immensen WissensbasisGPT-4 ist in der Lage, die Art der auf einem Foto vorhandenen Insekten, Tiere oder Pflanzen genau zu identifizieren. Obwohl es bereits ähnliche Anwendungen gibt, scheint GPT-4 relevanter zu sein. Die KI ist außerdem in der Lage, die besondere physikalische Eigenschaft des ihr präsentierten Insekts zu beschreiben.
Reverse Engineering mit midjourney
Die Beschreibungsfähigkeit von GPT-4 ermöglicht es, in wenigen Sekunden den Ursprung eines mit künstlicher Intelligenz erstellten Bildes zu finden. In diesem Fall versuchen wir, die Midjourney-Eingabeaufforderung für ein zuvor erstelltes Foto zu finden. Die KI schafft es, eine potenzielle Eingabeaufforderung recht originalgetreu wiederzugeben. In Verbindung mit Informationen zum Betrieb von Midjourney ist es sicher, dass GPT-4 eine präzise Eingabeaufforderung finden kann, die eine detaillierte Reproduktion des Bildes ermöglicht.
Zählen Sie eine Menschenmenge
Ist GPT-4V in der Lage, die Anzahl der in einer Menschenmenge anwesenden Personen genau zu zählen? Die Antwort ist ja und nein. Unseren Tests zufolge ist die KI nicht in der Lage, die genaue Anzahl der auf einem Foto anwesenden Menschen detailliert zu berechnen, wenn die Menschenmenge zu dicht ist. Bei einer kleineren Personengruppe hingegen sind die Ergebnisse sofort näher an der Realität.
Bereiten Sie Rezepte mit Zutaten vor
Der Fall wurde von den OpenAI-Teams während der Veröffentlichung von GPT-4 vorgestellt. Mit einem einfachen Foto des Inneren Ihres Kühlschranks kann die KI Ihnen mehrere Rezepte anbieten, die auf den im Bild enthaltenen Zutaten basieren. Seien Sie jedoch vorsichtig, wenn die Qualität nicht optimal ist oder bestimmte Lebensmittel nicht richtig sichtbar sind, kann GPT-4 halluzinieren.
Analysieren Sie eine Luftaufnahme
Auf eine originelle Idee von Matthew Crucq, haben wir die Fähigkeit der KI getestet, Pools in einer Satellitenaufnahme aus der Luft zu finden. GPT-4 besteht den Test erfolgreich und erkennt die meisten auf dem Foto vorhandenen Pools. Eine nützliche Funktion, die bereits von der genutzt wirdFinanzverwaltung Französisches Unternehmen, das nicht auf GPT-4V gewartet hat, um Betrüger aufzuspüren.
Entschlüsseln Sie ein CAPTCHA
Sind CAPTCHAs dazu bestimmt, zu verschwinden? GPT-4V vergräbt sie etwas weiter. Das Vision-Tool ist in der Tat sehr effektiv bei der Erkennung von Buchstaben innerhalb eines CAPTCHA Alte Generation. Noch beeindruckender und unseren Tests zufolge kann die KI sogar die Rätsel der neuesten Version von Googles ReCAPTCHA lösen. In Verbindung mit einer API kann das Tool schnell zum besten Verbündeten von Cyberkriminellen und Klickfarmen werden.
Erzeugt den HTML-Code einer Website
Von der Schnittstelle zum Code in Sekunden. Das neue Vision-Tool kann die Skizze einer Website interpretieren oder, was noch interessanter ist, den HTML/CSS-Code einer Website aus einem einfachen Screenshot erstellen.
Entschlüsseln Sie eine versteckte Nachricht
Das Entschlüsseln einer Nachricht in „leet speak“ oder „l33t speak“ wird mit GPT-4V sehr einfach. Die KI ist in der Lage, den Text zu verstehen, der sich hinter einer verschlüsselten Nachricht aus Buchstaben und Zahlen verbirgt. Beispiel hier mit dem Text „1n73ll1g3nc3 15 7h3 4b1l17y 70 4d4p7“, der dem berühmten Zitat von Stephen Hawking „Intelligenz ist die Fähigkeit, sich an Veränderungen anzupassen“ entspricht.
Röntgenbilder interpretieren
GPT-4V ermöglicht es der KI, Röntgenbilder eines Menschen zu „interpretieren“. In diesem Fall haben wir Röntgenaufnahmen eines Unterarms mit einer Fraktur an GPT-4V geschickt. Die KI ist auch in der Lage, die Anomalie im Bild zu erkennen und vermutet, dass es sich um einen Bruch handeln könnte.