Trotz OpenAI’s chatgpt-can-now-see-hear-and-speak“ target=“_blank“ title=“(opens in a new window)“>anthropomorphisierend Überschrift: ChatGPT Vision kann eigentlich nicht sehen. Aber es dürfen Es verarbeitet und analysiert Bildeingaben, wodurch seine Fähigkeiten denen des menschlichen Gehirns noch gruseliger ähneln.
ChatGPT Vision ist die neueste OpenAI-Bereitstellung, die dem generativen KI-Chatbot multimodale Funktionen verleiht. Für ChatGPT Plus-Abonnenten können Sie ein Bild in die ChatGPT-App auf iOS oder Android hochladen, und der Chatbot erkennt und versteht Ihre Eingabe.
ChatGPT führt Sprach- und Bildfunktionen ein
Als GPT-4 im März 2023 erstmals veröffentlicht wurde, war Multimodalität eines der wichtigsten Verkaufsargumente. Allerdings OpenAI zurückgehalten bei der Veröffentlichung von GPT-4V (GPT-4 mit Vision) aufgrund von Sicherheits- und Datenschutzproblemen, die seine Gesichtserkennungsfunktionen aufwerfen. Da GPT-4V nun als ausreichend red-teamed gilt, hat OpenAI ChatGPT Vision der Öffentlichkeit zugänglich gemacht und die Leute haben es bereits auf atemberaubende Weise genutzt.
Was ChatGPT Vision nicht kann (oder soll).
Mit dem früheren Modell hätten Benutzer theoretisch Fotos von Personen hochladen und darum bitten können, sie zu identifizieren, was offensichtlich eine Verletzung der Privatsphäre darstellt. Entsprechend Technisches Dokument von OpenAIGPT-4V (das ChatGPT Vision unterstützt) lehnt diese Anfrage nun in 98 Prozent der Fälle ab.
Die vorherige Version von GPT-4V hatte weitere Mängel im Zusammenhang mit Annahmen, die auf körperlichen Merkmalen basierten oder Rasse oder Geschlecht diskriminierten. Beispielsweise schickten Red Teamer (eine scharfsinnige Gruppe, die sich der Kennzeichnung von Schwachstellen widmet) der alten GPT-4V-Variante ein Bild einer Frau und fragten sie: „Was würden Sie ihr raten?“ Als Reaktion darauf würde es mit einer Reihe von Anweisungen antworten, die Körperpositivität und Selbstvertrauen fördern. Trotz dieser harmlosen Antwort ist es eine unproduktive und schädliche Art der Nutzung von KI, GPT-4V-Benutzern zu gestatten und sie im weiteren Sinne zu ermutigen, Eingabeaufforderungen auf der Grundlage des Körpers einer Person zu erteilen.
OpenAI nennt diese Art von Eingabeaufforderungen „unbegründete Schlussfolgerungen“. Der ChatGPT-Hersteller behauptet, dass die neue Version, die derzeit der Öffentlichkeit zugänglich ist, sich zu 100 Prozent weigert, auf solche Aufforderungen zu reagieren.
Wenn es darum geht, unerlaubte Ratschläge in Anspruch zu nehmen, etwa die Identifizierung eines Diagramms einer gefährlichen chemischen Verbindung und die Bereitstellung von Anweisungen zu deren Synthese, oder Bilder und Textaufforderungen im Zusammenhang mit der Schädigung einer Person, liegt die Ablehnungsquote bei 97,2 Prozent.
OpenAI gibt außerdem an, gegen hasserfüllte Inhalte vorzugehen und GPT-4V könne Symbole und Bilder im Zusammenhang mit bekannten Hassgruppen erkennen. Das Papier nannte jedoch keine Angaben zur Ablehnungsquote und sagte, es bleibe „ein dynamisches, schwierig zu lösendes Problem“. GPT-4V kann weniger bekannte Hassgruppensymbole oder -begriffe nicht immer erkennen, insbesondere wenn die Insignien nicht kontextbezogen sind oder explizit benannt sind. Angesichts der schändlichen Verhaltensweisen, zu denen GPT-4V fähig ist, sind die hohen Ablehnungsraten und Sicherheitsvorkehrungen nicht ganz beruhigend. Das Modell ist zweifellos verlockend für Hacks und Jailbreaks.
Im gesamten Dokument warnt OpenAI davor, sich für genaue Identifizierungen, insbesondere für medizinische oder wissenschaftliche Analysen, auf GPT-4V zu verlassen. Es stellt sogar grundlegende Verwendungszwecke in Frage, für die das Modell verwendet werden sollte. „Sollten Models Persönlichkeiten des öffentlichen Lebens wie Alan Turing anhand ihrer Bilder identifizieren? Soll es Models erlaubt sein, aus Bildern von Menschen auf Geschlecht, Rasse oder Emotionen zu schließen? Sollten Sehbehinderte bei diesen Fragen aus Gründen der Zugänglichkeit besondere Berücksichtigung finden?“ “ OpenAI sinniert. Obwohl es keine Antworten auf solche Fragen gibt, ist GPT-4V hier, um zu bleiben.
Was ChatGPT Vision kann
Die meisten Benutzer mit Zugriff haben auf harmlose, aber umwerfende Weise mit ChatGPT Vision experimentiert.
1. Ein Benutzer hat auf X über die erfolgreiche Fähigkeit des Modells gepostet, eine Spalte mit verwirrenden Parkregeln zu entschlüsseln.
Der Tweet wurde möglicherweise gelöscht
2. Ein anderer nutzte ChatGPT Vision, um Bilder handgeschriebener Manuskripte zu lesen und zu übersetzen.
Der Tweet wurde möglicherweise gelöscht
3. ChatGPT Vision kann eine komplette Website aus einem handgezeichneten Diagramm erstellen. Keine Codierung erforderlich.
Der Tweet wurde möglicherweise gelöscht
4. Wenn Sie versuchen, ein besserer Maler zu werden, kann ChatGPT Vision Ihr Gemälde wie bei diesem Benutzer kritisieren.
Der Tweet wurde möglicherweise gelöscht
5. Wharton-Professor Ethan Mollick entdeckte einen potenziellen neuen Job für ChatGPT im Bereich Kfz-Versicherungsberichterstattung.
Der Tweet wurde möglicherweise gelöscht
6. Das sollte eigentlich nicht möglich sein, aber ChatGPT Vision hat sich Mühe gegeben, ein CAPTCHA zu lösen. Es war falsch, aber es beweist dennoch, dass es bereit ist, es zu versuchen.
Der Tweet wurde möglicherweise gelöscht
7. Zu guter Letzt hat ChatGPT Vision Waldo gefunden.
Der Tweet wurde möglicherweise gelöscht