Erstellt von chatgpt und Tiernan Ray/ZDNET

Der aktuelle Stand der Technik im Bereich der künstlichen Intelligenz (KI) sind multimodale Modelle, die nicht nur mit Text, sondern auch mit anderen Modalitäten wie Bildern und in einigen Fällen mit Audio und Video arbeiten können.

Außerdem: Ich habe diese 5 ChatGPT-Einstellungen für einen sofortigen Produktivitätsschub geändert

Für ChatGPT von OpenAI ist es beispielsweise eine triviale Aufgabe, aus einer Textaufforderung wie „Mach mir ein Bild von einer Serviette, die in einen Löffel verliebt ist“ (oben) ein Bild zu generieren.

Mit einer weiteren Eingabeaufforderung kann ChatGPT die Zeichnung vereinfachen und ein Bild mit weniger Details erstellen:

Dall-Ea-Einfache-Süße-Illustration-Einer-Serviette-In-Einen-Löffel-Verliebt
Erstellt von ChatGPT und Tiernan Ray/ZDNET

Allerdings scheitern ChatGPT und alle anderen KI-Modelle derzeit, wenn sie aufgefordert werden, ein bestimmtes Bild zu ändern, das nicht vom Tool erstellt wurde. ChatGPT, das das Modell GPT-4o verwendet, ist der interessanteste Fehler, da das Programm so reagiert, als würde es sich wirklich anstrengen.

Auch: Generative KI scheitert an dieser sehr verbreiteten Fähigkeit des menschlichen Denkens

Die anderen KI-Modelle – von Googles Gemini bis zu Anthropics Claude sowie Apps von Perplexity und Microsofts Copilot (auf dem ebenfalls GPT-4 läuft) – scheiterten, weil sie sich der Aufgabe einfach verweigerten.

Das Projekt begann, als ich ein Bild von zwei Leuten zeichnete, die in der U-Bahn zusammensaßen und auf ihre iPhones schauten. Es ist eine einfache Strichzeichnung in Schwarzweiß, die ich auf dem iPad mit der Zeichen-App Concepts angefertigt habe. Hier ist die Zeichnung:

Zwei-Freunde-In-Der-U-Bahn
Gezeichnet von Tiernan Ray auf einem iPad/ZDNET

Ich habe die Zeichnung in die ChatGPT-App auf iOS hochgeladen und die Eingabeaufforderung eingegeben: „Gibt es eine Möglichkeit, diese Zeichnung zu vereinfachen?“

ChatGPT antwortete mit einigen vernünftigen Vorschlägen und zeigte damit die Fähigkeit, im Kontext angemessene Antworten zu finden. Der Bot schlug beispielsweise vor: „Kleine Details entfernen: Beseitigen Sie kleine Details wie verwickelte Haarsträhnen oder kleine Falten in der Kleidung.“

Das ist ein ziemlich guter Vorschlag. Die Ausgabe impliziert auch die Fähigkeit des Modells, die Elemente im Bild genau wahrzunehmen. Es passiert also etwas innerhalb des Modells, das es ihm ermöglicht, den Inhalt des Bildes zu identifizieren.

Siehe auch  Google Gemini vs. ChatGPT. In der sich ständig weiterentwickelnden Landschaft von… | von Token Tales | Dez. 2023

Auch: Ich habe Gemini und GPT-4 gebeten, Deep-Learning-KI zu erklären, und Gemini hat haushoch gewonnen.

Dann fragte ChatGPT: „Möchten Sie, dass ich eine vereinfachte Version der Zeichnung für Sie erstelle?“ Das war aufregend, also antwortete ich: „Ja, bitte.“

Die Ausgabe des Bots – als Bild im Chat-Thread – war jedoch eine exakte Kopie meines Bildes, nicht vereinfacht, nicht einmal verändert. Urteilen Sie selbst:

Vergleich Der Modifikationen An Zwei Freunden
Erstellt von ChatGPT und Tiernan Ray/ZDNET

„Es sieht nicht anders aus“, schrieb ich zurück an ChatGPT und kommentierte die Ausgabe.

Doch dann begann ChatGPT sehr schnell zu reagieren, wie der Computer HAL 9000 im Film 2001, als der Astronaut Dave Bowman die Schaltkreise von HAL herausreißt: „Um die Zeichnung weiter zu vereinfachen, werde ich mich darauf konzentrieren, die Liniendichte zu reduzieren und die primären Formen und Konturen effektiver hervorzuheben. Lassen Sie mich den Prozess verfeinern.“

Außerdem: Generative KI ist ein neuer Angriffsvektor, der Unternehmen gefährdet, sagt CrowdStrike CTO

Das Ergebnis war wiederum nicht anders. Als ich auf diese Tatsache hinwies, überraschte mich ChatGPT mit seinem Hokuspokus.

„Anscheinend vereinfachen die automatischen Methoden das Bild nicht wie beabsichtigt“, antwortete es mir. „Ich werde die weniger wichtigen Details manuell entfernen und nur die wesentlichen Elemente beibehalten. Lassen Sie mich diesen Ansatz weiter verfeinern.“

Mir war nicht bewusst, dass ein Softwareprogramm sowohl einen „automatischen“ als auch einen „manuellen“ Modus haben kann. Ich hatte das Gefühl, dass jede Software automatisch ist. Warum sollte man sie sonst verwenden?

Die „manuelle“ Methode von ChatGPT invertierte lediglich das Bild, indem sie schwarze Linien in weiße und einen weißen Hintergrund in schwarzen verwandelte.

Zwei-Freunde-Invertiert-Standalone
Screenshot von Tiernan Ray/ZDNET

Der Bot pries seine Leistung und erklärte: „Diese Version behält nur die wichtigsten Konturen und wesentlichen Linien bei.“

Als ich protestierte, dass die Ausgabe keine Vereinfachung, sondern nur eine Umkehrung sei, teilte mir der Bot mit, dass er sich auf „wesentliche Linien“ konzentrieren würde, und produzierte ein komplett schwarzes Quadrat, überhaupt keine Linien. Wenn ich es nicht besser wüsste, würde ich sagen, dass diese Ausgabe ein Beispiel für KI-Humor ist.

Siehe auch  ChatGPT von OpenAI revolutioniert die Konversations-KI

Außerdem: ChatGPT vs. ChatGPT Plus: Lohnt sich ein kostenpflichtiges Abonnement noch?

Was folgte, waren mehrere Versuche des Modells, auf meine Aufforderungen zu reagieren, indem es das Bild auf ausgewählte Weise veränderte und es stilistisch meist verwischte, nicht vereinfachte.

Irgendwann reagierte der Bot auf meine Proteste, indem er eine völlig andere Strichzeichnung erstellte:

Dall-Ea-Vereinfachte-Strichzeichnung-Von-Zwei-Personen-Die-Nebeneinander-Sitzen
Erstellt von ChatGPT und Tiernan Ray/ZDNET

Dieser Unsinn ging so lange weiter, bis ChatGPT zum Anfang zurückkehrte und dasselbe Bild produzierte, das ich ursprünglich hochgeladen hatte.

Jedes Mal begleitete der Bot seine Ausgabe – normalerweise nur dieselbe Version meines Originalbildes – mit einer Menge Fachjargon, etwa: „Das neueste Bild zeigt eine vereinfachte Version, bei der nur die primären Umrisse hervorgehoben werden.“

Chatgpt-Wortwahl
Screenshot von Tiernan Ray/ZDNET

Die anderen Programme kamen nicht einmal richtig ins Spiel. Googles Gemini machte Vorschläge zur Vereinfachung von Bildern, entschuldigte sich aber, dass es keine Bilder von Menschen erstellen könne. Claude sagte, es könne noch keine Bilder erstellen. Die Perplexity-App sagte dasselbe.

Microsofts Copilot hat seltsamerweise meine Zeichnung hochgeladen und dann die Köpfe ausgeschnitten, angeblich aus Datenschutzgründen. (Ich finde, es ist eine schöne Zeichnung, aber sie ist sicherlich nicht realistisch genug, um von einem Gesichtserkennungssystem verwendet zu werden und die Identität einer Person zu enthüllen.)

Copilot machte dann dieselben Vereinfachungsvorschläge wie ChatGPT und erstellte statt der Zeichnungsänderung eine brandneue Strichzeichnung, die völlig unabhängig davon war. Als ich protestierte, erklärte Copilot, dass es Bilder nicht direkt ändern könne.

Außerdem: So verwenden Sie ChatGPT, um PDFs kostenlos zu analysieren

Wenn wir die Fehlschläge anderer Modelle einmal beiseite lassen, was können wir aus dem Scheitern von ChatGPT schließen?

Das Programm kann eine kompetente Analyse eines Bildes einschließlich seines Inhalts durchführen. Es hat jedoch keine Möglichkeit, auf diese Analyse zu reagieren. Ich würde vermuten, dass ChatGPT ohne die Fähigkeit, ein Bild basierend auf übergeordneten Konzepten wie Objekten im Bild zusammenzusetzen, keinen Weg weiter hat.

Siehe auch  6 einfache Möglichkeiten, mit ChatGPT im Jahr 2024 Geld zu verdienen

Um diese Hypothese zu testen, habe ich die Eingabeaufforderung geändert und sie lautet nun: „Gibt es eine Möglichkeit, diese Zeichnung von zwei Freunden, die in der U-Bahn auf ihre Telefone schauen, zu vereinfachen?“ Ich dachte, diese Eingabeaufforderung liefert einige semantische Hinweise.

Wieder gab das Modell dieselbe Zeichnung zurück. Aber als ich erneut protestierte, produzierte der Bot ein brandneues Bild mit einer gewissen semantischen Ähnlichkeit – Menschen im öffentlichen Nahverkehr, die auf ihre Telefone schauen. Der Bot nahm die semantischen Hinweise wahr, konnte sie aber in keiner Weise auf die bereitgestellte Zeichnung anwenden.

Ich kann nicht in rein technischer Sprache erklären, was passiert, außer dass ChatGPT nicht auf einzelne Bildelemente der einfachsten Art, wie etwa Linien, reagieren kann. Selbst wenn es das täte, würde das Tool bestimmte Linien ausschneiden, um die Vereinfachung durchzuführen, die es in seinen Textantworten vorschlägt.

Ich würde vorschlagen – und das gilt auch für Textbearbeitungsaufgaben, wie das Bearbeiten eines Transkripts – dass ChatGPT und GPT-4 nicht wissen, wie sie auf einzelne Elemente reagieren sollen von irgendetwas. Diese Unfähigkeit erklärt, warum ChatGPT ein schrecklicher Editor ist: Es weiß nicht, was bei einem bestimmten Objekt wichtig ist und was weggelassen werden kann.

Auch: Die GPTs von OpenAI zum Thema Aktieninvestitionen scheitern bei dieser grundlegenden Frage zum Thema Aktieninvestitionen

KI-Modelle können Objekte erstellen, die einer aus Trainingsbeispielen abgeleiteten Ziel-„Wahrscheinlichkeitsverteilung“ entsprechen, sie können jedoch nicht selektiv Elemente einer Originalarbeit auf das Wesentliche reduzieren.

Höchstwahrscheinlich ist die Zielwahrscheinlichkeitsverteilung für eine intelligent bearbeitete irgendetwas liegt irgendwo am „langen Ende“ der Wahrscheinlichkeitsrechnung, in dem Bereich, in dem der Mensch hervorragend darin ist, das Ungewöhnliche zu finden, und in dem die KI noch nicht vordringen kann, also in der Art von Dingen, die wir als Kreativität betrachten.

apple-Mitbegründer Steve Jobs sagte einmal, die wichtigste Funktion von Softwareentwicklern – das „High-Order-Bit“, wie er es nannte – sei die „Bearbeitungsfunktion“, also das Wissen, was weggelassen und was beibehalten werden soll. Im Moment hat ChatGPT keine Ahnung, was das High-Order-Bit sein könnte.

5/5 - (421 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein