Start ChatGPT Ich habe gerade die Bildgenerierung von ChatGPT getestet – und es sieht...

Ich habe gerade die Bildgenerierung von ChatGPT getestet – und es sieht so aus, als hätte DALL-E ein geheimes Upgrade erhalten

Von

Nina Weber

Juni 17, 2024

Glücklich hide

1 DALL-E 3 auf dem Prüfstand

2 1. Schriftrolle mit Rezept für Zaubertrank

3 2. Zeitreise-Café-Menü

4 3. Alien-Comic-Cover

5 4. Roboter-Blaupause mit Anmerkungen

6 5. Steampunk-Zeitreisenden-Tagebuch

7 6. Wunderliche Rezeptbuchseite

8 7. Vintage-Reiseplakat für ein fiktives Reiseziel

9 Abschließende Gedanken

9.1 Mehr von Tom's Guide

Ich verwende chatgpt täglich für verschiedene Aufgaben, darunter Brainstorming-Ideen, das Anpassen von Rezepten und sogar das Erstellen von Bildern zum Vatertag. Kürzlich scheint DALL-E 3, der KI-Bildgenerator, den ChatGPT zum Erstellen seiner Bilder verwendet, aktualisiert worden zu sein.

OpenAI hat keine Ankündigungen zu einem Upgrade gemacht. Ich kann keine Versionshinweise finden, die auf Änderungen hinweisen, aber Ich bin nicht der einzige Es fällt auf, dass die Fähigkeit, Text darzustellen, deutlich zugenommen hat – und zwar mit viel längeren Textblöcken als zuvor. Mit anderen Worten, der Kampf um den besten KI-Bildgenerator ist gerade noch interessanter geworden.

Ich vermute, dass hier GPT-4o am Werk ist. Nicht beim Erstellen der Bilder selbst – obwohl OpenAI angibt, dass dies in Zukunft möglich sein wird –, sondern beim Verfeinern der Benutzeraufforderungen vor dem Senden an ChatGPT, um eine genauere Ausgabe zu erzielen.

Der vollständige Funktionsumfang von GPT-4o muss noch aktiviert werden. Derzeit wird es nur für Textanalyse, Bildanalyse und Textgenerierung verwendet. Es gibt zwar gelegentlich Momente, in denen die vollständigen multimodalen Funktionen zum Einsatz kommen – das ist jedoch eine Ausnahme und es wird hauptsächlich DALL-E 3 zur Erstellung der Bilder verwendet.

DALL-E 3 auf dem Prüfstand

Open AI DALL-E 3 hat massive Upgrades erhalten: Es kann jetzt Bilder mit längerem Text mit einer Erfolgsrate von über 95 % generieren. Allerdings ist seine Fähigkeit, fotorealistische Bilder zu erzeugen, ziemlich schlecht. Teilen Sie Ihre Ergebnisse in den Kommentaren. 5 Beispiele in diesem 🧵 (Eingabeaufforderung in ALT)… pic.twitter.com/sw7v8BZfBq17. Juni 2024

Um herauszufinden, wie gut DALL-E 3 geworden ist, habe ich ihm 7 herausfordernde Aufgaben gestellt. Wir behandeln antike Schriftrollen, Comics und Steampunk-Szenen.

In jeder der Eingabeaufforderungen ließ ich sie ein Breitbild erstellen und Text einfügen. Wenn Sie möchten, dass der Text genauer dargestellt wird, setzen Sie ihn in Anführungszeichen. Dies gilt für alle KI-Bildgeneratoren, einschließlich midjourney, Ideogram und Leonardo.

Wir verfügen über mehrere Anleitungen zum Erstellen von Bildern und zur Verwendung von ChatGPT, die einen Blick wert sind, wenn Sie KI-Tools optimal nutzen möchten.

Siehe auch IBM stellte fünf Konkurrenten für GPT-4 und ChatGPT vor, weigerte sich jedoch, deren Eigenschaften offenzulegen

1. Schriftrolle mit Rezept für Zaubertrank

(Bildnachweis: ChatGPT DALL-E 3/Future AI)

Mit dieser Eingabeaufforderung reize ich die Textdarstellungsfunktionen bis zum Äußersten aus. Ich sage im Wesentlichen, Sie sollen eine Schriftrolle mit Anweisungen und einer Überschrift erstellen. Früher hätte ich oben eine Überschrift und sonst überall unsinnigen Text erwartet.

Die Aufforderung: „Eine uralte Schriftrolle, die auf einem Holztisch entrollt ist, umgeben von mystischen Zutaten wie Drachenschuppen und Phönixfedern. Der Text auf der Schriftrolle lautet „Trank für ewige Weisheit“ mit detaillierten, skurrilen Anweisungen und Illustrationen.“

Obwohl es nicht perfekt war und einige Probleme mit doppelten Buchstaben und Wiederholungen aufwies, lieferte ChatGPT sowohl die oberste Überschrift als auch mehrere kleinere Überschriften. Dies war ein großer Fortschritt und ähnelte in der Darstellungsfunktion Ideogram – dem Marktführer für KI-Bildtexte.

Als nächstes kommt etwas, was bisher nur Ideogram perfekt hinbekommen hat, obwohl Midjourney nah dran kommt. Die Gestaltung einer Menütafel in einem Café. DALL-E 3 hat hier immer Probleme.

Die Aufforderung: „Ein gemütliches Café, in dem auf der Menütafel die „Tagesspezialitäten“ aus verschiedenen Epochen angezeigt werden, wie etwa „Mittelalterlicher Met“, „Viktorianische Scones“ und „Future Fusion Smoothie“. Kunden in zeitgenössischer Kleidung genießen die einzigartigen Leckereien.“

Wie Sie auf dem Bild sehen können, hat es gute Arbeit geleistet. Wir haben doppelte viktorianische Scones auf dem obersten Brett und zufällige Verzierungen im Raum, aber insgesamt wurde es gut umgesetzt.

Das sieht gut aus. Wir haben jetzt zwei Bilder, bei denen separate Textblöcke genau gerendert werden können.

3. Alien-Comic-Cover

Viele KI-Bildgeneratoren können gut aussehende Comic-Cover erstellen. DALL-E 3 ist da keine Ausnahme, hat aber auch hier Probleme mit Text und fügt regelmäßig doppelte Buchstaben hinzu.

Die Aufforderung: „Ein dynamisches Comic-Cover mit dem Titel „Galactic Guardians“ mit verschiedenen außerirdischen Superhelden in Action-Posen. Der Titel ist fett und auffällig, mit zusätzlichem Text wie „Ausgabe Nr. 1 – Die Invasion beginnt!“ und „Sonderausgabe“.

Hier wurden Titel, Untertitel und sogar die Ausgabenummer mühelos wiedergegeben. Sogar das Handlungskonzept wurde erfasst. Es wird im 16:9-Format wiedergegeben, sieht also eher wie ein Poster als wie ein Comic aus, aber ich habe es noch einmal mit einem 9:16-Format versucht und es hat funktioniert.

Siehe auch Vergleich der Leistung von ChatGPT und GPT-4 bei USMLE-Soft-Skill-Bewertungen

4. Roboter-Blaupause mit Anmerkungen

Je mehr Text Sie von einem KI-Bildgenerator verlangen, desto mehr Fehler kann er machen. Ich habe festgestellt, dass manchmal nicht einmal der erste Textteil des Bildes richtig ist, wenn Sie viel Text anfordern – es wird insgesamt schlimmer.

Die Aufforderung: „Eine detaillierte Blaupause eines skurrilen Roboters mit handgezeichneten Anmerkungen. Beschriftungen weisen auf Funktionen wie „Anti-Schwerkraftstiefel“, „Lasersicht“ und „Humorchip“ hin, mit humorvollen Randnotizen und Skizzen an den Rändern.“

Aufgrund der Anmerkungsanfrage erwartete ich einen totalen Fehlschlag und war positiv überrascht. Ja, es ist nicht perfekt und scheint nur die spezifischen Wörter zu wiederholen, die ich immer wieder hervorgehoben habe – aber es ist lesbar und sieht cool aus.

5. Steampunk-Zeitreisenden-Tagebuch

Wenn Sie eine KI bitten, Ihnen ein Buch zu zeigen, neigt sie dazu, es zuerst auf einen Tisch zu legen, wodurch der Tisch oft wie das Buch aussieht. Es kann auch sein, dass sie ein Wort richtig sagt. Hier verlange ich eine bestimmte Formulierung in zwei Zeilen plus Skizzen und Stil

Die ChatGPT-Eingabeaufforderung: „Ein offenes Tagebuch voller komplizierter Skizzen von Steampunk-Erfindungen, Karten und Notizen. Der Text auf den Seiten enthält „Reise in die Zukunft – 3024 n. Chr.“ und „Erfindungsidee: Dampfbetriebene Zeitmaschine“.

Es hat das Buch trotzdem auf einen Tisch gelegt, der wie das Buch aussieht. Stilistisch beeindruckend, aber nicht ganz das, was ich mir erhofft hatte. Der Text wurde richtig wiedergegeben und die Stilidee wurde eingefangen.

6. Wunderliche Rezeptbuchseite

Diese Aufforderung würde für die KI ein harter Kampf werden. Sie musste nicht nur den Titel richtig angeben, sondern auch bestimmte Zutaten. Frühere Versionen von DALL-E 3 hätten nicht einmal den Titel und den Rezepttitel hinbekommen. Es wäre entweder oder gewesen.

Die Aufforderung: „Eine Seite aus einem fantastischen Kochbuch mit dem Titel „Kochen mit Magie“. Das Rezept ist für „Feenstaub-Cupcakes“, mit Zutaten wie „1 Tasse Sternenstaub“ und „2 Teelöffel Mondlicht“. Abbildungen der Cupcakes und magischer Küchenutensilien schmücken die Seite.“

Siehe auch Microsoft priorisiert Azure und führt Azure ChatGPT für Unternehmen ein

Es war nicht perfekt, aber Cooking with Magic sieht gut aus. Es hat den Titel des Rezepts und die erste Zutat, aber dann ging es bergab. Aber es war besser als erwartet. Ich habe dieselbe Eingabeaufforderung bei Ideogram ausprobiert und der Stil war besser, aber die Textdarstellung hatte ähnliche Probleme, als sie die Seite hinunterging.

7. Vintage-Reiseplakat für ein fiktives Reiseziel

Endlich ein Poster. Dies war eines der ersten Dinge, die KI-Unternehmen in Bezug auf lesbaren Text geknackt haben, also sollte es nicht zu schwierig sein – aber ich verlange mehrere Blöcke.

Die Aufforderung: „Ein Reiseplakat im Retro-Stil mit der Werbung „Besuchen Sie die schwimmenden Inseln von Aerion“. Das Plakat bietet atemberaubende Ausblicke auf schwimmende Inseln mit Wasserfällen und der Text enthält Reisedetails und einen eingängigen Slogan wie „Ein himmelhohes Abenteuer erwartet Sie!“.“

Damit es funktioniert, musste es einen Titel und eine Unterüberschrift sowie eine zweite Überschrift generieren, und ich finde, es ist ein perfektes Poster entstanden. Ja, andere Elemente haben einige seltsame Macken auf der Seite, aber ich habe ihm nicht gesagt, wie es diese darstellen soll, ich habe es selbst damit umgehen lassen.

Abschließende Gedanken

Insgesamt denke ich, dass die Genauigkeit des von DALL-E 3 gerenderten Textes deutlich verbessert wurde. Gleichzeitig ist die tatsächliche Darstellung jedoch auch etwas rückwärts gegangen, da mehr Artefakte und Unschärfe um die Wörter herum hinzugefügt wurden.

Wenn Sie Ideogram oder Midjourney verwenden, ist der Text tendenziell schärfer, Bilder mit Text aus DALL-E weisen jedoch eine gewisse Verzerrung auf.

Bei einer schnellen Vatertagskarte oder einem netten Gruß ist das meiner Meinung nach nicht so wichtig, aber wenn Sie es für die Gestaltung eines T-Shirts oder sogar für ein öffentliches Projekt verwenden möchten, wird es eher zum Problem.

Dies könnte mit einer neuen Version von DALL-E gelöst werden. GPT-4o scheint die meiste Arbeit hier zu erledigen und verfeinert die Eingabeaufforderungen, die an den Bildgenerator gesendet werden, sodass ein besseres Bildmodell logischerweise bessere Bilder vorschlagen würde.

Mehr von Tom's Guide

apple MacBook Air M3 (2024),Asus Zenbook S 13 OLED,Lenovo Chromebook Duet 3,Framework Laptop,Asus ROG Zephyrus G14 2023,Apple MacBook Pro 14-inch M3 (2023)“ data-widget-type=“comparison“ data-render-type=“editorial“>

5/5 - (439 votes)

Ich habe gerade die Bildgenerierung von ChatGPT getestet – und es sieht so aus, als hätte DALL-E ein geheimes Upgrade erhalten

DALL-E 3 auf dem Prüfstand

1. Schriftrolle mit Rezept für Zaubertrank

2. Zeitreise-Café-Menü

3. Alien-Comic-Cover

4. Roboter-Blaupause mit Anmerkungen

5. Steampunk-Zeitreisenden-Tagebuch

6. Wunderliche Rezeptbuchseite

7. Vintage-Reiseplakat für ein fiktives Reiseziel

Abschließende Gedanken

Mehr von Tom's Guide

Kommentieren Sie den Artikel Antwort abbrechen

Stanford-Wissenschaftler stellen fest, dass ChatGPT immer dümmer wird

So erstellen Sie einen neuen Stilsatz in Outlook

DALL-E 3 auf dem Prüfstand

1. Schriftrolle mit Rezept für Zaubertrank

2. Zeitreise-Café-Menü

3. Alien-Comic-Cover

4. Roboter-Blaupause mit Anmerkungen

5. Steampunk-Zeitreisenden-Tagebuch

6. Wunderliche Rezeptbuchseite

7. Vintage-Reiseplakat für ein fiktives Reiseziel

Abschließende Gedanken

Mehr von Tom's Guide

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

Stanford-Wissenschaftler stellen fest, dass ChatGPT immer dümmer wird

So erstellen Sie einen neuen Stilsatz in Outlook

Verwandte Artikel Mehr vom Autor