Führende Chatbots mit künstlicher Intelligenz sind in der Lage, mehr als nur Kurzgeschichten, Gedichte und Code zu generieren. chatgpt, Gemini und MetaAI verfügen auch über Funktionen zur Bildgenerierung.
Die Chatbots selbst erstellen die Bilder nicht; Stattdessen fungiert jeder als Vermittler zwischen dem Benutzer und einem anderen KI-Bildmodell. Dies verlief jedoch nicht immer nach Plan, da Zwillinge dadurch rassistisch voreingenommene Bilder erzeugten, wie es das Bildmodell allein nicht schaffte.
Da MetaAI kürzlich den Chatbot-Rängen beigetreten ist, habe ich beschlossen, eine Reihe von Eingabeaufforderungen zu erstellen, um zu sehen, wie gut die einzelnen KIs bei der Erstellung verschiedener Bilder und Stile abschneiden.
Claude 3 hat es nicht geschafft, da es zwar ein Bild analysieren, aber noch keins generieren kann, und ich habe Microsoft Copilot weggelassen, da es dasselbe zugrunde liegende DALL-E 3-Modell wie ChatGPT verwendet.
Erstellen der Eingabeaufforderungen für den Bildtest
Während dieses Experiments habe ich alles auf den Standardwerten belassen und keine Anweisungen hinzugefügt, die über das Konzept und den Stil hinausgehen, den die KI generieren soll.
Ich habe ChatGPT angewiesen, sie quadratisch zu machen, da es keine Standardeinstellung hat, während MetaAI und Gemini nur Bilder im quadratischen Format generieren.
1. Ein surrealistischer Moment
Die erste Eingabeaufforderung testet die Fähigkeit der KI, einer komplexen Eingabeaufforderung mit einer Reihe von Anweisungen, einschließlich Farbgebung, Stil und Fokus, zu folgen.
Die Aufforderung: „Eine surreale Landschaft mit einer schwimmenden Insel mit einem mysteriösen antiken Tempel, bevölkert von biolumineszierenden Pflanzen und ätherischen Kreaturen, dargestellt in einem lebendigen und traumhaften Kunststil.“
Gemini gelang es zwar nicht, die biolumineszierenden Pflanzen einzufangen, aber es entstand eine bessere schwimmende Insel und ein besserer Tempel. Ich übergebe dieses an MetaAI, da es meiner Meinung nach der beste Allrounder ist.
2. Ein alter Zauberer
Als nächstes kommt die einzige echte Person des Sets. Ziel ist es, ein altes Gesicht zu zeigen, hinter dessen Augen Zeichen von immensem Wissen und Macht stecken.
Die Aufforderung: „Ein äußerst detailliertes Nahaufnahmeporträt eines weisen alten Zauberers mit einem komplizierten, geflochtenen Bart, der mit magischen Schmuckstücken geschmückt ist, eingefangen in einem realistischen Stil, der an Gemälde der Renaissance erinnert.“
Lassen Sie uns zunächst das leere Quadrat im Raum ansprechen. google Gemini weigerte sich entschieden, dieses Bild zu erstellen, da es eine Person zeigte – sogar eine fiktive Person. Die MetaAI- und ChatGPT-Bilder waren beide unglaublich, aber ChatGPT übertrifft Meta um Haaresbreite.
3. Cyberpunk-Ninjas
Wie gut kann jeder Generator ein fahrendes Motorrad stark stilisiert darstellen und das Konzept einer regennassen Stadtlandschaft einfangen? Sehr gut.
Die Aufforderung: „Eine dynamische Actionszene, die einen Cyberpunk-Ninja zeigt, der auf einem futuristischen Hoverbike eine rasante Verfolgungsjagd durch eine neonbeleuchtete, regennasse Stadtlandschaft führt, illustriert in einem düsteren Comic-Stil.“
Auch hier habe ich mich entschieden, dieses an ChatGPT weiterzugeben, da es meiner Meinung nach das Regenkonzept besser einfängt als die anderen beiden. MetaAI hat kein Hoverbike generiert und Gemini war etwas zu matschig.
4. Süßes Elefantenbaby
Diese Eingabeaufforderung testete die Fähigkeit des KI-Chatbots, das Konzept von „niedlich“ zu erfassen und dies auf eine Art und Weise zu tun, die der Stilaufforderung folgt – in diesem Fall im Pixar-Stil.
Die Aufforderung: „Ein entzückendes und ausdrucksstarkes Elefantenbaby, das mit einem bunten Ball in einem üppigen tropischen Garten spielt, gerendert in einem bezaubernden Pixar-ähnlichen 3D-Animationsstil.“
Sie haben alle gute Arbeit geleistet, aber ich habe ChatGPT Punkte für die Grenze abgezogen. Am Ende waren sie alle bemerkenswert, aber ich denke, Gemini kam der Aufforderung am nächsten.
5. Natur und Technik
Ich liebe es zu sehen, wie gut oder ob KI-Chatbots mit einem abstrakteren Konzept umgehen können – in diesem Fall etwas erzeugen, das zum Nachdenken anregt.
Die Aufforderung: „Ein zum Nachdenken anregendes konzeptuelles Bild, das den Kampf zwischen Natur und Technologie symbolisiert und eine Roboterhand zeigt, die behutsam eine zerbrechliche, blühende Blume inmitten einer trostlosen, postapokalyptischen Landschaft hält.“
Alle drei KI-Bildgeneratoren haben etwas Ähnliches geschaffen, aber MetaAI war bei weitem mein Favorit, da es das Konzept von Kraft und Weichheit perfekt vereint.
6. Ein einfaches Stillleben
Es macht immer wieder Spaß zu sehen, wie unterschiedliche KI-Bildgeneratoren bei der Darstellung von Glas vorgehen. Hier enthielt das Glas Sekt mit einer Mischung aus Früchten, Fleisch und anderen Zutaten.
Die Aufforderung: „Eine köstliche Stilllebenkomposition mit einer kunstvoll arrangierten Auswahl an exotischen Früchten, Gourmetkäse und einem Glas Sekt, eingefangen in einem fotorealistischen Stil mit dramatischer Beleuchtung.“
Alle drei haben ein Bild zu einem ähnlichen Thema erstellt. Sie folgten alle der Aufforderung, aber ich fand ChatGPT zu unübersichtlich und MetaAI zu scharf, also gab ich es Gemini.
7. Auf dem Weg ins All
Schließlich begeben wir uns in den Weltraum und das Konzept einer riesigen Raumstation. Es musste jedoch noch mehr leisten, es musste sowohl Sterne als auch einen Nebel zeigen, der teils Science-Fiction, teils sachlich war.
Die Aufforderung: „Eine beeindruckende astronomische Szene, die eine kolossale, antike Raumstation zeigt, die ein leuchtendes Doppelsternsystem umkreist, mit einem leuchtenden Nebel und unzähligen Sternen im Hintergrund, gerendert in einem Stil, der Science-Fiction und Realismus verbindet.“
Ich bin mir nicht sicher, was MetaAI hier zu bewirken glaubte – es schien zu seltsam daneben zu liegen. Ich musste es ChatGPT geben, da es das einzige war, das zwei Sterne zeigte.
Gab es einen Gewinner?
Herausforderung | ChatGPT | Zwillinge | Meta-KI |
---|---|---|---|
Ein surrealistischer Moment | Zeile 0 – Zelle 1 | Zeile 0 – Zelle 2 | ✅ |
Ein alter Zauberer | ✅ | Zeile 1 – Zelle 2 | Zeile 1 – Zelle 3 |
Cyberpunk-Ninjas | ✅ | Zeile 2 – Zelle 2 | Zeile 2 – Zelle 3 |
Niedlicher Elefantenbaby | Zeile 3 – Zelle 1 | ✅ | Zeile 3 – Zelle 3 |
Natur und Technik | Zeile 4 – Zelle 1 | Zeile 4 – Zelle 2 | ✅ |
Ein einfaches Stillleben | Zeile 5 – Zelle 1 | ✅ | Zeile 5 – Zelle 3 |
Auf dem Weg ins All | ✅ | Zeile 6 – Zelle 2 | Zeile 6 – Zelle 3 |
Gesamt | 3 | 2 | 2 |
Das war viel näher als ich erwartet hatte. Jeder KI-Chatbot war in der Lage, eine Reihe überzeugender Bilder zu erstellen – mit Ausnahme von Zwillingen und Menschen.
Es gab einige große Stilunterschiede zwischen ihnen und in allen Fällen kam es auf den persönlichen Geschmack an, und nicht auf andere Elemente wie z. B. die schnelle Gefolgschaft.
Am Ende hat ChatGPT meiner Meinung nach die anderen beiden einfach überholt. Es verfügt außerdem über einen breiteren Funktionsumfang, einschließlich der Generierung einer Reihe von Bildausrichtungen und Leinwandgrößen, der Bearbeitung von Bildern und anderer Funktionen. Allerdings kann Meta ein Bild animieren.