Start ChatGPT OpenAI DALL·E 3 ist da, integriert mit ChatGPT, der Bilderzeugungseffekt ist erstaunlich...

OpenAI DALL·E 3 ist da, integriert mit ChatGPT, der Bilderzeugungseffekt ist erstaunlich – Sina Hong Kong

Von

Nina Weber

September 21, 2023

Maschinenherzbericht

Redaktion von Machine Heart

Nach der Integration von chatgpt hat das Kontextverständnis von DALL・E 3 ein neues Niveau erreicht.

Schließlich hat OpenAIs Vincentian AI-Tool DALL-E-Serie die neueste Version DALL・E 3 begrüßt, während die Vorgängerversion DALL・E 2 im April letzten Jahres veröffentlicht wurde.

OpenAI sagte: „DALL・E 3 versteht Nuancen und Details besser als frühere Systeme und erleichtert es Benutzern, ihre Ideen in hochpräzise Bilder umzusetzen.“

Ist es wirklich das, was OpenAI sagt? Sehen heißt glauben, werfen wir einen Blick auf den folgenden Vergleich der Erzeugungseffekte von DALL・E 3 und DALL・E 2. Die gleiche Aufforderung ist „ein Ölgemälde, das einen Basketballspieler zeigt, der in eine Flasche steigt, begleitet von einem explodierenden Nebel.“ Links ist DALL・E 2 abgebildet. Es ist dem DALL・E 3 im Bild rechts offensichtlich in Bezug auf Details, Klarheit, Helligkeit usw. unterlegen.

Neben dem explosiven Grafikeffekt ist das größte Feature von DALL・E 3 dieses Mal die Integration mit ChatGPT. Es basiert nativ auf ChatGPT und nutzt ChatGPT zum Erstellen, Erweitern und Optimieren von Eingabeaufforderungen. Auf diese Weise müssen Benutzer nicht zu viel Zeit mit Eingabeaufforderungen verbringen.

Insbesondere müssen sich Benutzer durch die Verwendung von ChatGPT nicht mehr den Kopf zerbrechen, um detaillierte Eingabeaufforderungen zum Starten von DALL・E 3 zu finden. Wenn Sie eine Idee eingeben, generiert ChatGPT automatisch eine maßgeschneiderte, detaillierte Eingabeaufforderung für DALL・E 3. Gleichzeitig können Benutzer auch eigene Eingabeaufforderungen verwenden.

Wie wirkt sich die Integration von ChatGPT aus? Sam Altman, CEO von OpenAI, demonstrierte begeistert die Ergebnisse der kontinuierlichen Generierung von DALL E 3, die man als vollständigen „Spielfilm“ bezeichnen kann.

Wie sieht der Super-Sonnenblumen-Igel aus?

Dieser Igel heißt „Larry“ und viele andere seiner Art.

Larrys Eltern sind so.

Larry ist nett.

Larry schlief schließlich friedlich ein.

Die ChatGPT-Integration ist nicht die einzige neue Funktion von DALL・E 3, sie erzeugt auch qualitativ hochwertigere Bilder, die den Inhalt von Aufforderungen genauer wiedergeben. DALL・E Konvertieren Sie Textansagen in Bilder. Auch DALL・E 2 ignoriert oft bestimmte Formulierungen und verursacht Fehler. OpenAI-Forscher sagen jedoch, dass die neueste Version den Kontext besser versteht und längere Eingabeaufforderungen besser verarbeiten kann. Darüber hinaus kann es besser mit Inhalten umgehen, die Bilderzeugungsmodellen traditionell Probleme bereiteten, etwa Text und menschliche Hände.

Siehe auch Googles „ChatGPT 4“ steht vor der Tür

Eingabeaufforderung: Diese Abbildung zeigt ein menschliches Herz aus durchscheinendem Glas, das auf einem Sockel inmitten stürmischer Wellen steht. Ein Sonnenstrahl dringt durch die Wolken, erleuchtet das Herz und offenbart das kleine Universum darin. Am Horizont sind die Worte „Finde das Universum in dir“ eingraviert.

Sie können sehen, dass alle Details in der Eingabeaufforderung im Bild oben dargestellt sind. Die durchscheinende Textur, die rauen Wellen am unteren Bildschirmrand, das Sonnenlicht und die dichten Wolken, die kosmische Szene im Herzen und die Textanzeige, die viele Bilderzeugungsmodelle verblüfft, DALL・E 3 hat diese Aufgaben erfolgreich gemeistert.

Kann DALL・E 3 also der „Killer“ von midjourney werden? Der Twitter-Nutzer @MattGarciaEth hat viele Vergleiche zwischen den von den beiden generierten Bildern angestellt. Welches ist Ihrer Meinung nach besser?

Die Aufforderung lautet: „Eine Avocado sitzt auf dem Stuhl eines Therapeuten und sagt: ‚Ich fühle mich innerlich einfach so leer‘, mit einem kratergroßen Loch in der Mitte. Der Therapeut, ein Idiot, macht sich Notizen.“

Die Eingabeaufforderung lautet: „Diese Abbildung zeigt ein menschliches Herz aus durchscheinendem Glas, das auf einem Sockel inmitten stürmischer Wellen steht. Ein Sonnenstrahl bricht durch die Wolken, erleuchtet das Herz und enthüllt den Mikrokosmos im Inneren. Am Horizont ist eine Augenlinie eingraviert. Charaktere einfangen „Finde das Universum in dir“‍

Die Aufforderung lautet: „Das schwarze Haar einer asiatischen Frau mittleren Alters ist mit silbernen Strähnen übersät, die fragmentiert und aufwendig in ein Stück zerbrochenes Porzellan eingebettet erscheinen. Das Porzellan funkelt mit gespritzten Farbmustern, glänzend und matt in Blau, Grün, Orange und Rot harmonisch.“ verflechten sich und fangen ihre Tanzhaltungen in einer surrealen Gegenüberstellung von Bewegung und Stille ein. Ihr Hautton, so hell wie das Porzellan, verleiht ihrem Aussehen eine geheimnisvolle Qualität.“ ( Twitter @nickfloats, das Bild oben zeigt die generierten Ergebnisse von DALL・E 3, und das Bild unten zeigt die generierten Ergebnisse von Midjourney)

Siehe auch Japan baut eine japanische Version von „ChatGPT“ und investiert Hunderte Millionen Dollar. Sind Sie diesbezüglich optimistisch? _Forschungsmodell_Technologie

Derzeit befindet sich DALL・E 3 in der Forschungsvorschau. OpenAI plant, die Veröffentlichung von DALL・E 3 zu verschieben, das zunächst im Oktober für Benutzer von ChatGPT Plus und ChatGPT Enterprise freigegeben wird, gefolgt von Forschungslaboren und ihren API-Diensten im Herbst. Das Unternehmen gab jedoch nicht bekannt, wann oder ob es die Veröffentlichung einer kostenlosen öffentlichen Version plant.

Forschung zur DALL・E-Reihe

Wir stellen Ihnen kurz die DALL・E-Reihe zur Forschung zu OpenAI-textgenerierten Bildern vor, damit die Leser die Technologie hinter der DALL・E-Reihe verstehen können.

Am 6. Januar 2021 veröffentlichte der OpenAI-Blog zwei neuronale Netze, die Text und Bilder verbinden: DALL・E und CLIP. DALL・E kann Bilder direkt basierend auf Text generieren, während CLIP den Abgleich von Bild- und Textkategorien durchführen kann. Die Veröffentlichung dieser beiden Studien hat in der Community große Besorgnis ausgelöst.

Dem Blog zufolge kann DALL・E eine große Anzahl von in natürlicher Sprache ausgedrückten Konzepten in geeignete Bilder umwandeln. Man kann sagen, dass es sich um die 12-Milliarden-Parameter-Version von GPT-3 handelt, die Bilder basierend auf Textbeschreibungen generieren kann .

DALL・E Beispiel. Mit dem Satz „Avocado-förmiger Stuhl“ können Sie Bilder von grünen Avocado-Stühlen mit unterschiedlichen Formen erhalten.

Zwei Monate später wurden die Papiere und der Code von DALL・E veröffentlicht.

Projektadresse: https://github.com/openai/DALL-E Papieradresse: https://arxiv.org/abs/2102.12092

Um den 7. April 2022 herum brachte DALL・E eine aktualisierte Version auf den Markt – DALL・E 2. Im Vergleich zu DALL・E verfügt DALL・E 2 über eine höhere Auflösung und eine geringere Latenz beim Generieren benutzerdefinierter Bilder. Darüber hinaus bietet die neue Version auch einige neue Funktionen, wie zum Beispiel die Bearbeitung von Originalbildern.

OpenAI kündigte außerdem die Forschungsarbeit „Hierarchical Text-Conditional Image Generation with CLIP Latents“ von DALL・E 2 an.

Siehe auch IM FOKUS: Wenn KI zum Mainstream wird – diese Profis nutzen ChatGPT, um ihre Arbeit besser zu machen

Papieradresse: https://cdn.openai.com/papers/dall-e-2.pdf

Leider. OpenAI gibt die technischen Details hinter DALL・E 3 möglicherweise nicht wie bisher bekannt.

Achten Sie auf Sicherheits- und Urheberrechtsaspekte

OpenAI sagte, es habe viel Arbeit in DALL・E 3 gesteckt, einschließlich der Entwicklung starker Sicherheitsmaßnahmen, um die Erstellung „schädlicher“ Bilder zu verhindern. OpenAI sagt, dass es mit externen „Red Team“-Mitgliedern zusammenarbeitet (einer Gruppe, die absichtlich versucht, ein System zu kompromittieren, um seine Sicherheit zu testen) und sich auf Eingabeklassifikatoren verlässt (eine Methode, die Sprachmodellen beibringt, bestimmte Wörter zu ignorieren, um explizite oder Brute-Force-Eingabeaufforderungen zu vermeiden ). DALL・E 3 ist auch nicht in der Lage, Bilder von Persönlichkeiten des öffentlichen Lebens zu generieren.

OpenAI-Forscherin Sandhini Agarwal sagte, sie habe „großes Vertrauen“ in die Sicherheitsmaßnahmen von DALL・E 3 und sagte, das Modell verbessere sich ständig. OpenAI sagte auch in einer E-Mail: DALL・E 3 weigert sich, Bilder im Stil lebender Künstler zu generieren, was sich von DALL・E 2 unterscheidet.

Künstler haben die DALL・E-Konkurrenten Stability AI und Midjourney sowie die Kunst-Website DeviantArt verklagt und ihnen vorgeworfen, ihre urheberrechtlich geschützten Werke zum Trainieren von Text-zu-Bild-Modellen zu verwenden. Vielleicht um Klagen zu vermeiden, wird OpenAI es Künstlern ermöglichen, ihre Kunstwerke aus zukünftigen Versionen von Text-zu-Bild-KI-Modellen zu entfernen und sie nicht für das Training zu verwenden. Ersteller können ein Bild einreichen, dessen Urheberrecht sie besitzen, und auf der Website ein Formular ausfüllen, um die Entfernung zu beantragen.

Auf diese Weise können zukünftige Versionen von DALL・E Ergebnisse blockieren, die dem Bild und Stil des Künstlers ähneln.

Referenzlinks:

https://openai.com/dall‍-e-3

https://www.theverge.com/2023/9/20/23881241/openai-dalle-third-version-generative-ai

OpenAI stellt DALL-E 3 vor und ermöglicht es Künstlern, sich vom Training abzumelden

5/5 - (343 votes)

OpenAI DALL·E 3 ist da, integriert mit ChatGPT, der Bilderzeugungseffekt ist erstaunlich – Sina Hong Kong

Kommentieren Sie den Artikel Antwort abbrechen

Wie Free das Dark Web überwacht, ein Update zu allen 25.000-Euro-Autos und Alternativen zu...

Wie generative KI-Modelle wie ChatGPT, DALL-E und Midjourney menschliche Überzeugungen verzerren können

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

Wie Free das Dark Web überwacht, ein Update zu allen 25.000-Euro-Autos und Alternativen zu...

Wie generative KI-Modelle wie ChatGPT, DALL-E und Midjourney menschliche Überzeugungen verzerren können

Verwandte Artikel Mehr vom Autor