Maschinenherzbericht

Redaktion von Machine Heart

Nach der Integration von chatgpt hat das Kontextverständnis von DALL・E 3 ein neues Niveau erreicht.

Schließlich hat OpenAIs Vincentian AI-Tool DALL-E-Serie die neueste Version DALL・E 3 begrüßt, während die Vorgängerversion DALL・E 2 im April letzten Jahres veröffentlicht wurde.

OpenAI sagte: „DALL・E 3 versteht Nuancen und Details besser als frühere Systeme und erleichtert es Benutzern, ihre Ideen in hochpräzise Bilder umzusetzen.“

Ist es wirklich das, was OpenAI sagt? Sehen heißt glauben, werfen wir einen Blick auf den folgenden Vergleich der Erzeugungseffekte von DALL・E 3 und DALL・E 2. Die gleiche Aufforderung ist „ein Ölgemälde, das einen Basketballspieler zeigt, der in eine Flasche steigt, begleitet von einem explodierenden Nebel.“ Links ist DALL・E 2 abgebildet. Es ist dem DALL・E 3 im Bild rechts offensichtlich in Bezug auf Details, Klarheit, Helligkeit usw. unterlegen.

9A71 A42A41A7A5B1180707B72197Adc2F70A

Neben dem explosiven Grafikeffekt ist das größte Feature von DALL・E 3 dieses Mal die Integration mit ChatGPT. Es basiert nativ auf ChatGPT und nutzt ChatGPT zum Erstellen, Erweitern und Optimieren von Eingabeaufforderungen. Auf diese Weise müssen Benutzer nicht zu viel Zeit mit Eingabeaufforderungen verbringen.

Insbesondere müssen sich Benutzer durch die Verwendung von ChatGPT nicht mehr den Kopf zerbrechen, um detaillierte Eingabeaufforderungen zum Starten von DALL・E 3 zu finden. Wenn Sie eine Idee eingeben, generiert ChatGPT automatisch eine maßgeschneiderte, detaillierte Eingabeaufforderung für DALL・E 3. Gleichzeitig können Benutzer auch eigene Eingabeaufforderungen verwenden.

Wie wirkt sich die Integration von ChatGPT aus? Sam Altman, CEO von OpenAI, demonstrierte begeistert die Ergebnisse der kontinuierlichen Generierung von DALL E 3, die man als vollständigen „Spielfilm“ bezeichnen kann.

Wie Sieht Der Super-Sonnenblumen-Igel Aus?

Wie sieht der Super-Sonnenblumen-Igel aus?

Dieser Igel Heißt „Larry“ Und Viele Andere Seiner Art.

Dieser Igel heißt „Larry“ und viele andere seiner Art.

Larrys Eltern Sind So.

Larrys Eltern sind so.

Larry Ist Nett.

Larry ist nett.

Larry Schlief Schließlich Friedlich Ein.

Larry schlief schließlich friedlich ein.

Die ChatGPT-Integration ist nicht die einzige neue Funktion von DALL・E 3, sie erzeugt auch qualitativ hochwertigere Bilder, die den Inhalt von Aufforderungen genauer wiedergeben. DALL・E Konvertieren Sie Textansagen in Bilder. Auch DALL・E 2 ignoriert oft bestimmte Formulierungen und verursacht Fehler. OpenAI-Forscher sagen jedoch, dass die neueste Version den Kontext besser versteht und längere Eingabeaufforderungen besser verarbeiten kann. Darüber hinaus kann es besser mit Inhalten umgehen, die Bilderzeugungsmodellen traditionell Probleme bereiteten, etwa Text und menschliche Hände.

Siehe auch  Googles „ChatGPT 4“ steht vor der Tür

F37E 8C3633Ba37538Bf4792C2E8870D725E0

Eingabeaufforderung: Diese Abbildung zeigt ein menschliches Herz aus durchscheinendem Glas, das auf einem Sockel inmitten stürmischer Wellen steht. Ein Sonnenstrahl dringt durch die Wolken, erleuchtet das Herz und offenbart das kleine Universum darin. Am Horizont sind die Worte „Finde das Universum in dir“ eingraviert.

Sie können sehen, dass alle Details in der Eingabeaufforderung im Bild oben dargestellt sind. Die durchscheinende Textur, die rauen Wellen am unteren Bildschirmrand, das Sonnenlicht und die dichten Wolken, die kosmische Szene im Herzen und die Textanzeige, die viele Bilderzeugungsmodelle verblüfft, DALL・E 3 hat diese Aufgaben erfolgreich gemeistert.

Kann DALL・E 3 also der „Killer“ von midjourney werden? Der Twitter-Nutzer @MattGarciaEth hat viele Vergleiche zwischen den von den beiden generierten Bildern angestellt. Welches ist Ihrer Meinung nach besser?

0Cdb 4Bcbda377Dba267630C836Ff93F707Fc

Die Aufforderung lautet: „Eine Avocado sitzt auf dem Stuhl eines Therapeuten und sagt: ‚Ich fühle mich innerlich einfach so leer‘, mit einem kratergroßen Loch in der Mitte. Der Therapeut, ein Idiot, macht sich Notizen.“

6553 061609D57Fa3489955Bf1C5Daba48A73

Die Eingabeaufforderung lautet: „Diese Abbildung zeigt ein menschliches Herz aus durchscheinendem Glas, das auf einem Sockel inmitten stürmischer Wellen steht. Ein Sonnenstrahl bricht durch die Wolken, erleuchtet das Herz und enthüllt den Mikrokosmos im Inneren. Am Horizont ist eine Augenlinie eingraviert. Charaktere einfangen „Finde das Universum in dir“‍

F925 10Fde213437D0Dead465Ed25B9E41E9F

Die Aufforderung lautet: „Das schwarze Haar einer asiatischen Frau mittleren Alters ist mit silbernen Strähnen übersät, die fragmentiert und aufwendig in ein Stück zerbrochenes Porzellan eingebettet erscheinen. Das Porzellan funkelt mit gespritzten Farbmustern, glänzend und matt in Blau, Grün, Orange und Rot harmonisch.“ verflechten sich und fangen ihre Tanzhaltungen in einer surrealen Gegenüberstellung von Bewegung und Stille ein. Ihr Hautton, so hell wie das Porzellan, verleiht ihrem Aussehen eine geheimnisvolle Qualität.“ ( Twitter @nickfloats, das Bild oben zeigt die generierten Ergebnisse von DALL・E 3, und das Bild unten zeigt die generierten Ergebnisse von Midjourney)

Siehe auch  Japan baut eine japanische Version von „ChatGPT“ und investiert Hunderte Millionen Dollar. Sind Sie diesbezüglich optimistisch? _Forschungsmodell_Technologie

Derzeit befindet sich DALL・E 3 in der Forschungsvorschau. OpenAI plant, die Veröffentlichung von DALL・E 3 zu verschieben, das zunächst im Oktober für Benutzer von ChatGPT Plus und ChatGPT Enterprise freigegeben wird, gefolgt von Forschungslaboren und ihren API-Diensten im Herbst. Das Unternehmen gab jedoch nicht bekannt, wann oder ob es die Veröffentlichung einer kostenlosen öffentlichen Version plant.

Forschung zur DALL・E-Reihe

Wir stellen Ihnen kurz die DALL・E-Reihe zur Forschung zu OpenAI-textgenerierten Bildern vor, damit die Leser die Technologie hinter der DALL・E-Reihe verstehen können.

Am 6. Januar 2021 veröffentlichte der OpenAI-Blog zwei neuronale Netze, die Text und Bilder verbinden: DALL・E und CLIP. DALL・E kann Bilder direkt basierend auf Text generieren, während CLIP den Abgleich von Bild- und Textkategorien durchführen kann. Die Veröffentlichung dieser beiden Studien hat in der Community große Besorgnis ausgelöst.

Dem Blog zufolge kann DALL・E eine große Anzahl von in natürlicher Sprache ausgedrückten Konzepten in geeignete Bilder umwandeln. Man kann sagen, dass es sich um die 12-Milliarden-Parameter-Version von GPT-3 handelt, die Bilder basierend auf Textbeschreibungen generieren kann .

E64B D98E19Eb6Ee9C9E355Adeacb46746E93

DALL・E Beispiel. Mit dem Satz „Avocado-förmiger Stuhl“ können Sie Bilder von grünen Avocado-Stühlen mit unterschiedlichen Formen erhalten.

Zwei Monate später wurden die Papiere und der Code von DALL・E veröffentlicht.

1142 1591A9F9E32Ff88F4F2176D9Cf2Cafcb

Projektadresse: https://github.com/openai/DALL-E Papieradresse: https://arxiv.org/abs/2102.12092

Um den 7. April 2022 herum brachte DALL・E eine aktualisierte Version auf den Markt – DALL・E 2. Im Vergleich zu DALL・E verfügt DALL・E 2 über eine höhere Auflösung und eine geringere Latenz beim Generieren benutzerdefinierter Bilder. Darüber hinaus bietet die neue Version auch einige neue Funktionen, wie zum Beispiel die Bearbeitung von Originalbildern.

OpenAI kündigte außerdem die Forschungsarbeit „Hierarchical Text-Conditional Image Generation with CLIP Latents“ von DALL・E 2 an.

Siehe auch  IM FOKUS: Wenn KI zum Mainstream wird – diese Profis nutzen ChatGPT, um ihre Arbeit besser zu machen

Papieradresse: Https://Cdn.openai.com/Papers/Dall-E-2.Pdf

Papieradresse: https://cdn.openai.com/papers/dall-e-2.pdf

Leider. OpenAI gibt die technischen Details hinter DALL・E 3 möglicherweise nicht wie bisher bekannt.

Achten Sie auf Sicherheits- und Urheberrechtsaspekte

OpenAI sagte, es habe viel Arbeit in DALL・E 3 gesteckt, einschließlich der Entwicklung starker Sicherheitsmaßnahmen, um die Erstellung „schädlicher“ Bilder zu verhindern. OpenAI sagt, dass es mit externen „Red Team“-Mitgliedern zusammenarbeitet (einer Gruppe, die absichtlich versucht, ein System zu kompromittieren, um seine Sicherheit zu testen) und sich auf Eingabeklassifikatoren verlässt (eine Methode, die Sprachmodellen beibringt, bestimmte Wörter zu ignorieren, um explizite oder Brute-Force-Eingabeaufforderungen zu vermeiden ). DALL・E 3 ist auch nicht in der Lage, Bilder von Persönlichkeiten des öffentlichen Lebens zu generieren.

OpenAI-Forscherin Sandhini Agarwal sagte, sie habe „großes Vertrauen“ in die Sicherheitsmaßnahmen von DALL・E 3 und sagte, das Modell verbessere sich ständig. OpenAI sagte auch in einer E-Mail: DALL・E 3 weigert sich, Bilder im Stil lebender Künstler zu generieren, was sich von DALL・E 2 unterscheidet.

Künstler haben die DALL・E-Konkurrenten Stability AI und Midjourney sowie die Kunst-Website DeviantArt verklagt und ihnen vorgeworfen, ihre urheberrechtlich geschützten Werke zum Trainieren von Text-zu-Bild-Modellen zu verwenden. Vielleicht um Klagen zu vermeiden, wird OpenAI es Künstlern ermöglichen, ihre Kunstwerke aus zukünftigen Versionen von Text-zu-Bild-KI-Modellen zu entfernen und sie nicht für das Training zu verwenden. Ersteller können ein Bild einreichen, dessen Urheberrecht sie besitzen, und auf der Website ein Formular ausfüllen, um die Entfernung zu beantragen.

Auf diese Weise können zukünftige Versionen von DALL・E Ergebnisse blockieren, die dem Bild und Stil des Künstlers ähneln.

Referenzlinks:

https://openai.com/dall‍-e-3

https://www.theverge.com/2023/9/20/23881241/openai-dalle-third-version-generative-ai

OpenAI stellt DALL-E 3 vor und ermöglicht es Künstlern, sich vom Training abzumelden

5/5 - (343 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein