Das DALL-E 2-Modell machte oft einen Fehler, indem es bestimmte Sprachen ignorierte. Laut OpenAI-Forschern versteht die neueste Version den Kontext viel besser. Im Vergleich zu DALL-E 2 ist DALL-E 3 effizienter bei der Bearbeitung kleiner Teile wie Hände. DALL-E verwendet eine Technik namens latente Diffusion, die zufälliges Rauschen in Bilder umwandelt, basierend auf den Erkenntnissen aus dem Training an einem großen Datensatz sowie Hinweisen.
Eine neue Funktion von DALL-E 3 ist die chatgpt-Integration. Jetzt müssen Sie sich keine eigenen detaillierten Anweisungen für die Arbeit mit DALL-E 3 ausdenken. Sie können ChatGPT einfach bitten, einen Hinweis zu geben, und der Chatbot schreibt einen Absatz, der als Leitfaden für DALL-E dient 3. Wenn Sie möchten, können Sie weiterhin eigene Hinweise verwenden, sofern konkrete Ideen vorhanden sind. In einer Demo für The Verge lud Aditya Ramesh, leitende Forscherin und Teamleiterin von DALL-E, ChatGPT ein, bei der Entwicklung eines Logos für ein Ramen-Restaurant in den Bergen zu helfen. ChatGPT schrieb daraufhin einen langen Hinweis und DALL-E bot vier Optionen an. Diese Chatbot-Verbindung ermöglicht es mehr Menschen, ohne großen Aufwand KI-gestützte Kunst zu schaffen, sagt OpenAI.
DALL-E wurde erstmals im Januar 2021 veröffentlicht und ist älter als andere Text-zu-Bild-KI-Kunstplattformen wie die von Stability AI und midjourney. Bis zur Veröffentlichung von DALL-E 2 im Jahr 2022 hat OpenAI eine Warteliste eröffnet, um zu kontrollieren, wer die Plattform nutzen kann. Dies geschah, nachdem kritisiert wurde, dass DALL-E fotorealistische, unverfälschte Bilder erzeugen kann und bei der Produktion von Fotos Voreingenommenheit aufweist. Im vergangenen September entfernte das Unternehmen die Warteliste und öffnete DALL-E 2 für die Öffentlichkeit.
OpenAI gibt an, hart an DALL-E 3 gearbeitet und robuste Schutzmaßnahmen geschaffen zu haben, um die Erstellung obszöner oder hasserfüllter Bilder zu verhindern. OpenAI arbeitete mit externen Gruppen zusammen, die absichtlich versuchten, das System zu hacken, um seine Sicherheit zu testen, und verließ sich auch auf Eingabeklassifikatoren, eine Möglichkeit, Sprachmodellen beizubringen, bestimmte Wörter zu ignorieren. DALL-E 3 kann auch keine Bilder von Persönlichkeiten des öffentlichen Lebens nachbilden, wenn im Tooltip ein bestimmter Name erwähnt wird.
DALL-E 3 ist darauf trainiert, Bilder im Stil lebender Künstler nicht zu erstellen, im Gegensatz zu DALL-E 2, das bei Aufforderung den Stil bestimmter Künstler imitieren kann. OpenAI wird es Künstlern auch ermöglichen, ihre Arbeit aus zukünftigen Versionen von Text-zu-Bild-KI-Modellen auszuschließen, um möglicherweise Klagen zu vermeiden. Autoren können ein Bild einreichen, an dem sie die Rechte besitzen, und dessen Entfernung beantragen, indem sie ein Formular auf der Website ausfüllen. Eine zukünftige Version von DALL-E wird in der Lage sein, Ergebnisse zu blockieren, die dem Bild und Stil des Künstlers ähneln. Künstler haben bereits die Konkurrenten DALL-E Stability AI und Midjourney sowie die Kunstseite DeviantArt verklagt, weil sie angeblich urheberrechtlich geschützte Werke zum Trainieren ihrer Modelle verwendet haben.
Die neue Version von DALL-E wird zunächst im Oktober für Benutzer von ChatGPT Plus und ChatGPT Enterprise veröffentlicht, gefolgt von Forschungslaboren und dem API-Dienst. OpenAI hat nicht gesagt, wann eine kostenlose, öffentliche Version veröffentlicht wird.