Start ChatGPT Die Denkfähigkeiten von DALL·E 3 wurden erheblich verbessert und OpenAI übertrifft „ChatGPT...

Die Denkfähigkeiten von DALL·E 3 wurden erheblich verbessert und OpenAI übertrifft „ChatGPT native“

Von

September 25, 2023

Die Denkfähigkeiten von DALL·E 3 wurden erheblich verbessert und OpenAI übertrifft „<a href= chatgpt native“” src=”https://static.leiphone.com/uploads/new/images/20230925/6510f727668bc.png?imageView2/2/w/740″/>

Nach anderthalb Jahren ging OpenAI direkt zu einem großen Schritt über, kombinierte Vincentian Graphs mit ChatGPT und kam mit der neuesten Version DALL·E 3.

Der große Fortschritt von DALL·E 3 spiegelt sich hauptsächlich in zwei Hauptaspekten wider.

Erstens sind nur Eingabeaufforderungswörter erforderlich, und ChatGPT kann die Wörter automatisch erweitern, wodurch die Einschränkungen des Eingabeaufforderungsprojekts erheblich geschwächt werden und Bilder mit mehr Details und genaueren Beschreibungen generiert werden.

Zweitens ist Chat GPT nativ und die Fähigkeit des Modells, Benutzeranweisungen zu verstehen und Text in Bilder umzuwandeln, hat sich verbessert. Laut OpenAI versteht DALL·E 3 Nuancen und Details besser als frühere Systeme und erleichtert es Benutzern, ihre Ideen in hochpräzise Bilder umzusetzen.

Es ist ersichtlich, dass DALL·E 3 nicht nur leistungsfähigere Denkfähigkeiten aufweist, sondern auch einfacher zu bedienen ist und jedem unbegrenzte kreative Möglichkeiten bietet.

Ein riesiger Sprung nach vorne für DALL·E 3

Der größte Durchbruch von DALL·E 3 ist zweifellos die Kombination des Vincentian-Graph-Modells und ChatGPT, die die Schwelle für prompte Wörter deutlich senkt.

Benutzer müssen nur einfache Wörter eingeben, und ChatGPT kann die Eingabeaufforderungswörter automatisch erweitern und benutzerdefinierte detaillierte Eingabeaufforderungen generieren, von einfachen Sätzen bis hin zu detaillierten Absätzen, um ein Bild voller Details zu skizzieren.

Schauen wir uns einige Bilder an, die von DALL·E 3 generiert wurden:

In den belebten Straßen der Stadt, die vom Vollmond beleuchtet werden, genießen geschäftige Fußgänger das Nachtleben.

An einem Eckstand feilschte eine junge Frau mit roten Haaren und einem Samtumhang mit einem mürrischen alten Standbesitzer.

Der mürrische Straßenhändler, ein großer, kultivierter Mann in einem schicken Anzug und auffälligem Schnurrbart, plaudert angeregt auf seinem Steampunk-Telefon.

Anthropomorphe Herbstblätter bilden eine Folk-Band, die traditionelle Bluegrass-Musik in einem ländlichen Wald spielt, gepunktet mit dem sanften Mondlicht, das ein Vollmond wirft.

Ein kugelförmiger Stuhl im Kieselstein-Stil mit einer holprigen weißen Außenseite und einer luxuriösen Innenseite vor tropischer Tapete.

Anhand der wunderbaren Details und exquisiten Bilder ist ersichtlich, dass DALL·E 3 nicht nur die Einschränkungen von Eingabeaufforderungswörtern schwächt, sondern auch über die nativen Vorteile von ChatGPT verfügt und die Sprache verwendet, um große neuronale Netze bei der Ausführung verschiedener Textgenerierungsaufgaben anzuleiten.

Siehe auch Wegen ChatGPT zitiert ein amerikanischer Anwalt Urteile... die es nie gab

Derzeit hat DALL·E 3 bessere Fähigkeiten beim Verständnis von Benutzerbefehlen und Vincent-Diagrammen gezeigt, was auch einer der Mängel im vorherigen AIGC-Bereich war. Ein OpenAI-Forscher sagte außerdem, dass Fortschritte in der Sprache es DALL·E 3 ermöglichen, komplexe Anweisungen besser zu analysieren und verwirrende Elemente in detaillierten Anfragen zu vermeiden.

Sollte das Bild nicht mit der Textbeschreibung übereinstimmen, kann der Nutzer jederzeit Anpassungen in ChatGPT vornehmen.

Für weitere Details zu DALL·E 3 hat Sam Altman auch ein süßes Werbevideo geteilt.

In dem Video fragten Eltern ChatGPT: „Wie sieht ein ‚Super-Sonnenblumen-Igel‘ im Mund eines 5-jährigen Kindes aus?“ und erhielten vier Aufforderungswörter in verschiedenen Stilen, und die entsprechenden Bilder wurden von DALL·E generiert 3.

Nachdem der Benutzer den Bildstil ausgewählt und den kleinen Igel Larry genannt hatte, fügte ChatGPT der Geschichte reichhaltigere Elemente hinzu, darunter einen Waldhintergrund, ein kleines Haus und einen kleinen Briefkasten mit Larrys Namen usw. ChatGPT umfassend Nach den vorherigen Informationen a Es kann auch eine komplette Handlung generiert werden.

Man kann sagen, dass ChatGPT und DALL·E 3 von Märchen bis hin zu Illustrationen alles bieten! Einige Internetnutzer kommentierten, dass das von Sam Altman veröffentlichte kleine Igel-Demovideo ein Beispiel dafür sei, „in 30 Minuten ein Bilderbuch für Kinder zu erstellen“.

Im Vergleich zu den vorherigen Modellen der DALL·E-Serie wurden DALL·E2 und DALL·E3 verwendet, um Bilder zu erzeugen, die auf dem gleichen Aufforderungswort basieren: „Ein Basketballspieler taucht ein und wird als Ölgemälde eines explodierenden Nebels dargestellt“. Es ist ersichtlich, dass es offensichtliche Unterschiede in den Auswirkungen der Bilderzeugung zwischen den beiden Modellgenerationen gibt.

Im Vergleich zur linken Seite sind die Details, die Szenenhelligkeit und andere Effekte im DALL·E 3-Bild besser.

Mehr als ein Jahr nach der Veröffentlichung von DALL·E 2 löste Stable Diffusion eine Welle der Begeisterung für Diffusionsmodelle aus, die für eine Weile an Popularität verlor. Jetzt kommt OpenAI mit der neuesten Version von DALL·E 3, was diese Situation zu ändern scheint.

Siehe auch Was zum Teufel ist ChatGPT?

Eine neue Runde der Wenshengtu-Schlacht hat begonnen

Zuvor beteiligten sich etwa 400 Personen am Testen der DALL·E 3 Alpha-Version auf dem OpenAI Discord-Server. Netizens kommentierten: Die Genauigkeit der generierten Bilder übertraf Stable Diffusion und midjourney. Die Sprachkenntnisse von MidJourney wurden von Benutzern kritisiert, diese wurden jedoch bei DALL·E 3 erheblich verbessert. DALL·E 3 kann durch Prompt-Eingabeaufforderungen, wie „HALLO“ im Bild unten, kontinuierliche und genaue Wortschreibweisen in Bildern generieren. Im vorherigen Vincentian-Diagrammmodell gibt es kein Modell, das dies erreichen kann.

Nachdem Sie dieses Bild von „DALL·E KÖNNEN BUCHSTABEN“ vergrößert haben, können Sie auch sehen, dass „DALL·E“ tief im Bild als „DALE“ geschrieben wird, aber insgesamt ist DALL besser darin, Aufforderungen zu folgen und zusammenhängende Details zu generieren. ·E 3 hat einen großen Durchbruch geschafft.

Zusätzlich zu den Details des Textes hat DALL·E 3 im Vergleich zur früheren Version auch große Fortschritte beim Verständnis von Eingabeaufforderungen gemacht. Die Aufforderung lautet: „Im nebligen Wald ist der Boden sehr schlammig, es findet ein Radrennen statt, ein rosa Clown fährt auf einem Fahrrad aus Käse und er gibt dem Panda ein High-Five, der Panda ist sehr wütend.“ Im Mai DALL ·E In der Version ist zu sehen, dass die Handflächen des Pandas und des Clowns verdreht sind, das Detail, dass das Fahrrad aus Käse besteht, nicht offensichtlich ist und der Gesichtsausdruck des Pandas lächelt, was offensichtlich nicht mit dem Inhalt von vereinbar ist das prompte Wort.

In der Version von DALL·E 3 können Sie sehen, dass der Clown und der Panda High-Five machen, der Clown fünf offensichtliche Finger hat und die Fahrradräder komplett aus Käseelementen bestehen, einschließlich der Details der von ihnen aufgewirbelten Schlammflecken Räder. DALL·E 3 versteht die Semantik der Aufforderungswörter. Es gab eine sehr deutliche Verbesserung bei der Darstellung von Bildern.

Siehe auch ChatGPT hielt einen Gottesdienst in Deutschland ab – Snob

Wenn in Stable Diffusion und MidJourney dasselbe Aufforderungswort eingegeben wird, kann nicht gesagt werden, dass die Beziehung zwischen dem angezeigten Bild und dem Aufforderungswort geringfügig unterschiedlich ist, sondern fast völlig unabhängig. Angesichts der Leistung von DALL·E 3 sagten viele Internetnutzer, dass Stable Diffusion und MidJourney auf diesem Niveau nicht mithalten können.

Erst letzte Woche wurde bekannt, dass google Gemini in kleinem Umfang testet. Es wird gemunkelt, dass Gemini 20-mal leistungsfähiger sein wird als ChatGPT, was auch zu einem gewissen öffentlichen Druck auf OpenAI geführt hat.

Anschließend aktualisierte OpenAI „stillschweigend“ GPT-3.5-Turbo-Instruct. Zuvor wurde berichtet, dass OpenAI GPT-4 intensiv in multimodale Funktionen integriert, die denen von Gemini ähneln. Viele Leute in der Branche spekulierten, dass OpenAI oder Veröffentlichung große multimodale Modelle wie GPT-4-Vision auf der bevorstehenden ersten Entwicklerkonferenz.

Die Situation großer Modelle ist kompliziert und verwirrend. Als führende Unternehmen großer Modelle stellen Google und OpenAI sich gegenseitig auf die Probe. Es ist immer noch nicht bekannt, wie mächtig die beiden sind und wie sehr sie unsere Erkenntnis untergraben können.

Derzeit wurden die technischen Details zu DALL·E 3 noch nicht bekannt gegeben. Im Hinblick auf Sicherheit und Urheberrechtsschutz hat OpenAI jedoch viel Arbeit in DALL·E 3 gesteckt, einschließlich der Ergreifung von Abhilfemaßnahmen, um die Offenlegung der Namen von Persönlichkeiten des öffentlichen Lebens zu verweigern, und der Zusammenarbeit mit externen Mitgliedern des „roten Teams“ (Teams, die Stresstests durchführen). Modelle), Quellklassifizierer etc. im eigenen Haus entwickeln.

Darüber hinaus weigert sich DALL·E 3, von lebenden Künstlern gestaltete Bilder bereitzustellen, und Kunstschaffende können sich auch dafür entscheiden, ihre persönlichen Werke von der Schulung des zukünftigen Bildgenerierungsmodells von DALL·E 3 auszuschließen. Es wird berichtet, dass DALL·E 3 Anfang Oktober für ChatGPT Plus- und Enterprise-Benutzer eingeführt wird. Bilder, die von Benutzern mit DALL·E 3 erstellt wurden, können ohne OpenAI-Genehmigung nachgedruckt oder verkauft werden.

(leifeng.com(Öffentliches Konto: Leifeng.com)Leifeng.com)

Originalartikel von Leifeng.com, unerlaubte Vervielfältigung ist verboten.Einzelheiten finden Sie unterHinweise zum Nachdruck。

5/5 - (278 votes)

Die Denkfähigkeiten von DALL·E 3 wurden erheblich verbessert und OpenAI übertrifft „ChatGPT native“

Kommentieren Sie den Artikel Antwort abbrechen

Fortnite Informieren Sie sie über alle Belohnungen und Aufgaben

Huawei Watch 3 und GT 3 Pro erhalten ein Update für Funktionsverbesserungen

Verwandte ArtikelMehr vom Autor

DOGE oder SHIB? Wir haben ChatGPT-4o gefragt, welcher Vermögenswert für den Sommer 2024 besser zu kaufen ist

ChatGPT-4o Google Drive-Integration wird eingeführt – so funktioniert es

Wir haben ChatGPT-4o gefragt, wie hoch der Cardano-Preis Ende 2024 sein wird; Hier ist, was es sagte

Kommentieren Sie den Artikel Antwort abbrechen

Fortnite Informieren Sie sie über alle Belohnungen und Aufgaben

Huawei Watch 3 und GT 3 Pro erhalten ein Update für Funktionsverbesserungen

Verwandte Artikel Mehr vom Autor