google spendiert seinem Chatbot für künstliche Intelligenz Bard ein großes Upgrade und bietet erstmals die Möglichkeit, Bilder aus einer Textaufforderung zu generieren.
Bard wurde im Dezember aktualisiert, um auf dem Gemini Pro Large Language Model (LLM) zu laufen, das höhere Argumentationsebenen ermöglicht und dem Chatbot kürzlich den zweiten Platz in einer weithin anerkannten KI-Chatbot-Bestenliste bescherte, direkt hinter den fortschrittlichsten OpenAI-Modell.
Die neuen Bilderzeugungsfunktionen stammen nicht von Gemini, sondern die Bilder werden mit dem neuen Imagen 2-Modell von Google erstellt, das von DeepMind, dem fortschrittlichen KI-Labor von Google, erstellt wurde.
Um die Verbreitung von Fehlinformationen und Deep Fakes zu bekämpfen, sagt Google, dass jedes von Bard generierte Bild auch mit SynthID getaggt wird. Hierbei handelt es sich um ein ebenfalls von DeepMind entwickeltes Tool, das den Bildpixeln ein verstecktes Wasserzeichen hinzufügt, das bestätigt, dass es sich um ein KI-generiertes Bild handelt.
Wie funktioniert die Bilderzeugung in Bard?
Laut Google liefert Imagen 2 die bisher höchste Text-zu-Bild-Qualität, enthält Verbesserungen beim Entfernen visueller Artefakte und reagiert besser als das Imagen-Modell der vorherigen Generation auf Textaufforderungen und Anweisungen.
Ähnlich wie DALL-E 3 in chatgpt oder Image Creator in Microsoft Copilot generieren Sie Bilder in Bard mit einer einfachen Beschreibung.
Sie könnten beispielsweise „Erstellen Sie ein Bild eines Hundes, der auf einem Surfbrett reitet“ eingeben, und Bard erstellt eine Reihe von Auswahlmöglichkeiten, aus denen Sie auswählen können.
Jack Krawczyk, Produktleiter bei Bard, sagte, dass sie auch hinter den Kulissen am zugrunde liegenden Modell gearbeitet haben, um sicherzustellen, dass es sichere und geeignete Bilder generiert.
Dies ähnelt den Leitplanken für DALL-E in ChatGPT und anderen KI-Bildgenerierungstools, einschließlich Adobe Firefly.
„Unsere technischen Leitplanken und Investitionen in die Sicherheit von Trainingsdaten zielen darauf ab, gewalttätige, beleidigende oder sexuell eindeutige Inhalte einzuschränken“, sagte Krawczyk und fügte hinzu: „Wir wenden Filter an, die die Generierung von Bildern namentlich genannter Personen verhindern sollen.“
Was noch nicht klar ist, ist, ob die Bildgenerierung zu Assistant kommen wird, wenn Bard später in diesem Jahr integriert wird, obwohl dies wie eine logische Einbeziehung für Google erscheint.
Was kommt sonst noch auf Bard zu?
Als Google im Dezember Gemini Pro zu Bard hinzufügte, war es auf eine Handvoll Länder und Sprachen beschränkt. Dieses neue Update macht es in über 40 Sprachen und in 230 Ländern und Territorien verfügbar.
Es funktioniert nativ in verschiedenen Sprachen für Text-, Codierungs- und Argumentationsfähigkeiten, obwohl die Bilderzeugung derzeit nur auf Englisch erfolgt.
Bards „Double-Check“-Funktion wird auch auf andere Sprachen ausgeweitet. Hier können Sie auf das G-Symbol klicken, nachdem Bard eine Antwort generiert hat, und überprüfen, ob die Aussage des Chatbots korrekt ist. Dies dient zum Teil der Bekämpfung des Halluzinationsproblems, das alle großen Sprachmodelle betrifft.
Wenn Sie Bard aus irgendeinem Grund nicht verwenden möchten oder eigenständige Tools bevorzugen, veröffentlicht Google über seinen Labs-Dienst auch ImageFX, einen experimentellen eigenständigen Bildgenerator, der auf dem Imagen 2-Modell basiert. Imagen 2 wird Duet AI auch in Workspace unterstützen.