TAT ist ein innovatives GenAI-Startup, das interaktive digitale Menschen herstellt.

Durch die Kombination der Intelligenz fortschrittlicher LLMs wie chatgpt, Claude oder Llama mit dem natürlichen Gefühl der persönlichen Kommunikation möchte D-ID mit seinen Agenten digitale Verbindungen neu definieren und Mensch-Computer-Schnittstellen persönlicher, ansprechender und, nun ja, … menschlicher gestalten.

Das Creative Reality Studio von D-ID ist eine Self-Service-Plattform mit den besten generativen KI-Tools, mit denen Benutzer Videos mit sich bewegenden und sprechenden Avataren erstellen können. Die sich bewegenden Avatare werden anhand einiger Minuten hochgeladenen Videos trainiert und verfügen über Handgesten als Halbtotale/von der Hüfte aufwärts-Darstellung einer Person. Die One-Shot-Talking-Heads ermöglichen die Animation eines einzelnen JPEGs und die Ausgabe als normales Video. Sie können die digitalen Menschen mit Sprache oder Text steuern, aber die Standbilder sind nicht interaktiv und nicht so beeindruckend wie die vollständig digitalen Agenten.

Schnell und einfach von Jpeg zu Video.

Die einfachsten Videos, die D-ID bereitstellt, erwecken ein JPEG zum Leben, aber die Qualität ist nicht so gut wie bei den interaktiven Menschen, und obwohl es lippensynchron zu sein scheint, sind sie so konzipiert, dass jeder schnell, einfach und sehr schnell einen vorgerenderten animierten Clip erstellen kann. D-ID ist nicht das einzige Unternehmen, das diese Art der Reanimation anbietet; dies war der erste Service, den das Startup vor ein paar Jahren anbot. Im Video unten können Sie sehen, dass die Zähne im Quell-JPEG (oben links) überhaupt nicht zu sehen sind, sodass die GenAI das Innere des Mundes und der Zähne vollständig „erraten“ oder erschließen muss. Natürlich ist dies GenAI mit nur einem Frame Trainingsdaten. Die interaktiven digitalen Menschen werden anhand eines viel längeren tatsächlichen Videoclips und damit einer viel höheren Qualität trainiert. Das Still-to-Video basiert auf einer Reihe einzelner Technologien und KI-Tools wie Schlüsselpunktdetektoren, Bewegungsprädiktoren, Okklusionsfeldern, Spektrogramm-(Audio-)Interpretern und natürlich kontradiktorischen Generatoren. Versionen dieser Schlüsseltechnologien wie diese werden in allen Lösungen des Unternehmens verwendet.

Siehe auch  ChatGPT kann genau so schreiben, wie Sie es möchten: So variieren Sie den Stil der künstlichen Intelligenz von OpenAI!

Interaktive digitale Menschen

Digital Mike
Screenshot Vom Interaktiven Digitalen Mike

D-ID befasst sich mit dem interessantesten Bereich von Konversationsagenten und gibt einem LLM ein Gesicht. Die Wissensquellen können geerdet, hybrid oder ungeerdet sein. Diese stellen verschiedene Kontroll- und Führungsebenen dar, und dieser Ansatz ist für moderne Systeme dieser Art mittlerweile ziemlich Standard. Wenn Ihr digitaler Mensch zu Autos berät, könnte er über allgemeines Wissen über Autos von ChatGPT oder einem ähnlichen LLM verfügen. Natürlich möchten Sie vielleicht spezifisches Markenwissen über die neuesten Automodelle Ihrer Marke haben, einschließlich Informationen, die möglicherweise nicht im Internet verfügbar sind und wahrscheinlich nicht auf dem neuesten Stand sind. Dies wird effektiv durch einen Daten-Beiwagen gehandhabt. Diese zusätzlichen Informationen sind eine Datendatei, die Teil eines Retrieval-Augmentation-Generation-Systems oder RAG ist. Wenn eine Abfrage gestellt wird, wird sie zuerst an das RAG weitergeleitet, das einen Vektor basierend auf den zusätzlichen Informationen erstellt, die es verarbeitet hat. Dieser wird dann mit der ursprünglichen Anfrage gebündelt und an das LLM weitergeleitet. Sie können es sich so vorstellen, als würde es dem LLM zusätzlichen Kontext und zusätzliche Informationen liefern. Dies unterscheidet sich von weiteren Trainingsdaten, da der Inhalt der RAG-Datei nicht in das Master-LLM aufgenommen wird und auch niemand außer Ihrem digitalen Menschen auf diese Informationen zugreifen kann. Das heißt, wenn Sie einem digitalen Menschen eine Frage stellen, kann er entweder nur auf der Grundlage dessen antworten, was er aus seiner lokalen Datei weiß, oder er kann als Hybrid arbeiten und die RAG verwenden, um eine Master-Eingabeaufforderung zu erweitern. Und natürlich ist es möglich, jede Eingabeaufforderung direkt an das LLM weiterzuleiten.

Siehe auch  ChatGPT ist jetzt im App Store in den USA verfügbar
D Id Copy
Benutzerfragen Werden Über Einen Rag An Das Llm Weitergeleitet, Bevor Der Interaktive Digitale Mensch Antwortet.

Das Erscheinungsbild Ihres digitalen Menschen kann durch die Eingabe von benutzerdefiniertem Material erstellt werden, das Ihren eigenen, einzigartigen digitalen Menschen erstellt, wie wir es für diesen Artikel getan haben, oder indem Sie einen der Bibliothekscharaktere verwenden. Ebenso können Sie eine der Standardstimmen oder eine beliebige Anzahl von Techniken verwenden, um eine Stimme zu klonen, damit sie wie Ihr gewünschter Berater oder digitaler Assistent klingt.

Was D-ID von anderen digitalen menschlichen Tools unterscheidet, ist, dass es nicht nur darauf ausgelegt ist, ein Ausgabevideo zu produzieren (obwohl das Unternehmen genau diesen Service anbietet). Der Unterschied sind die interaktiven digitalen Menschen, die das Unternehmen anbietet. D-ID hat große Anstrengungen unternommen, um die Latenz so kurz wie möglich zu halten, damit Ihr digitaler Mensch reagieren kann, Fragen sinnvoll beantwortet und den Eindruck erweckt, Ihnen zuzuhören, wenn Sie sprechen. Das Unternehmen behauptet, es sei einer der schnellsten (wenn nicht der schnellste) interaktiven digitalen menschlichen Agenten, der derzeit verfügbar ist.

Das Paket ist entweder als Blackbox/einfaches Setup verfügbar, das weder Programmierung noch komplexe Computerkenntnisse erfordert. Oder Sie können das gesamte System für ein maßgeschneidertes API-Setup Ihrer eigenen Gestaltung öffnen – indem Sie Ihr eigenes spezifisches LLM mit komplexen, detaillierten Interaktionen bereitstellen und das LLM durch etwas Strukturierteres wie google Dialogflow ersetzen.

Das Unternehmen verweist auf Untersuchungen, die zeigen, dass die Wahrscheinlichkeit, dass Menschen sich ein Video mit einer Person ansehen, 75 % höher ist als bei Videos mit nur Text und Bildern. Außerdem sind Gesichter 93 % fesselnder und erregen mehr Aufmerksamkeit als andere visuelle Elemente. Das Unternehmen ist sich auch der Probleme im Zusammenhang mit Trainingsdaten und der Wahrung der Rechte der Benutzer an hochgeladenem Material sehr bewusst.

Siehe auch  Gerüchten zufolge hat Samsung ein KI-Tool ähnlich ChatGPT für den internen Gebrauch entwickelt und folgt damit den Praktiken anderer koreanischer Unternehmen – ezone.hk – Technology Focus – Tech Cars

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein