[ad_1]
Etwas mehr als sechs Monate nach seiner Gründung stellt Kyutai, das Forschungslabor von Xavier Niel, einen Sprachassistenten vor, der Stimmen in Echtzeit verarbeiten kann. Bei Moshi steht nicht der Text im Vordergrund, sondern die Erzeugung von Stimmsequenzen und Emotionen.
Im November 2023 enthüllten Xavier Niel und Rodolphe Saadé im Rahmen einer großen Pariser Show im Beisein von Ministern und dem Präsidenten der Republik (per Video) Kyutai. Ein ehrgeiziges gemeinnütziges Projekt, das, wie OpenAI ursprünglich, darauf abzielt, ein Forschungslabor für europäische Forscher zu schaffen. Kyutais Ziel lässt sich in einem Satz zusammenfassen: zu verhindern, dass französische Köpfe ins Ausland fliehen. Seitdem arbeitet Kyutai an generativer künstlicher Intelligenz mit dem Ziel, Open-Source-Technologien zu entwickeln, um die Vorherrschaft der USA und Chinas einzudämmen.
Am 3. Juli 2024, etwas mehr als sechs Monate nach seiner Gründung, stellte Kyutai die Früchte seines ersten Werks öffentlich vor. Am IRCAM, dem Forschungszentrum für musikalisches Schaffen, stellte Kyutai seine erste hauseigene KI vor. Aus gutem Grund heißt das erste Produkt Moshi und ist ein hochentwickelter Sprachassistent, der Sprache in Echtzeit verarbeiten kann. Dies ist eine direkte Antwort auf GPT-4o (OpenAI) und Astra (google).
Moshi geht schnell, sehr schnell
Bei seinem ersten Projekt setzt Kyutai nicht wie der Rest der Branche auf einen Chatbot, sondern auf ein Sprachmodell.
Im Gegensatz zu den meisten Sprachassistenten wandelt Moshi eine Sprachanfrage nicht in Text um, um darauf zu antworten. Kyutais Arbeit zielt darauf ab, ein Modell zu schaffen, das Geräusche automatisch erkennen und vorhersagen kann, welche Geräusche als nächstes auftreten sollten, um natürliche Gespräche zu ermöglichen. Moshi wurde anhand von Aufzeichnungen von Telefongesprächen trainiert, die zwischen 1994 und 2002 in den Vereinigten Staaten stattfanden, mit einer Französin, die auf den Namen Alice reagiert und ihr die Stimme lieh. Der Sprachassistent errät, was Sie sagen werden, und reagiert natürlich, sobald Sie fertig sind. Die angekündigte Latenzzeit beträgt 160 ms, ein Branchenrekord.
Da Moshi die Stimme von Natur aus verarbeitet, kann er Emotionen erkennen. Er selbst ist in der Lage, 70 nachzuahmen, je nach Gesprächston. Er kann Rollenspiele spielen, Akzente imitieren, flüstern, scherzen … Wie GPT-4o, das omnimodale Modell von OpenAI, vermittelt Moshi den Eindruck, mit einer bewussten Maschine zu sprechen. Andererseits ist es nicht in der Lage, ein Bild oder einen Videostream zu verzerren, sondern konzentriert sich auf die Stimme. Eine der am 3. Juli gezeigten Demos enthielt ein Interview mit Xavier Niel, der dank Moshi mit einer virtuellen Imitation seiner Stimme weitersprechen kann. Es ist unmöglich, den Unterschied zu erkennen.
Um improvisieren zu können, benötigt Moshi natürlich ein Sprachmodell für den Text. Kyutai hat Helium implementiert, ein LLM mit 7 Milliarden Parametern, das derzeit nur … Englisch spricht. Das Unternehmen hat noch nicht mit der Arbeit an mehreren Sprachen begonnen, da es darauf abzielt, schnell mehr Menschen bekannt zu machen. Ein weiteres kleineres Modell ermöglicht die lokale Nutzung von Moshi, ohne Internet, auf einem Computer oder Smartphone. Offensichtlich ist er einer größeren Anzahl von Halluzinationen ausgesetzt.
Da Kyutai ein Open-Source-Labor ist, kann jeder in den nächsten Stunden Moshi ausprobieren. Ein „Prototyp“ wird online gestellt, damit jeder mit dem französischen Sprachassistenten Englisch sprechen kann.
[ad_2]