Start ChatGPT Mit Moshi bringt das Labor von Xavier Niel einen Sprachassistenten auf den...

Mit Moshi bringt das Labor von Xavier Niel einen Sprachassistenten auf den Markt, der schneller ist als ChatGPT-4o

Von

Juli 3, 2024

Etwas mehr als sechs Monate nach seiner Gründung stellt Kyutai, das Forschungslabor von Xavier Niel, einen Sprachassistenten vor, der Stimmen in Echtzeit verarbeiten kann. Bei Moshi steht nicht der Text im Vordergrund, sondern die Erzeugung von Stimmsequenzen und Emotionen.

Im November 2023 enthüllten Xavier Niel und Rodolphe Saadé im Rahmen einer großen Pariser Show im Beisein von Ministern und dem Präsidenten der Republik (per Video) Kyutai. Ein ehrgeiziges gemeinnütziges Projekt, das, wie OpenAI ursprünglich, darauf abzielt, ein Forschungslabor für europäische Forscher zu schaffen. Kyutais Ziel lässt sich in einem Satz zusammenfassen: zu verhindern, dass französische Köpfe ins Ausland fliehen. Seitdem arbeitet Kyutai an generativer künstlicher Intelligenz mit dem Ziel, Open-Source-Technologien zu entwickeln, um die Vorherrschaft der USA und Chinas einzudämmen.

Für weitere

Xavier Niel Und Rodolphe Saadé. // Quelle: Numerama

Am 3. Juli 2024, etwas mehr als sechs Monate nach seiner Gründung, stellte Kyutai die Früchte seines ersten Werks öffentlich vor. Am IRCAM, dem Forschungszentrum für musikalisches Schaffen, stellte Kyutai seine erste hauseigene KI vor. Aus gutem Grund heißt das erste Produkt Moshi und ist ein hochentwickelter Sprachassistent, der Sprache in Echtzeit verarbeiten kann. Dies ist eine direkte Antwort auf GPT-4o (OpenAI) und Astra (google).

Moshi ist sehr, sehr schnell, möglicherweise schneller als GPT-4o. In den ersten Demos geht er sogar zu schnell und schneidet den Boden ab.

Es bleibt abzuwarten, ob das Modell dahinter zuverlässig ist! #Kyutai pic.twitter.com/ZEjrGgm1kA

— Numerama (@Numerama) 3. Juli 2024

Moshi geht schnell, sehr schnell

Bei seinem ersten Projekt setzt Kyutai nicht wie der Rest der Branche auf einen Chatbot, sondern auf ein Sprachmodell.

Siehe auch Überprüfen Sie Ihre Quellen: Die 10 besten KI-Chatbots, darunter ChatGPT, liefern Antworten von russischen Desinformations-Websites

Im Gegensatz zu den meisten Sprachassistenten wandelt Moshi eine Sprachanfrage nicht in Text um, um darauf zu antworten. Kyutais Arbeit zielt darauf ab, ein Modell zu schaffen, das Geräusche automatisch erkennen und vorhersagen kann, welche Geräusche als nächstes auftreten sollten, um natürliche Gespräche zu ermöglichen. Moshi wurde anhand von Aufzeichnungen von Telefongesprächen trainiert, die zwischen 1994 und 2002 in den Vereinigten Staaten stattfanden, mit einer Französin, die auf den Namen Alice reagiert und ihr die Stimme lieh. Der Sprachassistent errät, was Sie sagen werden, und reagiert natürlich, sobald Sie fertig sind. Die angekündigte Latenzzeit beträgt 160 ms, ein Branchenrekord.

Moshi kann Akzente und Emotionen imitieren, wie chatgpt Voice. #Kyutai pic.twitter.com/iyulRX8MsS

— Numerama (@Numerama) 3. Juli 2024

Da Moshi die Stimme von Natur aus verarbeitet, kann er Emotionen erkennen. Er selbst ist in der Lage, 70 nachzuahmen, je nach Gesprächston. Er kann Rollenspiele spielen, Akzente imitieren, flüstern, scherzen … Wie GPT-4o, das omnimodale Modell von OpenAI, vermittelt Moshi den Eindruck, mit einer bewussten Maschine zu sprechen. Andererseits ist es nicht in der Lage, ein Bild oder einen Videostream zu verzerren, sondern konzentriert sich auf die Stimme. Eine der am 3. Juli gezeigten Demos enthielt ein Interview mit Xavier Niel, der dank Moshi mit einer virtuellen Imitation seiner Stimme weitersprechen kann. Es ist unmöglich, den Unterschied zu erkennen.

Siehe auch ChatGPT erhält ein großes Update. Was es für Reisende bedeutet

Um improvisieren zu können, benötigt Moshi natürlich ein Sprachmodell für den Text. Kyutai hat Helium implementiert, ein LLM mit 7 Milliarden Parametern, das derzeit nur … Englisch spricht. Das Unternehmen hat noch nicht mit der Arbeit an mehreren Sprachen begonnen, da es darauf abzielt, schnell mehr Menschen bekannt zu machen. Ein weiteres kleineres Modell ermöglicht die lokale Nutzung von Moshi, ohne Internet, auf einem Computer oder Smartphone. Offensichtlich ist er einer größeren Anzahl von Halluzinationen ausgesetzt.

Da Kyutai ein Open-Source-Labor ist, kann jeder in den nächsten Stunden Moshi ausprobieren. Ein „Prototyp“ wird online gestellt, damit jeder mit dem französischen Sprachassistenten Englisch sprechen kann.

5/5 - (187 votes)

Mit Moshi bringt das Labor von Xavier Niel einen Sprachassistenten auf den Markt, der schneller ist als ChatGPT-4o

Moshi geht schnell, sehr schnell

Kommentieren Sie den Artikel Antwort abbrechen

Die Gewinne von Ford im ersten Quartal erholen sich, da Lkw- und Flottenverkäufe die...

Konvertieren Sie Mac-Schriftarten mit DfontSplitter in Windows-kompatible Schriftarten

Moshi geht schnell, sehr schnell

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

Die Gewinne von Ford im ersten Quartal erholen sich, da Lkw- und Flottenverkäufe die...

Konvertieren Sie Mac-Schriftarten mit DfontSplitter in Windows-kompatible Schriftarten

Verwandte Artikel Mehr vom Autor