Die Verzögerung des beeindruckenden Sprachmodus von chatgpt durch OpenAI hat viele Fans des KI-Chatbots verärgert, aber jetzt sind sie vielleicht doch noch auf der sicheren Seite. Der französische Entwickler künstlicher Intelligenz Kyutai hat einen Echtzeit-Sprach-KI-Assistenten namens Moshi vorgestellt.

Moshi wurde entwickelt, um lebensechte Gespräche mit Benutzern über Sprache zu ermöglichen, wie Alexa oder google Assistant, wird aber von den großen Sprachmodellen angetrieben, die ChatGPT und seinen Konkurrenten zugrunde liegen, in diesem Fall dem Helium 7B-Modell. Laut Kyutai kann Moshi mit verschiedenen Akzenten sprechen und verfügt über 70 verschiedene emotionale und Sprechstile. Die KI kann sogar zwei Audiostreams gleichzeitig verarbeiten, sodass Moshi gleichzeitig zuhören und sprechen kann.

Kyutais Entwicklung von Moshi umfasste die Feinabstimmung von über 100.000 synthetischen Dialogen, die mithilfe der Text-to-Speech-Technologie (TTS) erstellt wurden. Ziel war es, Moshi die Nuancen und Töne der menschlichen Kommunikation beizubringen. Die Marke arbeitete sogar mit einem professionellen Synchronsprecher zusammen, um Moshis Stimmqualität zu verbessern.

Dieser KI-Assistent integriert sowohl Text- als auch Audiotraining und ist für mehrere Backends optimiert. Das bedeutet, dass er auf Geräten wie Laptops ausgeführt werden kann, ohne mit der Cloud interagieren zu müssen. Das Unternehmen wirbt damit, dass dies eine Möglichkeit ist, Privatsphäre und Sicherheit zu wahren, indem die Übertragung sensibler Daten über das Internet verhindert wird. Sie können eine Demo von Moshi sehen Hier.

Offenes Gespräch

Kyutai verkündete, dass Moshi ein Open-Source-Projekt sein wird, das die Codes und das Framework des Modells umfasst und eine Grundlage für weitere Innovationen bietet. Der Open-Source-Ansatz kann auch dazu beitragen, Beschwerden zu entschärfen, mit denen größere KI-Unternehmen hinsichtlich der Sicherheit und Ethik ihrer geschlossenen Modelle konfrontiert sind. Kyutais Unterstützer, darunter der französische Milliardär Xavier Niel, fördern den Open-Source-Ansatz.

Siehe auch  ChatGPT gibt einen Solana-Preisausblick für 2024, da SOL um weitere 10 % steigt, und ist auch bei Bitcoin Minetrix optimistisch

Kyutai arbeitet außerdem an KI-Audioidentifizierungs-, Wasserzeichen- und Signaturverfolgungssystemen, die in Moshi integriert werden sollen. Diese Funktionen werden dazu beitragen, KI-generiertes Audio zu identifizieren, Verantwortlichkeit und Rückverfolgbarkeit zu fördern und gleichzeitig sicherzustellen, dass KI-generierte Inhalte überwacht und überprüft werden können.

Moshi befindet sich noch in der Entwicklung, aber der Sprachmodus in der Präsentation ist beeindruckend. Der Sprachansatz könnte als Katalysator für andere sprachgesteuerte Versionen von ChatGPT-Konkurrenten wirken oder die Hinzufügung von LLMs zu Alexa und anderen Sprachassistenten beschleunigen, sollte Moshi sich durchsetzen und populär werden.

Wenn Sie Moshi ausprobieren möchten, ein Demo ist online verfügbar und Sie können sich dort auch für den frühen Zugriff auf den vollständigen Chatbot anmelden.

Weitere Empfehlungen

5/5 - (433 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein