Wir haben Moshi, die vom französischen Forschungslabor Kyutai entwickelte KI, mehrere Tage lang getestet. Der Sprachassistent, der davon träumt, chatgpt zu übertreffen, wird durch langsame Server ausgebremst und hält seine Versprechen nicht.
Anfang Juli, Kyutai, ein von Xavier Niel gegründetes französisches Forschungslabor, hat den Schleier über Moshi gelüftet. In weniger als sechs Monaten gelang es dem Labor, künstliche Stimmintelligenz zu entwickeln. Als Spiegel von Siri, google Assistant oder Alexa kann Moshi per Stimme mit seinen Gesprächspartnern interagieren. Kyutai versichert, dass sein Assistent dazu in der Lage ist ein natürliches Gespräch mit seinen Benutzern. Das ist das große Versprechen des gemeinnützigen Labors, das manchmal als OpenAI made in France präsentiert wird.
Um das herauszufinden, haben wir über die von Kyutai angebotene Demo-Website ausführlich mit Moshi gesprochen. Wenige Stunden nach der Ankündigung wurde tatsächlich eine experimentelle Version von Moshi verfügbar gemacht. Für die Website ist keine Registrierung erforderlich und Sie können über eine einfache Benutzeroberfläche mit der KI kommunizieren. Alle Austausche sind auf fünf Minuten begrenzt. Geben Sie einfach eine E-Mail-Adresse ein, um sich in die Warteschlange einzureihen und mit Moshi zu sprechen.
Lesen Sie auch: OpenAI hat große Ambitionen für sein kleines GPT-4o-Minimodell
Die Frage der Latenz
Auf dem Papier verspricht der Sprachassistent, der mit der Stimme einer Künstlerin namens Alice kommuniziert sofortige Antworten, nah an einer normalen Diskussion zwischen zwei Menschen. Laut Kyutai beträgt die Latenz nicht mehr als 160 Millisekunden. Das ist ein Rekord für die Branche. Wir sollten nicht vor unserem Bildschirm darauf warten müssen, dass die KI auf uns antwortet. In der Praxis hat Moshi immer ungewöhnlich lange gebraucht, um auf uns zu antworten, selbst auf ganz einfache Fragen oder alltägliche Anfragen wie „Hallo“ oder „Wie geht es dir?“ „. Fast jedes Mal starren wir auf den Bildschirm und warten darauf, dass Moshis Stimme von unserem Smartphone oder Computer kommt.
Tatsächlich erhielten wir schnellere, umfassendere und relevantere Antworten, wenn wir mit der Sprachversion von ChatGPT sprachen. Die KI von OpenAI war schon immer in der Lage, uns in relativ kurzer Zeit Antworten zu liefern. Dies war auch der Fall, wenn wir recht komplexe Fragen stellten, die ein wenig Recherche oder Nachdenken erfordern.
Bei schlechter Leistung empfiehlt Kyutai Internetnutzern, die experimentelle amerikanische Version zu testen. Das haben wir getan und manchmal gab es eine kleine Verbesserung. Für ein paar Sekunden konnten wir ein relativ reibungsloses Gespräch mit der Assistentin führen.
Es ist durchaus möglich, dass die Latenz vom experimentellen Aspekt der KI herrührt. Tatsächlich handelt es sich nicht um eine endgültige Ausgabe des Sprachassistenten. Es kann sein, dass die vom Labor genutzten Server einfach überlastet sind. Wir können darauf wetten, dass Kyutai es in naher Zukunft schaffen wird, die Situation zu korrigieren. Hoffen wir auch, dass die lokale Version dieses Problem beseitigt. Tatsächlich kann KI mithilfe von Komprimierungsmethoden lokal auf einem Computer oder Smartphone installiert werden, der nicht mit dem Internet verbunden ist. In der Zwischenzeit bleibt eines der Versprechen der KI zumindest vorerst unerfüllt.
Die KI, die uns abschneidet
Bei bestimmten Austauschen hatte die KI sogar die unglückliche Tendenz dazu schneide uns ab. Wie bei Kyutais Demonstrationen antwortet der Roboter, bevor wir unseren Satz beenden können. Tatsächlich wird das Ende unserer Anfrage sehr oft übersehen. Während der Diskussionen verliert Moshi auch den Diskussionsfaden, indem er nicht versteht, was wir ihm sagen. Tatsächlich reagiert der Roboter auf eine andere Überlegung, die aus einem Element am Anfang unseres Satzes abgeleitet wird, und reagiert nicht auf unsere Anfrage. In diesen Fällen ist es sehr kompliziert, die KI zu stoppen, wenn sie einen Monolog startet. Wenn Sie die Situation korrigieren möchten, indem Sie Moshi unterbrechen, um ihm weitere Informationen zu geben, müssen Sie warten, bis seine Antwort abgeschlossen ist. Kurz gesagt, es ist ein bisschen frustrierend.
Manchmal ist es so, als ob die KI bereits darüber nachdenkt, was sie sagen soll, während wir noch reden. Wie Alexandre Défossez, einer der Gründungswissenschaftler von Kyutai, angibt, KI „spricht gleichzeitig, während sie denkt“. Dies ist es letztlich, was Moshi einem menschlichen Gesprächspartner am nächsten bringt.
Sprechen Sie Französisch ?
Wie Kyutai angibt, kann Moshi noch keine andere Sprache als Englisch sprechen. Trotz ihrer Herkunft kann die KI nicht auf Französisch kommunizieren. Auf Nachfrage antwortet die KI jedoch selbstbewusst, dass sie tatsächlich in der Lage sei, Französisch zu sprechen.
Wir haben Moshi daher mehrmals gebeten, uns auf Französisch zu antworten. Vergeblich. Der Sprachassistent versichert uns weiterhin, dass er Französisch spricht, sagt es uns aber auf Englisch. Es ist uns nicht gelungen, eine einzige Antwort in der Sprache Molières abzuleiten. Es ist eher schade, dass ein in Frankreich entwickelter Sprachassistent sich nicht auf Französisch unterhalten kann. Auch hier hoffen wir, dass Kyutai beabsichtigt, die Situation in naher Zukunft zu korrigieren.
Spürbare Emotionen
Theoretisch zeichnet sich Moshi auch dadurch aus, wie er Emotionen ausdrückt und erkennt. Laut Kyutai ist die KI in der Lage, bis zu nachzuahmen 70 menschliche Emotionen. Während unserer Diskussionen fiel uns auf, dass Moshis Intonation oft war kommt einer menschlichen Stimme sehr nahe als die anderer Sprachassistenten wie Alexa, Siri oder ChatGPT, deren aktuelle Sprachiteration sehr roboterhaft ist. Der Tonfall der Worte des Roboters variiert je nach Gespräch. Fragt man ihn nach einem Rezept oder der Adresse eines Restaurants, spricht die KI ihre Antwort mit fröhlicher Stimme vor. Fragt man sie, ob sie Sushi mag, reagiert die künstliche Intelligenz eifrig, indem sie die Geschwindigkeit variiert und bestimmte Geräusche betont.
Andererseits konnten wir die Möglichkeiten, die Moshi in diesem Punkt bietet, nicht in vollem Umfang entdecken. Gespräche gab es immer endete kurz wegen der Latenz. Unter diesen Bedingungen war es schwierig zu überprüfen, ob Moshi in der Lage war, die von uns ausgedrückten Emotionen zu verstehen. Als wir ihr jedoch sagten, dass wir müde seien, reagierte die KI mit einem eher mitfühlenden Ton. Von dieser Seite aus sagen wir uns, dass die Ziele des Labors am Ende erreicht werden könnten.
Beachten Sie, dass die KI oft damit begonnen hat irgendetwas erzählen. In einigen Fällen erfand der Sprachroboter absurde Antworten auf grundlegende Fragen, die wahrscheinlich falsch interpretiert wurden. In anderen Szenarien unterbrach die KI die Diskussion mit unerwarteten Aussagen, wie zum Beispiel „Ich möchte einen Donut“.
Es ist die Eigenschaft der generativen KI, zu halluzinieren, das heißt, unter bestimmten Umständen etwas mit Zuversicht zu sagen, aber Moshi hat uns dennoch überrascht. Manchmal lenkt der Roboter das Gespräch in eine völlig unerwartete Richtung, indem er ohne den geringsten Grund mit uns über die amerikanische Armee spricht oder uns um ein Schinkensandwich bittet … Bei all diesen erstaunlichen Aussagen haben wir das Gefühl, dass Kyutai das machen wollte Die menschlichste KI, die möglich ist.
Erste nicht eindeutige Ergebnisse
Schließlich waren wir mit der Kommunikation mit Moshi zufrieden. In seiner experimentellen Version hält der Open-Source-Sprachassistent die ehrgeizigen Versprechen von Kyutai bei weitem nicht. Theoretisch bietet Moshi ein viel besseres Gesprächserlebnis als beliebte intelligente Assistenten wie Siri oder Google Assistant. Es sollte auch die Sprachversion von ChatGPT übertreffen.
In der Praxis ist KI noch weit davon entfernt, mit den bereits am Markt verfügbaren Lösungen konkurrieren zu können. Wir müssen warten, bis sich das Projekt weiterentwickelt und sich von den ineffizienten Servern des Labors befreit, bevor Moshi seine Fähigkeit zum Durchstarten zeigen kann …
🔴 Um keine Neuigkeiten von 01net zu verpassen, folgen Sie uns auf Google Nachrichten und WhatsApp.