Moshi, une IA de génération audio qui parle aussi vite qu'un humain

Le laboratoire français Kyutai l'a dévoilée hier à Paris devant un parterre de chercheurs, entrepreneurs et journalistes. Le prototype annonce de que pourraient devenir les interactions vocales avec les machines.

"L'équipe a été héroïque". Patrick Pérez, directeur de Kyutai, donne le ton dès les premières minutes de sa présentation, face à un parterre de scientifiques, d'entrepreneurs et de journalistes réunis le 3 juillet 2024 à l'Ircam (Institut de recherche et coordination acoustique/musique), à Paris. C'est le jour du dévoilement de Moshi, une intelligence artificielle (IA) vocale qui tire plus vite que son ombre.

Le modèle de langage Hélium

"L'héroïsme" en question fait aussi référence à la vitesse à laquelle a travaillé la petite équipe de Kyutai. En six mois, les 8 personnes de ce laboratoire de recherche français présenté mi-novembre 2023 ont effectivement abattu un travail considérable puisqu'elles dévoilent ici le premier générateur de voix par IA réagissant en temps réel. C'est-à-dire qu'on peut lui parler comme à un humain. L'agent conversationnel répond sans le temps de latence qui signe l'interlocuteur artificiel. En l'occurrence, la réponse arrive dans les 200 millisecondes.

Il est bâti sur un modèle de langage appelé Hélium, lui aussi développé par Kyutai. Il a été pré-entraîné sur des données trouvées en ligne, comme beaucoup de modèles, mais aussi sur des séquences audio de conversation de synthèse. "Il est très difficile de collecter une grande quantité de ce type de données", explique Alexandre Défossez, membre de l'équipe.

Le modèle a d'abord été entraîné à générer une transcription d'un texte écrit ressemblant à un texte parlé. Le résultat est ensuite passé dans un moteur de "text-to-speech", c'est-à-dire un logiciel capable de transformer cette conversation écrite en son. Ce programme a lui aussi été développé par Kyutai.

Le 3 juillet 2024, Patrick Pérez, directeur de Kyutai, annonce le lancement de Moshi.
Le 3 juillet 2024, Patrick Pérez, directeur de Kyutai, annonce le lancement de Moshi.


Patrick Pérez, directeur de Kyutai, annonce le lancement de Moshi. Crédit OL.

La voix elle-même est celle d'une artiste, Alice. Elle a enregistré des heures de sa voix, sur différentes intonations, selon différentes émotions pour qu'au final, Moshi s'avère capable de "parler" en chantant, en murmurant, et quantité d'autres inflexion[...]

Lire la suite sur sciencesetavenir.fr

A lire aussi