L’algorithme d’OpenAI utilisé pour retrouver la voix en temps réel

Le projet est destiné à redonner une voix à des personnes ayant des difficultés à parler suite à une attaque ou en raison d’une maladie neurodégénérative (maladie de Parkinson, maladie de Charcot).

L’algorithme d’OpenAI GPT 4o-mini est utilisé dans un projet de recherche pour convertir les mouvements musculaires de la gorge en mots et en phrases. Le résultat est affiné en intégrant d’autres données telles les émotions ou le moment de la journée.

C’était en 2021, pour le film Top Gun: Maverick. L’acteur Val Kilmer, incapable de parler suite à un cancer de la gorge, a été doté d’une voix de synthèse créée par intelligence artificielle (IA) à partir d’archives. Mais le résultat obtenu consiste en des dialogues dictés par le scénario, plaqués a posteriori sur les images ; la technique ne redonnait pas une voix en temps réel à l’acteur. Pour cela, une équipe pluridisciplinaire de chercheurs d’universités britanniques et chinoises travaille sur une autre approche, combinant matériel et logiciel, à savoir des capteurs et la version 4o-mini du modèle de langage GPT d’OpenAI.

Le projet est destiné à redonner une voix à des personnes ayant des difficultés à parler suite à une attaque ou en raison d’une maladie neurodégénérative (maladie de Parkinson, maladie de Charcot). L’article, publié en ligne sur ArXiv, avance des résultats prometteurs avec un taux d’erreur sur les mots et les phrases de respectivement 4,2% et 2,9%.

Un système non-invasif

Les chercheurs ont mis au point un système non-invasif. Des capteurs de tension en polyester imprimés en 3D sont placés sur le larynx pour en enregistrer les micro-mouvements musculaires lorsque la personne parle (sans être audible).

PUBLICITÉ

Ces données sont ensuite analysées par un algorithme d’apprentissage automatique construit à partir de GPT 4o-mini. Les chercheurs l’ont entrainé sur un jeu de données captées sur dix personnes capables, elles, de parler, permettant ainsi à l’algorithme d’apprendre à associer des mouvements du larynx avec des mots et phrases correspondants. Concrètement, ces personnes ont dû prononcer (et répéter 100 fois) 47 mots chinois utilisés par des victimes d’un AVC et 20 phrases (répétées, elles, 50 fois) construites autour de ces mots. Dans l’article, les chercheurs expliquent qu’après avoir soumis 25 fois chaque mot (et les mouvements du larynx allant avec) à l’algorithme, celui-ci atteint une performance de reconnaissance de 92,2%.

Lire aussiDeepfakes vo[...]

Lire la suite sur sciencesetavenir.fr