OpenAI (ChatGPT) peut cloner une voix humaine en 15 secondes

Dans un futur proche, pourra-t-on donner à ChatGPT la voix de son meilleur ami, d’un parent ou, pourquoi pas, sa propre voix ? Le modèle vocal créé par OpenAI fin 2022, sobrement appelé « Voice Engine », semble de plus en plus efficace. Des géants comme Apple permettent de générer une voix en 15 minutes, OpenAI dit pouvoir le faire en 15 secondes. Il lui suffirait d’écouter n’importe quelle personne pendant ce laps de temps pour générer une voix de synthèse capable même d’imiter des émotions.

Au-delà de l’exploit, un intérêt pour l’accessibilité

C’est dans un billet de blog publié le 29 mars qu’OpenAI détaille son moteur vocal. L’entreprise, qui se dit « prudente », imagine plusieurs usages pour son modèle révolutionnaire. Parmi eux :

  • L’assistance dans la lecture, pour aider des personnes à se concentrer avec une voix familière.

  • La traduction en temps réel, pour permettre d’apprendre ou de parler une autre langue avec sa propre voix.

  • L’accessibilité, en ciblant les personnes qui ne peuvent pas ou ne peuvent plus parler.

Sur son site, OpenAI permet d'écouter plusieurs exemples.
Sur son site, OpenAI permet d'écouter plusieurs exemples.

Sur son site, OpenAI permet d’écouter plusieurs exemples. // Source : OpenAI

Les quelques extraits publiés par OpenAI sont impressionnants, puisqu’on ne distingue pas de différences entre l’extrait d’origine et la voix générée. Voice Engine est déjà le modèle qui alimente ChatGPT Voice, ainsi que les podcasts traduits dans Spotify.

[Lire la suite]

Crédits photos de l'image de une : Une femme dans un studio d'enregistrement avec un micro // Source : Numerama, avec Midjourney