Deepfakes vocaux : des voix de synthèse difficiles à détecter

Distinguer une voix authentique d’une autre générée par intelligence artificielle ne va pas de soi, montre une expérience menée par des chercheurs britanniques. La probabilité d’être trompé par un deepfake vocal est loin d’être négligeable.

En écoutant quelqu’un au téléphone, sauriez-vous dire si sa voix est authentique ou si elle a été créée par intelligence artificielle ? Rien n’est moins sûr, suggère une expérience menée par des chercheurs en informatique et en science criminelle de l‘University College of London (UCL, Royaume-Uni). L’équipe s’est en effet intéressée au deepfakes vocaux en en faisant écouter à 529 participants. Leurs résultats, peu brillants pour ces derniers, sont parus dans un article de la revue PLOS One début août 2023.

Les deepfakes sont des contenus artificiels générés par des algorithmes d’apprentissage automatique. Ils posent de gros problèmes de manipulation et de fiabilité de l’information mais ils font généralement parler d’eux en matière d’image, photo ou vidéo. Or, les mêmes techniques s’appliquent aussi aux sons et notamment aux voix, notamment pour usurper l’identité de quelqu’un au téléphone.

Des voix simulées tenant des propos racistes

C’est l’exemple notoire d’un dirigeant britannique d’une société en 2019. Un appel du président de sa maison-mère allemande l’avait convaincu de procéder à un virement urgent de 220.000 euros sur un compte bancaire en Hongrie. Or il s’agissait d’une arnaque, avec la voix du dirigeant allemand générée par IA. Plus récemment, début 2023, la start-up britannique EvenLabs spécialisée dans ces technologies a vu son outil détourné : des internautes (notamment sur les forums de 4chan) fabriquaient des fichiers audio où des voix simulées de célébrités tenaient des propos racistes, violents, lisaient Mein Kampf d’Adolf Hitler.

Pour leur travail, les chercheurs de l’UCL ont puisé dans deux bases de données ouvertes. L’une, le LJ Speech dataset, est constituée de fichiers audio de voix féminines lisant, en anglais, des passages d’ouvrages de non-fiction, sur des durées de 1 à 10 secondes. L’autre, le Chinese Standard Mandarin Speech Corpus, concerne des voix parlant mandarin.

D’un côté, des fichiers issus de ces deux jeux de données ont été séle[...]

Lire la suite sur sciencesetavenir.fr

A lire aussi