Comment Google Traduction tente d'intégrer de nouvelles langues africaines grâce à l'IA

Google a annoncé l’arrivée de 110 nouvelles langues dans son application Google Traduction. Il s’agit de l’ajout le plus important jamais réalisé par la firme américaine et environ un quart de ces nouvelles langues provient d'Afrique : le fon, le kikongo, le luo, le ga, le swati, le venda, le wolof... Explications avec Abdoulaye Diack, responsable de projet chez Google AI à Accra au Ghana.

RFI : Il est intéressant d’observer le coup de projecteur que l'IA permet sur des langues vernaculaires méconnues, voire en disparition. Cette mise en avant a été possible grâce à vos recherches chez Google. Comment avez-vous réussi ce rapprochement ?

Abdoulaye Diack : Je me dois de revenir sur comment l'histoire a commencé. En 2022, le responsable scientifique de Google AI, Jeff Dean, a annoncé l'initiative de traduire plus de 1 000 langues, celles les plus parlées au monde. Et on voulait faire ça grâce à l'IA.

Depuis plusieurs années, on travaille avec PaLM 2*, un modèle qui permet de traduire les langues les plus courantes, mais aussi celles en voie de disparition ou qui ont très peu de données sur internet.

Ce projet, mené également par le chercheur américain Isaac Caswell, associe depuis plusieurs années des communautés pour entraîner le modèle IA à obtenir des données de bonne qualité. Mais quand on explore l'internet aujourd'hui, plus de 40% des données sont en anglais, en français c’est moins de 4% et si on compte toutes les langues africaines, on arrive à moins de 1%. Beaucoup de langues sont parlées, mais pas forcément écrites.

C’est une spécificité pour certaines langues. Mais aussi un barrière ?


Lire la suite sur RFI