Les bases erronées de l'intelligence artificielle

·2 min de lecture

Le Massachussetts Institute of Technology (MIT) a découvert que les bases de données utilisées pour entraîner les algorithmes d’intelligence artificielle comptaient beaucoup d’erreurs. Les données images, audio ou texte souffrent de mauvais étiquetages risquant de nuire à l’efficacité finale.

Il faut appeler un chat, un chat. C’est littéralement l’étape nécessaire préalable à l’entraînement d’un algorithme d’intelligence artificielle : étiqueter, ou annoter, tous les contenus d’une base de données, accoler le mot décrivant explicitement à quoi la photo, la vidéo, le son correspond. Une image de chat ? On écrit "chat". Cela servira en l'occurrence à entraîner un algorithme de reconnaissance visuelle. Cet étiquetage, c’est encore assez peu connu, est effectué à la main, généralement par des personnes payées pour ce qui relève de micro-tâches répétitives. Or, dans un publié fin mars, une équipe de trois chercheurs montée par le Massachussetts Institute of Technology a découvert que les bases de données d’entraînement les plus utilisées étaient percluses d’erreurs d’étiquetage : un crabe est annoté "homard", une grenouille est vue comme un chat, "pichet" décrit une théière et "ouvre-boîte", un casse-noix. Toutes les erreurs trouvées sont compilées sur le site Web mis en ligne pour l’occasion.

Dix bases de données ont été ainsi scrutées. Créée en 1998, compile des chiffres manuscrits. CIFAR-10 et CIFAR-100 regroupent de toutes petites images. Caltech-256 et ImageNet sont aussi des bases d’images. rassemble plusieurs dizaines de millions de dessins manuscrits sommaires, la base est consacrée aux sujets de forums Usenet et The Amazon Reviews est constituée des critiques textuelles et des notes données par les internautes sur Amazon. Le site IMDB sur l'industrie du cinéma est utilisé pour ses critiques de films, permettant d'entraîner un algorithme à reconnaître un sentiment positif ou négatif. Enfin, compte plus de 2 millions d’extraits audios de 10 secondes issus de vidéos YouTube.

Un taux d'erreur global de 3,4%

Selon les chercheurs, le taux global d’erreur se monte à 3,4%. Avec des variations : 0,54% dans CIFAR-10, 2,9% dans IMDB, mais 5,85% dans ImageNet et un peu plus de 10% dans Quick ! Draw ! Pour aboutir à ce constat, l’équipe n’a évidemment pas f[...]

Lire la suite sur sciencesetavenir.fr

A lire aussi