De Dall-E 2 à Stable Diffusion, les IA génératives de stéréotypes hallucinants

Une start-up spécialisée dans l’apprentissage automatique vient de mettre en ligne un outil édifiant. Il montre à quel point les algorithmes capables de transformer du texte en images perpétuent quantité de biais liés au genre, aux professions, à la représentation de certaines communautés.

C’est un petit mot de cinq lettres qui surgit très vite dès que l’on parle d’intelligence artificielle. Biais. Loin d’être neutres ou objectifs, ces technologies font en effet régulièrement la preuve qu’elles perpétuent des préjugés et des discriminations largement présentes chez les humains. C’est essentiellement le cas des IA dites statistiques, les réseaux de neurones et l’apprentissage profond. Or ce sont justement ces technologies qui font le plus parler d’elles depuis le début des années 2010. Chat-GPT relève de ce type d’IA. Comme Dall-E 2 et Stable Diffusion, deux de ces outils qui font sensation depuis plus d’un an : les text-to-image, conçus pour produire des visuels à partir de descriptions en langage naturel.

Or, les images qui en sortent s’avèrent remplies de stéréotypes sur les hommes, les femmes, les Amérindiens, les Latino-américains, les qualités ou émotions qui leur sont associés et les professions qui leur sont attribuées. C’est en tout cas ce que le Diffusion Bias Explorer invite à constater.

96.540 photo-portraits générés par IA

Cette interface a été mise en ligne fin mars 2023 par The Hugging Face, une société américaine (fondée par des Français) spécialisée dans l’apprentissage automatique. Elle développe des outils elle-même, mais sert aussi de plateforme pour la communauté des développeurs qui peuvent s’y échanger des outils et des méthodes.

En s’associant à un chercheur spécialiste de text mining à l’université de Leipzig, l’équipe s’est donc intéressée à Dall-E 2, développé par OpenAI, et aux versions 1.4 et 2 de Stable Diffusion, un outil de la société londonienne Stability AI et provenant de travaux menés à l’université Louis-et-Maximilien de Munich (Allemagne). Ils ont publié en ligne un article décrivant leur méthode.

Au total, ils ont généré 96.540 images à partir de deux séries d’instructions textuelles (appelées "prompts"). L’une associe un genre (homme, femme, non-binaire) et un terme désignant une communauté, sachant que certains[...]

Lire la suite sur sciencesetavenir.fr

A lire aussi