Des illusions d’optique dans l’IA générative

Des chercheurs américains ont développé une méthode permettant à un algorithme de génération d’image de produire un résultat ambigu. Selon l’angle de vue ou la distance, l’image obtenue en révèle une autre.

De près, sur un écran, l’image représente deux plantes en pot. Mais de loin, ou en réduisant sa taille, elle montre soudain un panda roux. De la même manière, une photo d’Albert Einstein devient un portrait de Marilyn Monroe. Celle d’un oiseau en noir et blanc révèle une grenouille quand on la passe en couleur.

Ces images, et les illusions d’optique qu’elles contiennent, ont été obtenues par un algorithme de text-to-image (génération d’images à partir d’une description textuelle) en open source, DeepFloyd IF. Elles sont le fruit du travail d’une équipe de chercheurs en informatique de l’université du Michigan (Etats-Unis). Leur article est disponible en ligne, accompagné de résultats très évocateurs (qu’ils nomment « images hybrides ») sur un site dédié.

Des anagrammes visuels

Leur méthode fonctionne avec des illustrations, des imitations de peintures et de lithographies, des photos, en jouant sur le zoom, le passage du noir et blanc à la couleur ou en simulant un effet de flou dû à un mouvement. Parfois, certaines images en contiennent trois, comme cette chaise qui devient un lapin quand on réduit sa taille puis un visage de vieil homme quand on la diminue encore plus. Le tout sans jamais rajouter un élément dans l’image. Tout est affaire de perception et des conditions de cette perception.

Dans le même esprit, l’équipe avait déjà conçu un algorithme capable de créer des « anagrammes visuels » : des images représentant un objet dans un sens, et un autre objet quand on les fait pivoter.

Pour en arriver là, les chercheurs d’appuient sur la méthode d’apprentissage automatique qui sert de base à tous les outils de text-to-image comme Stable Diffusion ou DallE-2, et dont relève aussi DeepFloyd IF : la diffusion. "Les modèles de diffusion fonctionnent en transformant progressivement du pur 'bruit' (des pixels générés aléatoirement, NDLR) en une image réaliste décrite dans un prompt textuel, un peu comme un sculpteur part d’un bloc de marbre pour en faire une statue", rés[...]

Lire la suite sur sciencesetavenir.fr

A lire aussi