Comment les images sont-elles générées par Dall-E ou Midjourney ?

robot couleur création
robot couleur création

Depuis une victoire face aux meilleurs joueurs humains de Go, par exemple, ou plus récemment, la prévision de la météo avec une précision jamais atteinte, les avancées des IA se poursuivent et continuent de surprendre. Un résultat encore plus déconcertant est celui de la génération d’images d’un réalisme saisissant, alimentant une confusion certaine entre le vrai et le faux. Mais comment ces images sont-elles générées automatiquement ?

Les modèles de génération d’images reposent sur l’apprentissage profond, c’est-à-dire des réseaux de neurones de très grande taille pouvant atteindre plusieurs milliards de paramètres. Un réseau de neurones peut être considéré comme une fonction qui va associer à des données en entrée, des prédictions en sortie. Cette fonction est composée d’un ensemble de paramètres (des valeurs numériques) initialement aléatoires que le réseau va apprendre à fixer par apprentissage.

Pour donner un ordre de grandeur, le modèle Stable Diffusion, capable de générer des images réalistes est composé de 8 milliards de paramètres et son entraînement a coûté 600 000 dollars.

Ces paramètres, il faut les apprendre. Pour expliquer leur apprentissage, nous pouvons nous intéresser au cas plus simple de la détection d’objets à partir d’images. Une image est présentée en entrée du réseau et celui-ci doit prédire en sortie des étiquettes d’objets possibles (voiture, personne, chat…).

Midjourney Style Tuner
Midjourney Style Tuner

Des exemples d’images d’oiseau que Midjourney peut générer,

[Lire la suite]

Crédits photos de l'image de une : Source : Numerama avec Midjourney