Dis, ChatGPT, dessine moi un lapin à 4 oreilles

Pourquoi les IA génératives d'images ont-elles du mal à dessiner des images anatomiquement incorrectes ? Comprendre ces blocages permet de mieux comprendre comment elles fonctionnent et comment on peut les contourner.

Il y a quelque temps, on a joué à un petit jeu avec la communauté WhatsApp de Génération IA : qui réussirait à générer une image de lapin à quatre oreilles avec l’IA ?

Tu relèves le défi ?

L’idée va te sembler complètement stupide, mais elle nous a permis d’apprendre énormément de choses sur l’IA et sur sa manière de “comprendre” les images. Ou plutôt de ne pas les comprendre. En tout cas pas comme nous.

Je t’invite à faire l’exercice toi aussi et de voir ce que ça donne.

C’est le professeur Gary Marcus qui m’a mis la puce à l’oreille (de lapin, haha). Il tente de demander à ChatGPT de lui dessiner un lapin avec 4 oreilles. Impossible, conclut-il !

Un lapin avec 4 oreilles selon ChatGPT. On peut voir à son regard trop mignon qu’il SAIT qu’il s’est trompé. (Dall-E 3 / ChatGPT)

La raison est assez simple en fait. L'IA ne "comprend" pas vraiment les images qu'elle regarde. Elle les modélise dans les couches de ses réseaux de neurones comme une grande bibliothèque d'archétypes mathématiques, construite à partir de millions d'images d'entraînement. Une sorte de constellation dont les points se renforcent au fur et à mesure où il voit passer les mêmes images. Disons la constellation du lapin par exemple.

Et quand on lui demande de créer quelque chose, le modèle essaie de faire plus ou moins correspondre notre description avec ces archétypes préexistants. Dans cette “constellation” neuronale, un lapin a deux oreilles, point.

La constellation du lapin selon l’IA. Bon c’est une ANALOGIE hein, l’IA ne voit pas vraiment les choses comme des étoiles dans le ciel, c’est juste pour que tu comprennes l’idée. (Ideogram)

Donc si tu donnes le mot “lapin”, le modèle d’IA va aller chercher ce schéma. Plus l’archétype est fort (beaucoup d’images dans l’entrainement) plus il sera difficile au modèle d’en sortir. C’est pour une raison similaire que certaines IA ont parfois du mal à représenter un médecin noir soignant des enfants pauvres blancs.

Un des enjeux de ces modèles est d’ailleurs de parvenir à augmenter leur richesse d’analyse. Par exemple à distinguer les différentes parties d’une image (facile) ou encore objet ou d’un personnage (difficile). Ce qui semble simple pour un enfant de 2 ans, ne l’est pas pour une IA.

Par exemple si je demande à ChatGPT : combien d’oreilles a ce lapin. Il répond deux.

(ChatGPT)

Ça ne veut pas dire que c’est impossible, et tu vas voir qu’on va y arriver à les dessiner ces 4 oreilles, c’est juste que c’est un biais puissant. Et que certains modèles sont plus biaisés que d’autres.

Par exemple, Midjourney (qui est trés biaisé sur ce sujet) comprend : 4 oreilles de lapin (constellation des oreilles de lapin), mais pas un lapin à 4 oreilles.

4 oreilles ? C’est forcément deux lapins ! (Midjourney)

Si je veux lui faire générer un lapin à 4 oreilles, je vais prendre ces oreilles et lui demander de générer un lapin sous ces 4 oreilles. Là, il n’a pas le choix. Je découpe le problème pour casser son biais.

Hop, je cache les deux lapins, tu n’as plus que des oreilles maintenant ! (Midjourney)

Et voilà, j’ai mon lapin à quatre oreilles. Même si l’IA n’a pas du tout compris ce qui était en train de se passer.

Elles sont pas belles mes oreilles ? (Midjourney)

Bon évidemment, tu vas me dire : “C’est de la triche !” Oui, mais c’est souvent le cas lorsque l’on travaille avec les IA. Je dis souvent qu’il faut parfois “prompter contre l’algorithme”, c’est à dire donner des instructions qui vont casser son biais.

Par exemple, dans la communauté WhatsApp, Louis a été beaucoup plus astucieux que moi. Il a demandé à ChatGPT de dessiner un lapin avec un serre-tête de lapin.

Pour aider ChatGPT, Louis lui a montré les serre-têtes de sa fille. (Dall-E 3 / ChatGPT)

Mais il y a d’autres moyens de tromper l’IA.

Tu peux utiliser des mots-clés qui vont faire appel à d’autres références pour casser l’archétype lapin : “nouvelle espèce de lagomorphe”, “créature mythologique”, “représentation surréaliste” etc. Tous ces mots vont venir “peser” dans l’espace mathématique de l’IA et affaiblir notre constellation du lapin.

Par exemple, une description fantastique d’un lapin, dans un style réaliste surréaliste… et j’ai rajouté des champignons hallucinogénes, on ne sait jamais.

A fantastical depiction of a rabbit with four distinct ears, designed in a highly detailed and surreal art style. The rabbit is standing in a mystical forest, surrounded by glowing mushrooms and ethereal lights. The four ears are elongated and symmetrically placed, two on each side of its head, giving it an otherworldly appearance. The fur is textured with intricate patterns, and the setting emphasizes a magical, dreamlike atmosphere. The scene is vibrant with luminous colors, enhancing the surreal and imaginative concept. Art style: surreal realism.

Quand on met l’IA sous influence des champignons magiques… (Dall-E 3 / ChatGPT)

Tu peux aussi demander à un modéle de langage de trouver le bon prompt.

Par exemple, Frédérique a utilisé la fonctionnalité “magic prompt” d’Ideogram. Comme ChatGPT avec Dall-E, l’IA d’Ideogram utilise un modèle de langage pour reformuler ton prompt afin qu’il soit mieux compris par le modèle de génération.

Frédérique, qui est trés inventive, lui a suggéré de dessiner une “nouvelle espèce de lapin appelée Léporides, avec 4 oreilles”. Ideogram a exprimé son idée à travers un nouveau prompt, plus technique :

A photo of a rabbit with four ears - two drooping ears and two erect ears. The rabbit is standing on a grassy field. The background contains trees and a few scattered rocks. 

Ici, le prompt décrit chaque paire d’oreilles. Suffisant pour casser l’archétype d’Ideogram.

Deux oreilles dressées, deux oreilles tombantes façon Droopy, le compte est bon. (Ideogram)

Le problème c’est que ça ne marche qu’avec Ideogram. Pourquoi ? Sans doute parce qu’Ideogram dispose visiblement d’une analyse d’image plus fine. Ce qui lui permet d’adhérer plus précisément à ton prompt. D’autres modèles puissants comme Midjourney ou Flux sont incapable de faire ça.

Ce qu’il faut retenir :

Au final, cette expérience nous rappelle trois choses importantes :

  • Les IA génératives d'images sont encore loin d'être parfaites et ne traitent pas l’information comme nous.

  • Toutes les IA ont des biais, mais pas les mêmes et pas avec la même intensité. À toi d’identifier lesquels pour savoir quelle IA utiliser pour quel travail.

  • Pour être vraiment créatif avec ces outils, il ne suffit pas de leur demander d'être créatifs : il faut l'être soi-même, comprendre leurs limites et trouver des moyens astucieux de les contourner. C'est là que réside la véritable créativité !

Pour aller plus loin :

Bien sûr, il y a des choses bien plus intéressantes à faire que des lapins à quatre oreilles, une fois qu’on a compris tout cela. C’est cette démarche que je t’apprends dans ma nouvelle formation : “comment créer de belles images avec l’IA”. Une approche centrée sur la créativité, qui t’aide à tirer parti des limites de chaque modèle pour produire des images stupéfiantes.

  • Découvre cette formation et profite d’une réduction de 20%. Non seulement tu apprendras à maîtriser la génération d’images, mais tu pourras aussi rejoindre notre groupe WhatsApp d’entraide !

J’ai compilé toutes mes techniques dans cette nouvelle formation complète qui va te permettre de créer des images extraordinaires avec l'intelligence artificielle.

  • Lis le livre de Fei-Fei Li, la scientifique qui a inventé ImageNet. Une base de données d’images mythique qui a permis aux IA de “voir” enfin le monde. Découvrir son histoire, c’est mieux comprendre les défis de la vision et donc de la génération d’images par les IA. J’ai ADORÉ ce livre, il se lit comme un thriller (Fei-Fei Li - “The Worlds I See”).