Génération IA
Posts
Tout ce que j'ai appris sur la génération d'images avec l'IA (ou presque)

Tout ce que j'ai appris sur la génération d'images avec l'IA (ou presque)

Préparation, prompting additif et boîte à tokens : les trois piliers pour transcender les limites de la création d'images par intelligence artificielle.

Benoit Raphael, Thomas Mahier & Jeff GPT
8th décembre 2024

Bonjour !

Aujourd'hui, je vais te raconter comment j'ai complètement changé ma vision de la création d'images avec l’intelligence artificielle. Ça devrait te surprendre !

Je pensais être nul. J’étais, tu sais, ce genre de personne qui se dit "bah, je n'ai pas la fibre artistique". Ou plutôt : “Je n’ai pas la technique”. Mes premières images étaient... comment dire... aussi inspirées qu'un catalogue IKEA 😅

Tu vas me dire : "Mais c'est simple l'IA, tu décris ce que tu veux, et pouf, ça sort une belle image !"

Eh bien, je pensais comme toi... avant de me plonger dans un projet un peu bizarre : il s’agissait de créer 22 illustrations pour un livre (en vrai papier) sur les lames du Tarot divinatoire.

Un mois de galère, intense mais au fond très technique et personnel. Un mois qui m'a tout appris.

Et comme j’ai l’impression d’être un des rares à avoir fait ce travail de fond, enfin surtout le fait de le coucher sur papier si j’ose dire, je te propose d’en partager les meilleurs extraits avec toi.

Je suis Benoît Raphaël, et avec Thomas Mahier (ingénieur en IA) et FlintGPT (robot un peu simplet mais gentil), je te propose de mieux comprendre et maîtriser l’intelligence artificielle.

Si on t’a transféré cette lettre, abonne-toi en un clic ici.

Si tu es abonné(e) et que tu souhaites te désabonner, pas de panique ! Va en bas cette lettre et clique sur le lien “vous désabonner ici”.

😍 Aujourd’hui voici comment tu vas devenir plus intelligent(e) avec Génération IA.

→ Maîtrise la création d'images uniques avec l'IA grâce à des techniques avancées comme la “boîte à tokens”.

→ Explore l'alternative française à ChatGPT avec le nouveau Mistral.

→ Adopte l'approche du "profane éduqué" pour des prompts plus efficaces..

Benoit

C’était un matin doux à Bali. Ma co-locataire, Victoria, qui est artiste peintre (elle dessine des visages sur des tapis), venait de se lancer dans l’écriture d’un livre sur “Comment développer ton potentiel artistique en utilisant les lames du Tarot”.

Tarot - Arcane 0 - Le Fou

Comme je suis quelqu’un d’extrêmement rationnel mais surtout très curieux, je me suis intéressé à son projet : en quoi l’utilisation d’un jeu de cartes divinatoires pouvait-elle t’aider à devenir artiste ?

Elle m’a expliqué que chaque lame du tarot représentait des archétypes et des symboles universels dont on pouvait s’inspirer pour guider nos oeuvres.

Ok.

Mon autre co-locataire étant écrivain, nous avons donc été embarqués dans une mission impossible pour les deux profanes que nous étions : illustrer son livre. Lui avec des poèmes, moi avec des images générées avec l’IA.

Tarot - Arcane II - La Papesse. A gauche le poème, à droite l’image.

J’ai pris cette affaire trés au sérieux.

Je pensais faire ça en trois jours.

Haha.

En fait, jai passé trois semaines à plein temps à générer 22 images suffisamment impactantes pour mériter de figurer dans un beau-livre destiné à l’impression.

Tarot - Arcane III - L’Impératrice

C’était un long travail. À la fois d’introspection (qu’est-ce que chaque archétype représentait pour moi), de documentation (pour m’inspirer) mais aussi d’exploration de techniques de prompting avancées pour coucher sur l’écran, avec la machine, ma propre vision.

J’ai trouvé ça passionnant.

Je partage avec toi deux ou trois choses que j’ai appris, et la petite méthode que j’ai mise en place. Elle se déroule en trois étapes : AVANT le prompt / Le prompt de base / La touche finale.

1. Le secret est dans la préparation

Le vrai piège ? Commencer par décrire l'image. NON !

La vraie question c'est : quelle histoire tu veux raconter ? C’est ça qu’il faudra transmettre à l’IA.

Petit exemple : tu veux illustrer "l'IA au travail". Premier réflexe ? Un robot devant un ordi. Boring ! 🥱

Et si on se demandait plutôt ce que ça représente vraiment ? C’est quoi l’idée derrière ?

C’est une question beaucoup plus complexe à explorer que je ne l’imaginais.

Comme je connais mes limites à ce jeu, je me suis créé des petits compagnons co-artistes avec Claude (mais tu peux aussi le faire avec ChatGPT) pour m’aider dans ce travail à la fois d’introspection et d’exploration de la culture visuelle.

Tarot - Arcane XIX - Le Soleil

2. Le prompt façon "mille-feuilles"

J'ai découvert autre chose : ton prompt, c'est comme un dessin qui se construit couche par couche. Tu ne commences pas par tout décrire d'un coup. Tu construis.

Voici ma technique du "prompting additif".

Le prompting additif, ça veut dire que tu structures ton prompt (ton instruction) par petites touches. C’est comme bâtir une maison.

D’abord tu poses la charpente : ce que tu veux raconter et comment en une phrase. Et tu testes.
Ensuite tu ajoutes les détails essentiels, pas trop.
Tu observes ce que ça donne.
Tu ajoutes d’autres détails
Puis tu t’intéresses aux couches de style.
Tu regardes comment ça évolue.

Et parfois... magie ! L'IA part dans une direction inattendue qui est ENCORE MIEUX que ce que tu imaginais !

Tarot - Arcane XVI - La Tour

3. La boîte à tokens (mon secret honteux)

Comme je n’ai pas de pinceaux à disposition, mais juste des mots pour décrire ce que je veux que l’IA dessine, j’ai dû faire des recherches sur la façon dont les IA génératives d’images réagissaient à certains mots (qu’on va appeler tokens) plutôt qu’à d’autres.

Par exemple : comment je lui explique que je veux le personnage de face ? Comment jouer sur la composition si je n’y connais pas grand chose en composition ? Comment donner tel ou tel effet ?

Claude/ChatGPT m’a beaucoup aidé dans cette recherche.

Et je me suis constitué un catalogue de tokens. Ma boîte de pinceaux et de tubes de peinture, si tu veux, mais avec des mots à la place.

J’ai appelé ça ma boîte à tokens.

En gros, c’est comme avoir une boîte à outils magique. Avec à l’intérieur, des mots qui donnent des effets précis :

Pour le cadrage
Pour la lumière
Pour les émotions
Pour les styles
Pour les ambiances

Tarot - Arcane IV - L’Empereur

4. Choisir son IA

Le choix d’une plateforme est “crucial”, comme dirait ChatGPT, haha.

Ce qu’il faut regarder c’est comment se comporte l’IA quand tu entres dans le dur, c’est à dire au delà de sa capacité à suivre la description et à faire des images réalistes.

Dès que tu t’attaques à la couche de style (lumière, cadrage, effets etc) c’est là que l’on voit la “culture” du modèle ou, au contraire, son manque de richesse. Plus la culture est riche, plus tu auras de “tokens” efficaces pour personnaliser ton image. Plus elle est pauvre, plus le modèle aura tendance à aller dans la même direction.

Je vais te donner un exemple pour que tu comprennes bien cette question de couche de style.

Voici un prompt de niveau 1 : il est purement descriptif.

A joyful couple taking a selfie together, close-up portrait | genuine warm smiles, natural poses, casual modern clothing | authentic connection between subjects | photorealistic style | intimate framing with subtle depth of field | slight imperfections in skin texture and lighting for realism | modern photography technique with smartphone reflection in eyes | soft natural lighting with gentle skin tones | contemporary setting with subtle background blur

Ici, on va plutôt regarder le réalisme et l’adhérence du modèle au prompt. Malgré sa tentative sympathique de proposer un couple gay plutôt que hétéro, Ideogram se plante complètement (photo de personnes qui prennent un selfie plutot qu’un selfie), Flux nous fait une photo digne d’une pub pour des céréales destinées à améliorer notre transit intestinal. Midjourney joue la diversité, cool, mais le résultat est encore trop lisse. Grand Gagnant sur le réalisme : Copyartifact

En revanche, dès que l’on essaie de donner un patte plus artistique à son image (on va donc travailler sur toutes les couches de style autour d’un histoire que l’on veut raconter), les différences s’inversent :

Intimate selfie of young couple captured through morning light. Faces gently illuminated by natural glow from smartphone screen, creating subtle rainbow reflection in their eyes. Pure, uncluttered white background. Key light entering from side window, wrapping subjects in ethereal haze. Fine art photography. Minimalist composition focusing on authentic emotion and light interaction. Ethereal soft focus aesthetic with luminous highlights. Medium format photography with pushed film. Colors: soft whites, pearl grey, pale gold.

Sans surprise Midjourney est, à mon avis, clairement au dessus, suivi par Ideogram (qui fait au moins un effort de cadrage). Midjourney n’a pas suivi à la lettre mes instructions mais les a réinterprétées pour donner plus d’équilibre (l’arc en ciel dans les yeux passe sur le côté), mais je trouve ça intéressant. CopyArtifact respecte le prompt sans aucune considération esthétique du coup ça ne veut plus rien dire. Et Flux persévère dans sa série "les céréales bonnes pour ton intestin”.

Tu notes donc que pour juger la qualité d’un modèle, il faut le tester par rapport à ton usage.

Et que l’adhérence ou le réalisme ne sont pas suffisants pour faire une bonne image. C’est la richesse d’interprétation qui importe. Parfois, le modèle va dévier de ta description pour proposer une interprétation plus harmonieuse (ou pas !). L’IA artiste est une collaboratrice créative, pas une exécutante stupide.

Pour cette image par exemple, à laquelle je tiens beaucoup, j’ai énormément travaillé l’histoire. En échangeant avec Claude tout d’abord, qui m’a posé beaucoup de questions sur ce que je voulais exprimer. C’était un vrai travail de maïeutique (une méthode socratique qui consiste à te poser des questions pour faire émerger ta vérité).

Je voulais qu’une émotion particulière s’exprime à travers le regard. Il m’a donc fallu creuser l’histoire de cette petite fille et de ce qu’elle représentait symboliquement pour moi.

Mais le plus intéressant, c’est que cette émotion dans le regard n’est apparue qu’une seule fois parmi les dizaines et les dizaines de tatonnement, je n’ai jamais pu la reproduire. Elle ne vient donc pas que de moi, elle vient en partie de la machine. C’est ce qui rend cette image unique. Et un peu magique. Même si elle est imparfaite techniquement.

Tarot - Arcane XVII - L’étoile

Ce qu’il faut retenir :

L'IA n'est pas là pour faire le boulot à ta place, c'est un partenaire créatif
La magie n'est pas dans la technique mais dans le dialogue avec l'IA
Les "accidents" sont souvent les meilleures surprises !

Pour aller plus loin : la méthode complète pour créer des images uniques avec l'IA

Tu veux passer au niveau supérieur dans ta maîtrise de la génération d’images ?

J’ai compilé toutes ces techniques dans une nouvelle formation complète qui va te permettre de créer des images extraordinaires avec l'intelligence artificielle.

💡 Ce que tu vas découvrir (et que je n'ai pas pu aborder ici) :

La méthode Balzac pour insuffler de l'émotion dans tes créations (une approche que j'ai développée après des mois de tests).
Comment créer des flyers, des logos ou des photos d’architecture.
Comment utiliser l'image prompting pour te libérer des contraintes du texte.
Ma boîte à tokens secrète et un catalogue contenant plus de 1000 mots-clés triés sur le volet.
Des masterclass exclusives, notamment avec Thierry Murat (créateur de la 1ère BD générée par IA).

Cette formation est compatible avec tous les modèles d’IA. Plus de 6 heures de video !

Le petit (gros) plus ? Tu rejoins une communauté super active sur WhatsApp où on s'entraide et on partage nos découvertes autour de l’IA générative.

Et si tu en veux encore, tu pourras ajouter à ta formation mon nouveau supplément Midjourney. Un module complémentaire pour maîtriser la version web de la meilleure IA artiste de tous les temps. Tu apprendras toutes les fonctionnalités, notamment pour maîtriser leur nouvel éditeur d’images mais aussi à créer un livre pour enfants et des photos de produits avec tes produits.

👉 Découvre la formation "Comment créer de belles images avec l'IA" (avec une réduction exceptionnelle valable jusqu’à mardi).

Ce que les IA déduisent de tes photos

J’ai testé avec un selfie perso pour voir. Le niveau de détail est saisissant. Pas seulement la description et la localisation, mais aussi les interprétations de l’IA sur le lieu et sur les personnages (au-delà des données techniques embarquées avec l’image).

Puisqu’on parle d’images, dans le groupe WhatsApp de Génération IA, Rochane a partagé cet outil super pédagogique : une expérience interactive qui utilise l'API Vision de Google pour analyser le contenu de tes photos et révéler ce qu'une IA peut en déduire.

Cette expérience démontre que vos photos révèlent de nombreuses informations privées lorsqu'elles sont accessibles à l'intelligence artificielle. L'IA peut détecter de nombreux éléments dans une image que nous pourrions ignorer nous-mêmes !

Ce microsite a pour but d'apprendre aux gens ce que l'API Google Vision peut « voir » dans leurs photos, mais il montre aussi comment cette technologie peut aider les personnes malvoyantes.

Il est également passionnant de le tester avec des images d'art et d'apprendre à décrire les médias visuels par le biais de dénotations et de connotations. Un tel outil pourrait contribuer à l'enseignement de l'éducation aux médias.

Rochane

Tu peux essayer avec tes photos ici.

Une alternative française à ChatGPT

L’option “Canvas” permet d’éditer directement le texte généré par l’IA.

J’ai passé un peu de temps avec la nouvelle version du “Chat” de Mistral, la startup française concurrente de ChatGPT. L’application est en accés libre, ce qui la rend attractive, mais je n’avais pas été convaincu .

Mais elle s’est considérablement améliorée depuis mon dernier test.

Est-il possible d’en faire une alternative à ChatGPT ? Oui, mais dans une certaine mesure.

Ce n’est pas MIEUX mais c’est français et sans abonnement.

Voici ses spécificités :

Un modèle de langage de haut-niveau (moins bon que Claude, mais je te laisse faire tes essais)
La capacité de lire les PDF mais surtout les illustrations dans le PDF (ce que sait faire Claude mais pas ChatGPT).
La capacité d’aller sur Internet (comme ChatGPT).
La capacité de générer des images (meilleures que celles de ChatGPT).
La capacité de déplacer le texte dans un “Canvas” pour pouvoir l’éditer et travailler dessus (comme celui de ChatGPT).
Pas d’analyse de données en revanche (contrairement à Claude et ChatGPT).

Sinon si tu veux tester les modéles entre eux, sans passer par un abonnement, tu peux jouer avec NotDiamond. Tu pourras comparer les résultats entre différents modèles d’IA (GPT-4o, Claude, Mistral…), pour le texte et les images.

Le moteur de recherche de ChatGPT est (toujours) une machine à bullshit

Si tu as pris l’habitude d’utiliser ChatGPT pour aller sur Internet, méfiance ! Je reçois encore des remarques étonnées lorsque nous insistons, Thomas et moi, sur le manque de fiabilité des moteurs de recherche intelligents comme ChatGPT et Perplexity.

L’explication est pourtant très simple. Et les chiffres parlent d’eux-mêmes !

Tiens, encore un exemple cette semaine, publié sur le site américain, The Verge : des chercheurs ont testé la capacité du moteur de recherche de ChatGPT à attribuer correctement des citations issues de 20 publications. Résultat : dans 153 cas sur 200, les réponses étaient partiellement ou totalement incorrectes. Pourquoi ? Parce que ChatGPT n’avait pas pu y avoir accés, et s’était bien gardé de le dire. Il a choisi d’inventer la réponse.

Ça fait quand même pas beaucoup de vert !

Alors comment faire ? Eh bien, si tu as raté notre newsletter sur le sujet, tu peux trouver des réponses ici.

Connais-tu la technique du “Profane éduqué” ?

En travaillant à ma précédente newsletter (sur Claude), je suis tombé sur une expression qui a tourné en boucle dans ma tête. Retiens-la bien : il s’agit du “profane éduqué”.

C'est Amanda Askell d'Anthropic qui en parle. Elle suggère de parler aux IA comme Claude ou ChatGPT comme à quelqu'un de cultivé qui découvre un sujet. L'idée ? Être clair et simple sans sacrifier la précision. Par exemple en expliquant les concepts plutôt qu'en balançant du jargon.

C’est mieux pour l’IA. Et si c’était mieux pour nous également ?

Alors ça m'a donné une idée : au lieu de demander à l'IA de m’expliquer quelque chose "comme à un collégien" (ce qui donne souvent des résultats un peu infantilisants), pourquoi ne pas lui dire "comme à un profane éduqué" ?

Je me suis donc amusé à mettre cette formule à toutes les sauces. Et les résultats sont excellents !

Par exemple, pour obtenir un résumé de n’importe quel texte compliqué, tu peux utiliser ce prompt :

{{ TEXTE }}

Peux tu m'expliquer ce texte de façon claire et fluide, sans perdre en précision, comme tu le ferais pour un profane éduqué ? 
Donne des exemples concrets s'il y en a. Ne laisse aucune zone d'ombre.
Pas plus de 1000 signes.

C’est devenu mon prompt favori pour avoir un premier aperçu d’un document. Mais aussi pour la rédaction de contenus.

Nous sommes tous des profanes éduqués.

❝

Un test pour voir à quel point votre entreprise prend l'IA au sérieux : quand ChatGPT o1 (et le nouveau Gemini) sont sortis cette semaine, est-ce que des équipes dédiées ont immédiatement testé ces modèles avec des benchmarks internes, validés et spécifiques à votre entreprise pour évaluer leur utilité ? Avez-vous mis à jour vos plans ou objectifs en conséquence ?

Ou bien, n’avez-vous personne (y compris des profils non techniques) affecté à tester ces nouveaux modèles ? Pas de benchmarks internes ? Pas de vision actualisée sur l’impact de l’IA sur votre activité ?

Personne ne fera ça à votre place, il faut s’en occuper vous-même.

Ethan Mollick - Wharton University

Pour tout comprendre du dernier modèle de ChatGPT (o1), tu peux consulter notre dossier spécial.

PARTICIPE !

On construit cette lettre ensemble !

Nous avons passé le cap des 25.000 abonnés ! Ça se fête !

La dernière édition, sur Anthropic, vous a beaucoup plu, 99,6% d’avis positifs ! Wow, merci !

💚 “Top!” - 🧡 “Bien mais” - ❤️ “bof”

J’ai demandé à Claude d’analyser les résultats, il m’a produit ce tableau de bord interactif avec les commentaires les plus intéressants. Tu peux le retrouver ici.

Par exemple “cho2.laverroux” qui nous dit :

J'adore connaître l'actualité des IA mais je ne parviens pas à me lancer dans leur utilisation. Quand j'essaye d'analyser le "pourquoi", je trouve deux peurs : peur de tomber dans une forme d'addiction et peur de perdre mes capacités à réaliser force de déléguer à des assistants. Ces peurs sont-elles fondées ?

cho2.laverroux

Alors mon opinion est que la peur est rarement un levier positif, je lui préfère la vigilance.. et la curiosité ! La crainte de perdre ses capacités à force de déléguer est fondée, mais seulement si l’on passe à côté de l’usage le plus intéressant des IA générative : un collaborateur plus qu’un exécutant.

A toi de voter !

Comment as-tu trouvé cette édition ? Vote ici et laisse tes commentaires pour nous aider à nous améliorer !

Comment as-tu trouvé cette édition ?

Vote et laisse un commentaire pour nous aider à nous améliorer !

Connexion ou S'abonner pour participer aux sondages.

Merci de nous avoir consacré un peu de ton temps. Je te souhaite une bonne semaine pleine de belles images !

🎨 Benoit, Thomas et FlintGPT.