Flux VS Midjourney : comparatif et guide d'utilisation

La nouvelle IA générative d'images est-elle la meilleure du marché ? Comment l'utiliser gratuitement ? Test complet !

Les photos de cette nouvelle IA générative d’images ont envahi les réseaux sociaux cet été. Mais que vaut Flux par rapport aux stars du moment : Midjourney, Dall-E, Ideogram et Stable Diffusion ?

Eh bien comme vous allez le voir, Flux est bien meilleur, mais comme je dis souvent : le diable est dans les détails !

Dans cet article vous allez découvrir ce qu’est Flux, quels sont ses atouts et ses faiblesses, mais aussi comment le tester gratuitement et l’utiliser dans les meilleures conditions.

I. DE QUOI PARLE-T-ON ?

Tout d’abord, une petite précision sur les modèles d’IA génératives d’images (appelés aussi modèles de diffusion). Pour bien les comparer il faut distinguer plusieurs choses :

1) Les modèles de diffusion

Ce sont les modèles qui sont utilisés dans les outils d’IA génératives d’images.

  • On retrouve ici des modèles propriétaires comme Midjourney, Adobe Firefly, Ideogram, Dall-E (Open AI) ou Imagen (Google). Ils ont en général un numéro de version (par exemple Midjourney 6.1, Ideogram 2 etc).

  • Ou les modèles open source : Stable Diffusion (le plus connu) et aujourd’hui Flux. Ces modèles peuvent être entrainés spécifiquement sur de nouvelles images pour améliorer le traitement et le style. On appelle ça du fine-tuning. Parfois cet entrainement se fait sous la forme de “LoRA” (une technologie d’entrainement légère et simplifiée qui permet à chaque utilisateur de créer son propre style ou personnage).

2) Les outils d’IA génératives d’images

Ce sont des plateformes qui utilisent ces modèles et les ont entrainés spécifiquement (ou permettent de le faire). Les modèles propriétaires ont généralement leurs propres plateformes, comme Midjourney, Adobe Firefly, Ideogram, ChatGPT (Dall-E) ou Gemini (Imagen).

Quant aux modèles open-sources ils sont embarqués dans des plateformes diverses. La plupart des outils que tu connais utilisent des modèles open-source : Leonardo AI (qui a désormais son propre modèle inspiré de Stable Diffusion), NightCafe, PhotoAI, RunDiffusion, Sezam (français) ou Grok…

II. QU’EST-CE QUE FLUX ?

Flux est un modèle open-source créé par “Black Forest Labs”. C’est une société allemande (d’où le nom “Black Forest”, forêt noire), fondée en aout 2024 et financée par Andreessen Horowitz.

Les cofondateurs de l'entreprise, Robin Rombach, Patrick Esser et Andreas Blattmann, étaient auparavant des chercheurs qui ont contribué à la création des modèles de diffusion de Stability AI (Stable Diffusion). Ils connaissent leur sujet.

Flux n’a pas de plateforme dédiée, c’est un modèle destiné à alimenter les autres outils d’IA. Mais surtout, il est destiné à être “fine-tuné”, c’est à dire amélioré par les utilisateurs.

Mais le modèle de base est déjà d’une grande qualité.

Objectivement, Flux est le meilleur modèle du marché. Il est classé en tête du benchmark ELO qui analyse la qualité de la génération d’images (sur 45000 images de références). Vous noterez que la dernière version de Midjourney est juste derrière, avec celle d’Ideogram.

Flux 1.0 (la version 1) est proposé en 3 modèles : Flux Schnell (le plus petit et le plus rapide), Flux Dev (modèle open-source destiné à être amélioré par la communauté pour un usage non commercial) et Flux Pro (le meilleur modèle, destiné au marché).

III. QUELS SONT LES ATOUTS DE FLUX ?

Le secret de Flux ? Une architecture hybride nommée MM-DiT (Multimodal Diffusion Transformer). Contrairement aux modèles classiques guidés uniquement par le texte (le fameux prompt), Flux traite simultanément le texte et des représentations visuelles. Cette approche multimodale (couplée à une technique d'optimisation appelée "Rectified Flow") permet une génération d'images plus efficace et précise, avec une meilleure compréhension visuelle des prompts.

Dans sa version d’origine, Flux propose des images exceptionnelles selon la plupart des critères.

Tout d’abord, il est vrai que les images sont saisissantes de réalisme. Les mains et les yeux, que les IA ont souvent mal à reproduire, sont presque parfaites. On est largement au dessus de dont est capable Midjourney (qui était le meilleur du marché jusqu’à présent).

Autre atout : Flux est légèrement au dessus de toutes les autres IA pour respecter tes instructions à la lettre. Mais Midjourney présente un niveau équivalent.

Astuce : pour tester la capacité d’un modèle d’IA a respecter vos instructions, essayez avec ce prompt super précis.

Photo of a red sphere on top of a blue cube. Behind them is a green triangle, a dog on the right, a cat on the left.

Ici, le respect du prompt est parfait dans les deux cas.

Ici, j’avais demandé un oeil bleu et un oeil jaune. Midjourney a été meilleur sur le respect du prompt, mais la qualité anatomique est bien meilleure avec Flux.

Flux est également plus rapide, mais ça dépend des plateformes et du modèle.

Autre point important : la reproduction du texte. C’est un sujet avec lequel les IA génératives d’images ont toujours eu du mal (parce qu’elles tentent de reproduire l’image de chaque lettre). Midjourney le permet, mais se plante dès qu’on dépasse cinq mots, Flux est bien plus performant.

Bon, là on voit que Midjourney a bien compris le concept et propose une image trop mignone… mais côté texte on n’y est pas !

Toujours aussi créative pour le graphisme, Ideogram 2.0 reste la meilleure IA pour le texte :

C’est parfait côté texte, et beaucoup plus créatif que Flux.

Enfin, c’est peut-être un détail pour vous, mais pour d’autres ça veut dire beaucoup : Flux n’a aucune censure. Alors que cette dernière est très stricte chez Midjourney et Dall-E, suivant la grande tradition américaine puritaine (ok pour la violence, pas ok pour l’érotisme même léger), Flux n’a aucune limite (nativement en tout cas).

Au delà de la capacité à générer des images NSFW (donc classées +13 ans), qui est anecdotique, cette tolérance permet une plus grande amplitude créative. Plus la censure est forte, plus le modèle aura du mal avec des oeuvres moins conventionnelles. Ce qui donne parfois lieu à des refus étonnants, certains mots clés (comme “intimate”) pouvant être mal interprétés. Les références à des artistes reconnus pour leur oeuvres dérangeantes peuvent aussi se voir refusées.

III. QUELS SONT LES DÉFAUTS DE FLUX ?

Flux a les défauts de ses qualités. Il est excellent sur la robustesse technique de l’image, mais beaucoup moins sur la souplesse créative.

Qu’est-ce que j’entends par là ?

Midjourney est un “vieux” modèle. Il est utilisé par de nombreux artistes. Il dispose d’une plus grande culture artistique dans son entrainement. Même si ses références ne sont pas toujours très précises (parfois un style sera interprété de façon très libre par le modèle), il permet une plus grande amplitude visuelle. Et donc une plus grande créativité.

Flux, de son côté, est un peu plus fermé. Des descriptions très différentes, notamment concernant le style, l’éthnicité ou encore les techniques artistiques (artiste, type d’appareil photo, ou technique photographique…), donneront des résultats moins variés et plus lisses. Même si toujours de grande qualité.

Prenons un exemple avec une photo de style haute-couture, et un portrait noir-et-blanc.

Sur cette photo “haute-couture” d’un modèle indonésien, Midjourney propose une approche plus artistique. Les caractéristiques ethniques sont mieux reproduites.

En jouant sur le prompt, on peut obtenir des photos plus émotionnelles et même parfois plus réalistes avec Midjourney.

Puis avec une image exploitant des techniques plus élaborées.

Ici, Flux propose une photo très bien réalisée et réaliste, mais ne respecte pas du tout la technique beaucoup plus graphique inspirée du “Luminogramme” ‘(une photo prise sans appareil photo).

Certains styles ne sont pas reconnus par Flux (ici le dessinateur Manara)

Dernier exemple, sur les portraits générés Flux, les visages présentent souvent les mêmes caractéristiques. Regardez cette série de nez (avec des prompts pourtant très différents):

Prompts différents, structure de visage assez similaire… avec Flux.

Conclusion : la diversité de styles proposée par Midjourney est encore sans équivalent.

IV. LA VRAIE FORCE DE FLUX : LES LORA

Mais ces défauts de jeunesse peuvent être réglés par une souplesse technique dont les modèles propriétaires ne disposent pas : le “LoRA”.

Le “LoRA” qu’est-ce que c’est ?

Le terme LoRA (Low-Rank Adaptation) fait référence à une technique de fine-tuning (ajustement fin) des modèles de réseaux de neurones pré-entraînés, utilisée notamment dans le domaine de l'IA générative d'images. Elle est très populaire parce que légère et donc facile à entrainer. Il suffit d’une vingtaine d’images pour avoir de bons résultats. Les LoRA sont souvent utilisés pour créer des personnages ou objets persistants, ou encore des styles spécifiques.

Depuis le lancement de Flux, des milliers de LoRA ont été développés. Les deux plus connus sont “Flux Realism LoRA” et “Mystic”.

“Flux Realism LoRA” permet de générer des photos hyper-réalistes et naturelles, indiscernables de la réalité. Tu peux jouer avec ici.

“Flux Mystic” (à ne pas confondre avec la plateforme du même nom) a été créé par l’équipe espagnole de Magnific AI, une plateforme connue pour améliorer les images et leur donner une touche design et réaliste très prononcée, avec un souci du détail stupéfiant. Tu peux retrouver Mystic sur la plateforme Freepik.

Les photos générées par Mystic sont magnifiques mais ont, encore une fois, les défauts de leurs qualités : un manque flagrant de diversité et d’amplitude artistique. Mais c’est très utile pour épater la galerie !

Ici on note la qualité des détails dans l’image de droite : la peau, les yeux, l’émotion dans le regard, mais aussi la petite étoile sur la joue que Flux 1.0 avait oubliée…

Mystic excelle aussi dans les images d’illustration à haute qualité graphique.

La version Midjourney est plus stylisée, mais la version Mystic est plus esthétique. A vous de voir !

V. OÙ ESSAYER FLUX ?

La plupart des plateformes qui proposaient Stable Diffusion l’utilisent désormais. Chacune propose d’ailleurs ses propres versions.

→ Pour l’essayer gratuitement, il suffit d’aller sur la page officielle de Black Forest Labs sur la plateforme Replicate. Vous pouvez essayer leur meilleure version (“pro'“) ici. Ou encore sur ce site gratuit Fluxpro très simple d’utilisation (merci à Nico du groupe WhatsApp de Génération IA pour le lien).

→ Pour tester Flux Mystic, vous pouvez aller sur Freepik. Pensez à bien sélectionner “Mystic” en cliquant sur “mode”. Mais l’outil est payant après quelques essais.

→ Pour tester Flux Realism LoRA, on peut aller sur la platefore FAL AI. Cette plateforme permet aussi d’entrainer ses propres LoRA en important ses photos mais ça reste un peu technique.

→ Pour générer des photos Flux à partir de votre visage, le plus simple (mais payant) est d’utiliser PhotoAI. Vous pouvez y accéder ici (compte 3 heures pour entrainer le modèle mais il faudra payer un abonnement à 19$/mois).

→ Si vous vous sentez une âme de spécialiste et que vous voulez l’installer sur votre ordinateur, ce tuto est pour vous.

→ Enfin, pour explorer différents LoRA utilisant Flux, vous pouvez aller sur la plateforme CivicAI. Cherchez dans “models” et utilisez le filtre “LoRA”. Sélectionnez les LoRA utilisant Flux. Une fois le LoRA choisi, vous pouvez générer directement une image en cliquant sur “create”. Une autre plateforme (chinoise celle-ci) que j’aime beaucoup, plus facile d’utilisation, est Shakker AI. J’ai trouvé ce LoRA qui permet de créer des photos de personnages habillé avec des sacs poubelles… tout est possible, haha.