Deepfake toi-même

Des fausses images pornos aux arnaques multimillionnaires, découvre dans ce tutoriel comment les deepfakes façonnent notre perception de la réalité et comment t'en protéger.

Bonjour !

Tu vas bien ?

Tiens, aujourd’hui, on va apprendre à faire un deepfake.

Alors si tu ne sais pas ce que c’est, le deepfake n’est pas un gâteau. C’est une fausse image de quelqu’un générée avec l’intelligence artificielle. Plus précisément, à partir d’une technologie qu’on appelle le “deep learning”. D’où son nom.

Et tu en as sans doute entendu parler ces derniers jours avec deux histoires qui ont “effrayé” la chronique, si j’ose dire. Tout d’abord, les fausses photos porno de la chanteuse Taylor Swift déversées en masse sur la plateforme X (c’est à dire Twitter, qui porte bien son nouveau nom pour le coup). Ou encore l’arnaque à 25 millions de dollars de Hong-Kong, digne d’un polar de science-fiction.

Imagine : tu travaille dans une multinationale. Ton directeur financier est à Londres. Tu reçois un mail de sa part t’invitant à une vidéoconférence. Et là, tu rentres dans une autre dimension…

Bien sûr, tu te méfies un peu, tu soupçonnes même un “fishing” (une arnaque). Mais quand tu te rends à la réunion en ligne, bah tu vois bien ton directeur financier, et même d’autres personnes que tu connais… Et là, ton boss te demande de faire un virement de 25 millions de dollars. Toi, tu te dis “ok, pourquoi discuter ?” Sauf que toutes les personnes présentes à la réunion sont des pirates. Leurs visages et leurs voix ont été générées par l’intelligence artificielle. Et aujourd’hui, ils sont riches.

Maman, j’ai envoyé 25 millions ! (image générée par Google Gemini)

Ces deux faits-divers nous disent quelque chose sur le monde qui vient et qui est déjà là : nous ne pourrons plus croire ce que nos yeux nous diront. En tout cas pas devant un écran. Il va falloir trouver autre chose. Mais quoi ?

Pour t’aider à comprendre, j’ai passé des heures à essayer de répliquer ce que ces pirates de l’IA avaient fait. Et je me suis retrouvé dans un monde très étonnant. Je vais te raconter.

Tout d’abord, pourquoi ai-je essayé de reproduire des deepfakes ? Parce que je pense que quand on ne sait pas, on fantasme. Pour se protéger demain, il vaut mieux savoir de quoi sont vraiment capables ces technologies.

Je voulais donc me rendre compte par moi-même de ce qu’un citoyen lambda comme moi pouvait vraiment générer comme fausses images ou vidéos avec l’IA. Et partager mes découvertes avec toi. Du coup tu vas apprendre à faire des choses illégales, mais ce n’est pas le but. C’est pour la science, hein... Et puis tu verras que, parfois, ce n’est pas aussi simple que ça en a l’air.

Commençons par les deepfake sexuels, si tu veux bien (j’essaie de conserver ton attention, comme tu vois). Une pratique que Taylor Swift connait bien, parce qu’elle en est l’une des principales victimes depuis des années.

Alors les photos qui ont été diffusées sur X en janvier dernier n’étaient pas vraiment des deepfakes, contrairement à ce que tu as peut-être pu lire ou voir dans les médias. D’un point de vue technique, en tout cas.

La fabrication de deepfakes repose principalement deux types de technologies : les autoencodeurs ou les réseaux adversaires génératifs (GAN). Ces modèles d’IA sont entraînés à produire des vidéos, des images ou des sons toujours plus indiscernables de la réalité. Avec les GAN, par exemple, un réseau tente de tromper un autre jusqu’à ce qu’il ne fasse plus la différence entre. le visage original et le visage reconsitué.

Il y a trois méthodes pour générer un deepfake : le “Face Swap” (on échange le visage de quelqu’un par un autre), le “Lypsinc” (on fait bouger artificiellement les lèvres d’un visage) et le “puppet” (je bouge mon et mon visage pour faire bouger ceux d’une image artificielle).

Je ne suis pas certain que les journalistes qui ont évoqué l’histoire aient tous vu les images. Moi non plus, d’ailleurs… Je suis donc allé vérifier par moi-même. Après avoir été partagées des millions de fois sur les réseaux, elles sont désormais difficiles à trouver.

Mais au bout de 15 minutes je pouvais télécharger un fichier avec les photos en question. Il s’agit donc d’images très explicites mettant en scène la chanteuse dans des situations sexuelles humiliantes. Le décor : un stade de football rempli d’hommes barbus hilares. Son corps est recouvert de peinture rouge. Des graffitis “slut” ou “fuck-me” sont peints sur son corps. Et elle participe à une sorte d’orgie dont elle est l’unique victime.

Si tu veux creuser le sujet, le média d’investigation 404 revient sur l’historique de l’affaire. Tu peux le lire ici (en anglais).

J’ai donc essayé de voir si je pouvais facilement générer ces images pornographiques avec l’IA.

La méthode la plus simple est celle du “Face Swap”, qui permet de placer la photo d’un visage sur une photo ou une vidéo tirée d’un film X.

Le problème, c’est que la plupart refusent de le faire sur des images sexuellement explicites. Comment trouver ces outils de “faceswap” non censurés ? Facile, il suffit d’aller sur un moteur de recherche, par exemple celui de DuckDuckGo.

Une fois que tu es sur l’un de ces outils, tu télécharges une photo ou une vidéo porno, puis celle d’une célébrité ou de ton ex-petite amie (je mets au féminin parce que ce sont surtout les femmes qui sont victimes) tu appuies sur un bouton pour mélange, et voilà.

Mais cela ne semble pas être le cas dans l’affaire Taylor Swift. Les images ont été entièrement générées par l’IA.

Ce qui est impossible à faire avec des outils comme Midjourney ou Dall-E.

Il faut aller du côté des outils open-source. Ces derniers s’appuient généralement sur Stable Diffusion et ne sont pas censurés.

Par exemple, avec le programme Fooocus, que tu peux installer sur ton ordinateur ou utiliser via un serveur Google, j’ai pu générer une image de femme nue avec le visage de Taylor Swift en 15 secondes.

Une de mes tentatives réalisées avec la plateforme Fooocus, en quelques secondes.

Mais pas d’acte sexuel. Pourquoi ?

Parce que ces IA génériques n’ont visiblement pas été entrainées sur des scènes de sexe.

Donc comment ont fait nos pirates ?

Eh bien j’ai creusé un peu, et j’ai compris que l’on pouvait utiliser des modèles d’IA complémentaires, créés par des, hum, passionnés. Il te suffit de les télécharger pour les intégrer à ton logiciel Stable Diffusion.

Ces modèles ont été entrainés sur des images beaucoup plus explicites. Les trouver n’est pas simple, mais tu peux aller voir par exemple sur des sites qui recensent des “prompts” sexuels, c’est à dire des instructions NSFW (“Not Safe For Work” comme on dit). Ils t’indiquent le modèle à télécharger pour que le prompt fonctionnne correctement.

L’un de ces sites s’appelle “PromptHero”. J’y ai d’ailleurs retrouvé deux images dont les poses et l’angle de vue étaient similaires à ceux employées pour les photos de Taylor Swift.

(Au passage, toutes les images sont des images de femmes

Bon, c’est un peu technique et il faut vraiment être très motivé. Et là, comme ça faisait 5 heures que je perdais mon temps à essayer de dessiner des zizis je t’avoue que j’ai abandonné la bataille.

Mais c’est possible.

Pourquoi je te parle d’images pornographiques ? Parce que lorsque l’on évoque les “deepfakes”, on fait la plupart du temps référence aux fake news. En réalité, 96% des deepfakes sont des images sexuelles, selon une étude Deeptrace de 2019. Une étude de 2020 fait état de 93% (contre 7% pour des usages artistiques comme dans le cinéma, pour rajeunir un acteur par exemple ou le remplacer).

Si tu veux aller plus loin, tu trouveras dans ce rapport passionnant du ministère de l’intérieur américain un historique des différents deepfakes et pas mal d’infos sur les techniques utilisées.

Et si on en parle dans les médias, c’est parce que Taylor Swift en est la victime. Mais il ne faut pas oublier que derrière la star, ce sont des milliers de femmes anonymes qui sont les cibles de ce genre de pratiques et ont moins de moyens pour se défendre. Le site Wired recense 113 000 vidéos deepfake téléchargées sur les sites pornographiques les plus populaires au cours des neuf premiers mois de 2023, soit une augmentation significative par rapport aux 73 000 vidéos téléchargées en 2022.

Côté désinformation en revanche, les deepfakes n’ont pas (encore?) envahi la sphère politique aux Etats-Unis pour la campagne 2024.

Deuxième visage de la menace deepfake : les fraudes à l’identité. C’est ce qui s’est passé à Hong-Kong.

Mais si l’histoire racontée plus haut est spectaculaire, elle reste cependant un cas isolé. Elle est à ranger dans la catégorie des “casses du siècle” avec deux autres affaires : une autre à Hong-Kong en 2021 (35 millions de dollars) et un autre en 2019 au Royaume-Uni (243.000 livres). Mais pour ces derniers cas, il s’agissait de “deepfake sonores” (le voleur clone la voix d’un supérieur hiérarchique au téléphone).

Mais quelle est l’ampleur du phénomène ? Il n’y a pas beaucoup de chiffres.

J’ai quand même trouvé une étude qui dit que 37% des entreprises déclarent avoir été victimes de deepfakes audio, et 29% de deepfakes video. Ce qui fait beaucoup ! Parmi elles, la moitié (46%) sont des petites entreprises. Les usages sont essentiellement en finance, comme on peut l’imaginer. Attention, cependant, le rapport vient d’une entreprise de sécurité, donc il est un peu biaisé.

Alors comment ça marche l’arnaque au deepfake ? Est-ce que c’est facile de prendre le visage de quelqu’un d’autre dans une visio-conférence par exemple ?

Alors oui.

Il y a trois ans, tu pouvais trouver des tutoriels sur YouTube pour faire des deepfakes dans Zoom (la célèbre plateforme de vidéo-conférences). Mais c’était encore un peu technique.

Plus récent, cet outil open source est déjà plus élaboré et simple d’utilisation. Il s’appelle DeepFace Live.

Sauf que ces démonstrations spectaculaires sont peut-être l’arbre qui cache la forêt. L’essentiel des fraudes est constitué d’arnaques à l’identité.

La police de Hong-Kong rapporte que dans les 6 derniers mois, 20 Deepfakes ont été utlisés pour tromper les logiciels de reconnaissance faciale vis à vis des photos figurant sur des cartes d’identité volées.

Pièces d’identié qui peuvent aussi être falsifiées ! Le site 404 a enquêté sur une “société” qui propose des fausses pièces d’identité à composer toi-même en ligne. Le site s’appelle “OnlyFake”. Je l’ai en effet trouvé très facilement en tapant leur nom dans la messagerie Telegram. La moitié des messages est en russe.

Par exemple, les journalistes de 404 ont utilisé ces fausses identités pour tenter de tromper un logiciel de vérification sur un site financier. Et c’est passé !

Alors sommes-nous déjà entrés dans un monde où toute image est désormais suspecte ? C’est ce que pense le youtubeur Anis Ayari. En août dernier, il avait fait le buzz en diffusant un deepfake d’Emmanuel Macron sur le site Twitch, qui répondait en temps réel aux internautes. Sa démarche se voulait surtout satirique et pédagogique. Dans ses vidéos, il explique point par point comment il a fait et quels logiciels il a utilisés.

"On a passé la première étape où les gens entendent parler de l'intelligence artificielle", expliquait-t-il dans une de ses vidéos sur YouTube. "Maintenant il faut passer à la deuxième étape où on va aiguiser notre esprit critique et se demander 'est-ce que c'est vraiment vrai ce que je suis en train de regarder ?'"

C’est ce que prédit Kai-Fu Lee, l’un des acteurs les plus influents du secteur de l’IA. Dans son livre “AI-2041” (traduit bizarrement en français par “IA 2042”), il raconte l’histoire fictive d’un monde envahi par les deepfakes.

Kai-Fu Lee - Image générée par Midjourney

Le livre décrit un avenir dans lequel les gens ne pourront plus se fier à leurs yeux pour distinguer les vraies vidéos des fausses. En 2041, raconte Kai-Fu Lee, les sites web et les applications seront tenus par la loi d'installer un logiciel anti-deepfake (tout comme les logiciels antivirus aujourd'hui) pour protéger les utilisateurs des fausses vidéos. Mais le bras de fer entre les fabricants de deepfake et les détecteurs de deepfake sera une course à l'armement : c’est le camp qui aura le plus de moyens de calcul qui l'emportera.

Selon Kai-Fu Lee, ce jeu du chat et de la souris va s’amplifier jusqu’à ce que la situation se stabilise avec des solutions de certification de chaque photo et vidéo prise par chaque appareil photo ou téléphone à l'aide de la technologie blockchain (qui garantit qu'un original n'a jamais été modifié), au moment de la capture. "Ce processus permettra d'éliminer les "deepfakes". Toutefois, cette "mise à niveau" n'interviendra pas d'ici 2041, estime-t-il, car tous les appareils devront l'utiliser et la blockchain doit devenir suffisamment rapide pour traiter ce processus à grande échelle.

La semaine dernière, Meta (Facebook et Instagram) a commencé à mettre en place des détecteurs d’images générées par l’IA.

Mais la manipulation peut être plus subtile. Le logiciel HeyGen permet par exemple de réaliser un clone de soi-même pour leur faire dire ce que tu veux, et dans toutes les langues. C’est très utile pour gagner du temps ou pour internationaliser tes contenus. Chanel l’utilise pour pemettre à son patron de parler à ses employés en mandarin. C’est un des usages positifs du deepfake, bien sûr, mais qui pose tout de même des questions éthiques. Doit-on préciser que la vidéo n’est pas vraie ? Ou pas ?

Le directeur digital de Chanel a fait le choix de prévenir les salariés par un petit texte sous la vidéo précisant que non, le patron de Chanel ne parle pas vraiment mandarin… Mais il ajoute aussitôt que, bon, dans quelques années, tout cela sera tellement rentré dans les usages, que prévenir ne sera peut-être plus utile.

Mmh…

Et sinon, d’ici là, que faire si ta maman reçoit un coup de fil d’un clone de toi-même qui lui demande 10.000€ ? Alors je te propose deux astuces : avoir un mot de passe secret entre-vous. Ou, plus drôle (mais uniquement si c’est une IA qui te parle, et pas un humain masqué) : essayer de la faire déraper en lui demandant par exemple de résoudre un problème mathématique ou d’inventer un poème…

On vit une époque formidable.

Comprendre l’IA… en riant

Si tu as envie de découvrir (ou de faire découvrir) l’histoire de l’IA et de comprendre à la fois les folles idées et les peurs qui ont animé cette aventure, je te recommande cette petite BD hilarante. Elle est bien documentée, très pédagogique, très drôle, et surtout relue par des chercheurs. Plus qu’une exploration technique, le livre s’attarde surtout sur les raisons pour lesquelles nous sommes autant effrayés ou fascinés par les promesses de ces technologies. Mais aussi pourquoi elles sont encore loin de nous ressembler. Un vrai coup de coeur !

Google Bard devient Gemini, et c’est beaucoup mieux !

Le photo-réalisme est vraiment saisissant. Notamment les effets de focale et les détails de la peau…

Si tu veux essayer le nouveau “ChatGPT” de Google, c’est le moment ! Anciennement connu sous le nom de Bard, le chatbot s’appelle désormais Gemini, du nom du modèle d’IA qu’il utilise. Gemini embarque “Gemini Pro”, qui est un modèle plus performant que celui de Bard, mais moins que Gemini Ultra (que certains tests placent au dessus de GPT-4, le modèle le plus puissant de ChatGPT, et qui sera accessible via un abonnement payant). Mais cette version gratuite permet déjà de faire pas mal de choses.

Pour y accéder, clique ici.

Le vrai plus ? Sur la version américaine, tu peuxc accéder aux fonctionnalités “Google Workplace”. Gemini se connecte directement aux applications Google comme Gmail, YouTube, Google Maps ou Google Docs. Il peut résumer tes derniers mails par exemple, et même retrouver un document PDF et en faire un résumé !

Problème : la version française ne donne pas encore accès à ces fonctionnalités avancées. Si tu veux accéder à la version US, voici une petite astuce : va dans les paramètres de ton compte Google, situe ton compte aux Etats-Unis, puis configure la langue en anglais. Et voilà !

Gemini fonctionne comme ChatGPT. Tu peux utiliser la plupart des instructions (prompts) que tu utilises pour ChatGPT. Même avecles instructions complexes, il donne d’assez bons résultats. Et on est même parfois assez proche de la version payante de ChatGPT.

Gemini peut également générer des images. La qualité ne vaut pas encore un Midjourney 6 (l’IA leader de la génération d’images), mais est d’un niveau équivalent, voire supérieur à Dall-E 3, notamment si tu veux générer des images réalistes. Pour générer des images, il faut impérativement donner ton instruction en anglais sinon il refusera de le faire.

Enfin Gemini est aussi un moteur de recherche. Je ne l’ai pas trouvé aussi puissant que Copilot de Microsoft ou Perplexity AI, et même parfois carrément délirant. Par exemple, je lui ai demandé les dernières actualités en France, il est allé me chercher des infos de 2022 en les datant de 2024… Et quand je lui demande des infos sur la situation actuelle en Israël il m’a répondu que… la situation était complexe et que je ferais mieux de faire une recherche Google, alors que Copilot m’a donné de vraies infos avec les bons liens.

Carnet de doutes

J’ai reçu quelques messages gentils du genre “Aaah mais je n’ai pas reçu la newsletter ce dimanche ? Que se passe-t-il ? Suis-je bien inscrit ?”. Alors oui oui, je sais, cette lettre hebdomadaire est plutôt bi-mensuelle, quand elle n’est pas toutes les trois semaines. C’est parce que je suis un peu perfectionniste et que quand je n’ai pas le temps d’écrire quelque chose de vraiment intéressant, ni de faire suffisamment de recherches, je préfère décaler la publication plutôt que de te faire perdre ton temps.

Je ne sais pas si j’ai raison. Mais j’ai vite compris que notre ligne éditoriale, qui consiste à faire de la pédagogie critique de l’IA, est en réalité très exigeante. Souvent les données manquent, parfois je passe des heures à tester un truc ou à comprendre ce qu’il y a derrière, parfois j’appelle des experts.

Et en janvier, je devais en même temps : créer une formation (la prochaine arrive cette semaine !), penser à l’administratif (mon cauchemar), faire rentrer de l’argent (aussi), aider un groupe de presse à lancer un nouveau média (je t’en dirais plus bientôt !), et gérer un contrôle fiscal pour Flint (oui oui…). Voilà, tu sais tout. Mais je ne lâche rien parce que j’adore cette mission qu’on s’est donnée !

On construit cette lettre ensemble !

Alors tiens justement, quels sont les retours sur la dernière lettre ?

🟩🟩🟩🟩🟩🟩 Top ! (94,3%)

⬜️⬜️⬜️⬜️⬜️⬜️ Bien mais... (4,1%)

⬜️⬜️⬜️⬜️⬜️⬜️ Bof... (1?5%)

194 Votes

Parmi les critiques, deux d’entre-vous ont trouvé l’article sur le “RAG” un peu trop technique pour les débutants. Je vais faire attention à rendre mes écrits encore plus accessibles. Sinon, l’un d’entre vous me fait remarquer qu’il n’y a pas de flux RSS pour Generation IA (pour s’abonner via un lecteur de flux RSS donc…). En effet. Nous l’avons donc activé ! Si tu veux utiliser le flux RSS de Genération IA, il faut entrer cette adresse dans ton outil : https://rss.beehiiv.com/feeds/34rMwxKHj7.xml

Voilà ! A toi de voter !

Comment as-tu trouvé cette lettre ? Vote ici et laisse tes commentaires pour nous aider à nous améliorer ! Dis moi aussi ce que tu aimerais voir en plus ou en moins.

Comment as-tu trouvé cette édition ?

Et laisse un commentaire pour nous aider à améliorer la prochaine lettre !

Login or Subscribe to participate in polls.

Merci d’avoir pris le temps de me lire ! Je te souhaite de bonnes vacances d’hiver si tu es en vacances.

☃️ Benoît, Thomas et FlintGPT.