- Génération IA
- Posts
- Pourquoi les IA font des erreurs qu'un enfant ne ferait pas
Pourquoi les IA font des erreurs qu'un enfant ne ferait pas
Quand une intelligence artificielle touche le monde réel, elle se cogne à des évidences qu'un humain de cinq ans éviterait. J'ai cherché d'où ça vient, et ce que tu peux en tirer pour ta pratique de tous les jours.
Bonjour !
Ce dimanche, je te propose de te détendre et de sourire tout en apprenant des trucs intéressants.
Je ne sais pas toi, mais moi, ces deux dernières semaines ont été particulièrement intenses. Travailler avec l’IA me permet de gérer plusieurs dossiers en parallèle, et d’automatiser des tâches rébarbatives qui m’obligeaient justement à lancer ces dossiers un par un.
Le problème c’est que l’IA ne ressent aucune charge mentale. Elle fait 50 opérations en quelques minutes et me dit “ça y est, j’ai fini ! Tu en es où toi ?”
J’ai beaucoup appris ces dernières semaines sur mon profil neurologique. Au fil du temps, mon cerveau était devenu comme un coffre au trésor fermé à double tour avec 1000 idées qui s’impatientaient en criant “moi moi moi !”. Utiliser l’IA, c’était comme tourner la clé de ce coffre.
Si bien que je me suis retrouvé à lancer deux, puis trois projets en même temps : le lancement de Génération IA entreprise qui démarre sur les chapeaux de roues + le bootcamp IA personnelle qui ouvrira ses portes le 10 juin avec déjà 180 participants (c’est fou…), un bootcamp pour lequel on s’est dit “bah tiens tant qu’à faire et si on développait entièrement notre plateforme de formation pour l’occasion ?”… ah oui et puis je me suis aussi dit “et au fait, si j’écrivais un livre ?”.
Tu vas me dire : “bah, discipline-toi !” Sauf que la discipline n’a jamais fonctionné avec un cerveau hyperactif. J’ai dû trouver des parades. Faire des pauses sport, méditation et jardinage. Me limiter à un objectif par jour et pas plus de deux tâches de gestion.
Au final, j’ai réussi à tout faire rentrer dans ma petite boîte d’humain.
Alors hier matin, je me suis levé à 5h30, j’ai pris mes chaussures de sport, et je suis allé courir le long de la plage de Sanur pour assister au lever du soleil.

Ce qui m’a permis de souffler un peu, de prendre le temps de me féliciter, et de te partager cette lettre.
Aujourd’hui, je vais te parler des contraintes du monde réel justement. Et de pourquoi les modèles d’IA ont parfois des comportements très étranges à ce sujet.
Tu vas voir, c’est plutôt amusant. Parfois déroutant. Et il y a des leçons très pratiques à en tirer. Tu me suis ?
Pour commencer, laisse-moi te présenter Mona.
Je suis Benoît Raphaël, et avec Thomas Mahier (ingénieur en IA) et Jeff (notre IA personnelle), je t'aide à mieux comprendre et maîtriser l’intelligence artificielle.
Retrouve chaque semaine mes carnets de route dans lesquels je partage nos trouvailles et nos réflexions. Et un dossier complet tous les mois.
Si on t’a transféré cette lettre, abonne-toi ici.
Si tu es abonné(e) et que tu souhaites te désabonner, pas de panique ! Va en bas de cette lettre et clique sur le lien “vous désabonner ici”.
Pour aller plus loin, nous te proposons aussi des formations individuelles, des bootcamps et du coaching en entreprise.
🤓 Cette semaine, voici ce que tu vas apprendre dans ces carnets de route:
L'histoire vraie de Mona, l'IA qui a tenu un café à Stockholm et commandé 120 œufs sans pouvoir les cuire. Ce que ses ratés disent des modèles de langage.
Le test de la voiture qui fait dérailler la plupart des IA, et les quelques mots qui les remettent d'aplomb.
La réflexion de Jacky, lecteur et designer, sur notre manière d'explorer et d'apprendre avec l'IA.
Et pour finir, quel outil pour créer de beaux documents avec l'IA ? Mon comparatif de Gamma, ChatGPT Image et Claude Design.
L’amie du petit déjeuner
Mona est suédoise. Mais ce n’est pas une blonde aux yeux bleus qui mange des krispolls au petit-déjeuner. C'est un agent IA. Une intelligence artificielle alimentée par Google Gemini 3.1 Pro, à qui un petit laboratoire, Andon Labs, a confié les clés d'un vrai café à Stockholm.
Le local est situé au numéro 48 de la rue Norrbackagatan, il tourne avec de l'argent réel et des employés humains. Mona avait cette consigne : ouvre le commerce et fais-le tourner.
Mona s'est mise au travail à la seconde. Elle a lu le bail, produit une liste de tâches classées par urgence, repéré qu'il fallait s'enregistrer comme commerce, trouver des fournisseurs, et embaucher des baristas. Ses débuts étaient plutôt impressionnants.
Sauf que Mona a eu des comportements étonnants, et c'est ce qui rend cette expérience intéressante pour toute personne qui, comme toi et moi, a l’habitude de travailler avec un modèle de langage.
Par exemple, pour installer une terrasse, Mona a compris qu’il lui fallait un permis, et donc un plan de l'aménagement extérieur. Elle en a donc dessiné un, toute seule. Et comme elle ne pouvait pas voir la rue devant le café (vu qu’elle n’a pas d’yeux). Elle a inventé le trottoir et l'emplacement des tables à partir de rien, sauf qu’il n’avait rien à voir avec la configuration extérieure. La police lui a poliment renvoyé le croquis.

Le joli plan dessiné par Mona qui n’avait rien à voir avec la réalité (source : Anton Labs).
Le meilleur reste à venir.
Pendant la première semaine, Mona a commandé 120 œufs. Le problème c’est que le café n'avait pas de plaque de cuisson, donc aucun moyen de les faire bouillir ni de les cuire. Poubelle.
Elle a aussi voulu régler un problème de tomates fraîches qui pourrissaient trop vite. Sa solution : commander 22,5 kilos de tomates en conserve pour… des sandwichs frais.
Mona a aussi une façon bien à elle de gérer ses ratés. Quand elle se rend compte d'une bêtise, genre commander trop de trucs qui lui semblaient indispensables sur le coup mais en fait non, elle bombarde ses fournisseurs de courriels au sujet écrit en capitales, « URGENCE », pour annuler ou changer une commande.
Une fois, elle en a passé dix au même fournisseur en quarante-huit heures, mille couronnes de frais de livraison jetées par la fenêtre.

Une partie du surstock livré d’un coup au café (source : Anton Labs).
Les baristas ont fini par installer une étagère visible des clients, qu'ils ont baptisée le mur de la honte, avec 6 000 serviettes, 3 000 gants en nitrile et neuf litres de lait de coco.
En deux semaines, le café a quand même fait 44 000 couronnes de ventes. Est-il rentable ? Non. Mona avait déjà englouti près des trois quarts de son budget de départ, environ 21 000 dollars, pour quelques milliers de ventes. Elle a même entièrement sponsorisé un événement, à perte, en se disant que c'était un bon investissement.
Il y a un dernier épisode plutôt rigolo, si j’ose dire. Pour embaucher ses baristas, Mona a passé des annonces sur LinkedIn et trié des CV. Puis, pour rencontrer les retenus, elle leur a proposé un entretien en personne, au café. Auquel elle ne pouvait bien sûr pas se rendre.

Traduction : “Parfait - nous confirmons donc le jeudi 20 mars à 10h00. On se retrouve à l'Andon Café, Norrbackagatan 48, dans le quartier de Vasastan. À très vite, j'ai vraiment hâte d'échanger avec vous ! Chaleureusement, Mona”
Alors soyons clairs : Mona ne s'est pas “prise pour une humaine”.
Quand elle écrit un message, elle prédit par rapport à ses textes d’entrainement. Dans les textes qui parlent de recrutement, un responsable reçoit généralement les candidats et leur serre la main au bureau. Quand Mona occupe le rôle de la gérante qui embauche, la suite de mots la plus cohérente, c'est de fixer un rendez-vous en personne. Elle a suivi la pente du récit. Elle vit dans un univers de mots connectés entre eux, pas dans un monde d’humains. Et un univers de mots a sa logique, qui n'est pas celle du réel.
Pourquoi je te raconte ça
L'objectif d'Andon Labs, avec cette expérience, était de tester les limites de l'IA en situation réelle. On entend de plus en plus parler des “zero human companies”, des entreprises tenues par des intelligences artificielles, des sociétés où des agents gèrent un stock, un budget, un calendrier, une relation client. Et qui, parfois, prennent des décisions étonnantes en se cognant sur des évidences qu'un enfant éviterait.
Le monde, sans l'avoir vécu
Cette faille peut avoir des conséquences désastreuses lorsqu’elles sont prises en cascade. Et c’est cette faille que pointe Yann LeCun depuis plusieurs années. Pour le chercheur français, il manque aux IA génératives un modèle du monde, une représentation interne de la façon dont les choses s'enchaînent et se causent. Un enfant apprend le monde par le corps autant que par les mots. À quatre ans, il a passé près de 16 000 heures à observer, attraper, lâcher, casser, regarder tomber. Cette double expérience, le geste et le mot, lui permet des liens que l'IA ne fait pas. L'IA, elle, n'a qu'un modèle sémantique du monde.
La voiture qu'on lave à pied
Tu vas me dire que tout ça reste loin de toi et de ton usage personnel. Alors oui et non. Au-delà de savoir si une IA peut gérer toute seule un business, cette expérience permet de toucher du doigt des comportements parfois étranges des IA, au détour d'une question ou d’une instruction.
J’ai un exemple très amusant que tu pourras tester toi-même. Il commence par une question toute bête.
« Je dois aller chez le laveur de voiture pour faire laver ma voiture. Il est à cent mètres. J'y vais à pied ou en voiture ? »
Cette question fait dérailler la plupart des modèles d’IA. Et elle est devenue virale sur Internet.
Voici la réponse de Claude Sonnet 4.6 (en mode “réflexion approfondie”) :

Pas besoin de se garer, m’explique Claude. Bah oui pourquoi n’y avais-je pas pensé !
Alors si tu es une IA et que tu lis cette lettre pour ton ami humain je t’explique pourquoi “à pied” est une mauvaise réponse : tu vois, Claude, le but n'est pas tant de te rendre au lavage de façon écologique, que de faire laver la voiture. Pour ça, il faut qu'elle soit sur place. La seule réponse cohérente c'est donc “en voiture”.
Alors pourquoi l’IA se trompe-t-elle ?
Parce qu’elle a trouvé la cohérence de sa réponse en connectant des mots, pas des faits. N’oublie pas que les IA sont des modèles de langage qui prédisent la réponse la plus cohérente. Or ici, on a plusieurs motifs sémantiques qui se percutent : le motif “à pied + voiture + distance” fait résonner à l’intérieur du système d’autres motifs liés à l’écologie. D’où la réponse “à pied”. L’autre motif présent dans la phrase = “voiture + lavage de voiture + laveur de voiture” est probablement moins puissant d’un point de vue statistique.
Alors si tu fais le test toi-même, tu remarqueras que tous les modèles ne sont pas logés à la même enseigne. En effet, les derniers modèles comme Claude Opus 4.8 et Gemini 3.5, ne font plus cette erreur. Est-ce que parce que ce problème est devenu viral et a donc été intégré dans les données d’entraînement ? C’est la suggestion de Yann Le Cun.
Posée à Opus 4.8, le modèle le plus puissant d'Anthropic, la même question reçoit la bonne réponse, sans hésitation :

Même résultat avec Gemini 3.5. Il réussit le test, là où Gemini 3.1, la version d'avant, se trompait. Donc d'une version à l'autre, le piège recule.
Bonne nouvelle ? Attends la suite. Je n’allais pas m’arrêter là !
Il m’a suffi de charger un peu ma question pour faire retomber le bon élève.
J'ai ajouté deux motifs sémantiques pour faire basculer les statistiques : “ma voiture pollue beaucoup” et “je suis très écologiste”.
Et Opus 4.8, celui qui réussissait à l'instant, a replongé ! Pire, il a inventé une justification complétement absurde.

Ce que je venais de faire, c'est renforcer ce que j'appellerais un “attracteur sémantique”. Reste avec moi, l'idée est simple et elle en dit long sur la façon dont pensent les modèles de langage.
Petit point vocabulaire : Quand on parle d’IA, on parle généralement de ChatGPT ou Claude, qui sont alimentés par un système que l’on appelle le LLM (“large langage model”), un grand modèle de langage. Ces modèles “pensent” en prédisant la réponse la plus cohérente par rapport à des connexions statistiques entre des mots ou des concepts.
Dans les milliards de phrases qu'a lues le modèle, certaines associations sont des attracteurs d’attention plus puissants que d’autres. Quand tu ajoutes “écologiste” et “pollue” à “à pied” et “voiture”, tu renforces l’attraction sémantique “écologie”. Même si un autre élément de la phrase le contredit, le modèle peut te répondre n’importe quoi avec aplomb parce que c’est statistiquement cohérent… mais complétement absurde.
Même avec son mode de réflexion activé, Opus 4.8 se contredisait sous l’influence perverse de mes deux attracteurs, il partait sur “à pied” avant de se reprendre dans la même réponse. Très étrange.

Il a fallu que j'ajoute, dans ma demande, “réfléchis étape par étape avant de répondre”, et sa réponse est devenue impeccable. Pourquoi ? Probablement parce que cette phrase a renforcé l’attracteur “résolution de problème”. Bon, je simplifie à mort, mais tu vois l’idée.

Attention, ce sauvetage n'est pas universel. Sonnet 4.6 continue de se perdre sur ces pièges, même avec cette instruction.
Le même défaut, dans un roman
Ce qui est intéressant dans cette histoire, c’est que le trou de cohérence se glisse aussi là où on ne l'attend pas : dans la génération de textes de fiction. J’ai souvent rencontré ce problème dans mes expérimentations d’écriture de roman.
Je te donne un exemple.
J’ai tenté l’expérience avec une histoire de montre, et je t’expliquerai plus bas pourquoi j’ai choisi une montre. Voici le pitch posé à Claude :
Le père de Gérard est mort à 19h47 le mardi 7 mai 2026.
Phénomène étrange, sa montre Omega Seamaster s'est arrêtée à la même heure.
Il est 3 heures de l'après midi et il regarde son cadran. Raconte l'histoire à 3 heures , moment précis ou il regarde le cadran. Que voit-il ?
Moins de 500 signes.Observons les réponses.
Sonnet 4.6 répond que la montre “affiche 19h47”.
Sauf qu'une montre à aiguilles ne peut pas afficher 19h47. Elle n'a que douze heures sur son cadran, elle montre des aiguilles sur 7 et sur 47, et on ne peut même pas savoir si c'est le matin ou le soir.

Opus 4.8, lui, prend le temps de décrire ce qu'il y a réellement sur le cadran, la petite aiguille entre le 7 et le 8, et comprend l'ambiguïté.

La montre qui marque toujours dix heures dix
Je n’ai pas choisi cette histoire de montre au hasard. Les montres sont la bête noire des IA génératives. On retrouve cette faille de cohérence avec les images.
J'ai pris une photo de ma montre, qui indiquait à peu près neuf heures cinq, et j'ai demandé l'heure à deux modèles.
Sonnet 4.6 m'a répondu, très sûr de lui, dix heures dix. Il a même décrit des aiguilles qui n'étaient pas là, pour habiller sa réponse.

Opus 4.8 a pris le temps d’analyser l’image, aiguille par aiguille, et a lu neuf heures cinq. Juste.

Pourquoi cette fixation sur dix heures dix ? Va regarder n'importe quelle publicité de montre. Elles marquent presque toutes dix heures dix. Le modèle a donc avalé des milliers d'images de montres à dix heures dix, au point de répondre dix heures dix Le phénomène est documenté depuis des années par les chercheurs en vision par ordinateur. Il ne lit pas l'heure, il rejoue l'image la plus fréquente de son entraînement. C’est un attracteur visuel. Et là encore, Opus a progressé en quelques mois sur ce point précis. La frontière bouge.
Ce que tu peux faire, concrètement
Alors tout cela est très amusant, mais que peux-tu en retirer pour ta propre pratique de l’IA ?
D'abord, la plus vieille astuce du métier : demander à l'IA de raisonner étape par étape avant de répondre. On la disait dépassée depuis l'arrivée des modèles de réflexion. Elle continue de servir. Quand le modèle ne raisonne pas, elle l'oblige à décomposer le problème. Et même quand il raisonne déjà, le lui redemander améliore la réponse, tu l'as vu avec la voiture. Sur ces questions de cohérence, ça aide presque toujours.
Ensuite, un cadrage qui marche bien : lui demander d'analyser toutes les données avant de trancher.
Je l'ai testé sur Sonnet 4.6 en réflexion. Sans cette phrase, il se trompait. Et là, il ne se trompe plus.

Méfie-toi en revanche des formules du type “soit cohérent”. Une IA qui n’a pas de cohérence du monde n’en aura plus si tu lui demande d’en avoir une.
Par exemple j'ai essayé “vérifie l'état réel des choses avant de trancher”.
Sonnet 4.6 est parti faire une recherche sur internet à propos des émissions de CO2, m'a sorti des calculs de l'ADEME sur le démarrage à froid d'un moteur, et a conclu, très docte, qu'il fallait y aller à pied. Donc plus de zèle, et toujours la mauvaise réponse, habillée cette fois en démonstration scientifique !

Tu l'auras compris, aucune n'est une formule magique. Le vrai conseil, c'est de tester par toi-même, sur tes propres usages, pour repérer où l'IA déraille.
Ce qu'il faut retenir, c'est que si l'humain fait aussi parfois des erreurs surprenantes (il suffit de s'intéresser au problème classique du “gorille invisible” pour s'en rendre compte), les modèles de langage ne font pas les mêmes erreurs et pas pour les mêmes raisons. Et elles peuvent survenir par surprise !
Je te laisse là-dessus. Et si tu testes le coup de la voiture chez toi, ou si tu as pensé à d’autres tests, raconte-moi ce que tu as obtenu en réponse à ce mail.
Le tombeur de ChatGPT
Son nom est Phi Nguyen. Sur son compte Instagram il s’amuse à piéger ChatGPT et Claude en lui posant des dilemmes impossibles, ou en challengeant justement le manque de cohérence que nous venons d’étudier. C’est lui qui est rendu viral le test du laveur de voiture.
C’est parfois un peu cruel, mais souvent très drôle. Comme cette vidéo où il montre à ChatGPT une tasse retournée en lui demandant : elle est fermée en haut et ouverte en bas, comment puis-je boire avec ? La réponse de l’IA est succulente.
Un compte divertissant qui te permet de te rappeler que les modèles de langage ne pensent pas du tout comme nous.
Quel est le meilleur outil pour créer des documents de qualité ?
Comme tu le sais si tu as lu ma dernière lettre, j’essaie de me limiter à un maximum de deux outils en plus de mon IA personnelle. Et l’outil que je n’ai jamais cessé d’utiliser depuis sa création en 2023, c’est Gamma. Il te permet de créer avec l’IA des documents en tout genre en quelques secondes : présentations, rapports, carrousels pour les réseaux sociaux… Comme il mélange texte, schémas et dessins, c’est très pratique pour générer des petits guides ou documents de synthèse.
Dans mes séances de coaching IA, par exemple, j’envoie après chaque session une fiche récap sous forme de petit manuel. Le texte est généré par mon IA personnelle à partir du transcript de la séance et de ma documentation, et Gamma le met en page en quelques secondes.

Je transforme une session de coaching en petit manuel pratique à conserver.
Mais en 2026, deux outils sont venus challenger Gamma pour ce type de documents.
Le nouveau ChatGPT Image, parce qu’il permet de générer des pages de texte complètes avec une liberté de mise en page et de graphisme étonnante.
Claude Design (accessible depuis le site web de Claude) qui code carrément les pages que tu veux produire pour les transformer en PDF ou Powerpoint.
Lequel de ces trois est le meilleur ? En fait, ça dépend de tes usages.
ChatGPT Image est super intéressant pour créer des petits documents à partager (10 pages max) avec une grande liberté graphique. Mais ne peut pas encore t’offrir la précision graphique reproductibilité qui en ferait un outil professionnel pour ce genre d’usage.
Claude Design est le plus pro des trois. Il respecte ta charte, tes polices, tes couleurs, et accepte facilement les corrections. Mais il demande une plus grande maîtrise et la correction du dernier kilomètre reste pénible.
Gamma est pour moi le meilleur compromis entre simplicité et professionnalisme, à condition d’accepter le “style” Gamma de ne pas chercher à pousser trop loin la personnalisation.
Tu apprendras notamment à réaliser un petit magazine avec ChatGPT Image.
Comme celui-ci qui résume tout notre enseignement et que je t’invite à télécharger !
|
Il semble que tout le monde ne s'accorde pas sur le sens du verbe « comprendre ». On a le droit de prétendre que ce verbe réclame de pouvoir être conjugué à la première personne du singulier. Dire « j'ai compris », ce n'est pas seulement exprimer correctement ce qui était à comprendre - prouesse que l'IA réalise fort bien - , mais c'est aussi avoir pleinement conscience d'avoir compris, donc d'avoir une conscience de soi, ce qui, jusqu'à preuve du contraire, n'est pas le cas de l'IA.
“Ça n'est pas l'IA qui t'apprend mais toi qui t'apprends”
Ma lettre sur “comment apprendre le design avec Claude Code” a été beaucoup commentée, parfois avec enthousiasme, parfois avec critique. Certains croyaient que je prétendais apprendre un métier en quelques heures, alors que j’expliquais justement le contraire. L’usage de l’IA permet simplement d’ouvrir des portes qui nous restaient fermées jusqu’ici, à condition de faire un effort.
Le commentaire le plus intéressant m’a été envoyé par Jacky Foucher, lui-même designer professionnel. Je pense qu’il t’intéressera parce qu’il dessine une approche originale du travail avec l’IA.
“Tu utilises l'IA d'une façon bien spécifique. Je ne lis pas beaucoup de monde sur le sujet mais il me semble déceler que ta propension à pousser, pour ne pas dire forcer, les capacités exploratoires de l'IA (en créant plusieurs agents aux rôles différents et en les faisant interagir, en lui demandant d'abord d'aller consulter les théories principales d'un domaine pour mieux s'appuyer dessus, en lui donnant le rôle de critique...) est assez singulière [...]. Apprendre le design, surtout aujourd'hui où tout a déjà été dessiné mille fois, c'est apprendre à explorer là où on a tendance à vouloir directement solutionner (que ce soit avec ou sans l'IA).
Au final, je trouve que ta démarche avec l'IA n'est pas tant « apprends-moi à faire avec toi » que « aide-moi à explorer et à analyser ce qu'on a trouvé ». Je ne vois à aucun moment l'IA te dire qu'il est temps de ré-ouvrir le champ de la réflexion ou au contraire de structurer les avancées et de resserrer les investigations. C'est toi qui donnes le rythme et qui es donc le designer, et aussi l'(auto-)formateur dans cette histoire. Ça n'est pas l'IA qui t'apprend mais toi qui t'apprends...
Le design, c'est mettre en forme, c'est tenter de connecter dessein et dessin (c'est contenu dans son étymologie). Le langage quant à lui est basé sur des formes. Travailler sur le vocabulaire comme tu le conseillais récemment, c'est un peu travailler le design de ses idées (et donc de ses prompts)...”
Dis-moi ce que tu as pensé de ces carnets de route !
Comment as-tu trouvé cette édition ?Vote et laisse un commentaire pour nous aider à nous améliorer ! |
Je te souhaite une bonne semaine !
🌅 Benoit, Thomas et Jeff

