- Génération IA
- Posts
- Hallucinations : peut-on faire confiance à ChatGPT ?
Hallucinations : peut-on faire confiance à ChatGPT ?
La réponse est non. Et on a les chiffres. Mais comment éviter les erreurs ? Dossier complet.
Bonjour !
Aujourd’hui, on va parler hallucination et intelligence artificielle. Si tu ne sais pas de quoi je parle, je t’explique : on dit qu’un modèle d’IA hallucine quand il se trompe dans ses réponses.
Le problème c’est que ce n'est pas un bug, mais une caractéristique de son fonctionnement. C’est dans sa nature profonde comme dirait Sigmund Freud. C’est un peu sa libido à lui.
Je sais, tu vas me dire : “Mais il ne se trompe pas beaucoup quand même, non ?”
Mmmh, je pensais comme toi… avant de creuser le sujet.
Alors accroche-toi, les surprises arrivent ! Dans ce dossier spécial champignons hallucinogènes pour IA, je vais te donner tous les chiffres, mais aussi des solutions pratiques pour éviter les erreurs.
Je suis Benoît Raphaël, et avec Thomas Mahier (ingénieur en IA) et FlintGPT (robot un peu simplet mais gentil), je te propose de mieux comprendre et maîtriser l’intelligence artificielle.
Si on t’a transféré cette lettre, abonne-toi en un clic ici.
Si tu es abonné(e) et que tu souhaites te désabonner, pas de panique ! Va en bas cette lettre et clique sur le lien “vous désabonner ici”.
😍 Aujourd’hui voici comment tu vas devenir plus intelligent avec Génération IA :
→ Découvre les vrais chiffres des hallucinations de ChatGPT et apprend à les maîtriser : surprise garantie !
→ Je t’explique comment j’ai écrit cet article avec l’IA pour réduire sa taille de moitié sans changer mon style d’écriture.
→ Apprends une technique pour créer des illusions d’optique avec l’IA !
→ Et toujours ma sélection de liens vers des tutos, des outils et UNE info intéressante.
Image trop mignone réalisée avec Mystic 2.5 (via Freepik)
Commençons par une idée reçue : contrairement à ce que l'on pourrait penser, ChatGPT ne cherche pas une réponse précise dans une base de données. Il s'appuie sur une connaissance interne issue de son entraînement sur des millions de textes.
Les modèles de langage (LLM) comme ceux qui alimentent ChatGPT ne comprennent pas les textes comme nous. Ils utilisent des calculs mathématiques pour créer des liens entre les mots, sans saisir leur sens.
Andrej Karpathy (ex d'OpenAI), explique que les modèles de langage "rêvent" les données plutôt que de les stocker. Ils réinterprètent les textes mathématiquement pour pouvoir ensuite “prédire” leurs réponses.
Ils hallucinent donc tout le temps, et parfois la réponse est bonne. Haha, on est bien.
Ramener les chatbots à la réalité
Évidemment, tu n'as pas envie d'un chatbot qui hallucine en te répondant n'importe quoi. Pour limiter ce problème, les modèles sont entraînés sur des données de plus en plus qualifiées. Environ 20 000 personnes sont employées à temps plein pour produire des données d'entraînement pour les LLM, estime François Chollet, chercheur chez Google.
Ils bénéficient aussi de surcouches d'alignement pour améliorer la qualité des réponses. Des techniques comme l'apprentissage par renforcement avec feedback humain (RLHF) permettent de noter les réponses de l'IA pour l'améliorer.
Mais alors, combien les IA hallucinent-elles ?
Quels sont les risques que ChatGPT fournisse des réponses inexactes ou erronées ? Étonnamment, si tout le monde parle des hallucinations, personne n'était capable de donner un chiffre précis. Jusqu'au 30 octobre dernier, avec le lancement du test SimpleAQ par des chercheurs d'OpenAI : poser 4000 questions factuelles à un modèle et évaluer ses réponses.
Résultat ? Aucun modèle n'atteint 50% de réponses correctes ! Les plus fiables sont OpenAI o1-preview avec 47% et Claude 3.5 Sonnet avec 44,5%. GPT-4o arrive en troisième position avec 38%.
Dans ce tableau tu vois le taux de bonnes réponses. Le plus intéressant est la colonne “Correct Given Attempted” qui correspond aux questions auxquelles le modèle a accepté de répondre et dont les réponses étaient correctes.
Surprenant ? Non. D'autres études avaient obtenu des taux d'erreur variés selon les thématiques. Par exemple cette étude a calculé un taux d’erreur de 28% pour GPT-4 sur les citations scientifiques. Un autre estime que les réponses aux questions de programmation contiennent des erreurs dans 51% des cas.
Les pièges à connaître et comment s'en sortir
Alors comment on fait ? Il faut le savoir ! En particulier dans quels cas ChatGPT risque le plus de se tromper : Voici quelques exemples concrets où la vigilance est de mise :
Citations, références scientifiques, chiffres et statistiques : ils doivent toujours être vérifiés.
Biographies et faits précis : L'IA peut inventer des détails, surtout sur des personnalités moins connues.
Informations sensibles : Vérifie toujours ce qui pourrait avoir un impact important sur ta santé ou ton travail.
Tout ce pour quoi tu n’as pas d’expertise.
Évite les questions “hors de leurs capacités” : par exemple leur donner un URL à lire, leur demander de lire un graphique sur un PDF ou de faire des calculs, a de très fortes chances de générer des erreurs.
Événements postérieurs à la date d'entraînement : oui, la connaissance des chatbots d'IA s'arrête à la date de leur dernier entrainement. Claude s’arrête en avril 2024. GPT-4o en octobre 2023.
Pour vérifier la date du dernier entrainement, il suffit de demander au chatbot son “knowledge cutoff”. Ici Claude s’arrête en avril 2024. GPT-4o en octobre 2023 (mais il peut aller chercher sur Internet).
La MEILLEURE méthode ? Pour limiter les risques, l'idéal est de fournir directement des informations à l'IA.
Par exemple tu lui fournis des notes, tu les mets entre 3 guillemets comme ça :
""" [TES NOTES] """
- Donne-moi les 3 idées clés de ce texte.
- Réponds aux questions suivantes : ...
La plupart des chatbots te proposent aussi d’analyser des documents (Word ou PDF par exemple). Donc c’est très pratique.
Mais il y a des piéges ! Et pas ceux auxquels on pense !
La magie (piégeuse) du RAG
Quand les documents sont importants, on parle souvent de RAG, ou "Retrieval Augmented Generation", c'est-à-dire une génération de réponse augmentée par la recherche sur une documentation (la tienne, ou sur le web).
En pratique, cela signifie que le modèle d'IA va rechercher des informations dans des documents spécifiques avant de te donner une réponse. Cela réduit considérablement le risque d'hallucination, car l'IA ne s'appuie pas seulement sur sa mémoire interne, mais aussi sur des faits précis extraits des documents fournis.
Avec le RAG, le taux d'erreurs factuelles est généralement beaucoup plus faible, souvent situé entre 1 % et 3 %. C'est particulièrement efficace quand tu as un rapport ou une documentation que tu veux résumer sans risquer de déformations. Le modèle va chercher des morceaux pertinents du texte, les analyser et ensuite te fournir une réponse basée sur ce qu'il a lu.
Cependant, il y a des pièges !
💣️ PIÈGE Nº1 : Les PDF !
Ah le PDF, c’est tellement pratique. Sauf que si toi tu le lis parfaitement bien avec tes yeux, ton chatbot, lui, ne voit que sa retranscription en texte. C’est-à-dire qu’il ne lit ni les images, ni les infographies.
Un exemple :
Voici ce que tu vois dans le PDF :
Et voici ce que voit ChatGPT :
Par exemple ici Gemini invente carrément des infos sur un tableau qu’il ne peut pas lire :
Voici ce que je vois dans le PDF :
Et voici ce que me réponds Gemini :
Le seul chatbot à être capable de lire les infographies c’est Claude. Anthropic a sorti la fonctionnalité le 1er novembre dernier.
Pour l’activer dans Claude, il faut aller dans les paramètres et activer “Visual PDF” !
Note que le modèle Gemini 1.5 est capable de lire les images dans les PDF mais uniquement via cette plateforme. Pourquoi ici et pas dans le chatbot ? Va comprendre !
Des solutions ?
Vérifie toujours si le modèle peut lire les images dans le PDF.
Ajoute ce prompt à la fin de ta requête pour pouvoir vérifier les informations remontées par l’IA quand elle fait une synthèse d’un rapport par exemple :
Pour me permettre de vérifier tes informations, donne moi, pour chaque information remontée :
- l'extrait du document qui valide l'information de la façon suivante {"extrait"} {N° de page du document}
👻 PIÈGE Nº2 : La recherche !
En mode RAG, c'est à dire quand tu interroge le chatbot sur une documentation par exemple, l'IA découpe les documents en petits morceaux et effectue une recherche (d’où son nom) pour identifier les morceaux les plus pertinents pour répondre à ta question. Il peut donc oublier des informations importantes si la documentation est vaste ou répartie entre plusieurs sources.
Mais le plus piégeux, ce sont les moteurs de recherche ! Vigilance maximale !
Les moteurs de recherche intégrant des modèles d'IA, tels que Perplexity ou le nouveau moteur de recherche de ChatGPT, promettent des réponses plus précises et contextualisées.
Cependant, une étude passionnante de l'Université de Pennsylvanie, publiée le 15 octobre 2024, révèle des lacunes, hum, significatives.
Des affirmations non étayées
L'étude indique que 30 % des affirmations fournies par Perplexity ne sont pas soutenues par les sources citées. Cela suggère que l'IA génère parfois des informations sans fondement solide, ce qui peut induire les utilisateurs en erreur.
Un exemple :
Quand tu lui poses une question sur des chiffres ou des statistiques, Perplexity n'utilise que très peu de sources (3,4 en moyenne). Et donc la plupart du temps il n'a pas de réponse précise à ta question. Donc il invente ou interprète.
Par exemple : "Combien de brevets liés à l'intelligence artificielle ont été déposés en Chine en 2023, et quelle est l'augmentation par rapport à 2022 ?"
Réponse fausse de Perplexity qui me donne le chiffre total des brevets déposés sur 10 ans et mesure l’évolution en comparant des données qui n’ont rien à voir (des demandes de brevet en Europe et des dépôts de brevets en Chine).
Une confiance excessive
Quand il ne trouve pas les infos, Perplexity, par exemple, pourrait te dire : je n'ai pas trouvé ou je ne suis pas sûr ! Que nenni ! Il présente un taux de "sur-confiance" de 81 %. Autrement dit : il est sûr de lui, même quand il raconte des conneries.
Plus embarrassant : notre tendance à moins vérifier !
L'étude souligne que les utilisateurs cliquent six fois moins sur les sources fournies par ces moteurs de recherche IA que lorsqu'ils le font avec Google.
Des solutions ?
Être particulièrement prudent lorsqu’on l’interroge un moteur de recherche IA sur des données récentes.
L’être ENCORE PLUS sur des chiffres ou des statistiques.
Bizarrement, ne pas être trop précis dans ta question pour éviter qu’il essaie de te “faire plaisir” en adaptant les infos trouvées à la réponse que tu attends.
Utilise-le principalement pour avoir une première idée, mais VÉRIFIE toujours ses réponses.
Si tu promptes en français, demande lui de faire des recherches en anglais et de te répondre en français. Tu auras plus de données et plus souvent des données originales.
Et LA question qu’il faut toujours se poser
Quand tu fais une recherche ChatGPT ou Perplexity fais ce calcul :
Quel est mon bilan '“temps passé à vérifier + émission de CO2” comparé à une recherche Google ?
Voilà ! J’espère que ça t’a été utile !
Ce qu’il faut retenir :
Les modèles d'IA comme ChatGPT ne consultent pas une base de données mais créent des liens mathématiques entre les mots, ce qui explique leur tendance naturelle à "halluciner".
Même les meilleurs modèles d'IA n'atteignent pas 50% de réponses correctes sur des questions factuelles simples
30% des affirmations des moteurs de recherche IA comme Perplexity ne sont pas soutenues par les sources citées.
Solution 1 : Donner à l'IA des documents ou des infos à analyser réduit significativement le taux d'erreurs factuelles à 1-3%
Solution 2 : Éviter les questions factuelles (surtout sur les chiffres, les citations et données récentes).
PROMPTOLOGIE
Comment j’ai réduit de 50% la taille de cet article en préservant le style
Tu commences à me connaître, je fais parfois trop long ! En général, les journalistes ont des rédac-chef(fe) ou des secrétaires de rédaction pour les aider. Moi je n’ai que ChatGPT. Le problème c’est que ChatGPT a tendance à imposer son propre style moche dans ses corrections. Comment faire ?
Pour réduire mon article de 40%, j’ai travaillé une instruction un peu complexe, dans laquelle je donne à ChatGPT une méthode de travail.
Je lui invente un nom (“méthode ECS”) et je présente le concept entre deux balises.
Puis je lui dis quoi faire étape par étape.
Je ne lui dis pas de ré-écrire, mais de réduire le texte. Ça change tout.
Ensuite, je lui demande d’abord de me donner le début de sa correction. Pourquoi ? Parce que comme il est trés bon pour prédire la suite, il est préférable de corriger le début avant de continuer paragraphe par paragraphe.
Voici le prompt :
Agissez comme un auteur de talent et un traducteur.
Vous allez recevoir un texte. Votre tâche est de proposer une version plus concise, plus fluide et plus compréhensible de ce texte, en coupant dans le texte ou en reformulant certaines phrases, tout en respectant les informations clés et le style de l'auteur ou de l'autrice.
Voici les étapes à suivre :
1. Lisez attentivement le texte qui vous sera donné .
2. Procédez à une analyse ECS (Extraction Contextuelle et Structurelle), les informations recueillies vous serviront de guide durant tout le process de réduction du texte.
Voici la méthode à utiliser :
<methode_ECS>
Méthode : Extraction Contextuelle Structurée et Synthétique
- Identifier le plan détaillé de l'article pour s'assurer qu'aucun élément essentiel n'est omis et pour comprendre la progression logique.
- Identifie les éléments de liaison entre les différentes sections.
- Repérer les phrases percutantes qui résument efficacement les idées principales, en vue de les réutiliser dans la synthèse pour renforcer l'impact et la clarté.
- Lister les chiffres et données scientifiques présentés dans le texte, en mettant en évidence leur source et leur signification pour étayer les conclusions et arguments.
- Analyser et structurer les informations en classant les entités nommées, les faits et les thèmes principaux, tout en distinguant les informations de premier plan des détails secondaires.
- Cartographier les relations de cause à effet et les interactions structurelles entre les idées pour offrir une vue d’ensemble complète, en intégrant les dynamiques causales et structurelles.
- Déterminer le ton émotionnel et les attitudes exprimées afin de capter le positionnement et l'intention de l’auteur vis-à-vis des thèmes abordés.
Cette méthode vise à offrir une analyse approfondie, précise et contextuelle en structurant l’information de manière à fournir une synthèse efficace, tout en s’assurant que chaque élément essentiel est capturé et présenté de manière optimale.
</methode_ECS>
3. Demandez moi de valider vos observations ou de corriger. Attendez ma réponse.
4. Procédez à une analyse de style. En vous posant 5 questions que se poserait un grand auteur de non-fiction et un traducteur.
5. Répondez aux questions de façon détaillée en donnant des exemples.
6. En vous appuyant sur vos analyses, identifiez les passages ou les expressions à conserver pour maintenir le style et le ton de l'auteur ou de l'autrice.
7. Identifiez comment rendre le texte plus lisible en insérants ça et là des sous-titres oudes bullets-points. Puis demandez-moi de valider. Attendez ma réponse.
8. Ces informations, associées à celles de l'analyse ECS, vous guideront dans votre travail de réduction du texte.
8. Créez une version plus concise du texte en suivant ces directives avec une règle stricte : couper plutôt que réécrire:
- Réduisez la longueur du texte d'environ 40%
- Améliorez la fluidité et la compréhensibilité
- Conservez les idées et informations essentielles en intégrant les chiffres clés, les entités nommées, les phrases fortes et les transitions.
- Respectez strictement le ton, le style et le degré de formalisme de l'article original
- Assurez-vous que la structure de la pensée de l'auteur reste intacte jusqu'à la fin
9. Écrivez les deux premiers paragraphes de la version révisée du texte en français à l'intérieur de balises <texte_revise>.
10. Demandez-moi de valider. Attendez ma réponse et mes corrections.
11. Une fois l'introduction validée, procédez à la rédaction du texte réduit en respectant strictement le même style et le même ton jusqu'à la fin.
12. Après avoir terminé la réduction, expliquez brièvement (en 2-3 phrases) comment vous avez abordé la tâche et quels changements principaux vous avez apportés. Incluez cette explication dans des balises <explication>.
Assurez-vous que votre version respecte parfaitement le style de l'auteur ou de l'autrice tout en le rendant plus agréable à lire.
Demandez-moi le texte à raccourcir sans trahison.
Si tu veux utiliser ce prompt, je te recommande de le faire en utilisant la fonctionnalité “Canvas” de ChatGPT (il suffit de sélectionner GPT-4o Canvas dans les modèles). Ça m’a permis de corriger directement dans son texte au fur et à mesure. Un peu comme une collab à deux dans Google Docs ! J’ai adoré.
Et c’est comme ça que je suis passé de 15000 signes à 7500 signes sans trahir mon style.
LA CITATION QUI REND PLUS INTELLIGENT
L’IA n’est qu’un tremplin ; le véritable élan vient de nous. Il réside dans notre esprit critique, notre curiosité, cette quête silencieuse qui fait de nous des êtres pensants. La connaissance authentique ne se délègue que lorsqu’elle est véritablement comprise. Elle doit d’abord être recherchée, conquise. Et si l’IA doit nous accompagner avec une véritable intelligence, qu’elle le fasse non pour fournir des réponses, mais pour éveiller en nous de plus grandes questions.
LE TUTO
Comment créer des illusions avec l'IA
Ce tutoriel fait suite à une demande d’un ami. Il voulait savoir comment on pouvait réaliser ce qu’on appelle des paréidolies, c’est à dire des images dans lesquelles notre cerveau voit des visages.
Je me suis plongé dedans pendant des heures et j’avoue m’être arraché les cheveux. Mais l’exercice est intéressant parce qu’il permet de mieux comprendre comment fonctionnent les IA génératives d’images, notamment avec leur technologie de diffusion (qui génère l’image couche après couche).
Et au-delà de la technique, ça donne aussi des idées pour créer des graphismes intéressants avec des illusions d’optique.
J’ai donc trouvé deux méthodes, une super simple et une super compliquée.
Je te les présente ici 👇️
MA SÉLECTION D’INFOS
Quatre outils et tutos intéressants trouvés sur Internet
1) Ce court-métrage entièrement généré par l’IA est vraiment impressionnant et l’histoire est plutôt drôle et réussie. Mais surtout c’est un excellent exemple de synchronisation labiale (pour faire parler les personnages). Tu peux le voir ici 👇️
Probably the best AI lip-syncing I've seen in a while.
Tutorial below 👇
— Dreaming Tulpa 🥓👑 (@dreamingtulpa)
7:08 PM • Nov 3, 2024
Ce qui est intéressant, c’est que son créateur explique comment il a fait. Tuto en anglais ici.
2) Tu connais les LoRA ? C’est une technologie qui te permet de créer des personnages persistants dans plusieurs images. Jusqu’ici un peu technique, cette méthode est désormais accessible à toutes et tous. Je te recommande Freepik qui vient de lancer ce service. Freepik est vraiment en train de devenir une plateforme incontournable pour les designers et tous ceux qui travaillent avec les images.
3) Pour obtenir de belles images (avec Midjourney, Flux etc) il faut connaître les bons tokens, c’est à dire les bons mots pour expliquer ce que tu veux voir. Pas simple ! Voici une liste de tokens à essayer pour jouer avec la lumière. Et celle-ci pour les angles de vue. Super intéressant !
Et UNE info intéressante !
🤯 Pour t’éviter le burnout informationnel, je t’ai sélectionné UNE SEULE info que j’ai trouvée instructive (merci à Christian, de la communauté WhatsApp de Génération IA). 🤯
Il s’agit d’une keynote donnée par le PDG de NVIDIA. C’est l’entreprise la plus côtée du monde. Et c’est surtout elle qui fournit les puces qui font tourner les IA du moment.
Voici sa vision du futur du travail :
Selon Jensen Huang, l'IA va progressivement prendre en charge une part importante de nos tâches, jusqu'à 20% ou 50% selon les cas, en les effectuant de manière beaucoup plus efficace.
Il observe aussi une évolution radicale pour les dévelopeurs. La programmation classique de logiciels va peu à peu laisser place à la création de systèmes d'IA capables de programmer eux-mêmes. Cette vision rejoint le constat de Google dont 25% du nouveau code en 2023 a été programmé par l’IA.
PARTICIPE !
On construit cette lettre ensemble !
Vous êtes désormais 23600 à recevoir cette lettre. Objectif : 25.000 pour Noël ! Haha, sinon, la dernière édition a été bien accueillie avec 99% d’avis positifs (dont 91,1% de “Top !”).
Image générée par Claude.
Si tu veux voir les résultats, j’ai demandé à Claude de me faire un tableau de bord interactif à partir des données du sondage. Tu y retrouveras les top des commentaires positifs et critiques. Tu verras c’est très bien fait !
A toi de voter !
Comment as-tu trouvé cette édition hallucinée ? Vote ici et laisse tes commentaires pour nous aider à nous améliorer ! Dis-moi aussi ce que tu aimerais voir en plus ou en moins.
Comment as-tu trouvé cette édition ?Vote et laisse un commentaire pour nous aider à nous améliorer ! |
Merci de nous avoir consacré un peu de ton temps. Je te souhaite une bonne semaine avec ton ChatGPT rêveur !
🦄 Benoit, Thomas et FlintGPT.
Comment les IA “rêvent” les infos