Génération IA
Posts
La force de l'entraînement. Le poids des mots.

La force de l'entraînement. Le poids des mots.

Comprendre l'impact de l'entraînement et l'importance des mots dans les prompts pour des interactions optimales.

Thomas Mahier
9th septembre 2024

Cinq.

Pas quatre. Pas six. Cinq.

Peu importe l'article, peu importe le sujet, demande à ChatGPT ou autre d'extraire les points clés d'un article et tu te retrouveras très souvent avec cinq points clés.

Pourtant, tu seras d’accord, théoriquement, pour certains articles, il n’y a réellement que 3 points clés, quand pour d’autres 7 points clés seraient un minimum (sans parler des articles qui ne méritent aucun point clé).

Dis-moi comment tu t’entraînes et je te dirai ce que tu es

Alors pourquoi 5 ?

Comme “souvent” en matière d’IA la réponse tient en un mot : l’entraînement. Ou en deux mots : données d’entraînement.

Et ces données, quelles sont-elles ?

Pour rappel, l’apprentissage de ChatGPT se décompose en deux phases principales :

Le pré-training : ChatGPT ingère des milliards de textes issus d'Internet, de livres et d'autres sources. C'est ainsi qu'il apprend le "monde", les structures du langage, et... notre tendance à tout résumer en 5 points.
Le fine-tuning (ou post-training) : Cette phase se concentre sur des tâches spécifiques, comme l'extraction de points clés. Si les exemples utilisés contiennent souvent cinq points, cela ne fait que renforcer la tendance.

Radotage 👵🗣️⏳. Et, comme tu as été attentif-ve aux mails précédents, tu le sais, le fonctionnement de ChatGPT est dit "autorégressif". En clair, il génère du texte mot après mot, en se basant sur ce qu'il a déjà généré.

Quand il commence à extraire les points clés, il n’a aucune idée du nombre de points qu’il va générer au final. Il avance pas à pas, déterminant chaque point au fur et à mesure.

Après avoir généré un ou deux points, il continue naturellement sur sa lancée. Mais arrivé au cinquième : la probabilité de générer le “mot de fin“ et de conclure la liste devient soudain très élevée. Et la liste se termine.

Ce n'est ni une règle absolue, ni une décision consciente, mais le résultat de son apprentissage et des “motifs“ qu'il a appris.

Les outils comme ChatGPT ou Claude sont profondément conditionnés par leur entraînement, ce qui les amène à reproduire des schémas appris plutôt qu'à “réfléchir“. Ces schémas façonnent leurs réponses. C’est pourquoi, petit à petit, il faut apprendre à reconnaître ces schémas sous-jacents afin de pouvoir évaluer de manière critique la pertinence des réponses fournies.

Les "5 points" en sont une bonne illustration. La prochaine fois que tu verras ces 5 points clés, méfie-toi et n'hésite pas à en demander davantage, si besoin. Applique cette réflexion critique à toutes les réponses que tu obtiens. Enfin, pas forcément “toutes”, mais tu vois l'idée !

Il est mignon monsieur Pignon

Tiens. J’y pense. Quand j’écris ces lettres, je demande régulièrement à Claude : “Qu’en penses-tu ?“ (avec toujours l’idée derrière de le faire parler et de rebondir sur ses propos).

Hé ben, je dois avoir un talent fou, car j’ai souvent le droit à des critiques élogieuses du genre : “Bravo pour ce travail ! Excellent billet qui offre une perspective unique sur…bla bla bla“.

Sauf que je le connais mon Claude, il est comme ça. Toujours encourageant. Toujours bienveillant, serviable, agréable… et il ne faudrait surtout pas qu’il blesse mon ego. Oh, il va bien me donner quelques suggestions d’amélioration… pour s’empresser aussitôt de me rassurer : “Mais c’est déjà trés bien comme ça !”.

Tu l’auras compris. C’est avant tout la manière dont il a été entrainé qui s’exprime.

Pour ceux qui ont un peu de temps (et qui lisent l’anglais), je vous invite à lire ce super article de Anthropic (la boîte derrière Claude) : La Constitution de Claude. Quand la “Déclaration Universelle des Droits de l'Homme” sert à enseigner les “bonnes valeurs” au modèle… Hyper intéressant !

Bien sûr (dans une certaine mesure), avec les bonnes instructions et/ou les bons exemples dans le prompt, le modèle a la capacité d’”apprendre” et d’adapter son comportement (le mot “stylé” pour ça, c’est : in-context learning).

Et donc, parfois, personnellement, je trouve utile qu’il soit plus comme monsieur Brochant le Claude : “méchant” (il est méchant monsieur Brochant !).

Alors, j’ajoute à mon prompt des instructions comme :

Votre tâche est d'analyser ce contenu avec un œil critique et sévère. Identifiez tous les problèmes potentiels, incohérences, redondances… Ne faites pas d'éloges inutiles – concentrez-vous uniquement sur les faiblesses et défauts que vous détectez. Soyez impitoyable dans votre évaluation,et n'ayez pas peur de heurter ma sensibilité : la critique sert à me faire progresser.

Et là, c’est pas la même du tout. Mon billet devient beaucoup moins excellent.

Florilège de critiques sur un paragraphe de cette lettre (celle que tu es en train de lire) :

Manque de précision
Absence de force dans l’argumentation
Tonalité neutre et trop indulgente
Manque d'orientation pratique
Redondance
Manque de clarté et de concision

Chaque point étant argumenté, détaillé et illustré.

Ça pique !

Les mots ont un sens

Quand ChatGPT est sorti, j'avais développé un petit outil nommé “Workflow“ qui permettait de sélectionner plusieurs articles, d'enchaîner différentes tâches, et au final de générer un "article". Avec Benoît, on s'était bien amusé à régler différents paramètres, à tester différents prompts…

Et, dès qu'on demandait à ChatGPT de générer un "article", il se sentait obligé de pondre une conclusion. Et pas n'importe quelle conclusion : des banalités ou bien des réflexions creuses sur le destin de l'humanité.

C'était agaçant. Très agaçant.

Alors, on lui demandait explicitement de ne pas ajouter de conclusion. Mais non. ChatGPT (c’était la version 3.5, sensiblement moins capable que les modèles actuels) tenait vraiment à écrire une conclusion.

Coûte que coûte.

Le simple fait d'utiliser le mot "article" dans le prompt déclenchait une structure particulière : une introduction, une accroche… ET une conclusion.

Dans la lettre précédente “Anatomie d’un prompt“, je t’avais montré le prompt que Benoît utilise pour ses ébauches de billets LinkedIn. Extrait :

A partir des <notes> ci-dessus, j'aimerais que vous rédigiez en français un texte concis et original qui mette en avant le sujet principal ou l'idée clé. [...]

Texte. Le prompt demande un “texte“. Pas un “article” ou un “billet de média social professionnel”. Ça peut sembler être un détail.

Mais, si tu demandes à ChatGPT de te comparer un “texte” à un “article”, tu vas obtenir quelque chose comme ça :

Critère	Texte	Article
Définition	Un ensemble de phrases organisées autour d'une idée ou d'un sujet, pouvant adopter une forme et un style très libres.	Un type spécifique de texte, souvent structuré et publié, orienté vers un sujet précis.
Structure	La structure est libre et dépend de l'intention de l'auteur (peut être un poème, une lettre, un essai, etc.).	Structure souvent standardisée avec titre, introduction, développement et conclusion.
Formatage	Aucune règle stricte : la mise en forme dépend du type de texte (ex. : dialogue, narration, description).	Suivi de conventions éditoriales : titres, sous-titres, paragraphes organisés, intertitres, et parfois des éléments comme des encadrés ou des images.
Ton et Style	Peut varier du familier au formel, du narratif à l'explicatif.	Ton généralement professionnel, neutre, ou académique, selon le sujet.
[…]

Comme tu peux le constater, un “texte“ peut être tout et n’importe quoi. En revanche, un “article” suit des conventions bien définies, avec un cadre plus rigide. (Je te laisse le soin de faire la comparaison entre un “billet LinkedIn“ et un “texte”. Vive les emojis !)

"Texte" offre plus de latitude et permet à Benoît de diriger le modèle vers le résultat souhaité. “Article“ ou “billet LinkedIn“, eux, ont tendance à “ancrer“ le modèle dans un mode spécifique. Avec toutes les rêgles implicites apprises lors de l’entraînement.

Bref, ce que j’essaye d’illustrer, c’est que le choix des mots dans un prompt est loin d'être un simple détail. Au contraire, trouver les “bons” mots est une des clés d’un prompt efficace.

❝

C'est peut-être un détail pour vous
Mais pour moi, ça veut dire beaucoup
Ça veut dire qu'il était libre...

France Gall, en avance sur son temps

Ce qu'il faut retenir :

Les modèles de langage sont profondément influencés par leur entraînement, ce qui les conduit à reproduire des schémas et des motifs appris.
Repérer ces “schémas“ est un vrai + pour utiliser efficacement ces outils.
Certains mots sont associés plus ou moins fortement à des “modes” qui orientent la réponse du modèle (mots-déclencheurs).
Le choix des mots est très important

Aller + loin :

Parcourir ce projet Github qui compile des datasets d’entraînement pour la phase de fine-tuning
Lire la constitution de Claude