Génération IA
Posts
Dans les rouages de Llama : vous parlez français, elle pense anglais, et vous répond chinois !

Dans les rouages de Llama : vous parlez français, elle pense anglais, et vous répond chinois !

Comment Llama jongle avec les langues... et pourquoi l'anglais est leur langue d'abstraction

Thomas Mahier & Flint GPT
March 23, 2024

Quand vous posez une question en français à Claude (le nouveau cool kid) ou ChatGPT, vous êtes-vous déjà demandé si ils transforment le tout en anglais dans leur “cerveau” numérique avant de vous répondre ? En d'autres termes, est-ce qu'ils "pensent" (façon de parler hein) en anglais ?

C'est une question qui vous a surement traversé l'esprit.

Et pour cause : une grande partie des données servant à l'entraînement de ces intelligences artificielles est anglophone. On parle de 80% à 90% selon les modèles. L’interrogation est donc bien fondée.

Le but de cet article est double : apporter quelques éléments de réponse ET continuer à se familiariser avec les IA. Aujourd’hui, en introduisant le concept de couches (layers en anglais) qui les composent.

Deep learning et couches. Le terme "deep" dans "deep learning" fait référence à la présence de multiples couches dans les réseaux de neurones artificiels. Ces couches permettent au modèle d'apprendre des caractéristiques à différents niveaux d'abstraction. Plus il y a de couches, plus le réseau est "profond", et plus il est capable de comprendre et de modéliser des relations complexes dans les données.

Les grands modèles de langage (LLM) comme Claude, ChatGPT ou Llama sont des transformeurs : une architecture clé de deep learning (apprentissage profond en français).

Bien, maintenant, rappelons grossièrement comment fonctionne un modèle de langage.

Si on simplifie à l'extrême (à peine..), un LLM (Large Language Model) fonctionne de la manière suivante : Il prend un texte en entrée, le découpe en morceaux appelés tokens et les transforme en une représentation numérique vectorielle : les embeddings. Ces embeddings traversent ensuite une série de couches, où ils sont transformés et modifiés, jusqu'à arriver à la couche finale.

Chaque couche peut être vue comme une étape dans le processus de compréhension ou de génération du langage. Ces étapes permettent au modèle de transformer progressivement votre entrée textuelle en quelque chose qu'il peut "comprendre", puis en la réponse qu'il génère.

Voilà, ces précisions étant faites, revenons à notre interrogation de départ :

❝

What do you understand when I speak French?

C'est précisément la question que se sont posée des chercheurs de l'École polytechnique fédérale de Lausanne (EPFL). Dans une étude récente, ils ont exploré les couches internes de Llama, le modèle de langage open source de Meta (Facebook), pour voir s'il utilisait un langage "pivot" intermédiaire.

Pour cela, ils ont étudié le comportement de llama sur des tâches relativement simples comme cette tâche de traduction de “Fleur“ du français au chinois :

Français: "vertu" - 中文: "德"
Français: "siège" - 中文: "座"
Français: "neige" - 中文: "雪"
Français: "montagne" - 中文: "山"
Français: "fleur" - 中文: "

Remarque : “中文” veut dire “chinois”

Remarque (bis): Notez qu’il n’y a que du français, du chinois et de la ponctuation dans le prompt utilisé.

Vous vous rappelez (vous l’avez lu il y a 30 secondes) les embeddings ? Quand ils atteignent leur forme finale dans la dernière couche; celle-ci est utilisée pour calculer les probabilités qu’un token soit le suivant dans la séquence de texte.

Ce qu’ont fait les chercheurs, c’est qu’ils ont regardé, pour chaque couche intermédiaire (avec les embeddings “intermédiaires”), quel serait le prochain mot le plus probable si le modèle devait répondre immédiatement (sans passer par les couches suivantes).

C’est ce que montre l’image suivante pour la traduction de “Fleur“ en chinois. Elle affiche pour les quatre derniers tokens de la phrase ‘Français: "fleur" - 中文: "‘ le prochain mot le plus probable pour chacune des couches du modèle.

Portez particulièrement votre attention sur la dernière colonne qui correspond au dernier token de la phrase. Lisez là de bas en haut. Le bas correspond aux premières couches du modèle, le haut aux couches finales (Llama possède 32 couches). Si bien que en haut à droite, vous avez la réponse la plus probable en fin de traitement : 花 (fleur en chinois).

Vous remarquez quelque chose ?

Les couleurs illustrent le degré de certitude du réseau. rouge : - certain. bleu: + certain

Surpriiiiiiise. Alors même que l'anglais n'était nulle part présent dans le prompt, le mot “flower“ (fleur en anglais) surgit dans les couches intermédiaires du réseau. Celui-ci rebascule vers le chinois dans les couches finales.

Vous allez me dire : so what ? Il traduit d’abord du français vers l’anglais, puis de l’anglais vers le chinois. Hmm … c’est pas tout à fait ça. Selon le papier de recherche, ce n’est pas une traduction littérale, mais plutôt une représentation en “anglais” des concepts manipulés qui permet au modèle de comprendre et de réaliser la tâche.

Sur cette autre tâche uniquement en chinois ou il est demandé au modèle de simplement répéter le dernier mot, ils ont constaté le même phénomène, l’apparition de mots anglais dans les couches intermédiaires :

中文: "德" - 中文: "德"
中文: "座" - 中文: "座"
中文: "雪" - 中文: "雪"
中文: "山" - 中文: "山"
中文: "花" - 中文: "

En inspectant de plus près les représentations internes du modèle, les chercheurs émettent l’hypothèse que dans les couches intermédiaires, Llama “raisonne” dans un "espace conceptuel" abstrait. Et dans cet espace, les idées, les concepts, les abstractions.. sont exprimés en “anglais” et ce indépendamment de la langue d’entrée ou de sortie.

Et, voilà vous l’avez votre réponse. Vous parlez en français, Llama vous répond en français, mais il “pense” en anglais.. Mais, prudence, cette étude ne porte que sur Llama et ne permet pas nécessairement de généraliser sur d’autres modèles comme Mistral, Claude ou ChatGPT. Gardez en tête, que ce biais est le simple reflet des données d’entraînement de Llama composées à 90% d’anglais. On sait que certaines équipes comme celle de Mistral mettent un accent plus fort sur l’intégration de langues “européennes“.

Est-ce problématique que l’espace conceptuel soit exprimé en anglais ? Quid de certaines nuances que l'anglais ne sait pas complètement retranscrire ? De beaux sujets de recherche en perspective.

Making Of.

On parle souvent du potentiel de désinformation que représente l’IA. Risque bien réel. Mais, je voulais partager avec vous ce que j’ai fait une fois mon article écrit. J’ai demandé à Claude 3 et ChatGPT 4 ces trois choses :

lire attentivement le papier de recherche
lire mon article de vulgarisation
si mon article était fidèle au papier de recherche

Je vous colle leur réponse ci-dessous, mais au-delà de cet article, j’y vois un cas d’usage intéressant pour les journalistes notamment, un potentiel pour améliorer la qualité de l’information produite.

Parce que je dois vous avouer, et je suis sûr que vous aussi, il m’est déjà arrivé de lire des articles de presse qui citent certains travaux de recherche en leur faisant dire ce qu’ils ne disent pas..

Réponse de Claude 3 :

Votre article de vulgarisation résume très bien les principaux points de l'article de recherche. Vous avez su extraire les éléments clés de manière claire et pédagogique :

L'objectif de l'étude qui est d'analyser si Llama utilise un langage "pivot" intermédiaire lors du traitement de prompts non-anglais.
La méthodologie employée, à savoir l'étude du comportement de Llama sur des tâches de traduction simples et l'analyse des représentations vectorielles internes couche par couche.
Les principaux résultats surprenants, en particulier l'apparition de mots anglais dans les couches intermédiaires même en l'absence d'anglais dans le prompt initial. Cela suggère que Llama utilise une représentation des concepts proche de l'anglais en interne.
L'explication du fonctionnement global d'un modèle de langage et des transformeurs est bien vulgarisée. Les explications sur les couches et le deep learning permettent de donner le contexte nécessaire.
Enfin, vous mentionnez les limites de l'étude (résultats sur Llama uniquement) et les pistes de recherche futures sur l'impact potentiel de ce biais "anglais" dans l'espace conceptuel des modèles.

La force de votre article est de rendre ces résultats de recherche accessibles à un public non expert, tout en restant fidèle au contenu et aux conclusions du papier original. Les illustrations et exemples choisis sont pertinents et aident à la compréhension.

En résumé, très bon travail de vulgarisation scientifique qui transmet les points importants de l'étude de façon pédagogique et qui suscitera certainement l'intérêt et la réflexion des lecteurs sur les biais dans les modèles de langage et la représentation interne des langues. N'hésitez pas à diffuser largement !

Réponse de ChatGPT 4 :

Oui, votre article de vulgarisation reflète fidèlement les points clés et les découvertes du papier de recherche. Vous avez bien capturé et expliqué l'essence de l'étude : l'investigation sur l'utilisation potentielle de l'anglais comme langue pivot dans le traitement interne des modèles de langue multilingues, spécifiquement dans le contexte de Llama-2. Voici comment votre article aligne avec le contenu et les conclusions du papier :

Utilisation de l'anglais comme pivot :
- Papier : Explore si Llama-2 utilise implicitement l'anglais comme langue pivot dans ses processus internes, notamment à travers des tâches de traduction.
- Article : Vous soulignez cet aspect en montrant comment, dans les couches intermédiaires, l'anglais apparaît même quand il n'est pas présent dans le prompt, reflétant la description du papier.
Processus de traitement des modèles de langue :
- Papier : Décrit le processus par lequel les modèles de langue traitent les entrées à travers des transformations d'embeddings dans plusieurs couches.
- Article : Vous avez simplifié cette explication technique d'une manière accessible, en conservant l'exactitude scientifique.
Espace conceptuel abstrait :
- Papier : Introduit l'idée que les modèles opèrent dans un "espace conceptuel" qui est influencé par l'anglais, du fait de la prédominance de cette langue dans les données d'entraînement.
- Article : Votre explication sur l'"espace conceptuel" et sa proximité avec l'anglais capte bien l'essence des découvertes du papier sans entrer dans une complexité excessive.
Implications et réflexions futures :
- Papier : Suggère que ces découvertes soulèvent des questions importantes sur les biais linguistiques des modèles et leur impact potentiel.
- Article : Vous concluez sur une note similaire, invitant à réfléchir sur les implications de ces biais et sur la direction des recherches futures.

Votre article reste fidèle au papier tout en le rendant plus accessible et engageant pour un public plus large. Vous avez réussi à distiller des concepts complexes en un récit compréhensible sans sacrifier la précision des informations. C'est un excellent exemple de comment communiquer des recherches scientifiques à un public non spécialisé.