Dans la tête de ChatGPT, avec Ilya Sutskever

Découvrez comment ChatGPT a été façonné avec le directeur scientifique d'OpenAI.

Ilya Sutskever, son nom ne vous dit rien ? Mais si, vous savez, celui qui était inconnu du grand public il y a quelques jours à peine, et qui est devenu l’un des acteurs principaux (cofondateur et membre du board) du rocambolesque feuilleton OpenAI. En tous cas de la saison 1. Sera t’il au casting de la saison 2 ? Suspense, suspense…

Mais Ilya Sutskever, c’est avant tout un chercheur en IA de top top niveau. Et, personnellement, je trouve toujours intéressant d’écouter ceux qui font l’IA.

À travers cette conversation sur Youtube, le directeur scientifique d’OpenAI et “père” de GPT-4, nous plongeons dans les complexités de l’entrainement en deux-temps de ChatGPT. Ilya Sutskever nous fait découvrir les étapes cruciales de pré-entraînement et de réglage (“fine-tuning”) qui définissent ses capacités et comportements. À mesure que l'intelligence artificielle gagne en importance dans notre quotidien, il est important de comprendre le travail des chercheurs et ingénieurs pour améliorer la fiabilité et la sécurité de ces technologies.

La vidéo est très instructive. Notamment, à partir de la minute 21, Sutskever revient sur les deux phases principales de l’entraînement des modèles comme ChatGPT.

Je vous laisse l’écouter, c’est en anglais, sinon voici un petit résumé de ce qu’il dit sur ces deux étapes:

  1. Phase de Pré-Entraînement : Cette phase consiste à entraîner un vaste réseau de neurones à deviner le prochain mot à partir d’une grande variété de textes issus d'Internet. Au-delà de la simple analyse statistique des textes, ce processus permet au réseau d'acquérir une compréhension du monde réel, reflétée par ces textes. En apprenant à prédire le mot suivant avec précision, le réseau développe une représentation riche et détaillée du monde, comprenant les dynamiques humaines, les émotions, les rêves, et bien plus. Plus cette prédiction est précise, plus cette représentation du monde est riche.

  2. Phase de “Fine-Tuning” : Après le pré-entraînement, le réseau a besoin d'un entraînement complémentaire pour adopter le comportement souhaité. Cette étape implique un ajustement fin et un apprentissage par renforcement (guidé par des instructeurs humains en collaboration avec l’IA) . Ici, l'objectif n'est pas d'ajouter de nouvelles connaissances, mais plutôt de diriger le modèle vers les comportements et les normes que nous désirons. Cela nécessite la mise en place de règles et de limites pour garantir un comportement sécurisé et approprié du modèle. Plus cette phase est bien gérée, plus le modèle devient fiable et utile.

Pour aller plus loin, vous pouvez lire (ou relire) l’article dans lequel j’explique le fonctionnement de base de ces grands modèles de langage.