Tout comprendre du nouveau ChatGPT o1

Le nouveau modèle de ChatGPT, o1, intègre un processus de "chaîne de pensée" interne qui lui permet de "raisonner"... en prenant son temps ! Voici comment cela fonctionne.

Bonjour !

J’espère que tu vas bien !

Allez, aujourd’hui, édition spéciaaaaaaaaaale ! On va “aller aux fraises” comme on dit. Alors pas pour se perdre dans la forêt en galante compagnie (c’est l’origine de l’expression). Mais pour décortiquer le lancement du nouveau modèle de ChatGPT, capable de “raisonner”. “Fraise” (strawberry) c’était son nom de code jusqu’ici. Et les spéculations les plus délirantes avaient circulé à son sujet depuis plusieurs mois jusqu’à sa sortie vendredi dernier. Comme tu vas le voir… bon… il ne va pas encore détruire l’humanité, mais il ouvre tout de même un nouveau chapitre dans le monde merveilleux des IA.

Je suis Benoît Raphaël, et avec Thomas Mahier (ingénieur en IA) et FlintGPT (robot un peu simplet mais gentil), je te propose de mieux comprendre et maîtriser l’intelligence artificielle.

Si on t’a transféré cette lettre, abonne-toi en un clic ici.

Si tu es abonné(e) et que tu souhaites de désabonner, pas de panique ! Va en bas cette lettre et clique sur le lien “vous désabonner ici”.

🍓 Aujourd’hui voici comment tu vas devenir plus intelligent avec Génération IA :

→ Apprends tout ce qu’il faut savoir sur le nouveau modèle de ChatGPT, dans notre dossier spécial !

→ Découvre ma sélection d’outils. Le dernier est gratuit et vraiment étonnant !

Benoit

Bon, tout d’abord il faut que je te parle rapidement du début de cette saga fruitière. C’était en novembre 2023, l’agence de presse Reuters sortait un article fracassant mais faux expliquant qu’OpenAI avait développé un modèle trèèèès mystérieux et surpuissant, appelé '“Q*” (prononcer “Kiou star”) qui avait tellement fait peur aux équipes internes qu’elles avaient tenté de mettre le CEO dehors. Entre temps, le projet a changé de nom mystérieux, pour s’appeler Strawberry. Mais les spéculations ont continué de partir en sucette si j’ose dire. On serait proche de l’AGI, les services secrets américains seraient sur les startings blocks… L’AGI, je te le rappelle c’est cette idée d’”Intelligence artificielle générale”, capable d’être aussi intelligente (voir plus) que les humains. Le graal de nombreuses boîtes de la Silicon Valley, dont OpenAI.

Et puis presque un an après, Strawberry est sorti de sa barquette. Et là… ah bah c’est comme toujours avec la réalité c’est… disons… la réalité quoi.

(réalisé avec Ideogram 2.0)

Alors comme la fraise est petite (mais quand même super intéressante parce qu’elle va pousser…) je te propose un bref tour d’horizon pour que tu saches à quoi t’en tenir. Tu apprendras ce qui change, pourquoi c’est intéressant, comment ça marche (en gros), comment ça ne marche pas (haha, oui, aussi), quelles sources aller lire pour te renseigner sérieusement, et comment l’utiliser (ou pas).

1. C’est quoi “Strawberry” ?

Bon alors tout d’abord on ne dit plus “strawberry”, mais “o1”. C’est super moche mais c’est comme ça.

  • Il faut le prononcer de cette façon : "o" comme la lettre et "1" comme le chiffre. Mais pas GPT-o1. Juste "o1". Mais tu peux dire “OpenAI o1” ou même “ChatGPT o1” puisqu'il est désormais accessible dans ChatGPT.

  • Ce n'est pas exactement un nouveau modèle de langage, mais un modèle de "raisonnement" ajouté au modèle de langage actuel (GPT-4o). Une brique si tu veux.

  • Cela reste un "transformer", c’est à dire un modèle de langage autorégressif (qui prédit sa réponse). Et Il est toujours susceptible de se tromper (mais beaucoup moins, selon les tests publiés dans le document technique).

2. Comment raisonne-t-il ?

Alors, ce n’est peut-être pas une révolution, mais c’est bien une avancée.

Le modèle utilise une technique bien connue : la “chaîne de pensée”. En général il fallait l’inclure dans ton prompt pour demander à ChatGPT de réfléchir étape par étape avant de te répondre. Mais là, avec o1, ce travail de “raisonnement” est intégré directement au cœur du modèle.

  • Le fait d’ajouter cette nouvelle brique permet au modèle de langage de passer en “système 2”. Si tu ne connais pas ce terme, je t’explique : il a été inventé par le prix Nobel Daniel Kanheman pour théoriser les deux vitesses de la pensée humaine.

  • Le système 1 englobe toutes les pensées et actions qui sont devenues des automatismes parce que basées sur ton apprentissage. Pour une IA, cet apprentissage correspond à sa phase d’entrainement (GPT veut dire “pré-entrainé”). Ses réponses (on appelle ça “l’inférence”) sont donc des automatismes probabilistes basés sur cet entrainement. D’où ses biais, ses banalités et ses erreurs.

  • Le système 2 est généralement enclenché par notre cerveau lorsqu’il fait face à un problème complexe et/ou plus inhabituel. Il implique donc de prendre le temps de réfléchir et nécessite un effort. Jusqu’ici ChatGPT “réfléchissait” en système 1. Le modèle o1 lui permet de passer en système 2. Pour ChatGPT o1 cela signifie que la qualité de sa réponse dépend maintenant de l’entrainement préalable ET du temps de réflexion qui s’enclenche une fois le problème posé.

  •  Comment ça marche ? Avec “o1”, le modèle planifie sa réflexion avant de donner une réponse, et la déroule par étape en se corrigeant au fil d’un monologue “intérieur” qui imite celui des humains.

Dans ce document officiel tu vois comment fonctionne cette étape de raisonnement : d’abord une entrée (la tienne) sur laquelle il raisonne. Puis il prend le résultat, raisonne à nouveau, corrige s’il s’est trompé etc. Puis donne une réponse.

  • OpenAI alloue à ChatGPT des “tokens de réflexion”, c’est à dire un certain nombre de mots utilisés en amont de sa réponse pour raisonner.

  • Comme pour le système 2 humain, plus le modèle passe de temps à réfléchir (et ça, c’est nouveau), meilleure est sa réponse, explique Noam Brown, co-créateur de “o1” (j’y reviendrai).

Sur ce tableau super moche tu peux voir que plus l’IA passe de temps (ligne horizontale. attention: l’échelle est logarithmique) plus elle améliore la pertinence de ses réponses (ligne verticale).

Fait intéressant Jason Wei (ex Google) qui avait théorisé le concept de “Chaîne de pensée” en 2022, a rejoint OpenAI pour travailler sur Strawberry.

3. Comment a-t-il appris à “raisonner” ?

Alors il a pas appris comme nous ou comme le Petit Spirou à l’école…

C’est pour ça d’ailleurs que le terme “raisonnement” n’est pas vraiment approprié, relève l’ingénieur Simon Willson (grand chouchou de Thomas) : disons que cette technique joue le rôle de raisonnement.

Le modèle o1 a appris à “raisonner” à travers une technique que l’on appelle l’apprentissage par renforcement. On lui pose des problèmes, il prédit des chaines de pensée pour trouver une réponse. Et si la réponse est bonne, on valide la bonne chaîne de pensée (le bon raisonnement). Et au fil de l’entrainement, le modèle ajuste ses poids pour s’améliorer face à de nouveaux problèmes. Voici comment l’explique OpenAI :

“Grâce à l'apprentissage par renforcement, o1 apprend à affiner sa chaîne de pensée et à perfectionner les stratégies qu'il utilise. Il apprend à reconnaître et à corriger ses erreurs. Il apprend à décomposer les étapes délicates en étapes plus simples. Il apprend à essayer une approche différente lorsque l'approche actuelle ne fonctionne pas. Ce processus améliore considérablement la capacité de raisonnement du modèle."

  • L’aspect le plus amusant de son intégration dans ChatGPT, c’est que tu peux le voir raisonner (en tout cas en partie). C’est assez fascinant. De temps en temps il emploie même des “mmh” quand il “réfléchit”.

  • Le futuriste Daniel Jeffries l’a testé sur son test de QI personnel (dont les questions sont secrètes pour s’assurer qu’elles ne fassent pas partie du corpus d’entrainement des IA). Résultat : 100% de bonnes réponses.

  • Mais il ne faut pas oublier que, même s’il analyse un problème étape par étape, il ne “pense” pas comme un humain. Cela reste de la prédiction de chaines de pensée, avec une part d’aléatoire. Ce qui peut donner des résultats différents et parfois drôles sur les questions ambigües.

  • Essaie avec ce prompt piégeux de Daniel Jeffries, par exemple, qui permet de tester son “bon sens” (dont il est dépourvu) et observe surtout la chaîne de pensée qui en découle. Fais le plusieurs fois pour observer les différents enchaînements, c’est parfois juste, parfois non, et c’est toujours très curieux :

Il a lancé une balle de baseball à 30 mètres au-dessus de ma tête, j'ai tendu le bras pour l'attraper, et j'ai sauté...

4. En quoi peut-il t’être utile ?

Bonne question, merci de me l’avoir posée. Alors ça dépend de ce que tu lui demandes.

Tout à droite en vert, la colonne qui fait peur : tu vois la comparaison entre GPT-4o, o1 et un scientifique humain. o1 dépasse les réponses humaines.

  • o1 n’est donc pas bon en tout. Pour le reste, comme la création de contenu, il est au niveau de GPT-4o, voire en dessous. Tu ne verras donc pas trop de différence sur tes tâches courantes.

  • Ce sont donc surtout les développeurs, les analystes et les scientifiques qui en auront le meilleur usage. En attendant les prochaines versions…

Ici on voit que ses résultats sont meilleurs que GPT-4o en code, analyse de données et mathématiques, mais pas en écriture et en édition de textes.

  • OpenAI a produit deux exemples d’usage. Notamment une analyse (fictive) de données de patients pour évaluer des erreurs dans des prescriptions médicales.

  • Le professeur d’innovation Ethan Mollick (grand expert du prompting et auteur de “Co-Intelligence”) lui a d’abord fait concevoir puis coder une application complète à partir d’un document de projet scientifique, mais n’a pas pu vérifier le résultat vu qu’il n’y connait rien en python. Ce qui lui vaut cette réflexion un peu déprimante : “en tant que partenaire humain je me suis senti un peu diminué”… Il l’a ensuite testé sur des mots-croisés, intéressant mais pas super utile en terme de vraie vie si tu veux.

  • Sinon il conclut :

“o1 fait des choses qui auraient été impossibles sans Strawberry [son modèle de raisonnement], mais il n'est toujours pas parfait : des erreurs et des hallucinations se produisent toujours, et il est toujours limité par l'« intelligence » de GPT-4o en tant que modèle sous-jacent. Depuis que j'ai le nouveau modèle, je n'ai pas cessé d'utiliser Claude [le chatbot concurrent de ChatGPT] pour relire mes textes - Claude est toujours meilleur pour le style - mais j'ai cessé de l'utiliser pour tout ce qui concerne la planification complexe ou la résolution de problèmes. Le nouveau modèle représente un énorme progrès dans ces domaines.”

Ethan Mollick
  • Personnellement, je l’ai utilisé pour analyser les chiffres de Flint/Génération IA que j’ai copié-collé dans la converstion. Je lui ai ensuite demandé de me proposer une nouvelle stratégie chiffrée (avec différentes simulations mois par mois) pour 2025. Il l’a fait sans erreur, proposant des solutions pertinentes (alors que GPT4-o et Claude s'emmêlaient les pinceaux avec les chiffres). En revanche pour me proposer des idées, Claude était (très) largement au dessus.

  • Pour l’instant ce sont donc surtout les développeurs qui voient la différence.

5. Comment l’utiliser et le “prompter” ?

Alors avec o1, ta façon de prompter va aussi changer ! C’est le point que j’ai trouvé le plus intéressant : contrairement avec les autres modèles de langage, o1 est plus performant si tu ne lui dis pas comment faire. Le plus important est de bien travailler les infos que tu lui transmets. Ensuite, laisse la magie opérer (j’y reviendrais plus bas).

  • C'est donc moins un chatbot (qui interagit) qu'une IA à qui tu confies une mission (analyser des données, batir une stratégie, ou développer un logiciel complexe par exemple).

  • Un peu comme le programmeur à qui on donne un problème à résoudre, qu'on enferme dans une pièce sans le déranger, et qui revient avec la solution ! (ou un autre problème, haha)

Prompter avec Strawberry : donne lui un max d’informations structurées, pose lui le problème à résoudre, enferme le dans son bureau, et fiche lui la paix ! (Image réalisée avec Flux).

  • Mais il y a un hic (temporaire) : comme il ne peut pas encore lire les fichiers, il faut copier coller les documents à la main. Ce qui signifie : pas d’analyse de tableau excel pour l’instant.

Tu peux passer d’un modèle à l’autre dans une conversation.

  • Autre handicap : pour l’instant l’usage est limité à 30 interactions par semaine… donc ça réduit beaucoup les itérations !

  • Quoi qu’il en soit, ChatGPT o1 n’a pas vocation à remplacer pas ChatGPT 4o, il est complémentaire. Vois le comme un modèle spécialisé expérimental qui nécessite d’être exploré. Et qui permet de faire des choses que ChatGPT ne savait pas (bien) faire avant.

  • Au-delà de l’utilisation directe dans ChatGPT, le plus intéressant sera de voir comment les applications tierces vont s’emparer de ce modèle (via l’API d’OpenAI). Notamment dans le domaine de l’agentivité : des assistants spécialisés qui peuvent interagir entre eux pour tenter d’effectuer des tâches complexes. Jusqu’ici leurs résultats étaient encore très erratiques.

  • Les créateurs de “Devin” (un agent autonome qui code des applications sur la base d’un simple prompt) l’ont testé avec des résultats intéressants sur la génération de code (et la résolution de problèmes ayant émergé lors de cette génération).

Ici c’est la troisième colonne qu’il faut regarder. C’est à dire les performances pour développer un logiciel de facon autonome de o1 VS GPT-4o.

  • Il faudra sans doute revoir l’architecture de ces applications, parce o1 ne réagit pas de la même manière aux prompts que les anciens modèles et peut donc sous-performer. Une nouvelle science du prompt doit voir le jour !

6. Qu’est-ce ça change dans le monde de l’IA ?

  • Tout d’abord OpenAI reprend un peu de leadership. Pas tant dans l’usage (on a vu qu’il était pour l’instant encore limité à quelques secteurs d’activité) que dans la “hype” marketing pour se positionner sur la prochaine génération de modèles. Et aller chercher de nouveaux investissements !

  • Le domaine scientifique et du code pourrait faire de nouvelles avancées dans les domaines d’application impliquant du raisonnement.

Et puis, dernier truc, mais pas des moindres : le modèle o1 induit deux changements de paradigme :

  1. Il est capable de “raisonnement complexe”, ce qui rend l'intervention de l'humain plus “accessoire” dans sa collaboration avec l’IA. Et il est capable de mieux raisonner que nous sur certaines tâches.

  2. Avant, l'amélioration des modèles passait par plus d’entraînement préalable : plus de (meilleures) données, plus de paramètres, plus de puissance. Avec o1, qui apporte une couche “Système 2” (comme on l’a vu), même avec un petit modèle, il suffirait désormais d’ajuster le temps de réflexion au moment de la requête (“inférence”). Plus on lui laisse de temps pour réfléchir, plus ses réponses sont susceptibles d’être meilleures. Cela ouvre une nouvelle dimension d'optimisation, où la lenteur devient une qualité, et non un défaut !

🖐️ Arrêtons-nous deux minutes sur ce point, si tu veux bien, parce qu’il a échappé au grand public alors qu’il est très important. Cela concerne la différence entre le temps d’entrainement (le temps qu’il faut pour entrainer un modèle comme GPT-4 ou o1, parfois plusieurs mois) et le temps d’inférence (le temps qu’il lui faut pour répondre à une question).

Note que Noam Brown (co-créateur de o1) est connu pour ses travaux sur les modèles d’IA dédiés aux jeux de plateau (poker et diplomacy notamment), où cette notion de profondeur de réflexion post entrainement est clé pour obtenir des résultats au delà des capacités humaines (imagine non plus 1mn de réflexion, mais plusieurs jours…). Il s’en est inspiré pour développer o1.

“Plus il réfléchit longtemps, meilleurs sont ses résultats. Cela ouvre une nouvelle dimension. Nous ne sommes plus limités par le pré-entraînement. Nous pouvons désormais aussi augmenter les capacités de calcul pour l'inférence”

Ce tableau montre la performance du modèle en fonction de son temps d’entrainement (à gauche) et de son temps de réflexion (à droite). Ce sont les deux combinés qui ouvrent un nouveau paradigme.

7. Des trucs à lire pour aller plus loin

PROMPTOLOGIE

Comment prompter avec ChatGPT o1 ?

Tes anciens prompts risquent de moins bien marcher avec ce nouveau modèle, voir de le pousser à faire des erreurs. Ah bon ? Pourquoi ? Parce qu’il va tout décortiquer.

OpenAI a donné quelques conseils très utiles pour avoir les meilleurs résultats :

“- Ces modèles fonctionnent mieux avec des prompts directs. Certaines techniques comme le “few shot” (leur donner des exemples) ou le modèle “CoT” (lui demander de penser par étape ou d’expliquer son raisonnement), n'améliorent pas les performances et peuvent même parfois les entraver.

- Garder les prompts simples et directs : les modèles excellent dans la compréhension et la réponse à des instructions brèves et claires, sans avoir besoin d'être guidés en détail.

- Utilisez des délimiteurs pour plus de clarté, tels que des guillemets triples (pour citer des données), des balises XML ou des titres de section pour indiquer clairement des parties distinctes de l'entrée, afin d'aider le modèle à interpréter les différentes sections de manière appropriée.

- Lorsque vous fournissez un contexte ou des documents supplémentaires, n'incluez que les informations les plus pertinentes afin d'éviter que le modèle ne complique trop sa réponse.”

Donc en résumé et expliqué grossièrement : 

  • Pas trop d’infos sinon il va trop réfléchir et se perdre !

  • Structure et nettoie bien les données que tu lui donnes. Il est bon en raisonnement pas pour trier ton bordel.

  • Ne lui dit pas comment réfléchir, laisse le faire !

  • Ne lui demande pas d’effectuer une tâche mais de résoudre un problème.

  • Structure du prompt : [CONTEXTE ET INFOS CLÉS] + [PROBLÈME A RÉSOUDRE]

LA PHRASE À MÉDITER

“La créativité, comme d'ailleurs la pensée dans tous les sens du terme, fait l'objet d'une superstition. L'histoire de l'intelligence artificielle est ainsi faite que chaque fois que quelqu'un a trouvé le moyen de faire faire quelque chose à un ordinateur - jouer aux dames, résoudre des problèmes simples mais relativement informels - il y a eu un chœur de critiques pour dire : « Mais ce n'est pas de la pensée ».”

OUTILS ET TUTOS

2 outils intéressants trouvés sur Internet

  1. Si tu veux cloner ta voix (ou celle de quelqu’un d’autre) et l’utiliser avec n’importe quel texte (on appelle ça le “text to speech”) , tu peux aller sur Fish Audio. Un modèle génératif de voix open source (et donc gratuit), entrainé sur 700.000 heures d’audio en 8 langues (dont le français). Clique sur “build voice” et envoie un fichier audio de ta voix (25 secondes) puis génère des échantillons avec des petits textes, et sauvegarde ton modèle. C’est assez inégal, mais intéressant !

  2. Cette application est VRAIMENT étonnante. Tu connais peut être “Notebook LLM”, un outil de Google qui te permet de stocker tes notes et documents dans des dossiers par projet. Je le trouve super utile pour brainstormer sur un projet avec l’IA. Mais Google s’est amusé à rajouter une petite fonctionnalité très amusante : tu peux générer un podcast à partir de ton projet. L’IA lit tes notes, et deux présentateurs virtuels se lancent alors dans une discussion à batons rompus sur tes idées. La qualité des voix est juste… incroyable. C’est en anglais uniquement, mais tu peux le faire à partir d’un texte en français. Regarde ici (ou clique sur la vidéo plus bas) le podcast qui a été généré à partir de l’une de nos newsletters.

PARTICIPE !

On construit cette lettre ensemble !

Vous êtes désormais 20660 à recevoir cette lettre. Soit 260 de plus que la semaine dernière. Merci !

A toi de voter !

Comment as-tu trouvé cette édition spéciale ? Vote ici et laisse tes commentaires pour nous aider à nous améliorer ! Dis-moi aussi ce que tu aimerais voir en plus ou en moins.

Comment as-tu trouvé cette édition ?

Et laisse un commentaire pour nous aider à améliorer la prochaine lettre !

Login or Subscribe to participate in polls.

Aller plus loin

Merci de nous avoir consacré un peu de ton temps. Je te souhaite une bonne semaine. N’oublie pas d’aller te promener !

🍓 Benoit, Thomas et FlintGPT.