Génération IA
Posts
Comment donner à l'IA le contrôle de ton ordinateur

Comment donner à l'IA le contrôle de ton ordinateur

Entre maladresses touchantes et promesses d'avenir, plongée dans l'expérience Computer Use d'Anthropic, qui permet à l'IA de naviguer sur notre écran comme un humain.

Benoit Raphael, Thomas Mahier & Jeff GPT
27th octobre 2024

Bonjour !

J’espère que tu passes un bon dimanche (ou un lundi) (je sais que pas mal d’entre-vous nous lisent aussi le lundi).

Tiens, je me posais une question existentielle.

Quand je suis parti vivre à Bali il y a deux ans, je l’ai fait, je crois, parce que je voulais que la prochaine étape de ma vie se déroule sous le signe de l’exploration. Aujourd’hui, tandis que la saison des pluies démarre au bord de ma fenêtre, j’ai envie que cette lettre reflète encore plus cette résolution.

Plutôt que de te faire des grands dossiers journalistiques ou pédagogiques en mode Monsieur Je-Sais-Tout, je voudrais partager ce que je découvre, te dire comment j’ai fait et ce que j’ai appris au fil de mes découvertes sur l’IA. Même si c’est incomplet.

Je me dis que c’est une façon plus sincère de partager, plus enrichissante aussi.

Ce que je cherche à passer à travers ces lettres, c’est l’esprit de curiosité. Je pense que c’est la compétence la plus importante que nous devrons développer dans les prochaines années. Et c’est un formidable remède contre la peur et le pessimisme. Pas besoin de voir l’avenir en rose, il suffit juste d’être curieux ou curieuse.

Regarde ces lettres comme un carnet de voyage, de ceux qu’on faisait sur des carnets de papier, on y collait aussi des tickets, des feuilles ou des fleurs (enfin moi je faisais ça…).

Viens, je t’emmène.

Je suis Benoît Raphaël, et avec Thomas Mahier (ingénieur en IA) et FlintGPT (robot un peu simplet mais gentil), je te propose de mieux comprendre et maîtriser l’intelligence artificielle.

Si on t’a transféré cette lettre, abonne-toi en un clic ici.

Si tu es abonné(e) et que tu souhaites te désabonner, pas de panique ! Va en bas cette lettre et clique sur le lien “vous désabonner ici”.

😍 Aujourd’hui voici comment tu vas devenir plus intelligent(e) avec Génération IA.

→ Explore avec moi un outil expérimental qui a pas mal buzzé cette semaine et qui permet à l’IA Claude de prendre le contrôle de ton écran.

→ Découvre un outil génial pour générer des infographies.

→ Tu débutes avec ChatGPT ? Voici une règle de base pour bien démarrer.

→ Admire un petit film hyper réaliste réalisé avec l’IA.

→ Et toujours ma sélection d’outils et de tutos bien pratiques trouvés sur Internet.

Benoit

Cette semaine, je me suis intéressé à une fonctionnalité expérimentale lancée par Anthropic qui a fait beaucoup de buzz sur les médias sociaux. Anthropic est l’entreprise qui a créé Claude, le chatbot d’IA concurrent de ChatGPT.

Leur idée : permettre à leur IA de prendre le contrôle de ton ordinateur.

Image générée avec Midjourney (aidé par Claude).

C’est à dire, en gros, lui permettre de voir ce qu’il y a sur ton écran, et cliquer un peu partout pour faire les trucs que tu ferais habituellement. Comme remplir un formulaire sur Internet, aller sur Amazon pour regarder les livres, utiliser un logiciel pour programmer, ou mettre des données dans un tableau excel.

Ça s’appelle “Computer Use”.

Évidemment, cette fonctionnalité a fait rugir tout le monde, de peur où d’excitation. Ça fait tellement science-fiction ! Imagine, l’IA qui peut enfin sortir de sa boîte et taper sur un écran pour explorer et interagir avec le monde via Internet.

Bon, comme tu vas le voir, on en est pas du tout là, Claude a encore du mal à trouver le bon endroit pour cliquer. Mais cette histoire m’a permis de comprendre plein de trucs intéressants sur les enjeux technologiques derrière cette idée (ou ce fantasme) : celle de faire de l’IA un vrai assistant capable de réaliser des tâches au bureau comme le ferait un humain.

Je t’expliquerai comment installer la démo de “Computer Use” sur ton ordinateur et faire un petit voyage rigolo (ou pas) dans le futur.

Oui parce que cette fonctionnalité n’est pas accessible dans Claude, c’est un logiciel à part.

Et pour l’instant, haha, “Computer Use” ne sert absolument à rien.

Il est visiblement destiné aux développeurs. Dans l’espoir qu’ils trouvent des idées d’applications avec cette fonctionnalité étrange. Ou pas.

Pour te donner une idée, tu peux regarder ce qu’un youtubeur a réussi à faire faire à Claude dans cette vidéo. Il lui demande d’aller chercher des infos sur Internet puis de remplir un document excel avec ces données.

Avant d’essayer d’imaginer à quoi ça sert, essayons de comprendre comment ça marche. Comme je n’y connais rien en programmation, je me suis créé un petit assistant avec Claude pour qu’il lise toute la documentation, m’aide à installer l’outil en 5 minutes, et m’explique les choses simplement.

A gauche, j’ai créé un prompt pour transformer Claude en coach IA et (à droite) lui ai donné toute la documentation pour qu’il m’aide à comprendre.

Tout d’abord, “Computer Use” utilise la dernière version de Claude (Claude Sonnet 3.5 “new”). Ce modèle d’IA ne “voit” pas vraiment l’écran comme nous. “Computer Use” prend une capture de l’écran, puis Claude analyse cette image fixe pour tenter de déduire des coordonnées (par exemple 300,300 pour un écran de 1920 pixels par 1080) permettant de situer les éléments sur l’écran.

Ensuite, “Computer Use” utilise des logiciels existants (comme par exemple clicklick pour Mac) qui permettent de prendre le contrôle de ta souris et de ton clavier et de positionner le curseur sur ces coordonnées et de cliquer ou d’écrire.

Tu vois, c’est tout simple. Le plus dur est d’analyser suffisamment précisément l’image pour bien positionner le curseur.

Alors j’ai moi-même essayé et je me suis pas mal amusé. Tout d’abord, excuse ce biais d’anthropomorphisme, mais j’ai trouvé assez touchant de voir Claude tenter d’explorer l’écran pour trouver l’icône de telle application puis de tenter de cliquer sur les bons boutons. On aurait dit un enfant de 3 ans à qui on donne un iPad pour la première fois et qui tente de comprendre comment ça marche.

Image générée avec Midjourney (aidé par Claude).

Il doit souvent s’y reprendre à plusieurs fois avec beaucoup d’hésitations. Avec des commentaires du style “bon, je vois un menu, je vais essayer de cliquer dessus”, et là : gnnn gnnn, il clique au mauvais endroit, reprend une capture d’écran et tente de comprendre pourquoi il n’a pas du tout le résultat escompté.

C’est comme ça que je l’ai surpris à consulter la page des jeans pour femmes sur Amazon, cliquant sur tous les modèles comme un gros obsédé, alors que je lui avais demandé de chercher les livres tendances sur l’IA.

L’interface de démo de “Computer Use”. Ici j’ai triché, je lui ai demandé d’aller sur les jeans juste pour la photo (je n’avais pas pensé à le faire lorsqu’il s’y était retrouvé par hasard)

Je lui ai demandé de me dessiner un mouton et là, hum… il était très fier de son dessin mais je te laisse juger :

Voilà un mouton selon Claude, c’est à dire un trait horizontal, un cercle et une sorte de “w” qui doit représenter les pattes dans son univers à lui j’imagine.

Bon, comme tu le vois, c’est très lent et très erratique. Et il s’agit plus d’un coup de pub de la part d’Anthropic que d’une fonctionnalité exploitable “qui va tout changeeeeeer”, comme j’ai pu le lire. Mais c’est un début. Et il sera intéressant de voir ce qu’en feront les développeurs.

J’ai trouvé trés rafraichissante l’analyse de ces deux jeunes ingénieurs en IA. Ils s’interrogent sur l’utilité de donner accès à l’IA à des interfaces conçues pour les humains (donc plus compliquées pour elle).

With the news of Anthropic’s latest release, Dan and Lucia sat down to discuss Claude 3.5 Sonnet and 'Computer Use’, a new feature that allows models to navigate desktop apps, move cursors, click buttons, and type text.
👉 Lucia is software engineer on our team, and the… x.com/i/web/status/1…
— Relevance AI (@RelevanceAI_)
1:52 AM • Oct 25, 2024

Cependant, ce n’est pas la première fois qu’on essaie de le faire.

Sur LinkedIn, Flavien Chervet évoque le cas de la startup Adept qui a sorti un logiciel assez proche. Adept exploite un langage de programmation dédié, le AWL (comme “Adept Workflow Language” qui s’inspire de javascript) pour permettre à l’outil de réaliser des tâches sur un écran comme remplir un formulaire client par exemple.

C’est moins flexible qu’avec Claude (qui est un modèles généraliste) mais beaucoup plus précis (et moins dangereux) parce que les tâches sont prédéfinies dans le programme. L’utilité ici est d’automatiser des tâches de bureautique sans avoir à changer tout le système logiciel de l’entreprise.

Une capture d’écran d’Adept, l’IA tente de remplir (avec succès) un formulaire de contact sur HubSpot.

Tout ça nous raconte quelque chose sur les enjeux du moment autour de l’IA. La course à ce qu’on appelle l’agentivité : créer des agents d’IA autonomes capables de réaliser des tâches de A à Z, telles que pourraient le faire un humain. Ce que Mustafa Suleyman appelle “l’Intelligence Artificielle Capable”. On en est encore loin, mais les géants de l’IA comme OpenAI, Microsoft et Google dépensent des fortunes pour y arriver. 2025 sera sans doute l’année de l’agentivité.

Ce qu’il faut retenir :

Anthropic a lancé "Computer Use", une fonctionnalité expérimentale permettant à Claude d'interagir avec un ordinateur en analysant l'écran et en contrôlant la souris/clavier.
L'outil est encore très imprécis et lent dans ses actions, agissant comme un "enfant qui découvre une tablette".
Des concurrents comme Adept proposent des approches différentes en se basant sur un langage de programmation dédié.
Cette technologie s'inscrit dans une course à "l'agentivité" pour créer des agents capables d'accomplir des tâches complètes de manière autonome.

Pour aller plus loin :

Lis l’article d’Anthropic qui présente “Computer Use”.
Lis l’article de Simon Willison qui l’a testé. Et celui d’Ethan Mollick qui donne quelques conseils de prompts et des réflexions intéressantes.
Intéresse-toi aussi aux risques : donner l’accés à un ordinateur à des modèles d’IA comme ChatGPT ou Claude est une TRÈS GRANDE porte ouverte au piratage. Voici ce qu’a pu faire un hacker en quelques secondes : lui faire télécharger un logiciel infecté !

PRATIQUE

Comment installer le “Computer Use” sur ton ordinateur en 10 minutes

Alors attention c’est un peu technique, hum, mais si tu y arrives tu pourras te sentir comme un superman ou une superwoman du code, haha. Sinon, tu peux passer à la rubrique suivante !

Je t’ai mis toutes les instructions dans un article.

Tu y retrouveras aussi un prompt pour transformer ChatGPT ou Claude en un assistant. Il t’aidera à installer des logiciels en passant par Terminal. Indispensable si tu as envie de tester des outils d’IA open-source par exemple !

L’article est ici 👇️

Comment installer “Computer Use” d'Anthropic sur ton ordinateur en 10 minutes

Découvre comment configurer l'outil expérimental d'Anthropic qui permet à Claude d'interagir avec un ordinateur virtuel. Un guide complet pour les débutants.

generationia.flint.media/p/comment-installer-computer-use-d-anthropic-claude-sur-ton-ordinateur-en-10-minutes

L’OUTIL QUE J’ATTENDAIS

Génère des infographies en quelques secondes

J’ai fait un essai avec le texte de la newsletter de la semaine dernière.

Celui-là, il m’a fait ma semaine ! Ça faisait longtemps que je cherchais un outil d’IA pour générer des infographies. Aucun ne me convenait. Et je suis tombé sur Napkin.

Il permet de générer des infographies sur la base d’un texte (article, texte pédagogique…). Tu peux sélectionner parmi plusieurs propositions. Tu peux aussi éditer les infographies générées, changer les couleurs...

Quelques conseils pour bien l’utiliser :

Sépare bien les paragraphes que tu veux utiliser pour générer l’infographie (tu peux en générer une par paragraphe dans un même document)
Et retire toutes les infos ambiguës.

Quels usages ?

Pour illustrer un article, un cours, un post sur les réseaux sociaux.
Pour illustrer une présentation, comme l’a fait Laura, de la communauté WhatsApp de Génération IA :

“Je l'ai utilisé pour une présentation, et il est génial. Il me manque la possibilité de mettre mon code couleur en amont (changer chaque élément est possible, mais fastidieux), mais sinon c'est top. J'ai fait une présentation entière en illustrant comme cela, très pratique !”

Laura

👉️ Essayer Napkin.

VRAIS FILMS, FAUSSES IMAGES

Les courts-métrages réalisés avec l’IA envahissent la toile

Hollywood n’a pas encore été révolutionné par l’IA générative de video, mais on commence à voir émerger des courts-métrages d’une qualité exceptionnelle. Ça vaut le coup de les explorer : de ces jeunes expérimentateurs émergeront peut-être les futurs stars du cinéma de demain. Ce n’est pas pour rien que James Cameron a décidé de rejoindre le board de Stable Diffusion.

Par exemple, “The Theater” : un petit film réalisé par le réalisateur Seif Abdalla. Entièrement en noir et blanc, le film brouille rêve et réalité tandis que des artistes spectraux mettent en scène les peurs les plus profondes des habitants. Une histoire de mère en deuil qui propose une exploration de la perte et de la mémoire.

L’artiste donne peu de détails sur la façon dont il a travaillé. Et j’avoue m’être demandé s’il n’avait pas triché tant le réalisme est saisissant. Sif Abdalla a utilisé l’IA de Runway Gen3 pour chaque séquence de vidéo. Son film a d’ailleurs été sélectionné par le festival Runway et par “Curious Refuge” (qui s’est posé la même question que moi avant de conclure que c’était bien un film IA…). Troublant. Tout comme cet autre film du même artiste, très poétique.

The Theater: Short Film

In an isolated theater town, the residents are drawn each night to watch their dreams and nightmares unfold on stage, performed by the spectral figures of their…

vimeo.com/1009708965

Si tu veux explorer d’autres oeuvres, regarde les lauréats des deux festivals organisés par Runway : le AIFF et le GEN:48.

LA CITATION QUI FAIT RÉFLÉCHIR

❝

Dans de nombreux cas, l'IA fonctionne dans une certaine mesure, mais elle est accompagnée d'affirmations exagérées de la part des entreprises qui la vendent. Ce battage publicitaire conduit à une confiance excessive, comme l'utilisation de l'IA pour remplacer l'expertise humaine au lieu de l'améliorer. Tout aussi important : même lorsque l'IA fonctionne bien, elle peut être nuisible, comme nous l'avons vu dans l'exemple de la technologie de reconnaissance faciale utilisée abusivement pour la surveillance de masse. Pour identifier les dommages et y remédier, il est essentiel de comprendre si le problème est dû au fait que l'IA n'a pas fonctionné, qu'elle a été surestimée ou qu'elle a en fait fonctionné exactement comme prévu.

Arvind Narayanan & Sayash Kapoor. “AI Snake Oil : What Artificial Intelligence Can Do, What It Can't, and How to Tell the Difference” - Princeton University Press

PROMPTOLOGIE

Reviens aux fondamentaux !

Quand on travaille avec ChatGPT, on a vite tendance a essayer des prompts (instructions) très compliqués ou alors trop flous. Je recommande souvent de revenir aux concepts de base sur la façon dont fonctionnent les modèles de langage, avant de chercher à faire des trucs complexes.

ChatGPT est d’abord un modèle de complétion, c’est à dire qu’il prédit la suite d’un texte donné. Revenir à cette règle première permet de penser ses prompts beaucoup plus simplement. C’est une bonne façon de démarrer quand on débute.

Par exemple, la règle du tremplin, tu connais ? C’est tout bête. Le tremplin c’est une façon d’utiliser la complétion en donnant à ChatGPT un tremplin à la fin de ton prompt pour l’aider à répondre en prédisant la suite.

Tu peux lui donner un indice ou un contenu de soutien.

Exemple d’indice :

[ARTICLE]

Résume l'article ci-dessus. L'élément clé de cet article est...

Exemple de contenu de soutien (tu peux essayer en changeant les mots-clés qui t’intéressent):

[ARTICLE]

Résume l'article ci-dessus. Organise le en fonction des thématiques suivantes :  mot-clé 1 / mot-clé 2 / mot-clé 3

Tu peux aussi utiliser le tremplin à chaque fois que tu veux générer un texte. Plutôt que de le faire travailler sur l’article en entier, concentre toi sur le premier paragraphe en lui donnant des infos à insérer. Puis améliore-le. Une fois que tu es content(e) du résultat demande à ChatGPT de continuer, ça sera beaucoup plus facile pour lui de respecter ton style.

Par exemple :

Je voudrais écrire un texte détaillé pour un média social professionnel. 

Voici les informations que je veux utiliser :
 
<data>
- Donnée 1
- Donnée 2
- Donnée 3
 </data> 

Avant d'écrire le texte propose une accroche en utilisant cette règle : Affirmation, agitation, solution.

Ecris l'accroche en un seul paragraphe très court et demande moi de valider.

Si le premier paragraphe te convient, dis lui simplement :

Ok, continue.

À toi !

👉 Si tu veux maîtriser parfaitement le prompt, découvre notre formation ultime. Et profite d’une réduction rien que pour toi (valable jusqu’à mardi !). Tu auras aussi accès au guide des prompts (plus d’une centaine de prompts !) et au groupe d’entraide.

OUTILS ET TUTOS

3 outils et tutos intéressants trouvés sur Internet

Alors j’ai bien participé à cette conférence à Bali, mais je n’ai pas parlé à un chat géant. Merci Midjourney !

Midjourney, la meilleure IA de génération d’images vient de sortir son nouvel outil d’édition. Tu vas pouvoir modifier de vraies photos (comme celle ci-dessus), mais aussi changer la texture d’une image déjà générée. Plus d’infos ici.
Dans la famille des IA génératives de video, voici le modèle open-source ! Il est d’un niveau équivalent aux meilleures IA du moment. C’est saisissant de réalisme. Tu peux essayer la démo de Mochi ici.
Tu veux faire des effets spéciaux de folie pour épater tes amis ? Ce tuto est très amusant et facile à faire. Prends toi en video et demande à l’IA d’imaginer la suite. Il te faudra l’IA vidéo Kling et un petit outil de montage sur Capcut. Clique ci-dessous 👇️

Want to create these amazing video effects in just minutes? Wait for it 😉
All you need is a phone, CapCut, and @Kling_ai, along with a couple of tricks I’m about to share with you below 🧵👇
— TechHalla (@techhalla)
3:36 PM • Oct 21, 2024

PARTICIPE !

On construit cette lettre ensemble !

Vous êtes désormais 23000 à recevoir cette lettre. L’édition sur le (vrai) coût climatique de l’IA a fait pas mal réagir. Merci pour vos votes et commentaires !

J’en ai profité pour essayer la nouvelle fonctionnalité d’analyses de données de Claude, qui permet ENFIN de lire des fichiers de données, de faire des calculs et de les visualiser. Pour l’utiliser il faut activer “Analysis Tool” ici.

Voici le résultat :

Il m’a aussi récupéré les commentaires positifs :

Et les commentaires “constructifs” 😄 :

A toi de voter !

Comment as-tu trouvé cette édition ? Vote ici et laisse tes commentaires ! Dis-moi aussi ce que tu aimerais voir en plus ou en moins.

Comment as-tu trouvé cette édition ?

Vote et laisse un commentaire pour nous aider à nous améliorer !

Connexion ou S'abonner pour participer aux sondages.

Merci d’avoir voyagé avec nous. Je te souhaite une bonne semaine d’explorations !

🧳 Benoit, Thomas et FlintGPT.