Génération IA
Posts
ChatGPT - New York Times : les enjeux colossaux d'un procès inédit

ChatGPT - New York Times : les enjeux colossaux d'un procès inédit

Entre le mythique journal et l'IA star de Microsoft, la bataille s'annonce féroce. Elle aura un impact majeur sur l'avenir des modèles génératifs.

Benoit Raphael
15th janvier 2024

Le procès intenté par le New-York Times contre ChatGPT sera à suivre de très très près cette année.

Pourquoi est-il intéressant ? Parce qu'il oppose trois entreprises iconiques de l'ancien et du nouveau monde. D'un côté le NY Times, de l'autre OpenAI (ChatGPT) et Microsoft (son principal actionnaire).

Le quotidien américain accuse ChatGPT (et Microsoft Copilot, qui utilise le même modèle) d'atteinte aux droits d'auteurs.

La question des droits d'auteur est l'une des zones de risque les plus embarrassantes (et encore floue) pour les entreprises d'IA génératives.

Le dossier du NY Times fournit de nombreux documents de "preuves". Ils sont passionnants à décortiquer.

Ils expliquent en partie comment sont entrainés ces modèles, mais contiennent aussi quelques bizarreries.

Par exemple, le dossier contient une infographie (qui a été largement diffusée) semblant montrer que le NY Times est une source massive des données d'entrainement (image jointe). L’image vient d’une étude de 2021 sur le corpus nettoyé de Common Crawl (le corpus principal utilisé par la plupart des modèles de langage comme GPT-3).

Sauf que lorsque l'on fait les calculs, on comprend que le volume de données issues du quotidien ne correspond en fait qu'à 0,065% du total (100 millions sur 156 milliards de tokens). Ce n'est pas rien, mais l'image est trompeuse.

Ensuite, l'essentiel du dossier ne concerne pas tant l'entrainement lui-même que le fait que ChatGPT recrache parfois la quasi intégralité d'un article du NY Times quand on lui demande.

La législation sur le droit d'auteur établit une distinction entre la reproduction à l'identique de l'œuvre de quelqu'un d'autre - ce qui est généralement illégal - et le "remixage", c'est-à-dire l'utilisation nouvelle et créative de cette œuvre, explique James Grimmelmann, professeur de droit numérique et de l'information à l'université de Cornell, dans le Washington Post.

Mais, ajoute-t-il, ce qui est déconcertant dans les systèmes d'IA, c'est qu'ils semblent faire les deux à la fois.

Dans sa plainte, le NY Times fournit quelques exemples frappants. La plupart concernent des résultats de recherche lorsque ChatGPT se connecte sur Internet. Parfois les regurgitations semblent se faire hors connexion (mais ce n’est pas clair dans le document). Ce qui en a surpris plus d'un (comme Andrew Ng).

Pourquoi ? Andrej Kharpathy (co-fondateur d'OpenAI) explique dans son cours que lors de l'entrainement, les modèles "rêvent" les textes qu'ils lisent (ils les "ré-interprètent" si j'ose dire) donc a priori ils ne sont pas capables de les régurgiter intégralement.

OpenAI parle d'un "bug" isolé.

J’ai d’ailleurs essayé de reproduire le texte avec le même prompt, et je n’y suis pas parvenu.

Au fond, l'affaire n’est pas nouvelle. Elle concerne l'usage loyal ou pas des contenus protégés (le "fair use"). En 2015, la justice US avait conclu à l'usage loyal dans l'affaire Google Books.

Ce nouveau litige aura probablement un impact important sur l'utilisation future des modèles d'IA pour créer et reproduire des textes et des œuvres créatives.

Et sans doute beaucoup d’argent à la clé pour les principaux éditeurs.