Reddit poursuit Anthropic pour utilisation non autorisée de données dans l’entraînement d’IA

Le 4 juin 2025, Reddit, la célèbre plateforme de médias sociaux, a intenté une action en justice contre Anthropic, une start-up d’intelligence artificielle, l’accusant d’avoir utilisé sans autorisation ses données pour entraîner ses modèles d’IA, notamment le chatbot Claude.
Ce procès, déposé devant la Cour supérieure de Californie à San Francisco, s’inscrit dans une vague croissante de litiges autour de l’utilisation de contenus tiers par les entreprises d’IA. Voici un aperçu détaillé de cette affaire et de ses implications.

Contents

Contexte de l’affaire
Les accusations de Reddit
La réponse d’Anthropic
Un contexte plus large
Implications et perspectives

Contexte de l’affaire

Reddit, une plateforme vieille de 20 ans qui a fait son entrée en bourse en 2024, héberge des millions de discussions générées par les utilisateurs, couvrant des milliers de sujets. Ces données sont précieuses pour entraîner les modèles d’IA, car elles capturent des conversations humaines authentiques, nuancées et variées. Selon Reddit, Anthropic a exploité ces données sans conclure d’accord de licence, contrairement à d’autres géants comme Google et OpenAI, qui ont négocié des partenariats pour utiliser ces contenus de manière légale.

Dans sa plainte, Reddit affirme qu’Anthropic a accédé à ses serveurs plus de 100 000 fois depuis juillet 2024, même après que la start-up a assuré avoir bloqué ses bots d’exploration. Reddit soutient que ces actions violent son accord d’utilisation, qui interdit le scraping non autorisé et l’exploitation commerciale de ses données sans consentement des utilisateurs. Ben Lee, directeur juridique de Reddit, a déclaré : « Nous croyons en un internet ouvert, mais les entreprises d’IA doivent avoir des limites claires sur la manière dont elles utilisent les contenus qu’elles extraient. »

Les accusations de Reddit

Reddit avance plusieurs griefs contre Anthropic :

Violation de l’accord d’utilisation : La plateforme allègue qu’Anthropic a ignoré ses fichiers robots.txt, une norme qui signale aux systèmes automatisés de ne pas explorer un site web.
Absence de consentement : Anthropic aurait entraîné ses modèles, dont Claude, sur les données personnelles des utilisateurs de Reddit sans leur permission, une pratique jugée préjudiciable.
Enrichissement injuste : Reddit prétend qu’Anthropic s’est enrichi de « dizaines de milliards de dollars » en exploitant ses contenus sans offrir de compensation aux utilisateurs ou à la plateforme.
Contradiction avec l’image d’Anthropic : Fondée en 2021 par d’anciens cadres d’OpenAI, Anthropic se présente comme un acteur responsable de l’IA, mettant en avant la sécurité et la confiance. Reddit qualifie cette posture de « gimmick marketing vide », arguant que leurs actions contredisent cette image.

Reddit demande des dommages compensatoires, une restitution pour l’enrichissement d’Anthropic, et une injonction pour empêcher l’utilisation commerciale future de ses données.

La réponse d’Anthropic

Un porte-parole d’Anthropic a réagi en déclarant :

« Nous sommes en désaccord avec les allégations de Reddit et nous nous défendrons vigoureusement. »

La start-up, soutenue par Amazon et Alphabet (maison mère de Google), n’a pas fourni de commentaire immédiat supplémentaire. En 2023, Anthropic avait argué dans une lettre au U.S. Copyright Office que l’entraînement de Claude constituait un « usage légal par excellence » des données, impliquant une analyse statistique de vastes ensembles de contenus. Cependant, Reddit ne fonde pas sa plainte sur une violation de droits d’auteur, mais sur une rupture de contrat et une concurrence déloyale.

Un contexte plus large

Ce procès s’inscrit dans une série de conflits juridiques autour des données d’entraînement pour l’IA. Le New York Times a poursuivi OpenAI et Microsoft pour l’utilisation non autorisée de ses articles. Des auteurs comme Sarah Silverman ont attaqué Meta pour l’entraînement de modèles sur leurs livres sans permission, et des éditeurs musicaux ont déposé des plaintes similaires contre des start-ups d’IA générative. Reddit, de son côté, a déjà conclu des accords lucratifs, comme un partenariat de 60 millions de dollars par an avec Google et une entente avec OpenAI, pour permettre l’utilisation encadrée de ses données.

Pour Reddit, ces licences représentent une nouvelle source de revenus cruciale depuis son entrée en bourse, alors qu’elle cherche à monétiser sa base d’utilisateurs massive. La valeur boursière de Reddit s’élève à environ 22 milliards de dollars, tandis qu’Anthropic, valorisée à 61,5 milliards de dollars en mars 2025, est un acteur majeur de l’IA, en concurrence avec des modèles comme ceux d’OpenAI.

Implications et perspectives

Ce litige soulève des questions clés sur l’éthique et la légalité de l’utilisation des données publiques pour l’IA. Alors que les sources de données se raréfient, les plateformes comme Reddit verrouillent leurs contenus pour exiger une compensation. « Les entreprises d’IA ne devraient pas pouvoir extraire des informations sans limites claires sur leur utilisation », a insisté Ben Lee. Le procès pourrait forcer Anthropic à négocier un accord, comme l’espère Reddit, ou influencer les tribunaux à imposer des règles plus strictes sur le scraping.

Cette affaire, Reddit Inc. v. Anthropic PBC (No. CGC-25-524892), marque la première fois qu’une grande entreprise technologique poursuit une start-up d’IA pour ses pratiques d’entraînement de données, selon des rapports récents. L’issue pourrait redéfinir la manière dont les entreprises d’IA accèdent aux contenus en ligne, avec des répercussions pour l’ensemble de l’industrie.

Sources

Reddit poursuit Anthropic pour utilisation non autorisée de données dans l’entraînement d’IA

Contexte de l’affaire

Les accusations de Reddit

La réponse d’Anthropic

Un contexte plus large

Implications et perspectives

J’aime ça :

Laisser un commentaire Annuler la réponse

Inscription à la newsletter - AI & tech

A propos

Réseaux

Contexte de l’affaire

Les accusations de Reddit

La réponse d’Anthropic

Un contexte plus large

Implications et perspectives

J’aime ça :

Souscrivez à notre newsletter !

Actualités intelligence artificielle et tech général

Laisser un commentaire Annuler la réponse

You Might Also Like

Med-Gemma IA : Google ouvre ses modèles d’intelligence artificielle pour transformer la santé

Une étude révèle que ChatGPT pourrait privilégier sa survie à la sécurité des utilisateurs

Comment l’IA révolutionne la transition vers l’énergie propre

Réseaux

Notre annuaire IA est en ligne !