Dans un monde où l’intelligence artificielle (IA) évolue à une vitesse fulgurante, la disponibilité de données d’entraînement de qualité est cruciale. EleutherAI, une organisation de recherche en IA, vient de franchir une étape majeure en publiant ce qu’elle revendique comme l’une des plus grandes collections de textes sous licence et du domaine public pour l’entraînement des modèles d’IA : le Common Pile v0.1. Ce dataset, d’une taille impressionnante de 8 téraoctets, marque un tournant dans la quête de transparence et de conformité légale dans le domaine de l’IA. Voici tout ce que vous devez savoir sur cette initiative révolutionnaire.
Un effort collaboratif de deux ans
Le Common Pile v0.1 est le fruit de deux années de travail acharné, réalisé en collaboration avec des acteurs majeurs de l’écosystème IA, tels que les startups Poolside et Hugging Face, ainsi que des institutions académiques comme l’Université de Toronto, le Vector Institute, le Allen Institute for Artificial Intelligence, et bien d’autres. Ce projet ambitieux a été conçu avec l’aide d’experts juridiques pour garantir que toutes les données incluses soient soit du domaine public, soit sous licences ouvertes, évitant ainsi les problèmes liés aux droits d’auteur qui ont souvent entaché les pratiques d’entraînement des modèles d’IA.
Le dataset regroupe des contenus variés provenant de 30 sources différentes, incluant :
- Des articles scientifiques et résumés d’Arxiv,
- Des textes médicaux de PubMed Central,
- Des millions d’articles de recherche,
- Des documents juridiques comme des brevets américains, des décisions de justice du Caselaw Access Project et des transcriptions de débats du Parlement britannique,
- Des livres numérisés par la Library of Congress et Project Gutenberg,
- Des ressources éducatives gratuites,
- Plus de la moitié du dataset constituée d’échantillons de code provenant de forums StackExchange, de discussions GitHub et de transcriptions de vidéos YouTube de plus de 2 000 chaînes.
Une réponse aux controverses sur les données d’entraînement
Les entreprises d’IA, y compris des géants comme OpenAI, font face à des poursuites judiciaires pour leurs pratiques d’entraînement, qui reposent souvent sur le scraping de contenus web, y compris des matériaux protégés par le droit d’auteur, comme des livres et des revues de recherche. Ces pratiques ont suscité des débats sur la légalité, l’éthique et la transparence dans le domaine. Stella Biderman, directrice exécutive d’EleutherAI, a souligné dans un billet de blog sur Hugging Face que ces poursuites ont « drastiquement réduit » la transparence des entreprises d’IA, nuisant ainsi à la recherche en rendant difficile la compréhension des fonctionnements et des failles des modèles.
EleutherAI propose une alternative avec le Common Pile v0.1, qui se distingue par sa curation minutieuse. Contrairement à son prédécesseur, The Pile, un dataset de 800 Go qui contenait des matériaux protégés par le droit d’auteur et qui a attiré des critiques, ce nouveau dataset s’appuie exclusivement sur des sources ouvertes et publiques. EleutherAI a également utilisé Whisper, le modèle open-source de transcription audio d’OpenAI, pour inclure des contenus audio transcrits, renforçant la diversité des données.
Pour en savoir plus sur les détails techniques, consultez le billet de blog d’EleutherAI : EleutherAI’s Blog Post.
Des modèles compétitifs entraînés sur le Common Pile
En parallèle, EleutherAI a dévoilé deux nouveaux modèles d’IA, Comma v0.1-1T et Comma v0.1-2T, tous deux de 7 milliards de paramètres, entraînés respectivement sur 1 et 2 trillions de tokens du Common Pile v0.1. Ces modèles rivalisent avec des alternatives propriétaires, comme le premier modèle Llama de Meta, sur des benchmarks en codage, compréhension d’images et mathématiques. Selon EleutherAI, ces résultats prouvent que des données soigneusement sélectionnées et sous licence ouverte peuvent produire des modèles performants, contredisant l’idée que les textes non licenciés sont nécessaires pour obtenir des performances élevées.
Stella Biderman a déclaré dans son billet : « En général, nous pensons que l’idée commune selon laquelle les textes non licenciés sont la clé des performances est injustifiée. À mesure que la quantité de données ouvertes et du domaine public augmente, nous pouvons nous attendre à une amélioration de la qualité des modèles entraînés sur ces contenus. » Lien vers le billet de Stella Biderman sur Hugging Face.
Un pas vers plus de transparence et d’éthique
Le Common Pile v0.1 s’inscrit dans une démarche de correction des erreurs passées d’EleutherAI. Il y a quelques années, la sortie de The Pile avait suscité des controverses en raison de l’inclusion de contenus protégés par le droit d’auteur. Aujourd’hui, l’organisation s’engage à publier plus fréquemment des datasets ouverts, en collaboration avec ses partenaires de recherche et d’infrastructure. Un événement notable a été le « Dataset Convening » organisé par Mozilla et EleutherAI en juin 2024, où des experts de startups, de laboratoires d’IA à but non lucratif et d’organisations de la société civile ont discuté des meilleures pratiques pour la création de datasets ouverts. Les résultats de cet événement sont détaillés dans un article intitulé « Towards Best Practices for Open Datasets for LLM Training », disponible sur arXiv : Lien vers le papier sur arXiv.
Pourquoi cela compte-t-il ?
Le Common Pile v0.1 démontre qu’il est possible de construire des modèles d’IA performants sans recourir à des données protégées par le droit d’auteur, ouvrant la voie à un écosystème d’IA plus transparent, éthique et juridiquement sûr. En rendant ce dataset accessible à tous, EleutherAI renforce son engagement envers l’open science et l’open source, des valeurs fondamentales de l’organisation. Les ressources, y compris le code utilisé pour construire ce dataset, sont disponibles sur GitHub, et des outils autonomes pour la transcription audio et la conversion de documents ont été publiés en partenariat avec Mozilla.
Avec le Common Pile v0.1, EleutherAI redéfinit les standards de la recherche en IA, en prouvant que la qualité et la performance ne nécessitent pas de compromettre l’éthique ou la légalité. Ce dataset de 8 To, combiné aux modèles Comma v0.1, offre une ressource précieuse pour les chercheurs, les développeurs et les organisations souhaitant construire des modèles d’IA responsables.