{"id":4396,"date":"2025-06-06T23:05:31","date_gmt":"2025-06-06T21:05:31","guid":{"rendered":"https:\/\/ai-explorer.io\/blog\/?p=4396"},"modified":"2026-04-18T06:05:16","modified_gmt":"2026-04-18T04:05:16","slug":"eleutherai-common-pile-dataset-entrainement-modeles-ia","status":"publish","type":"post","link":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/","title":{"rendered":"EleutherAI d\u00e9voile le Common Pile v0.1 : un dataset massif de 8 To pour l&rsquo;entra\u00eenement des mod\u00e8les d&rsquo;IA"},"content":{"rendered":"\n<p>Dans un monde o\u00f9 l&rsquo;<a href=\"https:\/\/ai-explorer.io\/blog\/lintelligence-artificielle-utopie-antique-revolution\/\">intelligence artificielle<\/a> (IA) \u00e9volue \u00e0 une vitesse fulgurante, la disponibilit\u00e9 de donn\u00e9es d&rsquo;entra\u00eenement de qualit\u00e9 est cruciale. EleutherAI, une organisation de recherche en IA, vient de franchir une \u00e9tape majeure en publiant ce qu&rsquo;elle revendique comme l&rsquo;une des plus grandes collections de textes sous licence et du domaine public pour l&rsquo;entra\u00eenement des mod\u00e8les d&rsquo;IA : le <a href=\"https:\/\/arxiv.org\/abs\/2506.05209\" target=\"_blank\" rel=\"noreferrer noopener\">Common Pile v0.1<\/a>. Ce dataset, d&rsquo;une taille impressionnante de 8 t\u00e9raoctets, marque un tournant dans la qu\u00eate de transparence et de conformit\u00e9 l\u00e9gale dans le domaine de l&rsquo;IA. Voici tout ce que vous devez savoir sur cette initiative r\u00e9volutionnaire.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity is-style-dots\"\/>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-un-effort-collaboratif-de-deux-ans\">Un effort collaboratif de deux ans<\/h2>\n\n\n\n<p>Le <strong>Common Pile v0.1<\/strong> est le fruit de deux ann\u00e9es de travail acharn\u00e9, r\u00e9alis\u00e9 en collaboration avec des acteurs majeurs de l&rsquo;\u00e9cosyst\u00e8me IA, tels que les startups Poolside et Hugging Face, ainsi que des institutions acad\u00e9miques comme l&rsquo;Universit\u00e9 de Toronto, le Vector Institute, le Allen Institute for Artificial Intelligence, et bien d&rsquo;autres. Ce projet ambitieux a \u00e9t\u00e9 con\u00e7u avec l&rsquo;aide d&rsquo;experts juridiques pour garantir que toutes les donn\u00e9es incluses soient soit du domaine public, soit sous licences ouvertes, \u00e9vitant ainsi les probl\u00e8mes li\u00e9s aux droits d&rsquo;auteur qui ont souvent entach\u00e9 les pratiques d&rsquo;entra\u00eenement des mod\u00e8les d&rsquo;IA.<\/p>\n\n\n\n<p>Le <strong>dataset <\/strong>regroupe des contenus vari\u00e9s provenant de 30 sources diff\u00e9rentes, incluant :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Des articles scientifiques et r\u00e9sum\u00e9s d&rsquo;Arxiv,<\/li>\n\n\n\n<li>Des textes m\u00e9dicaux de PubMed Central,<\/li>\n\n\n\n<li>Des millions d&rsquo;articles de recherche,<\/li>\n\n\n\n<li>Des documents juridiques comme des brevets am\u00e9ricains, des d\u00e9cisions de justice du Caselaw Access Project et des transcriptions de d\u00e9bats du Parlement britannique,<\/li>\n\n\n\n<li>Des livres num\u00e9ris\u00e9s par la Library of Congress et Project Gutenberg,<\/li>\n\n\n\n<li>Des ressources \u00e9ducatives gratuites,<\/li>\n\n\n\n<li>Plus de la moiti\u00e9 du dataset constitu\u00e9e d&rsquo;\u00e9chantillons de code provenant de forums StackExchange, de discussions GitHub et de transcriptions de vid\u00e9os YouTube de plus de 2 000 cha\u00eenes.<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity is-style-dots\"\/>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-une-reponse-aux-controverses-sur-les-donnees-d-entrainement\">Une r\u00e9ponse aux controverses sur les donn\u00e9es d&rsquo;entra\u00eenement<\/h2>\n\n\n\n<p>Les entreprises d&rsquo;IA, y compris des g\u00e9ants comme OpenAI, font face \u00e0 des <a href=\"https:\/\/ai-explorer.io\/blog\/reddit-proces-anthropic-donnees-entrainement\/\" title=\"Reddit poursuit Anthropic pour utilisation non autoris\u00e9e de donn\u00e9es dans l\u2019entra\u00eenement d\u2019IA\" target=\"_blank\" rel=\"noopener\" data-wpil-monitor-id=\"16\">poursuites judiciaires pour leurs pratiques<\/a> d&rsquo;entra\u00eenement, qui reposent souvent sur le scraping de contenus web, y compris des mat\u00e9riaux prot\u00e9g\u00e9s par le droit d&rsquo;auteur, comme des livres et des revues de recherche. Ces pratiques ont suscit\u00e9 des d\u00e9bats sur la l\u00e9galit\u00e9, l&rsquo;\u00e9thique et la transparence dans le domaine. Stella Biderman, directrice ex\u00e9cutive d&rsquo;EleutherAI, a soulign\u00e9 dans un <a href=\"https:\/\/ai-explorer.io\/blog\/hugging-face-modele-ia-robotique-macbook\/\" title=\"Hugging Face lance un mod\u00e8le d\u2019IA pour la robotique si efficace qu\u2019il peut fonctionner sur un MacBook\" target=\"_blank\" rel=\"noopener\" data-wpil-monitor-id=\"18\">billet de blog sur Hugging Face<\/a> que ces poursuites ont \u00ab\u00a0drastiquement r\u00e9duit\u00a0\u00bb la transparence des entreprises d&rsquo;IA, nuisant ainsi \u00e0 la recherche en rendant difficile la compr\u00e9hension des fonctionnements et des failles des mod\u00e8les.<\/p>\n\n\n\n<p>EleutherAI propose une alternative avec le Common Pile v0.1, qui se distingue par sa curation minutieuse. Contrairement \u00e0 son pr\u00e9d\u00e9cesseur, The Pile, un dataset de 800 Go qui contenait des mat\u00e9riaux prot\u00e9g\u00e9s par le droit d&rsquo;auteur et qui a attir\u00e9 des critiques, ce nouveau dataset s&rsquo;appuie exclusivement sur des sources ouvertes et publiques. EleutherAI a \u00e9galement utilis\u00e9 Whisper, le mod\u00e8le open-source de transcription audio d&rsquo;OpenAI, pour inclure des contenus audio transcrits, renfor\u00e7ant la diversit\u00e9 des donn\u00e9es.<\/p>\n\n\n\n<p>Pour en savoir plus sur les d\u00e9tails techniques, consultez le billet de blog d&rsquo;EleutherAI : <a href=\"https:\/\/blog.eleuther.ai\" rel=\"noreferrer noopener\" target=\"_blank\">EleutherAI&rsquo;s Blog Post<\/a>.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity is-style-dots\"\/>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-des-modeles-competitifs-entraines-sur-le-common-pile\">Des mod\u00e8les comp\u00e9titifs entra\u00een\u00e9s sur le Common Pile<\/h2>\n\n\n\n<p>En parall\u00e8le, <strong>EleutherAI <\/strong>a d\u00e9voil\u00e9 deux nouveaux mod\u00e8les d&rsquo;IA, Comma v0.1-1T et Comma v0.1-2T, tous deux de 7 milliards de param\u00e8tres, entra\u00een\u00e9s respectivement sur 1 et 2 trillions de <strong>tokens <\/strong>du Common Pile v0.1. Ces mod\u00e8les rivalisent avec des alternatives propri\u00e9taires, comme le premier mod\u00e8le Llama de Meta, sur des benchmarks en codage, compr\u00e9hension d&rsquo;images et math\u00e9matiques. Selon EleutherAI, ces r\u00e9sultats prouvent que des donn\u00e9es soigneusement s\u00e9lectionn\u00e9es et sous licence ouverte peuvent produire des mod\u00e8les performants, contredisant l&rsquo;id\u00e9e que les textes non licenci\u00e9s sont n\u00e9cessaires pour obtenir des performances \u00e9lev\u00e9es.<\/p>\n\n\n\n<p>Stella Biderman a d\u00e9clar\u00e9 dans son billet : \u00ab\u00a0En g\u00e9n\u00e9ral, nous pensons que l&rsquo;id\u00e9e commune selon laquelle les textes non licenci\u00e9s sont la cl\u00e9 des performances est injustifi\u00e9e. \u00c0 mesure que la quantit\u00e9 de donn\u00e9es ouvertes et du domaine public augmente, nous pouvons nous attendre \u00e0 une am\u00e9lioration de la qualit\u00e9 des mod\u00e8les entra\u00een\u00e9s sur ces contenus.\u00a0\u00bb <a href=\"https:\/\/huggingface.co\/blog\/stellaathena\/common-pile\" target=\"_blank\" rel=\"noreferrer noopener\">Lien vers le billet de Stella Biderman sur Hugging Face<\/a>.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity is-style-dots\"\/>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-un-pas-vers-plus-de-transparence-et-d-ethique\">Un pas vers plus de transparence et d&rsquo;\u00e9thique<\/h2>\n\n\n\n<p>Le Common Pile v0.1 s&rsquo;inscrit dans une d\u00e9marche de correction des erreurs pass\u00e9es d&rsquo;EleutherAI. Il y a quelques ann\u00e9es, la sortie de The Pile avait suscit\u00e9 des controverses en raison de l&rsquo;inclusion de contenus prot\u00e9g\u00e9s par le droit d&rsquo;auteur. Aujourd&rsquo;hui, l&rsquo;organisation s&rsquo;engage \u00e0 publier plus fr\u00e9quemment des datasets ouverts, en collaboration avec ses partenaires de recherche et d&rsquo;infrastructure. Un \u00e9v\u00e9nement notable a \u00e9t\u00e9 le \u00ab\u00a0Dataset Convening\u00a0\u00bb organis\u00e9 par Mozilla et <a href=\"https:\/\/ai-explorer.io\/blog\/sam-altman-ere-superintelligence-ia\/\" title=\"Sam Altman annonce l\u2019\u00e8re de la superintelligence : un tournant pour l\u2019IA\" target=\"_blank\" rel=\"noopener\"  data-wpil-monitor-id=\"149\">EleutherAI<\/a> en juin 2024, o\u00f9 des experts de startups, de laboratoires d&rsquo;IA \u00e0 but non lucratif et d&rsquo;organisations de la soci\u00e9t\u00e9 civile ont discut\u00e9 des meilleures pratiques pour la cr\u00e9ation de datasets ouverts. Les r\u00e9sultats de cet \u00e9v\u00e9nement sont d\u00e9taill\u00e9s dans un article intitul\u00e9 \u00ab\u00a0Towards Best Practices for Open Datasets for LLM Training\u00a0\u00bb, disponible sur arXiv : <a href=\"https:\/\/arxiv.org\/abs\/2506.05209\" rel=\"noreferrer noopener\" target=\"_blank\">Lien vers le papier sur arXiv<\/a>.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity is-style-dots\"\/>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-pourquoi-cela-compte-t-il\">Pourquoi cela compte-t-il ?<\/h2>\n\n\n\n<p>Le Common Pile v0.1 d\u00e9montre qu&rsquo;il est possible de construire des <a title=\"Google lance discr\u00e8tement une appli pour utiliser l\u2019IA en local sur mobile\" data-wpil-monitor-id=\"20\" href=\"https:\/\/ai-explorer.io\/blog\/google-ai-edge-gallery-app-ia-local-mobile\/\" target=\"_blank\" rel=\"noopener\">mod\u00e8les d&rsquo;IA performants<\/a> sans recourir \u00e0 des donn\u00e9es prot\u00e9g\u00e9es par le droit d&rsquo;auteur, ouvrant la voie \u00e0 un \u00e9cosyst\u00e8me d&rsquo;IA plus transparent, \u00e9thique et juridiquement s\u00fbr. En rendant ce dataset accessible \u00e0 tous, <strong>EleutherAI <\/strong>renforce son engagement envers l&rsquo;open science et l&rsquo;open source, des valeurs fondamentales de l&rsquo;organisation. Les ressources, y compris le code utilis\u00e9 pour construire ce dataset, sont disponibles sur GitHub, et des outils autonomes pour la transcription audio et la conversion de documents ont \u00e9t\u00e9 publi\u00e9s en partenariat avec Mozilla.<\/p>\n\n\n\n<p>Avec le Common Pile v0.1, <strong>EleutherAI <\/strong>red\u00e9finit les standards de la recherche en IA, en prouvant que la qualit\u00e9 et la performance ne n\u00e9cessitent pas de compromettre l&rsquo;\u00e9thique ou la l\u00e9galit\u00e9. Ce dataset de 8 To, combin\u00e9 aux mod\u00e8les Comma v0.1, offre une ressource pr\u00e9cieuse pour les chercheurs, les d\u00e9veloppeurs et les organisations souhaitant construire des mod\u00e8les d&rsquo;IA responsables.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity is-style-dots\"\/>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-sources\">Sources<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"https:\/\/techcrunch.com\/2025\/06\/06\/eleutherai-releases-massive-ai-training-dataset-of-licensed-and-open-domain-text\/\" target=\"_blank\" rel=\"noreferrer noopener\">TechCrunch : EleutherAI releases massive AI training dataset of licensed and open domain text<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/blog.eleuther.ai\" target=\"_blank\" rel=\"noreferrer noopener\">EleutherAI&rsquo;s Blog Post<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/huggingface.co\/blog\/stellaathena\/common-pile\" target=\"_blank\" rel=\"noreferrer noopener\">Hugging Face<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/github.com\/r-three\/common-pile\/\" target=\"_blank\" rel=\"noreferrer noopener\">GitHub<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/arxiv.org\/abs\/2506.05209\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv : The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text<\/a><\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Dans un monde o\u00f9 l&rsquo;intelligence artificielle (IA) \u00e9volue \u00e0 une vitesse fulgurante, la disponibilit\u00e9 de donn\u00e9es d&rsquo;entra\u00eenement de qualit\u00e9 est cruciale. EleutherAI, une organisation de recherche en IA, vient de franchir une \u00e9tape majeure en publiant ce qu&rsquo;elle revendique comme l&rsquo;une des plus grandes collections de textes sous licence et du domaine public pour l&rsquo;entra\u00eenement [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":4401,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[78,73,241],"tags":[],"tmauthors":[],"class_list":{"0":"post-4396","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-data","8":"category-ia","9":"category-uncategorized-fr"},"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v26.5 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>EleutherAI d\u00e9voile le Common Pile v0.1 : un dataset massif de 8 To pour l&#039;entra\u00eenement des mod\u00e8les d&#039;IA - AI Explorer<\/title>\n<meta name=\"description\" content=\"Dans un monde o\u00f9 l&#039;intelligence artificielle (IA) \u00e9volue \u00e0 une vitesse fulgurante, la disponibilit\u00e9 de donn\u00e9es d&#039;entra\u00eenement de qualit\u00e9 est cruciale.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"EleutherAI d\u00e9voile le Common Pile v0.1 : un dataset massif de 8 To pour l&#039;entra\u00eenement des mod\u00e8les d&#039;IA - AI Explorer\" \/>\n<meta property=\"og:description\" content=\"Dans un monde o\u00f9 l&#039;intelligence artificielle (IA) \u00e9volue \u00e0 une vitesse fulgurante, la disponibilit\u00e9 de donn\u00e9es d&#039;entra\u00eenement de qualit\u00e9 est cruciale.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/\" \/>\n<meta property=\"og:site_name\" content=\"AI Explorer\" \/>\n<meta property=\"article:published_time\" content=\"2025-06-06T21:05:31+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2026-04-18T04:05:16+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/ai-explorer.io\/blog\/wp-content\/uploads\/2025\/06\/image-9.avif\" \/>\n\t<meta property=\"og:image:width\" content=\"896\" \/>\n\t<meta property=\"og:image:height\" content=\"504\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"La voix du futur\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@aiexplorernews\" \/>\n<meta name=\"twitter:site\" content=\"@aiexplorernews\" \/>\n<meta name=\"twitter:label1\" content=\"\u00c9crit par\" \/>\n\t<meta name=\"twitter:data1\" content=\"La voix du futur\" \/>\n\t<meta name=\"twitter:label2\" content=\"Dur\u00e9e de lecture estim\u00e9e\" \/>\n\t<meta name=\"twitter:data2\" content=\"6 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/\"},\"author\":{\"name\":\"La voix du futur\",\"@id\":\"http:\/\/localhost:8081\/#\/schema\/person\/7af3a2824aaac8e3856fdeeaea3b0e1a\"},\"headline\":\"EleutherAI d\u00e9voile le Common Pile v0.1 : un dataset massif de 8 To pour l&rsquo;entra\u00eenement des mod\u00e8les d&rsquo;IA\",\"datePublished\":\"2025-06-06T21:05:31+00:00\",\"dateModified\":\"2026-04-18T04:05:16+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/\"},\"wordCount\":1173,\"commentCount\":6,\"publisher\":{\"@id\":\"http:\/\/localhost:8081\/#\/schema\/person\/7af3a2824aaac8e3856fdeeaea3b0e1a\"},\"image\":{\"@id\":\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/ai-explorer.io\/blog\/wp-content\/uploads\/2025\/06\/image-9.avif\",\"articleSection\":[\"Data\",\"IA\",\"Uncategorized\"],\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/\",\"url\":\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/\",\"name\":\"EleutherAI d\u00e9voile le Common Pile v0.1 : un dataset massif de 8 To pour l'entra\u00eenement des mod\u00e8les d'IA - AI Explorer\",\"isPartOf\":{\"@id\":\"http:\/\/localhost:8081\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/ai-explorer.io\/blog\/wp-content\/uploads\/2025\/06\/image-9.avif\",\"datePublished\":\"2025-06-06T21:05:31+00:00\",\"dateModified\":\"2026-04-18T04:05:16+00:00\",\"description\":\"Dans un monde o\u00f9 l'intelligence artificielle (IA) \u00e9volue \u00e0 une vitesse fulgurante, la disponibilit\u00e9 de donn\u00e9es d'entra\u00eenement de qualit\u00e9 est cruciale.\",\"breadcrumb\":{\"@id\":\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#primaryimage\",\"url\":\"https:\/\/ai-explorer.io\/blog\/wp-content\/uploads\/2025\/06\/image-9.avif\",\"contentUrl\":\"https:\/\/ai-explorer.io\/blog\/wp-content\/uploads\/2025\/06\/image-9.avif\",\"width\":896,\"height\":504,\"caption\":\"EleutherAI Common Pile v0.1\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/ai-explorer.io\/blog\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"EleutherAI d\u00e9voile le Common Pile v0.1 : un dataset massif de 8 To pour l&rsquo;entra\u00eenement des mod\u00e8les d&rsquo;IA\"}]},{\"@type\":\"WebSite\",\"@id\":\"http:\/\/localhost:8081\/#website\",\"url\":\"http:\/\/localhost:8081\/\",\"name\":\"AI Explorer - Actualit\u00e9s IA et tech en g\u00e9n\u00e9ral\",\"description\":\"Blog IA : actualit\u00e9s, guides et comparatifs\",\"publisher\":{\"@id\":\"http:\/\/localhost:8081\/#\/schema\/person\/7af3a2824aaac8e3856fdeeaea3b0e1a\"},\"alternateName\":\"AI Explorer\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"http:\/\/localhost:8081\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fr-FR\"},{\"@type\":[\"Person\",\"Organization\"],\"@id\":\"http:\/\/localhost:8081\/#\/schema\/person\/7af3a2824aaac8e3856fdeeaea3b0e1a\",\"name\":\"La voix du futur\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"http:\/\/localhost:8081\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/i0.wp.com\/ai-explorer.io\/wp-content\/uploads\/2025\/06\/image-2.jpg?fit=1024%2C1024&ssl=1\",\"contentUrl\":\"https:\/\/i0.wp.com\/ai-explorer.io\/wp-content\/uploads\/2025\/06\/image-2.jpg?fit=1024%2C1024&ssl=1\",\"width\":1024,\"height\":1024,\"caption\":\"La voix du futur\"},\"logo\":{\"@id\":\"http:\/\/localhost:8081\/#\/schema\/person\/image\/\"},\"sameAs\":[\"https:\/\/ai-explorer.io\/blog\/\",\"https:\/\/x.com\/aiexplorernews\"],\"url\":\"https:\/\/ai-explorer.io\/blog\/author\/lavoixdufutur\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"EleutherAI d\u00e9voile le Common Pile v0.1 : un dataset massif de 8 To pour l'entra\u00eenement des mod\u00e8les d'IA - AI Explorer","description":"Dans un monde o\u00f9 l'intelligence artificielle (IA) \u00e9volue \u00e0 une vitesse fulgurante, la disponibilit\u00e9 de donn\u00e9es d'entra\u00eenement de qualit\u00e9 est cruciale.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/","og_locale":"fr_FR","og_type":"article","og_title":"EleutherAI d\u00e9voile le Common Pile v0.1 : un dataset massif de 8 To pour l'entra\u00eenement des mod\u00e8les d'IA - AI Explorer","og_description":"Dans un monde o\u00f9 l'intelligence artificielle (IA) \u00e9volue \u00e0 une vitesse fulgurante, la disponibilit\u00e9 de donn\u00e9es d'entra\u00eenement de qualit\u00e9 est cruciale.","og_url":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/","og_site_name":"AI Explorer","article_published_time":"2025-06-06T21:05:31+00:00","article_modified_time":"2026-04-18T04:05:16+00:00","og_image":[{"width":896,"height":504,"url":"https:\/\/ai-explorer.io\/blog\/wp-content\/uploads\/2025\/06\/image-9.avif","type":"image\/jpeg"}],"author":"La voix du futur","twitter_card":"summary_large_image","twitter_creator":"@aiexplorernews","twitter_site":"@aiexplorernews","twitter_misc":{"\u00c9crit par":"La voix du futur","Dur\u00e9e de lecture estim\u00e9e":"6 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#article","isPartOf":{"@id":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/"},"author":{"name":"La voix du futur","@id":"http:\/\/localhost:8081\/#\/schema\/person\/7af3a2824aaac8e3856fdeeaea3b0e1a"},"headline":"EleutherAI d\u00e9voile le Common Pile v0.1 : un dataset massif de 8 To pour l&rsquo;entra\u00eenement des mod\u00e8les d&rsquo;IA","datePublished":"2025-06-06T21:05:31+00:00","dateModified":"2026-04-18T04:05:16+00:00","mainEntityOfPage":{"@id":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/"},"wordCount":1173,"commentCount":6,"publisher":{"@id":"http:\/\/localhost:8081\/#\/schema\/person\/7af3a2824aaac8e3856fdeeaea3b0e1a"},"image":{"@id":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#primaryimage"},"thumbnailUrl":"https:\/\/ai-explorer.io\/blog\/wp-content\/uploads\/2025\/06\/image-9.avif","articleSection":["Data","IA","Uncategorized"],"inLanguage":"fr-FR","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/","url":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/","name":"EleutherAI d\u00e9voile le Common Pile v0.1 : un dataset massif de 8 To pour l'entra\u00eenement des mod\u00e8les d'IA - AI Explorer","isPartOf":{"@id":"http:\/\/localhost:8081\/#website"},"primaryImageOfPage":{"@id":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#primaryimage"},"image":{"@id":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#primaryimage"},"thumbnailUrl":"https:\/\/ai-explorer.io\/blog\/wp-content\/uploads\/2025\/06\/image-9.avif","datePublished":"2025-06-06T21:05:31+00:00","dateModified":"2026-04-18T04:05:16+00:00","description":"Dans un monde o\u00f9 l'intelligence artificielle (IA) \u00e9volue \u00e0 une vitesse fulgurante, la disponibilit\u00e9 de donn\u00e9es d'entra\u00eenement de qualit\u00e9 est cruciale.","breadcrumb":{"@id":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/"]}]},{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#primaryimage","url":"https:\/\/ai-explorer.io\/blog\/wp-content\/uploads\/2025\/06\/image-9.avif","contentUrl":"https:\/\/ai-explorer.io\/blog\/wp-content\/uploads\/2025\/06\/image-9.avif","width":896,"height":504,"caption":"EleutherAI Common Pile v0.1"},{"@type":"BreadcrumbList","@id":"https:\/\/ai-explorer.io\/blog\/eleutherai-common-pile-dataset-entrainement-modeles-ia\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/ai-explorer.io\/blog\/"},{"@type":"ListItem","position":2,"name":"EleutherAI d\u00e9voile le Common Pile v0.1 : un dataset massif de 8 To pour l&rsquo;entra\u00eenement des mod\u00e8les d&rsquo;IA"}]},{"@type":"WebSite","@id":"http:\/\/localhost:8081\/#website","url":"http:\/\/localhost:8081\/","name":"AI Explorer - Actualit\u00e9s IA et tech en g\u00e9n\u00e9ral","description":"Blog IA : actualit\u00e9s, guides et comparatifs","publisher":{"@id":"http:\/\/localhost:8081\/#\/schema\/person\/7af3a2824aaac8e3856fdeeaea3b0e1a"},"alternateName":"AI Explorer","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"http:\/\/localhost:8081\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fr-FR"},{"@type":["Person","Organization"],"@id":"http:\/\/localhost:8081\/#\/schema\/person\/7af3a2824aaac8e3856fdeeaea3b0e1a","name":"La voix du futur","image":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"http:\/\/localhost:8081\/#\/schema\/person\/image\/","url":"https:\/\/i0.wp.com\/ai-explorer.io\/wp-content\/uploads\/2025\/06\/image-2.jpg?fit=1024%2C1024&ssl=1","contentUrl":"https:\/\/i0.wp.com\/ai-explorer.io\/wp-content\/uploads\/2025\/06\/image-2.jpg?fit=1024%2C1024&ssl=1","width":1024,"height":1024,"caption":"La voix du futur"},"logo":{"@id":"http:\/\/localhost:8081\/#\/schema\/person\/image\/"},"sameAs":["https:\/\/ai-explorer.io\/blog\/","https:\/\/x.com\/aiexplorernews"],"url":"https:\/\/ai-explorer.io\/blog\/author\/lavoixdufutur\/"}]}},"_links":{"self":[{"href":"https:\/\/ai-explorer.io\/blog\/wp-json\/wp\/v2\/posts\/4396","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/ai-explorer.io\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/ai-explorer.io\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/ai-explorer.io\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/ai-explorer.io\/blog\/wp-json\/wp\/v2\/comments?post=4396"}],"version-history":[{"count":6,"href":"https:\/\/ai-explorer.io\/blog\/wp-json\/wp\/v2\/posts\/4396\/revisions"}],"predecessor-version":[{"id":4577,"href":"https:\/\/ai-explorer.io\/blog\/wp-json\/wp\/v2\/posts\/4396\/revisions\/4577"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/ai-explorer.io\/blog\/wp-json\/wp\/v2\/media\/4401"}],"wp:attachment":[{"href":"https:\/\/ai-explorer.io\/blog\/wp-json\/wp\/v2\/media?parent=4396"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/ai-explorer.io\/blog\/wp-json\/wp\/v2\/categories?post=4396"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/ai-explorer.io\/blog\/wp-json\/wp\/v2\/tags?post=4396"},{"taxonomy":"tmauthors","embeddable":true,"href":"https:\/\/ai-explorer.io\/blog\/wp-json\/wp\/v2\/tmauthors?post=4396"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}