traduction française de l'article
20 mars 2025
Par Alex Reisner, journaliste▲ Alex Reisner*
à propos de alex:
Alex Reisner est programmeur et collaborateur à la rédaction de The Atlantic. Il tente d'améliorer le débat public sur les modèles statistiques de l'Intelligence artificielle. En août 2023, il a écrit sur de Books3, une collection de 192 000 livres électroniques piratés utilisés par Apple, Meta, Bloomberg, Nvidia et d'autres entreprises. Il écrit aussi sur la mémorisation des grands modèles de langage et sur les procès en cours concernant les droits d'auteurs aux États-Unis.
Meta a piraté des millions de livres pour entraîner son IA. Vous pouvez les consulter ici.
Lorsque les employés de Meta ont commencé à développer leur modèle d'IA principal, Llama 3, ils ont été confrontés à une question éthique simple. Pour être compétitif par rapport à des produits tels que ChatGPT, le programme devait être entraîné à partir d'un grand nombre de textes de haute qualité, et l'acquisition légale de tous ces textes pouvait prendre du temps. Devraient-ils alors plutôt les pirater ?
Les employés de Meta se sont entretenus avec plusieurs entreprises au sujet de l'octroi de licences pour des livres et des documents de recherche, mais ils n'ont pas été enchantés par les options qui s'offraient à eux. Cela « semble déraisonnablement cher », a écrit un chercheur sur un forum de discussion interne à l'entreprise, en référence à un accord potentiel, selon des documents judiciaires. Un cadre supérieur de l'équipe Llama a ajouté qu'il s'agirait également d'un processus « incroyablement lent » : "Il leur faut plus de quatre semaines pour fournir des données. Dans un message trouvé dans un autre dossier juridique, un directeur de l'ingénierie a souligné un autre inconvénient de cette approche : « Le problème est que les gens ne réalisent pas que si nous accordons une licence à un seul livre, nous ne pourrons pas nous appuyer sur la stratégie d'utilisation équitable », une référence à une défense juridique possible pour l'utilisation de livres protégés par des droits d'auteur pour entraîner l'IA.
Les documents judiciaires publiés hier soir montrent que le directeur général estimait qu'il était « vraiment important pour Meta d'obtenir des livres le plus rapidement possible », car « les livres sont en fait plus importants que les données web ». Les employés de Meta se sont intéressés à la bibliothèque Genesis, ou ▲ LibGen, l'une des plus grandes bibliothèques pirates qui circulent en ligne. Elle contient actuellement plus de 7,5 millions de livres et 81 millions de documents de recherche. Par la suite, l'équipe de Meta a obtenu l'autorisation de « MZ » - une référence apparente au PDG de Meta, Mark Zuckerberg - de télécharger et d'utiliser l'ensemble de données.
Cet acte, ainsi que d'autres informations décrites et citées ici, ont récemment été rendus publiques lorsque certaines communications internes de Meta ont été dévoilées dans le cadre d'un procès pour violation du droit d'auteur intenté à la société par Sarah Silverman, Junot Díaz et d'autres auteurs de livres figurant dans LibGen. Il a également été révélé récemment, dans un autre procès intenté par un groupe d'auteurs similaire, qu'OpenAI a utilisé LibGen dans le passé. (Un porte-parole de Meta s'est refusé à tout commentaire, invoquant le litige en cours contre l'entreprise. Dans une réponse envoyée après la publication de cet article, un porte-parole d'OpenAI a déclaré : "Les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à l'aide de ces ensembles de données. Ces ensembles de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021").
Jusqu'à présent, la plupart des gens n'ont pas eu accès au contenu de cette bibliothèque, même s'ils ont probablement été exposés à des produits d'IA générative qui l'utilisent ; selon Zuckerberg, l'assistant « Meta AI » a été utilisé par des centaines de millions de personnes (il est intégré dans les produits Meta tels que Facebook, WhatsApp et Instagram). Pour illustrer le type de travail utilisé par Meta et OpenAI, j'ai accédé à un instantané des métadonnées de LibGen - révélant le contenu de la bibliothèque sans télécharger ou distribuer les livres ou les documents de recherche eux-mêmes - et je les ai utilisées pour créer une base de données interactive dans laquelle vous pouvez effectuer une recherche ici
Il convient de garder à l'esprit certaines mises en garde importantes. Il est impossible de savoir exactement quelles parties de LibGen Meta et OpenAI sont utilisées pour entraîner leurs modèles, et quelles parties ils ont pu exclure. De plus, la base de données est en constante évolution. Mon cliché de LibGen a été pris en janvier 2025, plus d'un an après que Meta y ait accédé, selon le procès, de sorte que certains titres n'auraient pas pu être téléchargés à ce moment-là.
Les métadonnées de LibGen sont assez désorganisées. Il y a des erreurs partout. Bien que j'aie nettoyé les données de diverses manières, LibGen est trop vaste et parsemé d'erreurs pour que l'on puisse facilement tout corriger. Cujo, L'Archipel du Goulag, plusieurs œuvres de Joan Didion traduites en plusieurs langues, un article universitaire intitulé « Survivre à une cyberapocalypse » - tout y est, ainsi que des millions d'autres œuvres que les entreprises d'IA pourraient intégrer dans leurs modèles.
Meta et OpenAI ont tous deux fait valoir devant les tribunaux qu'il s'agissait d'un « usage loyal » d'entraîner leurs modèles d'IA générative sur des œuvres protégées par le droit d'auteur sans licence, parce que les LLM « transforment » le matériel original en une nouvelle œuvre. Cette défense soulève des questions épineuses loin d'être résolues. Mais l'utilisation de LibGen soulève un autre problème. Le téléchargement en masse est souvent effectué avec BitTorrent, le protocole de partage de fichiers apprécié des pirates pour son anonymat, et le téléchargement avec BitTorrent implique généralement le téléchargement simultané vers d'autres utilisateurs. Des communications internes montrent des employés affirmant que Meta a effectivement téléchargé LibGen, ce qui signifie que Meta aurait pu non seulement accéder à du matériel piraté, mais aussi le distribuer à d'autres personnes - ce qui est bien établi comme étant illégal en vertu de la loi sur le droit d'auteur, quelle que soit la décision des tribunaux concernant l'utilisation de matériel protégé par le droit d'auteur pour former l'intelligence artificielle générative. (Meta a affirmé avoir « pris des précautions pour ne pas “ensemencer” les fichiers téléchargés » et qu'il n'y a « aucun fait démontrant » qu'il a distribué les livres à d'autres personnes). La méthode de téléchargement d'OpenAI n'est pas encore connue.
Les employés de Meta ont reconnu dans leurs communications internes que l'entraînement de Llama sur LibGen présentait un « risque juridique moyennement élevé » et ont discuté d'une série de « mesures d'atténuation » pour masquer leur activité. Un employé a recommandé aux développeurs de « supprimer les données clairement marquées comme étant piratées ou volées » et de « ne pas citer en externe l'utilisation de données de formation, y compris LibGen ». Un autre a proposé de supprimer toute ligne contenant ISBN, Copyright, ©, Tous droits réservés. Un cadre supérieur de l'équipe Llama a suggéré de peaufiner Llama pour qu'il « refuse de répondre à des requêtes du type : “reproduire les trois premières pages de l'ouvrage” » : « reproduire les trois premières pages de »Harry Potter et la pierre du sorcier« ». Un employé a fait remarquer que « faire du torrent à partir d'un ordinateur portable de l'entreprise n'est pas très correct ».
Il est facile de comprendre pourquoi LibGen intéresse les entreprises d'IA générative, dont les produits nécessitent d'énormes quantités de texte. LibGen est énorme, bien plus grand que Books3, une autre collection de livres piratés dont j'ai révélé le contenu en 2023. Parmi les autres ouvrages de LibGen figurent des ouvrages récents et des ouvrages non romanesques d'auteurs éminents tels que Sally Rooney, Percival Everett, Hua Hsu, Jonathan Haidt et Rachel Khong, ainsi que des articles tirés de revues universitaires de premier plan telles que Nature, Science et The Lancet. Il comprend plusieurs millions d'articles provenant d'éditeurs de revues académiques de premier plan tels qu'Elsevier et Sage Publications.
LibGen a été créée vers 2008 par des scientifiques russes. Comme l'a écrit un administrateur de LibGen, la collection existe pour servir les personnes « en Afrique, en Inde, au Pakistan, en Iran, en Irak, en Chine, en Russie et après l'URSS, etc. et, par ailleurs, les personnes qui n'appartiennent pas au monde universitaire ». Au fil des ans, la collection s'est étoffée au fur et à mesure que les contributeurs ajoutaient de plus en plus d'œuvres piratées. Au départ, la majeure partie de LibGen était en russe, mais les œuvres en anglais ont rapidement dominé la collection. Si LibGen s'est développée aussi rapidement et n'a pas été fermée par les autorités, c'est en partie grâce à sa méthode de diffusion. Alors que d'autres bibliothèques sont hébergées en un seul endroit et nécessitent un mot de passe pour y accéder, LibGen est partagée dans différentes versions par différentes personnes via des réseaux peer-to-peer.
Nombreux sont ceux qui, dans le monde universitaire, estiment que les éditeurs ont provoqué ce type de piratage en rendant l'accès à la recherche inutilement difficile et coûteux. Sci-Hub, un frère de LibGen, a été lancé indépendamment en 2011 par une étudiante kazakhe en neurosciences, Alexandra Elbakyan, dont l'université n'offrait pas d'accès aux grandes bases de données universitaires. La même année, l'hacktiviste Aaron Swartz a été arrêté après avoir récupéré des millions d'articles de JSTOR dans le but de créer une bibliothèque similaire.
Les éditeurs ont tenté de mettre un terme à la diffusion de matériel piraté. En 2015, l'éditeur universitaire Elsevier a déposé une plainte contre LibGen, Sci-Hub, d'autres sites et Elbakyan personnellement. Le tribunal a accordé une injonction, a ordonné aux sites de fermer et a condamné Sci-Hub à verser 15 millions de dollars de dommages et intérêts à Elsevier. Pourtant, les sites sont restés ouverts et les amendes n'ont pas été payées. Une histoire similaire s'est déroulée en 2023, lorsqu'un groupe d'éditeurs scolaires et professionnels, dont Macmillan Learning et McGraw Hill, a poursuivi LibGen. Cette fois, le tribunal a ordonné à LibGen de payer 30 millions de dollars de dommages et intérêts, dans ce que TorrentFreak a appelé « l'une des injonctions anti-piratage les plus importantes que nous ayons vues de la part d'un tribunal américain ». Mais cette amende n'a pas été payée et, jusqu'à présent, les autorités ont été largement incapables de limiter la diffusion de ces bibliothèques en ligne. Dix-sept ans après sa création, LibGen continue de se développer.
Tout cela rend certainement le savoir et la littérature plus accessibles, mais cela repose entièrement sur les personnes qui créent ce savoir et cette littérature en premier lieu - ce travail qui demande du temps, de l'expertise et souvent de l'argent. Pire encore, les chatbots de l'IA générative sont présentés comme des oracles qui ont « appris » à partir de leurs données d'apprentissage et ne citent souvent pas de sources (ou citent des sources imaginaires). Cela décontextualise les connaissances, empêche les humains de collaborer et rend plus difficile pour les écrivains et les chercheurs de se faire une réputation et de s'engager dans un débat intellectuel sain.Les entreprises d'IA générative affirment que leurs chatbots feront eux-mêmes des progrès scientifiques, mais ces affirmations sont purement spéculatives.
L'une des plus grandes questions de l'ère numérique est de savoir comment gérer le flux de connaissances et de travaux créatifs d'une manière qui profite le plus à la société. LibGen et d'autres bibliothèques pirates de ce type rendent l'information plus accessible, en permettant aux gens de lire des œuvres originales sans avoir à les payer. Les entreprises d'IA générative telles que Meta sont allées plus loin : Leur objectif est d'absorber le travail dans des produits technologiques rentables qui rivalisent avec les originaux. Ces produits seront-ils meilleurs pour la société que le dialogue humain qu'ils commencent déjà à remplacer ?