10/02/2025 @ 15:14:33: Programmation - Meta a téléchargé plus de 100 téraoctets de livres piratés pour la formation de l'IA
Selon Arstechnica, des courriels récemment rendus publics fourniraient la « preuve la plus accablante » à ce jour contre Meta dans une affaire de droits d’auteur soulevée par des auteurs de livres alléguant que Meta a illégalement formé ses modèles d’IA sur des livres piratés . Le mois dernier, Meta a admis avoir téléchargé par torrent un grand ensemble de données controversé connu sous le nom de LibGen, qui comprend des dizaines de millions de livres piratés. Mais les détails autour du téléchargement par torrent étaient obscurs jusqu’à hier, lorsque les courriels non expurgés de Meta ont été rendus publics pour la première fois. Les nouvelles preuves ont montré que Meta a téléchargé par torrent « au moins 81,7 téraoctets de données dans plusieurs bibliothèques fantômes via le site Anna’s Archive, dont au moins 35,7 téraoctets de données de Z-Library et LibGen », selon le dossier judiciaire des auteurs . Et « Meta a également téléchargé par torrent 80,6 téraoctets de données de LibGen ».
Meta aurait tenté de dissimuler l'ensemencement en n'utilisant pas les serveurs Facebook lors du téléchargement de l'ensemble de données pour « éviter » le « risque » que quiconque « remonte la piste du seeder/downloader » à partir des serveurs Facebook, a déclaré un message interne du chercheur de Meta Frank Zhang, tout en décrivant le travail comme étant en « mode furtif ». Meta aurait également modifié les paramètres « afin que la plus petite quantité possible d'ensemencement puisse se produire », a déclaré un dirigeant de Meta en charge de la gestion du projet, Michael Clark, dans une déposition . Mark Zuckerberg, par exemple, a affirmé n'avoir eu aucune implication dans les décisions d'utiliser LibGen pour former des modèles d'IA. Mais des messages non expurgés montrent que « la décision d'utiliser LibGen a été prise » après « une escalade préalable vers MZ », ont affirmé les auteurs.
Des courriels internes montrent que des employés de Meta étaient conscients des
Drive Mad implications juridiques de ces pratiques.