Après les artistes, les éditeurs , les écrivains et les auteurs de blogs , les nouvelles victimes des entreprises qui doivent former une intelligence artificielle de plus en plus gourmande en données sont les créateurs de vidéos YouTube . Apple, NVIDIA, Anthropic et d'autres sociétés ont en effet utilisé les sous-titres de YouTube pour entraîner leur IA, évidemment sans autorisation. Commençons par le problème principal : l’IA a besoin de plus en plus de données pour s’entraîner et Internet ne suffit plus. La question a été clairement posée par Shalini Kurapati , co-fondatrice de Clearbox AI Solutions, lors de la réunion sur l'intelligence artificielle organisée au ISPI Summer Festival le 4 juillet dernier. Alors, que fait Clearbox AI ? Créez des données « synthétiques » pour entraîner l'IA, des données conformes aux dernières réglementations en matière de confidentialité (RGPD/CCPI). Clearbox AI n'est pas la seule entreprise de ce type, mais cela ne suffit évidemment pas aux entreprises qui développent l'IA, ou peut-être ne veulent-elles pas payer. Ainsi, une enquête menée par Proof News en collaboration avec Wired a révélé que plus de 170 000 vidéos YouTube provenant de plus de 48 000 chaînes ont été utilisées pour entraîner l'IA de géants multimilliardaires tels qu'Apple, NVIDIA, Anthropic et Salesforce, entre autres.
Mais quelles données ont été collectées ? Pas des vidéos ou des images, mais les transcriptions, c'est-à-dire les sous-titres, qui proviennent d'une énorme collection de données appelée The Pile et collectées par l'association à but non lucratif EleutherAI. Les données Pile contiennent non seulement des transcriptions YouTube, mais 800 Go de données accessibles à tous et représentant, selon l'article, une source de données diversifiée pour améliorer les modèles linguistiques. Les entreprises n’ont donc pas collecté les données directement, mais ont utilisé les données collectées par EleutherAI. Le problème est que ces données, dont font partie les transcriptions YouTube, n'appartiennent pas à tout le monde, mais aux créateurs. Parmi les vidéos YouTube collectées figurent des images de MrBeast , Marques Brownlee , ABC News , BBC et le New York Times . Proof News a même créé un outil qui permet de savoir si un canal a été utilisé pour entraîner l'IA. Les documents montrent également comment Apple a utilisé The Pile pour former OpenELM, un modèle publié en avril, quelques semaines avant que la société ne révèle son Apple Intelligence. Bloomberg et Databricks ont également formé des modèles sur The Pile, ou encore Anthropic, une société dans laquelle Amazon a investi 4 milliards de dollars et qui se targue de ne pas entraîner ses modèles sur des données publiques et de promouvoir une IA « sûre ». Les entreprises se justifient en affirmant que les données YouTube ne représentent qu'une très petite partie de The Pile , qui sont de toute façon des données publiques et que le problème réside donc dans celui qui les a collectées, à savoir EleutherAI. Mais est-ce une justification valable ?
L'année dernière, une analyse d'un ensemble de données appelé Books3 a révélé que les travaux de plusieurs écrivains tels que Margaret Atwood , Michael Pollan et Zadie Smith avaient été collectés pour former des modèles d'IA. Les auteurs ont intenté plusieurs poursuites contre des entreprises pour utilisation non autorisée de l'œuvre et violation des droits d'auteur, et la plateforme hébergeant Books3 l'a fermée. Le plus gros problème est donc la violation du droit d'auteur . Plusieurs créateurs se sont retrouvés arnaqués, en partie parce que personne ne leur a demandé s'ils pouvaient utiliser leur travail, et encore moins ne les a pas payés pour le faire. Et nous parlons d’ entreprises multimilliardaires . Mais il y a plus. L'IA peut être utilisée pour créer des vidéos avec le même contenu, comme David Pakman, de The David Pakman Show, l'a vu lorsqu'il est tombé sur une vidéo sur TikTok de Tucker Carlson, mais elle reproduisait exactement ses mots. Non seulement cela, mais il y a aussi un problème de contenu. Les développeurs de Salesforce ont signalé que The Pile contenait également des grossièretés et des « préjugés contre le genre et certains groupes religieux », et ont averti que cela pourrait conduire à « des vulnérabilités et des problèmes de sécurité ». Proof News a trouvé des milliers d'exemples de gros mots dans les légendes de YouTube, ainsi que des cas d' insultes raciales et sexistes, mais ces données ont été utilisées pour entraîner l'IA, qui les a ensuite appris.
Si vous vous demandez ce qui va se passer maintenant, probablement rien. Les données ont déjà été apprises par l'IA, et les procès nous ont appris que, malgré leurs victoires, ils n'ont pas beaucoup de poids contre les géants du Web. YouTube interdit la collecte automatique de données à partir de la plateforme et a déclaré que The Pile pourrait enfreindre ses conditions d'utilisation, mais nous n'avons connaissance d'aucune action réelle. D'un autre côté, Google lui-même a mis à jour ses conditions de service pour donner son feu vert à l'utilisation de données pour entraîner l'IA, même à partir de vidéos YouTube . Le problème est que YouTube est une mine d’or en termes de données, car les sous-titres peuvent aider à entraîner les modèles à reproduire la façon dont les gens parlent et conversent. Ainsi, si vous créez une vidéo sur YouTube, comme toute autre chose sur Internet, attendez-vous à ce qu’elle soit utilisée pour entraîner l’IA.
Mais quelles données ont été collectées ? Pas des vidéos ou des images, mais les transcriptions, c'est-à-dire les sous-titres, qui proviennent d'une énorme collection de données appelée The Pile et collectées par l'association à but non lucratif EleutherAI. Les données Pile contiennent non seulement des transcriptions YouTube, mais 800 Go de données accessibles à tous et représentant, selon l'article, une source de données diversifiée pour améliorer les modèles linguistiques. Les entreprises n’ont donc pas collecté les données directement, mais ont utilisé les données collectées par EleutherAI. Le problème est que ces données, dont font partie les transcriptions YouTube, n'appartiennent pas à tout le monde, mais aux créateurs. Parmi les vidéos YouTube collectées figurent des images de MrBeast , Marques Brownlee , ABC News , BBC et le New York Times . Proof News a même créé un outil qui permet de savoir si un canal a été utilisé pour entraîner l'IA. Les documents montrent également comment Apple a utilisé The Pile pour former OpenELM, un modèle publié en avril, quelques semaines avant que la société ne révèle son Apple Intelligence. Bloomberg et Databricks ont également formé des modèles sur The Pile, ou encore Anthropic, une société dans laquelle Amazon a investi 4 milliards de dollars et qui se targue de ne pas entraîner ses modèles sur des données publiques et de promouvoir une IA « sûre ». Les entreprises se justifient en affirmant que les données YouTube ne représentent qu'une très petite partie de The Pile , qui sont de toute façon des données publiques et que le problème réside donc dans celui qui les a collectées, à savoir EleutherAI. Mais est-ce une justification valable ?
L'année dernière, une analyse d'un ensemble de données appelé Books3 a révélé que les travaux de plusieurs écrivains tels que Margaret Atwood , Michael Pollan et Zadie Smith avaient été collectés pour former des modèles d'IA. Les auteurs ont intenté plusieurs poursuites contre des entreprises pour utilisation non autorisée de l'œuvre et violation des droits d'auteur, et la plateforme hébergeant Books3 l'a fermée. Le plus gros problème est donc la violation du droit d'auteur . Plusieurs créateurs se sont retrouvés arnaqués, en partie parce que personne ne leur a demandé s'ils pouvaient utiliser leur travail, et encore moins ne les a pas payés pour le faire. Et nous parlons d’ entreprises multimilliardaires . Mais il y a plus. L'IA peut être utilisée pour créer des vidéos avec le même contenu, comme David Pakman, de The David Pakman Show, l'a vu lorsqu'il est tombé sur une vidéo sur TikTok de Tucker Carlson, mais elle reproduisait exactement ses mots. Non seulement cela, mais il y a aussi un problème de contenu. Les développeurs de Salesforce ont signalé que The Pile contenait également des grossièretés et des « préjugés contre le genre et certains groupes religieux », et ont averti que cela pourrait conduire à « des vulnérabilités et des problèmes de sécurité ». Proof News a trouvé des milliers d'exemples de gros mots dans les légendes de YouTube, ainsi que des cas d' insultes raciales et sexistes, mais ces données ont été utilisées pour entraîner l'IA, qui les a ensuite appris.
Si vous vous demandez ce qui va se passer maintenant, probablement rien. Les données ont déjà été apprises par l'IA, et les procès nous ont appris que, malgré leurs victoires, ils n'ont pas beaucoup de poids contre les géants du Web. YouTube interdit la collecte automatique de données à partir de la plateforme et a déclaré que The Pile pourrait enfreindre ses conditions d'utilisation, mais nous n'avons connaissance d'aucune action réelle. D'un autre côté, Google lui-même a mis à jour ses conditions de service pour donner son feu vert à l'utilisation de données pour entraîner l'IA, même à partir de vidéos YouTube . Le problème est que YouTube est une mine d’or en termes de données, car les sous-titres peuvent aider à entraîner les modèles à reproduire la façon dont les gens parlent et conversent. Ainsi, si vous créez une vidéo sur YouTube, comme toute autre chose sur Internet, attendez-vous à ce qu’elle soit utilisée pour entraîner l’IA.
Liens
Lien (112 Clics)
Plus d'actualités dans cette catégorie