Se connecter
Se connecter
Inscription
Mot de passe perdu
Connexion:
[Actualités]
Test The Bridge Curse 2 : The Extrication (PS5)
[Actualités]
Google révolutionne Maps, Earth et Waze grâce à Gemini : une avalanche de nou...
[Actualités]
Le directeur des logiciels de Rivian déclare que l'utilisation de boutons dans ...
[Actualités]
Le télescope Euclid « Dark Universe » dévoile une fenêtre époustouflante d...
[Actualités]
iPhone 17 : début de la production de milliers d'appareils en Inde
[Actualités]
Amazon reporte Alexa 2.0 avec IA à 2025
[Actualités]
Le service de streaming Nintendo Music annoncé pour iOS et Android
[Actualités]
Test Mind Seize (PS5)
[Actualités]
Ubisoft lance le tout premier jeu blockchain, avec des NFT coûtant jusqu'à 64 ...
[Actualités]
Apple annonce la sortie de nouveaux MacBook Pro M4 le 8 novembre
[Articles]
Super Mario Party Jamboree
[Articles]
The Bridge Curse 2 : The Extrication
[Articles]
Fund Insight : ODDO BHF AM Artificial Intelligence
[Articles]
28 % des travailleurs dans le monde craignent l’impact de l’IA sur leur emploi
[Articles]
MindSeize
[Articles]
The Last Shot
[Articles]
Iron Meat
[Articles]
Devoteam et SecurityScorecard unissent leurs forces pour fournir des solutions d...
[Articles]
Plus d'un quart des scale-ups voient leur croissance ralentir en raison d'infras...
[Articles]
Embargo, nouveau rançongiciel, désactive les solutions de sécurité, selon un...
Actualités
Lettre d'information
Proposer une actualité
Archives
Actualités
Articles
Programmation
Press Release
Matériel
Logiciels
Livres
Interviews
Derniers commentaires
Jeux Vidéos
XBox One
XBox 360
Wii U
PSP
PS4
PS3
PC
DS
GameCube
3DS
Forum
Derniers messages
Informatique
Fun
Divers
Logithèque
Blogs
Divers
A Propos
Annonceurs
Contact
Recherche
RSS
Créer un nouveau sujet
forum_emoticons.html
[quote]Après les artistes, les éditeurs , les écrivains et les auteurs de blogs , les nouvelles victimes des entreprises qui doivent former une intelligence artificielle de plus en plus gourmande en données sont les créateurs de vidéos YouTube . Apple, NVIDIA, Anthropic et d'autres sociétés ont en effet utilisé les sous-titres de YouTube pour entraîner leur IA, évidemment sans autorisation. Commençons par le problème principal : l’IA a besoin de plus en plus de données pour s’entraîner et Internet ne suffit plus. La question a été clairement posée par Shalini Kurapati , co-fondatrice de Clearbox AI Solutions, lors de la réunion sur l'intelligence artificielle organisée au ISPI Summer Festival le 4 juillet dernier. Alors, que fait Clearbox AI ? Créez des données « synthétiques » pour entraîner l'IA, des données conformes aux dernières réglementations en matière de confidentialité (RGPD/CCPI). Clearbox AI n'est pas la seule entreprise de ce type, mais cela ne suffit évidemment pas aux entreprises qui développent l'IA, ou peut-être ne veulent-elles pas payer. Ainsi, une enquête menée par Proof News en collaboration avec Wired a révélé que plus de 170 000 vidéos YouTube provenant de plus de 48 000 chaînes ont été utilisées pour entraîner l'IA de géants multimilliardaires tels qu'Apple, NVIDIA, Anthropic et Salesforce, entre autres. Mais quelles données ont été collectées ? Pas des vidéos ou des images, mais les transcriptions, c'est-à-dire les sous-titres, qui proviennent d'une énorme collection de données appelée The Pile et collectées par l'association à but non lucratif EleutherAI. Les données Pile contiennent non seulement des transcriptions YouTube, mais 800 Go de données accessibles à tous et représentant, selon l'article, une source de données diversifiée pour améliorer les modèles linguistiques. Les entreprises n’ont donc pas collecté les données directement, mais ont utilisé les données collectées par EleutherAI. Le problème est que ces données, dont font partie les transcriptions YouTube, n'appartiennent pas à tout le monde, mais aux créateurs. Parmi les vidéos YouTube collectées figurent des images de MrBeast , Marques Brownlee , ABC News , BBC et le New York Times . Proof News a même créé un outil qui permet de savoir si un canal a été utilisé pour entraîner l'IA. Les documents montrent également comment Apple a utilisé The Pile pour former OpenELM, un modèle publié en avril, quelques semaines avant que la société ne révèle son Apple Intelligence. Bloomberg et Databricks ont également formé des modèles sur The Pile, ou encore Anthropic, une société dans laquelle Amazon a investi 4 milliards de dollars et qui se targue de ne pas entraîner ses modèles sur des données publiques et de promouvoir une IA « sûre ». Les entreprises se justifient en affirmant que les données YouTube ne représentent qu'une très petite partie de The Pile , qui sont de toute façon des données publiques et que le problème réside donc dans celui qui les a collectées, à savoir EleutherAI. Mais est-ce une justification valable ? L'année dernière, une analyse d'un ensemble de données appelé Books3 a révélé que les travaux de plusieurs écrivains tels que Margaret Atwood , Michael Pollan et Zadie Smith avaient été collectés pour former des modèles d'IA. Les auteurs ont intenté plusieurs poursuites contre des entreprises pour utilisation non autorisée de l'œuvre et violation des droits d'auteur, et la plateforme hébergeant Books3 l'a fermée. Le plus gros problème est donc la violation du droit d'auteur . Plusieurs créateurs se sont retrouvés arnaqués, en partie parce que personne ne leur a demandé s'ils pouvaient utiliser leur travail, et encore moins ne les a pas payés pour le faire. Et nous parlons d’ entreprises multimilliardaires . Mais il y a plus. L'IA peut être utilisée pour créer des vidéos avec le même contenu, comme David Pakman, de The David Pakman Show, l'a vu lorsqu'il est tombé sur une vidéo sur TikTok de Tucker Carlson, mais elle reproduisait exactement ses mots. Non seulement cela, mais il y a aussi un problème de contenu. Les développeurs de Salesforce ont signalé que The Pile contenait également des grossièretés et des « préjugés contre le genre et certains groupes religieux », et ont averti que cela pourrait conduire à « des vulnérabilités et des problèmes de sécurité ». Proof News a trouvé des milliers d'exemples de gros mots dans les légendes de YouTube, ainsi que des cas d' insultes raciales et sexistes, mais ces données ont été utilisées pour entraîner l'IA, qui les a ensuite appris. Si vous vous demandez ce qui va se passer maintenant, probablement rien. Les données ont déjà été apprises par l'IA, et les procès nous ont appris que, malgré leurs victoires, ils n'ont pas beaucoup de poids contre les géants du Web. YouTube interdit la collecte automatique de données à partir de la plateforme et a déclaré que The Pile pourrait enfreindre ses conditions d'utilisation, mais nous n'avons connaissance d'aucune action réelle. D'un autre côté, Google lui-même a mis à jour ses conditions de service pour donner son feu vert à l'utilisation de données pour entraîner l'IA, même à partir de vidéos YouTube . Le problème est que YouTube est une mine d’or en termes de données, car les sous-titres peuvent aider à entraîner les modèles à reproduire la façon dont les gens parlent et conversent. Ainsi, si vous créez une vidéo sur YouTube, comme toute autre chose sur Internet, attendez-vous à ce qu’elle soit utilisée pour entraîner l’IA. %news:source%: [url=news_item-38149.html]news_item-38149.html[/url] [/quote]
Ada
CSS
Cobol
CPP
HTML
Fortran
Java
JavaScript
Pascal
Perl
PHP
Python
SQL
VB
XML
Anon URL
DailyMotion
eBay
Flickr
FLV
Google Video
Google Maps
Metacafe
MP3
SeeqPod
Veoh
Yahoo Video
YouTube
6px
8px
10px
12px
14px
16px
18px
Informaticien.be
- © 2002-2024
Akretio
SPRL - Generated via
Kelare
The Akretio Network:
Akretio
-
Freedelity
-
KelCommerce
-
Votre publicité sur informaticien.be ?