Publié le: 08/04/2024 @ 14:44:19: Par Nic007 Dans "Programmation"
Ces derniers jours, le Wall Street Journal a rapporté que les sociétés d'intelligence artificielle avaient des difficultés à récupérer des données de formation de haute qualité. À cet égard, fin 2021 , OpenAI aurait épuisé les sources fiables de texte anglais sur internet. Pour cette raison, ils développeraient Whisper , un outil de reconnaissance vocale permettant la transcription audio. Ainsi, pour surmonter ces difficultés, selon le New York Times , la société a transcrit plus d'un million d'heures de vidéos de YouTube pour la formation GPT-4, même si la plateforme interdit à la fois le téléchargement et le scraping des vidéos. Entre autres choses, la plateforme aurait détecté un accès par OpenAI, cependant il n'y aurait eu aucune intervention car Google aurait également transcrit ses vidéos pour entraîner ses modèles d'intelligence artificielle. En ce sens, selon un porte-parole de Google, des accords ont été signés avec les créateurs.
Il est donc certain que pour mieux entraîner les modèles d’IA, davantage de données sont nécessaires. C'est également pour cette raison que le géant de Mountain View a modifié les conditions de services et de confidentialité pour accéder aux données publiques déclenchées par les utilisateurs sur diverses applications , telles que Maps et Documents. À cet égard, le porte-parole de l'entreprise a également déclaré que le consentement explicite des utilisateurs est demandé. Meta a également rencontré des difficultés liées à la récupération des données. Cependant, pour éviter les plaintes pour violation du droit d'auteur, la société a même envisagé d'acheter une grande maison d'édition. Pour surmonter toute criticité, une des solutions serait d’ utiliser des données synthétiques , c’est-à -dire celles générées par d’autres modèles d’IA. Un doute sur cette voie est cependant lié au risque de commettre quelques erreurs. Bref, la question apparaît assez complexe et il faudra certainement du temps avant d’atteindre un tournant décisif.
Il est donc certain que pour mieux entraîner les modèles d’IA, davantage de données sont nécessaires. C'est également pour cette raison que le géant de Mountain View a modifié les conditions de services et de confidentialité pour accéder aux données publiques déclenchées par les utilisateurs sur diverses applications , telles que Maps et Documents. À cet égard, le porte-parole de l'entreprise a également déclaré que le consentement explicite des utilisateurs est demandé. Meta a également rencontré des difficultés liées à la récupération des données. Cependant, pour éviter les plaintes pour violation du droit d'auteur, la société a même envisagé d'acheter une grande maison d'édition. Pour surmonter toute criticité, une des solutions serait d’ utiliser des données synthétiques , c’est-à -dire celles générées par d’autres modèles d’IA. Un doute sur cette voie est cependant lié au risque de commettre quelques erreurs. Bref, la question apparaît assez complexe et il faudra certainement du temps avant d’atteindre un tournant décisif.
Plus d'actualités dans cette catégorie