Publié le: 26/07/2024 @ 13:47:45: Par Nic007 Dans "Programmation"

Il y a quelques années encore, le Web regorgeait de contenus, certains douteux, d’autres peu crédibles, d’autres encore inexacts. L'élément commun qui caractérisait ces contenus était la source humaine . Aujourd’hui, ce n’est plus le cas : ces dernières années, l’IA a été utilisée à grande échelle par des millions de personnes, et chaque jour le contenu qu’elle génère rebondit sur le web . Ce contenu, de plus en plus riche en apports venus de l’IA, ne profite pas aux nouveaux apprentissages de l’IA. Cela a été prouvé par l’étude que nous avons mentionnée ci-dessus. En fait, les chercheurs ont entraîné l'IA avec du contenu généré par l'IA elle-même, de manière récursive , c'est-à-dire plusieurs fois. Et le résultat a été une détérioration de la qualité du contenu généré cycle après cycle de formation. Au point que l'IA était devenue vraiment peu "intelligente" , générant des textes avec des phrases très répétées , voire arrivant au point de ne plus pouvoir faire la différence entre une église et un lièvre . Cela ouvre la discussion sur un sujet important : ceux qui développent l’IA, et en particulier ceux qui le font à grande échelle comme les grandes entreprises technologiques, doivent adopter une politique de transparence concernant les données qu’ils utilisent pour entraîner leurs modèles génératifs. Cela permettrait de toujours maintenir un certain seuil de qualité pour l’IA, également en termes de formation.
