Envoyer une nouvelle - Informaticien.be

Publié le: 08/08/2023 @ 17:14:56: Par Nic007 Dans "Logiciels"

Si Internet était autrefois analysé en continu principalement par les crawlers des moteurs de recherche , dont le plus célèbre est GoogleBot, l'avènement des modèles d'intelligence artificielle comme ChatGPT a marqué l'arrivée d'un nouveau type de robot. De plus en plus avides de connaissances et de données pour leur propre formation, ces outils ont scanné (et scannent encore, grâce à la capacité de connexion) le web de loin, sans possibilité de mettre un barrage sur le phénomène, mais maintenant OpenAI a mis en ligne un guide sur la façon d'éviter cela, au moins pour GPTBot. Mais pourquoi ne souhaiteriez-vous pas que votre site ne soit pas utilisé par des mannequins ? En fait, OpenAI affirme que l'analyse des pages Web à l'aide de GPTBot peut potentiellement " être utilisée pour améliorer les futurs modèles et est filtrée pour supprimer les sources qui demandent un accès au mur payant, collectent des informations personnellement identifiables (PII) ou contiennent du texte qui viole [leurs] politiques ", et " permettre à GPTBot d'accéder à [votre] site peut aider les modèles d'IA à devenir plus précis et à améliorer leurs capacités globales et leur sécurité ".

Il y a cependant un problème. Les robots assimilent gratuitement les données du site et les réutilisent pour produire du contenu payant, indépendamment du droit d'auteur ou de toute autre chose. ChatGPT ou Bard apprennent indifféremment des publications sur les réseaux sociaux ainsi que des œuvres protégées par le droit d'auteur , et engorgent les serveurs d'entreprises comme Reddit et Twitter avec leurs appels, à tel point que ces entreprises ont finalement décidé, pour obtenir leur part du gâteau, de limiter l'accès à API et coupant ainsi les clients tiers . Les modèles d'intelligence artificielle assimilent le contenu des œuvres et les reproduisent, sans demander la permission à personne. Pour cette raison, le site DevianArt a conçu l'année dernière le tag "noai", pour indiquer la volonté des artistes de ne pas inclure leur travail dans la formation du modèle propriétaire du site. Désormais, OpenAI offre également la possibilité de ne pas faire scanner votre site par GPTBot. La façon dont cela fonctionne est très similaire au système que vous utiliseriez pour ne pas avoir votre site indexé par un moteur de recherche. En fait, vous pouvez insérer les chaînes suivantes dans le fichier robots.txt du site :

User-agent : GPTBot
Disallow : /

Ou encore limiter l'accès à certaines parties du site en saisissant dans le fichier robots.txt les contenus suivants (à personnaliser) :

User-agent : GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Alternativement, vous pouvez bloquer le bloc d'adresse IP d'OpenAI trouvé sur https://openai.com/gptbot-ranges.txt . Veuillez noter que cela ne supprimera pas les données déjà utilisées de votre site , mais bloquera désormais les analyses. Bien sûr, ce n'est qu'un début, mais c'est un pas dans la bonne direction, même s'il reste encore beaucoup de travail à faire. En fait, les entreprises qui développent ces modèles ont promis, même à la Maison Blanche, qu'elles travailleraient pour faire savoir aux gens si un contenu a été généré par l'IA ou non (chose qu'eux-mêmes ne peuvent pas savoir ), mais pour le moment, il on ne sait pas à quel stade en sont les travaux.

Envoyer une nouvelle à un ami

Sujet:
Email:
Texte: