Comment bloquer le crawler ChatGPT avec une instruction dans robots.txt

Interdire chagpt avec robots.txt

Halte au vol de données et au viol du droit d’auteur par ChatGPT et consorts !

Avis perso : j’adore ChatGPT, surtout en version 4 et je pense que les large language models (LLMs) sont une partie de l’avenir de l’informatique.

Par contre, j’aime pas trop quand une énième entreprise américaine bâti sa fortune sur mon dos, violant allègrement mon copyright avant de me revendre ce qu’elle a fait avec mes données volées.

Jusqu’à présent, les données qui ont servi à entraîner non seulement ChatGPT mais des nombreuses autres applications du même type, ont été purement et simplement prises sur Internet, sans aucun égard pour le droit d’auteur.

On verra si les systèmes judiciaires et les législateurs du monde entier forcent les entreprises voleuses à nous verser des droits d’auteur – et avant cela, il faudrait déjà qu’elles nous fournissent un moyen de savoir si nos pages web font partie de leur corpus ou pas !!

En tout cas, il est d’ores et déjà possible d’empêcher tout nouveau vol de données. Tout simplement en bloquant les robots susceptibles d’indexer nos contenus sans notre consentement.

Interdisez les robots ChatGPT et autres dans le fichier robots.txt

Le fichier robots.txt se place à la racine du dossier de votre site web sur son hébergement.

Il vous suffira de rajouter ces instructions à la fin de votre fichier robots.txt :

User-agent: CCBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

Comme l’explique le Search Engine Journal, CCBot est le robot d’exploration de Common Crawl, organisation à but non-lucratif mais dont la base de données du même nom entre dans la composition des données sur lesquelles ChatGPT a été entraîné.

Quant à ChatGPT-User, il s’agit évidemment du chatbot chatGPT, dorénavant autorisé, en version GPT4 et avec les plugins, à aller surfer sur le net – et donc au passage à pomper des réponses sur nos sites web sans rien nous donner en retour. Sympa, mais sans moi.

A noter que l’IA est à double-tranchant : elle permet aux éditeurs de produire plus de contenus plus vite, mais aboutira probablement à diminuer leur trafic en répondant à leur place aux questions des gens.

Qu'avez-vous pensé de cet article ?

Cliquez sur une étoile pour donner votre avis

Avis moyen 4.2 / 5. Nombre d'avis donnés 5

Soyez le premier à donner votre avis



Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Besoin d'un hébergeur ?

Convivial, sympa, fiable, et pas cher,
O2Switch me semble être la meilleure offre actuellement sur le marché français.
C'est pourquoi j'y héberge tous mes sites. Hébergement O2Switch
Panier
//
Retour en haut