Bot IA et droit d’auteurs

Le fichier robots.txt est une méthode générique pour restreindre l’accès à des ressources pendant le crawl d’un site web, mais ne permet pas de répondre à tous les défis que pose l’intelligence artificielle vis-à-vis des données protégée par un copyright. Des initiatives sont apparues et plusieurs spécifications ont été proposées pour s’attaquer à ce problème, qui prend de plus en plus d’importance à mesure que les modèles d’IA génératif se développent. D’autres initiatives, comme le fichier llm.txt, visent au contraire à faciliter l’integration des données dans des modèles d’IA.

ai.txt

Le fichier ai.txt est un fichier qui reprend le format et la syntaxe du fichier robots.txt, ce qui simplifiera sans doute son acceptation et son développement. Les différences sont explicitées dans ce blog. La principale différence entre le fichier robots.txt et le fichier ai.txt soulignée par les auteurs, c’est le moment ou les informations sont prises en compte.

Pour le fichier robots.txt, c’est quand un bot souhaite récupérer les pages d’un site qu’il consulte le fichier et sait ce qu’il à quoi il peut accéder et ce qui est hors limite. Cela permet de se protéger notamment de la génération d’ensemble de données dédié à l’entrainement d’un modèle, mais pas d’une utilisation ultérieure sous forme d’un lien hypertexte. Deux cas d’utilisation :

  • un assistant Ia fournit une réponse qui contient un lien vers votre ressource, dans ce cas le robots.txt n’est pas pris en compte car il ne s’agit pas d’un scrapping,
  • si un autre site utilise une de vos ressources (une image par exemple) et que ce site est scrappé par un bot IA, alors ce ne sera pas votre robots.txt qui sera pris en compte.

D’après les auteurs, le fichier ‘ai.txt’ est un moyen de résoudre ces deux cas d’usage car :

  • le fichier doit être lu en cas d’accès à une ressource, et pas seulement lors du scrapping d’un site
  • les bots IA sont censés vérifier les permissions du site d’ou la ressource est téléchargée et pas seulement du site ou la ressource est citée.

Il y a donc un travail non négligeable du cote des outils d’IA, autant des bots que de n’importe quel outil fournissant des ressources externes.

Une autre spécificité de ce protocole, c’est d’inclure une large variété de média. Le fait que cette initiative a été lancée en association avec des artistes n’y ait sans doute pas pour rien.

Base juridique

Pour leur développement, les auteurs du fichier ai.txt comptent sur la réglementation européenne, qui a déjà créer un standard mondial de facto avec le RGPD. La directive sur le droit d’auteur et les droits voisins dans le marché unique numérique définit des exceptions au copyright pour les processus de traitement automatique des données (text and data mining).

Initialement réservées aux travaux de recherche ou pour le bien commun, les exceptions ont été étendu à tous les processus utilisant des données légalement accessibles (ce qui reste un problème à part entière) dont les ayant droits n’ont pas explicitement interdit l’usage, d’une manière accessible à un processus automatique.

Le fichier ai.txt permet justement cela et offre donc une base juridique à des actions en justice pour utilisation de matériel protégé par le copyright malgré les exceptions. Mais le fichier ai.txt n’est pas le seul moyen proposé pour exprimer l’avis des ayants droits,

TDM reservation protocol

Le consortium www travaille depuis un moment sur un protocole permettant de répondre à ce besoin précis et le rapport final du groupe de travail a été remis le 28 janvier 2025.

Le TDM reservation protocol propose un fichier tdmrep.json, avec le format json donc, qui doit être placé non à la racine du site mais dans le répertoire .well-known du site. Il propose pour des ensemble de ressource (exprimable par un path avec regex), un booléen explicitant clairement si l’acces aux ressources correspondantes est autorise ou non, ainsi que la possibilité de spécifier un lien vers la motivation de la restriction d’accès.

Content Authenticity Initiative (CAI)

L’initiative pour l’authenticite du contenu (Content Authenticity Initiative ou CAI, relié à Adobe), milite pour l’adoption de con protocole, le “Content Credentials “. Ils annoncent 4000 membres et une mise en place par Adobe, Meta, LinkedIn, OpenAI, YouTube et d’autres. Le protocole a été mis en place dans le domaine de la photo, parfois directement intégré au matériel et au journalisme.

Le fonctionnement est un peu celui du watermarking, les documents contiennent des meta-data qui sont vérifiables et dont l’accès s’effectue grace à des outils open-source. La spécification inclut des informations concernant l’usage par un processus de traitement automatisé des données : il permet de restreindre toute utilisation pour du data mining, ou bien uniquement l’entrainement de modèle. Ou encore l’entrainement de modèle génératif.

Le protocole semble toutefois utilisable plus pour des données binaires et pas vraiment pour le texte.

llm.txt

Le fichier llm.txt est plutôt comparable au sitemap d’un site plutôt qu’au fichier robots.txt. Il ne s’agit pas dans ce cas d’exprimer une autorisation d’utilisation mais plutôt de les favoriser. Il s’agit d’un fichier au format markdown avec une structure imposée, ce qui n’est pas le plus intuitif quand on parle d’un fichier lisible de manière programmatique, mais qui à l’avantage d’être lisible par un humain également.

On sent en lisant la description que ce standard est plutôt “orienté-projet”, typiquement un outil libre d’accès. Le role du fichier principal, c’est :

  • de fournir des informations à propos du site / projet
  • de lister les pages internes qui ont un intérêt pour un llm
  • ou bien, et c’est une nouveauté par rapport au sitemap, de lister des ressources externes. Pour un projet, il peut s’agit de la documentation d’un protocole utilisé par le projet ou bien d’une dépendance.

Sachant que les pages html standards ne sont pas toujours facilement lisibles automatiquement, en tout cas de manière bruitée avec toute leur décoration, ils proposent également de fournir des versions markdown des pages les plus intéressantes pour faciliter leur lecture (même url avec le suffixe .md).

C’est plutôt intéressant de supprimer la décoration des pages en interne, la ou on dispose de l’information sur le template utilisé par le site, plutôt que de laisser ceux qui récupère la page tenter de le faire. Mais vu que ce n’est pas automatique, il n’est pas certain que ce soit un grand succès, mis à part les pages de projet qui sont potentiellement auto-générées.

Mise en place de standards

Nous sommes à un moment ou la volonté de s’attaquer aux problèmes de copyright est déjà présente, mais ou les solutions techniques n’ont pas encore fait consensus. Plusieurs secteurs ont fait leur proposition et chaque specification a ses particularités. L’avenir nous diras lequel ou lesquels s’imposeront comme les prochains standards du web.