Web crawling conforme au RGPD

Même si la plupart des données sur Internet sont accessibles au public, il peut être juridiquement complexe de récupérer et d’exploiter ces données sans enfreindre les réglementations, selon la nature des données nécessaires, le type de traitement et les objectifs visés. Pour faire une analogie, ce n’est pas parce qu’une célébrité est une personne publique que vous pouvez utiliser son image à des fins personnelles, de la même manière que vous ne pouvez pas exploiter l’image de la Joconde ou de toute données avec un copyright pour vos propres intérêts. De nombreuses informations sont protégées par des droits d’auteur ou les CGU (conditions générales d’utilisation) des entreprises. Les perceptions de la vie privée varient d’un pays à l’autre, et l’Europe a souvent été en avance en matière de réglementation, ce qui n’est pas sans impact sur l’innovation. Cependant, depuis l’instauration du RGPD (Règlement Général sur la Protection des Données), il est possible d’étudier comment le crawling web peut respecter la vie privée dans un cadre légal bien défini.

Qu’est-ce que le RGPD et que protège-t-il ?

Le RGPD a été introduit en 2016 par l’UE pour protéger les données personnelles définies comme : « toute information relative à une personne physique identifiée ou identifiable. » Cela inclut toute combinaison d’informations permettant d’identifier une personne. Les données « pseudonymisées », cryptées ou anonymisées, mais pouvant être ré-identifiées, restent également couvertes par le RGPD. Cela signifie qu’il ne suffit pas de transformer les données (par exemple, en les réduisant à des vecteurs) si cela permet toujours d’identifier quelqu’un.

Le RGPD exige également de définir une base légale pour le scraping de données et de veiller à ce que le processus lui-même n’enfreigne pas les lois sur la vie privée. Cela implique que les ensembles de données obtenus doivent être conformes aux réglementations applicables. de nombreuses ressources de droit sont disponibles sur le site de la CNIL en France.

Quelle sont les sanctions en cas de non-conformité ? Les infractions les moins graves peuvent entraîner une amende pouvant atteindre 10 millions d’euros, ou 2 % du chiffre d’affaires annuel mondial, selon le montant le plus élevé. Les sanctions peuvent grimper jusqu’à 20 millions d’euros ou 4 % du chiffre d’affaires annuel.

Base légale pour la collecte de données

Lors du scraping de données, il est difficile de savoir à l’avance quel type de données sera récupéré, et il faut donc supposer qu’elles incluront des données personnelles parmi le spam dont le web est principalement composé. Le RGPD autorise la collecte de données personnelles dans certains cas, mais pour le crawl du web de la part d’une organisation privée, le choix de la justification se limite souvent à une alternative : obtenir le consentement explicite de chaque individu concerné ou bien se fonder sur un intérêt légitime en respectant les réglementations. La seconde option est la plus probable mais reste complexe.

Pour être conforme, les entreprises doivent :

  • Collecter des données uniquement pour leurs propres objectifs, sans les rendre publiques.
  • Veiller à ce que les données collectées ne causent aucun préjudice financier ou de réputation à leurs propriétaires.

Le scraping peut donc être légal et éthique si il est utilisé uniquement à des fins personnelles et d’analyse. En revanche, toute republication des données nécessite l’autorisation des individus concernés et le respect des politiques des conditions générales d’utilisation des sites web sous peine de contrevenir aux lois sur la protection des données. L’exploitation de données sensibles, comme des informations médicales, est encore plus risquée.

Dans le cas d’un crawleur seo, le contenu des pages web n’est pas conservé car c’est plus la structure du graphe du web qui est importante. De cour extraits comme le titre d’une page ou bien les ancres des liens présent sur la page peuvent être tout de même conservés, mais le risque d’une divulgation publique de données personnelles est assez limité, ce qui simplifie l’établissement d’une base légale pour le crawl.

Intérêt légitime et consentement

L’intérêt légitime doit correspondre à une utilisation des données personnelles qu’un individu peut raisonnablement attendre. Cet intérêt peut être commercial, scientifique ou lié à un bénéfice sociétal plus large. Il doit apporter un avantage clair tout en minimisant les risques pour la vie privée.

Demander le consentement explicite de chaque sujet concerné par un crawl du web est bien entendu impraticable, mais les crawleurs web peuvent essayer de s’en approcher au maximum en respectant les quatre critères cumulatifs suivants : Les données doivent être librement fournies, le processus doit être affiché, il doit être sans ambiguïté et enfin le processus doit répondre à un but spécifique.  Examinons chacun de ces critères :

Consentement : des données librement fournies

Une grande partie des sites web, au moins les sites commerciaux (plus enclins à protéger leurs données), disposent de CGU (« Conditions Générales d’Utilisation ») qui précisent ce qu’il est possible de faire. Par exemple, le syndicat national des éditeurs propose des clauses standards à ajouter dans les CGUs d’un site pour refuser l’extraction et le minage des données. Si cela est tout à valide du point de vue du droit, il faut être réaliste : cela est impraticable pour la plupart des crawl, pour des raisons évidentes d’efficacité. Néanmoins, on peut raisonnablement supposer que si des restrictions s’appliquent à un site donné, alors le fichier robots.txt de ce site va refléter ces restrictions d’une manière compréhensible pour un bot. (nous verrons plus loin d’autre manière en gestation pour exprimer le consentement).

Le fichier robots.txt est un fichier accessible à la racine d’un site web contenant des instructions sur l’accès aux ressources. Il peut interdire totalement ou partiellement l’accès à un ou plusieurs user-agents ou simplement imposer un rythme d’exploration plus lent. Le user-agent est un identifiant pour un bot.

Une données est donc disponible si elle est librement accessible et si, ni le robots.txt, ni les métadonnées des pages du site, ne disent le contraire (par exemple une lien hypertexte peut avoir un tag « no-follow »). Il y a encore une precaution à prendre : il doit exister un moyen de recevoir des demandes d’abus et de les prendre en compte (et de supprimer le contenu si demandé). En général, cela passe soit par une adresse email dédiée ou via le support client. Si rien de cela n’existe, les CGU d’une entreprise opérant en Europe doivent fournir un moyen de contacter le responsable de la protection des données (le dpo de l’entreprise).

Consentement : un processus informé et sans ambiguïté

Un robot respectueux ne doit pas se cacher. Il doit utiliser un identifiant (user-agent) qui l’identifie clairement et qui ne soit pas ambigu. Le crawleur de google par exemple se nomme « GoogleBot » et contient une adresse URL vers une page décrivant les objectifs du robot. Le bot de Babbar s’appelle barkrowler, ce qui ne le lie pas directement a l’entreprise, mais possède également l’adresse de la page de description du crawleur. Un identifiant clair et une description des objectifs permettent d’avoir un processus clair.

Consentement : un processus avec un objectif spécifique

Le but d’un crawl du web doit être clairement défini à l’avance. L’objectif ne peut pas être la creation d’un ensemble de données dont l’utilisation n’est pas encore définie. Par exemple, une société de SEO pourrait énoncer que son objectif est de mesurer le maillage des pages web et d’en extraire des métriques.

Mesures supplémentaires pour réduire les risques

En plus de tout les critères que nous avons passé en revue, il existe quelques precautions supplémentaires de bon sens pour réduire les risques juridiques. Par exemple :

  • Éviter les sites contenant des informations sensibles comme des données médicales, c’est-a-dire éviter les forums de santé par exemple
  • Éviter les sites pornographiques
  • Éviter les sites portant sur la généalogie
  • Maintenir une liste noire de sites ou d’adresses IP qui ont demandé à ne pas être crawlés, via le support ou le dpo de l’entreprise par exemple.
  • Éviter les réseaux sociaux (souvent impossibles à scrapper de toute façon).
  • Anonymiser ou pseudonymiser les données collectées.
  • Enregistrer votre crawler auprès des autorités compétentes et le dpo auprès de la CNIL pour une entreprise française.

Exprimer le consentement d’une manière programmatique

Ajouter des clauses dans les CGUs d’un site web est une première étape, mais comme nous l’avons vu il est techniquement impraticable pour un crawleur de lire les CGUs. Pour que cela puisse être prise en compte, il faut exprimer le consentement d’une manière que les crawleurs puissent comprendre et c’est cela que les initiatives comme TDMRep essaye de mettre en place :

« In a digital environment, TDM usage of copyright protected works can be subject to different terms and conditions, depending on the legal framework. In generic terms, an act of reproduction is required before TDM can be applied on content accessible on the Web; international laws stipulate that such act of reproduction is subject to authorization by rightsholders. So far, analyzing and processing the terms and conditions of a website, contacting rightsholders, seeking for permission and concluding licensing agreements require time and resources.

In such context, a machine-readable solution which streamlines the communication of TDM rights and licenses available for online copyrighted content is necessary to facilitate the development of TDM applications and reduce the risks of legal uncertainty for TDM actors. Such a solution, that shall rely on a consensus by rightsholders and TDM actors, will optimize the capacity of TDM actors to lawfully access and process useful content at large scale. »

Il existe également un mécanisme à l’aide de fichier similaires aux fichiers robots.txt, mais qui sont dedies aux bots d’IA. Ce sont les fichiers ai.txt Il existe sans doute des initiatives similaires qui déboucherons peut-être un jour sur un nouveau standard pour exprimer la propriété intellectuel ou le consentement à la collection de données. Les crawleurs web devront prendre cela en compte afin de diminuer l’aléa juridique.  C’est le prix pour conserver un Internet ouvert.

FAQ sur le RGPD et le crawling

  • Quel est l’impact du RGPD sur le web scraping ? Le RGPD a été pionnier dans la protection des données personnelles et des données, avant que les boits IA ne mettent ces sujets sur le devant de la scène.  Ce règlement établit des bases légales pour le scraping et définit ce que sont les données personnelles ainsi que leur utilisation acceptable.
  • Quels sont les principes clés du RGPD pour le web scraping ? Ils incluent : définir ce qu’est une donnée personnelle, ne pas rendre ces données publiques, et les utiliser de manière explicite et attendue.
  • Le web scraping nécessite-t-il un consentement explicite ? Dans certains cas non, si la collection s’effectue dans la cadre d’un projet de recherche scientifique ou bien pour une mission d’intérêt public par exemple. La nature du processus et sa finalité sont importants pour determiner ce qu’il est possible de faire. Voir le texte du RGPD pour une liste complète.
  • Quelles sont les sanctions pour non-conformité ? Les amendes vont de 10 millions d’euros ou bien 2% du chiffre d’affaires de l’année fiscale précédente (la somme la plus haute des deux) et peuvent grimper à 20 millions d’euros ou bien 4 % du chiffres d’affaire.
  • Qu’est-ce qu’un intérêt légitime dans le contexte du RGPD et du web scraping ? C’est le traitement de données personnelles par une organisation dans le cadre de ses activités commerciales, sans qu’il y ait d’obligation légale et tout en minimisant les risques de violation de la vie privée sur les personnes concernées. 
  • Comment prouver sa conformité au RGPD ? Il n’y a pas de manière definitive de prouver qu’un processus est conforme. Un bon depart est de rendre le processus de scraping transparent, respecter les restrictions des sites (robots.txt) et répondre aux demandes d’effacement de données ou d’arrêt du crawl qui sont reçues. L’entreprise soit elle-meme se conformer au RGPD pour ses traitements internes et indiquer comment contacter son DPO (DAta Protection officer) en charge de ces questions.
  • Comment le paysage du crawl du web a change depuis l’introduction du RGPD en décembre 2018 ? Un des principaux changements apportés par le RGPD est le concept d’intérêt légitime comme base légale pour la collecte et le traitement des données. Avant le RGPD, les entreprises pouvaient se fonder sur un consentement implicite pour collecter les donnes et les exploiter. Le RGPD a également permis d’introduire des nouveaux droits pour les individus, comme le droit d’accès et de rectifications de leur données personnelles ou encore le droit d’être oublié. Ces droits donnent aux individus plus de contrôle sur leur données personnelles et leur donne un droit de regard sur comment ces données sont utilisées. Le RGPS a eu un fort impact sur la collection de données et le crawl du web et les entreprises doivent à présent s’assurer d’être en conformité avec ce règlement et obtenir un consentement explicite avant un traitement. Le RGPD a également inspiré d’autres réglementations autour du monde.

Ressources pour le web scraping sous RGPD