Le contenu dupliqué a été l’un des premiers problèmes rencontrés par les moteurs de recherche web. Au début des années 1990, il n’était pas rare de trouver plusieurs pages web très similaires dans les résultats d’un moteur de recherche.

Et cela pose problème, d’abord pour l’utilisateur, qui ne souhaite pas filtrer manuellement le contenu qu’il a déjà écarté, et ensuite pour le moteur de recherche, qui doit stocker davantage de données dans son index. La recherche est généralement axée sur le contenu original, et non sur toutes les versions ou variations d’un même contenu ou d’un même thème. Rapidement, Google a mis en place une solution, mais l’inconvénient était que la présence de contenu dupliqué sur votre site devenait un mauvais signal pour Google et affectait le classement de votre site. Cela explique l’existence d’une multitude d’articles SEO sur le sujet, ainsi que d’outils SEO conçus pour analyser votre site et détecter si votre contenu est dupliqué.
Certains de ces outils peuvent explorer votre site à la demande, analyser le contenu de vos pages web et lister les URL qui présentent de fortes similarités entre elles. D’autres outils, comme Yourtext.guru, utilisent des contenus déjà explorés pour vous offrir un aperçu rapide de la distribution du contenu dupliqué. Enfin, dans une autre catégorie d’outils SEO, on trouve des détecteurs de plagiat, qui tentent de trouver des copies de vos pages web sur d’autres sites.
Qu’est-ce que le contenu dupliqué et pourquoi est-ce un problème ?
Qu’est-ce que le contenu, d’abord ? Pour Google, au moins, il s’agit du cœur d’une page web : le contenu correspond au texte principal, sans les éléments récurrents comme les menus, les barres de navigation latérales, etc.
Votre site est considéré comme contenant du contenu dupliqué si le moteur de recherche trouve plusieurs URL affichant le même contenu (ou un contenu très similaire). Par exemple, si votre site utilise une URL qui permet de nombreuses variations (en raison de paramètres de filtres, d’ordre ou de types d’affichage), alors, sauf si vous prenez des mesures pour l’éviter, le moteur explorera ces variations et détectera leurs similitudes.
Les duplications sur un site posent problème car elles créent de la confusion pour le moteur de recherche lorsqu’il doit décider quelle version du contenu prioriser et afficher dans les résultats. Cela peut diluer le potentiel de classement d’une page, réduisant sa visibilité et son efficacité. De plus, le contenu dupliqué peut avoir un impact négatif sur le budget de crawl de votre site, car les moteurs de recherche risquent de gaspiller des ressources à indexer des pages redondantes au lieu de se concentrer sur du contenu unique et précieux.
Les moteurs de recherche visent à offrir aux utilisateurs un ensemble de résultats aussi pertinent et diversifié que possible. Lorsque plusieurs pages proposent essentiellement les mêmes informations, cela nuit à l’expérience utilisateur en encombrant les résultats de recherche avec des entrées redondantes. Ce problème est particulièrement fréquent pour les sites e-commerce, où les fiches produits peuvent apparaître sous différentes catégories ou avec des URL variées en raison de paramètres de suivi ou d’identifiants de session.
Pour remédier à ces problèmes, des techniques telles que les URL canoniques, les balises meta noindex
et les règles robots.txt
peuvent aider le moteur de recherche à déterminer quelles pages explorer ou à prendre en compte pour vérifier la duplication.
Comment le contenu dupliqué est-il mesuré dans Yourtext.guru ?
Tout commence par le contenu de chaque page, ce qui est déjà une difficulté en soi : le moyen le plus simple de récupérer le contenu est de prendre en compte l’ensemble du contenu HTML, mais il est aussi possible d’utiliser le contenu principal extrait du fichier HTML. Pour extraire le contenu d’une page, Yourtext.guru applique la même méthodologie que celle utilisée pour les vecteurs sémantiques qui servent à calculer les sites et domaines sémantiquement similaires. Autrement dit, tout est conservé (nous avons testé de nombreuses méthodes pour extraire le contenu principal, mais les bénéfices n’étaient pas systématiques dans tous les cas).
Ensuite, différentes méthodes de normalisation peuvent être appliquées au contenu (conversion en minuscules, suppression des accents, etc.). Mais dans la pratique, les actions mises en œuvre dépendent fortement du cas d’usage. Pour les duplications internes, on cherche souvent à détecter non pas du plagiat, mais plutôt du contenu identique présenté dans différents contextes. Ainsi, la normalisation est moins importante. De plus, elle nécessite un travail spécifique selon la langue.
Le concept de signature de contenu
Puisqu’il est impensable de conserver l’intégralité du contenu pour calculer les duplications, diverses méthodes de représentation compressée ont été proposées pour accélérer le processus tout en limitant la quantité de données nécessaires. Ces représentations sont appelées empreintes ou signatures. Voici deux des signatures les plus couramment utilisées :
MinHash repose sur la création de signatures basées sur des séquences de mots ou de lettres appelées shingles. Chaque mot ou groupe de lettres est haché, et les plus petites valeurs de hachage sont conservées pour représenter le document. Cela permet d’évaluer la similarité entre deux documents en comparant leurs empreintes.
SimHash, proposé par Moses Charikar, conserve des informations sur la distribution statistique des mots ou shingles dans un document. Chaque shingle est haché, puis les résultats sont transformés en une séquence binaire. Cette séquence est utilisée pour calculer une signature, et la similarité entre documents est évaluée à l’aide de la distance de Hamming, qui mesure les différences entre les signatures binaires.
Chez Yourtext.guru, certaines améliorations ont été apportées pour optimiser ces algorithmes et réduire l’impact des termes trop fréquents, tout en obtenant des résultats fiables et rapides.
MinHash
L’une des méthodes utilisées est implémentée dans l’outil « simhash », disponible sur plusieurs distributions GNU/Linux (attention à la confusion liée au nom de cet outil) et repose sur le principe proposé par Mark Manasse.
Ce principe est une variante de la technique MinHash appliquée aux « shingles ». Pour comprendre le principe de cet algorithme, imaginons d’abord que l’on décompose un document en mots.
Le principe de base de MinHash est le suivant : pour créer la signature d’un document, une fonction de hachage est appliquée à chacun des mots qu’il contient. Cette fonction retourne un nombre.
La signature conservée est le plus petit hachage observé pour un document. Ainsi, deux documents contenant le mot qui produit le plus petit hachage (et ne contenant pas de mot qui produit un hachage encore plus petit) auront la même MinHash.
En pratique, utiliser une seule valeur basée sur le hachage d’un mot est trop fragile, donc deux variantes peuvent être utilisées :
- Soit on emploie plusieurs fonctions de hachage indépendantes,
- Soit on conserve les K plus petits hachages observés pour un document.
La technique utilisée dans l’outil « simhash » que l’on trouve sur la plupart des distributions GNU/Linux correspond à la deuxième méthode, avec un K=128 par défaut.
Cet outil génère des signatures de 128 * 32 = 4096 bits par défaut, soit 512 octets. En réalité, comme les hachages sont « compressés » dans un espace numérique réduit, ils peuvent être exprimés assez facilement sous une forme compacte, et il est possible de calculer un algorithme de similarité entre les signatures de manière assez efficace. Ce calcul repose simplement sur une similarité de Jaccard (nombre de hachages identiques/nombre de hachages conservés).
Un aperçu des avantages et des inconvénients de cette approche :
- En ajoutant simplement un peu de vocabulaire (par exemple, en introduisant des fautes typographiques ici et là), la distance augmente rapidement, car seul le vocabulaire compte : le fait qu’un mot apparaisse fréquemment ou non est sans importance.
- Calculer la similarité entre de nombreuses signatures est très coûteux en termes de temps.
Le shingling atténue quelque peu ces inconvénients : au lieu de décomposer un document en mots, ce qui entraîne une forte distorsion dans la distribution entre les mots fréquents et rares, on le décompose en séquences de N lettres, en utilisant une fenêtre glissante sur le contenu. L’avantage est que, grâce à une taille de fenêtre fixe, le biais de fréquence sur les mots courts (typiquement les mots grammaticaux) est beaucoup moins présent. En revanche, il y a beaucoup plus de tokens à hacher pour calculer la signature, car le nombre de shingles est égal au nombre de lettres dans le document (avec une légère différence).
SimHash
L’algorithme proposé en 2003 par Moses Charikar de Google permet de conserver des informations sur la distribution statistique des mots ou des shingles dans un document. L’idée est la suivante :
Chaque token est haché. Le résultat du hachage est alors interprété sous forme de sa représentation binaire et converti en une séquence de 0 et 1. Par exemple, un shingle de 8 lettres, comme « SEO made », produit le hachage 0x8ABB, ce qui donne la séquence {1,0,0,0,1,0,1,0,1,0,1,1,1,0,1,1}.
Les zéros sont ensuite convertis en -1, ce qui donne : {1,-1,-1,-1,1,-1,1,-1,1,-1,1,1,1,-1,1,1}.
La séquence est additionnée pour produire une séquence entière globale qui représente la « pré-signature » du document.
Une fois que tous les tokens du document ont été traités, on obtient un vecteur où tous les vecteurs des tokens sont additionnés, par exemple : {-12, 67, 1, -95, 12, 3, 8, 0, -11, …}.
La signature finale est obtenue en convertissant chaque valeur en 0 ou 1, selon qu’elle est négative ou positive, ce qui donne : {0,1,1,0,1,1,1,1,0, …}.
Pour calculer la similarité entre deux documents, il suffit de comparer leurs signatures respectives et de calculer la similarité de Hamming, une opération très rapide qui correspond à (bitcount(a XOR b)).
Dans la mise en œuvre réalisée par Yourtext.guru, certains aspects de l’algorithme ont été améliorés pour augmenter les performances et réduire l’impact des tokens trop fréquents. Bien que le principe soit légèrement différent, le résultat reste très proche de celui obtenu avec la méthode de Charikar, telle que citée dans l’article de Google de 2007.
Calcul de la distribution
Pour le calcul de la distribution, c’est-à-dire la représentation fournie par Yourtext.guru, la liste des signatures d’un site ou domaine est extraite, et une matrice de similarité est calculée. Cette matrice est ensuite synthétisée sous forme d’un histogramme. Chaque barre de cet histogramme représente le nombre de paires de pages ayant un certain niveau de similarité. Pour obtenir la liste des URLs d’une catégorie donnée, il suffit de cliquer sur la barre correspondante, ce qui affichera la liste des paires d’URLs avec leur degré de similarité.
Un exemple de mauvaise distribution avec un fort niveau de duplication pourrait montrer deux groupes de duplications : un petit autour de 33 %, et un très important autour de 89 %. Cela peut être causé, par exemple, par un modèle de page qui n’est pas utilisé uniformément sur l’ensemble du site web.

Il est important de noter qu’un échantillonnage aléatoire des vecteurs de la dimension des signatures devrait produire une distribution gaussienne des similarités centrée autour de 50 %. Ainsi, pour 100 dimensions, la courbe gaussienne devrait être centrée sur 50. Cependant, nous observons fréquemment une distribution de ce type :

Lorsque la distribution est gaussienne mais que la similarité moyenne est décalée vers la droite, cela signifie que des parties des modèles, des éléments répétitifs ou redondants des pages web occupent une part importante du contenu.
Les deux distributions suivantes ont été observées sur deux sites d’actualité bien connus, où le contenu est clairement original et suffisamment prédominant pour masquer totalement les parties redondantes des pages web :


Ces variations dans la « similarité moyenne »
Les variations dans la « similarité moyenne » constituent l’une des raisons pour lesquelles il est assez difficile d’étendre la détection de contenu dupliqué entre différents sites web. Nos premières expérimentations ont montré que l’étape d’extraction du texte est cruciale pour assurer la fiabilité de cette mesure.
Foire aux questions sur le contenu dupliqué
Comment le contenu dupliqué affecte-t-il les classements SEO ?
Le contenu dupliqué peut perturber les moteurs de recherche, les rendant incapables de déterminer quelle version du contenu est la plus pertinente pour une requête donnée. Cela peut diluer la visibilité de la page dans les résultats de recherche, car les moteurs peuvent choisir de classer une version moins favorable du contenu ou même répartir les signaux de classement entre plusieurs duplications. Par exemple, Google Search peut décider de consolider les signaux en sélectionnant une version canonique grâce à ses algorithmes, mais cela ne garantit pas que cette version soit celle que les administrateurs du site privilégient. De plus, si le contenu semble intentionnellement dupliqué sur différents domaines, il peut être perçu comme une tentative de manipulation des classements, ce qui pourrait entraîner des sanctions. L’utilisation de la balise « rel=canonical » peut aider à indiquer la version préférée du contenu et guider les moteurs de recherche pour attribuer correctement les signaux de classement.
Quels problèmes le contenu dupliqué peut-il poser sur un site web ?
Le contenu dupliqué peut entraîner plusieurs problèmes affectant les performances d’un site dans les classements des moteurs de recherche. L’un des principaux problèmes est la dilution de l’autorité des liens. Lorsque plusieurs pages contenant un contenu similaire se disputent les mêmes mots-clés, les backlinks qui pourraient renforcer l’autorité d’une page unique se retrouvent répartis entre plusieurs duplications, affaiblissant ainsi leur impact individuel. En outre, le contenu dupliqué peut provoquer des inefficacités de crawl. Les moteurs de recherche disposent d’un budget de crawl limité pour chaque site, et lorsqu’ils rencontrent plusieurs instances de contenu similaire, ils risquent de gaspiller des ressources à indexer des pages redondantes au lieu de se concentrer sur des pages nouvelles ou uniques. Cela peut retarder l’indexation de contenu récent ou mis à jour, affectant ainsi la réactivité du site aux tendances ou aux changements dans les attentes des utilisateurs.
Comment les balises canoniques peuvent-elles résoudre les problèmes de contenu dupliqué ?
Les balises canoniques jouent un rôle essentiel dans la résolution des problèmes de contenu dupliqué en indiquant aux moteurs de recherche quelle version d’une page doit être considérée comme la principale. Lorsqu’elles sont correctement implémentées, ces balises signalent aux moteurs de recherche l’URL préférée, consolidant les signaux de classement tels que les backlinks et les taux de clics vers cette version choisie. Cela permet non seulement d’unifier les métriques qui pourraient autrement être fragmentées entre plusieurs duplications, mais également d’optimiser le budget de crawl en orientant les robots des moteurs de recherche vers la page canonique, économisant ainsi des ressources et améliorant l’efficacité globale du site dans les résultats des moteurs de recherche.
En outre, les balises canoniques peuvent éviter les situations de duplication involontaire, comme les identifiants de session dans les URLs ou les versions imprimables des pages, qui pourraient nuire à la santé SEO du site. En gérant efficacement le contenu que les moteurs de recherche reconnaissent comme autoritaire, les balises canoniques contribuent à une stratégie SEO plus robuste.
Comment les règles du fichier robots.txt peuvent-elles aider à résoudre les problèmes de contenu dupliqué ?
Le fichier robots.txt peut spécifier quelles URLs doivent être explicitement interdites d’exploration par les robots des moteurs de recherche. Par exemple, si toutes vos pages produits comportent des paramètres optionnels permettant d’afficher des variations (paramètres d’ordre, de filtre, de type d’affichage comme liste ou vignette, etc.), vous pouvez simplement ajouter une règle pour interdire un motif donné, comme :
javascriptCopier le codedisallow: /products/*?*order=*
disallow: /products/*?*filter=*
disallow: *?*session_id=*
Avec ces règles en place, non seulement les moteurs de recherche éviteront de découvrir du contenu dupliqué, mais cela contribuera également à améliorer votre budget de crawl et à réduire les coûts liés au serveur et à la bande passante. En mettant en œuvre les meilleures pratiques SEO, comme l’utilisation des balises canoniques, l’optimisation des URLs de votre site et la résolution des problèmes de contenu, vous pouvez garantir que les moteurs de recherche, comme Google, privilégieront l’indexation des versions correctes de votre contenu. Cela améliorera la visibilité de votre site dans les résultats de recherche et optimisera l’expérience utilisateur globale. Pensez également à utiliser la Google Search Console pour identifier et corriger tout problème de contenu dupliqué et pour vous assurer que votre site est bien optimisé pour les moteurs de recherche.
Comment Google Search Console aide-t-il à identifier le contenu dupliqué ?
Google Search Console fournit des informations précieuses sur la manière dont Google perçoit votre site web, avec des outils permettant d’identifier les problèmes potentiels liés au contenu dupliqué. Dans la plateforme, vous pouvez accéder à des rapports qui mettent en évidence les erreurs d’indexation, y compris celles concernant le contenu dupliqué. Le rapport « Couverture » est particulièrement utile, car il indique quelles URL sont indexées et lesquelles ne le sont pas, avec des raisons telles que « Doublon sans canonique sélectionné par l’utilisateur ». Ces informations sont essentielles pour diagnostiquer des problèmes de contenu qui pourraient autrement passer inaperçus. Google Search Console vous permet également d’inspecter des URL individuelles, offrant une vue détaillée de l’interaction de chaque page avec les robots de Google. En soumettant des sitemaps et en utilisant l’outil d’inspection des URL, vous pouvez mieux comprendre les problèmes de canonicalisation et les résoudre rapidement.
Cependant, pour analyser des sites autres que le vôtre, des outils comme Yourtext.guru sont bien plus performants que Google Search Console.
Comment le contenu dupliqué peut-il apparaître sur un site web ?
Le contenu dupliqué peut apparaître sur un site web de plusieurs façons. Une cause fréquente est l’existence de plusieurs URL affichant un contenu identique ou similaire, ce qui peut survenir à cause de paramètres de suivi ou d’identifiants de session dans les URL. Les sites e-commerce sont particulièrement sujets à ce problème, car les produits peuvent être accessibles via différentes pages de catégories ou résultats filtrés, générant plusieurs variantes d’une même page. Une autre source de contenu dupliqué réside dans les versions imprimables des pages web ou les versions traduites sans balises canoniques appropriées. De plus, la syndication de contenu sans attribution ou canonicalisation adéquate peut entraîner des duplications.
En résumé, les deux causes les plus courantes de contenu dupliqué sont :
- Ajout technique : Un nouveau plugin ou outil similaire qui crée des variations des pages web pour l’interface utilisateur ou le suivi. Bien que la plupart des plugins gèrent correctement les balises canoniques, des ajustements manuels peuvent facilement les désactiver.
- Changement de thème : Un changement de design qui modifie l’équilibre entre le contenu pertinent et les éléments répétitifs pris en compte lors de la détection de contenu dupliqué.
Il est crucial de résoudre ces problèmes pour éviter la dilution de l’autorité des liens, les pénalités de classement, et pour garantir que les moteurs de recherche reconnaissent la version autoritaire de chaque page.
Comment les moteurs de recherche distinguent-ils le contenu original du contenu dupliqué ?
Les moteurs de recherche utilisent des algorithmes sophistiqués pour distinguer le contenu original du contenu dupliqué. Une méthode consiste à analyser la date de publication : la version la plus ancienne est souvent considérée comme originale, à condition qu’elle apparaisse sur un site réputé. Les moteurs examinent également les profils de backlinks : les pages ayant plus de liens entrants de qualité sont généralement priorisées comme source originale. L’utilisation de la balise rel=canonical
permet aussi d’informer explicitement les moteurs de recherche de la version autoritaire d’une page, simplifiant le processus de canonicalisation. Les algorithmes de Google détectent également des éléments indiquant l’originalité, tels que la singularité du texte, la présence de médias uniques ou des images originales. En outre, les métadonnées et les sitemaps soumis via Google Search Console peuvent aider les moteurs à identifier les contenus originaux plus efficacement.
Pourquoi est-il important d’identifier le contenu dupliqué sur un site web, et comment le faire ?
Un site vivant évolue constamment, avec l’ajout de nouveaux plugins, de nouvelles sections ou des modifications de structure. Vérifier régulièrement le contenu dupliqué est essentiel, car il est presque impossible de prédire si une mise à jour entraînera des duplications. Les moteurs de recherche explorent en permanence les sites web et découvriront immédiatement les duplications après une mise à jour incorrecte. Identifier le contenu dupliqué est crucial pour maintenir la santé SEO d’un site et garantir que les moteurs de recherche indexent et classent correctement les pages les plus pertinentes.
Pour détecter le contenu dupliqué, utilisez des outils spécialisés comme Yourtext.guru pour une analyse rapide ou Screaming Frog pour une étude approfondie. Ces outils analysent votre site à la recherche de similitudes et signalent les problèmes potentiels. Les audits réguliers doivent inclure l’examen des balises de titre, des en-têtes et du contenu principal. L’utilisation de l’opérateur de recherche site:
dans Google peut également aider à repérer les entrées dupliquées en listant toutes les pages indexées, ce qui permet de vérifier manuellement leur unicité. L’application cohérente de balises canoniques sur des pages similaires fournit une clarté aux moteurs de recherche concernant la version préférée du contenu. De nombreux systèmes de gestion de contenu (CMS) disposent de plugins conçus pour surveiller et gérer le contenu dupliqué.
Existe-t-il un risque de contenu dupliqué avec les descriptions de produits ?
Oui, le contenu dupliqué est un problème courant avec les descriptions de produits, notamment sur les sites e-commerce. Ce problème survient souvent lorsque des descriptions identiques fournies par les fabricants sont réutilisées sur plusieurs sites ou au sein d’un même site. Cela complique la tâche des moteurs de recherche comme Google, qui ont du mal à identifier la source originale, ce qui peut entraîner des pénalités de classement ou une exclusion des résultats de recherche.
Pour atténuer ce risque, créez des descriptions de produits uniques et attrayantes qui distinguent vos fiches de celles de vos concurrents. Ajouter des avis clients ou des informations spécifiques peut également enrichir la présentation de vos produits. L’intégration de balises de données structurées permet aux moteurs de recherche de mieux comprendre et afficher votre contenu. Enfin, réviser et mettre à jour régulièrement les descriptions des produits garantit leur pertinence tout en réduisant le risque de duplication.
Comment les paramètres d’URL contribuent-ils aux problèmes de contenu dupliqué ?
Les paramètres d’URL, comme ceux utilisés pour le filtrage, le tri ou le suivi, peuvent générer des problèmes de contenu dupliqué en créant plusieurs URLs menant à un même contenu. Par exemple, un site e-commerce pourrait inclure des paramètres comme ?orderby=
, ?filter=
ou ?session_id=
qui produisent différentes variantes d’une page. Ces variations peuvent désorienter les moteurs de recherche, diluer les classements et gaspiller le budget de crawl.
Pour résoudre ce problème, utilisez le fichier robots.txt
pour bloquer les URL basées sur des paramètres. Par exemple :
rubyCopier le codeDisallow: /products/*?*order=*
Disallow: /products/*?*filter=*
Disallow: *?*session_id=*
Ces règles empêchent les moteurs de recherche d’indexer des pages dupliquées, économisant ainsi des ressources et garantissant que les pages appropriées sont priorisées dans les classements.
Comment les propriétaires de sites web peuvent-ils éviter les problèmes de contenu dupliqué ?
Pour éviter les problèmes de contenu dupliqué, adoptez des stratégies proactives, telles que l’utilisation de sitemaps et de règles dans robots.txt
pour contrôler la manière dont les moteurs de recherche explorent et indexent votre site. Effectuez des audits réguliers à l’aide d’outils comme Yourtext.guru ou Screaming Frog pour détecter efficacement les duplications et les résoudre.
Appliquez des balises rel=canonical
pour désigner la version préférée des pages, garantissant que les moteurs de recherche consolident les signaux vers les URL correctes. Maintenez des URLs structurées, une navigation propre, et évitez les paramètres basés sur les sessions pour minimiser les duplications. Assurez-vous que le contenu syndiqué ou traduit inclut des balises canoniques pour attribuer l’origine. En intégrant ces pratiques dans votre maintenance régulière, vous pouvez réduire considérablement les risques de contenu dupliqué et maintenir une présence SEO forte.