Chez Babbar, nous crawlons actuellement 3,5 milliards de pages par jour, ce qui nous confronte à une grande variété d’anomalies qui génèrent des défis constants. Parfois, nous devons appliquer des actions manuelles pour éviter ces phénomènes, mais généralement, nous cherchons à développer des méthodes et des heuristiques capables de corriger automatiquement les comportements indésirables.
Que fait un crawler SEO (et qu’est-ce qu’il ne fait pas) ?
Nos objectifs principaux sont les suivants :
- Stocker le graphe du web
- Calculer des métriques sur le graphe
- Stocker le texte d’ancre des liens
- Conserver les métadonnées des pages web
Nous ne stockons pas le contenu complet des pages web. À la place, nous générons un embedding à partir du texte des pages.
Le graphe est réparti dans plusieurs bases de données :
- URLs
- Fetches (la plus volumineuse, qui inclut toutes les données collectées, y compris les liens sortants)
- Backlinks
Une problématique clé pour nous est que les liens internes (ceux pointant vers une page du même hôte) surpassent en nombre les liens externes dans un rapport de 10 pour 1. Pour calculer notre valeur sémantique (équivalent du Topical PageRank), nous utilisons les embeddings et toutes les métriques associées à la page source. Les backlinks jouent un rôle majeur dans ce calcul, mais les backlinks internes sont “locaux” et ne nécessitent pas la même distribution que les backlinks externes.
En conséquence, nous avons choisi très tôt de ne stocker que les liens sortants dans la base Fetches afin de limiter l’impact sur le stockage.
Quand est-ce que c’est trop ?
Dans notre lutte contre le spam web, nous avons fréquemment rencontré des fermes de sites abusant de la dépendance des moteurs de recherche au graphe du web pour calculer l’autorité des pages. Ces sites spams possèdent souvent un grand nombre de pages, probablement générées automatiquement, et parfois jusqu’à 10 000 liens sortants par page.
Dans un contexte « normal », la majorité de ces liens sont inutiles, car nos métriques reposent sur une règle fondamentale de la navigation en ligne : le modèle du Surfeur Raisonnable (Reasonable Surfer Model), qui a longtemps été la base de l’algorithme PageRank de Google.
Ce que dit le brevet de Google
Le brevet de Google décrit les caractéristiques exploitées par ses algorithmes :
« Un système génère un modèle basé sur des données relatives à différentes caractéristiques d’un lien entre un document source et un document cible, ainsi que sur des données comportementales d’utilisateurs concernant les actions de navigation associées au lien. Le système attribue également […] un rang pour un document particulier, en intégrant une pondération qui indique la probabilité que le lien soit sélectionné, déterminée à partir des données spécifiques et des données de sélection, ces dernières identifiant le comportement utilisateur vis-à-vis des liens vers d’autres documents. »
Bien que le brevet ne décrive pas précisément la « recette secrète », un ingrédient clé est la position du lien sur la page. En effet, le comportement des utilisateurs est influencé par leur attention, qui se concentre davantage sur les blocs centraux que périphériques, et plus en haut qu’en bas d’une page.
Il a été suggéré que Google recommande de limiter le nombre de liens internes à 100, mais cette information reste incertaine. Cependant, le modèle du Surfeur Raisonnable nous apprend que la position d’un lien est probablement un indicateur clé de son importance. De plus, même dans le précédent modèle du Surfeur Aléatoire (Random Surfer Model), le nombre de liens sortants affectait la valeur d’un lien.
Combien de liens internes trouve-t-on sur une page web typique ?
Pour répondre à cette question, nous avons analysé un échantillon représentatif de 50 000 sites web, totalisant 150 millions de pages et 18 milliards de liens internes.

Résultats principaux :
- 27 % des sites ont au moins une page contenant plus de 500 liens internes sortants. Cela signifie que 73 % des sites n’ont aucune page qui dépasse ce seuil.
- 14 % des sites ont une page contenant plus de 1 000 liens internes, donc 86 % des sites restent sous cette limite.

En termes de pages individuelles :
- Seules 3 % des pages contiennent plus de 500 liens internes sortants.
- Seules 1 % des pages dépassent 1 000 liens internes.

Impact des liens :
Ces 3 % de pages avec plus de 500 liens internes représentent 18 % des liens internes situés au-delà de la position 500. De même, les 1 % de pages avec plus de 1 000 liens internes contribuent à 12 % des liens au-delà de cette position.
Bien que rares, les pages comportant un très grand nombre de liens internes ont un impact significatif sur le graphe du web global. Cependant, leur poids dans les métriques des moteurs de recherche reste limité par le modèle du Surfeur Raisonnable, qui favorise les liens bien positionnés et contextualisés.