Vous le savez comme moi, les moteurs de recherche sont relativement récents (début des années 1990) mais les concepts qui les sous-tendent sont bien plus anciens. Les idées théoriques sur la structuration de l’information remontent à l’après-guerre, grâce à des penseurs comme Vannevar Bush. Les outils de théorie des graphes datent des années 1930, tandis que les systèmes de recherche d’information ont émergé dans les années 1960 et 1970. Malgré leur ancienneté, ces notions restent peu connues, même chez les professionnels du SEO.
Aujourd’hui, je vais commencer par les bases en définissant proprement ce qu’est un moteur de recherche. Pas de détails inutiles ici, le but est de rester clair et accessible. Pour les lecteurs qui voudraient creuser davantage le sujet, je recommande deux ouvrages de référence : An Introduction to Information Retrieval et Recherche d’information : applications, modèles et algorithmes. Attention, il s’agit de livres de cours pour des étudiants en informatique, leur lecture n’est donc pas toujours facile.
Qu’est-ce qu’un moteur de recherche ?
Avant de définir un moteur de recherche, il est pertinent de comprendre son objet d’analyse : le web. Le web est littéralement un système de navigation pour explorer l’information, construit par dessus internet. L’information est contenue dans des pages web, elles-mêmes organisées en sites. Les utilisateurs naviguent de page en page en suivant les hyperliens.
D’un point de vue algorithmique, le web est un graphe orienté : les nœuds représentent les pages web, et les arcs, les liens hypertextes qui connectent ces pages. Cette structure en graphe est essentielle, car elle forme la base des algorithmes de classement, comme le PageRank de Google, qui ont révolutionné la recherche en ligne.
Maintenant que nous avons défini le web, parlons des moteurs de recherche. Un moteur de recherche est simplement un site web (ou une application mobile, voire une API) conçu pour fournir des résultats pertinents en réponse à une requête utilisateur. Par exemple, si quelqu’un recherche un appartement, un bon moteur de recherche affichera les annonces pour les locations disponibles.
Comprendre les requêtes et les besoins d’information
La requête est la manière dont les utilisateurs expriment leur besoin informationnel, souvent de manière maladroite ou ambiguë. Par exemple, un utilisateur pourrait vouloir voir à quoi ressemble un jaguar (l’animal) mais taper simplement « jaguar », laissant au moteur de recherche la tâche de deviner s’il fait référence à l’animal ou à la marque de voiture. Cette ambiguïté vient du fait que le besoin d’information est stocké dans le secret de l’esprit de l’utilisateur, rendant sa compréhension difficile.
En SEO, on parle aujourd’hui beaucoup d’intention de recherche. « Besoin informationnel », c’est la même chose, mais en version académique.
L’architecture d’un moteur de recherche
Voici les principales étapes qui définissent le fonctionnement d’un moteur de recherche .
Étape 1 : Crawl
Le crawl consiste à explorer le web pour découvrir des pages. Cette tâche est effectuée par des robots d’indexation (bots ou spiders). En théorie, le processus est simple : le bot commence avec une liste d’URLs de départ et suit les hyperliens pour trouver de nouvelles pages.
Cependant, le volume colossal de données et la nature dynamique du web compliquent l’exécution. Un crawler inefficace perdrait du temps sur des pages déjà visitées ou sur des pages trop lentes. Les moteurs de recherche moderne, comme Google, optimisent ce processus en priorisant les sites rapides, qui réduisent son coût de crawling tout en améliorant l’expérience utilisateur.
Étape 2 : Indexation
L’indexation consiste à stocker les données collectées dans une structure globale : l’index du moteur de recherche. Cet index contient deux types d’informations :
- Informations structurelles : les relations entre les pages (le graphe web).
- Informations de contenu : principalement des données textuelles, bien que les avancées en analyse d’images et de vidéos permettent d’aller au-delà.
Chez Google cet index s’appelle Alexandria (comme la bibliothèque antique).
Étape 3 : Évaluation de l’importance
Les moteurs évaluent la popularité des pages indépendamment de leur contenu, grâce à des algorithmes comme le PageRank. Aujourd’hui, des signaux d’utilisateur (ex. : clics, durée de visite) jouent également un rôle clé dans la définition de l’importance d’une page ou d’un site.
Étape 4 : Analyse des requêtes
L’analyse des requêtes aide à comprendre l’intention des utilisateurs. Avec des modèles de langage comme BERT, les moteurs de recherche sont devenus excellents pour aligner les résultats sur l’intention de recherche. Historiquement cette étape était faite avec des algorithmes plus besogneux (comme l’algorithme de Rocchio) mais les LLMs ont changé la donne sur ce point.
Étape 5 : Analyse de la pertinence
Ici, l’objectif est de repérer les pages discutant de sujets similaires pour les regrouper en clusters thématiques. Ce processus repose sur des algorithmes comme QBST (que notre outil yourtextguru s’efforce de décortiquer).
Étape 6 : Filtrage anti-spam
Les pratiques douteuses des SEOs (^^), comme les fermes de liens ou les manipulations par redirection, sont contrées par des filtres anti-spam appliqués à chaque étape, du crawling au classement final.
Étape finale : Classement et reranking
Une fois toutes les analyses effectuées, les résultats sont affichés avec des ajustements pour la personnalisation et la localisation. Les métriques de comportement utilisateur, comme les clics ou les skips, affinent ensuite les classements via un mécanisme de reranking.
Voilà pour le tour des basiques, cet article ne changera pas votre vie, mais il permet de bien s’assurer que vous aurez tout le panorama en tête lorsque vous lirez les prochains 😉