Les moteurs de recherche existent depuis 30 ans, et leur impact sur l’accès à l’information, et plus largement sur les relations humaines, est indéniable. Ces outils, comme Google, reposent sur un principe assez simple : associer des sites web à des besoins informationnels.
Pourtant, ces technologies sont encore balbutiantes. Elles fonctionnent en associant des mots-clés à des objets, sans vraiment « comprendre » ce qu’elles manipulent.
Avec l’arrivée des grands modèles de langage (ou modèles « fondation »), l’accès à l’information a pris une autre tournure. Ces outils ont doté les machines de la capacité à interagir avec nous de manière fluide, presque naturelle.
Contrairement aux moteurs de recherche classiques, les LLMs (Large Language Models, comme ChatGPT ou Claude) ne se contentent pas de chercher de l’information à partir de mots-clés. Ils analysent la structure du langage et synthétisent les informations issues de leurs datasets d’apprentissage. Résultat : ils présentent les informations comme dans une conversation, tout en prenant en compte le contexte pour prioriser ce qu’ils montrent.
Le schéma ci-dessous illustre bien ce processus : l’utilisateur peut naviguer intuitivement dans l’information, et ainsi affiner ses besoins en interagissant avec la machine.

Cependant, il y a un hic. La mise à jour des bases de données est loin d’être simple, et surtout, elle coûte cher. Les données utilisées par les modèles ne sont pas toujours fraîches. En général, elles ne sont mises à jour qu’une fois par mois, parfois moins. Ajoutez à cela le fait qu’un nombre croissant de sites refusent l’accès aux crawlers des opérateurs IA, faisant que certains modèles perdent l’accès à une partie du savoir général (c’est-à-dire le contenu disponible uniquement sur ces sites).
Pour produire des réponses à la hauteur des attentes humaines, un LLM doit constamment accéder au web pour extraire les meilleurs contenus. Or, traiter l’ensemble du web à chaque requête est impossible. Il va donc falloir trouver de nouvelles solutions pour dépasser cette limite.
Qu’est-ce qu’un moteur de recherche génératif ?
Je peux enfin répondre 😉. Il faut développer de nouvelles solutions, mais en réalité, elles existent déjà dans l’écosystème. Les moteurs de recherche vont continuer à jouer un rôle essentiel en organisant les données du web, mais cette fois, leur utilisateur final sera le LLM lui-même !
Pour répondre à une requête, les moteurs de recherche génératifs (GSE) produisent une synthèse rédigée par un LLM à partir d’informations priorisées, récupérées via des moteurs de recherche qui fournissent des URL pertinentes pour la requête donnée. Le schéma ci-dessous montre clairement comment ça fonctionne.

Bien sûr, l’index du moteur doit être toujours à jour, mais c’est un problème que les moteurs de recherche savent gérer depuis des décennies, donc rien de nouveau de ce côté-là.
Des plateformes comme SearchGPT, AI overviews (Google), BingChat (désormais Copilot) ou encore Perplexity sont des exemples de moteurs de recherche génératifs.
Les GSE font une sorte de curation en synthétisant l’information en réponses raisonnées et pertinentes. Ce rôle amplifie leur responsabilité : ils ne se contentent pas de refléter le web ; ils façonnent activement la compréhension et la prise de décision. Comme Asimov avaient écrit sur des robots obéissant à des lois pour protéger les humains, Marc Najork, de Google, a défini cinq principes clés auxquels ces systèmes doivent se conformer :
- Fiabilité : Prioriser les meilleures sources et éviter les hallucinations.
- Transparence : Fournir des citations claires pour permettre aux utilisateurs de retrouver les sources primaires.
- Impartialité : Éviter de renforcer les biais.
- Diversité : Sur les sujets controversés, présenter un éventail équilibré de perspectives.
- Accessibilité : Adapter les réponses au niveau de compréhension et à la langue des utilisateurs.
Ces principes visent à aligner l’innovation des GSE avec des obligations éthiques.
Peut-on manipuler les moteurs de recherche génératifs ?
C’est la question qui intéresse tout le secteur du SEO. Et la réponse est, évidemment, oui. Les moteurs de recherche génératifs (GSE) peuvent être manipulés, même si, pour l’instant, ces tentatives en sont encore à leurs débuts.
Les recherches sur la manipulation des LLM et des GSE se multiplient depuis quelques mois. Un article de Nestass, Debenetti et Tramèr introduit le concept des attaques par manipulation des préférences. L’idée est de modifier la manière dont un modèle priorise les contenus en combinant plusieurs techniques : injection de prompts, stratégies SEO black-hat, et persuasion des LLM.
Ce qui rend leur approche fascinante, c’est qu’elle introduit en premier des stratégies de negative SEO pour repousser activement des concurrents hors de la zone de visibilité, avec des résultats mesurables et étonnamment bons. Les chercheurs ont ainsi testé leur attaque sur Perplexity, Bing Copilot, Claude 3 et GPT-4. Par exemple, ils ont réussi à multiplier par 2.5 la visibilité d’un produit ciblé dans les réponses de Bing Copilot.
Mais attention, pas la peine d’essayer de reproduire l’expérience : les auteurs ont signalé la menace aux opérateurs concernés, et elle a été corrigée.
Un autre article, intitulé “GEO : Generative Engine Optimization”, par Aggarwal et al., propose une nouvelle approche pour aider les créateurs de contenu à améliorer leur visibilité dans les GSE. Même si l’article mentionne des plateformes comme BingChat-Copilot ou Perplexity, on devine que ces techniques fonctionnent aussi pour des outils comme AI overviews ou SearchGPT. Leur objectif : booster les citations et les impressions des contenus.
Leur méthodologie SEO n’a rien de révolutionnaire, mais elle est efficace :
- Ajouter des citations : Pour renforcer la crédibilité et améliorer le classement.
- Intégrer des citations pertinentes : Pour rendre le contenu plus apte à servir de source principale.
- Ajouter des statistiques : Pour soutenir le discours par des données pour augmenter la visibilité.
- Optimiser la fluidité : Pour améliorer la lisibilité pour un meilleur engagement.
Leurs expérimentations montrent une amélioration de visibilité non négligeable suite à l’utilisation de leurs techniques (voir ci-dessous).

Si je devais résumer le GEO (Optimisation pour les Moteurs Génératifs), c’est assez simple : il s’agit d’exploiter la nature des LLM, leur compréhension sémantique et leur manière de synthétiser l’information. Une autre approche, plus technique, implique des méthodes comme l’injection de prompts ou le cloaking.
Au-delà de ça, avec le GEO nous sommes dans un contexte très proche de celui du SEO. Les moteurs génératifs sont des boîtes noires. Comme en SEO, où l’on cherche à influencer les moteurs traditionnels avec seulement une idée théorique de leur fonctionnement, le GEO manipule les entrées pour influencer les sorties.
Et, comme en SEO, l’objectif est clair : obtenir plus de visibilité que ses concurrents, ce qui se traduit directement en revenus. En somme, les outils et les cibles ont évolué, mais le jeu reste le même.