Méthodologie de rédaction pour les moteurs de recherche

Dans le monde des moteurs de recherche, comprendre un texte ne se fait pas du tout comme pour un humain. Dans cet article, je vous propose de parcourir les évolutions de la perception de nos pages par les moteurs de recherche et quelles bonnes pratiques adopter. Nous verrons notamment pourquoi exploiter la SERP en direct est crucial, comment la contextualisation est indispensable pour qu’un moteur ne serait-ce que considère votre page pour son index primaire, et quels réflexes adopter pour répondre aux attentes réelles des lecteurs.

Compréhension fondamentale

Tf idf

Dans les années 60, Karen Spärck-Jones travaille sur la recherche d’informations dans le cadre d’une bibliothèque. 

 Les débuts des moteurs de recherche viennent initialement de la nécessité de rechercher, dans un corpus de textes ou une bibliothèque, un document qui correspondrait à une requête. C’est le travail de Karen Spärck-Jones dans les années 60, et ce travail aboutit à la conception du TF-IDF, un résumé de contenu à base de mots, scorés selon leur usage dans le document en comparant cet usage au reste du corpus.

Cette approche permet aux mathématiciens de conceptualiser la notion de « compréhension » du texte par une machine : cette approche, améliorée par Stephen Robertson, puis intégrée aux moteurs de recherche (chez Google, c’est Amit Singhal qui s’en est chargé) exploite ce résumé dans un modèle vectoriel pour identifier une distance entre deux documents (une requête et un texte par exemple) via un cosinus : c’est l’approche initiée par Gerard Salton.

Vous le verrez dans la suite de cet article, mais aujourd’hui l’approche du TF IDF n’est plus suffisante pour essayer de comprendre un moteur de recherche. Une approche exploitant le TF IDF se base sur une méthode trop dépassée pour fournir des résultats véritablement concluants sur la durée.

Cosinus de Salton

Gerard Salton invente le concept du modèle vectoriel pour comparer deux documents afin d’en déterminer la distance. Pour cette approche, il va exploiter le cosinus qui va lui permettre de définir la distance entre deux vecteurs, proposant ainsi une valeur qu’on peut comparer pour évaluer la pertinence d’un résultat par rapport à une requête, mais aussi pour identifier les documents qui parlent de sujets similaires à ceux d’un document spécifique (comme une requête par exemple).

Quand le web apparaît et les moteurs de recherchent se démocratisent, cette approche de la sémantique est essentielle pour tous les moteurs, y compris Google, spécifiquement dans la conception de l’index de réponses aux requêtes des internautes.

Aparté : Ce qui fera la différence pour Google, c’est son usage de métriques d’autorité comme le PageRank, mais j’en parle mieux sur mon article parlant de méthodologie d’acquisition de backlinks.

Aujourd’hui, la compréhension des textes a bien évolué du point de vue du moteur de recherche. La notion de modèle vectoriel a été nettement améliorée, grâce à une amélioration de leur efficacité (rapport performance coût) avec les embeddings.

Modèle vectoriel (embedding)

On en reparlera plus tard, mais les embeddings sont plus complexes que le modèle vectoriel de Salton : ils prennent en compte la contextualisation, et peuvent prédire (statistiquement) un mot à partir d’un contexte (modèle Continuous Bag of Words) ou un contexte à partir d’un mot (skip-gram).

(très bonne illustration du CBOW et de skip gram de la part de l’article https://spotintelligence.com/2023/12/05/fasttext/ )

Quelle est la figure des modèles d’embedding ? On ne peut pas parler d’embedding sans mentionner Tomas Mikolov et ses travaux sur Word2Vec.

Son travail apporte un avantage non négligeable par rapport au modèle vectoriel : il est plus compact (c’est une véritable économie de moyens au niveau du stockage), il est plus performant (le contexte est véritablement pris en compte, pour reprendre un exemple utilisé récemment : Paris-France+Pologne = Varsovie), et les embeddings d’un corpus peuvent être réutilisés dans diverses tâches.

On peut également nommer FastText, qui va au-delà des n grams et prends également des sous mots en compte (sous-mots : la décomposition d’un mot en plusieurs parties : en français on pourrait l’utiliser pour décomposer « anticonstitutionnellement » en de nombreuses sous parties dont 3 auraient plus d’impact : anti, constitution, et nellement. 

Aparté sur le linking :

J’en ai parlé dans cet article : les embeddings ne servent donc pas qu’au classement des SERPs, il sert également à identifier la distance entre la source et la cible d’un lien, ce qui, vous l’aurez compris, est bien plus avancé que la catégorisation humaine d’un site.

Un embedding sert donc au-delà d’une fonction de classement en fonction d’une pertinence sémantique, il va servir au linking, mais pas uniquement. Il peut également servir pour un modèle de langage.

Alors pourquoi c’est important en rédaction web de comprendre cette approche ?

On dit beaucoup de choses sur la rédaction web, mais il ne faut pas oublier que le lecteur qui vous intéresse en premier lieu en SEO, c’est Google. En comprenant son mode de fonctionnement, vous comprenez que le texte que vous rédigez a de l’importance, et pas uniquement du point de vue de l’humain qui va le lire.

Comment Google a donc adapté l’usage d’un modèle vectoriel de type embedding ?

Modèle de langue (BERT)

Du côté de Google, les embeddings issus de large corpus (le web entier fournit un corpus de belle taille, même s’il y a du nettoyage à faire) permettent d’entraîner des modèles contextualisés comme BERT, une avancée par rapport à Word2Vec, qui se base uniquement sur les mots, et FastText, qui se base sur une décomposition des mots. C’est une approche qui va affiner la compréhension contextuelle et permettre des résultats plus précis (le « vecteur » final pour un mot ne sera pas le même selon le contexte et pourra être mieux compris).

Les modèles de langues peuvent également servir dans d’autres situations : comment les utiliser dans notre process de création de contenu ?

De l’usage des modèles de langue et LLM dans la rédaction

Reconnaître un modèle de langue

Le principe d’un modèle de langage consiste essentiellement à prédire par des formules statistiques les termes ou le contexte qui va suivre ou précéder un mot ou un contexte.

On connaît tous un usage assez impressionnant : l’outil conversationnel chatGPT a bouleversé les usages de consommation du web dans ce sens. ChatGPT est basé sur un LLM (Large Language Model), et la façon dont un tel outil fonctionne est la suivante :

Selon le contexte du prompt, l’usage d’un modèle de langue doit permettre de prédire la suite de mots qui va remplir le texte qui suit le prompt.

Un terme qui a une probabilité d’en suivre un autre selon le contexte ça peut se représenter sous forme de tableau :

« Je gare »

suiteProbabilité (fictive)
« ma voiture »0.5
« ma moto »0.2
« mon vélo »0.15
« puis je repars »0.07
« le camion »0.05
« et je vais faire les courses »0.03

Ces probabilités vont varier en fonction du seed (une valeur aléatoire ou pseudo aléatoire qui permet de varier les éléments sélectionnés dans le top de probabilité) et surtout du prompt (le contexte).

C’est très important de comprendre que c’est une approche basée sur la probabilité qu’un terme en suive un autre 

L’importance de la contextualisation et QBST

Ça fait plusieurs fois que je mentionne cette contextualisation. Mais qu’est-ce que c’est exactement ?

Le contexte (littéralement « autour du texte ») se réfère à l’ensemble de termes utilisés autour d’un terme. Dans le cadre de BERT, ce contexte est exploité pour identifier un contexte attendu en fonction d’une requête. Ce qu’on appelle parfois « intention » peut être couvert par le contexte de la requête ou des réponses attendues… Mais de façon beaucoup plus précise que l’intention marketing.

Qu’est-ce que le QBST et qu’est-ce que ça a à voir là-dedans ?

QBST, c’est l’acronyme de Query Based Salient Terms. Guillaume en parlera bien mieux que moi ici : https://central.yourtext.guru/fr/qbst-en-2024-ecrire-pour-google-cest-plus-que-jamais-utiliser-les-bons-mots/ 

Grâce à QBST, on peut identifier des mots d’un document ou d’un corpus de documents qui sont jugés particulièrement pertinents autour d’une requête. Ça nous permet ensuite d’identifier quels termes utiliser pour la requête contextualisée sur laquelle on souhaite se positionner : c’est ici qu’on va exploiter la sémantique pour devenir pertinent aux yeux d’un robot, et c’est précisément pour ce point qu’on a besoin d’un outil pour identifier les termes à exploiter, et de façon spécifique, un outil qui utilise la SERP. 

L’usage de la SERP plus important que jamais

On peut séparer les outils qui proposent de l’optimisation sémantique en plusieurs catégories, mais il y a une catégorie essentielle : celle des outils qui vont chercher l’information en direct pour vous donner un contexte mis à jour. En effet, la SERP de Google change régulièrement, le QBST n’est pas fixe, il varie selon les interactions des utilisateurs. Et de ce fait, lorsque la page de résultat s’améliore, les recommandations deviennent plus intéressantes pour l’écriture du contenu.

Ce qu’on sait des Google Leaks de 2024, c’est que QBST permet en réalité de préselectionner une liste de pages de l’index qui correspondraient à la requête avant de retravailler le ranking avec les informations de Navboost. C’est donc un élément primordial pour considérer la sélection de votre page pour la requête : plus votre page répond au besoin, plus elle a de chances d’être indexée et de remonter, mais le travail seul de la sémantique ne suffit pas.

Bien évidemment, ça provoque un inconvénient majeur : il faut aller chercher les résultats sur la page de résultat, et ce en direct, afin de récupérer les textes qui composent le corpus de documents. Cette méthode est vulnérable aux mouvements d’humeurs de Google qui fait parfois des mises à jour pour empêcher l’usage de ses SERPs par des méthodes d’extractions automatisées.

Un autre inconvénient, c’est qu’il faut pouvoir extraire le contenu de la page web concernée, et il peut y avoir un nombre de raisons assez important pour lesquelles cette extraction serait entravée par le site.

Pour autant, l’alternative d’utiliser un outil qui ne récupérerait pas la SERP correspondrait à utiliser un outil d’aide à la rédaction qui n’ait pas pour objectif de positionner le contenu sur le moteur de recherche.

L’usage de la SERP permet donc à un outil de vous proposer une liste de mots de contextualisation. C’est assez utile pour le rédacteur humain qui va pouvoir choisir un angle d’attaque pour rejoindre au mieux le contexte attendu. Apporter un contexte, c’est d’autant plus important pour une machine qui va essayer d’imiter un rédacteur humain. On revient alors à un usage de LLM, du côté rédaction cette fois.

Uncanny Valley, le repoussoir

Rédiger ou faire rédiger avec un outil génératif, c’est sans doute un excellent gain de temps pour le rédacteur. Pour autant, même avec le meilleur contexte et les sources d’informations les plus fiables, un LLM peut être à côté de la plaque sur le style d’écriture, sur les informations qu’il va fournir ou sur l’explication de ce qu’est le sujet principal de l’article que vous rédigez.

Les impacts sont divers : 

  • Si l’article raconte n’importe quoi, il peut y avoir des implications légales. 
  • Si le style d’écriture semble trop lisse, trop parfait, même après relecture, un lecteur peut ne pas apprécier le contenu fourni, malgré la qualité de l’information délivrée. C’est ce qu’on appelle le phénomène « Uncanny Valley » 

La « vallée de l’étrange » et son impact sur les lecteurs du web, c’est un concept qui fait appel à l’affinité émotionnelle de ce qu’un humain peut ressentir lorsqu’il est mis en relation avec ce qui semble humain ou ce qui est humain. C’est un mécanisme instinctif qui va, dans le cadre de sa conceptualisation, différencier le robot qui a l’air très humain et l’humain réel. Ce phénomène s’applique également à la production de texte :

On a un sentiment d’affinité avec un texte qui est réellement produit par un humain, sentiment d’affinité qu’on pourrait ne pas avoir avec un texte produit 100% automatiquement, s’il n’est pas bien encadré.

Pour les signaux utilisateurs (Navboost encore une fois) les textes 100% produit par un LLM sont une catastrophe potentielle, car malgré la qualité du contenu apporté, le taux de rebond des utilisateurs repoussés par leur instinct a un impact sur la visibilité de l’article.

EEAT : capter et garder l’attention (la communication de Google)

Au vu de l’usage des signaux utilisateurs dans la compréhension de la qualité perçue des textes, les critères mentionnés dans la communication officielle de Google font sens :

Expérience, Expertise, Autorité, Fiabilité (Experience, Expertise, Authoritativeness, Trustworthiness) sont des éléments qui composent les recommandations générales qui permettent de valoriser les rédacteurs et les contenus qu’ils produisent. 

L’objectif ici va être de capter et de conserver l’attention des utilisateurs, mettre en avant sa capacité à être une source d’informations de qualité, fiable, citant des sources pour appuyer les propos avancés et bénéficier du point de vue du lecteur d’une image de source de qualité.

Ce que ça veut dire exactement : 

Sur le web, il y a autant de niveau de qualité d’écriture qu’il y a de page, de sujets, de rédacteurs. Google veut récompenser les meilleurs et surtout encourager les meilleurs à prendre la parole. Un rédacteur expert sur son sujet, un expert reconnu, un journaliste qui documente ses sources, un chercheur qui fait un papier de qualité, sourcé, c’est ce que Google cherche à valoriser, quelle que soit la thématique, mais particulièrement les thématiques qui ont un impact sur la vie des utilisateurs du moteur de recherche (Your Money Your Life).

Dans le domaine de la rédaction pour le web, un copywriter utilisera une structure de texte qui va correspondre à cette méthodologie : AIDA (pour Attention Intérêt Désir et Action) qui doit permettre la rétention une fois l’attention captée. L’objectif étant ici de transformer un potentiel de marché en client à la fin de la session client, en faisant passer le prospect par les diverses étapes de la hiérarchie de la séquence des effets dont je parle un peu plus bas.

Les recommandations officielles sont des encouragements à prendre la parole. Pour faire une analogie on peut dire que le contenu sera jugé : le jury sera le public qui va réagir comportementalement au contenu, et l’exécuteur de la sentence sera Google et son classement.

Les étapes d’une rédaction optimisée pour le web

Trouver un sujet

Avant toute chose, vous devez savoir de quoi vous allez parler. Et pour ça, il existe une multitude d’outils pour vous aider à faire un choix.

Diverses méthodes pour vous aider :

  • Les méthodes exploratoires (vous rentrez une thématique et vous récupérez des mots clés associés à cette thématique dans une base) : le principe est qu’une méthode exploratoire doit vous permettre de trouver une liste de mots clés qui vont composer des sujets associés aux thématiques principales que vous voulez traiter. Cette méthode va être assez efficace en quantité de mots clés, si tant est que le sujet :
    • N’est pas de l’actualité
    • Est représenté dans la base que vous interrogez (le fournisseur de donnée le plus important dans ce milieu est la base de mots clés de Google Ads). Aucune base de mots clé ne peut se targuer de contenir tous les sujets. 
  • L’analyse concurrentielle (identifier les sujets du concurrent et s’en inspirer pour écrire des contenus similaires) : Le principe est assez similaire de la méthode exploratoire, en filtrant sur les sujets traités par les concurrents. Ce filtre permet de découvrir des thématiques plus larges que celles auxquelles on a pensé initialement, mais va avoir les inconvénients suivants :
    • Il y aura toujours un filtrage à effectuer sur les requêtes marques des concurrents
    • La limite de la base source reste active
    • Il faut que les concurrents renseignés soient spécifiquement sur votre thématique
    • Vous dépendez des contenus que vos concurrents ont adressé (et vous êtes suiveurs).
  • L’identification de besoins spécifiques (vous savez ce que votre article doit couvrir comme besoin, vous avez une idée générale de l’intérêt stratégique du sujet pour votre contenu global). Cette méthode est la plus prometteuse en termes de production de sujets originaux ou d’indépendance de contenus. Elle s’inscrit dans la logique d’avoir une valeur ajoutée à proposer aux lecteurs.

Les deux premières méthodes sont assez simples à activer :

Un outil peut vous aider à chercher dans une liste de mots clés en fonction de la méthode exploratoire et de l’analyse concurrentielle. Vous pouvez ensuite généralement trier en fonction des métriques qu’il vous convient d’utiliser.

Quelques remarques concernant les métriques qui sont généralement fournies pour vous permettre un tri :

  • Le volume de recherche (généralement mensuel) : Cette métrique a plusieurs inconvénients :
    • C’est surtout une métrique fournie par Google, et de nombreux professionnels ont dénoncé la fiabilité de cette métrique.
    • Elle donne l’impression que travailler un contenu va amener un trafic mirobolant alors que le taux de clic est en réalité très bas.
  • Le CPC, l’enchère min & max : encore une fois, fournie par Google, ces métriques ont pour objectif de vous aider à faire un budget ou à identifier le niveau de compétition du sujet concerné.
  • La position, l’url, la date : Lorsque votre objectif est d’optimiser un contenu ou de travailler un contenu que vos concurrents ont déjà, voir les positions (le plus à jour possible) de ces contenus peut vous donner un indice de la manière dont le contenu que vous souhaitez dépasser performe.
  • La catégorie : Pour ça, on est généralement sur des catégories humaines, généralement automatisées en fonction d’une identification d’une suite de caractères, et pas sur un contexte précis. Je déconseille leur usage mais si vous acceptez le fait que votre liste finale sera moins exhaustive via l’usage de cette donnée, je vous en prie.
  • La difficulté et la compétition : deux métriques avec un objectif assez similaire : aider à établir ce qui est réaliste d’atteindre lorsqu’on travaille pour viser une requête en particulier. Les plus hauts niveaux de difficulté et de compétition sont généralement les requêtes marques, et les plus bas niveaux de difficultés sont généralement des requêtes à l’intérêt limité.
  • La tendance : cette information vous permet d’identifier des sujets saisonniers, des besoins d’actualités. Dans le premier cas, c’est essentiellement pour identifier comment le calendrier de publication peut s’adapter au mieux au trafic. Dans le second, c’est plus pour faire un ordre de priorité des sujets chauds, si la donnée est à jour.

Toutes ces métriques doivent surtout vous aider à choisir les mots clés qu’il vous paraît urgent d’adresser et d’intégrer dans votre roadmap de contenus.

Enfin, vous avez votre sujet, vous avez votre requête cible (et si vous ne l’avez pas, il faut se mettre à la place de l’internaute qui cherche le sujet, afin d’identifier ce qui est attendu). Il ne vous manque qu’à voir ce que l’internaute attends.

Analyser le contexte attendu

Pour être sûr d’être pertinent, il vous faut vous mettre à la place de l’internaute pour savoir ce qu’il attend, et ça peut passer par plusieurs questions :

  • Votre requête ciblée correspond-elle au contenu que vous envisagiez de produire ?
    • Faites la requête vous-même : qu’est-ce qu’on trouve sur la page de résultats de recherche ? Est-ce que ce sont des textes qui sont mis en avant ? Est-ce qu’il vous faut plutôt un simulateur ? Une définition ? Une vidéo ? Des infographies ou des PDF ?
  • A qui vous adressez vous ?
    • Vous pouvez souhaiter identifier votre cible : dans ce cas vous avez peut-être des personas type, et un discours à adopter pour les toucher.
    • Vous pouvez souhaiter savoir à quel niveau du tunnel de conversion votre cible se trouve, et souhaiter orienter votre contenu pour correspondre à leur besoin d’information. Ce niveau correspond à la hiérarchie de la séquence des effets :
      • Le stade cognitif (Prise de conscience, Connaissance)
      • Le stade affectif (Attrait, Préférence, Conviction)
      • Le stade conatif (Décision, Action)

  • Quel est le contexte sémantique de la requête visée ?
    • C’est un peu plus technique que la première question. Ici un outil ne sera pas de trop : il vous faut identifier le champ sémantique important pour Google autour de la requête (ce champ sémantique se voit modifié selon les interactions utilisateurs, autant dire qu’il peut changer fréquemment, mais les termes principaux restent généralement les plus importants). Vous avez besoin d’un outil qui compare le corpus des textes qui remonte sur la SERP en live avec un modèle de langage à jour. Par cette comparaison, la liste des termes importants sont généralement affichés par ordre d’importance et il faut se concentrer pour les premiers.

Pour autant, quand un outil vous donne des termes attendus, est-ce qu’il faut tous les utiliser ? 

Non. Il faut voir ça d’un point de vue statistique : les termes les plus importants ont le plus de chance d’avoir un impact sur le signal sémantique attendu. Utiliser les termes importants que les autres n’utilisent pas peut vous permettre de prendre le dessus sur certains concurrents de SERP qui n’oseront pas utiliser certains termes ou qui ont raté l’occasion de les utiliser. Pourtant, utiliser tous les termes n’est pas forcément la solution : pour un moteur qui connaît ce principe de termes statistiquement importants, détecter un texte artificiel est facile quand on voit que certains textes contiennent TOUS les termes issus de QBST. 

Pour un point de vue statistique et en restant sur une technique sûre, prenez garde à bien utiliser les termes les plus importants et à n’en utiliser que quelques-uns en-deçà d’une valeur plancher de la probabilité d’importance.

Combien de fois doit-on exploiter ces termes ?

C’est une réponse qui va être relative à l’usage classique de chaque terme de contexte sur les documents du corpus de la requête. Il y a des zones de valeurs où il est statistiquement acceptable d’aller comparé à un usage classique, et en fonction de la taille globale du contenu.

Quelle taille de contenus faire ?

Ici c’est plus délicat : en effet la taille du contenu n’a pas forcément grand-chose à voir avec l’état d’optimisation. Avec la taille du contenu vient aussi un risque lié à la dilution du champ sémantique. Votre compatibilité avec la sémantique attendue peut effectivement diminuer avec un contenu plus gros. Autre risque : avec un contenu plus gros que celui des concurrents, vous risquez également d’activer un filtre lié au bourrage de mot clé. Il y a un véritable équilibre à trouver entre bon niveau d’optimisation, taille de contenu, et pertinence de l’information.

Oui, mais si on fait bien attention à avoir des paragraphes bien thématisés et bien contextualisés, un gros contenu, c’est mieux qu’un petit contenu, non ?

Encore une fois, pas forcément. Dans le contexte où tous les textes du corpus de la requête sont des textes à rallonge (c’est souvent le cas en Allemagne), alors il est légitime d’avoir un contenu très grand. Dans le contexte où les textes du corpus sont de taille plus modérée, il y a un autre véritable risque à jouer avec un niveau d’optimisation : le Transition Rank (valable sur des pages qu’on réoptimise). 

Un exemple de courbe où on s’est concentré sur les termes les plus importants mais on n’a pas utilisé tous les termes, spécifiquement à droite de la liste (guide : « recette muffin fraise » date : 8/01/25, score SOSEO attendu 72-80, DSEO <19)

Le Transition Rank dans la sémantique

Comme sur l’acquisition de backlinks, le Transition Rank surveille également les optimisations sémantiques. C’est une définition de spam que les ingénieurs de Google écrivent dans leur brevet : 

Globalement, Ross Koningstein, l’inventeur de ce Transition Rank, ne souhaite pas voir les positions modifiées par des pratiques de spam. Sa proposition va donc aider Google à limiter l’impact de pratiques visant à modifier les signaux d’une url pour la placer sur une meilleure position.

Son algorithme fonctionne en 2 parties : 

–          La détection

–          La phase de quarantaine

La détection : lorsqu’une url est suspectée de spam au travers d’actions comme l’optimisation sémantique ou l’acquisition de liens, elle passe en phase de transition : une phase qui dure de quelques heures à 3 mois pendant laquelle une position arbitraire moins bonne que la position initiale est attribuée à la page. Si pendant cette période, la page se trouve réoptimisée, elle entre à nouveau dans une phase de Transition Rank, et perd à nouveau des positions.

La seule façon d’échapper au Transition Rank est de ne plus toucher au contenu ou au linking d’une page pendant 3 mois.

Avec le travail sémantique, on a quand même l’opportunité d’éviter la première phase si on reste dans des usages acceptables des termes attendus.

Effectuer ses recherches

Si vous souhaitez correspondre aux besoins de la philosophie de contenu poussée par les recommandations EEAT, il vous faut effectuer vos recherches. Vous devez envisager de proposer des sources, parce qu’elles expliquent et justifient vos points de vue. Ces sources peuvent être en ligne ou hors ligne, (ne négligez pas l’avantage d’un passage à la bibliothèque si votre sujet le nécessite). Notez toujours la référence de votre source et essayez de produire un lien qui mentionne la source et où la trouver.

Ne craignez pas de remettre en question ce que vous envisagiez de raconter. On n’arrête jamais d’apprendre et d’autant plus quand on fait un papier.

Aujourd’hui, avec les moteurs de recherches avancés et les outils génératifs, vous pouvez sans doute essayer de trouver des sources pour appuyer vos contenus, mais relisez les avant de les nommer (on ne sait jamais) afin d’en évaluer la pertinence et la qualité. Ne confiez pas cette relecture à un outil génératif, même avec le prompt « ma vie en dépend » ou « tu recevras un salaire », vous n’êtes pas à l’abri d’une réponse qui contredit votre contenu.

Enfin, si vous avez déjà publié et souhaitez rediriger vos lecteurs vers d’autres articles de votre production, vous pouvez le faire vers une page auteur qui regroupe les liens vers vos contenus précédents, par exemple.

La to-do-list des critères SEO

Les basiques à respecter

Il y a historiquement de nombreux critères qui ont compté plus ou moins, jusqu’à plus du tout, et je vais m’efforcer de lister les basiques, tout en rappelant leur usage :

Les contenus qui s’affichent dans les résultats de recherche :

  • La balise Title : la seule véritable balise de la liste qui impacte le ranking directement. Il y a un nombre de pixels limités (entre 500 et 550 à l’heure où j’écris ces lignes) pour cette balise, à respecter sous réserve de voir son titre de page coupé dans les résultats, et risquer d’être moins cliqué, ce qui n’est jamais bon pour Navboost et le click skip. Il arrive que pour la réassurance, la title inclue la marque, si tant est qu’elle est connue.
  • La balise meta et son attribut description : le champ de texte qui doit convaincre et rassurer l’utilisateur afin qu’il clique sur le résultat et vienne visiter la page. L’une des balises les plus importantes et les moins bien utilisées : outre une question de taille en pixels (variable selon le support : pour le mobile et entre 900 et 1000 sur écran large, à l’heure où j’écris ces lignes), son ton et son contenu doit être adapté à la cible de la requête.

Les contenus sur la page :

  • Le H1 : sensé être unique, c’est la balise qui représente le titre du contenu, à l’instar, un peu simpliste, d’un titre de livre. Il a également une taille limitée, en nombre de caractères cette fois (70)
  • Les sous titres (H2, H3, H4, H5, H6) : ce sont des balises sensées être structurantes pour le contenu. Dans la réalité du web, elles sont détournées pour des usages cosmétiques (faire une ligne dans un style propre à un h3, combien de fois on a vu ça ?) qui rend ces balises inutiles à l’usage d’un signal sémantique. Si vous le pouvez, évitez ce genre d’usage, car ça fait partie des extra steps à faire pour dépasser les concurrents de SERPs, et chaque élément qui va dans le bon sens ne peut qu’être positif.

Évitez d’utiliser le même texte pour la title et le h1 : les deux ont des objectifs différents : la title doit appâter en annonçant une réponse au contenu souhaité, et le H1 doit confirmer que la page correspond bien au contenu attendu en annonçant le contenu complet de la page.

Un autre élément à cheval entre la sémantique et le linking à exploiter, c’est de mailler un contenu au sein de votre site en vous assurant que les liens que vous faites vers et depuis cette nouvelle url soit en rapport avec des urls qui ne sont pas trop distantes du point de vue d’embeddings sémantiques.

Relayer le contenu sur les réseaux sociaux

Grâce aux Leaks de la documentation de l’API interne de Google et du procès anti-trust, 2024 nous a permis de découvrir ce que certains SEO soupçonnaient déjà : le trafic est un élément important de l’autorité d’une url. Ce que ça signifie, c’est que pour donner les meilleures chances à son contenu pour performer, le partager sur les réseaux sociaux est essentiel.

Si votre objectif, c’est de vous assurer que votre contenu a toutes les chances de performer, n’hésitez pas à le partager sur vos réseaux sociaux personnels et professionnels.

Pour amener du trafic, d’un point de vue logique, il faut même publier plusieurs fois par jour pour que votre contenu soit vu par la plus grande partie de votre réseau social.

En effet, tout le monde ne se connecte pas à la même heure, et les algorithmes sociaux vont naturellement ne montrer qu’une partie des posts récents que vous pouvez souhaiter de voir. Pour plus de couverture, il faut donc publier vers la même page plusieurs fois dans la journée, plusieurs fois par semaine.

Suivre les performances des contenus que vous produisez

La logique voudrait que vous vous assuriez de créer du contenu qui servent et qui soit lu. Ce serait tout l’intérêt de passer du temps à produire du contenu de qualité. Engagez avec la communauté à qui vous partagez votre contenu, et assurez-vous que celle-ci le lit, et l’apprécie. Les retours peuvent toujours apporter une touche constructive pour améliorer votre style.

Pour avoir une information plus large sur les contenus que vous produisez, fiez-vous aussi clics, aux visites, au taux de rebond. Paramétrez des suivis de positions, pour savoir si dans l’ensemble, votre contenu apparaît au moins sur la requête visée (rentrer dans l’index primaire récompense les contenus qui répondent à un contexte attendu). 

Si vous avez lu l’article avec attention, vous aurez compris que la rédaction seule ne suffit pas pour un bon positionnement. Pour autant, elle en est une base essentielle qui va servir au robot à identifier des pages légitimes, et le style d’écriture va permettre de transformer l’essai auprès des lecteurs. Il va falloir également compléter l’état global et aller chercher des positions plus intéressantes via des pratiques annexes (maillage, acquisition de liens, clics depuis les réseaux sociaux ou depuis une zone géographique, etc…) 

Mais toutes ces pratiques annexes ne vont pas pouvoir faire beaucoup si votre contenu ne répond pas au besoin ou aux préférences de l’utilisateur.

SOURCES

TF IDF :

Titre : A statistical interpretation of term specificity and its application in retrieval

Auteur : Karen Sparck Jones

https://www.emerald.com/insight/content/doi/10.1108/eb026526/full/html

Cosinus de Salton :

Titre : Introduction to modern information retrieval

Auteurs : Gerard Salton, M.J. McGill

https://www.google.fr/books/edition/Introduction_to_Modern_Information_Retri/7f5TAAAAMAAJ

Transition Rank :

Titre : Changing a rank of a document by applying a rank transition function
Auteur : Ross Koningstein
https://patents.google.com/patent/US8924380B1/en

Word2Vec :

Titre : Efficient Estimation of Word Representations in Vector Space.

Auteurs : Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean

https://arxiv.org/abs/1301.3781

Titre : Distributed Representations of Words and Phrases and their Compositionality

Auteurs : Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean

https://arxiv.org/abs/1310.4546

FastText :

Titre : Enriching Word Vectors with Subword Information

Auteurs : Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov

https://aclanthology.org/Q17-1010

BERT :

Titre : BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Auteurs : Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

https://arxiv.org/abs/1810.04805

The Uncanny Valley:

Titre : The Uncanny Valley [From the Field] 

Auteurs : Masahiro Mori, Karl F. MacDorman, Norri Kageki

https://ieeexplore.ieee.org/document/6213238

Autres sources :

Search Quality Rater Guidelines : EEAT

Auteur : Google

https://static.googleusercontent.com/media/guidelines.raterhub.com/en//searchqualityevaluatorguidelines.pdf

QBST : 

Titre : QBST : En 2025, écrire pour Google, c’est plus que jamais utiliser les bons mots

Auteur : Guillaume Peyronnet

FastText :

Titre : What Is FastText? Compared To Word2Vec & GloVe [How To Tutorial In Python]

Auteur : Neri Van Otten

https://spotintelligence.com/2023/12/05/fasttext