Réflexion sur la notion de concurrence : comment définir la concurrence sur le web et les moteurs de recherche ?

C’est un grand sujet quand on n’est pas un expert d’un marché : comprendre rapidement quels sont les sites qui font concurrence au client à qui on va proposer notre expertise. Un consultant SEO a pour obligation de comprendre, au moins à minima, l’écosystème dans lequel évolue son client, pour comprendre comment lui proposer une stratégie SEO et des actions qui vont faire remonter une page (ou plusieurs) sur Google.

Quelques points préalables à la réflexion :

Du point de vue d’un moteur, on sait déjà qu’un contenu est représenté sous forme d’un vecteur (embedding). Un site web est donc un regroupement de plusieurs embeddings et peut avoir une représentation similaire : Mathématiquement, on peut regrouper les vecteurs pour en former un global pour tout le site.

En deux dimensions, ça donnerait ça :

C’est là que la notion de site doit également être définie : un domaine ne pourrait pas faire de sens pour la notion de site : on serait sur un sujet trop large si on devait comparer wordpress.com avec un concurrent, il y aurait trop de sites associés. Il faut donc parler d’host (ou de sous-domaine si vous préférez) pour avoir une vision plus juste. Et comme on ne compare pas des choses incomparables, tous les points de vue site doivent être au niveau host.

bakery.exemple.com
mechanics.exemple.com
exemple.com
www.exemple.com

Ici on a un exemple de 4 sites sur le même domaine (exemple.com) mais sur 4 sous domaines différents (hosts) : bakery, mechanics, www et l’apex (pas de sous domaine). On comparera forcément des hosts entre eux, et non avec d’autres domaines (même celui qui est à l’apex).

Il nous suffit ensuite de comparer différents vecteurs pour obtenir des sites qui parlent des mêmes choses que vous. Plus les sites sont spécialisés, plus cette comparaison sera précise.

Une approche actuelle imprécise pour la définition de la concurrence

Aujourd’hui sur le web, les outils qui présentent la concurrence ne vont vous afficher que les sites qui ont les mêmes mots-clés que vous.

Prenons un exemple : Le vendeur de coque iPhone a un site, et s’il se fie à l’approche « mots clés », une place de marché comme Amazon pourrait être considéré comme son concurrent. Pour autant, Amazon ne le considère absolument pas comme un concurrent. C’est parce qu’Amazon a de nombreuses autres verticales qui lui permettent de vendre de nombreux autres produits. Est-ce qu’il fait sens pour notre vendeur de coques de se comparer à Amazon ? Pas vraiment.

Cette approche a un problème majeur : la taille des sites varie, et certains sites sont plus généralistes et d’autres plus spécialisés. En ne prenant en compte que les mots-clés en commun, on n’a donc pas d’approche suffisamment fine pour faire la distinction entre les généralistes et les spécialisés.

Un autre problème, c’est que si la liste de concurrent proposée est tronquée, l’outil va généralement proposer des sites généralistes parce qu’ils ont beaucoup de mots clés, et ainsi s’enfoncer dans une définition trop imprécise de la concurrence.

La méthode des mots clés en commun est pourtant intéressante puisqu’elle permet d’identifier les sites qui squattent une part de visibilité dans les moteurs de recherche, part qu’on souhaiterait peut-être récupérer.

En SEO, comment peut-on définir la concurrence ?

En SEO, on peut parler de concurrence lorsqu’on désigne les sites web qui ont pour objectif la captation d’une même zone de prospection sur des requêtes clés de Google ou des intentions plus générales. Mais tous les sites web n’ont pas les mêmes moyens, ou n’adressent globalement pas la même cible.

La réalité, c’est que parler de concurrence, c’est un sujet plutôt flou car chacun va y aller de sa définition et de son adaptation pour indiquer un site comme étant son concurrent.

Au cas par cas (requête par requête), une page concurrente se positionne dans la SERP (page de résultat de recherche) sur la même requête que vous, ou sur une requête que vous visez. C’est donc une page qui va parler sensiblement des mêmes sujets ou va être à minima considérée comme légitime pour remonter sur Google (ou tout autre moteur d’ailleurs) que votre page qui vise la même requête.

Mais d’un point de vue plus large, les sites ayant des politiques de contenus diverses, certains vont être plus précis, d’autres plus généralistes et au global, la proximité de la politique de contenu peut bien être une méthode pour définir qui va essayer de rivaliser directement avec un site en particulier.

Quelle méthode alternative pour définir la concurrence ?

Aujourd’hui il n’existe pas 50 méthodes qui permettraient de répondre également à une approximation de la concurrence. En utilisant l’embedding moyen d’un site, on doit pouvoir identifier un score de similarité entre deux sites, de la même façon qu’un moteur comprend la similarité entre un document et une requête. Pour être tout à fait précis, il faut plutôt parler de l’inverse de la distance entre deux embeddings moyens.

Cette méthode est totalement indépendante de l’approche des mots clés en commun, puisqu’il « suffit » d’avoir un crawl du web suffisamment conséquent à disposition pour définir quels sites sont similaires. (C’est un peu plus compliqué que ça, surtout quand on considère la taille que doit faire un index pareil, et que comparer les sites revient à faire une matrice gigantesque pour comparer l’intégralité de la liste). On va donc se tourner vers un opérateur qui a déjà fait le travail pour une partie : Babbar, qui fournit à ses clients API une route permettant d’identifier, par langue, jusqu’à 100 hosts similaires à un host d’entrée, par la méthode des embeddings.

Malheureusement, l’approche des embeddings n’est pas suffisamment raffinée pour donner des résultats qui, au vu du client final, seront pertinents. On peut effectivement se retrouver avec une liste de sites qui sont bien dans la bonne thématique mais qui sont de petits acteurs, invisibles sur la SERP et que le grand public ne connaîtra pas ou auquel le grand public ne fera pas confiance.

Utiliser une méthode qui prend en compte les embeddings, c’est utiliser un point de vue de moteur pour définir des concurrents. Utiliser les mots clés en commun, c’est utiliser un point de vue de la visibilité dans les SERP.

Alors combiner les deux, c’est prendre le meilleur des deux approches pour avoir des résultats plus pertinents.

Comment combiner les mots clés en commun et les similaires ?

C’est assez simple, on va juste faire un dessin pour montrer ce qu’on peut obtenir en utilisant la combinaison de ces deux approches :

Répartir les sites concurrents selon le taux de similarité (en abscisse) et le nombre de mots clés en commun (en ordonnée) (valeur normalisée) avec la taille des points concurrents qui diffère selon le nombre total de mot clé du site concurrent.

Concevoir une droite qui passe par (0,0) et (1,1) nous permet ensuite d’avoir une dimension unique pour comparer tous les sites.

On peut ainsi identifier le top des concurrents en se basant sur la projection orthogonale du point représentant le concurrent sur la droite et en classant la projection de la valeur la plus élevée à la plus basse.

En se basant sur notre approche, la zone la plus importante pour le site initial est celle qui est le plus en haut à droite, proche de la diagonale.

On peut ensuite dresser une liste des concurrents, triée par leur position sur la diagonale.

Prenons un exemple :

Ici, un exemple lorsqu’on ne prend en compte que les mots clés dans le top 20, sur le marché anglophone des US, pour le site www.planetfitness.com :

(Un graphique interactif (ici l’abscisse n’est pas normalisée) pour vous montrer les concurrents : passez la souris sur un point)

La diagonale est la droite qui part de (0,0) et passe par (1,1). Son équation est :

Pour un point (x, y) la projection orthogonale sur la droite est déterminée par :

En l’occurrence on a juste besoin du coefficient t (multiplier par (1,1) ne nous sert pas pour comparer les valeurs puisque c’est la même valeur pour chaque point projeté)

On obtient donc, pour www.planetfiness.com (sur des mots clés et des similar en anglais des US), le tableau ordonné suivant, où t_projection est décroissant car on a réduit les concurrents à une seule dimension : 

similarsimilarity_scorecommon_keywords_normt_projection
www.gymbird.com0.71.00.85
gym.com0.70.416070007955449460.5580350039777247
www.orangetheory.com0.680.37390612569610180.526953062848051
www.planetfitness.ca0.870.0127287191726332540.44136435958631665
chuzefitness.com0.670.114293290904269430.39214664545213473
youfit.com0.690.055953328029700340.37297666401485013
www.o2fitnessclubs.com0.70.0304958896844338380.3652479448422169
www.thegymgroup.com0.70.019888623707239460.3599443118536197
www.thefitnessdistrictgym.com0.690.0029169981437284540.3464584990718642
gymdues.com0.690.0029169981437284540.3464584990718642
planetfitnessteenfitpass.com.au0.680.0121983558737735350.34609917793688677
wellbridge.com0.680.0106072659771943790.34530363298859723
titanfitness24.com0.680.00159108989657915680.3407955449482896
bodyfuelfitness.com0.680.00132590824714929730.34066295412357467
www.leadfitness.com0.680.00106072659771943790.3405303632988597
transform180training.com0.680.00106072659771943790.3405303632988597
theironplate.com0.680.00079554494828957840.3403977724741448
steelfitnesspremier.com0.680.00053036329885971890.34026518164942987
info.o2fitnessclubs.com0.670.0068947228851763460.3384473614425882
www.racmn.com0.670.0029169981437284540.33645849907186426
fdgyms.com0.670.00106072659771943790.3355303632988597
ellisathleticcenter.com0.670.00079554494828957840.3353977724741448
www.blastfitness.com0.670.00079554494828957840.3353977724741448
www.raincityfit.com0.670.000265181649429859470.33513259082471497
www.fairviewlfc.com0.670.000265181649429859470.33513259082471497
www.goldsgymdcmetro.com0.650.019093078758949880.3345465393794749
www.clubfit30.com0.660.00212145319543887570.33106072659771946
www.gymcompany.co.za0.660.00106072659771943790.3305303632988597
www.survive41.com0.660.00079554494828957840.3303977724741448

Il y a sans doute une limite à trouver pour ne conserver que les meilleurs résultats.

On peut décider de faire le même exercice en prenant les mots clés du top 100, le classement est assez différent (on retrouve quand même dans le top les mêmes concurrents) :

similarsimilarity_scorecommon_keywords_normt_projection
www.orangetheory.com0.681.00.8400000000000001
www.gymbird.com0.70.90921119592875320.8046055979643766
gym.com0.70.483460559796437650.5917302798982188
chuzefitness.com0.670.43552162849872770.5527608142493639
www.thegymgroup.com0.70.226157760814249380.46307888040712464
www.planetfitness.ca0.870.0312468193384223930.4506234096692112
youfit.com0.690.11460559796437660.4023027989821883
www.o2fitnessclubs.com0.70.07898218829516540.38949109414758265
gymbills.com0.70.0112977099236641220.355648854961832
wellbridge.com0.680.0301272264631043260.35506361323155217
gymdues.com0.690.0138422391857506360.3519211195928753
gymbigot.com0.70.0014249363867684480.3507124681933842
www.beactivefitness.co.nz0.70.000101781170483460550.3500508905852417
www.thefitnessdistrictgym.com0.690.00152671755725190840.3457633587786259
www.gymcompany.co.za0.660.030941475826972010.34547073791348604
planetfitnessteenfitpass.com.au0.680.00712468193384223950.3435623409669211
titanfitness24.com0.680.00315521628498727750.34157760814249366
steelfitnesspremier.com0.680.00305343511450381680.34152671755725195
transform180training.com0.680.0025445292620865140.34127226463104327
www.leadfitness.com0.680.0011195928753180660.34055979643765905
bodyfuelfitness.com0.680.00081424936386768440.34040712468193385
theironplate.com0.680.00061068702290076340.3403053435114504
www.crossfitchicagoheights.com0.680.000101781170483460550.34005089058524174
www.shalomwellnesscenter.org0.680.000101781170483460550.34005089058524174
www.racmn.com0.670.0069211195928753180.3384605597964377
info.o2fitnessclubs.com0.670.0065139949109414750.3382569974554708
www.plusfitness.com.au0.660.016488549618320610.3382442748091603
ellisathleticcenter.com0.670.0028498727735368960.33642493638676846
fdgyms.com0.670.00264631043256997440.33632315521628503

(Et le graphe -sans la droite- donne ça)

(Un graphique interactif (ici l’abscisse est normalisée) pour vous montrer les concurrents : passez la souris sur un point)

Intéressant de voir que dans les deux cas, les 3 tops concurrents du site initial sont les mêmes, (gym.com, www.gymbird.com et www.orangetheory.com). Ce qui revient à estimer que la façon la plus optimale de trouver les meilleurs concurrents doit se situer entre le top 20 et le top 100, puisqu’on trouve plus d’informations avec le top 100, mais un peu plus de bruit.

Est-ce que le résultat suffira à toujours trouver les concurrents business majeurs du client ? 

Pas forcément. Rappelez-vous, on récupère le top 100 des sites selon le score de similarité basé sur l’embedding moyen de chaque site du web visité par un crawler. S’il est peu probable qu’un crawler qui visite 6 Milliards de pages par jour ait raté un site, il est fort probable en revanche que de nombreux petits sites s’invitent dans les tops similaires sans avoir beaucoup de positions. L’approche est affinée et ces sites sont filtrés par l’ajout de la deuxième dimension du nombre de mots clés en commun. Pour autant, on a une limite de 100 sites similaires dans laquelle on va récupérer uniquement ceux qui ont des mots clés en commun.

Tout dépend donc de la base de mots clés et de la base de site analysés : 

  • Pour le top similaire, tout dépend de la quantité de pages analysées sur le web et de la méthode d’embedding sélectionnée.
  • Pour les common keywords, tout dépend de la taille de la base de l’outil, et la fréquence de mise à jour.

Les concurrents qui ressortent de cette analyse restent des concurrents tout à fait exploitables pour une analyse de concurrence sur les moteurs de recherche.

Est-ce qu’effectuer le travail dans l’autre sens (d’abord les mots clés en commun puis les similaires) aurait de meilleurs résultats ?

C’est possible, mais c’est un coût qui est beaucoup plus élevé. Il faudrait toujours trier les « baleines » : ces sites qui touchent de très nombreux mots clés, dont certains pourraient être inconnus de l’expert SEO, et lancer le calcul de similarité à posteriori, ce qui sous entends crawler les sites concernés pour en calculer l’embedding moyen. C’est une autre approche qui nécessite une puissance de calcul et de traitement à la demande bien différente, sans vraiment avoir la garantie de meilleurs résultats.

Quels sont les inconvénients de cette approche ?

L’inconvénient majeur concerne les sites qui sont aux extrêmes : les baleines et autres sites généralistes vont avoir un embedding général peu précis et être proches de sites qui n’auront pas grand-chose à voir en thématiques. Les petits sites qui ont peu de positions auront du mal à donner des mots clés en commun. Pour la grande majorité des acteurs du web, en revanche, cette approche est tout à fait utilisable.

La compréhension de la concurrence, grâce à des outils d’analyse de mots-clés et d’analyse de sites, ainsi qu’une étude approfondie des annonceurs et des sites concurrents, est essentielle pour élaborer une stratégie SEO performante. L’objectif est de positionner les pages du client en tête des résultats de recherche de Google.

En résumé, l’approche hybride proposée – combinant embeddings et analyse des mots-clés – offre une définition mathématique de la concurrence en ligne. L’exemple de Planet Fitness montre que, malgré les variations entre top 20 et top 100, les principaux concurrents restent identifiables.

A défaut de vous donner la liste exhaustive des concurrents que votre prospect ou votre client a en tête, vous aurez une liste de concurrents qu’il connaît, ou de partenaires qu’il peut avoir. C’est une bonne façon de gagner du temps pour avoir des résultats qui vont parler à notre interlocuteur, validant la capacité d’un SEO à s’adapter à la thématique du client et à identifier rapidement au moins quelques concurrents sérieux pour son client.