L'Audit sémantique: Méthodologie et outils

Audit de site web

Méthodologie d’audit technique SEO et cas pratique sur un site
L’Audit sémantique: Méthodologie et outils
Audit de site ecommerce
[Guide] Comment connaitre et supprimer les mauvais Backlinks
Audit technique SEO et crawl javascript

Qu’on l’appelle audit sémantique, de contenu ou audit éditorial, le contenu est au coeur de tout audit de site web et de stratégie webmarketing. Je vais vous présenter ma méthodologie et quelques outils afin de réaliser un audit sémantique au niveau SEO et content marketing.

Les objectifs d’un audit sémantique

Un audit sémantique vous aide à accomplir plusieurs des actions suivantes:

Catégoriser un site web, un site éditorial, un site ecommerce ou autres
Créer un maillage sémantique en synergie avec le maillage interne SEO
Définir les pages dont il faut enrichir le contenu
Créer de nouvelles pages: des landing pages, des articles, des pages hubs, …
Cibler votre stratégie de netlinking
Trouver les solutions pour sortir de Google Panda
Déterminer les meilleures pages à positionner pour quels mots clés
Et finalement, l’objectif de ces objectifs c’est de créer du trafic et des conversions

Pour résumer, les objectifs d’un audit sémantique sont d’allier les exigences du marketing de contenu et celles du référencement naturel, les besoins des utilisateurs et ceux des moteurs de recherche.

Comment google évalue la qualité d’un contenu ?

Avant d’aller plus loin sur ma méthodologie d’analyse sémantique, il est bon de comprendre comment google juge de la pertinence et de la qualité d’un contenu ou du moins en saisir les principaux fondamentaux. Google possède plusieurs algorithmes sémantiques évolués qui lui permettent d’être plus pertinent qu’à l’époque où il suffisait de répéter plusieurs fois le même mot clé ou de créer autant de pages que de mots clefs ciblés. Je ne vais pas non plus rentrer dans le détail de chacun des algorithmes car ça deviendrait vite soporifique et présomptueux d’affirmer conjectures ou hypothèses sur ce qui reste à bien des égards un secret bien gardé.

Le pagerank sémantique

Appellé aussi topic-sensitive pagerank , c’est une variante du pagerank traditionnel qui s’attache à la thématique et à la contextualisation des liens. Contrairement au calcul du pagerank historique qui s’attache au nombre et au PR des pages liantes, le pagerank sémantique apporte une dimension plus qualitative. Autre différence majeure, une même page peux avoir plusieurs pagerank sémantiques différents sur plusieurs sujets différents.

L’algorithme de Hilltop

Avec l’algorithme de Hilltop, on est aussi à la frontière entre linking et pertinence sémantique, puisque cet algorithme regarde la relation entre les documents considérés comme experts sur un domaine particulier et les pages d’autorité ( qui font des liens externes vers des pages experts)

L’indexation sémantique latente (LSI)

Le LSI pour « latent semantic indexation » permet d’établir les relations entre un document et un corpus sémantique. Un corpus sémantique c’est l’ensemble des termes utilisés autour d’un même concept par un groupe de pages web (ou de documents). Sur ce modèle vient se greffer des méthodes de pondération des mots clés comme le TF-IDF vulgarisé (ou pas 😉 ) par les frères Peyronnet. Ce système permet de mesurer la pertinence d’un contenu en fonction de l’utilisation des termes fréquents et plus rares du corpus thématique.

Ça signifie qu’utiliser les termes exacts sur les lesquels on veut se positionner n’est pas suffisant mais qu’il faut utiliser des termes associés, j’en parle un peu plus lois dans le corpus sémantique.

La co-citation

La citation de termes souvent associés ensemble sur une thématique renforce la pertinence de ces termes sur cette thématique. Par exemple, si votre marque est souvent citée par A et B sur un thème C, votre marque devient naturellement pertinente sur ce thème. La co-citation fonctionne sans aucun lien, uniquement avec la proximité sémantique.

Hummingbird ou le colibri

L’algorithme Hummingbird, connu aussi sous le nom de colibri est mis en place depuis aout 2013. Il correspond à l’application sous des versions modifiées de quelques uns des algorithmes vus ci-dessus. Hummingbird tente de répondre aux requêtes des internautes en analysant le champ sémantique et donc pas uniquement en prenant en compte les mots clés exacts de la requête. Il permet notamment à google d’être plus pertinent sur des requêtes de longue traine.

La qualité d’un contenu pour Google

La qualité sémantique vue par Google est le résultat de calculs objectifs et n’a pas la valeur d’une qualité perçue par l’utilisateur qui est subjective, même si cette qualité objective tente de s’en rapprocher. On verra par la suite comment définir le corpus d’un mot clé notamment, mais lorsqu’on rédige un contenu, on peux difficilement faire des calculs mathématiques à chaque mot qu’on pose sur le papier ou l’écran d’ordinateur.

A ce stade et pour pas trop se casser la cervelle, ce qu’il faut retenir lorsqu’on écrit du contenu:

Définir les mots clés à placer dans son contenu
Regarder quelques sites qui se positionnent bien sur ces mots clés objectifs afin de s’inspirer du champ sémantique utilisé.
Utiliser aussi des termes plus rares et apporter votre valeur ajoutée
Employer un vocabulaire riche mais simple.
Avec ces quelques bases en tête, écrire du contenu pour l’utilisateur, c’est lui qu’il faut convaincre.
Utiliser un langage clair et naturel, appeler un chat un chat.
Structurer et aérer votre contenu
Répéter naturellement vos mots clés principaux
Placer des termes voisins
Contextualiser vos pages avec d’autres pages qui réemploient vos expressions principales.
Méfiez vous des notions de densité, cela varie d’une thématique à une autre et ça évolue dans le temps.
Pensez content marketing, intéressez vos visiteurs tout en servant vos objectifs de conversion.
Essayez pas d’être parfait ça freine l’inspiration.

Outils pour trouver des mots clés

Le but est de créer une liste de mots clés depuis plusieurs sources et sur lequel on va pouvoir ensuite travailler. En relation avec la manière dont google comprend votre contenu et ses progrès dans la recherche sémantique, une page n’a pas seulement besoin d’avoir les mots clés exacts de la requête pour positionner une page. L’idée est aussi de trouver l’intention d’un utilisateur autour d’une requête, que cherche-t-t-il vraiment en tapant une requête.

On va procéder en deux étapes:

Extraire les mots clés sur lesquels votre site est déjà positionné
Et ceux où vous n’êtes pas visibles, vos univers sémantiques manquants.

Mêmes les expressions pour lesquels vous avez déjà des positions ont un intérêt car il peux s’agir de pages qui ne génèrent qu’une seule visite et/ou de pages mal positionnées. Il s’agit dans ce cas de votre potentiel sémantique immédiat (remontable facilement)

Extraire les mots clés « visibles »

Par mots clés visibles, je veux dire ceux sur lesquels vous êtes déjà positionné, ceux qui ont un potentiel pour remonter dans les résultats.

1/ Analyser les logs des moteurs de recherche

Les logs d’un site web enregistre toutes les visites sur les pages. Que ce soit sur un serveur dédié ou mutualisé, l’hébergeur a une obligation légale de garder les logs pendant un an minimum. Pour le référencement, les données intéressantes sont les visites (date, volume, requêtes utilisées, code http, …) des visiteurs provenant des moteurs de recherche et les visites de google sur les pages( ou crawl de googlebot). Malgré le not-provided et si le site a assez de visites, on peux en général récupérer assez de mots-clés pour que ce soit représentatif.

Voici un extrait d’une ligne de logs contenant une visite avec la requête tapée sur google:

...HTTP/1.1" 200 15040 "http://www.google.fr/url?sa=t&rct=j&q=peut%20on%20arroser%20une%20dalle%20beton%20lisser&source=web&cd=7&ved=0CF8QFjAG&url=http%...

La requête tapée par l’internaute se trouve derrière le « q= »

2/ Récupérer les données issus de l’outil analytics

Que ce soit Google analytics ou autre, il est assez facile d’en extraire les mots clés qui ont générés des visites.

3/ Utiliser un outil de visibilité

Des outils de suivis de positions permettent d’interroger de grandes bases de mots clés, plusieurs milliers voire millions, dans lesquelles se trouvent forcément une partie des expressions sur lesquelles se positionnent votre site. Pour en citer qu’un seul et le plus connu: searchmetrics.

Avec ça, on a déjà une bonne liste de départ.

4/Extraire les données de search console

Search console permet également d’extraire les pages et les mots clés qui font des impressions et qui sont cliqués par vos visiteurs

Élargissement des mots clés

On va essayer d’aller plus loin pour élargir notre liste.

1/ Extraire les données du moteur de recherche interne

Si un moteur de recherche interne est installé sur le site et qu’il est suffisamment utilisé, on peux en extraire les recherches et ainsi en savoir plus sur le comportement de ses visiteurs. C’est souvent une source peu utilisée mais elle peut être riche d’enseignements ultra qualifiés puisqu’il s’agit de votre site.

2/ Utiliser un outil de recherche de mots clés

Il y en a plusieurs mais je vais en citer qu’un car les autres se basent souvent sur celui-ci, c’est simplement l’outil de planification des mots clés de google adwords. Que vous ayez une campagne PPC ou pas, vous pouvez l’utiliser gratuitement. On rentre sa liste de mots clés de départ dans l’outil qui va nous suggérer d’autres mots clés associés. L’intérêt de l’outil de Google c’est qu’il va vous proposer des groupes d’annonces, ce qui vous permettra de regrouper vos mots clés par thématique, très intéréssant pour l’étape de catégorisation des mots clés.

3/ Analyser la concurrence

On peux utiliser les mêmes méthodes utilisées sur son propre site pour analyser les concurrents, sauf celles qui demandent un accès au site biensûr. Pour une analyse plus détaillée sur une ou plusieurs pages de vos concurrents, il y a des des outils comme textfocus ou alyze

4/ Analyser les recherches sur les réseaux sociaux

Il y en a plusieurs aussi, dont certains payants. Un outil gratuit qui analyse les tendances, les recherches sur les réseaux sociaux et même l’ereputation c’est socialmention. Buzzsumo est aussi un très bon outil pour découvrir les contenus les plus partagés sur les réseaux sociaux.

5/ Analyser ce qui est recherché sur un gros forum

Si la thématique du site s’y prête et qu’il existe des forums ou une partie d’un forum qui traite du même sujet du site, alors l’analyse des discussions du forum permettra d’extraire les questions les plus fréquemment posées.

6/ Extraire les suggestions des moteurs de recherche

Google ou même Bing affiche les suggestions associés à la requête de l’internaute, en saisie semie-automatique ou directement sur la page de résultat. Des outils permettent de collecter ces expressions-clés comme ubersuggest

7/ Trouver les mots clés d’un corpus sémantique

Dans le cadre d’une analyse sémantique pour un ou quelques mots clés, il est possible de connaitre les expressions utilisées dans le même champ sémantique qu’un mot clé. Avec L’outil d’analyse statistiques de mots clés TextStat , vous pouvez notamment extraire le corpus sémantique des pages positionnées dans les dix premiers résultats de google ou plus. On l’a vu plus haut, le fait d’utiliser des mots clés appartenant au même univers sémantique est important pour google. l’analyse des mots clés des pages web répondant à une requête permet de définir des groupes d’expressions souvent utilisées autour d’une même requête, on parle alors de corpus sémantique, de champ sémantique ou lexical. Ce qui est utile lorsqu’on veut optimiser une page pour une requête cible. Cette méthode est efficace mais reste une version approchée du véritable corpus sémantique utilisé par Google.

8/ Utiliser le web sémantique

Des bases de données libres permettent d’accéder à des informations structurées du web. Par exemple, DBpedia, un des projets Open Data, regroupe les informations de wikipedia sous forme structurée et interrogeable. L’accès à ces données se fait via le langage de requête SPARQL . Les possibilités sont immenses et l’intérêt dans le cadre d’analyses sémantiques, évident. Ça fera surement l’objet d’un prochain article car c’est un peu complexe d’en parler ici.

Sélectionner et pondérer les mots clés

Une fois la liste de mots clés récupérées grâce à ces outils d’analyse sémantique, on va les classer en fonction de certains critères de sélection:

Le potentiel de recherche
La pertinence
Le niveau de concurrence
Le taux de clic
Et autres aspects webmarketing (engagement social, conversion, marketing de contenu)

Récupérer ces indicateurs permettra de leur donner un score de pondération, ce qui sera utile à plusieurs niveaux: quelles pages pour quelles mots clés ? Certains mots clés pourront répondre sur une même page, tandis que d’autres mots clés plus recherchés ou un score elevé devront être spécialement ciblés sur des pages dédiées.

Catégoriser les mots clés

Dans le cadre d’un audit sémantique, l’analyse commence au niveau macro d’où la nécessité de regrouper les grands ensemble. Pour certaines pages très stratégiques il est même nécessaire d’avoir une analyse assez fine. La catégorisation de cette base de mots clés va permettre de révéler les occurrences et les troncs communs les plus utilisés. C’est utile notamment pour le rubriquage d’un site web et ainsi définir, hiérarchiser de manière optimale les différents menus de navigation.

Voici un exemple avec un extrait d’occurences de mots clés sur un forum de santé :

Ceci recoupé avec les autres sources de mots clés, correspond à des groupes de mots clés qui commencent par ces mots clés. On les appelle aussi des ngram et ça permet d’identifier des silos sémantiques. On retrouve des ensembles assez évidents et d’autres moins, surtout lorsqu’on descend dans le tableau.

En fonction des objectifs, on peut réaliser plusieurs types de catégorisation sémantique mais dans tous les cas, il faut essayer de définir l’intention de l’internaute, que cherche t il vraiment derrière une requête ? Si quelqu’un recherche « fiche métier comptable », il veut certainement connaitre le salaire, les compétences nécessaires, etc…
Ces données recoupées avec les critères de sélection et de pondération qu’on a vu permettent de:

Réaliser la catégorisation d’un site web
Etablir le taguage d’un blog
Définir certains thématiques d’un planning éditorial
Créer des séries de pages thématiques autour d’un silo
Simplement définir les rubriques d’un article ou d’une page

Trouver des opportunités de création de contenu

Exploiter le potentiel sémantique

Ce travail d’analyse sémantique permet aussi de définir le potentiel immédiat de termes sur lequel le site peux rapidement se positionner. Effectivement, Les positions en page 2 de google peuvent remonter plus rapidement que des positions en page 10 par exemple. Dans ce cas, pour faire remonter ces pages, on procédera notamment à de l’enrichissement de contenu et à des techniques SEO comme le PR sculpting pour les optimiser.

Combler les univers manquants

L’audit de contenu va révéler aussi les mots clés sur lequel le site n’est pas du tout présent. C’est utile pour créer des landing pages, de nouvelles catégories, des articles et pages qui permettront de remplir ces univers sémantiques. Il ne s’agit pas non plus de créer des pages pour chaque expression mais pour les expressions les plus concurrentielles. Il est souvent nécessaire d’avoir une page dédiée pour les mots clés dont le niveau de concurrence est élevé.

Voici un exemple de visualisation des univers manquants d’un site client :

La taille correspond au nombre de fois où les mots clés sont utilisés chez les concurrents et pas chez le client. Les flèches correspondent à la relation entre les mots (ex: huile essentielle de …). Il y a le tableau qui va avec, plus exhaustif et avec plus de détails mais cette visualisation a le mérite d’être … plus visuelle.

On se rend compte dans cet exemple que le client est peu visible sur des expressions composées de « huile essentielle + ingrédients ». Le site e-commerce du client avait bien des produits correspondants mais pas de catégories spécifiques. La recommandation fut donc de les créer. Les pages de catégories associées à la marque (moins visible sur ce visuel) ont également fait l’objet d’optimisations SEO.

Astuces pour créer facilement du contenu

La création de nouvelles pages n’est pas toujours la première solution pour accroître son trafic, on peux même souvent gagner du trafic en supprimant des pages. J’en parle dans la partie technique de l’audit SEO , il s’agit de supprimer des pages inutiles au référencement qui viennent gaspiller du crawl et diluer le jus au détriment des pages importantes. Mais une fois que ce nettoyage est fait, on peux s’atteler à la création de nouvelles pages utiles pour le SEO. Et pour cela, il y a certaines astuces :

L’ouverture partielle de tags: Partielle car c’est l’analyse de contenu qui va décider de leur création ou pas, ainsi que de la possibilité de mettre des résultats sur ces tags.
L’ouverture partielle du moteur de recherche interne: la aussi il faut prendre des précautions et sans que ça vienne cannibaliser d’autres pages stratégiques.
Pour les sites e-commerce, l’ouverture partielle de filtres à facettes : Même principe, il ne s’agit pas de tout ouvrir sous peine de plomber son référencement.
Le contenu généré par les utilisateurs (en anglais UGC: User Generated Content): les avis, les commentaires sociaux,…

L’idée est de penser longue traîne et les possibilités sont souvent nombreuses.

La duplication de contenu

Dans un audit sémantique, il y aussi la détection des pages dupliquées ou pauvres en contenu. Ces pages sont pénalisantes pour google dans le cadre du filtre panda. Pour les identifier:

On procède à une catégorisation des nomenclatures d’URL identifiées comme étant dupliquées.
Des outils de crawl permettent d’analyser le taux de duplication de contenu des pages entre elles

Voici ce qu’il est possible de faire avec une catégorisation d’urls dupliquées:

Dans cet exemple, 49 % des urls dupliquées sont des urls de session (oscsid) . Une fois que les sources de duplication de contenu et que les pages pauvres en contenu sont identifiées, on peux trouver les solutions (désindexation, canonical, redirections, enrichissement du contenu, …) pour nettoyer l’index de google et sortir de la pénalité google Panda.

Titre des pages

L’importance des facteurs « on-page » comme la présence des mots clés dans le title, les titres H1 et H2, a décliné comme le montre cette étude de searchmetrics publié sur Moz:

On voit ici la corrélation entre la présence des mots clés dans les titres H1 et H2 et leurs positions sur Google. D’ailleurs, Google modifie souvent le titre des pages web dans ses pages de résultats afin que ça reflète la requête tapée par l’internaute. Ceci dit, ça reste des éléments importants et ça fait partie des points d’analyse dans un audit sémantique.

Taille des titres

Au delà de l’optimisation des titres pour y placer des mots clés, on peux aller plus loin et s’intéresser à la corrélation entre la taille des titres et des visites:

En abscisse, on a le nombre de mots dans le titre; en ordonnée à droite, la somme des visites; et en ordonnée à gauche, les visites moyenne par url. On voit ainsi dans cette analyse que les pages qui font le plus de visites sont celles qui ont en moyenne 6 mots dans le meta title. Les pages avec un titre de 4 mots font en moyenne 2 fois moins de visites qu’une page avec 6 mots dans le titre.

Il ne faut pas prendre ces chiffres pour une généralité, car comme beaucoup de facteurs de positionnement ils sont relatifs à la thématique du site. D’où l’intérêt de faire ce type d’analyse personnalisée.

Taille du texte

C’est une question souvent demandée : « Quelles est la bonne longueur de texte en SEO ? » . Difficile d’y répondre de manière générale, ça dépend des sujets mais c’est possible de le savoir pour un site ou plusieurs sites du même champ sémantique:

Il y a plusieurs choses remarquables dans cette analyse sur la taille des articles d’un site:

14% des pages font 73% des visites
Ces 14% des pages ont une taille de texte supérieur à 7000
Or, 56% des pages ont une taille de texte inférieur à 6000 pour 7 % des visites.

Le 7000 prend en compte l’ensemble des caractères sur la page, ce qui correspond en réalité, dans le cas de cet exemple client, à un corps de texte de 2500 caractères. La recommandation est donc donc de faire des articles d’au moins 2500 caractères pour ce site. Vous me direz, on aurait pu le dire sans faire tout ça, peut-être mais cela demande des ressources d’écrire et pourquoi se fatiguer pour le même résultat. De cette manière, on a bien la preuve que ça marche et c’est un argument fort pour que ça soit mis en place.

Conclusion

J’aurais pu parler aussi du balisage sémantique schema.org, de l’importance des textes de liens, etc… Mais ce qu’il faut retenir, c’est que dans une stratégie Inbound Marketing, le contenu doit être considéré sous tous ses aspects, SEO et content marketing notamment. Créer du contenu sans prendre en compte les moteurs ou uniquement pour les moteurs, ça résulte en une perte de temps et d’énergie… et de CA aussi.

A propos de Serge Esteves

Consultant SEO / Webmarketing : Techniques avancées en référencement combinées aux leviers du marketing entrant (UX, CRO, analytics, content marketing, ereputation, ..).

L’Audit sémantique: Méthodologie et outils

Les objectifs d’un audit sémantique