Le glossaire du crawl en SEO

Je ne vais pas ici faire une liste de définitions SEO exhaustives, ce serait trop long, sans doute ennuyeux pour les non débutants et il y a bien d’autres articles qui le font très bien. Je vais  plutôt essayer de réaliser un lexique de termes utilisés dans des techniques SEO avancé d’analyse de crawl et de logs pour lesquels il est difficile de trouver des définitions. Il s’agit notamment de jargon de quelques experts utilisés surtout dans le cadre d’analyse de logs et d’analyse de crawl. Le crawl est l’étape n°1 (ou presque) pour amener du trafic depuis les moteurs de recherche, pas de crawl > pas d’indexation > pas de visites. Son optimisation représente un gros levier de croissance notamment sur de gros sites et aussi sur des sites moyens (>1000 pages)

Bon allez, c’est parti pour ce petit glossaire du crawl en SEO qui vous permettra d’apprendre sur son optimisation ainsi que quelques astuces.

Pourquoi le crawl c’est si important en SEO ?

Pyramide du SEO

En introduction, pour bien comprendre ce que représente le crawl, on va le remettre en perspective dans une pyramide inversée, la fameuse pyramide du SEO version crawl-centric (voir ci-dessus):

  1. Potentiel du site: C’est le potentiel de contenu existant et pour lequel on pourrait construire des pages. En base de données, un site possède souvent des tas d’informations mais qui ne sont pas forcément (rarement même) exploitées et grâce auxquelles on pourrait construire des pages ou enrichir les contenus.
  2. Présenté sur le site: Ensuite, on a les pages qui sont effectivement en ligne et disponibles sur le web.
  3. Pages crawlées: Ensuite, on a les pages qui sont explorées par les moteurs de recherche. La pyramide continue de se rétrécir car les pages en ligne sont rarement vues en intégralité par Google pour ne citer que lui. Profondeur, accessibilité technique, maillage, freins au crawl (spider trap,..), …plusieurs raisons font que Google ne parvient pas à crawler l’ensemble des pages.
  4. Pages indexées: Toutes les pages crawlées par les moteurs de recherche ne sont pas forcément indexées. Google par exemple commence déjà à appliquer certains critères pour juger si une page doit rentrer ou pas dans son index.
  5. Pages actives: Une fois les pages indexées, pour qu’elles soient actives, il faut qu’elles soient positionnées en première page des résultats des moteurs afin de générer des visites. Là aussi de nouveaux critères algorithmiques entrent en jeu.
  6. Pages efficaces: Une fois positionnées, encore faut il que les pages répondent bien à l’intention de l’internaute
  7. Conversion: Etape finale, faire en sorte que le site amène des conversions. Content marketing, expérience utilisateur entrent en jeu dans cette étape notamment.

L’objectif du bon référenceur sera d’élargir au maximum cette pyramide et la transformer en cylindre (ou au moins tendre vers). Le crawl n’est pas tout à fait la première étape comme le montre cette pyramide mais une fois qu’on a bien exploité le potentiel du site et qu’on a bien défini les pages à mettre en ligne, le crawl des pages par Google est indispensable pour qu’il perçoive correctement le contenu du site.

Mais ce n’est pas si simple, il ne s’agit pas uniquement que Google passe une fois sur une page, il y a aussi beaucoup d’autres facteurs comme la fréquence de crawl, la fenêtre de crawl, … à prendre en compte comme on va le voir juste après.

Analyse de logs

Les logs web ce sont des fichiers qui archivent quotidiennement l’activité d’un serveur web hébergeant un site. On retrouve dans ces fichiers plusieurs informations au sujet du passage des visiteurs sur un site, du passage de GoogleBot (le crawler de Google), des visites provenant des moteurs de recherche, etc.. On retrouve dans ces informations l’url de  la page de destination, l’url source (referrer), le code réponse de la page (code 404, code 200, ..), le poids de la page, la date du passage du crawler ou du visiteur, etc..

L’analyse de logs en SEO permet notamment de comprendre comment Googlebot crawle le site et de mieux appréhender la perception du site par Google. Et là où ça devient vraiment intéressant c’est lorsque on fait des analyses combinées crawl + logs. C’est à dire lorsqu’on combine les pages vues par un outil de crawl avec celles vues par Google.

C’est une analyse indispensable pour correctement auditer un site d’autant plus si il est volumineux.

Le glossaire

Types de traîne (top / moyenne / longue traîne)

Un petit rappel des basiques :

  • La longe traîne (long tail) représente les requêtes des internautes sur un moteur de recherche via des expressions de plus de 4 mots en général.
  • La moyenne traine (middle tail) entre 3 et 4 mots
  • La top traîne (short tail), des requêtes de 1 ou 2 mots

Une autre manière plus précise mais plus compliquée de définir le type de traîne est de s’attacher au potentiel de recherche de chaque expression. Plus le potentiel de recherche sera important et plus le type de traîne sera court et tendra vers la short tail.  La longue traîne représente l’ensemble des petites expressions qui, individuellement, représentent peu de recherches mais dont le volume de requêtes représente la plus grosse part du potentiel de trafic d’un site.

L’optimisation du crawl d’un site a pour objectif principal d’optimiser principalement le trafic longue traine et moyenne traine d’un site, pas d’optimiser 2 ou 3 expressions short tail. Les chantiers SEO de croissance qui permettent de gros leviers de trafic se trouvent toujours dans l’optimisation de la longue traîne. Et de toute façon, la short tail sera indirectement optimisé par l’optimisation de la longue traîne et par un coup de pouce d’un bon netlinking de qualité.

Crawl, crawler

Un crawler c’est un robot (bot en anglais) qui explore le web en vue d’analyser ou extraire les contenus explorées. Les crawlers des moteurs de recherche, qu’on appelle aussi « spider », ont pour mission d’indexer et de classer les pages web dans leurs pages de résultats. Le crawler de Google se nomme Googlebot.

Les crawlers ne sont pas attribués uniquement aux moteurs de recherche, d’ailleurs près de 50% du trafic web dans le monde est réalisé par des robots et le reste par des humains. Ça peut être des « bons bots » comme des crawlers de moteurs de recherche, des logiciels SEO de crawl, des outils marketing, des agrégateurs de flux, etc.. Un logiciel SEO de crawl tente de simuler le comportement d’un crawler tel que Googlebot et extraie depuis les pages certaines données utiles pour mieux positionner ces pages.

Mais il y a aussi des mauvais bots. Une grande part d’entre eux sont des programmes qui se font passés pour des navigateurs web avec pour objectif de saturer et faire tomber des serveur web, appelé attaque par déni de service (DOS = Denial of Service).

En découle le verbe « crawler » qui désigne simplement l’action de crawl sur une page, et qu’on peut aussi traduire par « explorer ».

Indexation

C’est un terme qui parait simple, mais il y a souvent des confusions notamment entre crawl et indexation. L’indexation désigne notamment l’apparition d’une page web dans l’index d’un moteur de recherche, c’est-à-dire ses pages de résultats. Une page crawlée n’est pas forcément indéxée. Par exemple, Googlebot crawle régulièrement des pages sans pour autant les indexer, si elles ne satisfont pas à ses critères d’indexation.

Taux d’indexation

Ratio entre le volume de pages d’un site et le volume de pages indéxées sur un moteur de recherche.

Taux de crawl

Dans le cadre d’une analyse réalisée via un logiciel de crawl, c’est Le ratio entre les pages présentes dans la structure (pages vues par le logiciel de crawl) et les pages vues par Google (pages vues par Googlebot). Si un site a un taux de crawl de 50%, ca signifie que Google ne voit que la moitié des pages en ligne. Un site est rarement vu à 100% par Google sauf sur de très petits sites, augmenter son taux de crawl, c’est augmenter son taux d’indexation et donc l’audience du site. Connaitre le taux de crawl nécessite une analyse de logs

Sur le tableau ci-dessus, issu d’un audit SEO pour un client, on voit que 9% des urls du site représenté 25% du crawl de Google pour 66% des visites. Ou comment la loi de pareto s’applique au SEO

Budget de Crawl

Google a des ressources finies et limitées et il a tout le web à crawler, il alloue donc un temps limité à crawler chaque site, un budget de crawl. Google a d’ailleurs récemment confirmé l’utilisation d’un budget de crawl
Le budget de crawl est influencé par plusieurs critères :

  • Le pagerank interne
  • La popularité du site
  • La fraîcheur du contenu
  • La vitesse du site
  • La profondeur du site

Certains critères viennent réduire le budget de crawl comme des pages inutiles . Le temps passé par Google sur ces pages inutiles se fait au détriment des pages avec du bon contenu et qui peuvent générer des visites.

Critères d’usage

Ça regroupe les critères utilisés par Google pour mesurer le comportement utilisateur sur une page. C’est un critère qui influence le crawl de Google également. Si une page est souvent cliquée et souvent consommées par les utilisateurs, Google ira souvent la crawler. Pour plus d’informations sur comment Google prend en compte l’expérience utilisateur.

Fréquence de crawl

La fréquence de crawl est le nombre de fois que Googlebot explore une page sur une période donnée. On parle aussi d’âge des pages crawlées, soit la période entre 2 crawls de Google sur une page. Google peut crawler jusqu’à 50 fois la même page par jour si il lui porte un gros intérêt (ex: une page d’accueil très populaire), et beaucoup moins aussi. La fréquence de crawl d’une page ou d’une catégorie de pages est un excellent indicateur de l’intérêt que Google porte à cette page ou catégorie de pages. Si une catégorie de pages particulièrement importante a une faible fréquence de crawl, c’est qu’il y a quelque chose qui cloche :

  • Mauvais maillage des liens internes
  • Contenu dupliqué
  • Faible qualité du contenu

Fenêtre de crawl

C’est la fréquence de crawl nécessaire pour que le site génère la majorité de son audience (90%). Si 90% de l’audience d’un site est généré par des pages qui ont été crawlés par Google en 7 jours, la fenêtre de crawl est de 7 jours. Ça signifie aussi que pour une page fasse une visite, il faut qu’elle soit crawlée par Google au moins une fois par semaine. On peut dire aussi que l’âge des pages actives est de 7 jours dans ce cas, c’est à dire que les pages qui font des visite ont été crawlées par Google il y a 7 jours.

Dans le graphe ci-dessus, on voit que l’âge des pages actives est de 7 jours jusqu’en juin puis de 15 jours. Le site a été optimisé pour fournir plus de contenu longue traîne notamment, ce qui a rallongé la fenêtre de crawl.

De manière générale, la fenêtre de crawl oscille souvent entre 7 et 15 jours sauf pour les sites très longue traine qui ont une fenêtre plus large, jusqu’à 3 mois pour certains forums comme Doctissimo.

On comprend donc l’intérêt de cet indicateur et ainsi faire en sorte que les pages génératrices de trafic soient crawlées à l’intérieur de cette fenêtre de crawl. Si une grande part d’urls crawlées se trouvent hors de la fenêtre de crawl, c’es à dire que l’âge des pages actives est supérieur à la fenêtre, c’est qu’il y a un problème.
Pour plus de simplicité, j’ai donné ici une définition de la fenêtre de crawl au niveau d’un site mais en réalité elle varie d’une catégorie de pages à une autre. Des articles ou des fiches produits, qui ont un objectif SEO longue traîne logiquement auront une fenêtre de crawl plus longue qu’une page de catégorie, qui a un objectif top ou moyenne traîne en théorie.

Pagerank Interne

Le pagerank interne (PRI) est une simulation du pagerank traditionnel de Google calculé par certains crawlers SEO. Il prend en compte uniquement les liens internes à l’intérieur de la structure d’un site, pas les liens entrants depuis d’autres sites. C’est une donnée qui a pour objectif de mieux comprendre comment est construite la structure d’un site et permet ainsi de mieux déséquilibrer celle-ci.
On parle aussi de PRC (Pagerank des pages crawlées par Google) qui lui prend en compte uniquement les pages réellement vues par Google et non l’ensemble des pages disponibles d’un site comme pour le PRI.
J’en ai fais tout un article, pour plus de détails je vous renvoie donc vers cet article qui traite également de l’analyse des liens entrants et du maillage interne

Pages inutiles

Une page inutile est une page qui n’a pas d’objectif SEO et/ou qui peut être pénalisante pour le SEO du site. Elle n’est pas forcément inutile pour l’utilisateur. Parmi les pages inutiles, on retrouve ainsi les pages dupliquées, les pages d’erreurs, les soft 404, des pages avec du contenu à faible valeur ajoutée, certaines redirections, des spider trap,…

Pages orphelines (nomatch)

Une page orpheline ou nomatch est une page vue par Google mais qu’un utilisateur ou un crawler ne peut trouver en explorant le site. Une page orpheline, vu qu’elle se trouve hors de la structure du site et qu’elle ne bénéficie plus du pagerank interne, a naturellement un potentiel de trafic amoindri.

L’autre problème, surtout si elles sont en grand nombre, c’est le gaspillage de crawl Googlebot engendré au détriment du crawl des pages dans la structure du site. Vu le budget de crawl de Google, si Google passe plus de temps à crawler des pages avec peu de potentiel de trafic (hors structure), il en passera moins à crawler des pages avec plus de potentiel de trafic (dans la structure).

Certaines pages orphelines sont légitimes comme des pages expirées (fiches produits) mais ça devient un problème si elles restent orphelines longtemps et qu’elles rentrent trop en concurrence avec les pages dans la structure. Les pages orphelines problématiques peuvent être :

  • Des pages d’une ancienne version de site, non redirigées après une migration et en plus dupliquées avec les nouvelles pages
  • Des pages expirées mais qui répondent toujours en code 200 au lieu d’être redirigées ou d’envoyer un code d’erreur (404 ou 410)
  • Un problème de génération d’urls dans le sitemap XML

Page crawlée

Une page crawlée est une page explorée par un logiciel de crawl et/ou par googlebot. Il est important de distinguer une page crawlée par un crawler, outil qui simule Google, d’une page crawlée par Googlebot.

Page active

Page qui a réalisée au moins une visite organique (depuis un moteur de recherche) sur une période donnée. L’âge d’une page active est la période moyenne nécessaire entre 2 crawls de Google pour qu’elle fasse au moins une visite.

Profondeur

Nombre de clics pour atteindre une page depuis la page d’accueil. La page d’accueil a normalement une profondeur de 0 et chaque clic pour atteindre une page plus profonde ajoute une profondeur de plus. Par exemple, Une page accessible en 5 clics depuis la page d’accueil a une profondeur de 5. C’est un critère important qui influence le taux de crawl et car le taux de pages actives à tendance à diminuer avec le niveau de profondeur.

Scraper

Action réalisée par des outils ou nom donné à ces outils pour extraire les données d’un site web. C’est une spécialisation du crawler spécifique à cette tâche d’extraction. Le fait de scraper est utilisé par des outils SEO ou marketing, globalement pour faire de la rétro-ingéniérie ou encore faire de la veille technologique ou concurrentielle (ex : surveiller les prix des concurrents)

Spider trap

Un spider trap qualifie un grand nombre d’urls crawlées par Google mais sans aucune valeur ajoutée ou sans apporter davantage de contenu qu’une URL originale. On retrouve des exemples classiques de spider-trap :

  • Les calendriers : par exemple sur un de mes sites de location de vacances, un calendrier générait des tas de liens sur chaque date vers des pages sans intérêt d’un point de vue SEO. Google s’engouffrait dedans sans jamais en voir la fin.
  • Les urls infinies (voir capture ci-dessus) : Il s’agit de « bugs » sur des liens relatifs qui générent de nouvelles urls à l’infini.
  • Les navigations à facettes : souvent rencontrés sur des sites e-commerce, ce sont des urls correspondant à des combinaisons « presque infinies » de différents filtres ou facettes
  • Les urls avec session-ID : Pour collecter des informations sur la navigation de l’utilisateur, certains sites ont recours à des Identifiants (ID) de session. Des problèmes d’implémentation peuvent générer un nouvel ID de session à chaque visite d’une même url, ce qui crée un spider-trap.

Structure

La structure d’un site représente toutes les pages accessibles depuis au moins un lien interne depuis n’importe quelle page accessible directement ou indirectement depuis la page d’accueil. Par conséquent, une page qui n’est pas accessible depuis un lien du site est considéré hors structure (nomatch).

Bon avec ça, vous avez une bonne base pour suivre mes prochains articles, oubliez pas la newsletter

Quelques crawlers SEO

Pour crawler un site, pas le choix il faut passer par un outil, un crawler, qui va explorer l’ensemble des pages accessibles sur un site. Botify, oncrawl, screaming frog, etc…

Pour analyser les logs d’un site, Il y a des outils payants comme les outils précédents qui proposent aussi des version avec analyse de logs, souvent onéreux surtout si seulement pour des analyses ponctuelles.
Il y a aussi des outils open source comme logz.io, graylog, kibana, qui nécéssitent des compétences linux et une bonne courbe d’apprentissage.
On peut aussi utiliser des commandes linux et faire des traitements sur excel, ce qui peut être assez chronophage. Si ça interesse, je peux faire un article là dessus, lâchez votre commentaire.

 

 

 

< Le Maillage interne ou Comment faire du Multi PageRank Sculpting

    A propos de Serge Esteves

    Consultant SEO / Webmarketing : Techniques avancées en référencement combinées aux leviers du marketing entrant (SMO, content marketing, UX, ereputation, ..).
    Vous souhaitez vous joindre à la discussion ?