Méthodologie d'audit technique SEO et cas pratique sur un site

Audit de site web

Méthodologie d’audit technique SEO et cas pratique sur un site
L’Audit sémantique: Méthodologie et outils
Audit de site ecommerce
[Guide] Comment connaitre et supprimer les mauvais Backlinks
Audit technique SEO et crawl javascript

L’audit d’un site sur le plan du référencement est sans doute le travail le plus important à faire pour optimiser sa visibilité et bien référencer son site sur google. L’audit SEO peux intervenir à plusieurs moments de la vie d’un site internet, lors de la création du site web, d’une migration, d’une refonte, d’une pénalité ou simplement car le site n’arrive pas à décoller dans les pages de résultats des moteurs de recherche. Vu que je peux difficilement rentrer dans le détail de l’analyse SEO d’un site client, j’ai décidé d’analyser le référencement du sous-domaine sejour.lastminute.com. Pourquoi ce sous-domaine ? parce qu’à vu de nez, je me doutais que j’allais trouver pas mal de choses intéressantes, je voulais un site avec une certaine volumétrie de pages mais pas perdre trop de temps non plus. Ceci dit, le site a déjà réalisé certaines optimisations SEO comme le javascriptage des filtres, des descriptions dynamiques pour éviter trop de contenu dupliqué,… Je vais concentrer l’analyse de cet audit SEO avant tout sur le plan technique et structurel, sachant que l’objectif principal d’un audit technique de référencement naturel est d’apporter des solutions concrètes et opérationnelles pour améliorer la perception du site par Google, et in fine les conversions utilisateur.

Audit technique SEO

Pour auditer un site sur le plan technique, il y a quelques pré-requis et outils SEO nécessaires:

Un crawler: Botify, screaming frog, …
L’accès aux logs serveur, et les analyser avec un analyseur de logs et/ou avec des commandes linux.
L’accès au compte google webmaster tools
L’accès au compte analytics
Et surtout l’expérience d’un expert SEO capable d’interpréter toutes ces informations.

En plus des informations données par ces outils, le client peux également en donner, sur l’historique du site, les derniers changements survenus, afin de mieux comprendre certains constats. En l’occurrence, je me suis basé uniquement sur un crawl du site mais vous le verrez, ça permet déjà d’identifier de nombreux facteurs bloquants et leviers d’optimisations.

Comprendre le site

Le crawl du site sejour.lastminute.com est le site le plus important des sous-domaines Lastminute sur Google.fr, juste derrière le site principal www.fr.lastminute.com. Son crawl a permis d’extraire ces informations macro:

131 996 pages connues
74 828 pages sur le domaine sejour.lastminute.com (les urls crawlées ne proviennent pas uniquement du sous domaine analysé)
66 309 pages crawlées en code 200 (code de réponse normal d’une page web)
57 151 liens sortants vers d’autres sous-domaines
Temps de chargement moyen des pages: 4 576 ms (hors JS et images)
La profondeur moyenne du site est de 5

Ces datas permettent déjà d’apercevoir certains facteurs bloquants:

Toutes les pages du sous-domaine séjour ne répondent pas normalement en 200. Ce sont peut-être des pages d’erreur 404, des redirections 301 ou autres.
Le temps de chargement est lent, facteur important pour le crawl de googlebot et l’expérience utilisateur, voir le guide sur l’optimisation des performances
La profondeur du site est assez élevé, sachant que les pages profondes reçoivent moins d’énergie (linkjuice) de la part de google et ont moins de chance d’être visible sur les pages de résultats des moteurs.
Beaucoup de liens vers d’autres sous-domaines. Idéalement, pour l’audit, il aurait fallu prendre en compte l’ensemble des sous-domaines de Lastminute ou au moins les plus importants (5 ou 6).

Ces données permettent de donner des pistes SEO et de donner des directions sur les analyses à creuser. Elles peuvent aussi être intéressantes dans le cadre d’un pré-audit et ainsi convaincre sur la nécessité de réaliser un audit SEO. Mais ce n’est pas suffisant, quelles sont les pages ou les catégories de pages les plus profondes ? Les types de pages qui se chargent lentement ? Quelles sont les pages en erreur ? Pour faire une analyse plus en détails, il est indispensable de catégoriser le site.

Catégorisation du site

Pour faire un audit SEO avancé et pouvoir donner des recommandations précises, l’étape de la catégorisation est surement la plus importante. Catégoriser un site consiste à segmenter le site en différentes catégories afin de mettre en lumière les causes des facteurs bloquants et de prioriser les recommandations. On peux catégoriser un site de différentes manières, sur un plan structurel et/ou sémantiques. Et il n’y a pas de manière unique de le faire, l’objectif est que cela serve les objectifs de l’audit SEO. Cette catégorisation n’est pas seulement utile pour la partie technique, mais aussi pour l’analyse du linking interne, la partie contenu, social, linking externe qu’on verra dans la suite de cette série de guides.

Catégorisation structurelle

Catégorisation de sejour.lastminute.com sur le plan structurel

A partir des urls récupérées par le crawler ou des adresses récupérées via les logs, je catégorise le site à l’aide d’expressions régulières afin que ça m’aide à mieux comprendre le site. Voici un exemple d’expression régulière: ^/hotel-[\w-]+\.html$ Cette expression régulière permet de récupérer tous les pages que j’ai placé dans la catégorie « hotel-pays » comme http://sejour.lastminute.com/hotel-bresil.html En fait, cette catégorisation mixe une vision structurelle du site avec par exemple les pays et les villes qui ne sont pas au même niveau; et une vue sémantique avec le type de voyages : séjour, week-end, camping,..

Catégorisation sémantique

catégorisation sémantique

La vue est ici plus grossière, un peu moins utile pour l’audit technique mais très utile pour la partie sémantique et ainsi mieux voir la distribution du contenu par univers.

Pages inutiles

pages inutiles au referencement

Lors de la catégorisation, j’ai identifié des pages que j’ai jugé inutile au SEO. Les pages inutiles sont des pages sans objectif SEO comme des pages dupliquées, des pages vides, des pages d’erreur, des pages qui ne servent pas à l’exploration d’autres contenus, des pages non pertinentes, … Ici, dans notre cas, 70% des pages crawlées sont inutiles, et parmi ces pages inutiles 62% sont des liens vers d’autres sous-domaines et 36% vers des paginations.

Les liens vers d’autres sous-domaines

C’est un cas assez particulier, Les pages des autres sous-domaines ne sont pas des pages inutiles en soi mais il y a plus de liens vers d’autres sous-domaines que de pages utiles dans le sous-domaine sejour (57 139 vs 39 448) . Ça signifie que le sous-domaine sejour fourni plus d’énergie (linkjuice) aux autres sous-domaines qu’à son propre domaine. De plus, un ratio aussi déséquilibré de liens externes peut-être perçu par Google comme une tentative de pousser artificiellement le site principal FR (c’est le principal sous-domaine lié). L’objectif des recommandations sur ce sujet seront de limiter les liens vers les sous-domaines, vus par google.

Les paginations

Décidément, la encore , c’est un cas particulier, et qui prouve aussi qu’il n’y a pas de vérités absolues en référencement naturel. Les paginations lorsqu’elle sont un minimum optimisées servent normalement à l’exploration des pages produits/articles , c’est leur principal objectif SEO en général, elles ont leur utilité même si elles sont peu efficaces et qu’il faut limiter leur volume. Sauf qu’ici, les produits liés par les paginations sont en nofollow, surement pour éviter une détection de transmission artificielle de jus entre le sous-domaine sejour et le site principal. Les paginations n’ont pas non plus vocation à se positionner, elles sont no-index d’ailleurs. Par exemple: http://sejour.lastminute.com/hotel-etats-unis.html?nbprods=10&sort=0&default=0&pageID=3 Le site fait donc des liens vers des 33 749 paginations, presque autant que de pages utiles (39 448), qui ne servent pas à explorer de produits et qui n’ont pas vocation à se positionner, elles sont donc inutiles. En quoi c’est un problème ?

18% du pagerank interne est distribué aux paginations au détriment des pages stratégiques du site, qui sont elles, destinées à ramener du trafic.
C’est une perte de crawl pour googlebot, googlebot va crawler des pages mais on lui dit juste après que cette page n’est pas destinée à être indéxée sur Google. Googlebot n’étant pas complètement idiot, il a tendance à ralentir son crawl sur les pages en noindex, ce qui semble assez logique même si ça ne résout pas tout. Une analyse des logs aurait permit de le confirmer.

La solution concernant les paginations est assez simple, il faudrait les javascripter, comme c’est déjà fait avec les pages de filtres. De cette manière, elles restent accessibles pour l’utilisateur mais invisibles au moteur. A noter qu’il faut faire attention à la technique de javascriptage employée car google crawle de mieux en mieux le javascript. La aussi, une analyse de googlebot permettrait de valider ou pas la méthode de javascriptage utilisée. Dans le cadre d’une refonte, d’autres solutions seraient envisageables comme un scroll infini en ajax par exemple.

Problèmes des pages inutiles

De manière générale, les pages inutiles peuvent être responsables de plusieurs problèmes:

Sources de duplications pénalisables par Google panda.
Perte de crawl, comme on l’a vu
Perte de pagerank interne

Profondeur des pages

Profondeur des pages utiles

C’est quoi la profondeur en SEO ? C’est le nombre de clics nécessaires pour atteindre une page depuis la page d’accueil. Pourquoi c’est important ? Plus une page est profonde, moins elle est considérée comme importante par Google (je vulgarise). C’est assez logique, les vêtements qu’on met souvent ou qu’on préfère, on ne va pas les ranger au fond du placard 🙂 Quel est l’impact d’une page profonde? Soit elle ne sera tout simplement pas vue par Google donc pas visible dans les serps (pages de résultats d’un moteur de recherche), soit elle sera explorée par google mais peu ou pas active (page active: page recevant au moins une visite). On voit sur le tableau ci-dessous que plus la profondeur augmente, plus le taux de pages actives baisse.

Influence de la profondeur sur les pages actives

Plus une page est profonde, moins elle est active

Est ce que le sitemap.xml permet de résoudre le problème d’une page profonde? Non, le sitemap.xml ne résoud pas le problème car même si une page profonde est explorée par googlebot via le sitemap, cette page ne sera pas forcément indéxée, et encore moins bien positionnée. Seul le maillage de liens et la profondeur permettra de valoriser une page auprès de google afin de la rendre active. Le sitemap est important pour l’actualité et la vidéo cependant. Pour en savoir plus, je vous conseille cet article sur l’impact du sitemap sur le seo. Revenons à notre cas pratique, 60% de la partie utile du site est au delà de la profondeur 3 et on voit que le taux de pages actives en profondeur 3 est inférieur à 1%. (calcul fait par rapport aux positions des pages). Je ne vais pas rentrer dans le détail ici, mais l’objectif des recommandations concernant la profondeur sera d’identifier les catégories de pages profondes (ce qui est simple vu que le site est finement catégorisé) et de remonter les pages les plus stratégiques en terme de visites ,d’exploration et d’efficacité crawl/visites. Je ferais surement une série de guides uniquement sur la structure et le PR sculpting et je prépare aussi des formations inter pour la rentrée, keep in touch.

Temps de chargement

Temps de chargement moyen par catégories

L’univers « Hotel » a un temps de chargement moyen de près de 3 secondes alors que c’est la catégorie de pages la plus volumineuse. Il faut donc en priorité accélérer le chargement de ces pages, un objectif réaliste serait d’atteindre un temps de chargement entre 500 ms et 1 seconde. Les pages inutiles c’est pas grave vu qu’on est censé limiter leur exploration par Google. Le temps de chargement analysé prend en compte uniquement le code HTML et pas les JS, les CSS ou les images. Ca se rapproche du temps de chargement côté googlebot, mais ça veux dire aussi que le chargement utilisateur est bien supérieur à 3 secondes, ce qui est beaucoup. On peux voir aussi la vitesse d’exploration sur google webmaster tools mais ce n’est pas catégorisé comme ici. De plus, lorsqu’on voit la vitesse d’exploration qui baisse sur goowle webmaster tools, ce n’est pas forcément bon signe, voire le contraire, peut-être qu’il crawle rapidement des pages sans intérêt, d’où l’intérêt de la catégorisation. Je rappelle l’importance du temps de chargement:

C’est un facteur de crawl: plus une page est crawlée rapidement et plus google verra de pages sur le site
C’est un critère de conversion : L’expérience utilisateur sera meilleur si le site est rapide
C’est un critère de positionnement: Google positionne mieux les sites rapides depuis avril 2010

Lisez ce guide pour en savoir plus sur l’optimisation des performances

Les redirections

Répartition des codes http

9% du crawl sur la partie utile se fait sur des redirections 301. Les redirections 301 sont parfois nécessaires mais utilisées de manière abusive et inappropriée, elles ont un impact négatif sur le référencement pour plusieurs raisons:

Elles ralentissent le crawl de google, une 301 étant plus lente à crawler qu’une page en code 200 (code de réponse normal d’une page). page A > page B redirigée > page C.
Il y a une perte de jus entre la page A et la redirection sur la page B vers C
C’est déceptif pour l’utilisateur surtout si la page d’atterrissage s’éloigne de la promesse du lien.

Après extraction des urls concernées, je constate plusieurs sources de pages responsables de ces redirections, comme par exemple les liens sur la pagination 1, ou le bloc « trouvez aussi » qui fait des liens vers des pages redirigées lorsque aucun produit n’est disponible:

urls en 301: sources et destinations

Les solutions sont au cas par cas, mais en général il s’agit de remplacer la mauvaise url par la bonne tout simplement ou de supprimer le lien pour le moteur et/ou l’utilisateur. Pour les pages de produits non disponibles, ça dépend, mais pour des pages qui ont tendance à lister des produits qui partent et qui reviennent fréquemment, il est souvent préférable de ne pas rediriger la page et de la laisser en 200, tout en affichant un message approprié pour l’utilisateur, proposer des produits associés et éviter la duplication. Un audit plus avancé et avec plus de données serait nécessaire.

Les ancres de liens

Ancres de liens de liens suroptimisées

L’analyse des ancres de liens d’un site est à la fois utile pour l’optimiser mais aussi pour éviter la suroptimisation. En effet, L’utilisation excessive d’une même ancre de lien peux être pénalisé par Google Penguin. L’excès est relatif, il dépend du ratio d’utilisation des autres ancres, des autres combinaisons avec ce même mot clé, du netlinking, de la concurrence du mot-clé, etc.. Ici, on constate que « vol pas cher » est un texte de lien très utilisé relativement aux autres, c’est une expression très concurrentielle d’ailleurs, il y a donc un risque par rapport au filtre penguin. Regardons plus en détails les combinaisons de mots clés utilisés dans les ancres de liens:

Occurences des ancres de liens

J’ai extrait le nombre d’occurences des différentes combinaisons de textes de liens sur un top 1000 des ancres les plus utilisées. On voit sur l’extrait ci-dessus que « vol pas cher » est souvent combiné à une ville « vol pas cher bangkok » , « vol pas cher Madrid », … Cela permet de rendre son utilisation plus légitime et plus naturelle. D’ailleurs lorsqu’on cherche « vol pas cher » sur google, sur qui on tombe ? Il sont premiers sur cette expression clé très concurrentielle. Ça montre bien l’intérêt de varier ses ancres. Ceci dit, je serais eux, le lèverais un peu le pied sur l’utilisation de « vol pas cher » seul, ils sont déjà premier dessus, donc pas utile d’en rajouter. Le risque c’est qu’à la prochaine mise à jour de google penguin, ils passent le seuil de suroptimisation et catastrophe. J’aurais prévenu … Bon, je vais m’arrêter là pour cette petite partie d’audit technique SEO. En fonction des sites, il y a d’autres points à analyser, mais je me suis contenté sur ce cas pratique de parler de ce qui me semblait le plus important sur le plan technique et avec les données disponibles. Dans les prochains guides de la série je traiterai de l’audit de référencement côté contenu, linking externe, social, …N’oubliez pas de suivre la newsletter. Pour ceux intéressés par un devis pour un audit SEO et un pré-audit gratuit de leur site, je reste à votre disposition.

A propos de Serge Esteves

Consultant SEO / Webmarketing : Techniques avancées en référencement combinées aux leviers du marketing entrant (UX, CRO, analytics, content marketing, ereputation, ..).

Méthodologie d’audit technique SEO et cas pratique sur un site

Audit technique SEO

Comprendre le site