le sitemap XML, néfaste au référencement ?

Le sitemap XML c’est pas bon pour le SEO

Oula que vas tu dire là ? Revenir sur une des prétendus bases du référencement, soit l’intégration du sitemap XML sur un site ? Et oui, je vais revenir sur ce fichier qui liste les urls d’un site, de son impact négatif sur le référencement via une étude de cas et aussi à la fin sur quelques situations où il s’avère utile malgré tout.

Le sitemap XML, à ne pas confondre avec le plan de site, c’est un ou plusieurs fichiers listant chacun 50 000 urls maximum et qui sont envoyés à Google via le search console (Google webmaster tools pour les nostalgiques). Ces sitemaps sont censés faciliter l’exploration des pages par Google. Sur ce point, c’est vrai, un sitemap XML aide bel et bien Google à explorer rapidement les pages qui y sont listées, c’est son principal avantage. Mais la question qui se pose, c’est Est ce qu’il y a un intérêt pour le SEO ? Est ce que le sitemap aide les pages à mieux se positionner sur les pages de résultats des moteurs de recherche? La réponse est non, enfin, la plupart du temps.

Le sitemap XML ne favorise pas les visites

Répartition des pages, pages actives par profondeur ET pages du sitemap

Répartition des pages, pages actives par profondeur ET pages du sitemap (logs= pages découvertes dans les logs mais pas dans la structure)

Je l’ai vérifié plusieurs fois, surtout sur des sites qui employaient massivement les sitemaps. Mais sur mon dernier cas client, c’est d’autant plus parlant car les urls listées dans les sitemaps XML n’étaient, pour la plupart, pas accessibles dans la structure du site. De plus, les pages accessibles uniquement hors structure et donc visibles que depuis les logs étaient surtout les pages du sitemap, le cas parfait, c’est pour ça que j’écris cet article d’ailleurs! J’ai pu donc comparer les visites des urls listées dans les sitemaps xml (la partie logs du graphe ci-dessus) aux pages liées dans le site, les pages qu’on voit répartit par profondeur de 0 à 9. La profondeur est le nombre de clics nécessaire pour atteindre une page depuis la page d’accueil (faut que j’écrive un  glossaire).

Voici plus de détails avec le tableau utilisé pour le graphe:

sitemap xml et taux de pages actives

Tableau avec profondeurs des pages, leurs visites et leur taux de pages actives

Le taux de pages actives des urls provenant des sitemaps XML=Logs (0,04%) est à peine plus élevée qu’une page en profondeur 6.

Ce qui est intéressant de constater aussi, c’est que plus la profondeur augmente, et plus le taux de pages actives des pages diminue. Pour qu’une page soit efficace, il faut donc qu’elle soit dans la structure et si possible à des profondeurs peu élevées. On peux en conclure aussi que le problème du manque d’efficacité des pages venant des sitemaps XML est généralisé à l’ensemble des pages hors structure.

Les sitemaps écrasent les profondeurs

La transition est toute faite, on vient de voir que la profondeur des pages a un impact sur les visites. Par définition, Les urls d’un sitemap sont toutes au même niveau, il n’y a donc pas de hiérarchie entre elles. Ah si, on peux mettre une notion de priorité  dans les sitemaps avec <priority>, mais aucun test à ma connaissance n’a montré de corrélations positives, ce serait trop facile en même temps. La profondeur des pages est un des critères qui permet de signifier à Google le poids, le degré d’importance que le site apporte à chaque page, ce que le sitemap XML ne fait pas.

Le sitemap XML gaspille du crawl

Google a un temps limité pour crawler un site, du coup le temps qu’il va passer à explorer des urls via le sitemap, sera au détriment des pages explorées via la structure du site. Le problème c’est que Google risque de passer à côté d’indicateurs (profondeurs, pagerank interne, pagerank sémantique, etc…) qu’il ne peux connaitre qu’en explorant les pages via l’arborescence du site. Si le crawl du sitemap rentre en concurrence avec le crawl via les liens internes du site, c’est un problème pour la bonne prise en compte de tous les critères de pertinence d’une page.

C’est une source d’erreurs

Les sitemaps XML sont générés automatiquement et souvent soumis à des « bugs ». Dans mes audits SEO ça fait partie des points que je vérifie systématiquement, car il est pas rare de trouver des erreurs. Ça peux être des erreurs 404, des redirections, des pages dupliquées, des urls non réecrites, etc… L’avantage c’est que ça vient s’ajouter à ma liste de recommandations 🙂

Quand le sitemap est utile ?

Il y a des cas où c’est utile malgré tout de proposer un sitemap:

  • Pour les nouvelles pages: Proposer un sitemap avec par exemple les nouveaux produits d’un site ecommerce, c’est une bonne idée
  • Pour Google news: C’est même indispensable, proposer un sitemap news à Google prend tout son sens car Google a besoin d’afficher rapidement le contenu chaud sur Google actualités et sa onebox news. Ensuite, lorsque ce même contenu « refroidit » c’est une autre histoire…
  • Pour la vidéo, les images: Particulièrement pour les sites fortement dépendant des vidéos ou des images, c’est là aussi indispensable. Dailymotion doit son salut principalement grâce à ses sitemaps vidéo.
  • Pour les sites mobiles: euh non, en fait je le proposais encore il y a peu de temps, mais depuis que John Muller, un ingénieur Google (un des remplaçants de Matt cutts) a dit en avril 2015 que c’était mal, je ne propose plus de créer des sitemaps pour mobile, sauf cas particuliers.
  • Pour désindexer des pages: C’est bien pratique lorsqu’on veux accélérer la désindexation de certaines pages. Plutôt que d’attendre 3 mois que Google revienne crawler les pages qu’on veux désindexer, un bon sitemap XML et hop c’est fait.
  • Pour des migrations: ça rentre dans le même cas que les nouvelles pages, l’idée est là encore d’accélérer la prise en compte des redirections et des nouvelles pages d’un site suite à une refonte par exemple. Ce n’est pas obligatoire mais ça permet dans certains cas d’éviter des baisses temporaires de trafic.
  • Pour les cas où le site a des gros problèmes d’accessibilité: Parfois, les sites ont tellement de problème d’accessibilité de pages pour les moteurs de recherche, que la seule solution est d’avoir un sitemap pour compenser ces problèmes d’exploration. Dans ce cas, en attendant que la structure du site soit optimisée, le sitemap permet de sauver les meubles, même si on a vu que ce n’était pas une « vraie » solution.
  • Pour ses indicateurs sur search console: On peux notamment voir sur search console les pages indéxées par rapport aux urls envoyées dans le sitemap. Je dis ça pour améliorer le corpus sémantique de l’article 😉 mais en fait, il y a d’autres moyens de le savoir, et vu les inconvénients que ça peux causer, si on le fait juste pour ça, ça vaux pas le coup.

Conclusion

Les sitemaps XML aident à crawler rapidement les pages d’un site, mais ne favorisent ni leur indexation et encore moins leurs positionnements, c’est parfois même l’inverse… sauf les quelques cas évoqués ou en solutions temporaires.

Alors, qui va supprimer son sitemap ? 😀

    A propos de Serge Esteves

    Consultant SEO / Webmarketing : Techniques avancées en référencement combinées aux leviers du marketing entrant (SMO, contenu, UX, erep, ..).
    Vous souhaitez vous joindre à la discussion ?