Articles

Index mobile first et crawl googlebot mobile: Etude de cas

Je vais vous parler d’une étude de cas qui met en évidence le rapport entre la mise à jour Mobile first, le crawl de Googlebot mobile, et l’impact sur le trafic du site.

Voici donc une étude que j’ai réalisé pour un client avec notamment une analyse de Googlebot via les logs. La demande initiale était  « Pourquoi mon site fait moins de trafic que l’année dernière ? » et « Comment rectifier le tir ? »

Lire la suite

Comment un site a amélioré sa longue traîne et boosté son trafic ?

Améliorer sa longue traîne en référencement, c’est souvent le seul moyen viable pour venir concurrencer les gros sites d’un secteur concurrentiel. Je vais vous présenter le cas d’un petit site qui a multiplié par 16 sa visibilité SEO en un peu plus d’un an grâce à l’optimisation de sa longue traîne.

Il s’agit du site https://www.coinsecret.com, un site de location de vacances, secteur ultra concurrentiel avec des sites comme abritel, homelidays, airbnb, etc… En exploitant correctement son catalogue d’offre, qui n’est pas aussi volumineux que les sites cités,  il a réussi à améliorer son référencement et à venir les taquiner en misant à fond sur la longue traîne.

Définition

Commençons par expliquer ce que c’est, la longue traîne en SEO c’est l’ensemble des expressions longues qui, une par une, sont peu recherchées mais dont le cumul représente le plus gros potentiel de trafic du site. Ce sont des expressions en général de plus de 3 mots clés, mécaniquement plus la requête est longue et plus la probabilité qu’elle soit tapée par un autre internaute diminue. On peut aussi avoir des expressions clés plus courtes et peu recherchées, dans ce cas ce sera aussi de la longue traîne.

C’est une version courte de la définition de la longue traîne qui me semble suffisante, pour une version plus longue, il y a wikipedia .

Les avantages de la longue traîne

Il y en a plusieurs:

  • le volume de longue traîne est presque infinie et même imprévisible pour de l’ultra longue traîne contrairement à la top traîne ou la moyenne traîne qui est beaucoup plus limité.
  • Le potentiel de trafic est par conséquent énorme contrairement à l’optimisations de quelques mots clés génériques
  • Le trafic issu de la longue traîne est plus qualifié, il convertit mieux. Les gens qui recherchent avec des expressions précises sont plus à même de convertir rapidement surtout si ils trouvent l’information qui répond exactement à leur demande.
  • C’est une source de trafic plus stable aussi car diversifiée, on ne met pas tous ses oeufs dans le même panier. Si on perd une position sur une expressions longue traîne, c’est pas très grave. En revanche, si le trafic d’un site dépend principalement des positions de quelques mots clés top traîne, une perte de position se fait directement ressentir.
  • C’est moins concurrentiel et donc plus facile à se positionner dessus, si le boulot est bien fait.
  • L’amélioration de la longue traîne permet aussi d’améliorer la visibilité des mots clés top et moyenne traîne. Un effet vertueux se met en place optimisant la pertinence globale du site et sa légitimité à apparaître sur des mots clés plus génériques.

Il y a bien quelques inconvénients:

  • Pour un site e-commerce, il faut avoir suffisamment de produits pour développer une stratégie de longue traîne
  • Pour un site éditorial, cela nécessite des ressources, pour créer des pages et/ou enrichir du contenu. On a rien sans rien!

Contexte du site

Coinsecret est un site de location de vacances qui propose un catalogue d’offres limitées car chaque location doit respecter une charte de qualité. Chaque logement est visité et sélectionné par le propriétaire du site ou un de ses collaborateurs. On est donc sur un positionnement haut de gamme et très qualitatif, ce qui limite forcément l’offre. Malgré tout, elle est suffisamment importante pour faire un travail intéressant et efficace, et venir grapiller des positions à certains géants du secteur qui mise tout sur la quantité et beaucoup moins sur la qualité.

Les étapes d’optimisation de la longue traîne

  1. Sur ce cas pratique, la première chose a été de réaliser un audit du site e-commerce biensûr, comme pour toute mission SEO en même temps, afin d’établir la liste des optimisations à réaliser.
  2. Une fois l’audit réalisé, et la feuille de route d’actions définies, on a commencé par mettre en place les actions de nettoyage d’autant plus qu’il était pénalisé. Le site comportait un certain nombre de pages dupliquées et de pages inutiles (des filtres et autres), on les a donc supprimé de l’index de Google et empêcher leur crawl. Il y avait aussi de la suroptimisation qu’on a corrigé. C’est une étape essentiel, car tant qu’il est pénalisé le site n’a pas la pertinence nécessaire pour la suite
  3. Le site comportait déjà une navigation par thématiques, par types d’équipements, par nombre de personnes, par ville et par région. En revanche, pas de navigation par type de logements (maison, villa, chalet, gite, etc..) alors que l’audit sémantique avait révélé des recherches sur des expressions composées du logement. On a donc crée une nouvelle navigation par type de logement.
  4. L’analyse sémantique a aussi révélé des recherches par départements, et également des recherches par zone géographique (périgord noir, périgord vert,..) on a donc également créer et pousser ce type de pages.
  5. Puis on a fait des combinaisons entre les différents filtres comme par exemple: type de logement + géoloc (région/ département / ville / zone géo) + theme ou équipement. Là c’était un peu le casse tête car on avait potentiellement beaucoup de pages dupliquées si on combinait tous les critères. Et de toute façon il ne s’agissait pas d’ouvrir tout et n’importe quoi à l’indexation des moteurs de recherche. En fonction des recherches des internautes, de la disponibilité des offres et d’une certaine priorisation dans les critères sélectionnés, on a combiné de manière « intelligente » certains critères afin de créer de nouvelles pages répondant à des requêtes longue traîne.
  6. Ensuite, il y a eu un gros travail d’optimisation du maillage interne afin de pousser ces pages.
  7. On a également injecté du contenu de manière totalement à la main pour les pages de catégories principales et de manière semi-automatiques pour d’autres.
  8. Et puis, au delà des actions spécifiques à la longue traîne, dont j’ai cité ici que les gros points, il y a eu environ 100 autres optimisations pour améliorer globalement le SEO du site: nettoyage, performances, balisages, des conseils sur l’expérience utilisateur pouvant influencer le SEO, …

A noter que très peu d’actions de netlinking (linkbuilding) ont été réalisées, c’est avant tout de l’optimisation interne. Ceci dit, un coup de pouce d’un bon netlinking de qualité, ça peux aider, mais de manière plus ciblée sur de la top / moyenne traîne surtout.

Il y a bien sûr d’autres opportunités pour créer du contenu longue traîne, j’en parle dans le guide sur l’audit sémantique.

Les résultats

  • Comme déjà dit, en un peu plus d’un an la visibilité SEO du site a été multiplié par 8 sur semrush et par 16 sur searchmetrics. La méthode de calcul des scores de ces 2 outils sont légèrement différents.
  • Côté trafic organique (depuis les moteurs de recherche en naturel), il a été multiplié par 2 sur la même période, ce qui est assez rapide pour ce type de site et compte tenu de la compétition qui s’est tendu aussi.
  • Les conversions ont progressé de 98% sur la durée de la mission, sachant 51% des conversions vient de la recherche organique contre 30% en septembre 2016.
  • Le trafic organique hors marque est de 75% en septembre 2017 contre 70% en septembre 2016.
  • Ils ont baissé leur budget adwords, le coût par acquisition du référencement naturel étant nettement meilleur que le payant.
  • En plus des expressions longue traîne, le site s’est positionné en premier sur des expressions plus concurrentielles comme « vacances originales », « vacances au château », « idée vacances france », etc…
  • Un client content, je continue d’ailleurs de travailler avec eux, notamment sur une prochaine refonte au niveau design et structurelle et sur de l’accompagnement.

Je les remercie d’avoir accepté que je parle de leur site sur cet article, car c’est pas forcément évident. J’ai d’ailleurs eu des refus notamment sur un cas très intéressant où le trafic a été multiplié par 10 en moins d’un an et ainsi atteindre près d’un million de visiteurs par mois. C’est compréhensible, certains veulent garder leurs petits secrets :).

le sitemap XML, néfaste au référencement ?

Le sitemap XML c’est pas bon pour le SEO

Oula que vas tu dire là ? Revenir sur une des prétendus bases du référencement, soit l’intégration du sitemap XML sur un site ? Et oui, je vais revenir sur ce fichier qui liste les urls d’un site, de son impact négatif sur le référencement via une étude de cas et aussi à la fin sur quelques situations où il s’avère utile malgré tout.

Le sitemap XML, à ne pas confondre avec le plan de site, c’est un ou plusieurs fichiers listant chacun 50 000 urls maximum et qui sont envoyés à Google via le search console (Google webmaster tools pour les nostalgiques). Ces sitemaps sont censés faciliter l’exploration des pages par Google. Sur ce point, c’est vrai, un sitemap XML aide bel et bien Google à explorer rapidement les pages qui y sont listées, c’est son principal avantage. Mais la question qui se pose, c’est Est ce qu’il y a un intérêt pour le SEO ? Est ce que le sitemap aide les pages à mieux se positionner sur les pages de résultats des moteurs de recherche? La réponse est non, enfin, la plupart du temps.

Le sitemap XML ne favorise pas les visites

Répartition des pages, pages actives par profondeur ET pages du sitemap

Répartition des pages, pages actives par profondeur ET pages du sitemap (logs= pages découvertes dans les logs mais pas dans la structure)

Je l’ai vérifié plusieurs fois, surtout sur des sites qui employaient massivement les sitemaps. Mais sur mon dernier cas client, c’est d’autant plus parlant car les urls listées dans les sitemaps XML n’étaient, pour la plupart, pas accessibles dans la structure du site. De plus, les pages accessibles uniquement hors structure et donc visibles que depuis les logs étaient surtout les pages du sitemap, le cas parfait, c’est pour ça que j’écris cet article d’ailleurs! J’ai pu donc comparer les visites des urls listées dans les sitemaps xml (la partie logs du graphe ci-dessus) aux pages liées dans le site, les pages qu’on voit répartit par profondeur de 0 à 9. La profondeur est le nombre de clics nécessaire pour atteindre une page depuis la page d’accueil (faut que j’écrive un  glossaire).

Voici plus de détails avec le tableau utilisé pour le graphe:

sitemap xml et taux de pages actives

Tableau avec profondeurs des pages, leurs visites et leur taux de pages actives

Le taux de pages actives des urls provenant des sitemaps XML=Logs (0,04%) est à peine plus élevée qu’une page en profondeur 6.

Ce qui est intéressant de constater aussi, c’est que plus la profondeur augmente, et plus le taux de pages actives des pages diminue. Pour qu’une page soit efficace, il faut donc qu’elle soit dans la structure et si possible à des profondeurs peu élevées. On peux en conclure aussi que le problème du manque d’efficacité des pages venant des sitemaps XML est généralisé à l’ensemble des pages hors structure.

Les sitemaps écrasent les profondeurs

La transition est toute faite, on vient de voir que la profondeur des pages a un impact sur les visites. Par définition, Les urls d’un sitemap sont toutes au même niveau, il n’y a donc pas de hiérarchie entre elles. Ah si, on peux mettre une notion de priorité  dans les sitemaps avec <priority>, mais aucun test à ma connaissance n’a montré de corrélations positives, ce serait trop facile en même temps. La profondeur des pages est un des critères qui permet de signifier à Google le poids, le degré d’importance que le site apporte à chaque page, ce que le sitemap XML ne fait pas.

Le sitemap XML gaspille du crawl

Google a un temps limité pour crawler un site, du coup le temps qu’il va passer à explorer des urls via le sitemap, sera au détriment des pages explorées via la structure du site. Le problème c’est que Google risque de passer à côté d’indicateurs (profondeurs, pagerank interne, pagerank sémantique, etc…) qu’il ne peux connaitre qu’en explorant les pages via l’arborescence du site. Si le crawl du sitemap rentre en concurrence avec le crawl via les liens internes du site, c’est un problème pour la bonne prise en compte de tous les critères de pertinence d’une page.

C’est une source d’erreurs

Les sitemaps XML sont générés automatiquement et souvent soumis à des « bugs ». Dans mes audits SEO ça fait partie des points que je vérifie systématiquement, car il est pas rare de trouver des erreurs. Ça peux être des erreurs 404, des redirections, des pages dupliquées, des urls non réecrites, etc… L’avantage c’est que ça vient s’ajouter à ma liste de recommandations 🙂

Quand le sitemap est utile ?

Il y a des cas où c’est utile malgré tout de proposer un sitemap:

  • Pour les nouvelles pages: Proposer un sitemap avec par exemple les nouveaux produits d’un site ecommerce, c’est une bonne idée
  • Pour Google news: C’est même indispensable, proposer un sitemap news à Google prend tout son sens car Google a besoin d’afficher rapidement le contenu chaud sur Google actualités et sa onebox news. Ensuite, lorsque ce même contenu « refroidit » c’est une autre histoire…
  • Pour la vidéo, les images: Particulièrement pour les sites fortement dépendant des vidéos ou des images, c’est là aussi indispensable. Dailymotion doit son salut principalement grâce à ses sitemaps vidéo.
  • Pour les sites mobiles: euh non, en fait je le proposais encore il y a peu de temps, mais depuis que John Muller, un ingénieur Google (un des remplaçants de Matt cutts) a dit en avril 2015 que c’était mal, je ne propose plus de créer des sitemaps pour mobile, sauf cas particuliers.
  • Pour désindexer des pages: C’est bien pratique lorsqu’on veux accélérer la désindexation de certaines pages. Plutôt que d’attendre 3 mois que Google revienne crawler les pages qu’on veux désindexer, un bon sitemap XML et hop c’est fait.
  • Pour des migrations: ça rentre dans le même cas que les nouvelles pages, l’idée est là encore d’accélérer la prise en compte des redirections et des nouvelles pages d’un site suite à une refonte par exemple. Ce n’est pas obligatoire mais ça permet dans certains cas d’éviter des baisses temporaires de trafic.
  • Pour les cas où le site a des gros problèmes d’accessibilité: Parfois, les sites ont tellement de problème d’accessibilité de pages pour les moteurs de recherche, que la seule solution est d’avoir un sitemap pour compenser ces problèmes d’exploration. Dans ce cas, en attendant que la structure du site soit optimisée, le sitemap permet de sauver les meubles, même si on a vu que ce n’était pas une « vraie » solution.
  • Pour ses indicateurs sur search console: On peux notamment voir sur search console les pages indéxées par rapport aux urls envoyées dans le sitemap. Je dis ça pour améliorer le corpus sémantique de l’article 😉 mais en fait, il y a d’autres moyens de le savoir, et vu les inconvénients que ça peux causer, si on le fait juste pour ça, ça vaux pas le coup.

Conclusion

Les sitemaps XML aident à crawler rapidement les pages d’un site, mais ne favorisent ni leur indexation et encore moins leurs positionnements, c’est parfois même l’inverse… sauf les quelques cas évoqués ou en solutions temporaires.

Alors, qui va supprimer son sitemap ? 😀

QueduWeb - exposé de CreaPulse sur un cas client de pages dupliquées faiant plus de visites que les pages originales

QueduWeb – Lorsque les pages dupliquées font des visites

Le 4 juin 2015 a eu lieu à Deauville la première édition de Queduweb, un évènement sur le SEO et le Webmarketing, pile poil dans la thématique de CreaPulse. Cette première édition avait surtout pour sujet le SEO puisqu’il a réunit quelques personnalités du secteur comme Olivier Andrieu, Jean-Benoît Moingt ou encore le co-fondateur de Qwant, Éric Leandri. Et Sylvain Peyronnet, organisateur avec son frère Guillaume, m’a gentiment invité à venir présenter un exposé sur le sujet de mon choix.

J’ai donc présenté un cas client que j’ai trouvé intéressant de présenter pour son originalité, son aspect technique lié au SEO mais pas que…, et parce que j’ai trouvé un client qui a accepté que je parle de leur site 🙂

Ce cas pratique, extrait d’un audit SEO plus complet pour le site Ifocop (centre de formations), traite de duplications de contenus, du fonctionnement du crawl de Google, de son impact sur les visites d’un site et des solutions de référencement apportées:

Attention spoiler, pour synthétiser:

  • J’ai d’abord constaté que le site comportait 77% de pages inutiles au référencement dont 43% de pages dupliquées
  • Parmi les pages dupliquées, 23% étaient dupliquées avec les pages de formation
  • Ces pages dupliquées étaient plus visitées que les pages originales, 26% des visites du site générées par ces pages dupliquées contre 5,5% pour les pages canoniques.
  • On constate aussi que ces pages dupliquées sont plus efficaces. Un passage de Googlebot sur ce type de pages dupliquées génèrent en moyenne 1279 visites contre 291 pour les pages originales.
  • Aucun lien ou presque ne pointait vers la version dupliquée, ces urls dupliquées était aussi présentes dans le code source
  • Plusieurs « bugs » sur le site ont fait que la version dupliquée était plus partagée sur les réseaux sociaux.
  • En conclusion, les réseaux sociaux influencent le crawl de Google qui influence lui même les visites provenant des moteurs de recherche.
  • L’autre conclusion, qui est plus difficile à dire, c’est que le crawl provenant des pages découvertes grâce aux réseaux sociaux rendrait les pages plus efficaces (font plus de visites). Dur d’être  affirmatif sur ce point, car cette cause n’est pas unique. La présence systématique des urls dupliquées dans le code source des pages dupliquées et originales participent certainement aussi à cette efficacité. Mais faut bien avouer que ce serait remarquable si c’était le cas.

Et encore merci à Sylvain pour l’invitation !

Puis je placer plusieurs fils d'ariane sur une page

Comment faire avec un produit dans plusieurs catégories ?

On est souvent confronté au fait d’avoir plusieurs éléments appartenant à plusieurs catégories, que ce soit des produits ecommerce ou des articles éditoriaux. La question a été posé à Matt Cutts de Google, et plus spécifiquement sur les fils d’ariane. Sa réponse est que Google prend en compte uniquement le premier fil d’ariane.

 

En résumé:

« Peut on placer plusieurs fils d’ariane sur une page ? Est ce que  ca risque de troubler la compréhension par googlebot de la structure de mon site ? »

Matt cutts prétend que googlebot prend en compte le premier fil d’ariane et qu’ils placent la page dans la bonne catégorie aussi bien qu’ils le peuvent, mais dans certaines circonstances, le fait d’avoir plusieurs fils d’ariane pour une même page peux aider google à mieux comprendre le site.

Moue, il prend en compte le premier fil d’ariane mais c’est OK d’en afficher  3 ou 4 en plus, voire c’est mieux dans certains cas. Autant dire que la réponse est pas claire.

 

Pourquoi c’est pas clair ?

Google, qui est toujours à la recherche de plus de pertinence, pourquoi prendre en compte uniquement le premier fil d’ariane si les autres peuvent apportés plus de pertinence ?

Lorsqu’il parle de prise en compte du premier fil d’ariane, de quoi il parle exactement ? De la prise en compte en tant que lien, en tant qu’extrait enrichi ?

exemple d'extrait enrichi du fil d'ariane

Exemple d’extrait enrichi du fil d’ariane – sur La Redoute

Mon avis sur la question

Si il parle de la prise en compte du fil d’ariane en tant qu’extrait enrichi dans les pages de résultats de google, je veux bien croire que Googlebot prenne en compte uniquement le premier.

Mais encore faut il que le fil d’ariane soit bel et bien codé avec les balises schéma.org spécifiques au breadcrumb. Et je doute que çà réponde à la question, de près ou de loin.

Il veux donc dire que Google sait reconnaître un fil d’ariane, même si ce dernier n’est pas balisé en tant que tel par des microdatas, et qu’il considère le premier si il y en a plusieurs.

 

Ça me parait tout bonnement impossible.
Google prend en compte l’ensemble des liens d’une page de la même manière au sens quantitatif (pagerank) , puis intervient l’usage de ces liens par les visiteurs pour leur donner un poids plus qualitatif.

Sachant que les fils d’ariane, en fonction de leur ergonomie, sont rarement très utilisés, il se peux très bien qu’un « fil d’ariane secondaire », soit plus utilisé que le « fil d’ariane principal ». Et dans ce cas, quelle catégorie considérer mon cher Matt 🙂

 

Comment faire alors ?

Tout d’abord , c’est quoi un fil d’ariane ? C’est un lien qui remonte vers la catégorie parente. Au niveau SEO, cela renforce le poids des catégories. Plus une catégorie a de pages filles, puis elle recevra en retour des liens remontants et donc plus de poids. Les catégories les plus importantes recevront naturellement plus de jus de lien, ce qui est normal et même souvent conseillé.

L’optimisation structurelle en SEO, c’est une histoire de déséquilibre, qui consiste à renforcer les pages les plus stratégiques en leur apportant plus de liens et par conséquent à en apporter moins à d’autres parties du site.

Ce choix peux se faire en fonction de multiples critères qui peuvent être le potentiel de trafic, de CA, de conversions et/ou d’autres facteurs plus techniques, combler un déficit de crawl, de profondeur, etc…

Donc, lorsqu’un même produit appartient à plusieurs catégories, je conseille d’afficher qu’un seul fil d’ariane, celle qui correspond à la catégorie principale,  ne serait-ce que pour des raisons d’expérience utilisateur.

Ensuite, sur le choix d’afficher les liens vers ses autres catégories, pourquoi pas, mais pourquoi le faire au niveau du fil d’ariane ? Et ce choix devrait se faire en fonction des objectifs cités plus haut et pas forcément de manière systématique. Sinon dans ce cas, on risque de tuer ce déséquilibre structurel bénéfique au bon référencement de votre site.

Je vous conseille d’avoir un seul fil d’ariane et d’afficher les liens vers les autres catégories qui le « méritent ».

 

Pour aller plus loin

Ce que Matt Cutts ne mentionne pas, et qui pourtant découle naturellement de la question, c’est le problème potentiel de duplication que peux engendrer le fait d’avoir une page appartenant à plusieurs catégories.

Quelques conseils:

  • Avoir une URL consistante pour vos produits, qui ne dépend pas de vos catégories. Idéalement, vos pages produits ne doivent pas mentionner leur catégorie dans l’URL.
  • Si malgré tout, vos produis dépendent de vos catégories, veiller à bien faire pointer l’url canonique vers la fiche produit principale (le cas échéant, en définir une)

Et vous , vous en pensez quoi ?