Dans l’épisode n°2 concernant les mythes en SEO, Suz Hinton développeur front-end chez Microsoft, nous parle du robot de Google. Qu’est-ce que c’est ? Comment ça marche ? Pourquoi arrive-t-il que le Googlebot ne puisse pas accéder à votre site ? Les explications ! 

 

Googlebot : qu’est-ce c’est ?

 

Googlebot est le responsable de l’indexation de contenu. Il s’assure que le contenu du site soit pertinent pour la requête.

Le robot vient sur une page de votre site car il trouve un lien quelque part ou par soumission de sitemap dans la Google Search Console.

La search console peut servir à donner donner des indications au Googlebot, on peut préciser aux bots la fréquence spécifique à laquelle on veut qu’ils passent sur nos pages. Préciser la fréquence est utile pour tout ce qui est actualités, news, journaux quotidiens, etc ou les sites ecommerce qui font des promotions qui changent toutes les 2 semaines par exemple, pour que ce soit à jour plus régulièrement.

Les robots distinguent deux types de données :

  • d’une part ce qu’ils appellent le contenu quotidien ou « frais ». Les actus par exemple, qui seront crawlées plus fréquemment.
  • d’autre part, les contenus destinés à perdurer. Les guides ou gros articles de blog par exemple, le seront moins.

Si votre contenu est considéré comme trop “spammy” (avec des liens de mauvaise qualité) ou s’ils découvrent trop de “liens brisés”, ils ne le crawleront pas aussi souvent. Vous pouvez leur donner l’indication que vous ne souhaitez pas indexer un certain contenu par exemple.

Si on leur indique les pages qu’on ne veut pas voir apparaître dans les résultats de recherche, ils ne reviendront pas tous les jours dessus. On optimise ainsi le budget de crawl de Google, qui fait partie des optimisations techniques.

 

L’index de Google contient des données qui sont répertoriées et classées.

Par quoi commencent les robots ?

 

La première chose qu’ils font, c’est de découvrir si on a d’autres ressources sur la page crawlée. Le cycle du crawl est très important, donc au moment où ils lisent le code HTML de votre page, ils cherchent s’il y a des liens à suivre ou des vidéos, des images, etc.

 

Site ecommerce : comment optimiser le budget de crawl ?

 

Pour les sites ecommerce : ils ne peuvent pas crawler toutes les pages à la fois, d’une part à cause des contraintes liées aux ressources restaurées et d’autre part car ils ne veulent pas surcharger vos services.

Ils tentent donc de déterminer ce qu’ils peuvent ou veulent passer comme temps à crawler votre site et combien de ressources vous avez de disponibles. C’est ce qu’on appelle le « budget de crawl » souvent, mais c’est assez difficile à déterminer.

Suite à cela, s’ils découvrent que vous avez trop de pages en erreur (par ex trop de pages en 404) sur votre site, ils auront tendance à l’enterrer un peu plus, plutôt qu’à le faire remonter en top des résultats de recherche. C’est pour cela qu’un crawl régulier du site est indispensable pour éviter de se mettre les robots à dos et pouvoir corriger les erreurs à temps !

Si vous n’avez pas de crawler à disposition et que votre site contient 500 pages d’erreurs par exemple, les outils de la Search Console peuvent vous en informer avec des alertes mail.

 

Quelle est la difficulté majeure pour le crawl des fiches produits ?

 

Si un site a beaucoup de liens vers des pages secondaires, elles iront toutes dans la file d’attente du crawl. Si votre ecommerce contient 30 catégories différentes par exemple et une centaine de fiches produits, cela fait beaucoup trop de pages à crawler pour le bot.

Si on n’échelonne pas ou qu’on n’étale pas un petit peu, cela instaure un mauvais équilibre, car d’un côté on lance un nouveau produit, on veut donc faire en sorte que la page soit bien référencée sur Google le plus rapidement possible et d’un autre côté on ne veut pas qu’ils prennent tout le flux qu’on leur donne.

Ils essayent de ne jamais surcharger personne et de respecter votre fichier robots.txt.

Comment le robot interprète le javascript ?

 

Certaines apps modernes qui contiennent du Javascript sont mises en file d’attente jusqu’à ce qu’ils aient les ressources nécessaires. Il y a des crawler qui n’ont pas la capacité ou le besoin de faire fonctionner le JS.

 

Web rendering service, WRS

Le WRS : web rendering service, exécute le js sur les pages mises dans la file d’attente : c’est le cas des « médias sociaux bots » par exemple. Ils viennent, regardent les métadonnées et s’ils arrivent sur le JS, vous passez généralement un mauvais moment.

Ils utilisent un navigateur en 2 étapes :

  • le crawling
  • et l’actuel affichage et à chacune de ces étapes, ils vous donnent le user agent.

 

Dynamic rendering ou affichage dynamique

Pour vous aider avec le JavaScript dans l’univers du search, le développeur de Microsoft a expliqué que le rendu dynamique c’est le principe :

  • d’envoyer le contenu final côté client aux utilisateurs
  • et d’envoyer le contenu côté serveur aux moteurs de recherche et aux autres robots qui en ont besoin.

 

Mobile-first indexing, c’est quoi ?

 

C’est la découverte du contenu sur Google à l’aide d’un user agent mobile et d’une fenêtre d’affichage mobile.
Ils essayent d’indexer le contenu mobile pour être sur d’avoir quelque chose pertinent à proposer aux internautes qui sont sur mobile, car ce ne sont pas les mêmes résultats de recherche.

Ils essayent de faire passer notre contenu destiné au mobile sur notre smartphone en priorité, plutôt que le contenu pour PC. Si la page est mobile-friendly (bien optimisée pour les mobiles), c’est un indice de qualité pour l’algorithme de Google. Ils en ont 200, donc le google bot collecte tous ces signaux et met cela dans l’index sous forme de metadonnées et de positionnement.

Pour conclure : oui, les liens externes et internes sont importants, mais c’est un critère parmi 200 autres pris en compte dans l’algorithme de google.