Qu’est ce que le “Crawl budget” et pourquoi est-il important en SEO ?
Qu’est-ce que le “Crawl Budget” ?
Qu’est ce que le budget Crawl et quel est son impact sur mon site web et sur son référencement ? La question nous est souvent posée. Gary Illyes (Google) a précisé cette notion sur le blog du moteur de recherche à destination des webmasters. Ces notions sont un peu techniques, nous en sommes conscients mais si vous êtes curieux, vous trouverez une partie des réponses à ces questions dans cet article et plus globalement dans notre blog.
Le Crawl Budget ou budget d’exploration en français, est le nombre de pages de votre site internet que Google va parcourir par jour.
De manière simplifiée, le “Crawl budget” est une combinaison du “taux d’exploration” et de la “demande d’exploration”. Selon Gary Illyes, le budget crawl est le nombre d’URLs que le “Googlebot” peut et veut parcourir. Comme nous le verrons plus bas dans cet article, Google a précisé les facteurs qui influencent le budget d’exploration.
Le nombre de pages explorées par Google, votre ” budget d’exploration”, est généralement déterminé par la taille de votre site, la ” santé ” de votre site” et le nombre de liens vers votre site. Nous détaillerons là encore ces notions un peu plus loin dans cet article.
Mais au fait, qu’est-ce que le “Google Bot” ? Googlebot est le nom donné à l’agent automatisé qui parcourt votre site à la recherche de pages à ajouter à son index. Vous pouvez le considérer comme un internaute numérique. C’est en tout cas un travailleur acharné qui à fort à faire compte tenu du nombre de pages web présentes sur la toile !
Puisqu’il y a des milliards et des milliards de pages sur le Web, il serait peu pratique pour le Googlebot de les explorer de manière continue. Cela consommerait une précieuse bande passante en ligne, ce qui ralentirait les performances des sites Web. Cela constituerait par ailleurs un gaspillage de ressources !
Google alloue donc un budget de crawl pour chaque site Web. Ce budget détermine la fréquence à laquelle le Googlebot explore le site à la recherche de pages à indexer.Qu’est-ce que la “Crawl rate limit” ?
La notion de “Crawl rate limit” ou limite d’indexation est une notion un peu différente de celle du budget de crawl. Elle définit le nombre de connexions simultanées que le Googlebot utilise pour crawler un site et le temps d’attente avant d’aller chercher une autre page.
La vitesse de votre site influent sur la limite d’exploration. Si un site répond rapidement au Googlebot, alors Google augmentera le taux de d’exploration. En revanche, Google réduira le la “Crawl rate limit” pour les sites Web lents. Google l’indique clairement sur son blog “”Rendre un site plus rapide améliore l’expérience des utilisateurs tout en augmentant le taux de crawl.”.
Notez qu’il est possible de définir la limite d’exploration dans la Google search console si vous jugez que Google bot passe trop souvent et sature par exemple votre site inutilement. Il n’est en revanche pas possible de lui demander de passer plus souvent !
Notez également que même si la limite d’exploration n’est pas atteinte, Google peut décider réduire le nombre de pages que son robot explore. La diminution de l’activité du robot s’appelle une réduction de la “demande d’exploration”. Sur quels critères ?
La popularité, l’obsolescence des contenus ou une refonte de site web peuvent affecter la demande d’exploration. Les pages les plus populaires (c’est-à-dire celles qui ont par exemple une forte notoriété, qui sont beaucoup partagées sur les médias sociaux et qui reçoivent des liens de qualité d’autres sites Web) ont tendance à être explorées plus souvent (Pour Google, populaire=”link authority”. Google tente en revanche d’éviter que les URL ne deviennent obsolètes dans son index. Dans le cas d’une refonte de site internet, la demande d’exploration (crawl demand) augmentera afin de permettre au Googlebot d’indexer les nouveaux contenus et les nouvelles URLs.Quel est l’impact du Budget Crawl sur mon site web ?
Bien qu’un bon taux de crawl puisse permettre une indexation plus rapide des nouvelles pages de votre site ou de leur mise à jour, gardez à l’esprit en revanche qu’un taux de crawl plus élevé n’est pas un facteur de classement dans le moteur de recherche.
Quels facteurs influent sur le budget d’exploration de mon site ?
Voici une liste de ces facteurs qui ont un impact direct sur le budget d’exploration de votre site internet :
Paramètres des URLs – Sans optimisation sur des CMS, il arrive souvent qu’une URL contienne des paramètres comme (par exemple, une URL de type “http://monsite.fr?id=3” qui renvoie exactement la même page avec son URL réécrite . Ce genre de configuration peut entraîner la création de nombreuses URLs distinctes pour une même page de contenu, ce qui importe négativement le crawl budget, même si toutes ces URLs renvoient vers la même page. Vous pouvez éliminer ce problème en éliminant complètement les paramètres d’URL. Par exemple, si vous exploitez un site de commerce électronique, vous pouvez renommer l’URL des pages produits de http://www.monsite.fr/boutique?produitId=5 en http://www.monsite.fr/boutique/produitId5. Ce faisant, vous éliminerez au moins un paramètre de requête. Autre astuce, si vous devez utiliser des paramètres de requête, veillez à indiquer à Google comment traiter ces paramètres dans la Console de recherche. Cliquez simplement sur “Crawl” dans la barre latérale gauche et sélectionnez “Paramètres d’URL” dans le menu qui apparaît. Sur cette page, vous pouvez modifier vos suggestions et ajouter de nouveaux paramètres afin que Google n’indexe pas les pages en double. Cela modifiera votre budget de crawl pour le référencement. Mais soyez vraiment prudent sur ce point, un mauvais paramètre peut ruiner le référencement de votre site web ! Parlez-en à votre agence web.
Duplication du contenu – Dans certains cas, les URLs peuvent être totalement uniques sans paramètres de requête et retourner le même contenu. Cela aura également un effet négatif sur le budget. Limitez donc le contenu dupliqué (duplicate content dans le jargon du SEO) car la duplication de contenu peut nuire à votre budget de crawl.
Pages d’erreur soft 404 – Les pages d’erreur soft 404 ont également un impact sur le budget d’exploration. Heureusement, elles sont également signalées dans la console de recherche.
Pages piratées – Les sites qui ont été victimes de pirates peuvent voir leur budget d’exploration limité.
Espaces ou liens infinis – Les sites qui ont des liens illimités ou infinis comme par exemple des calendriers où les utilisateurs peuvent cliquer sur un jour, un mois ou une année.
Contenu de mauvaise qualité – Si le site souffre d’une mauvaise qualité, il est probable que Google limite le budget d’exploration.
Limiter les redirections – Chaque fois qu’une des pages de votre site redirige vers une autre page (avec une redirection 301 ou 302), elle utilise une petite partie de votre budget de crawl. Cela signifie que si vous avez beaucoup de redirections, votre budget de crawl pourrait être épuisé avant que le Googlebot n’explore la page que vous voulez indexer.
Éliminer les liens brisés – Si vous avez beaucoup de liens brisés sur votre site (erreur 404), vous devrez les faire nettoyer si vous voulez maximiser votre budget de crawl. Comment les identifier ? La Search Console de Google les indique. Elle sera une précieuse alliée. Des logiciels plus techniques et réservés aux experts SEO comme Screaming Frog pourront également vous y aider.
Les liens internes et externes – Le maillage interne de votre site (liens présents dans votre contenu) et les liens externes pointants vers votre site ont également un impact. Il existe une corrélation entre le nombre de liens externes et le nombre d’exploration d’un site par GoogleBot.
La vitesse et la performance de votre site – Nous l’avons vu plus haut dans cet article, un site rapide favorisera l’indexation de vos pages par Google.
Mais, plus important encore, la vitesse est aujourd’hui officiellement un critère majeur de classement des pages de votre site dans les pages de résultats de Google (SERP). Comme évoqué dans un article précédent de notre blog, certains outils vous permettent de tester la vitesse de votre site web et de réaliser un premier audit SEO, notamment Google Pagespeed. Choisissez donc le bon hébergeur web et la bonne agence web, et utilisez des caches serveurs.
De plus, nous vous recommandons d’utiliser un plan du site ou sitemap.xml. Les systèmes de gestion de contenus comme le CMS WordPress, permettent de le faire très facilement.
Pour conclure, même si cela tombe sous le sens, assurez-vous que le fichier Robots.txt de votre site est bien présent et correctement paramétré !Votre agence peut-elle nous accompagner dans l’optimisation, la création ou la refonte d’un site internet ?
Bien entendu ! C’est notre mission depuis 25 ans. Contactez-nous au 02 40 50 77 66. Nous saurons vous apporter notre expertise en terme de conception, de réalisation et de SEO.