Guide du débutant sur l'exploration Web

Publié: 2022-05-02

Que vous soyez un propriétaire de site Web ou un professionnel du référencement, il est essentiel de comprendre l'exploration de sites Web, comment les moteurs de recherche explorent les sites Web et les pages Web, et comment ils classent (ou décident de ne pas classer) une page pour une certaine requête de recherche.

L'exploration de sites Web est un processus technique et, pour être honnête, vous n'avez pas besoin d'en comprendre l'aspect technique. Seule la compréhension du concept principal et de ce que vous pouvez faire pour faciliter l'exploration de sites Web pour les moteurs de recherche tels que Google peut vous aider à rendre votre site Web plus convivial pour les moteurs de recherche, à suivre les meilleures pratiques de référencement et à vous classer plus haut sur les pages de résultats des moteurs de recherche (SERP).

Dans ce post, nous aborderons :

Qu'est-ce que l'exploration de sites Web
Les différents types de crawling de sites web
À quoi ressemble l'avenir de l'exploration de sites Web en 2022 et au-delà
Comment vous pouvez faciliter l'exploration de sites Web pour Google

Prenons-le par le haut.

Qu'est-ce que l'exploration Web ?

Avant d'aller plus loin, il est crucial de comprendre ce qu'est l'exploration Web.

L'exploration fait référence au processus par lequel les moteurs de recherche découvrent du contenu nouveau et mis à jour sur Internet. Pour ce faire, les moteurs de recherche envoient des crawlers (également appelés robots, bots ou spiders).

Ces robots « parcourent » Internet pour voir s'il existe une nouvelle page qu'ils peuvent indexer sur les SERP. De même, ces bots recherchent également les pages qui ont été récemment mises à jour avec du nouveau contenu.

Le type de "contenu" peut varier - des pages Web aux images en passant par les vidéos et les PDF.

Les limites auxquelles sont confrontés les robots d'exploration Web

Comme vous pouvez l'imaginer, il est difficile de récupérer chaque page Web sur Internet et de l'explorer à la recherche de nouveau contenu. Il en est ainsi en raison du volume considérable de pages Web sur Internet. De plus, des millions et des millions de nouvelles pages apparaissent quotidiennement sur le Web.

Cela nécessite beaucoup de ressources informatiques, ce qui peut entraîner des problèmes de durabilité. Nous en reparlerons plus loin dans cet article, ce que cela signifie pour l'avenir de l'exploration Web et l'impact potentiel de cette limitation sur les webmasters et les professionnels du référencement.

Pour l'instant, vous devez comprendre comment ces robots ou araignées tentent de surmonter ce problème en devenant plus efficaces et comment vous pouvez en tirer parti à votre avantage.

Les araignées d'exploration récupèrent généralement quelques pages Web et les explorent. Ensuite, ils suivent les liens (liens internes et liens externes) sur ces pages Web pour trouver de nouvelles URL à explorer et à indexer. Cela aide les crawlers à devenir plus efficaces dans la construction d'une gigantesque base de données d'URL.

Et c'est pourquoi l'ajout de liens vers des pages sur vos pages Web - en particulier des liens internes contextuellement pertinents vers d'autres pages est une pratique de référencement recommandée.

Deux types d'exploration Web

Selon Google, il existe deux types de crawling Web :

Découverte
Rafraîchir

"En ce qui concerne le crawl, nous avons deux types de crawl. L'un est un crawl de découverte où nous essayons de découvrir de nouvelles pages sur votre site Web. Et l'autre est une analyse d'actualisation où nous mettons à jour les pages existantes dont nous avons connaissance », explique John Mueller de Google.

La fréquence d'exploration - en dehors du type d'exploration - dépend également de la fréquence à laquelle le contenu est mis à jour sur votre site Web ou votre page Web. Par exemple, si la page d'accueil de votre site Web est mise à jour plus régulièrement que les autres pages, vous verrez probablement plus d'activité d'exploration sur cette page.

Et comme nous l'avons expliqué précédemment, les robots d'exploration trouveront également des liens sur la page d'accueil et exploreront les pages qu'ils trouveront avec ces liens.

Ainsi, un crawl de rafraîchissement (pour la page d'accueil, pour vérifier s'il y a du nouveau contenu) peut également conduire à un crawl de découverte si un lien vers une nouvelle page y est trouvé.

Un dernier point à comprendre à ce sujet est que Googlebot est capable de reconnaître des modèles pour ajuster son crawl de rafraîchissement en conséquence.

John Mueller de Google a expliqué cela avec l'exemple suivant :

"Par exemple, si vous avez un site Web d'actualités et que vous le mettez à jour toutes les heures, nous devons savoir que nous devons l'explorer toutes les heures. Alors que s'il s'agit d'un site Web d'actualités qui se met à jour une fois par mois, nous devrions apprendre que nous n'avons pas besoin d'explorer toutes les heures.

Et ce n'est pas un signe de qualité, ou un signe de classement, ou quelque chose comme ça. C'est vraiment purement d'un point de vue technique que nous avons appris que nous pouvons explorer cela une fois par jour, une fois par semaine, et ça va.

Google fait cela pour économiser les ressources d'exploration. Comme nous l'avons mentionné précédemment, l'exploration est une tâche difficile et peut nécessiter beaucoup de ressources de calcul jour après jour. Ce n'est pas très durable, d'autant plus qu'Internet continue de se développer.

Cela nous amène à notre point suivant.

L'avenir de l'exploration Web en 2022 et au-delà

Dans un récent épisode du podcast Search Off the Records, l'équipe Search Relations de Google a laissé entendre que Google pourrait réduire le taux d'exploration du Web afin d'économiser les ressources de calcul et de promouvoir la durabilité.

« L'informatique, en général, n'est pas vraiment durable. Nous sommes sans carbone depuis, je ne sais même pas, 2007 ou quelque chose comme ça, mais cela ne veut pas dire que nous ne pouvons pas réduire encore plus notre empreinte sur l'environnement. Et ramper est l'une de ces choses qui, au début, nous a permis de couper des fruits à portée de main », a déclaré Gary Illyes de Google.

Il a ensuite expliqué comment Google pourrait atteindre cet objectif de durabilité en réduisant le taux d'exploration de rafraîchissement.

« Une chose que nous faisons, et nous n'avons peut-être pas besoin de le faire autant, est l'actualisation des analyses. Ce qui signifie qu'une fois que nous avons découvert un document, une URL, nous y allons, nous l'explorons, puis, éventuellement, nous allons revenir en arrière et revoir cette URL. C'est une analyse de rafraîchissement.

Et puis, chaque fois que nous revenons à cette URL, ce sera toujours une analyse de rafraîchissement. Maintenant, à quelle fréquence devons-nous revenir à cette URL ? »

Que signifie un taux de crawl réduit pour les propriétaires de sites Web et les référenceurs ?

Une vitesse d'analyse réduite pour les analyses d'actualisation ralentirait probablement les mises à jour de l'indexation et des classements pour les pages Web mises à jour. Cependant, cela ne signifie pas nécessairement un classement plus faible des moteurs de recherche.

Gary Illyes a confirmé lors du podcast que "c'est une idée fausse" de penser "si une page est davantage explorée, elle sera mieux classée".

7 conseils pour améliorer le crawl sur votre site web

Maintenant que vous savez ce qu'est l'exploration du Web et ce que l'avenir de l'exploration du Web peut nous réserver, examinons brièvement quelques conseils que vous pouvez utiliser pour améliorer l'exploration sur votre site Web.

Mettez à jour votre contenu souvent. Si vous publiez un article par semaine - sans autre mise à jour de contenu sur votre site Web - Google reconnaîtra le modèle et ralentira l'exploration de l'actualisation de votre site Web, comme nous l'avons appris précédemment.
Mettez à jour Google une fois votre site Web mis à jour en soumettant l'URL pour réindexation dans Google Search Console.
Créez des liens contextuellement plus pertinents à partir de sites Web régulièrement explorés ainsi que de pages Web régulièrement explorées sur votre site.
Consacrez du temps et des efforts pour améliorer la vitesse de chargement de votre site Web. Si un site Web est trop lent à charger, les robots d'exploration de sites Web peuvent abandonner votre site.
Ajoutez un sitemap et maintenez-le à jour pour aider Google à explorer le Web. Consultez le plan du site de votre site Web ici.
Réduisez le nombre de pages orphelines sur votre site Web. Les pages orphelines sont les pages qui n'ont aucun lien pointant vers elles.
Réduire les chaînes de redirection

Nous espérons que vous avez trouvé ce guide du débutant sur l'exploration Web utile. Si vous avez des questions ou des commentaires, faites-le nous savoir dans la section des commentaires ci-dessous.