Comment Google indexe les sites ?

Google l'explorateur

Crawler votre site

Afin d’indexer votre site, Google va utiliser un robot crawler ou GoogleBot. Un bot est un programme informatique qui parcours les pages web de votre site et les indexe. Pour passer d’une page à l’autre il utilise les liens contenu dans ces pages, il peut également lire le plan de votre site si vous avez crée ce type de fichier (sitemap).
Nous voyons donc ici l’importance d’avoir des liens internes dans chaque page de votre site afin de faciliter son exploration par les bots. Les Bot crawlers inspectent les sites très régulièrement afin d’avoir un contenu le plus proche du réel ; cela donne aussi une idée de l’activité du site et des ajouts d’informations sur le site, le rendant plus attractif.

Googlebot
Information d'exploration d'un googlebot depuis la search console de Google

Faciliter l'accès à votre site

Si vous n’arrivez à trouver votre site sur Google, c’est peut-être qu’il n’est pas indexé, et que le GoogleBot n’a pas pu accéder aux pages de votre site. A la racine de votre site se trouve un fichier robots.txt, il convient donc de bien le configurer pour l’autoriser à explorer votre site.

Le meilleur moyen pour savoir si le Googlebot accède à votre site, c’est d’utiliser la Search Console de Google. Cet outil est réservé au gestionnaire de votre site qui gère votre nom de domaine. C’est à partir de cet outil que vous pouvez soumettre votre site à indexation pour gagner du temps car quoiqu’il arrive Google finira par trouver votre site via les liens des pages. Mais quand une nouvelle page est crée autant qu’elle soit rapidement indexée !

En quoi consiste l'indexation ?

Un répertoire de page

Le googlebot qui explore les pages de votre site va récupérer des informations via les titres de pages, les titres et sous-titre des paragraphes, le contenu texte, les attributs des images, les liens internes et externes, la vitesse de chargement du site…….
Toutes ces informations vont permettre à Google d’indexer les pages de votre site selon un mot clé ou une expression définie, de sorte que lorsqu’un internaute effectue une requête les pages contenant cette requête apparaissent dans le résultat de recherche.

Le classement des pages est réalisé selon la pertinence de la page par rapport à la requête et à plus de 200 critères établis par Google. Ces critères ne sont pas publics, mais l’on sait que les informations récupérées par les bots sont primordiales.

milliards de pages indexées en 2008
0
milliards de pages indexées en 2016
0
milliards de pages indexées par jours
0

Une constante évolution

Il faut savoir que Google modifie constamment ces critères d’indexation afin d’apporter un résultat de recherche le plus performant possible. Les critères n’étant pas publiques, les référenceurs doivent sans cesse s’adapter, tester, et améliorer les pages des sites afin de les positionner dans l’index de Google.

Ces critères évoluent aussi selon des facteurs économiques. Crawler coûte cher à Google. Comme on l’a vu le nombre de pages indexées est énorme. Google tend à explorer les pages qui en valent le coût ; c’est à dire des pages rapides, bien construites, populaires…..

Suivi de votre site

La création d’un site ne s’arrête donc pas à sa mise en ligne. Le suivi du site, l’enrichissement du contenu, l’analyse du Seo (voir qu’est ce que le SEO) sont indispensable afin de maintenir son site sur l’index de Google et donc visible aux internautes. Il permet de plus à développer votre présence sur le web.
Sans suivi de votre site, cela revient à ouvrir un magasin sans jamais modifier les rayons, ajouter ou retirer des articles, l’accueil des clients, satisfaire les besoins des clients, analyser la fréquentation…..