Sous le capot du moteur de recherche

Comprendre le fonctionnement des moteurs

Le moteurs de recherche déroulent une liste d'opérations sophistiquées pour retourner des résultats de recherche pertinents quand les internautes utilisent son système afin de trouver une information.

Sans tremper dans les notions avancées, certains éléments sont essentiels à comprendre pour tous ceux qui veulent débuter en SEO.

Entre le moment où un moteur de recherche découvre une page et l'apparition de cette page dans les résultats de recherche, il y a tout un tas d'opérations qui se déroulent dans les entrailles du moteur.

  1. Crawler le Web
    Un moteur de recherche fait tourner des programmes automatiques qu'on appelle bots ou spiders qui utilisent la structure des liens hypertexte pour "crawler" les pages et les documents qui sont contenus dans le World Wide Web. Ces robots voyagent de page en page grâce aux liens.

Entre le moment où le bot découvre une page et celui où elle remonte dans une requête tapée par un internaute, il se déroule tout un tas d'opérations. Le référenceur a une vision du début et de la fin du processus, mais les étapes intermédiaires sont opaques. C'est la sauce secrète du moteur à laquelle nous n'avons pas accès.

  1. Indexation de documents
    Une fois qu'une page a été crawlée, son contenu peut être "indexé". C'est-à-dire qu'il est stocké dans une base de données géante qu'on nomme l'index du moteur de recherche. Cet index est géré de manière très efficace puisque les moteurs retournent en une fraction de seconde des résultats qui proviennent d'une recherche parmi des milliards de documents.

Chez Google, il existe un index principal et un index complémentaire. Les pages figurant dans l'index principal seront mieux favorisées pour apparaître dans les résultats de recherche. Celles figurant dans l'index complémentaire sont jugés moins intéressantes et apparaîtront seulement pour des requêtes spécifiques où il n'y a pas de propositions issues de l'index principal.
Avec l'opérateur site:votresite.com dans Google, vous obtenez la totalité des pages figurant dans l'index.
Grâce à une petite astuce, vous pouvez voir les pages présentes dans l'index principal.
Pour ce faire ajouter un /& à la fin de l'URL.
Comme ceci : site:votresite.com/&
Vous pouvez aussi utiliser un moteur Google déporté, comme par exemple chez SFR, qui n'a accès qu'à l'index principal.

  1. Traitement des requêtes
    Quand une demande d'information est effectuée sur un moteur de recherche (cela est effectué des centaines de millions de fois par jour), le moteur va chercher dans son index tous les documents qui sont en rapport avec la requête. La pertinence du document dépend des termes ou phrases de la requête de l'internaute qui sont contenues dans le texte du document, mais aussi de la manière dont l'internaute a composé sa requête dans le champ de recherche du moteur.
    Par exemple, une requête pour auto magazine retourne 476 millions de résultats (chiffres au 01/02/2014), mais la même requête entre guillemets "auto magazine" retourne simplement 891 000 résultats (chiffres au 01/02/2014). Dans la première requête qu'on appelle aussi mode "Findall" Google retourne tous les documents qui contiennent les termes "auto" et "magazine"; alors que la seconde requête retourne les documents qui contiennent exactement les termes dans cet ordre et sans autres termes entre les deux mots. Il existe de nombreux opérateurs qui peuvent changer les résultats de recherche (Google propose des opérateurs de recherche pour affiner votre requête et vous pouvez également passer par la recherche avancée).

  2. Résultats de recherche
    Une fois que le moteur a déterminé quels résultats sont pertinents pour la requête, c'est au tour de l'algorithme de se mettre en marche (il s'agit d'une équation mathématique qui permet de trier selon un ordre de pertinence et de popularité). Le calcul effectué par l'algorithme permet d'afficher des résultats triés par ordre décroissant de pertinence afin que l'internaute dispose des meilleurs résultats en premier.

Bien que les opérateurs de recherche soient aisés à exploiter pour l'utilisateur, il s'agit en fait de systèmes extrêmement complexes qui exigent des ressources gigantesques, figurant parmi les processus les plus consommateurs du monde. Il faut imaginer que les moteurs opèrent des millions de calculs chaque seconde et répondent à des demandes d'information d'un très grand nombre d'utilisateurs.
Pour vous donner un ordre de grandeur, en juin 2013, Google annonçait le traitement mensuel de 12,8 milliards de requêtes.

Continuer la lecture

Maintenant, vous pouvez plonger dans les principaux éléments à connaître sur les moteurs que n'importe quel référenceur doit maîtriser.

Autres pages à lire sur le sujet :

Note : les pages suivantes sont en cours de rédaction

  • Technologies des moteurs de recherche
  • L'histoire de la recherche d'information

Le meilleur raccourci pour bbien comprendre le fonctionnement de Google consiste à suivre la formation MasterClass SEO des frères Peyronnet.
Pour en savoir plus, vous pouvez lire ma revue et consulter la page de présentation sur le blog Peyronnet.eu.