Les stigmates des bouleversements causés par certaines mises à jour Google, telles que Florida en 2003 restent gravés dans la mémoire collective du référencement.

L’annonce d’une mise à jour surnommée Caféine (Caffeine en anglais) provoque des remous plus ou moins justifiés, au travers de ceux qui s’intéressent à Google et au référencement de site Internet.

Faut-il que ceux, qui possèdent des sites positionnés convenablement parmi les résultats de recherche Google, redoutent la mise à jour Caféine?

Comme d’habitude, les pseudo analyses, suppositions et autres interprétations fleurissent au travers des blogs et forums à propos de la mise à jour Caféine. C’est comme cela que naissent les mythes du référencement, habilement alimentés par Google causé par un manque de transparence récurent.

Qu’est ce que Google Caféine?

Il était évident que certains allaient sortir des théories alimentant la pompe à mythes et secrets du référencement.
En guise d’avertissement, nous avons reçu une annonce officielle de Google, plusieurs interviews de Matt Cutts, ainsi qu’un post sur son blog se voulant rassurant. Sur le Web, la discussion est bien lancée sur blogs, forums, Twitter, etc.
Une URL mettait à disposition l’accès à un aperçu de l’index Google Caféine. Cet accès est fermé depuis le 10 novembre 2009.

Interview de Matt Cutts à propos de Google Caffeine

Propagation de la rumeur et mise en route d’un mythe

Au départ, Mashable sort une analyse que je qualifie de tout à fait superficielle. Le point subjectif concerne une soi-disant pondération supérieure des mots clés sur Google Caféine.

Un blogueur français orienté référencement reprend la teneur de l’analyse Mashable à son propre compte (sans citer la source d’origine qui l’a inspiré) et d’autres vont citer ce billet sur leurs blogs, Twitter et autres sources de partage de contenu. Même le Journal du Net met les pieds dans le plat sans savoir de quoi il s’agit véritablement.

Le pire de tous est celui là qui part dans un délire total, voulant sciemment propager une peur parmi ses lecteurs.

Ce qu’il faut retenir à propos de Google Caféine

Google Caféine est un nouvel index hébergé par une nouvelle infrastructure qui repose sur le Google File System V. 2., dont la structure nous est connue depuis 2004. La V.2 conçoit une évolution majeure du Google File System, permettant d’améliorer l’indexation et la gestion des données.

Cela entraine principalement:

Une amélioration de vitesse d’indexation
Une plus grande fiabilité sur les résultats de recherche
Des moyens décuplés en interne pour le travail des ingénieurs Google

Les observateurs du référencement ont tellement envie de croire que cette mise à jour va provoquer des remous qu’ils brouillent plus ou moins volontairement la compréhension générale. Malgré les efforts évidents de l’inusable Matt Cutts pour signifier qu’il s’agit d’une évolution d’infrastructure, certains font l’amalgame entre index et algorithme.
Bien entendu, la communication Google n’étant pas limpide, tout le monde peut croire qu’il réside un piège au tournant. Sans doute que l’annonce du recul de déploiement global après les fêtes évoque les remous de Florida au sein de l’imaginaire collectif.

Encore une fois, Google Caféine permet à Google de reposer sur une infrastructure plus performante, avec l’algorithme n’étant pas la principale cible de cette mise à jour. Ainsi, le plus gros changement que nous allons observer concerne l’index qui sera rafraîchi.

Et l’algorithme dans tout ça ?

Le principe de fonctionnement de Google est un algorithme par couches. Il existe une formule de base sur laquelle sont posés des filtres qui concernent des paramètres en particulier et/ou certaines parties de l’index.

Comme expliqué précédemment, Google Caféine ne focalise pas sur l’algorithme. Un peu comme si vous changiez de voiture pour passer d’une Twingo à une Porsche, mais vous n’êtes pas devenu Sébastien Loeb par l’intermédiaire de ce changement du véhicule.

Bien sûr, l’index et l’algorithme sont liés, donc j’imagine qu’il faut accorder le bouzin pour qu’il dépote à merveille. Par ailleurs, il est facile de comprendre que ce n’est pas non plus le meilleur moment pour coller des filtres à foison qui pourraient mettre à mal cette merveilleuse nouvelle machinerie.

Les effets et conséquences de Google Caféine

Ma plus grande attente concerne l’indexation en temps réel. Jusque à maintenant, Google Search est à la ramasse et Google Images est un désastre. Espérons que cette nouvelle infrastructure va permettre à Google de pouvoir tacler l’indexation en temps réel convenablement.

Les éventuelles perturbations observées ressortent l’excuse passe partout qui sont les effets de bord. Quand on bidouille un index de cette taille, il est évident que certains effets inattendus apparaissent pour des cas isolés. Bien évidemment, ceux qui verront leurs sites tomber vont faire un ramdam pas possible, mais ils représenteront une portion microscopique du total de l’index.

Si l’algorithme était concerné par cette mise à jour, cela amplifierait les effets de bords. Essayez de changer une virgule dans une formule mathématique pour voir un peu les conséquences…

Une autre évidence du rafraichissement de l’index concerne l’affichage du nombre de résultats qui était notoirement farfelu. J’ose espérer qu’on pourra désormais se fier avec plus d’exactitude aux chiffres énoncés dans les résultats de recherche.

La lutte contre le spam reste au coeur des besoins de Google. Une meilleure manipulation des données contenues dans l’index pourrait aider dans cette lutte pour totalement vaine (pour l’instant).

Le paramètre dont parlent ceux qui ont compris de quoi il s’agit porte sur la vitesse de chargement des sites, dont les plus lents pourraient être défavorisés. Ce nouvel index focalise sur la vitesse, donc il semble viable de demander aux pages affichées parmi les meilleurs résultats de suivre cette tendance. Matt Cutts mis le doigt sur ce point dans une interview récente, ainsi que SearchEngineLand qui abonde dans ce sens. Attention, il ne faut pas faire partir une nouvelle rumeur suggérant qu’un site qui se charge en plus de 4 secondes va perdre 30 positions. Ce paramètre est à inclure parmi les +200 qui composent l’algorithme, nécessitant de jauger son importante relative par rapport aux autres.

A propos de la vitesse de chargement des pages Web, je reste perplexe car j’ai testé la rapidité de mon site et le facteur le plus ralentissant est … Google Analytics – par le biais du code JavaScript installé en bas de chaque page.

Comment faire une analyse convenable ?

Le reverse engineering à la petite semaine est une perte de temps. Tout d’abord, il faut bien comprendre que l’affichage des résultats de recherche n’est pas forcément une retranscription exacte de ce qui se trame dans l’index. Sans parler des chiffres farfelus affichés comme compteur des résultats, Il existe toute une série d’opérations depuis le moment où GoogleBot crawle une page Web jusqu’au moment où elle ressort sous divers opérateurs au sein des résultats de recherche. Nous disposons uniquement de la plus petite lucarne qui sont les résultats de recherche du moteur. Toute la machinerie en amont est invisible et inconnue.

Tirer des conclusions à partir d’un résultat de recherche pour déterminer ce qui se passe en amont est voué à présenter une pitoyable interprétation du fonctionnement de Google.

Parmi les mythes du référencement, il demeure un paramètre que j’ai toujours combattu avec force. Il s’agit de la densité des mots clés au sein d’une page. Il suffit de savoir dans les grandes lignes comment Google fonctionne pour se rendre compte que ce critères est totalement farfelu.

Pour analyser le comportement du moteur par rapport aux mots clés, il faudrait évaluer le nombre d’occurrences sur la page. Jusque là c’est facile ; il suffit de compter les mots cibles sans prendre en compte le nombre total de mots clés comme le fait le calcul de densité. Ensuite, il faut évaluer ces occurrences par rapport aux occurrences exactes sur le reste du site, puis par rapport aux co-occurrences similaires et complémentaires.

Ce n’est pas fini ! Maintenant, il faut prendre chaque partie de ces résultats pour les évaluer en fonction des pages Web concurrentes et le reste du site des pages concurrentes qui sont elles même analysées comme précédemment.
Ensuite, il faut remonter ces données pour tenter d’en sortir une règle de pondération qui sera toujours à prendre avec précaution car je rappelle que l’index n’est pas traité de manière identique sur sa totalité.

Et là on dispose d’un petit début de piste concernant la prise en compte des mots clés. Tout cela doit évidemment se répéter sur un nombre suffisant de mots clés pour une seule page, plusieurs pages du même site, plusieurs sites sur la même requête, un seul site sur plusieurs requêtes, plusieurs sites sur plusieurs requêtes, etc.

Ainsi, je peux sereinement réfuter les résultats de Mashable, ainsi que tous les autres qui se sont inspirés de cette analyse bidon.

Si je comprends bien, je n’ai rien à craindre pour mon site ?

Pour la vaste majorité des sites Internet, il n’y aura pas ou très peu de changement. Ceux qui seront touchés seront sûrement affectés par un effet temporaire qui sera dégagé sans rien modifier sur le site. Malheureusement, c’est frustrant et je connais personnellement le phénomène.

Dans tous les cas, il ne faudra pas regarder du côté d’une éventuelle pénalité algorithmique, mais plutôt par rapport aux paramètres liés à l’indexation.

On verra bien en janvier lorsque Google Caféine sera déployé sur tous les DataCenters du moteur de recherche, mais je peux logiquement m’avancer en rejetant en bloc tous ceux qui font l’amalgame entre index et algorithme.