J’ai réalisé un test qui vise à démontrer que GoogleBot, le robot d’indexation Google, suit parfaitement liens protégés par l’attribut « nofollow. »
D’autres avant moi ont émis cette hypothèse, mais je voulais mettre en place un test dans les règles de l’art plutôt qu’émettre des hypothèses basées sur l’instinct et les observations.
Le cas du nofollow est simplement d’un chapitre de plus où Google ne dit pas toute la vérité et envoie les webmasters sur de fausses pistes.
C’est avec la complicité d’Aurélien Bardon de Oseox, que j’ai mis en place un protocole de test qui permet de démontrer le fait que l’attribut nofollow ne rend absolument pas un lien opaque au robot d’indexation de Google (GoogleBot). Contrairement aux affirmations officielles de Google Inc;., l’attribut nofollow n’empêche pas le moteur de suivre les liens vers une autre page.
Le protocole complet et les résultats du test sont développés sur le Laboratoire du Référencement. Le but de cet article est d’expliquer comment vous pouvez reproduire le test, ainsi qu’élaborer sur les implications du crawl des liens en nofollow par GoogleBot.
Procéder au test de suivi des liens en nofollow
(bien suivre le protocole du Labo pour rendre le test le plus fiable possible).
- Créer une page cible en .php qui contient l’include suivante en début de code source – avant le DOCTYPE et le HEAD
<?
$trouve=strpos($_SERVER[« HTTP_USER_AGENT »], »Googlebot »);
$adr_expediteur = ‘robot@google.com’; //
$to= »VOTREMAIL@VOTRESITE.com »; // CHANGEZ LE MAIL
$sujet= »PASSAGE GOOGLEBOT »; // Sujet du mail
if($trouve!==false)
{
if ($QUERY_STRING != « »)
{$url = « http:// ».$SERVER_NAME.$PHP_SELF.’?’.$QUERY_STRING;}
else
{$url = « http:// ».$SERVER_NAME.$PHP_SELF;}
$today = date(« F j, Y, g:i a »);
mail($to,$sujet, « $todaynGoogle crawled $urlnNavigateur :
$HTTP_USER_AGENTnAdresse IP : $REMOTE_ADDR nNom de domaine :
$domaine », « From: $adr_expediteur »);
}
?> - Uploadez (encore une fois, lisez bien les précautions du protocole pour ne pas émettre de signaux perturbateurs vers Google).
- Mettez en place un lien vers la page cible qui sera protégé par l’attribut nofollow. Exemple : <a href= »http://www.site.com/page-cible.php »>test nofollow</a>.
Etant donné qu’il faut éviter que les visiteurs cliquent sur le lien, il est préférable de cacher le lien de test. Plusieurs solutions sont à votre disposition, mais j’ai opté pour le lien de même couleur que le fond. Exemple :
<a href="http://www.site.com/page-cible.php" rel="nofollow" ><font color="#CCCC99">test</font></a>
C’est n’est pas une solution idéale, mais en répétant le test plusieurs fois sur différentes sites et pages, le facteur probabilité de découverte du lien diminue fortement jusqu’à être considérée comme négligeable.. De plus, la visite de GoogleBot s’avère prendre place très rapidement si la page qui contient le lien est crawlée régulièrement.
Quelques heures (3 à 7 dans mon cas) après l’upload sur le serveur de la page cible et du lien externe, vous devriez recevoir un eMail avertissant du passage de GoogleBot sur la page cible. C’est la preuve que le robot d’indexation a suivi le lien en nofollow, omettant de respecter la fonction principal de cet attribut qui indique de ne pas suivre un lien protégé de la sorte.
Ce test est uniquement une démonstration, ne prétendant absolument pas être le premier à émettre cette hypothèse. D’autres sources ont peut-être expliqué la situation avant moi, mais je focalise plutôt sur la voie officielle de Google, au travers de son ingénieur superstar Matt Cutts, qui affirme que le moteur ne suit pas les liens en nofollow.
A quoi ça sert de savoir que GoogleBot suit les liens en nofollow ?
L’application la plus évidente suggère qu’il ne faut surtout pas compter sur le nofollow pour protéger un lien. Si jamais vous ne voulez pas que le moteur visite une page, ce n’est pas avec ce système qu’il faille procéder.
Concernant l’apport de popularité, je ne crois pas que le lien en nofollow ait un impact. Par contre, il n’y a pas que le PageRank qui importe puisque différents types de popularité sont envisageables. Du coup, le lien en nofollow peut tout à fait transmettre quelque chose d’autre que des visiteurs. N’ayant pas de preuves pour expliquer plus en avant cette notion, je préfère ne pas en dire plus. Par contre, je me suis toujours fié à mon instinct à propos de Google et il ne m’a jamais trompé.
L’idée principale que je voudrais suggérer est que l’aversion pour l’attribut nofollow doit se contenir à la réalité. C’est-à-dire qu’il ne faut pas croire qu’un lien en nofollow implique que Google ne sera jamais au courant de l’existence du lien ou de la page vers lequel il pointe. Ce que Google fait ensuite de cette information sera impossible à déceler puisque c’est bien enfoui dans son algorithme.
Crawler n’est pas indexer
L’indexation de la page cible n’a pas fait partie du test , donc je mentionne seulement qu’elle s’est rapidement indexée au sein des résultats de recherche (visible en tapant site :monsite.com).
Sur un autre plan, je voulais aborder le manque de compréhension à propos de ce qui se trame réellement à l’intérieur de Google. Pour résumer, le robot d’indexation passe sur la page et va la ressortir en fonction des requêtes tapées par l’internaute. Ce qui n’est pas évident concerne tout ce qui se passe entre le moment où GoogleBot crawle la page et la milliseconde qui précéde l’affichage des résultats de recherche. Entre ces deux phases, il se déroule un grand nombre d’opérations qui nous sont totalement opaques. Mes seules éléments d’observation concernent les pages mises en ligne et les résultats de recherche. Afin de comprendre comment le référencement, il faut admettre que l’affichage des résultats de recherche n’est pas une représentation directe de l’index. Au sein de ces résultats, Google nous distille seulement ce qu’il veut bien nous montrer, mais cela ne démontre en aucun cas qu’il affiche tout ce qui est contenu dans l’index.
Les foutaises du reverse engineering
Ainsi, j’ai toujours décrié les notions de « reverse engineering » se rapportant à Google. Arriver à comprendre le fonctionnement de l’algorithme du moteur à partir de l’analyse des résultats de recherche présente d’énormes limitations liées à ce que je viens d’expliquer précédemment Trop souvent, je croise des pseudos théories qui s’apparentent au fantasme car elles poussent trop loin l’analyse par rapport aux observations des résultats de recherche.
Cela n’empêche pas d’émettre d’émettre des trouvailles qui visent à améliorer notre compréhension du référencement, mais il est vital de savoir poser les bonnes limites. Régulièrement, le Web s’enflamme à propos de simili découvertes qui ne sont rien de plus que des légendes urbaines. Le PageRank Google a souvent été la victime de ces hallucinations que le moteur de recherche n’est pas le dernier à alimenter la promotion. Bien entendu, j’adore émettre des hypothèses qui vont plus loin que la raison ne le permet. Sauf que je ne trouve pas intéressant de les propager au-delà du cercle d’initiés qui comprennent parfaitement la portée de ces hypothèses. Il n’est pas sain de la part de certaines personnes influentes de lancer des hypothèses sous la forme d’affirmation. Par exemple, dans le cadre de ce post, je me permets de partager le test, mais je ne vais pas délirer outre mesure. Même si j’ai mes propres convictions à propos de l’interprétation des liens suivis par Google, il n’est pas souhaitable de les développer outre mesure en public.
Parmi les légendes urbaines majeurs du référencement qui m’ont fortement agacées, je cite le TrustRank Google. Le cas du nofollow est sensiblement différent puisqu’il s’agit plutôt de mensonges et de manque de transparence dont j’accuse Google. Cependant, le moteur de recherche est passé maître dans l’art de laisser le petit monde du référencement s’engager sur des fausses pistes.
Finalement, le nofollow revient dans la face de Google autrement qu’il avait prévu. La preuve en est cette annonce par Matt Cutts qui vise à décourager la de pratique du PageRank sculpting. Le suivi des liens en nofollow est simplement à mettre sur le compte des nombreuses déceptions à propos de la transparence chez Google vis-à-vis des webmasters. Au travers de divers effets d’annonce, le moteur fait semblent de communiquer, tandis qu’il demeure parfaitement opaque. En fait, il agit tout comme les webmasters le dérangent, oubliant peut-être que c’est sur le dos de nos pages qu’il se fait des montagnes de fric et qu’il domine la planète virtuelle.