Hier, je suivais la conférence PubCon où Matt Cutts et Vanessa Fox auditaient des sites Web en direct.

Comme de nombreux autres référenceurs, j’ai fait un bond lorsque Matt Cutts a clamé que l’interdiction de crawl par archives.org remontait une alerte rouge pour forte probabilité de spam par Google. Ce détail ajoute à une perspective plus grande qui concerne la manière dont Google combat le spam et son dictat qui commence sérieusement à nous chauffer les oreilles.

L’incident Archive.org durant PubCon

Pour ceux qui ne connaissent pas Archive.org, il enregistre les versions d’un site au travers du temps. Les spammeurs ne souhaitent pas y figurer puisque ça pourrait afficher les saloperies qu’ils font bouffer aux moteurs de recherche et aux internautes.

D’un autre côté, il existe une multitude de raisons légitimes pour bloquer Archive.org :

Protection de mes données car Archive.org est tout simplement un voleur de contenu.
Ne pas montrer des versions précédentes du site car il est parfois embarrassant de voir à quoi ressemblait un site à ses débuts ou tout simplement parce que le site est en développement.
Si je change la thématique d’un site rattaché à un nom de domaine, il est souhaitable que l’historique ne remonte pas (j’ai personnellement le cas actuellement)

En lire plus à propos de l’incident PubCon chez

SEO Theory (bonne explication sur les mythes Google et son dictat)
Pink SEO (focalise sur le blocage Archive.org)
SEOMoz couverture PubCon
Seroundtable Organice Focus (contient l’intervention de Matt Cutts) et couverture Live de PubCon

L’impuissance de Google devant le spam

Depuis le temps que je’observe Matt Cutts, alors qu’il était encore GoogleGuy, j’ai appris à lire entre les lignes de ses propos. En effet, ce n’est pas ce qu’il dit qui importe le plus souvent car c’est d’une banalité affligeante, mais plutôt comment il le dit et ce qu’il ne dit pas. En gros, il y a deux solutions :

Matt Cutts n’y connaît pas grand chose
Matt Cutts cache bien son jeu

Le nofollow : aveu d’impuissance

Aujourd’hui, ça devient assez lourd de subir le dictat de ce moteur de recherche. L’exemple le plus désastreux concerne le nofollow qui a tout simplement bousillé le référencement organique. Vous pouvez créer le meilleur contenu du monde, mais il ne sera pas plus lié comme avant puisqu’il n’y a plus un transfert de popularité adéquat. En d’autres termes, un internaute va citer spontanément votre page Web au sein d’une conversation de forum, blog ou réseau social, mais ce lien ne vaudra rien au niveau de la popularité, principalement alliée au PageRank (sans parler de Twitter qui a achevé d’enterrer le backlink). La capote du Web ou attribut nofollow est désormais partout et surtout là où il ne faut pas. Par exemple, à la suite d’un concours de référencement au cours duquel les participants venaient poser leurs liens sur une poignée de pages Wikipedia, c’est l’encyclopédie en ligne complète qui s’est équipée de liens sortants nofollowisés. Autre exemple qui m’agace est le fabuleux script de blogging WordPress configurant par défaut les liens dans les commentaires en nofollow. Et on pourrait citer tant d’autres exemples où le nofollow est présent, alors qu’il est possible de maîtriser le contenu d’une autre manière. Pour rappel, les sites qui utilisent le nofollow prouvent leur incapacité à maîtriser leur propre contenu. Celui qui n’est pas capable de trier les commentaires de son blog doit fermer les commentaires ou arrêter de bloguer. Ce n’est pas la peine d’imposer un nofollow quand on gère les commentaires ou alors c’est par radinerie du Link Juice et c’est encore plus détestable.

En juin 2009, Google a avoué son impuissance et son erreur sur le sujet du nofollow par le biais de l’annonce par Matt Cutts à propos de la pseudo fin du PageRank Sculpting. Ils ont lâché le nofollow sur le Web pour qu’un retour de bâton ne se fasse pas attendre. Maintenant, il est trop tard car cette verrue est trop répandue.

Où en est le combat de Google contre le spam ?

Le problème à propos du blocage de Archive.org par le biais du robots.txt peut paraître anodin à certains, mais c’est en lisant entre les lignes qu’on remarque toute la portée de cet incident.

Désormais, tout porte à croire que Google ne maîtrise absolument pas le sujet du combat contre le spam. La manière dont Matt Cutts a réagit à propos de ce paramètre lors de PubCon ne suggère pas ou ne n’implique pas, mais plutôt démontre directement que ce paramètre amène immédiatement le site dans une zone peu enviable. Ce n’est pas un paramètre d’alerte parmi tant d’autres, mais bien une alerte majeure qui va éveiller les plus gros soupçons. Quand Matt Cutts dit « it’s a huge Red Flag » (c’est une énorme alerte rouge), il faut bien comprendre qu’il s’agit d’un paramètre majeur, nécessitant de lire entre les lignes. J’en déduis que c’est à ce niveau de détection que Google stagne pour déclencher des alertes majeures. La console de Matt Cutts n’est finalement peut-être pas si impressionnante que ça?

Un peu plus tard, Matt Cutts a tenté de dédouaner son intervention via Twitter en expliquant que c’est dans le cadre où un site est suspecté qu’il va remarquer le blocage archive.org. Sauf que ce n’est pas du tout ce qui s’est passé lors de PubCon. Je ne crois pas une seconde que l’analyse aussi facile d’un tel paramètre est impliquée dans un deuxième niveau de vérification. Même si c’est le cas, le problème reste identique par rapport à l’opacité de Google.

Pourquoi c’est grave ?

C’est grave car (en partant du principe que je n’ai rien à me reprocher), il est évident que je n’ai pas du tout envie que Google vienne fouiner sur mon site pour trouver quelque chose qui ne va pas. C’est exactement comme le principe de la Garde à Vue où je peux être séquestré simplement parce que je suis témoin d’un crime. Voilà un sentiment malsain d’impuissance contre une suspicion injuste. Il y a aucun dialogue possible avec Google, mis à part lorsque le mal est déjà fait avec le site blacklisté c.a.d sorti de l’index. C’est alors qu’il faut passer par la fameuse Reinclusion Request et attendre vaillamment une réponse automatique, puis insister lourdement pour enfin enchaîner sur un dialogue de sourds. Pour peu que vous soyez effectivement coupables d’effraction envers les Webmaster Guidelines, le processus peut s’avérer très long.

Ainsi, il est demandé de suivre des règles inconnues, sachant que des paramètres flous peuvent déclencher une suspicion, alors que l’intention première n’était pas forcément de spammer. Nous sommes accusés par défaut d’être ignorant de règles qui nous sont inconnues. Car si vous reposez votre stratégie sur les Google Webmaster Guidelines, il apparaît que tous les paramètres à respecter n’y figurent pas. En tout cas, je vois Archive.org nulle part. Étonnant de remarquer son absence pour un énorme paramètre d’après Matt Cutts.

Dans le cadre d’un site pénalisé; c’est à dire relégué au fin fond de l’index, mais pas exclu, vous pouvez toujours vous atteler à contacter Google afin d’obtenir une explication. Pourtant, j’ai vu des sites pénalisés pendant plus d’un an pour qu’ils remontent miraculeusement sans avoir effectué de modifications majeures et surtout sans avoir compris d’où venait la pénalité. J’ai encore une exemple personnel où le site que j’ai vendu est tombé trois semaines après le transfert pour remonter dix mois plus tard. Impossible de savoir pourquoi le site est tombé et encore moins pourquoi le site est remonté. Pendant ce temps, le chiffre d’affaire est tombé à zéro…

Les mythes à propos du référencement Google sont trop nombreux et flous pour que j’en parle sur ce billet, mais la vaste majorité des webmasters ne savent absolument pas à quoi s’en tenir sur de nombreux sujets. Par exemple: contenu dupliqué, intérêt du pagerank, notion du trustrank, regoupement d’IPs, redirections, etc.

Nous sommes des idiots pataugeant au milieu d’un moteur idiot

Maintenant, j’arrive au cœur de mon propos qui reprend cet exemple du blocage de Archive.org dans le Robots.txt. Nous apprenons par le biais d’une couverture en direct de la conférence PubCon qu’il est totalement déconseillé d’opérer une interdiction de crawl d’Archive.org. Il faut vraiment le vouloir pour être au courant de cette information. A la limite, on s’en fout complètement de archive.org qui n’a d’intérêt que parce que Matt Cutts vient d’en parler, mais ça démontre comment les règles de Google sont bien trop opaques pour qu’on puisse travailler sereinement.

Il est scandaleux de laisser les responsables de sites Web dans l’ignorance totale. Comme je disais dans mon billet précédent, nous jouons au poker sans connaître les règles qui sont modifiées sans nous avertir. Ou alors Google nous averti, mais ne dit pas exactement de quoi il en retourne (par exemple avec la mise à jour Caféine ).
Mon travail consiste à auditer des sites Internet pour optimiser le référencement. J’observe donc tous les jours des problèmes qui pourraient s’apparenter à de la triche, mais qui ne sont absolument mis en place afin de vouloir biaiser les moteurs.

Sans parler de l’opacité du programme Adsense ou Adwords dans lequel il est tout de même question de sous –de gros sous- et sur lesquels nous disposons d’une compréhension très limitée.

Tout cela m’amène à la simple conclusion que Google et Matt Cutts en particulier pataugent totalement dans la choucroute à propos du combat contre le spam. Il suffit de s’intéresser au référencement Black Hat pour observer que les nouvelles bidouilles sont ingénieuses, mais elles reposent sur des bases anciennes. Bien sûr, les principes restent identiques : générer et cacher du contenu, acquérir des liens, faire descendre les concurrents. Par contre, les bidouilles évoluent plutôt par rapport au progrès technique que par rapport aux éventuels filtres qui pourraient entraver la route d’un site Black Hat.
Pour parler simplement et clairement: Google ne fait pas peur aux spammeurs et c’est bien là le fond du problème.

Ainsi, malgré le fait que Matt Cutts semble être une personne très sympathique, il est fort possible qu’au final, il capte beaucoup moins qu’on le pense, éludant l’option qu’il cache habilement son jeu.

Google nous prend pour des idiots, tout en avouant qu’il est idiot. Sauf qu’il impose des paramètres qui sortent de sa juridiction. Sa pseudo communication est un affront plutôt qu’un progrès.

Vaut mieux rire

Pour finir, observez dans la vidéo suivante, la manière dont Eric Schmidt, CEO de Google, répond au journaliste à la question : « comment je sais que Google enlève le contenu que je souhaite ? ». Il répond « parce qu’on vous dit qu’on le fait », puis grand éclat de rire.
En plus, montrez moi comment on enlève une information à mon sujet qui me déplait. Non seulement il ment, mais en plus il se moque de nous. Ou alors, lui non plus ne sait pas de quoi il parle…

Avertissement aux incrédules

Pour ceux qui ne trouvent rien à redire sur les agissements de Google, n’oubliez pas que cette compagnie est en train de dominer la planète. Ne pas laisser faire n’importe quoi est notre devoir. C’est encore plus indispensable quand mes revenus dépendent directement de ce moteur de recherche. Nous avons trop peu de moyens pour surveiller Google car c’est une société privée, mais laisser le monde à la merci d’une telle entité est dangereux.

Note : je suis désolé si ce billet est un peu désorganisé, mais il est possible d’écrire un épais livre sur ce sujet. Ayant juste posé mes pensées en vrac, j’ai beaucoup raccourci à la relecture, mais je n’ai pas trouvé comment mieux l’organiser.