Le Google Panda transformé en Godzilla

L'update d'algorithme Panda par Google

Le dernier update d’algorithme Google est au centre des discussions en ce moment. Surnommée « Panda » ou « Farmer’s update », cette mise-à-jour est censée cibler les sites de mauvaise « qualité ».

Maintenant, la seule question que je pose se rapporte à la notion de qualité pour un site Web. C’est déjà impossible de rassembler un consensus autour de cette notion pour des humains, alors un algorithme peut-il vraiment juger de la qualité pour un site Web ?

L’update qui vient du buzz

Tout a commencé fin 2009 avec des articles sur Wired , suivis par le New York Times et bien d’autres pour dénonçer le modèle économique de Demand Media, éditeur américain sites Web qualifiés de fermes à contenu dont la plus connue est eHow.com. Plus près de nous, il y a l’italien Populis, qui dépote des dizaines de milliers de pages chaque mois, revendiquant un chiffre d’affaires de 58 millions d’euros pour 2010. Ces sites ciblent les demandes des internautes, par le biais de tutoriels basiques et articles informatifs, pour ensuite racoler vers des publicités. Les articles sont l’œuvre de rédacteurs payés une misère – genre 5$ la page plus 25% des revenus issus des clics publicitaires. Un exemple parmi tant d’autres avec la page d’eHow qui cible toutes les co-occurrences imaginables autour de la demande en ligne pour une carte de crédit.

Tout s’est accéléré cet été avec l’annonce de l’entrée en Bourse pour Demand Media. Cela donnait une vision des possibilités de revenus en glanant une manne de trafic gratuite par le biais des résultats de recherche Google.  Bien entendu, ça peut choquer n’importe quel entrepreneur qui trime pour faire tourner sa boutique. Du côté des journalistes libéraux et autres blogueurs donneurs de leçons, c’est carrément outrageant. Quelle honte de publier du contenu basique qui récolte du trafic gratuit, pour ensuite gagner des millions de dollars via les pubs !

Maintenant que Larry Page reprend le poste de CEO à Eric Schmidt, tout ce bruit autour des fermes de contenu commençait à sérieusement faire tâche. D’autant plus qu’un petit moteur alternatif du nom de Blekko en a rajouté une couche sur la  « pollution » des résultats de recherche Google.

Le Panda de Google s'est métamorphosé en GodzillaC’est ainsi que l’équipe du Search s’est attelé à dézinguer les sites clamés comme étant de mauvaise qualité. En premier, les scrapers sont ciblés par un update plus ou moins boiteux, puis les fermes de contenu sont traînées sur l’échafaud. Aujourd’hui, le Panda est lâché dans l’index tel Godzilla dans la ville de Tokyo, éliminant sans sommation des sites qui ont eu le culot d’utiliser les résultats de recherche Google comme racoleur pour gagner de l’argent.

Je ne me fais pas trop de soucis pour les Black Hat SEO qui vont certainement réussir à élever suffisamment le niveau des techniques de scraping, spinning et autre manipulation du contenu. Ce qui m’inquiète beaucoup plus concerne les critères jaugeant de la sacro-sainte qualité d’un contenu ou d’un site Web de manière générale. Selon les sources, ça serait en 10 et 40% de sites qui sont touchés par le Panda vengeur.

Comment jauger la qualité ?

D’après les premiers retours, les signaux qui permettent de jauger la qualité d’un site n’ont pas grand-chose à voir avec le niveau éditorial. D’ailleurs, comment juger de la qualité d’un contenu ? Un algorithme pourrait-il décider si un texte est au niveau du prix Pulitzer ou Goncourt ? Pourtant, c’est bien le contenu roi qui est mis sur la balance.

En plus, si on voulait vraiment dégager le contenu qui n’est pas digne de figurer au Panthéon éditorial, il ne resterait pas tripette en ligne.

Dans un certain sens, un tutoriel sur eHow n’a rien à envier à un billet de blog ou à une actualité « AFP Rewriting ». Les ayatollah du contenu peuvent bien expliquer dans tous les sens qu’un article sur une ferme de contenu n’est pas « qualitatif », il n’en demeure pas moins que sur le plan sémantique, contenu dupliqué, etc. les publications sont tout à fait valables.

Même si je n’approuve pas forcément le concept des fermes de contenu, je ne vois pas en quoi elles n’ont pas leurs places dans les résultats de recherche Google. Puis, qui va répondre aux questions triviales qui fleurissaient sur les pages d’eHow, About et compagnie ? Pour extrapoler, la ferme de contenu remplit un rôle social. Sinon, qui d’autre pour savoir comment nouer des lacets ou demander une carte de crédit en ligne ? Même Wikipedia contient des pages qui ne sont même pas au niveau de eHow et pourtant l’encyclopédie demeure au firmament des résultats de recherche. Ah oui, c’est vrai qu’il n’y a pas de publicités sur Wikipedia…

C’est encore pire pour Yahoo Answers ou d’autres, dont la ligne éditoriale est plus mince qu’un papyrus.

Bien sûr, dans un monde parfait, Google ne serait pas le Grand Ordonnateur du Web et personne ne trémousserait à l’annonce d’un update.

Sauf que nous ne vivons pas dans un monde parfait et encore moins dans un Web idéal.

Les signaux techniques qui permettent d’identifier un site soi-disant de mauvaise qualité suggèrent de grandes possibilités pour engendrer des dommages collatéraux.

Le premier signal qui me dérange concerne les publicités. Il paraît qu’un site truffé de pubs est de mauvaise qualité, mais on en revient toujours à ce même tabou stupide qui veut que ça soit malsain de gagner du fric sur Internet. D’autres signaux me laissent encore plus dubitatif comme le taux de rebond élevé, la suroptimisation « on page », pas de noms d’auteurs, maillage interne renforcé, faible participation des internautes, etc. Bref, pleins d’éléments qui n’ont absolument rien à voir avec les critères qualitatifs purs.

Plus d’infos sur le dossier spécial Détection des Fermes de Contenu par Olivier Duffez.

Demand Media et d’autres éditeurs dévergondés ont vu plonger le trafic Google, mais le petit webmaster malin qui se régalait des miettes picorées avec des MFA se retrouve également sur la sellette. Ne parlons même pas des agrégateurs, comparateurs et autres sites au contenu unique maigre qui sont déstabilisés. Pourtant, il est tout à fait possible de générer du contenu dupliqué très intéressant. La qualité n’est pas forcément synonyme de contenu unique.

Profiteur, mais pas tricheur

J’aurais pu faire un billet technique sur l’analyse automatique de contenu, mais le coup de gueule est remonté avant le reste.

Cela dit, le point principal à relever concerne la difficulté pour un algorithme pour détecter et trier les sentiments ou même remarquer des tendances. A l’échelle d’un moteur de recherche comme Google, les algorithmes sont sophistiqués et stupides à la fois. Dans tous les cas, le moteur ne comprend toujours pas ce qu’il lit et ça ne risque pas de changer bientôt. La bande à Matt Cutts peut glousser d’avoir effectué un grand nettoyage dans les résultats de recherche, sauf que c’est très éloigné du spam ou tout du moins du non respect des guidelines Google. C’est pour cela que ça me dérange vraiment. Les fermes de contenu sont des profiteurs, mais elles ne trichent pas.

Après chaque update, je reçois une forte augmentation de demandes par des propriétaires de sites Web qui ont brutalement perdu tout leur trafic Google. Nous arrivons toujours à rétablir la situation, mais une pénalité, un filtre ou un blacklistage ne se soignent pas rapidement.

Pour l’instant, c’est le calme plat car Panda se déchaîne sur les sites anglophones. Le problème principal est qu’on ne possède pas vraiment de visibilité sur les solutions pour contrer cet update. J’espère qu’on y verra plus clair lorsque la torche du mangeur de bambou enflammera le Web francophone, mais la tâche est ardue lorsqu’on est pris dans le Triangle des Bermudes d’un effet de bord ou dommage collatéral d’update. Le thread du forum Google Webmaster Central dédié aux effets de bord du Panda s’allonge comme le nez de Pinocchio au fur est à mesure que les sites, qui pensent n’avoir rien à se reprocher, tombent sur le champ de bataille.

Le Far West virtuel

Cette chasse aux « profiteurs » qui publient du contenu de « mauvaise qualité »  me dérange vraiment. Pour le journaliste du New York Times ou le blogueur geek, le tutoriel pour apprendre à cuire les spaghettis est peut-être de la pollution. Sauf que tout est relatif car ce contenu trouve forcément de l’intérêt quelque part, sinon le modèle économique vanté par les éditeurs ne sera pas valable. C’est toujours le même problème depuis qu’Internet existe et même avant lui pour n’importe quel médian. En clair, c’est pêché de gagner du fric sur le Web et c’est un sacrilège d’abuser du sacro-saint contenu, tout en profitant d’un trafic gratuit.

Fondamentalement, c’était peut-être un bon concept lorsque j’ai fait mes premiers balbutiements sur Internet au début des années 90, mais aujourd’hui c’est une saloperie d’utopie; voire même un raisonnement réactionnaire qui ne vaut pas mieux que la bouse sortie du cul d’une vache.

La symbolique des fermes de contenu est guillotinée, entraînant dans sa chute des wagons de sites qui avaient pour seule prétention de gagner 3 sous sur le Web. J’ai bien profité du Far West virtuel avec Adsense ou l’affiliation, mais je suis rassuré de m’être retiré de ce modèle économique.

La simple vérité est que c’est pêché de gagner du fric en ligne !

Ce n’est pas concevable de profiter d’un système simple comme coller des pubs sur des pages de contenu sans prétention. Les mêmes fervents dénonciateurs du profit malsain des fermes de contenu sont bien entendu défenseurs de la liberté d’expression. Il y a juste quand l’argent se colle au milieu que ça pose problème.

Le Far West virtuel ou comment gagner de l'argent sur le WebExactement comme au Far West, les premiers à trouver un filon n’ont qu’à se baisser pour ramasser les pépites. Ensuite, il faut creuser plus profond ou partir ailleurs, sur un autre filon. Personnellement, je remercie mon instinct pour faire partie de ceux qui vont voir ailleurs après avoir bien profité d’un filon.
Après les premiers chercheurs d’or, c’est le tour des grosses sociétés de venir exploiter les filons à coups de bulldozers et dynamite pour remplacer la pioche et le tamis. Bien entendu, ces grosses compagnies dégagent les petits chercheurs d’or à coups de Smith et Wesson et expropriation.

Pour terminer, je laisse la parole à notre Texan SEO préféré, qui donne une autre approche sur la qualité du contenu.

Merci à Philippe, mon spécialiste préféré de la rédaction Web pour la correction des coquilles.