Google peut-il combattre le spam ?

52 commentaires / Moteurs de recherche / Par Laurent / 13 novembre 2009

Hier, je suivais la conférence PubCon où Matt Cutts et Vanessa Fox auditaient des sites Web en direct.

Comme de nombreux autres référenceurs, j’ai fait un bond lorsque Matt Cutts a clamé que l’interdiction de crawl par archives.org remontait une alerte rouge pour forte probabilité de spam par Google. Ce détail ajoute à une perspective plus grande qui concerne la manière dont Google combat le spam et son dictat qui commence sérieusement à nous chauffer les oreilles.

L’incident Archive.org durant PubCon

Pour ceux qui ne connaissent pas Archive.org, il enregistre les versions d’un site au travers du temps. Les spammeurs ne souhaitent pas y figurer puisque ça pourrait afficher les saloperies qu’ils font bouffer aux moteurs de recherche et aux internautes.

D’un autre côté, il existe une multitude de raisons légitimes pour bloquer Archive.org :

Protection de mes données car Archive.org est tout simplement un voleur de contenu.
Ne pas montrer des versions précédentes du site car il est parfois embarrassant de voir à quoi ressemblait un site à ses débuts ou tout simplement parce que le site est en développement.
Si je change la thématique d’un site rattaché à un nom de domaine, il est souhaitable que l’historique ne remonte pas (j’ai personnellement le cas actuellement)

En lire plus à propos de l’incident PubCon chez

SEO Theory (bonne explication sur les mythes Google et son dictat)
Pink SEO (focalise sur le blocage Archive.org)
SEOMoz couverture PubCon
Seroundtable Organice Focus (contient l’intervention de Matt Cutts) et couverture Live de PubCon

L’impuissance de Google devant le spam

Depuis le temps que je’observe Matt Cutts, alors qu’il était encore GoogleGuy, j’ai appris à lire entre les lignes de ses propos. En effet, ce n’est pas ce qu’il dit qui importe le plus souvent car c’est d’une banalité affligeante, mais plutôt comment il le dit et ce qu’il ne dit pas. En gros, il y a deux solutions :

Matt Cutts n’y connaît pas grand chose
Matt Cutts cache bien son jeu

Le nofollow : aveu d’impuissance

Aujourd’hui, ça devient assez lourd de subir le dictat de ce moteur de recherche. L’exemple le plus désastreux concerne le nofollow qui a tout simplement bousillé le référencement organique. Vous pouvez créer le meilleur contenu du monde, mais il ne sera pas plus lié comme avant puisqu’il n’y a plus un transfert de popularité adéquat. En d’autres termes, un internaute va citer spontanément votre page Web au sein d’une conversation de forum, blog ou réseau social, mais ce lien ne vaudra rien au niveau de la popularité, principalement alliée au PageRank (sans parler de Twitter qui a achevé d’enterrer le backlink). La capote du Web ou attribut nofollow est désormais partout et surtout là où il ne faut pas. Par exemple, à la suite d’un concours de référencement au cours duquel les participants venaient poser leurs liens sur une poignée de pages Wikipedia, c’est l’encyclopédie en ligne complète qui s’est équipée de liens sortants nofollowisés. Autre exemple qui m’agace est le fabuleux script de blogging WordPress configurant par défaut les liens dans les commentaires en nofollow. Et on pourrait citer tant d’autres exemples où le nofollow est présent, alors qu’il est possible de maîtriser le contenu d’une autre manière. Pour rappel, les sites qui utilisent le nofollow prouvent leur incapacité à maîtriser leur propre contenu. Celui qui n’est pas capable de trier les commentaires de son blog doit fermer les commentaires ou arrêter de bloguer. Ce n’est pas la peine d’imposer un nofollow quand on gère les commentaires ou alors c’est par radinerie du Link Juice et c’est encore plus détestable.

En juin 2009, Google a avoué son impuissance et son erreur sur le sujet du nofollow par le biais de l’annonce par Matt Cutts à propos de la pseudo fin du PageRank Sculpting. Ils ont lâché le nofollow sur le Web pour qu’un retour de bâton ne se fasse pas attendre. Maintenant, il est trop tard car cette verrue est trop répandue.

Où en est le combat de Google contre le spam ?

Le problème à propos du blocage de Archive.org par le biais du robots.txt peut paraître anodin à certains, mais c’est en lisant entre les lignes qu’on remarque toute la portée de cet incident.

Désormais, tout porte à croire que Google ne maîtrise absolument pas le sujet du combat contre le spam. La manière dont Matt Cutts a réagit à propos de ce paramètre lors de PubCon ne suggère pas ou ne n’implique pas, mais plutôt démontre directement que ce paramètre amène immédiatement le site dans une zone peu enviable. Ce n’est pas un paramètre d’alerte parmi tant d’autres, mais bien une alerte majeure qui va éveiller les plus gros soupçons. Quand Matt Cutts dit « it’s a huge Red Flag » (c’est une énorme alerte rouge), il faut bien comprendre qu’il s’agit d’un paramètre majeur, nécessitant de lire entre les lignes. J’en déduis que c’est à ce niveau de détection que Google stagne pour déclencher des alertes majeures. La console de Matt Cutts n’est finalement peut-être pas si impressionnante que ça?

Un peu plus tard, Matt Cutts a tenté de dédouaner son intervention via Twitter en expliquant que c’est dans le cadre où un site est suspecté qu’il va remarquer le blocage archive.org. Sauf que ce n’est pas du tout ce qui s’est passé lors de PubCon. Je ne crois pas une seconde que l’analyse aussi facile d’un tel paramètre est impliquée dans un deuxième niveau de vérification. Même si c’est le cas, le problème reste identique par rapport à l’opacité de Google.

Pourquoi c’est grave ?

C’est grave car (en partant du principe que je n’ai rien à me reprocher), il est évident que je n’ai pas du tout envie que Google vienne fouiner sur mon site pour trouver quelque chose qui ne va pas. C’est exactement comme le principe de la Garde à Vue où je peux être séquestré simplement parce que je suis témoin d’un crime. Voilà un sentiment malsain d’impuissance contre une suspicion injuste. Il y a aucun dialogue possible avec Google, mis à part lorsque le mal est déjà fait avec le site blacklisté c.a.d sorti de l’index. C’est alors qu’il faut passer par la fameuse Reinclusion Request et attendre vaillamment une réponse automatique, puis insister lourdement pour enfin enchaîner sur un dialogue de sourds. Pour peu que vous soyez effectivement coupables d’effraction envers les Webmaster Guidelines, le processus peut s’avérer très long.

Ainsi, il est demandé de suivre des règles inconnues, sachant que des paramètres flous peuvent déclencher une suspicion, alors que l’intention première n’était pas forcément de spammer. Nous sommes accusés par défaut d’être ignorant de règles qui nous sont inconnues. Car si vous reposez votre stratégie sur les Google Webmaster Guidelines, il apparaît que tous les paramètres à respecter n’y figurent pas. En tout cas, je vois Archive.org nulle part. Étonnant de remarquer son absence pour un énorme paramètre d’après Matt Cutts.

Dans le cadre d’un site pénalisé; c’est à dire relégué au fin fond de l’index, mais pas exclu, vous pouvez toujours vous atteler à contacter Google afin d’obtenir une explication. Pourtant, j’ai vu des sites pénalisés pendant plus d’un an pour qu’ils remontent miraculeusement sans avoir effectué de modifications majeures et surtout sans avoir compris d’où venait la pénalité. J’ai encore une exemple personnel où le site que j’ai vendu est tombé trois semaines après le transfert pour remonter dix mois plus tard. Impossible de savoir pourquoi le site est tombé et encore moins pourquoi le site est remonté. Pendant ce temps, le chiffre d’affaire est tombé à zéro…

Les mythes à propos du référencement Google sont trop nombreux et flous pour que j’en parle sur ce billet, mais la vaste majorité des webmasters ne savent absolument pas à quoi s’en tenir sur de nombreux sujets. Par exemple: contenu dupliqué, intérêt du pagerank, notion du trustrank, regoupement d’IPs, redirections, etc.

Nous sommes des idiots pataugeant au milieu d’un moteur idiot

Maintenant, j’arrive au cœur de mon propos qui reprend cet exemple du blocage de Archive.org dans le Robots.txt. Nous apprenons par le biais d’une couverture en direct de la conférence PubCon qu’il est totalement déconseillé d’opérer une interdiction de crawl d’Archive.org. Il faut vraiment le vouloir pour être au courant de cette information. A la limite, on s’en fout complètement de archive.org qui n’a d’intérêt que parce que Matt Cutts vient d’en parler, mais ça démontre comment les règles de Google sont bien trop opaques pour qu’on puisse travailler sereinement.

Il est scandaleux de laisser les responsables de sites Web dans l’ignorance totale. Comme je disais dans mon billet précédent, nous jouons au poker sans connaître les règles qui sont modifiées sans nous avertir. Ou alors Google nous averti, mais ne dit pas exactement de quoi il en retourne (par exemple avec la mise à jour Caféine ).
Mon travail consiste à auditer des sites Internet pour optimiser le référencement. J’observe donc tous les jours des problèmes qui pourraient s’apparenter à de la triche, mais qui ne sont absolument mis en place afin de vouloir biaiser les moteurs.

Sans parler de l’opacité du programme Adsense ou Adwords dans lequel il est tout de même question de sous –de gros sous- et sur lesquels nous disposons d’une compréhension très limitée.

Tout cela m’amène à la simple conclusion que Google et Matt Cutts en particulier pataugent totalement dans la choucroute à propos du combat contre le spam. Il suffit de s’intéresser au référencement Black Hat pour observer que les nouvelles bidouilles sont ingénieuses, mais elles reposent sur des bases anciennes. Bien sûr, les principes restent identiques : générer et cacher du contenu, acquérir des liens, faire descendre les concurrents. Par contre, les bidouilles évoluent plutôt par rapport au progrès technique que par rapport aux éventuels filtres qui pourraient entraver la route d’un site Black Hat.
Pour parler simplement et clairement: Google ne fait pas peur aux spammeurs et c’est bien là le fond du problème.

Ainsi, malgré le fait que Matt Cutts semble être une personne très sympathique, il est fort possible qu’au final, il capte beaucoup moins qu’on le pense, éludant l’option qu’il cache habilement son jeu.

Google nous prend pour des idiots, tout en avouant qu’il est idiot. Sauf qu’il impose des paramètres qui sortent de sa juridiction. Sa pseudo communication est un affront plutôt qu’un progrès.

Vaut mieux rire

Pour finir, observez dans la vidéo suivante, la manière dont Eric Schmidt, CEO de Google, répond au journaliste à la question : « comment je sais que Google enlève le contenu que je souhaite ? ». Il répond « parce qu’on vous dit qu’on le fait », puis grand éclat de rire.
En plus, montrez moi comment on enlève une information à mon sujet qui me déplait. Non seulement il ment, mais en plus il se moque de nous. Ou alors, lui non plus ne sait pas de quoi il parle…

Avertissement aux incrédules

Pour ceux qui ne trouvent rien à redire sur les agissements de Google, n’oubliez pas que cette compagnie est en train de dominer la planète. Ne pas laisser faire n’importe quoi est notre devoir. C’est encore plus indispensable quand mes revenus dépendent directement de ce moteur de recherche. Nous avons trop peu de moyens pour surveiller Google car c’est une société privée, mais laisser le monde à la merci d’une telle entité est dangereux.

Note : je suis désolé si ce billet est un peu désorganisé, mais il est possible d’écrire un épais livre sur ce sujet. Ayant juste posé mes pensées en vrac, j’ai beaucoup raccourci à la relecture, mais je n’ai pas trouvé comment mieux l’organiser.

52 réflexions sur “Google peut-il combattre le spam ?”

DanielM
13 novembre 2009 à 16 h 43 min

Désolé, mais vous parlez chinois pour moi!
C’est quoi un nofollow et qu’est ce que ce machin sur archives.org vient faire dans un robots.txt dont je ne sais même pas qu’il existe ?
Bref, c’est totalement obscur, mais j’ai bien apprécié votre style et la qualité de certains articles de votre blog. Je post seulement ce commentaire ici car c’est ma dernière lecture.

Merci
Bien à vous
Boris
13 novembre 2009 à 16 h 45 min

C’est vraiment un TRES bon article Laurent (on voit que ça venait du cœur!) Tu touches vraiment au nerf du problème avec GG là. Malheureusement aucune solution en vue à tout ce que tu dénonces.
BaN
13 novembre 2009 à 16 h 46 min

On est dans la même situation qu’il y a quelques ~~années~~ mois avec les navigateurs et l’hégémonie d’internet explorer : il faut de toute urgence un concurrent à Google ! Pas pour le remplacer mais pour offrir une alternative, mettre en place des standards, des règles communes etc… bref tout ce qui a été fait pour les navigateurs.
AxeNet
13 novembre 2009 à 17 h 04 min

Je n’avais pas relevé le coté « huge red flag », mais maintenant que tu le dis !

Que Google patouille avec le Spam, on s’en rend bien compte. Dans le même temps, quand on travaille honnêtement (en respectant les guidelines) le référencement d’un site, on se trouve parfois confronté à des pénalités totalement incompréhensibles.

Je comprends très bien le fait d’avoir été pénalisé ou même blacklisté lorsque j’ai pratiqué des trucs plus que limite (au moins, maintenant, je sais vaguement ou se trouve la frontière pour certaines techniques).

Par contre, comme toi, je trouve particulièrement désagréable de voir partir un site au fond du trou alors que rien ne le justifie à priori, et qu’en prime, ce site est bien plus pertinent que d’autres qui eux sont restés en place. Pour ce qui est de demander des explications…

Je passe sur les méthodes de cochons archi spammy utilisées depuis de nombreuses années sur des sites qui conservent leurs positions…

En fait, tout comme toi, ce qui me gêne, c’est de ne pas connaître la règle du jeu. Je suis obligé de l’apprendre en testant par moi même, ou bien par chance, lors d’un communiqué ponctuel ou d’une conférence comme celle de Vegas.

En fait, j’ai peu d’espoir de voir un jour Google communiquer très ouvertement sur le sujet.

Maintenant, si on reprend les communications de Google sur les 5 ou 6 dernières années, on a une vague impression d’amélioration. Les SEO n’y sont plus ouvertement présentés comme une bande de filous. les divers blogs de Google et les guidelines ont évolués vers plus de transparence apparente.

Peut–etre un jour appliqueront ils leur slogan « Don’t be evil », mais la fumisterie du Google Dashboard me laisse des doutes.

@ DanielM
Pour ces sujets, Google est ton ami.
J’avoue que pour ma part, je ne fréquente pas les blogs de Microtyrosémiophiles car je n’y comprends rien 😉
AxeNet
13 novembre 2009 à 17 h 07 min

———-A annuler après lecture ———
Tiens, Laurent, tu as mis ton wordpress à jour, je vois la vie en rose (SearchStatus nofollow).
C’est tout de même un comble d’appliquer le nofollow ici 😉
En fait, tu es un agent double.
Marie
13 novembre 2009 à 17 h 15 min

C’est un peu fouillis effectivement, on ne voit pas trop où tu veux en venir mais on t’accompagne agréablement pendant ton raisonnement 🙂

Je n’ai rien à redire à ce que je comprends, je soutiens moi aussi qu’un grand nombre d’actions de Google sont des aveux d’impuissance face au spam et que Google ne fais pas peur aux spammeurs et que toute interdiction peut-être détournée voire retournée en notre faveur.

J’aime beaucoup ta phrase « Nous sommes des idiots pataugeant au milieu d’un moteur idiot », c’est tellement vrai 😉
Sylvainp
13 novembre 2009 à 17 h 45 min

Laurent, tu as bien sur raison sur le fond, mais je crois que nous sommes bien peu à nous méfier *sur le fond* de la bête.
Pour la plupart des gens, la politique de Google vis à vis de l’information est au pire génante, car ils deviennent trop visibles sur le web, ou alors parce que cela entrave leur business. Mais il faut voir au dela de notre vie de citoyens lambda dans une (encore) démocratie, car il y a un vrai danger dans ces informations qui circulent de manière un peu trop opaques, mais aussi dans cet arbitraire de la machinerie de Google.

Bon, si maintenant tu veux écrire ce post en anglais, je serais ravi de l’herberger 😉 (faut jamais perdre le nord).

S.
Gwaradenn
13 novembre 2009 à 17 h 45 min

Je pense que Google et l’ami M.C. font de la communication, comme pour la capote à jus vert: cela faisait des mois qu’un certain nombre de webmasters disaient que des liens en roses étaient bénéfiques.
Ici, Google cherche, amha, a décourager d’éventuel futur black hat ou simples déviants.

Le spam fonctionne depuis longtemps et fonctionne encore, j’ai découvert quelques niches depuis deux semaines et j’ai été surpris que cela passe encore et pourtant!
sid
13 novembre 2009 à 17 h 46 min

Y’a finalement quelques bons articles sur le référencement en France ..

Très bon article Laurent , excellente analyse avec le recul nécessaire pour décrypter le ‘langage’ Google !

Au fur et à mesure que l’étau se resserre, autant en terme financier que concurrentiel, il semblerait que Google commette des fautes et dévoile son jeu. L’avenir risque d’être intéressant, malheureusement, je sens que ça sera pas forcément bon pour eux 🙂
AxeNet
13 novembre 2009 à 17 h 54 min

Tiens, tu vas adorer cela :
http://www.forbes.com/lists/2009/20/power-09_Sergey-Brin-and-Larry-Page_D664.html

5ème seulement…
LebossTom
13 novembre 2009 à 18 h 14 min

Visiblement le sentiment de méfiance vis à vis du quasi-monopole et des exigences du moteur s’exacerbe chez les professionnels et leaders d’opinions.

Je te rejoins carrément sur le fait que c’est un peu notre devoir que d’alerter sur le sujet.

Mais je crains que ces efforts soient vains….
Laurent
13 novembre 2009 à 18 h 41 min

@DanielM : nofollow est un attribut qui indique à certains moteur de recherche qu’il ne faut pas suivre le lien auquel il est attaché. Cela s’écrit rel= »nofollow » et se place au sein du code définissant le lien a href= »…
robots.txt est un fichier placé à la racine du site qui donne des instructions aux moteurs pour interdire ou autoriser l’accès à certains répertoires.

@Boris : merci, mais je ne crois pas que ça soit un bon billet. Pourtant, j’ai raccourci d’au moins 50% pour ne pas lasser le lecteur, mais il faudrait vraiment beaucoup plus élaborer. La solution serait que Google arrête de nous prendre pour des cons.

@BaN : 100% d’accord. Ce monopole prend des proportions alarmantes. Problème est que Google est génial (son moteur, ses outils, ses services). Dur de lutter, surtout maintenant que la domination est bien assise.

@AxeNet : décidément, nous sommes d’accord sur bien des points 😉 J’avais mis Google Dashboard en exemple, puis retiré à la relecture. C’est pourtant la parfaite démonstration que Google nous prend pour des niais.
Puis, j’ai craqué et finalement installé un plugin. Nofollow Forever sur le pseudo et dans les commentaires.
Ah oui Forbes, ils sont que 5ème. Pas encore maîtres du monde.

Marie : étant donné que tu fais du référencement depuis bien plus longtemps que moi, il serait intéressant de jauger dans le temps la sensibilité des spammeurs par rapport aux tentatives de Google pour les contrer.

@Sylvainp : merci pour l’invitation, mais je voudrais faire quelque chose de plus organisé. Par rapport à la minorité hurlante, nous sommes très peu à s’intéresser d’aussi près au fonctionnement du moteur.

@Gwaradenn : bien entendu que c’est de la comm. Ce n’est pas pour rien qu’il est très rare de voir d’autres googlers sur le devant de la scène. MC a un aspect rassurant et persuasif qui est utilisé à bon escient.

@sid : j’ai pourtant l’impression que la domination est telle que ça va être dur de démonter le monstre, mais d’autres sont partis en fumée tout en étant bien plus épais.

@LebossTom : bien sûr que nous sommes des microbes, mais rappelle toi DarkSEOTeam 😉
Littlebuzz
13 novembre 2009 à 19 h 19 min

Je me faisais juste la réflexion, entre le billet d’hier, ou tu disais entre autre que le référencement n’était pas une affaire de sorcier, et le billet du jour, ou finalement, on ne sait pas tout des critères de google, dont certains sont pour le moins troublant.

Un néophyte passe par la, pour sur, il pensera que définitivement le référencement est une affaire d’initié/gourou !

Un pro passe par la, à part ses certitudes de gourou mythomane, définitivement, il ne sait pas grand-chose.

Bref, si les fondamentaux restent connus de tous, la potion magique, le petit plus qui fait la différence, est loin d’être trouvé.

(bon, c’est aussi un peu décousu, et c’est surtout l’heure de l’apéro !!!)
Laurent
13 novembre 2009 à 19 h 45 min

Disons que ce billet est déjà sur un autre niveau que le précédent.
Hier, j’ai bien indiqué que les fondamentaux concernent une première phase d’amélioration. J’ai également précisé que mes propos ne voulaient pas dire que c’était facile. D’ailleurs, suivre les 10 ou 15 paramètres de base pour l’optimisation d’un site sont une première phase par rapport aux centaines de paramètres à évaluer lors d’un audit ou optimisation poussé. Le but du billet d’hier est de lutter contre ceux qui font croire que tout le référencement est une affaire de gourou.
Heureusement qu’il reste de la place pour la créativité et l’expérience, sinon tu prends le premier pdf venu et tu es « expert » en référencement.

Tout est question de perspective et de niveau. Hier, cela concernait la base et aujourd’hui, on est sur un petit détail, mais qui se rajoute à un énorme enjeu.

Cela dit, tu as raison de remarquer qu’il y a une confusion possible entre les deux messages. J’ai peut-être manqué de clarté.
Léo, Propulsr
13 novembre 2009 à 21 h 53 min

tiens,

Matt Cutts essaie de rattraper le coup…

http://twitter.com/mattcutts/statuses/5690184065

Alors, vérité ou mensonge 😉
Ping : Bloguer ou ne pas bloguer » Tout va bien !
Laurent
13 novembre 2009 à 23 h 24 min

@ Léo : lis bien la retranscription de Barry
http://www.seroundtable.com/archives/021107.html
D’ailleurs, je vais lui demander s’il n’y a pas quiproquo, mais pour moi c’est clair comme de l’eau de roche. C’est n’est pas que le terme « huge », mais c’est un ensemble d’indices
This is a huge red flag!!! Matt said, this is the best source of spam leads. You block archive.org in robots.txt file, you are caught in no time, Matt basically said.

Google has tools to see old stuff on sites outside of archive.org

Matt says this is totally what to look for when fighting spam…

Sachant que ces commentaires sont intervenus à propos de 5bridge.com qui avait des liens vers un site de plombier plutôt spammy et qui était audité.
Ne parlons pas du commentaire purement subjectif :Matt said, what the hell is 5bridge.com? what does that mean? Matt said, someone made a domain about the i 5 bridge that collapsed in the past and then let it die.

Tout cela intervenant en l’espèce de 4 minutes, comptant le délai de rédaction de Barry.

Maintenant, faut-il vraiment croire, comme le prétend le tweet de MC, que le blocage archive.org est analysé manuellement un deuxième niveau (le site effectuant des backlins) seulement lorsqu’il faut creuser en profondeur après suspicion de spam ?
fbparis
14 novembre 2009 à 2 h 42 min

Tu dis que le nofollow a bousillé le référencement organique ; c’est pas un peu exagéré ? Si on se base sur les données fournies par seomoz, quelquechose comme 0.7% des liens sortant seraient affublés du rel nofollow et il me semble que google a confirmé également le côté très marginal du nofollow sur le web (ceci dit c’est vrai que quand on est le nez dedans on a plutot l’impression inverse !).

Sur la suppression des données personnelles à la fin de l’article, comment sait-on qu’ils mentent ou pas ? C’est le genre de chose qui me semble difficilement vérifiable de toutes façons, et pas seulement concernant google, c’est la même chose avec tous les services qui collectent des données personnelles. En effet il est pas concevable de filer la clef des datacenters à une tierce partie non ? 🙂
Laurent
14 novembre 2009 à 2 h 56 min

Le chiffre donné par SEOMoz est autour de 2% si je me souviens bien, mais tu oublies qu’il s’agit du Web en général! J’aimerai bien voir la même analyse concernant le web communautaire; celui où se déroule le référencement organique. Pas besoin d’avoir le nez trop profondément dedans pour savoir que ce pourcentage va dramatiquement augmenter.

Quand à la suppression des données personnelles. Explique moi comment tu demandes à Google de supprimer des informations à ton sujet qui te déplaisent ?
On ne parle même pas de vérifier comme il est suggéré dans l’interview, mais déjà d’avoir le pouvoir de supprimer ces sacrées données! On verra ensuite pour vérifier qu’elles ont bien disparues.
Je demande juste qu’on me montre un formulaire ou autre qui indique la procédure pour éliminer des informations me concernant qui traînent dans l’index et que je voudrais supprimer.
Un exemple tout simple. J’ai ouvert un blog sur une plateforme gratuite. Peu après, je m’aperçois que ce blog enfreint un copyright. Donc, je l’élimine.
Maintenant, il est toujours dans le cache de Google. La société peut me faire un procès pour contrefaçon de marque (c’est du pénal). Dis moi comment j’enlève ces traces de l’index ?
fbparis
14 novembre 2009 à 3 h 29 min

Oui SEOMOZ donne un chiffre de 2% mais 73% de ces 2% sont des liens internes…

Je vois ce que tu veux dire pour la suppression des données personnelles, ok. Il est possible assez facilement de supprimer de leur index des pages dont tu es propriétaire, c’est déjà ça. Ensuite pour faire supprimer des contenus dont tu n’es pas le propriétaire c’est avant tout un problème technique : comment garantir que tu as bien le droit de supprimer tel ou tel contenu ?? Il est évident que si il est trop facile de supprimer du contenu de google, ça va partir en vrille très très vite chacun commençant par désindexer ses concurrents ou supprimer les informations dérangeantes (sites anti hadopi pour le ministère de la culture, etc) !
Laurent
14 novembre 2009 à 3 h 37 min

Ben à priori, sur mes sites, j’ai moins de risque d’avoir des informations qui me dérangent 😀
Si je veux virer des trucs du Web, c’est plutôt ailleurs que ça se passe, mais ce sont tout de même des informations qui me concernent et qui sont hébergées chez Google.
M’en fous pas mal comment ils doivent se démerder, mais quand le patron annonce à la TV qu’il peut enlever des données qui me concernent de l’index, j’aimerai bien savoir comment.
Si c’est pour effacer mon propre répertoire FTP, je connais la procédure tout aussi bien que toi.

En effet, c’est 61% de 1,83% (pas 0,7 quand même 😛 ) Merci de m’avoir fait rechercher le lien pour être sûr
http://www.seomoz.org/blog/announcing-seomozs-index-of-the-web-and-the-launch-of-our-linkscape-tool
Cependant, je confirme que SEOMoz parle du Web en général. Faut recentrer le débat sur ce qui ramène du référencement organique ou linkbait (même si je déteste ce terme). Prenons, les scripts majeurs de forums, blogging et tout ce qui peut avoir un aspect communautaire pour estimer ceux qui portent une capote.
fbparis
14 novembre 2009 à 3 h 55 min

Je m’étais basé sur cet article : http://www.seomoz.org/blog/lessons-learned-building-an-index-of-the-www

En fait pour avoir une meilleure idée il faudrait rapporter ce pourcentage au pourcentage de liens externes (jme comprends, un peu, je crois :D)
Laurent
14 novembre 2009 à 4 h 07 min

Tu m’as perdu là…
4h du mat, dodo.
Bonne journée pour toi 😉
Léo, Propulsr
14 novembre 2009 à 11 h 30 min

@Laurent, mon problème avec la retranscription c’est que Barry Schwartz ajoute ‘basically’ à la fin de sa seconde phrase. Il synthétise donc plusieurs idées/infos données par Matt Cutts en une seule (mais où est la vidéo !!).

L’ambiance était aussi, semble t-il, à la rigolade, car ils analysaient / sortaient d’une analyse d’un site spammy (le frangin de Rand Fishkin allait donc être tondu).

Le ‘huge red flag’ et les commentaires suivants ont peut être alors été « exagéré » par Matt Cutts et/ou Barry Shwartz.

Mais d’un autre coté, cela signifie t-il que le rôle joué par cet élément dans le filtre spam est aussi minime que Matt Cutts le prétend sur Twitter, je ne pense pas. L’utilisent-ils uniquement lors de « spam report » comme indiqué, j’en doute.

Il n’en aurait surement pas parlé sinon.

On sait que Google aime automatiser les filtres de leur algo. Il semblerait donc que si le site est dans une niche à risque (ex poker, viagra), ou qu’il reçoive des liens de sites à risques (ex. link farms) et qu’en plus il bloque archive.org dans le robots.txt alors le « red flag » se dresse.

Comme d’habitude on est dans l’obscurité (tu le dis, on joue au poker sans connaitre les règles exactes), et il serait bon de savoir quel est le poids de cet élément dans le filtre spam, et si sont poids augmente exponentiellement au fur et à mesure que d’autres filtres sont déclenchés.

Une info que Matt ne peut pas donner de son plein gré.
AxeNet
14 novembre 2009 à 11 h 51 min

Je reviens sur la communication de Google car un point m’a bien fait rire (jaune). Il concerne la vitesse de chargement des pages.
Voir l’info en Français ici : http://actu.abondance.com/2009/11/le-temps-de-chargement-des-pages.html

Il faudra que l’on m’explique comment les sites « lents » ne sont pas défavorisés si les sites rapides sont pour leur part favorisés.

C’est quoi l’astuce, on va avoir deux colonnes maintenant dans les SERP ? Une pour les sites rapides et une pour les sites lents ?

Tant qu’à faire, autant mettre la 3ème, celle des liens commerciaux en 1er à gauche 😉

Arf ! et comme tu le faisais très justement remarquer, on fait quoi si c’est Google Analytics qui ralenti le site. Ce constat ma parfois mis hors de moi. Je m’en sors bien toutefois, pour ne pas mettre le loup dans la bergerie je n’ai qu’un client sous Analytics.
LebossTom
14 novembre 2009 à 12 h 24 min

Ce 0,7% est une vaste blague pour moi.

Il faudrait dédupliquer les URLs sortantes d’un même site, parceque un footer de lien avec 10 liens sortants sur toutes les pages ça augmente artificiellement le volume de lien dofollow.

Alors qu’à la base il s’agit d’un lien sortant ajouté dans un template.

De plus je suis pas sur que Seomoz ait viré le DUST des liens dofollow (https, www & no-www, allias de domaine) sans compter les liens sortants avec redirection bloquée par robots.txt.

Je pense vraiment que le nofollow a pris une part plus importante qu’on veut nous le faire croire.

Il n’y a qu’à voir comment Matt demande à wikipedia de remettre ses liens en dofollow, ou les récentes déclarations sur la perte de jus lié à l’usage du nofollow…

C’est clairement qu’il commençait à y avoir un problème pour que Matt nous dévoile ça, sans doute que les effets négatifs du nofollow sur le ranking commençait à prendre le pas sur les bienfaits de celui-ci.

Après le nofollow vient un autre phénomène encore plus inquiétant pour le calcul de popularité (et pour l’expérience utilisateur!): beaucoup de journalistes de sites de presse ont l’interdiction formelle de faire des liens sortants. ça donne des situations pitoyable ou On arrive à parler d’un nouveau site sans faire de liens vers celui-ci.
Laurent
14 novembre 2009 à 13 h 08 min

@ Léo : après tout, ce détail n’est pas si important. Comme tu le soulignes, ce qui importe est la signification de ces paroles au sein de la manière dont Google communique avec les webmasters.

@AxeNet : exactement. Cette nuit, je regardais une interview de l’inévitable MC à propos de Caffeine. Y a pas de filtres tous azimut comme j’entends dire un peu partout. Par contre, la vitesse est au coeur du système.
Je suis donc allé tester la vitesse de mon site, pour m’apercevoir que l’élément le plus pénalisant est Google Analytics.
Subtil, non ?

@LeboosTom : je ne sais pas pour vous, mais je navigue avec le plugin QuickSearch Status qui colore en rose les liens en nofollow. Sans faire de stats, il est aisé d’observer que la capote est partout.
AxeNet
14 novembre 2009 à 13 h 45 min

@ LebossTom
Pour le dernier point dont tu parles, je commentais ce matin l’article sur le linkbaiting du blog d’Antoine Leroux. Ton constat et celui d’Antoine sont affligeants.
Tout comme Laurent, je navigue moi aussi avec le même plugin et je vois souvent la vie en rose sur le web.

Le nofollow est à mon avis une des pires cochonneries inventée par Google. Sur le fond, je ne suis pas mécontent qu’il leur pose problème aujourd’hui 😉

Cet attribut va totalement à l’encontre des principes fondateurs du WWW. Il est aujourd’hui utilisé par des millions de personnes n’en comprenant pas forcément bien l’utilité. Pire, il est intégré d’office à des CMS dont je considère les concepteurs comme des « vendus » à la solde de Google.

Franchement, si je pend l’exemple du blog AxeNet ou celui de Laurent ici) ou Marie (altiref). Je n’ai pas l’impression que nous soyons particulièrement manchots en terme de référencement, et pourtant, nous faisons des tas de liens externes dans la plupart de nos billets et laissons les signatures de commentaires en dofollow. Tout ceci représente parfois 70 à 100 liens sortants. Le référencement de nos blog s’en porte t-il plus mal ? Absolument pas.

La transmission de PR externe devient une véritable phobie certainement infondée.
MFB2B
14 novembre 2009 à 13 h 50 min

J’ai bien apprécié ta remarque sur Matt Cutts :

Ce Matt Cutts est peut être un concept marketing Google qui a pour but de faire partager les avancées Google sur les différentes nouveautés que souhaitent apporter le géant américain à son outil de recherche.

@Laurent : un élément pénalisant provenant de Google sera t il alors pris en compte même s’il s’agit d’un outil made by Google ?
MFB2B
14 novembre 2009 à 13 h 55 min

@Axenet : Le problème du no follow est que nous avons l’impression que même Google n’arrive plus à le différencier lorsque nous regardons les liens pointant sur notre domaine depuis le GWT.

Comme toi, je vois aussi la vie en rose et j’ai même décidé de passer mon blog en do follow cette semaine.

Certains diront que l’on court à la catastrophe mais en même temps, l’essence même d’un blog est d’être participatif et de pouvoir générer une communauté autour de lui. Si le bloggeur en tire partie, pourquoi ne renverrait il pas l’appareil en choisissant le do follow ?
Laurent
14 novembre 2009 à 14 h 26 min

Le problème avec la compagnie Google est qu’elle est construite sur un système vertical avec une horizontalité chaotique.
Dans l’exemple en question, le problème de ralentissement causé par le js GG Analytic n’est pas vraiment le problème des techos du Search.
Dans un exemple encore plus récent, le langage GO paraît prometteur, mais il n’existe pas encore une seule application en interne chez Google.
Ca ne veut pas dire qu’ils n’utilisent pas tous Gmail et Gtalk, mais ça veut dire qu’il persiste un cloisonnement habituel dans les sociétés de cette envergure. Dans certains cas, ça peut aller très loin comme l’avait alimenté Steve Jobs avec l’équipe Macintosh de départ ou chez Sony où les différents départements se détestent.
Alexis Dufresne
14 novembre 2009 à 17 h 08 min

Bonjour Laurent, je viens de découvrir ton blog et franchement j’ai adoré lire ce texte, avec lequel je suis tout à fait d’accord. Les problématiques reliées à Google sont plus vastes que les simples filtres pour le classement, mais je dirais surtout que Google à simplement un énorme conflit d’intérêt, parce que, au fond c’est une entreprise publicitaire. Google c’est une régie publicitaire, d’abord et avant tout. Il suffit de regarder les comptes de la compagnie pour se rendre compte que Adwords représente près de 100% des revenus de la compagnie. Google à un intérêt financier, donc, à laisser les pages de spam et surtout les MFA dans l’index, puisque les MFA sont faits pour générer des liens vendus par… Google!

Moi j’ai jamais cru que Google pouvait faire quoi que ce soit contre le spam dans cette position et c’est encore ce que je pense d’ailleurs.

A ce sujet, je ressors deux vieux textes :
http://encoreungeek.com/comment-google-a-detruit-le-web

et

http://encoreungeek.com/google-pourrait-sacrifier-la-qualite-de-son-index

Très cool ton blog en tout cas!
Alexis
Ping : Mise jour Google Caféine
BaN
16 novembre 2009 à 9 h 34 min

Google est génial c’est un fait.
Mais il y a d’autres acteurs géniaux sur le net : les utilisateurs.

Je vais me la jouer « Madame Irma Lemeur » :
– La killer app qui mettra à mal google sera user centric et basée sur « une sorte d’intelligence collective ».
– Pas un projet comme le wikia de Jimmy Walles mais basée sur l’analyse des flux d’informations de réseaux comme twitter.
– Elle sera opensource.
Meilleur
16 novembre 2009 à 23 h 46 min

@BaN : Tu entends quoi exactement par l’analyse du flux d’informations Twitter ?

Il faudrait alors que Google rachète Twitter ou crée un nouveau service. Par ailleurs, pour moi, Twitter est plus un outil de buzz qu’autre chose.

Dans ton exemple, il suffirait en effet d’avoir des RT de partout pour que Google prenne de l’importance sur une information donnée. Dans ce cas là, on reviendra tot ou tard aux problématiques de spam énoncées dans ce billet.
Blacklisted
17 novembre 2009 à 9 h 06 min

La phrase qui tue « Nous sommes accusés par défaut d’être ignorant de règles qui nous sont inconnues. »

Je pense que ça résume bien le billet… qui est excellent.

Le problème c’est que je tire tout mon bizness du SEO et que je ne sais jamais quand je dépasse les limites de la suroptimisation.

Je bosse avec une épée de damoclès google au dessus de la tête, si je prends un coup, je suis mort, ma boite aussi. Le paradoxe : c’est que sans google je n’aurais peut être pas autant de bizness.

Alors ?! On fais quoi maintenant ?
AxeNet
17 novembre 2009 à 9 h 33 min

@ Blacklisted

« Les limites de la suroptimisation » 🙂
J’adore !
Beaufmaster
17 novembre 2009 à 9 h 58 min

« n’oubliez pas que cette compagnie est en train de dominer la planète » tu ne peux pas imaginer à quel point ça me fait plaisir de lire ce genre de réflexion !

A l’heure où on nous annonce que Google est la marque la plus populaire auprès des étudiants, où tout le monde trouve Google génial et ne saisit plus la différence entre « un moteur de recherche » et « Google », il est vraiment temps qu’on ouvre les yeux.

Quand je dis du mal de Google j’ai 2 visiteurs par mois et les seuls commentaires sont « wahhhh, article superbe de mauvaise foi, joli stratégie de linkbaiting ». Ca devient saoulant, on a l’impression d’être dans une dictature où 99% des citoyens trouveraient le gouvernement génial et verraient d’un mauvais oeil ceux qui ont l’outrecuidance de le critiquer.
Pourtant même la pire des dictatures ne viendra pas vous expliquer comment vous devez parler, avec qui, qui peut venir chez vous, et ce que vous pouvez y faire. Google fait bien pire que ça, mais tout le monde semble s’en réjouir, et je trouve ça terrifiant…
BaN
17 novembre 2009 à 10 h 45 min

@Meilleur fournisseur : peut être un système proche du pagerank :
@laurent8 tweet une info avec le hashtag #SEO.
Il est retweeté 4 000 000 de fois.
On peut donc estimer que :
1- l’info est intéressante (pas juste ni quoi que ce soit mais « digne d’interêt)
2- que @laurent8 est digne d’intérêt lorsqu’il traite de #SEO
3- par déduction que les tweets de @laurent8 qui comportent le hastag #SEO sont potentiellement intéressants

C’est ultra simpliste comme modèle et comme réflexion évidemment (sinon je serais déjà maître du monde et vous seriez mes gentils esclaves), mais multiplié par le nombre tweets, de hashtags et d’utilisateurs de twitter, ça peut être une base de réflexion.

Surtout si on ajoute à cela les réseaux followers/following, les listes ainsi que (et surtout) toutes les infos que l’on va tweeter automatiquement et « inconsciemment » dans l’avenir.

Et quand je dis twitter, c’est parce que c’est l’outil existant mais je crois également beaucoup au web sémantique, à la standardisation des données et aux outils qui vont se développer autour
Blacklisted
17 novembre 2009 à 20 h 53 min

@ Axenet

Tu as raison, Je devrais me relire avant de poster des fois ^^ j’en ris encore.

Elle sent un peu le black hat ma phrase… j’espère que GG ne vas pas me retrouver (mais j’ai laissé ni @ ni www sur le post, et je change mon IP tous les jours… ouf ! 😉

F**k the dashboard too
disco
18 novembre 2009 à 1 h 55 min

Bientot les black hat seront des rebelles et feront la révolution ! 😀
Sarssipius
21 novembre 2009 à 3 h 05 min

Tout ceci fait penser que Google joue peut-être à brouiller les cartes avec les référenceurs (ceci rejoint « Matt Cutts cache son jeu »)… Un moyen comme un autre d’affirmer sa position dominante, si personne ne comprend vraiment à part google (qui apparemment ne comprend pas tout non plus, ou pas!)
leon
25 novembre 2009 à 22 h 04 min

Ouf il y a encore des personnes conscientes. Ca change d’un autre blog leche-gg où je me suis fais traiter de crétin.
Le titre du post était « google est ton ami » (cherche pas c’est chez papy), forcément quand je lis cette phrase débile…
Bon article, merci, encourageant.
leon
25 novembre 2009 à 22 h 13 min

Désolé je « recoment » pour équilibrer mon dofollow :p.
En tapant 1984 j’arrive sur wikipedia, comme d’hab….
Donc j’ai pris le dernier résultat le 900eme.
Ce qui est drôle c’est que c’est un site contre la biométrie avec comme slogan:
« Nous ne pouvons pas accepter de se faire fliquer par des machines… »

Mourderir.
Neamar
30 novembre 2009 à 22 h 47 min

Un article intéressant, qui même s’il n’apporte pas grand chose de nouveau à l’avantage de mettre en relation de nombreux faits irritants.
Google est certes une énorme machine ; et on a beau la critiquer elle reste primordiale pour le trafic.
C’est vrai que l’absence de concurrents joue son rôle là dedans, mais autant on pourrait pardonner une stagnation des features (ce qui permettrait à certains concurrents de gagner en réputation), autant de tels propos répétés encore et encore sont difficilement avalables.

Attention, je ne crache pas sur toutes les initiatives : L’idée du rel canonical est très bonne (mais étrangement implémentée, il m’arrive encore d’avoir des soucis).
Archive.org ? Bon, c’est vrai que c’est étrange, mais un huge red flag n’est pas un ban direct : il y a d’autres étapes derrière.
En revanche, pour le nofollow… alléchant au départ, mais très rapidement c’est parti hors de contrôle. Et c’est bien dommage : comme tu le dis, les forums, twitter ou wikipedia ne « rapportent » plus rien. En soi, Google s’est littéralement tiré une balle dans le pied avec cette saleté.
Manu1400
14 janvier 2010 à 23 h 48 min

Il manque un « pas » dans « mais qui ne sont absolument mis en place afin de vouloir biaiser les moteurs. »
Sandra F.
29 avril 2010 à 19 h 46 min

Le plus grand souci de ces « grandes puissances », c’est qu’ils pourrait faire écrouler l’économie mondiale par un cliquement de doigts…

La crise mondiale des subprimes paraîtrait bien inoffensive à coté d’une décision définitive de fermeture des serveurs et moteur de recherche que fournit google. Il est bien entendu que ce n’est pas dans sont intérêt… mais les subprimes n’étaient pas non-plus dans les intérêts des investisseurs…

Comme tu le dis toi-même dans ton article, tu dépends des revenus publicitaires qui sont directement liés à ton blog…
La plupart des blogs ou sites de commerce y dépendent également… c’est vrai que c’est assez catastrophique et qu’il ne faut pas laisser tout faire…

En attendant… il n’y a pas photo… c’est google et puis google, on ne va pas se concentrer sur les quelques miettes restantes en % que récoltent yahoo et bing…

Ca finira mal tout ça… d’une manière ou d’une autre…
Peters
6 juin 2010 à 19 h 46 min

Excellent post ! Enfin quelqu’un qui pense comme moi 🙂 Moi je ne m exprime pas trop car j’ai peur des sanctions 🙂

Je te recommande ce lien I-Comp qui s implique lourdement pour faire cesser ces foutages de gueules que tu dénonces à juste titre.

Mais petit à petit je commence à pouvoir démontrer que Google c est n’importe quoi. J ai des fax de leur conseillers, des communications officielles, et des conclusions écrites dans le cadre d un dépôt de plainte. On voit qu’il y a trois discours différents et que Google ne cesse de se contredire.

Yoram Elkaïm, le directeur juridique ne donne jamais suite aux e-mails. tout ce qui l’intéresse a lui, en tant que bon avocat qui se respecte, c est de créer un litige, comme ca il peut envoyer du taf à ses amis chez Herbert Smith.
Ca aussi ca fait partie du problème google. Ils ont une philosophie « Don’t be evil » mais elle n est pas appliquée.
Autre exemple : Le directeur du Benelux, monsieur Dewever utilise ses relations pour propulser son site Advalvas Annonces en Top 10 alors que ce site était hors des 400 premiers résultats. Pendant ce temps d autres poirottent dans le bac a sable pendant des mois et des années.
Peters
6 juin 2010 à 19 h 54 min

aussi, je signale au passage que Yandex pourrait bien devenir le nouveau concurrent de google. Leur gestion des contenus dupliqués est très bonne !
http://www.yandex.com
Jihoy
17 septembre 2010 à 10 h 06 min

Voilà un sentiment malsain d’impuissance contre une suspicion injuste.
Ping : Blekko est un moteur de recherche représentant une alternative à Google
Ping : Google intensifie le combat contre le spam en 2011.

Laisser un commentaire

Vous devez vous connecter pour publier un commentaire.