J’entends encore tout et son contraire à propos du contenu dupliqué.

C’est le méga marronnier du référencement, qui trône dans notre jardin depuis une éternité.

Déjà, qu’est ce qu’une pénalité ?

Pour moi, il y a plusieurs niveaux d’interprétation.
Deux grandes catégories s’imposent avec les actions manuelles et les actions purement algorithmiques.
Le plus grave est le blacklistage où le site sera dégagé de l’index. Cela découle d’une action manuelle, qui peut être déclenchée par un red flag automatique ou plus couramment sur dénonciation (spam report).

Après, la pénalité globale va affecter l’intégralité d’un site. Les plus connues en ce moment sont Panda et Pingouin, mais il en existe une gamme large et variée en algorithmique et manuelle.
Une pénalité ciblée va aussi affecter partiellement le site. Par exemple, pour une pénalité manuelle de type « liens artificiels », une page sera déclassée sur une requête, alors que le reste du site continue de performer.

Aussi, les filtres algorithmiques peuvent être assimilés à des pénalités. Sauf qu’ils peuvent être considérés comme des nettoyeurs de requêtes, alors que le cas précédent va s’occuper d’un site en particulier.

On entre ensuite dans le cas de la « non valorisation », qui empêche une URL de monter ou la déclasse. L’URL n’est pas plombée, comme dans le cas d’une pénalité. Elle pourra réagir dans d’autres conditions, mais c’est cuit pour la requête visée.

Le cas du contenu dupliqué

Il y a deux cas : externe et interne. Le contenu peut être dupliqué à l’intérieur d’un site ou entre deux sites différents.

Le Web contiendrait 30% de contenu dupliqué (source Matt Cutts je crois).

Pour moi, le contenu dupliqué interne est moins problématique. Bien sûr que j’ai vu des cas où cela causait des perturbations, mais les moteurs et Google en particulier ont évolué à ce niveau.
Ils arrivent à repérer des footprints, empêchant de mettre dans le pétrin un paquet de sites où les cas de contenu dupliqué interne sont massifs.

Le contenu dupliqué bien géré en interne peut même être un atout, comme par exemple avec ma technique de rédaction rapide sur la base de templates à faible granularité (j’en dirais plus là dessus un autre jour).

Ensuite, il faut parler du contenu dupliqué en externe. C’est un problème et cela ne semble pas être prêt de se résoudre.
Franchement, je ne sais pas si on peut qualifier de pénalité le problème du contenu dupliqué externe. Je crois plutôt qu’il s’agit d’une énorme faiblesse algorithmique.

On pourrait croire que c’est simple de mettre en avant l’antériorité. Pourtant, la réalité est à l’écran et une page peut tout à fait se faire shooter intentionnellement ou pas.
À partir d’un certain moment, le facteur popularité prend le dessus sur l’antériorité.

Peut-on se prémunir ?

À mon avis, il est impossible de protéger une page isolée. Par contre, un domaine puissant sera impossible à faire tomber.

Nul besoin pour autant de tripper, dès qu’on voit un scraper se pointer. La page qui reprend le contenu doit avoir du juice pour être capable de passer outre l’antériorité de la page originelle.

Pour le contenu dupliqué en interne c’est beaucoup plus simple. La meilleure solution est clairement l’analyse de logs. Vous pouvez voir certaines choses dans les Webmaster Tools, mais je ne fais jamais entièrement confiance à l’information distillée par Google ou les autres moteurs.

Surtout, en amont, maîtrisez bien votre script et votre méthodologie de publication et tout devrait bien se passer.

Déjà, qu’est ce qu’une pénalité ?

Le cas du contenu dupliqué

Peut-on se prémunir ?

Publications similaires