La question revient régulièrement à propos des URLs de mon blog qui n’incorporent pas de mots clés. Pourtant, c’est en contradiction avec les croyances communes qui supportent l’ajout de mots clés dans l’URL, habituellement en répétant la balise TITLE.

En fait, il faut bien évaluer le pour et le contre pour optimiser une URL et surtout l’incruster au sein d’un construction de page profilée en soufflerie pour fuser dans les résultats de recherche.

La triplette du bourrin

L’optimisation de base que la plupart des sites utilise est une répétition des mots clés prinipaux en trois endroits stratégiques :

Title
URL
H1

J’appelle cela la triplette du bourrin. Rien de péjoratif dans cette définition, mais plutôt une évocation d’un manque de finesse certain dans l’optimisation et l’interconnexion de ces 3 éléments vitaux d’une page Web.

Le plus subtil des bourrins ira éliminer les stopwords et travailler les caractères accentués, mais l’essentiel de la requête phare déclinée dans TITLE se retrouve dans l’URL et H1 et/ou parfois H2 et plus (voir aussi mon billet et le débat sur les balises d’en-tête).

C’est la beauté du dynamique qui permet finalement de fourguer les mots clés partout. Le problème est que cette optimisation n’est pas perçue de manière uniforme par les moteurs de recherche et en fonction de certaines spécificités du site. Pour certains, ça va passer, pour d’autres cela n’apportera pas de bénéfice et c’est carrément pénalisant pour les plus malchanceux.

Pour un site existant, la modification des URLs doit intégrer la lourdeur qu’implique une redirection de l’ancien format d’URL vers le nouveau. De l’autre côté, quel est le réel bénéfice des mots clés à cet endroit, ainsi que les dommages éventuels en cas de suroptimisation ? Dans ce sens, j’aime bien évaluer les paramètres favorables au référencement à l’aide d’une note sur 10. Pour les mots clés dans l’URL, je donne une note de 2 sur 10 en pondération positive. A l’opposé, si l’URL se révèle défavorable (répétition Title+URL+H1, spammy, etc.), je donne une note de 6 sur 10 pour la valeur négative.

Sachant que Title porte un solide 8 sur 10 et H1 peut s’apparenter au même niveau que l’URL en négatif tout en apportant un léger 3 sur 10 en pondération positive, nous avons un élément principal qui doit être épaulé par les deux autres. TITLE est l’élément principal supporté par URL et H1, mais en aucun cas les deux derniers doivent venir saborder le premier.

Ma méthode

TITLE va héberger la requête phare, tandis que H1 travaille sur co-occurences. Je pourrais répéter le titre dans l’URL puisque j’ai déjà évité une répétition avec H1. Cependant, je préfère travailler en finesse l’optimisation, plutôt que lâcher au maximum dès le départ. Ainsi, je passe sur les co-occurences dans l’URL tout comme j’évite de répéter TITLE; du coup l’URL se retrouve épurée de tout mot clef. Pour bien faire, il faudrait travailler toujours plus au niveau sémantique ou simplement relationnel entre les termes, mais c’est déjà un effort qui s’opère pour H1 et je n’ai pas forcément la motivation pour me triturer les méninges un peu plus. Encore une fois, le poids du mot clef dans les éléments URL et balise d’en-tête est infime. Par contre, un support relationnel sera bénéfique puisque les moteurs de recherche sont à l’affut des co-occurences pour déterminer la pertinence du contenu.
Voilà pourquoi mon URL est sacrifiée sur l’autel de l’optimisation. Ce n’est pas une généralité car certains de mes sites utilisent des URLs plus sophistiquées que les chiffres déclinés sur les extensions de nom de fichier de ce blog.

Puis après, tout va se jouer au niveau des backlinks qui vont actionner la pompe du positionnement. Dans ce sens, tout le reste de la page est franchement secondaire par rapport au HEAD et début du contenu textuel (mon ration comprend les 300 premiers caractères après le début de Body).
Par backlinks, j’entends liens externes et internes. Une bonne architecture peut tout à fait suffire pour acquérir d’excellentes positions. Saupoudrer de liens externes viendra finaliser l’acquisition des Top positions.

Attention, je n’ai pas dit que le contenu de la page est inutile et encore moins ce qui pousse derrière cette page. Lorsque je parle de secondaire, c’est en terme d’objectif puisque le haut de page concentre un certain type de cible restreint et plutôt concurrentiel, tandis que le reste regroupe des cibles beaucoup plus diffuses, principalement apparentées à la fameuse Longue Traine. Par ailleurs, le reste de la page et les autres qui viendront l’épauler derrière sont indispensables pour cerner la cible principale représentée dans TITLE. Les mots clés dans l’URL et/ou balises d’en-tête apportera une pondération éventuelle très légère, tandis qu’ils peuvent entraîner facilement le site dans un état de suroptimisation.

Bien sûr, si j’avais des difficultés à positionner mes pages, il est certain que je reverrai mon modèle. Jusqu’à présent, tout se déroule à merveille et on ne change pas une équipe qui gagne. Cette optimisation respecte et extrapole sur les fondamentaux tout en restant en dessous de la zone risque, donc elle ne risque pas d’être mise un jour en danger.

Un point quand même sur le soi-disant intérêt des mots clés dans l’URL pour rassurer l’utilisateur. Pour ma part, l’URL est loin d’être un facteur décisionnel dans les résultats de recherche. Tant que l’URL n’est pas terrifiante, l’utilisateur ne sera pas rebuté. En fait, ce sont plutôt les URLs à rallonge qui posent problème. C’est peu incitatif lorsqu’elles sont à rallonge et non réécrites avec tout un tas de caractères spéciaux. La même chose lorsque la réécriture déborde carrément à raconter l’intégralité du contenu.
Ma préconisation est trois tirets au maximum dans l’URL… ça ne fait pas lourd. En plus, il semblerait que Google préfère crawler en premier les URLs courtes .
Pour finir, l’internaute n’y connait absolument rien en URL. Sans même faire la différence entre un sous domaine et un répertoire, pourquoi irait-il s’attarder sur un élément qu’il ne comprend pas ? Au contraire, il ira plutôt occulter ce qui le dérange. L’objectif est de ne pas l’effrayer, mais vouloir l’attirer grâce à des mots clés dans l’URL va beaucoup trop loin à mon humble avis.

Nous ne sommes pas tous égaux

Google & Co. n’appliquent pas les mêmes filtres uniformément sur l’index et sur tous les sites. Ces variations s’opèrent même différemment dans le temps.
Globalement, l’élément prépondérant pour juger des différences est l’ancienneté. L’analogie toute trouvée se rapporte au vin, mais le site doit quand même présenter pertinence et popularité. Prenez une vieille bouteille de piquette et ça m’étonnerait qu’elle se soit transformée en nectar. Quoi que un vin moyen qui aura vieilli peut être agréablement surprenant. L’important est de pouvoir juger du potentiel à certaines étapes de la vie d’un site.

De l’autre côté, un site jeune ne doit absolument pas toujours passer par la case Sandbox. En tout cas, je n’ai jamais eu un site affublé de cette pénalité qui affecterait les nouveaux sites pendant plusieurs mois. Tout simplement parce que j’incorpore un minimum de subtilité dans l’optimisation «on page» et «off page» et que je sais quels sont les leviers à actionner à un moment donné.

Au lieu de partir avec l’optimisation maximale dont la triplette du bourrin est l’indice le plus évident, je préfère en garder sous la pédale. L’exercice de notation effectué plus haut doit être assimilé pour tous les éléments qui impactent le référencement. Lorsque chaque levier est identifié avec sa pondération négative et positive spécifique au cas particulier que représente chaque site Web, l’optimisation devient extrêmement efficace. Dans ce sens, l’étude SEOmoz des facteurs influents le positionnement est intéressante. La différence est que j’opère une pondération positive et négative sur 10, tandis que les référenceurs ayant participé à l’étude focalisent sur une pondération positive en pourcentage. L’autre élément important concerne la date de l’étude qui remonte à 2009. Le classement peut légèrement varier d’une année sur l’autre. Aujourd’hui, je mets H1 plus bas qu’en 2009. L’autre différence concerne le degré d’importance pour chaque élément, mais à la limite c’est moins vital car tout cela doit s’adapter à chaque cas particulier.
La pire attitude consiste à regarder ce que font les concurrents pour essayer de les copier. Ça ne marche pratiquement jamais!
Chaque site doit être pris comme cas particulier et analysé en tant que tel. L’interaction entre tous les facteurs intéressants pour le référencement doit s’extrapoler sur l’évaluation synthétique de chaque élément.

Aujourd’hui, Google a beaucoup progressé, notamment par rapport à la pondération «on page». On garde beaucoup plus de latitude sur l’environnement «off page» (en gros les backlinks), rendant la tâche du Black Hat SEO beaucoup plus facile.  C’est en étant plus subtil que les autres qu’on peut posséder un avantage indéniable. Croire qu’un coup de baguette magique dynamique opéré de manière similaire à la majorité des concurrents va faire la différence est une illusion.  Bien au contraire, les atouts du dynamique se retournent contre la majorité de ceux qui en profitent. Si cela n’engendre pas de dommage, c’est inefficace dans la plupart des cas. Finalement, peu de sites peuvent supporter une suroptimisation latente.
Le plus grave est qu’il est beaucoup plus aléatoire de désoptimiser plutôt que partir léger et monter en puissance. En clair, méfiez-vous de toute répétition; d’autant plus si le site est neuf! En clair, ce n’est peut-être pas suffisant de choisir un CMS et opter pour un template joli, mais absolument pas profilé pour être subtil dans sa performance sur les résultats de recherche – sans même parler d’être optimisé au maximum. Le CMS n’est d’ailleurs pas toujours la meilleure solution, mais c’est un autre sujet.
Bref, introduisez un peu de subtilité dans votre optimisation.

Edit 4/12/10 : lire mon commentaire pour bien comprendre que je n’ai pas dit qu’il ne faut pas mettre de mots clés dans l’URL!

La triplette du bourrin

Ma méthode

Nous ne sommes pas tous égaux

Publications similaires