Comment Google classe les Tweets

Depuis un mois, nous voyons apparaître les Tweets – messages issus de la plateforme de micro-blogging Twitter – au sein des résultats de recherche lorsque la fonctionnalité Social Search est activée.

La question qui se pose maintenant est de savoir comment Google s’y prend pour choisir les Tweets à faire apparaître au sein des pages de résultats.

C’est à la lecture d’un article de David Talbot (pionnier du journalisme en ligne et web entrepreneur) que nous pouvons extraire quelques informations grâce aux commentaires de Amit Singhal, responsable de la Search Quality chez Google et chef du projet Real Time Search.

Classement du Tweet basée sur le PageRank

Apparemment, Google utilise une technologie semblable à celle du PageRank afin de sélectionner les Tweets qui méritent d’être publiés en temps réel au sein des résultats de recherche et dans les Updates du Social Search.

La clef est d’identifier les Followers de réputation honorable. Dans ce sens, le nombre de Followers n’est pas le critère prépondérant. C’est plutôt l’ensemble du réseau autour du compte qui est analysé afin de voir si l’environnement est construit autour d’une réputation qu’on peut qualifier de « recommandable » ou « honorable. » Nous retrouvons ainsi les notions d’autorité et réputation qui sont fortement impliquées dans le calcul du PageRank.

Encore et toujours le spam en ligne de mire

Maintenant, il faut bien que Google puisse décider instantanément si un Tweet tend à être du spam ou même de mauvaise qualité.

Le hashtag (#) est utilisé au sein des Tweets afin d’associer le message à certains mots clés. Cela permet de faire remonter le Tweet lorsqu’un utilisateur entre la requête associée au hashtag dans le moteur de recherche Twitter.

L’intérêt est d’accroître la visibilité d’un Tweet, mais cela engendre évidemment des abus avec des Tweets qui sont gavés de mots clés ou qui veulent faire passer un message publicitaire. Du coup, le hashtag est aussi symbole de spam, pub et mauvaise qualité. Pour bien faire, il faut savoir l’utiliser sans en abuser.

Singhal prétend qu’ils ont réussi à modéliser le comportement des utilisateurs par rapport à l’utilisation du hashtag. Bien entendu, il n’est pas rentré dans les détails, mais il remarque que cela constituait le véritable challenge technique du Real Time Search.

Lorsqu’un utilisateur émet une requête, Google scanne les Tweets afin d’en retirer le ratio signal/bruit adéquat. Un signal fort poussera le moteur à afficher des Tweets en relation avec la requête, fournissant ainsi les résultats les plus frais possibles.

Dans le futur, Google et Twitter veulent pousser du côté de la géo location des données, ainsi que de la téléphonie mobile.

Enfin Singhal rassure sur le fait que Twitter n’est pas le seule source d’information en temps réel. Chez Google, les autres médians (actualité, blogs, pages Web) sont interprétée comme des composants du Web en temps réel. Twitter est juste pratique car il comporte un contenu très limité sur lequel il est plus facile de travailler du côté technique.

Mon avis

Pour ce que j’ai testé, le hashtag me semble vraiment valorisé. En tout cas, j’arrive à faire apparaître mon tweet assorti d’un hashtag dans les updates Social Search et les recherches Web avec hashtag.

Sans le hashtag, ça se complique.  Aucun problème pour la Updates, mais pour la recherche Web, il faut arriver à déclencher une insertion de tweets et ça ne marche pas à tous les coups. Le mix hashtag plus mot clef sans # associé marche aussi.

En dehors de Twitter, je vois passer quelques résultats de micro-blogging issus de FriendsFeed et Jaiku, mais je n’ai rien vu d’autre dans la partie Update ou dans la zone Real Time Search des recherches Web.

Pas trouvé non plus un type de profil privilégié pour les comptes Twitter qui ressortent.
Pour ma part, j’utilise le hashtag dans moins de 10% des tweets. Pour le reste, je ne suis pas plus assidu qu’un autre et encore moins influent. Pourtant, j’ai fais remonter chacun des tweets testés avec hashtag.

Il suffit d’observer quelques minutes une requête comme « haiti » au lendemain des tremblements de terre pour vraiment voir cette recherche en temps réel à l’œuvre. En effet, on remarque la présence d’une plus grande variété de sources qui sont incluses dans la zone de Real Time Search. Les tweets sont même carrément inondés par les articles d’actualités. Les tweets proposés ne m’ont pas paru être indispensables pour mieux comprendre de quoi il s’agit. Je n’ai rien vu passer digne d’être relevé entre les incitations aux dons, les messages de soutien et le relais des articles de presse.

Le seul tweet qui m’a interpellé était d’un humour tellement nul qu’il mérite que je poste le screenshot, mais je ne vois pas ce qu’il venait faire sur la première page de Google.

Bon, je crois qu’il est sage de ne pas s’emballer sur ces inclusions Twitter au sein du moteur Google. J’avais déjà émis des doutes lors de l’annonce du partenariat Twitter et Google, mais je n’ai pas changé d’avis. Ça me semble encore brut de décoffrage et je ne pense pas que l’algorithme qui traite le Real Time Search arrive à la cheville du PageRank. Chris Lake se pose plein de questions et j’avoue ne pas vouloir faire des plans sur la comète sous peine de partir dans les travers du « reverse engineering à la petite semaine » dont j’ai horreur.

A voir si j’ai la motivation pour pousser les tests plus loin que le hashtag, mais je suis curieux de savoir ce que vous avez trouvé au sujet du classement des tweets par Google.

Fondamentalement, le problème reste le même : Google ne comprend pas ce qu’il lit. A partir de là, on peut nous sortir toutes les formules mathématiques possibles sans jamais pouvoir atteindre l’évaluation sémantique nécessaire.

30 réflexions sur “Comment Google classe les Tweets”

  1. Je n’ai fait aucun test à ce sujet, mon compte Twitter étant privé, ceci explique cela 😉 Par contre ce qui m’interpelle c’est que je ne peux pas avoir accès à social search et ça m’ennuie fort.. Et j’avoue ne voir jamais passer aucun tweet dans mes résultats de recherche 😀
    Voilà un commentaire qui ne sert à rien, si ce n’est m’abonner aux autres commentaires qui ne tarderont pas à pleuvoir afin de savoir ce que les autres en pensent!

  2. Merci pour ce retour vraiment intéressant puisque je n’ai pas encore eu le temps de creuser.
    Marie, en mettant tes préférences en anglais, tu vois les tweets par exemple sur Haïti 😉

  3. Ces quelques éléments « brut de décoffrage » sont intéressants concernant l’utilisation le Hashtag.
    D’autres questions viennent à l’esprit sur l’implémentation des tweets :
    – fréquence de rafraichissement (pas le refresh du butineur) de Google sur une expression ciblée
    – impact de l’utilisation des APIs : temps plus long, préférence de twitter.com pour Google
    – qu’est ce qu’un bon tweet : issu d’un compte influent, envoi du tweet « au bon moment », …
    – …
    Que de questions, mais je suis sûr que nous n’avons pas fini d’en discuter 🙂

  4. Les choses évoluent en matière de messages en temps réel dans les serp. Mais au fond, la logique est toujours la même. Cet article est loin d’être inintéressant.

  5. Marie : perso je vois ca depuis le 1er jour où ca été déployé mais j’ai pas vraiment eu le temps de tester 😉 : http://twitpic.com/xyt1y
    Le rafraichissement en temps réel sur les sujets chauds est même perturbant pour la lecture 😉

  6. @Marie : je te rappelle que tu as d’autres comptes qui ne sont pas privés…

    @b@x : ça ne mérite pas non plus de creuser trop profond car tu atteindras vite le fond.
    D’accord sur ton seconde commentaire. C’est même carrément indigeste!

    @Buzzies : tu devrais lire l’article de Chris Lake (lien en fin du mien) car il se pose également beaucoup de questions.
    Pour l’instant, j’ai vu que j’apparaissais à volonté et ça me suffit déjà.

    @Ya-graphique : tant que la sémantique linguistique ne sera pas appliquée, ça restera toujours assez basique, malgré les gadgets de ce type que Google propose.

  7. @laurent mon boulot c’est d’assurer la visibilité d’une marque sur les moteurs de recherche. « Demain » cet affichage sera déployé sur le fr, donc je ne peux pas, ne pas m’y intéresser (tout comme toi)
    Pour ma 2ème remarque, je viens de voir qu’il y avait un bouton pause et ca marche 😉

  8. Ils ont voulu sortir très vite avant les vacances la fonctionnalité. Sans doute car Microsoft était dans la course également. Les deux font de l’oeil à Twitter alors ils prennent des décisions à la va vite. Quand les realtime search sont apparues c’était du grand n’importe quoi.
    Déjà aujourd’hui c’est un peu mieux, il n’y a plus les realtime search sur toutes les requetes d’actu pérennes (ex : obama)
    Si ça se trouve, ils ont juste repris un bon viel algo de typ HITS, avec les profils qui retwittent beaucoup comme hubs et les profils qui font office de sources d’info en authorities. La différence se fera sur la dose de calcul d’influence qu’ils pourront y injecter..
    On va bientot devoir remodeler les Tweets qu’on RT pour passer outre les filtres anti duplication de tweet de GG ! 😀

  9. Merci pour ce billet, il amène de véritables débuts d’éclairage sur un domaine dans lequel je ne me suis absolument pas penché.

    Pour l’instant, l’indexation est la position semble primaire, mais tout évoluera très vite. Je pense sincèrement qu’il est peu compliqué de vite trier pour Google les bons tweets avec quelques indicateurs simples et connus sur Twitter.

  10. Comme Marie et Djolhan je ne vois pas les tweets dans les serp et j’ai désactivé les cookies de Google. Donc il s’agit sans doute de la raison!

  11. « On va bientot devoir remodeler les Tweets qu’on RT pour passer outre les filtres anti duplication de tweet de GG ! »

    Je pense que le RT @pseudo est comme une balise canonical, donc même si cette petite phrase était ironique (je pense), il n’y a aucune crainte à avoir mais on ne se placera jamais avec un RT.

    Billet intéressant, twitter prenant de plus en plus de place dans mon surf ainsi que dans mon trafic il faut que je commence à m’y intéresser sérieusement.

  12. « Fondamentalement, le problème reste le même : Google ne comprend pas ce qu’il lit. A partir de là, on peut nous sortir toutes les formules mathématiques possibles sans jamais pouvoir atteindre l’évaluation sémantique nécessaire. »

    Et en 140 caractères, il n’a pas grand chose à se mettre sous la dent pour « essayer de comprendre » ou de l’approcher d’une thématique précise.

  13. J’ai lu dans un article que le RT est pris en compte dans le calcul de l’autorité mais il ne bénéficie qu’à celui/celle qui est RT…. je n’arrive pas à le retrouver … damned :/

  14. Ping : Bloguer ou ne pas bloguer » Ping pong

  15. Je ne savais pas comment pagerank travaillé, mais cette astuce google pour sélectionner les Tweets qui méritent d’être publiés en temps réel dans les résultats de recherche explique beaucoup de choses. Et il est vraiment étonnant n’est-ce pas.

  16. Je suis assez d’accord, le métier de référenceur évolue après l’aspect technique, après le wording c’est maintenant les « relations publiques » qui ont le plus d’importance.

  17. @laurent mon boulot c’est d’assurer la visibilité d’une marque sur les moteurs de recherche. « Demain » cet affichage sera déployé sur le fr, donc je ne peux pas, ne pas m’y intéresser (tout comme toi)
    Pour ma 2ème remarque, je viens de voir qu’il y avait un bouton pause et ca marche

  18. Ça fait un sacré bout de temps que je suis le référencement et ses méthodes. mais je sûr d’une chose: google a fini par nous rendre dingue. Ma femme est tellement jalouse que je lui parle de google que plus que autres choses.
    Quand cet article sur les tweets, c’est une affaire à suivre.

  19. Maintenant, nous voyons des résultats plus en temps réel dans Google de Twitter en temps réel et d’autres nouveaux sites. SEO devront s’adapter.

Laisser un commentaire