Comment Google classe les Tweets

Depuis un mois, nous voyons apparaître les Tweets – messages issus de la plateforme de micro-blogging Twitter – au sein des résultats de recherche lorsque la fonctionnalité Social Search est activée.

La question qui se pose maintenant est de savoir comment Google s’y prend pour choisir les Tweets à faire apparaître au sein des pages de résultats.

C’est à la lecture d’un article de David Talbot (pionnier du journalisme en ligne et web entrepreneur) que nous pouvons extraire quelques informations grâce aux commentaires de Amit Singhal, responsable de la Search Quality chez Google et chef du projet Real Time Search.

Classement du Tweet basée sur le PageRank

Apparemment, Google utilise une technologie semblable à celle du PageRank afin de sélectionner les Tweets qui méritent d’être publiés en temps réel au sein des résultats de recherche et dans les Updates du Social Search.

La clef est d’identifier les Followers de réputation honorable. Dans ce sens, le nombre de Followers n’est pas le critère prépondérant. C’est plutôt l’ensemble du réseau autour du compte qui est analysé afin de voir si l’environnement est construit autour d’une réputation qu’on peut qualifier de « recommandable » ou « honorable. » Nous retrouvons ainsi les notions d’autorité et réputation qui sont fortement impliquées dans le calcul du PageRank.

Encore et toujours le spam en ligne de mire

Maintenant, il faut bien que Google puisse décider instantanément si un Tweet tend à être du spam ou même de mauvaise qualité.

Le hashtag (#) est utilisé au sein des Tweets afin d’associer le message à certains mots clés. Cela permet de faire remonter le Tweet lorsqu’un utilisateur entre la requête associée au hashtag dans le moteur de recherche Twitter.

L’intérêt est d’accroître la visibilité d’un Tweet, mais cela engendre évidemment des abus avec des Tweets qui sont gavés de mots clés ou qui veulent faire passer un message publicitaire. Du coup, le hashtag est aussi symbole de spam, pub et mauvaise qualité. Pour bien faire, il faut savoir l’utiliser sans en abuser.

Singhal prétend qu’ils ont réussi à modéliser le comportement des utilisateurs par rapport à l’utilisation du hashtag. Bien entendu, il n’est pas rentré dans les détails, mais il remarque que cela constituait le véritable challenge technique du Real Time Search.

Lorsqu’un utilisateur émet une requête, Google scanne les Tweets afin d’en retirer le ratio signal/bruit adéquat. Un signal fort poussera le moteur à afficher des Tweets en relation avec la requête, fournissant ainsi les résultats les plus frais possibles.

Dans le futur, Google et Twitter veulent pousser du côté de la géo location des données, ainsi que de la téléphonie mobile.

Enfin Singhal rassure sur le fait que Twitter n’est pas le seule source d’information en temps réel. Chez Google, les autres médians (actualité, blogs, pages Web) sont interprétée comme des composants du Web en temps réel. Twitter est juste pratique car il comporte un contenu très limité sur lequel il est plus facile de travailler du côté technique.

Mon avis

Pour ce que j’ai testé, le hashtag me semble vraiment valorisé. En tout cas, j’arrive à faire apparaître mon tweet assorti d’un hashtag dans les updates Social Search et les recherches Web avec hashtag.

Sans le hashtag, ça se complique.  Aucun problème pour la Updates, mais pour la recherche Web, il faut arriver à déclencher une insertion de tweets et ça ne marche pas à tous les coups. Le mix hashtag plus mot clef sans # associé marche aussi.

En dehors de Twitter, je vois passer quelques résultats de micro-blogging issus de FriendsFeed et Jaiku, mais je n’ai rien vu d’autre dans la partie Update ou dans la zone Real Time Search des recherches Web.

Pas trouvé non plus un type de profil privilégié pour les comptes Twitter qui ressortent.
Pour ma part, j’utilise le hashtag dans moins de 10% des tweets. Pour le reste, je ne suis pas plus assidu qu’un autre et encore moins influent. Pourtant, j’ai fais remonter chacun des tweets testés avec hashtag.

Il suffit d’observer quelques minutes une requête comme « haiti » au lendemain des tremblements de terre pour vraiment voir cette recherche en temps réel à l’œuvre. En effet, on remarque la présence d’une plus grande variété de sources qui sont incluses dans la zone de Real Time Search. Les tweets sont même carrément inondés par les articles d’actualités. Les tweets proposés ne m’ont pas paru être indispensables pour mieux comprendre de quoi il s’agit. Je n’ai rien vu passer digne d’être relevé entre les incitations aux dons, les messages de soutien et le relais des articles de presse.

Le seul tweet qui m’a interpellé était d’un humour tellement nul qu’il mérite que je poste le screenshot, mais je ne vois pas ce qu’il venait faire sur la première page de Google.

Bon, je crois qu’il est sage de ne pas s’emballer sur ces inclusions Twitter au sein du moteur Google. J’avais déjà émis des doutes lors de l’annonce du partenariat Twitter et Google, mais je n’ai pas changé d’avis. Ça me semble encore brut de décoffrage et je ne pense pas que l’algorithme qui traite le Real Time Search arrive à la cheville du PageRank. Chris Lake se pose plein de questions et j’avoue ne pas vouloir faire des plans sur la comète sous peine de partir dans les travers du « reverse engineering à la petite semaine » dont j’ai horreur.

A voir si j’ai la motivation pour pousser les tests plus loin que le hashtag, mais je suis curieux de savoir ce que vous avez trouvé au sujet du classement des tweets par Google.

Fondamentalement, le problème reste le même : Google ne comprend pas ce qu’il lit. A partir de là, on peut nous sortir toutes les formules mathématiques possibles sans jamais pouvoir atteindre l’évaluation sémantique nécessaire.