Et si on parlait d’Exalead ?

Le moteur de rechercheParmi les fleurons de la haute technologie française, on peut citer Exalead en bonne place. Les solutions proposées par l’éditeur de logiciels sont pointues et elles paraissent performantes.
D’un point de vue référenceur, j’aime bien suivre les évolutions du moteur de recherche Exalead puisqu’il a toujours focalisé sur la sémantique.

C’est par le biais d’un article présentant le bilan de Quaero, le soi-disant moteur de recherche européen, que je suis retombé sur Exalead puisqu’il fait partie des principaux partenaires.

Exalead

Le moteur de recherche Exalead
Pour rappel, Exalead édite des logiciels B2B basé sur une technologie de recherche qui essaye de se démarquer des ténors du marché. Depuis le début, on sentait que le moteur français s’embarquait sur une tangente intéressante en prenant une approche sémantique. A la base, il s’agit d’extraire des mots clés associés à un document, permettant de déterminer au mieux le véritable sens d’un texte. Aujourd’hui, je reste dubitatif sur le réel succès; même si personne ne peut nier que c’est très intéressant. Au niveau des chiffres, l’index contient 16 milliards de pages Web et 1 milliard d’images.
Le mieux est d’essayer par soi-même en regardant ce que ressort le moteur pour les Termes associés. Parfois c’est pertinent, mais souvent c’est totalement à côté de la plaque.

A vrai dire, le moteur de recherche d’Exalead est toujours resté plutôt confidentiel. Je ne sais pas si vous le voyez passer comme referer dans vos stats, mais ce n’est pas courant.
Quoi que la véritable concurrence s’est toujours située au niveau des autres éditeurs de logiciels similaires, plutôt qu’au niveau des principaux moteurs qui ont des modèles économiques bien différents.

Les progrès de la recherche d’information

Malgré les avancées évidentes dans le domaine de la recherche d’information, dont celles de Google sont les plus en vues, il demeure un gros souci sur le plan fondamental : le moteur de recherche est idiot.

Je veux dire par là qu’il ne comprend toujours pas bien le contenu qu’il indexe.

Il est possible de disserter pendant longtemps sur les progrès et le futur de la recherche d’information comme nous étions plusieurs à discuter lors du billet synchronisé. Certains théorèmes sont vraiment intéressants avec le Latent Semantic Indexing (LSI) en tête, puisqu’il fait toujours couler beaucoup d’encre numérique parmi les référenceurs et autres observateurs du secteur de la recherche d’information. Le dernier article que j’ai lu sur le LSI par l’ami Didier Sampaolo est très intéressant; on sent bien que c’est très tentant d’y succomber de manière applicative. Pour ma part, je l’utilise seulement pour la théorie, mais un prochain article viendra expliquer tout cela en détails.

Donc, pour l’instant nous avons droit à aux préliminaires de la sémantique appliquée à la recherche d’information, mais les principaux moteurs ne sont pas aussi sophistiqués qu’on voudrait bien le croire si on s’interroge sur la compréhension du sens des documents qu’ils indexent.

Quaero

Le moteur de recherche Quaero
Les observateurs du secteur de la recherche d’information se rappellent sans doute l’annonce de lancement du projet Quaero par Jacques Chirac. A l’époque, il s’agissait de s’attaquer frontalement à l’hégémonie de Google par le biais d’un moteur de recherche européen.

Depuis plus rien jusqu’à l’annonce du bilan des deux ans.

Au premier abord, tout cela paraît prometteur : 300 millions d’euros de budget sur cinq ans pour 300 chercheurs qui ont publié 230 publications scientifiques et 20 demandes de brevets. J’en sais fichtre rien si c’est beaucoup ou peu avec tous ces sous et ces savants, mais 20 brevets semble déjà être un bilan intéressant. Cela aboutirait sur un moteur de recherche qui analyse automatiquement les contenus vidéo. Le programme inclut également la traduction instantanée, une télévision personnalisable et d’autres petites choses comme la recherche par similarité/caractéristique colorimétrique et le résumé automatique de morceaux de musique. Bref, on sent bien que l’accent est mis sur l’indexation du contenu multimédia, mais silence radio sur une éventuelle concurrence avec Google.

Le résultat est assez sympathique lorsqu’on regarde l’indexation des vidéos sur le site Elysee.fr avec tout le contenu audio qui est transformé en texte.

Après, je me perds dans qui fait quoi dans ce projet car les partenaires de Quaero préservent apparemment la primeur et la propriété de leurs découvertes, donc pas évident de savoir si c’est Quaero ou Exalead qui a installé le moteur sur le site de l’Elysée ou ailleurs, étant donné que les deux ont l’air de se féliciter des résultats.

Conclusion

Au travers de l’exemple Exalead et Quaero, on peut sentir que les choses bougent. Bien entendu, ils ne sont pas les seuls à bosser sur le futur de la recherche d’information. Les moyens de sociétés privées comme Google et Microsoft sont gigantesques et d’autres sont également sur les rails pour nous sortir le moteur du futur.
Mon propos n’était pas de faire un état des lieux complet ou partir dans des explications pseudo techniques, mais plutôt de montrer qu’il se passe des choses en France. Hormis Exalead et Quaero, il y a des recherches intéressantes dans plusieurs universités françaises, mais on dirait tout de même que l’essentiel reste la garde des chercheurs de la Sillicon Valley.