Archives par étiquette : Antidot Finder Suite

Moteurs de recherche : faites la chasse aux requêtes sans réponse ! [2/3]

Nous avons vu dans un précédent billet comment traiter automatiquement les erreurs de saisie et fautes de frappe.

Examinons maintenant un autre cas de figure :

2. Les requêtes utilisant un vocabulaire différent du vôtre

Dans ce cas l’utilisateur ne s’est pas trompé dans sa requête, mais a utilisé un vocabulaire qui n’est pas celui de vos documents ou fiches produits. Plusieurs scenarii sont possibles :

a. L’utilisation de synonymes ou abréviations

Les utilisateurs peuvent utiliser des mots différents de ceux de vos fiches, pourtant ils désignent la même chose : « gratte » au lieu de « guitare » pour un musicien de rock, « voiture » ou même « bagnole » pour « automobile », « loi Aubry » ou « loi des 35 heures » pour « loi n° 98-461 ».

Une solution basique serait de surcharger manuellement vos documents avec les différentes formes possibles des mots utilisés : cela fonctionnerait, mais c’est loin d’être la solution optimale.

Utilisez plutôt un dictionnaire de synonymes. Démarrez avec une simple liste à plat de mots ou d’expressions et listez les synonymes métier, les abréviations fréquemment employées… Ces équivalences seront appliquées automatiquement par le moteur de recherche pour optimiser la réponse à vos utilisateurs.

Chez Decathlon le terme « hula-hoop » désigne aussi un « cerceau » :

2.1.ScreenshotDecathlonCliquer pour agrandir l’image

Vous n’avez pas besoin de constituer la liste d’une seule traite, commencez par une première base, que vous enrichirez au fur et à mesure.

 

b. L’utilisation de concepts parents

Vos utilisateurs peuvent parfois utiliser des termes plus larges que ceux très spécifiques utilisés dans vos contenus. Mais on ne peut pas parler de synonymes au sens strict. Un utilisateur peut par exemple chercher « voiture » là où vos documents mentionnent des « cabriolets », ou encore chercher « sport de raquette » quand vos documents évoquent spécifiquement le « tennis », le « badminton » ou le « ping pong ».

Dans ce cas là, il est préférable de passer par un dictionnaire de concepts hiérarchisé, ou thesaurus.

A la différence de la liste de synonymes mentionnée plus haut, le thesaurus sert à organiser des termes de manière hiérarchique avec plusieurs niveaux d’information. On parle dans ce cas de concepts parents ou enfants.

Les moteurs de recherche utilisent ces dictionnaires pour répondre de manière précise à des requêtes larges ou floues, mais en aucun cas ils ne doivent répondre de manière générique à une requête très précise : il faut en effet prendre comme hypothèse que l’utilisateur qui cherche un terme très précis souhaite justement obtenir un contenu adapté.

Sur le site « Croquons la vie » de Nestlé, les « snacks » désignent les « burgers » , « tartines » et « croque-monsieur » :

2.2.ScreenshotNestléCliquer pour agrandir l’image

Les moteurs de recherche de dernière génération savent prendre en compte les niveaux de hiérarchie dans le classement par pertinence de leurs résultats.

Ainsi un moteur de recherche efficace, comme Antidot Finder Suite, va d’abord proposer des fiches qui contiennent exactement le mot recherché avant de proposer d’autres fiches qui contiennent des concepts enfants.

c. Compréhension du langage naturel

Dans d’autres cas les utilisateurs vont, en plus des mots clés significatifs, utiliser des expressions pour mieux qualifier leurs requêtes : « Inférieur à un certain prix », « Postérieur à une certaine date »… et se retrouvent sans réponse alors que avez du contenu adapté.

Prenons l’exemple suivant d’un site de e-commerce: si un visiteur saisit « Chaussures à moins de 100 euros« , cette requête risque de ne pas donner de résultats parce qu’il n’y a probablement pas de fiches de chaussures contenant « à moins de ». Et elle ne proposera pas des chaussures à 50 euros, parce que leur fiche ne contient pas « 100 ».

Il est facile pour nous humains, dotés d’un cerveau très puissant, d’interpréter la recherche et de se rendre compte qu’en fait la recherche porte simplement sur des chaussures, avec un filtre sur leur prix. Mais c’est bien plus compliqué lorsqu’il s’agit de l’expliquer au moteur de recherche !

Il existe donc, pour gérer ce genre de cas, des modules de réécriture qui servent à identifier certaines formes de requêtes et à les transmettre au moteur de recherche avec la syntaxe qu’il sait gérer au mieux.

Dans notre cas, l’expression « à moins de 100 euros » se retrouve réécrite en filtre : « prix < 100 », permettant ainsi au moteur de trouver les résultats pertinents.

 

d. Information existante mais pas sous forme de mots-clés

Dans certains cas, l’information recherchée est présente dans vos contenus, mais pas sous forme de plein texte.

Dans un catalogue de produits alimentaires par exemple, des clients peuvent rechercher le mot-clé « bio ». Mais si l’information n’existe que sous forme de case à cocher Oui / Non dans le catalogue, le moteur ne va pas retrouver le mot-clé en tant que tel dans les fiches des produits.

Le client n’aura donc pas de résultats alors qu’il existe de nombreux produits susceptibles de l’intéresser.

Dans ce cas, un traitement est à prévoir en amont. Il faut prévoir des mécanismes d’enrichissement de vos contenus qui ajoutent les mots-clés nécessaires à vos fiches avant leur indexation. Ces traitements peuvent directement être pris en charge par le moteur de recherche.

Nous verrons la semaine prochaine comment traiter les cas de requêtes sans réponse qui subsisteraient encore après mise en oeuvre des bonnes pratiques que nous vous avons présentées.

 

Moteurs de recherche : faites la chasse aux requêtes sans réponse ! [1/3]

L’objectif premier d’un moteur de recherche est de répondre de manière juste et précise aux requêtes de ses utilisateurs, en leur apportant les documents les plus pertinents.

Les requêtes sans réponses sont très déceptives et peuvent dans certains cas détourner les utilisateurs de votre site. Toutefois, ces requêtes infructueuses ne sont pas une fatalité, et voici quelques conseils pour optimiser vos réponses afin d’augmenter la satisfaction de vos utilisateurs !

Il existe plusieurs types de requêtes sans réponse qui concernent pourtant des documents/produits que vous proposez :

1. Les requêtes avec fautes d’orthographe

Elles constituent une grande partie des requêtes sans réponses. L’utilisation d’un module de correction orthographique s’avère donc incontournable.

Les correcteurs orthographiques de pointe ne se basent pas sur des dictionnaires mais sur une analyse statistique de vos contenus. Ils sont ainsi capables de suggérer des corrections de noms propres, abréviations et autres néologismes en prenant en compte ce qui se trouve vraiment dans vos documents ou fiches produits.

Vous pouvez soit proposer une correction à vos utilisateurs, soit exécuter automatiquement la recherche avec le mot corrigé.

Voici un exemple avec le Conseil Supérieur de l’Audiovisuel, dont le moteur de recherche Antidot Finder Suite suggère la correction orthographique du nom de son président Olivier Schrameck en laissant le visiteur relancer sa requête :

1.1.ScreenshotCSACliquer pour agrandir l’image

Autre exemple avec  Damart : notre moteur de searchandising  AFS@Store a été paramétré pour corriger la faute d’orthographe et relancer automatiquement la recherche :

1.2.ScreenshotDamartCliquer pour agrandir l’image

Dans les deux cas, n’oubliez pas de mentionner la requête originale ainsi que la requête corrigée, pour mieux informer vos utilisateurs.

Un autre moyen d’éviter les requêtes sans réponses dues à des fautes d’orthographe est l’usage d’un module d’auto-complétion tolérant aux fautes d’orthographe. L’utilisateur se voit proposer des suggestions de recherche dès les premières lettres saisies, et s’il en sélectionne une, sa requête sera naturellement bien formulée.

Avec l’auto-complétion de Cultura, qui utilise aussi AFS@Store, peu de chances que l’utilisateur se trompe en cherchant Michel Houellebecq :

1.3.ScreenshotCulturaCliquer pour agrandir l’image

Les suggestions d’auto-complétion peuvent être éditorialisées, elles vous permettront de mettre en valeur certaines requêtes, et donc de promouvoir les documents ou produits associés. C’est donc une solution doublement utile !

Nous verrons dans un prochain billet un autre cas de figure : comment trouver des résultats à une recherche pour laquelle l’utilisateur emploie des mots spécifiques qui ne figurent pas parmi les documents indexés…

À suivre la semaine prochaine !

 

Antidot participe au co-design de data.gouv.fr initié par la mission Etalab (2/2)

logoEtalab200pxDans un précédent billet, nous avons exposé notre perception des enjeux stratégiques pour data.gouv.fr, en réponse à la consultation Etalab : confiance dans les données et intégration dans l’écosystème du web.

Ces enjeux trouvent leur réponse dans des choix organisationnels et technologiques :

  1. Comment améliorer la collecte et la pertinence des données ?
  2. Comment faciliter la réutilisation et l’exploitation des données ?

« Comment améliorer la collecte et la pertinence des données ? »

Crowdsourcing et aspects collaboratifs

Le « crowdsourcing » est en vogue, mais  les coûts de mise en place de l’infrastructure nécessaire au travail collaboratif et d’animation d’une communauté nous semblent bien supérieurs aux retours réels. Il nous paraît plus intéressant de mettre en place des actions communes avec des communautés bien établies comme par exemple, Wikipedia, Open Street Map et ainsi de profiter de leur savoir-faire et de leur infrastructure dans l’animation d’une communauté.

À titre d’exemple, il serait intéressant de s’appuyer sur le portail DataHub administré par l’Open Knowledge Foundation pour repérer de nouveaux jeux de données disponibles relatifs à la France, et aussi mieux faire connaître les jeux de données publiés sur Etalab.

Automatisation de la collecte et des traitements

Jusqu’à maintenant, le portail data.gouv.fr s’est limité à la mise à disposition des jeux de données sans retraitement, tels qu’ils ont été chargés au sein du portail par les producteurs et à leur  description via quelques métadonnées.

Il nous paraît envisageable de déployer une infrastructure technique à même d’effectuer des tâches automatiques pour collecter, nettoyer, harmoniser et relier les jeux de données disponibles sur le portail. Ce travail pourrait se situer aussi bien au niveau des métadonnées des jeux de données que des données elles-mêmes. C’est exactement ce qu’a réalisée le CNRS dans le cadre du projet ISIDORE.

« Comment faciliter la réutilisation et l’exploitation des données ? »

Se donner l’objectif d’un portail de données « 5 étoiles »

Dans le document « Publishing Open Government Data » publié en 2009 par le W3C, Daniel Bennett et Adam Harvey ont expliqué les différentes étapes pour publier des données « gouvernementales ». Ils insistent sur le fait de rendre les données accessibles aussi bien pour les humains que pour les machines et reprennent  les éléments exposés par Sir Tim Berners-Lee, l’inventeur du Web, dans sa typologie des initiatives de mise à disposition libre des données sur le Web.

Aujourd’hui data.gouv.fr n’en est qu’à la première étape, c’est-à-dire « la mise à disposition sur le Web quel que soit le format mais avec une licence libre ». Or nous sommes convaincus que la réutilisation massive des données n’est possible à terme que si les jeux de données s’intègrent parfaitement dans le Web, en utilisant ses principes et standards.

Dans un premier temps, il est nécessaire et urgent de proposer un annuaire des jeux de données disponibles dans un langage machine (XML, Json ou CSV) et de préférence en suivant les principes et standards du Linked Data (ou Web de données) basés sur des URI pour identifier les ressources, le protocole HTTP pour y accéder, les standards RDF pour récupérer une information sémantisée  et le maillage systématique des données pour créer un écosystème basé sur les liens. Pour cela, Etalab pourrait utiliser le vocabulaire DCAT (Data Catalog Vocabulary) en cours de normalisation au sein du W3C  par le groupe de travail « Government Linked Data ».

Dans un second temps, il serait important, comme le fait le portail britannique data.gov.uk, d’appliquer ces principes à certains jeux de données : la conversion en RDF de certains jeux de données de data.gouv.fr permettrait de proposer leur interrogation via un SPARQL endpoint constituant un Web service universel pour l’interrogation des données structurées et favorisant la réutilisation.

Poser une exigence de qualité des données et de complétude des métadonnées

Assurer la confiance sur le long terme passe par une exigence de qualité sur les données comme sur les métadonnées qui les décrivent. A cet égard, nous avons fait une amère expérience sur la version actuelle de data.gouv.fr.

Les données sont issues de processus et de traitements informatiques qui peuvent évoluer,  donc les structures de données peuvent changer. C’est pourquoi le portail data.gouv.fr devrait inclure un système de gestion des versions et documenter les changements, au niveau de la fiche sous la forme d’un « changelog » et aussi dans les métadonnées. Ces changements seront disponibles dans un langage machine pour  être interprétables par les logiciels consommateurs des données.

D’une manière générale, il nous semble que des métadonnées sont nécessaires pour disposer d’un contexte suffisant pour apporter la confiance, et notamment  la provenance du jeu de données, le nom du producteur, la date de création,  la date de mise à jour, la périodicité de mise à jour, la portée géographique des données, la portée temporelle des données.

Proposer des APIs pour simplifier la réutilisation

Comme l’a montré Christian Fauré dans son billet « DataCulture et APIculture », les principes du Linked Data et la mise en place d’Open API sont complémentaires et répondent à des usages différents : si les API, plus proches des pratiques actuelles des développeurs, simplifient la réutilisation des données et favorisent leur inclusion dans une économie marchande, les technologies du Web sémantique et les principes du Linked Data inscrivent directement les données dans l’espace d’interopérabilité global que constitue le Web.

Autres sujets, non technologiques, abordés dans notre réponse à Etalab

Le questionnaire établi par Etalab comportait d’autres points, relatifs à l’utilisation du portail et à sa visibilité :

« Quelle doit être l’expérience utilisateur sur le site ? »

Nous avons proposé d’améliorer la navigation pour favoriser la sérendipité, et suggéré des pistes pour mieux faire connaître les jeux de données et mieux accompagner les institutions publiques dans le monde de l’Open Data

« Comment favoriser la réutilisation et l’innovation à partir de la plateforme ? »

Une des difficultés de l’Open Data réside paradoxalement dans les vastes perspectives qu’il offre : il est complexe d’imaginer de nouveaux usages à partir de données brutes dont le contexte de création est inconnu. Il faut donc accompagner à la fois les développeurs, mais pas seulement : les résultats des concours d’applications et des hackathons restent dans une sphère relativement restreinte. Il est donc nécessaire d’effectuer un véritable travail de marketing et de valorisation des différents jeux de données et des perspectives qu’ils ouvrent dans les différents secteurs de l’économie réelle.

Par exemple, sur la base de projets auxquels Antidot travaille

  • dans le domaine des médias et de la presse, les données de l’Open Data permettent d’offrir des services contextuels aux contenus éditoriaux.
  • dans le domaine des transports, la question de la « smart mobility » pour offrir informations pratiques et proposer des activités sur le lieu de destination est au cœur des enjeux.

Il faut ainsi susciter chez les acteurs économiques dans les différents secteurs d’activités des nouvelles perspectives, où l’utilisation des données ouvertes apparaît clairement comme créatrice de valeur.

« Comment mieux insérer data.gouv.fr dans le réseau des ressources open data »

Nous suggérons que Data.gouv.fr alimente au nom de la France le portail DataHub du Comprehensive Knowledge Archive Network pour inscrire l’action Open Data de la France dans une dimension internationale.

« Comment construire un retour vers les administrations qui partagent leurs données ? »

Il nous semble important que les administrations trouvent un intérêt à la mise à disposition de leurs données pour en comprendre l’enjeu. Or les organisations publiques sont productrices de données et aussi consommatrices : par la récupération de leurs propres données, lorsqu’elles ont été corrigées ou enrichies, et par l’utilisation des données issues d’autres organisations

Ainsi, une boucle de rétroaction positive peut se mettre en place pour

  • améliorer au fur et à mesure la qualité des données mises à disposition
  • mieux intégrer la démarche de mise à disposition libre des données au sein des systèmes d’information.

La plateforme Isidore a été construite sur ce modèle vertueux : cette expérience positive démontre qu’un important travail d’accompagnement est nécessaire, mais que ces efforts portent leurs fruits.

Conclusion provisoire

En complément de la synthèse que vous venez de lire, vous trouverez notre réponse complète sur notre site web, sous forme d’un document PDF disponible ici.

Nous espérons, par ce travail, avoir contribué utilement au développement de l’Open Data en France. N’hésitez pas à utiliser les commentaires de ce billet pour prolonger la réflexion en partageant votre point de vue !