Archive for the ‘Retour d'expérience’ Category

Réinventer les référentiels

Thursday, March 25th, 2010

Lors d’un billet précédent, nous avons soulevé la question de l’avenir des référentiels dans un contexte où la recherche en texte intégral et l’avènement du Web 2.0 remettent en cause l’utilité et donc l’existence même de référentiels.

Ce que sont les référentiels

Référentiel : données structurées qui sont de référence (donc qui font autorité) et qui permettent à des applications de fonctionner ensemble.

Les plus connus sont certainement les référentiels terminologiques : dictionnaires, thésaurus, listes de synonymes…  Ils contiennent du vocabulaire, ils font référence pour l’orthographe et la définition des mots et ils permettent aux hommes de communiquer ensemble en définissant un sens commun au langage. Pas de doute, ils répondent à la définition : ce sont des référentiels.

Ces référentiels terminologiques peuvent être :

  • généralistes comme les dictionnaires : Littré : 78423 entrées, Larousse : 135 000 entrées, Wiktionnaire ;
  • encyclopédiques : Rameau, le répertoire autorité-matière édité par la BNF (100 000 noms communs) ;
  • spécialisés : Eurovoc le thésaurus multilingue édité par l’UE, Geonames pour les noms géographiques (8 millions d’entrées), Termsciences pour le vocabulaire scientifique (190 000 concepts, 650 000 termes)
  • métiers : Gemet dans l’environnement (200 000 descripteurs) ; MeSH, SNOMED-CT, WHOART, CIM-10, CCAM, MeDRA, … en santé.

Les systèmes d’information des entreprises regorgent également de référentiels qui parfois ne se savent pas eux-mêmes :

  • les annuaires (LDAP, ActiveDirectory) utilisés pour la sécurité sont des référentiels de personnes, de groupes et de rôles ;
  • les CRM (gestion de la relation client) sont aussi des référentiels de contacts, de clients, de secteurs ;
  • les ERP (gestion de la production) sont des référentiels de produits, de catégories, de références ;
  • les arborescences de fichiers, les structures même des sites web sont des plans de classement.

De l’usage des référentiels par les moteurs de recherche

Qu’ils soient techniques, ou conçus pour faciliter l’usage (classer, trier), ces référentiels sont très utiles aux bons moteurs de recherche qui savent les exploiter pour réaliser de nombreuses fonctions :

  • Extension sémantique : il s’agit d’élargir la recherche par mot clé de l’utilisateur en élargissant la recherche à des termes plus spécifiques ou a des synonymes. A la recherche « voiture », il est de bon ton de remonter des documents parlant également de « cabriolet » et d’ « automobiles ». Cette fonctionnalité est essentielle quand il s’agit de faire correspondre du vocabulaire technique avec celui des utilisateurs plus grand public.
  • Auto complétion : les suggestions de recherche proposées à l’utilisateur alors qu’il saisit les premiers caractères peuvent pour partie provenir des référentiels, ce qui a pour effet d’améliorer considérablement la qualité de sa requête.
  • Suggestions de recherches connexes : ces expressions affichées en marge des réponses afin de proposer à l’utilisateur des recherches similaires sont habituellement générées par analyse des contenus et des requêtes des utilisateurs. Ces suggestions peuvent être avantageusement contrôlées sur la base de la terminologie de référentiel métier afin d’en accentuer l’intérêt et le centrage sur le corpus.
  • Catégorisation : afin d’assurer une continuité entre l’univers informationnel de l’entreprise (la façon dont les données sont rangées dans le SI) et le moteur de recherche, ce dernier doit catégoriser les données de façon similaire et donc exploiter les plans de classement existants.
  • Recherche à facettes : les filtres actifs présentés à l’utilisateur en marge des réponses afin qu’il affine sa recherche par clics sont la plupart du temps issus de référentiels (listes d’autorité, plans de classement) qui doivent être familiers à l’utilisateur pour rendre évident le sens du filtre.
  • Annotation automatique : il s’agit là d’analyser automatiquement les données afin de les caractériser par des mots significatifs. Cette opération « autrefois » réalisée manuellement (indexation manuelle pour créer les fiches bibliographiques) peut être largement automatisée sur la base de l’analyse du texte intégral. Cette fonction permet par exemple de générer le « nuage de mots » significatif d’un document ou d’un ensemble de documents.

Bonnes pratiques

Comme on le voit, loin d’être détrônés par l’annotation libre, les référentiels apportent aux moteurs des données essentielles que la folksonomie ne saurait fournir, et il faut donc voir ces approches « Web 1.0 » et « Web 2.0 » comme complémentaires.

Il est cependant nécessaire que les référentiels évoluent afin de s’adapter à l’usage qu’en fait l’informatique. En particulier les référentiels terminologiques qui ne doivent plus être pensés pour l’indexation manuelle, mais comme matière première des moteurs et autres outils de traitement de l’information.

Quant aux bonnes pratiques, nous n’en préconiserons que 6 :

  1. Evitez les gros référentiels généralistes fourre tout. Ils sont générateurs de trop de bruit.
  2. Préférez les petits référentiels métiers centrés sur des thématiques et des usages spécifiques. Ils n’en seront que plus faciles à maintenir.
  3. Réutilisez au maximum des référentiels terminologiques existants, publiés par les organismes de normalisation ou les groupements professionnels.
  4. Enrichissez-les avec votre vocabulaire maison spécifique que vous maintiendrez séparément dans un esprit « Small is beautiful ».
  5. N’oubliez pas que votre système d’information regorge de référentiels. Identifiez les.
  6. Et enfin, n’oubliez pas vos utilisateurs : construisez des petits plans de classements adaptés à leurs usages, et s’il y a plusieurs besoins, pas de problème, construisez plusieurs taxonomies. Cette multiplicité ne fait pas peur aux moteurs, et vos utilisateurs vous remercieront.

Les référentiels ont-il un avenir ?

Wednesday, March 10th, 2010

Thésaurus, listes d’autorité, plans de classement… depuis bien longtemps les référentiels ont prouvé leur utilité dans le domaine documentaire. Ils ont été le fondement de la gestion et de l’organisation de l’information dans les cellules documentaires, les bibliothèques, chez les éditeurs de contenus. L’avènement de l’informatique et d’Internet a sensiblement modifié leur usage et a nécessité une refonte de leur format et parfois de leur contenu.

Jusqu’au jour où le Web 2.0 est venu remettre en cause leur existence. Avec la « folksonomie », c’est l’utilisateur qui tagge, qui étiquette, qui décrit. Chacun annote comme il veut et classe comme il l’entend. L’ordre né de l’entropie. Une vraie révolution copernicienne.

« Le pouvoir au peuple ! à bas la dictature des référentiels ! ». En des temps pas si lointains où tout était politique, le référentiel aurait-il été qualifié de bourgeois ? Outil d’asservissement de l’utilisateur ignorant des choses subtiles de la classification et de l’indexation, réservé à une élite sachante ?

La recherche en texte intégral n’est-elle pas la solution idéale ? Le Graal qui délivre la connaissance ? Après Google qui met à mal les cellules de veille, Internet va-t-il tuer les référentiels ? Le référentiel a-t-il vécu ? Il est vrai que si l’on regarde de près des services comme Flickr ou Delicious, les résultats sont plutôt probants.

Lors de la conférence que nous tenons à Documation le 17 mars à 14h30, nous aborderons ce sujet en détail et essayerons de comprendre l’intérêt des référentiels à l’heure du Web 2.0 et de la montée en puissance du Web Sémantique (Web 3.0).

Le prix de la chose

Wednesday, January 6th, 2010

Avec l’arrivée prochaine d’une nouvelle version de notre solution AFS et avec le changement d’année, donc d’exercice commercial, se pose immanquablement la question de la grille tarifaire.

La difficulté pour un éditeur de logiciels comme Antidot n’est pas tant de fixer un prix que de définir les variables qui permettent de calculer une valeur. Quelles sont les métriques à utiliser, sachant que les objectifs sont :

  • Clarté de l’offre : le prix doit être compréhensible et sa variation doit pouvoir être anticipée par le client.
  • Progressivité : en fonction de la richesse fonctionnelle, du volume, de l’usage, du nombre d’utilisateurs, de la valeur créée, …
  • Adaptabilité : l’offre doit être suffisamment modulaire pour que le client ne paye que ce qui est nécessaire à son besoin.

Les pratiques du marché, en tout cas en ce qui concerne les moteurs de recherche, sont variées mais pas forcément adaptées à l’environnement actuel.

Dans un contexte où les technologies évoluent très vite, les métriques basées sur le matériel ou la volumétrie sont dépassées. Ainsi :

  • La tarification au serveur, au processeur ou au gigahertz n’est plus envisageable avec la généralisation des multi-cœurs et la diversité des plateformes.
  • La tarification au volume indexé (compté en volume de données ou en nombre de documents) est également difficile à appliquer : une image pèse lourd mais n’a que peu d’information à fournir ; un catalogue très complexe de 100 000 produits ne pèse que quelques dizaines de mégaoctets, soit moins qu’un gros fichier PDF. La disparité informationnelle et l’écart de valeur entre les sources sont des obstacles insurmontables.
  • Un prix basé sur la taille de l’index de recherche est ‘créatif’ mais il ne répond pas du tout au critère de clarté et de lisibilité de l’offre. Il est trop dépendant de la technologie et il est incertain : en effet le changement d’un paramètre de configuration peut faire varier la taille de l’index généré de façon sensible, de même qu’un changement de version logicielle peut du jour au lendemain ajouter 30% à la facture.

A l’opposé de ces « métriques techniques », il y a la tarification basée sur l’usage ou la valeur créée. Cette approche demande une analyse, une connaissance et une segmentation très fine des marchés. Et là aussi les écueils sont nombreux :

  • Un prix au nombre d’utilisateurs n’est pas adapté dans les environnements Web, et la transposition en nombre de sessions simultanées ne convient pas pour les architectures SOA à base de Web Services.
  • La tarification au pourcentage du chiffre d’affaires ressemble par trop à une dime, et ne convient qu’aux logiciels qui structurent l’entreprise et sont à la base de sa génération de valeur.
  • En outre, le risque existe qu’une telle tarification soit ressentie comme un prix à la bonne mine du client, laissant la porte ouverte à toutes les dérives commerciales possibles.

Et si l’on ajoute à cela des modes d’utilisation du logiciel variés, allant de la classique licence et son support pour les logiciels installés sur le site du client,  au mode ASP (le fameux SaaS, où le logiciel est vendu comme un service), la complexité n’est que plus grande.

Je ne sais pas si la définition d’une grille tarifaire est un art, comme certains le prétendent, mais c’est en tout cas un sacré casse-tête. Voilà en tout cas un problème que ne connaît pas le logiciel libre et qui ne doit pas m’empecher de vous souhaiter à tous une excellente année 2010 !