Du référentiel à l’ontologie

May 17th, 2010

Lors d’un précédent billet nous avons examiné les différents types de référentiels et la façon dont ils étaient exploités par les moteurs de recherche. Dans la continuité de notre tour d’horizon, nous allons maintenant aborder le lien entre référentiels et ontologies.

Comme nous l’avons vu, les référentiels servent à organiser du vocabulaire, c’est-à-dire des mots qui représentent eux-mêmes des personnes, des objets, des choses …
Et c’est là que le bât blesse : les concepts décrits par ces mots sont sous entendus. Ce que décrivent les mots n’est pas  explicité et c’est au lecteur de le déduire.

Exemple :
Si je vous dis « De Gaulle, Mitterrand, Chirac, Sarkozy » … vous répondez Président de la République.
Si je  dis « Cresson, Fillon, Villepin, Jospin » … vous répondez Premier Ministre.
Et pour « Laguiller, Bayrou, Accoyer, Strauss-Kahn », vous pensez personne-politique.

Dans un beau référentiel de type « taxonomie », ou système de classement, nous aurions pu ranger tout ça de la façon suivante :

Personnages politiques
+ Président
|   De Gaulle
|   Mitterrand
|   …
+ Premier ministre
|   Jospin
|   Fillon
|   …
+ Autre
|   Accoyer
|   Strauss Kahn
|   …

Cette taxonomie semble efficace et permet de ranger, classer et organiser les hommes politiques français. Mais si on regarde bien, cette solution a des limites.
La hiérarchie semble décrire une spécialisation, allant du plus générique au plus spécifique :
• Président est une sorte de d’Homme Politique,
• Premier Ministre est une sorte d’Homme Politique.

Mais De Gaulle est une sorte de Président, ça ne va pas. Car “De Gaulle est un Président” et non pas « une sorte de ». On dirait en employant un vocabulaire plus technique et informatique que “Président est une sous classe d’Homme Politique” alors que “De Gaulle est une instance de Président”. Et ça n’est pas pareil. On constate donc que notre taxonomie mélange en fait les niveaux logiques : elle mixe les concepts et les objets.

On a également des cas plus complexes : Chirac fut Premier Ministre et Président. Faut-il dupliquer l’entrée et le mettre dans les deux branches de la taxonomie ? Mais comment être sûr qu’il s’agit de la même personne ?

Et bien une ontologie ça sert à résoudre tous ces petits problèmes en permettant de modéliser les types d’objets et la façon dont ils interagissent.
On peut ainsi définir une classe “Homme Politique“, puis des classes “Président” et “Premier Ministre” comme sous classes de “Homme Politique“. On peut aussi préciser des règles qui décrivent des interactions entre les classes. Exemple : “un Premier Ministre est nommé par le Président“.

Voilà, une ontologie, ça sert à ça : à décrire des aspects du monde (la politique, les médicaments, les voitures, …) en modélisant les choses qui constituent le monde. Tout cela permet aux machines de manipuler ces concepts et de faire des opérations très poussées. On parle alors de raisonnement. Ainsi supposons que nous soumettions à une machine la phrase “Nicolas Sarkozy vient de nommer François Fillon au poste de premier Ministre“, celle-ci serait capable de déduire automatiquement que Nicolas Sarkozy est Président et François Fillon Premier Ministre. Elle pourrait également en déduire que ces deux personnalités sont des Hommes Politiques.

Et les référentiels dans tout ça ? Et bien nos référentiels contiennent des mots qui permettent de nommer les concepts et les objets eux-mêmes. Les mots permettent de faire le lien entre l’homme et la machine. Les mots sont des étiquettes posées sur les objets pour les identifier. Et lorsqu’une ontologie contient tout le vocabulaire nécessaire à ce qu’elle décrit et manipule , on parle de référentiel onto-terminologique.

Dans un prochain billet, nous verrons comment ces ontologies peuvent être exploitées par les moteurs de recherche.

Note pour les puristes : oui la modélisation indiquée ici est simpliste. Il faudrait séparer la modélisation des personnes et de leur fonction, et introduire les modes d’accès à la fonction et la dimension temporelle.

AFS et la tablette

April 9th, 2010

Difficile d’ignorer la vague médiatique autour de la tablette. Qu’il s’agisse de celle d’Apple, HP, Plastic Logic ou Archos, 2010 sera l’année de la tablette.
Chez Antidot, si l’objet nous intrigue technologiquement, il nous intéresse particulièrement pour les évolutions d’usage qu’il introduit ou introduira sous peu.

Plastic Logic Flexible Screen Plastic Logic Reader

Plastic Logic : écrans souple et eReader - Crédit Plastic Logic

Notre vocation est de faciliter l’accès à l’information pertinente. Jusqu’à présent, l’outil privilégié a été le navigateur web sur un poste globalement fixe. La banalisation des smartphones, la croissance du trafic 3G et l’arrivée de la 4G (LTE) montrent que les frontières se déplacent et que l’accès en situation de mobilité devient une réalité. C’est dans ce contexte que les fameuses tablettes et autre e-reader arrivent, rendant plus évident encore le besoin de repenser l’accès rapide à l’information dans des interfaces plus « minimalistes ».

Nos clients, à commencer par ceux de l’édition et des médias, vont sans doute adapter leurs portails et leurs moteurs de recherche à ces nouveaux objets de mobilité.

Un avocat par exemple ne sera-t-il pas tenté d’accéder en ligne à la jurisprudence ou à toute l’information pouvant se révéler déterminante pour ses affaires et ses clients ? Par exemple s’il est désigné d’office pour une comparution immédiate. C’est déjà possible mais le format d’ordinateur et la connectivité vont évoluer et cela sera encore plus naturel demain.

Un médecin trouvera sans doute aussi plus agréable de faire ses visites avec la tablette pour mettre à jour directement les dossiers de ses patients plutôt que de le faire en 2 fois. Si la connexion sans fil est possible dans l’établissement médical, il aura en outre les encyclopédies médicales à portée de main sans surcharge de poids. Quant à l’urgentiste du futur, il accèdera au dossier médical patient à vitesse grand V sur un périphérique plus adapté.

iPad

iPad - Crédit Apple

D’une certaine façon, la relation entre le professionnel et son client devrait être moins entravée par le fameux ordinateur vers lequel on se tourne pour saisir un formulaire ou un compte-rendu. Cela sera plus fluide aussi qu’avec un smartphone dont l’écran rend nécessairement pénible et lente la saisie.
De nouveaux publics profiteront mieux du web car l’expérience de navigation et de consultation sera plus agréable, depuis un fauteuil dans le salon plutôt que dans le bureau.

L’internet mobile va sans doute connaître un nouveau bond en avant et avec lui, les besoins d’informations se feront toujours plus immédiats et surtout plus contextualisés. Certaines tablettes intègreront sans doute un GPS, un appareil photo et les recherches de jouets, d’articles de sport ou d’activités touristiques se feront avec des attentes différentes. C’est déjà possible avec les smartphones mais il y a fort à parier que l’évolution de l’écran du périphérique amène un confort qui décuple l’usage.

Ces différents exemples sont issus de projets en cours chez Antidot. Ils illustrent combien la future tablette a de grandes chances d’avoir un succès rapide.

Vous l’aurez deviné, nous sommes très enthousiastes et totalement acquis en tant qu’amateurs de belles technologies mais surtout en tant que professionnels de l’information.

Réinventer les référentiels

March 25th, 2010

Lors d’un billet précédent, nous avons soulevé la question de l’avenir des référentiels dans un contexte où la recherche en texte intégral et l’avènement du Web 2.0 remettent en cause l’utilité et donc l’existence même de référentiels.

Ce que sont les référentiels

Référentiel : données structurées qui sont de référence (donc qui font autorité) et qui permettent à des applications de fonctionner ensemble.

Les plus connus sont certainement les référentiels terminologiques : dictionnaires, thésaurus, listes de synonymes…  Ils contiennent du vocabulaire, ils font référence pour l’orthographe et la définition des mots et ils permettent aux hommes de communiquer ensemble en définissant un sens commun au langage. Pas de doute, ils répondent à la définition : ce sont des référentiels.

Ces référentiels terminologiques peuvent être :

  • généralistes comme les dictionnaires : Littré : 78423 entrées, Larousse : 135 000 entrées, Wiktionnaire ;
  • encyclopédiques : Rameau, le répertoire autorité-matière édité par la BNF (100 000 noms communs) ;
  • spécialisés : Eurovoc le thésaurus multilingue édité par l’UE, Geonames pour les noms géographiques (8 millions d’entrées), Termsciences pour le vocabulaire scientifique (190 000 concepts, 650 000 termes)
  • métiers : Gemet dans l’environnement (200 000 descripteurs) ; MeSH, SNOMED-CT, WHOART, CIM-10, CCAM, MeDRA, … en santé.

Les systèmes d’information des entreprises regorgent également de référentiels qui parfois ne se savent pas eux-mêmes :

  • les annuaires (LDAP, ActiveDirectory) utilisés pour la sécurité sont des référentiels de personnes, de groupes et de rôles ;
  • les CRM (gestion de la relation client) sont aussi des référentiels de contacts, de clients, de secteurs ;
  • les ERP (gestion de la production) sont des référentiels de produits, de catégories, de références ;
  • les arborescences de fichiers, les structures même des sites web sont des plans de classement.

De l’usage des référentiels par les moteurs de recherche

Qu’ils soient techniques, ou conçus pour faciliter l’usage (classer, trier), ces référentiels sont très utiles aux bons moteurs de recherche qui savent les exploiter pour réaliser de nombreuses fonctions :

  • Extension sémantique : il s’agit d’élargir la recherche par mot clé de l’utilisateur en élargissant la recherche à des termes plus spécifiques ou a des synonymes. A la recherche « voiture », il est de bon ton de remonter des documents parlant également de « cabriolet » et d’ « automobiles ». Cette fonctionnalité est essentielle quand il s’agit de faire correspondre du vocabulaire technique avec celui des utilisateurs plus grand public.
  • Auto complétion : les suggestions de recherche proposées à l’utilisateur alors qu’il saisit les premiers caractères peuvent pour partie provenir des référentiels, ce qui a pour effet d’améliorer considérablement la qualité de sa requête.
  • Suggestions de recherches connexes : ces expressions affichées en marge des réponses afin de proposer à l’utilisateur des recherches similaires sont habituellement générées par analyse des contenus et des requêtes des utilisateurs. Ces suggestions peuvent être avantageusement contrôlées sur la base de la terminologie de référentiel métier afin d’en accentuer l’intérêt et le centrage sur le corpus.
  • Catégorisation : afin d’assurer une continuité entre l’univers informationnel de l’entreprise (la façon dont les données sont rangées dans le SI) et le moteur de recherche, ce dernier doit catégoriser les données de façon similaire et donc exploiter les plans de classement existants.
  • Recherche à facettes : les filtres actifs présentés à l’utilisateur en marge des réponses afin qu’il affine sa recherche par clics sont la plupart du temps issus de référentiels (listes d’autorité, plans de classement) qui doivent être familiers à l’utilisateur pour rendre évident le sens du filtre.
  • Annotation automatique : il s’agit là d’analyser automatiquement les données afin de les caractériser par des mots significatifs. Cette opération « autrefois » réalisée manuellement (indexation manuelle pour créer les fiches bibliographiques) peut être largement automatisée sur la base de l’analyse du texte intégral. Cette fonction permet par exemple de générer le « nuage de mots » significatif d’un document ou d’un ensemble de documents.

Bonnes pratiques

Comme on le voit, loin d’être détrônés par l’annotation libre, les référentiels apportent aux moteurs des données essentielles que la folksonomie ne saurait fournir, et il faut donc voir ces approches « Web 1.0 » et « Web 2.0 » comme complémentaires.

Il est cependant nécessaire que les référentiels évoluent afin de s’adapter à l’usage qu’en fait l’informatique. En particulier les référentiels terminologiques qui ne doivent plus être pensés pour l’indexation manuelle, mais comme matière première des moteurs et autres outils de traitement de l’information.

Quant aux bonnes pratiques, nous n’en préconiserons que 6 :

  1. Evitez les gros référentiels généralistes fourre tout. Ils sont générateurs de trop de bruit.
  2. Préférez les petits référentiels métiers centrés sur des thématiques et des usages spécifiques. Ils n’en seront que plus faciles à maintenir.
  3. Réutilisez au maximum des référentiels terminologiques existants, publiés par les organismes de normalisation ou les groupements professionnels.
  4. Enrichissez-les avec votre vocabulaire maison spécifique que vous maintiendrez séparément dans un esprit « Small is beautiful ».
  5. N’oubliez pas que votre système d’information regorge de référentiels. Identifiez les.
  6. Et enfin, n’oubliez pas vos utilisateurs : construisez des petits plans de classements adaptés à leurs usages, et s’il y a plusieurs besoins, pas de problème, construisez plusieurs taxonomies. Cette multiplicité ne fait pas peur aux moteurs, et vos utilisateurs vous remercieront.