Les référentiels ont-il un avenir ?

Thésaurus, listes d’autorité, plans de classement… depuis bien longtemps les référentiels ont prouvé leur utilité dans le domaine documentaire. Ils ont été le fondement de la gestion et de l’organisation de l’information dans les cellules documentaires, les bibliothèques, chez les éditeurs de contenus. L’avènement de l’informatique et d’Internet a sensiblement modifié leur usage et a nécessité une refonte de leur format et parfois de leur contenu.

Jusqu’au jour où le Web 2.0 est venu remettre en cause leur existence. Avec la « folksonomie », c’est l’utilisateur qui tagge, qui étiquette, qui décrit. Chacun annote comme il veut et classe comme il l’entend. L’ordre né de l’entropie. Une vraie révolution copernicienne.

« Le pouvoir au peuple ! à bas la dictature des référentiels ! ». En des temps pas si lointains où tout était politique, le référentiel aurait-il été qualifié de bourgeois ? Outil d’asservissement de l’utilisateur ignorant des choses subtiles de la classification et de l’indexation, réservé à une élite sachante ?

La recherche en texte intégral n’est-elle pas la solution idéale ? Le Graal qui délivre la connaissance ? Après Google qui met à mal les cellules de veille, Internet va-t-il tuer les référentiels ? Le référentiel a-t-il vécu ? Il est vrai que si l’on regarde de près des services comme Flickr ou Delicious, les résultats sont plutôt probants.

Lors de la conférence que nous tenons à Documation le 17 mars à 14h30, nous aborderons ce sujet en détail et essayerons de comprendre l’intérêt des référentiels à l’heure du Web 2.0 et de la montée en puissance du Web Sémantique (Web 3.0).

Le sens de la sémantique

Une très grande confusion règne autour du mot « sémantique » qui est utilisé à toutes les sauces dès qu’il s’agit de moteurs de recherche, et force est de constater que les discours marketing des acteurs ne vont pas dans le sens de la clarté.

Tout d’abord, il y a l’indexation sémantique : celle qui consiste, lors de l’analyse d’un document, à rattacher chaque mot à un concept sous-jacent. Ainsi, par exemple, pour le mot jaguar, il faut déterminer s’il s’agit du félin, de la voiture ou de l’avion. Et ça, c’est compliqué. Tout d’abord, il faut une « liste » de concepts cibles (le sens du truc qui est derrière le mot) pour pouvoir transformer le mot en concept. Il faut donc avoir modélisé tous les concepts… Autant dire que c’est peine perdue : cela sous entendrait que tout le monde pense de la même façon et se représente le monde à l’identique. Ensuite, il ne faut pas se tromper lors de l’analyse : faux amis, ambiguïté… Et d’ailleurs, tout ça est tellement compliqué que ça n’a jamais marché. C’est sans doute une des grandes errances et un Graal illusoire des moteurs de recherche des années 80-90. Les grands acteurs de ce domaine se sont dès lors fixé des objectifs plus modestes, mais dont les résultats sont plus probants : extraction d’entités nommées, data mining, etc.

Puis il y a l’extension sémantique. Là, plus de concepts, mais seulement des vocabulaires : dictionnaires de synonymes, thésaurus, taxinomies. Le principe est simple : élargir la recherche de l’utilisateur exploitant les synonymes (même sens), les hyperonymes (sens plus large : véhicule est hyperonyme de voiture et camion) et les hyponymes (sens plus réduit). Et donc, si l’utilisateur cherche une chemise verte, il est de bon ton de lui remonter aussi des chemises kaki ou émeraude. C’est ça l’extension sémantique : étendre la recherche de l’utilisateur en appliquant des dictionnaires. Et si possible uniquement du vocabulaire spécifique à domaine et à un objectif fonctionnel afin de ne pas introduire de bruit. Cette méthode, associée à des traitements linguistiques de type lemmatisation, a largement pris le pas sur les autres car elle offre à la fois de bonnes performances tout en garantissant un coût de mise en œuvre et de maintenance réduit. C’est d’ailleurs le choix d’Antidot pour AFS.

Je passe à regret aujourd’hui sur l’indexation sémantique latente (LSI : Latent Semantic Indexing) qui est une approche mathématique permettant de générer automatiquement lors de l’indexation l’ensemble des concepts d’un corpus et de les relier à des mots et des documents caractéristiques. Ce sujet intéressant fera très certainement l’objet d’un prochain billet.

J’en arrive enfin au web sémantique. Et c’est certainement là que règne la plus grande confusion. Car contrairement à ce que le mot « sémantique » laisse suggérer, il ne s’agit pas pour les moteurs de recherche de découvrir les concepts et le sens caché des textes. Bien au contraire. Il s’agit d’expliciter manuellement le sens des informations afin que les ordinateurs puissent les exploiter de façon automatique, sans ambigüité et à grande échelle. Prenons un exemple : sur le site web d’un restaurant on trouve l’information « ouvert tous les jours sauf le lundi hors période scolaire ». On note que cette phrase est déjà ambiguë pour un humain (« hors période scolaire » s’applique-t-il à « tous les jours » ou à « sauf le lundi » ?) mais elle est franchement inexploitable en tant que telle par un moteur de recherche qui vient lire cette page. L’idée sous jacente au web sémantique est donc qu’il faut ajouter dans la page web des informations formelles (grâce à des balises invisibles à l’utilisateur) afin que les logiciels de recherche puissent collecter cette information et l’exploiter.

Le web sémantique est très loin de l’indexation sémantique et des promesses de l’intelligence artificielle des années 80. Pas d’analyse du sens caché, pas de réponse miracle à une question exprimée en langage naturel. Mais c’est sans doute en cela qu’il va tenir ses promesses. Et comme l’avoue Tim Berners Lee, le mot web sémantique est mal choisi (par lui même) car sujet à trop d’incompréhension, et il suggère d’employer maintenant l’expression « web of data » : le web des données.

C’est vrai que ça fait moins rêver… mais comme les mots ont un sens, autant le respecter !