Archives par étiquette : sémantique

Moteurs de recherche : vers un usage banalisé des thésaurus ?

Une étude intéressante venue d’Autriche

La Semantic Web Company est une entreprise viennoise spécialisée, comme son nom l’indique, dans la mise en œuvre des technologies du web sémantique. Dans un billet de blog publié le 26 juin et titré « Dans un proche avenir, les moteurs de recherche basés sur des thésaurus seront généralisés »  SWC publie le résultat d’une étude sur le thème des vocabulaires contrôlés, menée en mai-juin 2011 auprès de plus de 150 intervenants dans 27 pays.

A la première question, « Pensez-vous que les entreprises et autres organisations peuvent grandement bénéficier de l’utilisation du Linked Data ? », la réponse est clairement OUI.


Une question corollaire révèle également que  les organisations de toutes tailles ont globalement la même opinion sur le Linked Data. Seules 14 répondants sur 158 considèrent que le Linked Data est un phénomène de niche. On peut globalement dire que plus de 90% des participants pensent que la plupart ou tout au moins certaines organisations peuvent bénéficier du Linked Data.

Les réponses à la seconde question, « Pensez-vous que les moteurs de recherche qui utilisent des thésaurus afin d’améliorer les résultats seront généralisés ? » sont étonnantes : les deux tiers des participants pensent que la recherche basée sur des thésaurus est déjà ou deviendra dominante dans un avenir proche.

Enfin, les réponses à la question  « Quelle est l’importance de l’utilisation de normes comme SKOS pour les vocabulaires contrôlés ? » parlent d’elles-mêmes.

Plus des trois quarts des participants à l’enquête sont convaincus que des standards comme SKOS sont importants pour leur travail quotidien. Deux ans après l’adoption du nouveau standard SKOS en août 2009, il peut être considéré comme adopté puisque 48,7% des répondants ont déclaré que SKOS est « très important » et 29,1% le désignent comme « pertinent ».

En synthèse de cette étude, on peut dire que la communauté du web sémantique a fait un excellent travail pour convaincre les utilisateurs de vocabulaires contrôlés de tirer avantage de SKOS et du Linked Data. Pour autant, seulement 3 à 5% des interrogés sont informés de l’existence de SparQL considéré comme un outil utile pour construire des API standard autour des vocabulaires contrôlés, afin de réduire les coûts d’implémentation de systèmes d’organisation des connaissances.

Antidot a pris cette orientation il y a plus de 5 ans…

 

Aujourd’hui, de nombreux articles et conférences sont consacrés aux apports industriels du web sémantique et nous nous en réjouissons.

Car cela fait de nombreuses années qu’Antidot a décidé d’intégrer à ses technologies les standards du web sémantique. Dès 2005, alors même que ces standards étaient encore en discussion au sein du W3C, et après avoir participé à des projets de recherche sur ces sujets, nous sommes allés résolument de l’avant, car nous étions convaincus  que l’amélioration de la qualité des résultats fournis par un moteur de recherche passerait notamment par l’utilisation de thésaurus et de vocabulaires contrôlés.  Ainsi, dès 2007, nous avons mis en œuvre SKOS et RDF dans des projets industriels, par exemple pour le moteur de recherche de petites annonces du groupe PagesJaunes.

Mais bien au delà des apports évidents de l’utilisation des vocabulaires contrôlés et plus largement des référentiels,  notre engagement s’est également porté sur le Linked Data car nous pensons que la consolidation des données internes de l’entreprise avec des données externes démultiplie la valeur de l’information et donc son efficacité pour l’utilisateur. Ces deux points (référentiels et Linked data) sont d’ailleurs liés puisque les référentiels jouent un rôle clés dans le maillage de l’information et servent de pivot pour articuler les données issues de sources diverses.

… et nos choix sont validés par des projets industriels

C’est sur la base de ces travaux, passés de la R&D à l’application concrète, que notre produit phare, le moteur de recherche Antidot Finder Suite, supporte depuis des années les ontologies et thésaurus décrits selon les formalismes OWL et SKOS.

Pour donner un exemple très simple de leur utilisation, c’est grâce à un thésaurus de couleurs nativementexprimé en SKOS, qu’un site marchand vendant des articles textiles et utilisant AFS@Store pourra proposer un vêtement « kaki » à un utilisateur cherchant du « vert » et ceci même si le mot « kaki » ne figure pas explicitement dans la fiche produit :

Autre exemple chez un client institutioneld’Antidot, avec l’AFPA : le moteur de recherche mis en place sur le site web de l’organisme en charge de la formation professionnelle des adultes – www.afpa.fr – intègre le thésaurus Formacode® 2008 pour réaliser une extension sémantique entre le code ROME de l’ANPE et les offres de  formation proposées par l’AFPA :

Cette intégration au moteur de recherche du thésaurus métier, formalisé en SKOS, permet de catégoriser automatiquement toute l’offre de formation et d’y donner accès de manière plus intuitive pour les utilisateurs, qui s’expriment naturellement avec leurs propres mots.

Au-delà de ces deux exemples impliquant la mise en œuvre de vocabulaires contrôlés, Antidot considère que les standards du web sémantique constituent désormais un apport majeur pour mieux

  • produire automatiquement des métadonnées sémantisées et standardisées au format RDF, à partir de différentes sources dont on collecte les données qui sont ensuite automatiquement agrégées et dynamiquement articulées ;
  • restituer ces données sous forme d’une information nouvelle, enrichie, orientée usage et utilisateur, qui peut être exposée dans la logique du Linked Data.

C’est pour cela que nous avons lancé il y a quelques mois notre solution Antidot Information Factory qui permet de construire et d’exploiter des chaînes de captation et transformation des données pour une mise en relation intelligente des informations disponibles. AIF a rendu possible de grandes réalisations, comme la plateforme ISIDORE du CNRS – TGE Adonis qui apporte un accès unifié à plus d’un million de publications produites par la recherche française en sciences humaines et sociales, et qui constitue à ce jour un des plus grands projets Open Data français.

D’autres projets de grande ampleur, qui tirent parti de façon industrielle des thésaurus, et plus largement du web sémantique et de l’approche du Linked Data, sont en phase de développement chez nos clients et seront mis en production dans les prochains mois. Ces réalisations emblématiques démontrent tout le bien fondé de notre approche technologique, nous ne manquerons pas de vous les présenter le moment venu !

Des lettres et des chiffres

L’analyse formelle en bout de course

« Au commencement était le Verbe… et le Verbe s’est fait chair. » Puis les hommes se sont mis à assembler des mots entre eux pour s’exprimer. Le langage, cette fonction qui nous semble tellement élémentaire, a été l’un des premiers grands chantiers de l’Intelligence Artificielle. En effet, dès la fin des années cinquante, l’expérience de Georgetown, menée notamment par IBM, a suscité un espoir démesuré : « within three or five years, machine translation would be a solved problem ». Cet espoir fut à la hauteur de la désillusion provoquée par les faibles résultats constatés.

Cinquante ans plus tard, où en sommes-nous ? La description formelle des langues pour leur utilisation dans des systèmes automatisés a montré ses limites. L’utilisation exclusive de grammaires formelles est incapable de saisir la complexité d’une langue. La principale difficulté réside en un seul mot : ambiguïté. Les rustines techniques ne manquent pas pour tenter de contourner le problème et les années soixante-dix et quatre-vingt ont été particulièrement riches dans la mise en place de systèmes de règles sémantiques, supposées permettre une plus grande précision dans l’analyse de la langue. Ces systèmes n’ont pourtant apporté que des améliorations marginales dans le traitement automatisé de la langue.

L’arme fatale

En fait, la « balle d’argent » semble avoir été tirée par un curieux fusil que le monde de l’informatique et de l’IA semblait avoir négligé : la probabilité. Avec l’introduction de modèles de langue probabilistes, Google, pour sa première participation en 2008, a classé son système de traduction automatique à la première place de toutes les tâches de la campagne Open Machine Translation du NIST (arabe vers anglais, chinois vers anglais, ourdou vers anglais, anglais vers chinois).

En à peine vingt ans, les techniques probabilistes ont propulsé les capacités des systèmes de traduction automatiques à des hauteurs que quarante ans de systèmes formels n’avaient fait qu’entrevoir.

Le LDA pour les nuls

Ces résultats ont encouragé les chercheurs à appliquer le paradigme probabiliste à d’autres tâches au sein du traitement automatique du langage. Et l’un des concepts les plus prometteurs dans ce domaine est le LDA, ou Latent Dirichlet Allocation. Nous nous plaçons cette fois-ci dans le cadre d’un grand nombre de documents, ce qu’on appelle un corpus. Chaque document est vu comme un sac de mots. Le paragraphe précédent peut par exemple être vu comme un document dans lequel le mot « automatiques » apparaît 1 fois, et le mot « systèmes », 2 fois. On voit qu’il est assez trivial de considérer un document comme une distribution de probabilité sur l’ensemble des mots. Si j’ai le document « a b a c », je peux considérer ce document comme une distribution des mots « a », « b », « c »  et « d » avec les probabilités 2/4, 1/4,  1/4 et 0.

L’idée de LDA est qu’au lieu de considérer un document comme une distribution sur des mots, on le considère comme une distribution de probabilité sur des topics (sujets), eux-mêmes vus comme des distributions sur les mots. Je ne rentrerai pas dans les détails du modèle et je me contenterai de l’illustrer sur un cas concret.

Un exemple de LDA

J’ai effectué un LDA sur la presse quotidienne nationale sur la période du 18 au 23 janvier 2010, à partir de l’excellent site Pikanews. Le résultat de l’algorithme du LDA appliqué à ce corpus génère un ensemble de topics, caractérisés eux-mêmes par des mots. Voici un extrait de ces topics générés :

Topic 92

Topic 103

Topic 68

Topic 48

Topic 90

Renault

Flins

Clio

Carlos Ghosn

Usine

Turquie

Bursa

Production

Automobile

Numérique

Apple

Google

Mobile

Microsoft

Opérateurs

Taxe

Iphone

ARCEP

Haïti

Port au Prince

Séisme

Haïtiens

ONU

Humanitaire

Blessés

Secours

Morts

Barack Obama

Démocrates

Massachusetts

Sénat

Scott Brown

Républicains

Maison blanche

Ted Kennedy

Congrès

Scrutin

Réforme

Collectivités

Conseiller territorial

Élus

Sénat

Départements

Collectivités locales

On constate par exemple que le mot « Sénat » se retrouve dans deux topics différents.

Dans l’extrait suivant, le mot « sénat » apparaît dans le contexte de l’élection du Massachusetts :

La détermination de l’administration Obama à brider Wall Street risque toutefois de butter contre une nouvelle réalité politique : comme pour le projet d’une taxe spéciale sur les banques, ces mesures doivent être approuvées par le Congrès. Et le revers électoral subi par les démocrates, mardi, dans l’Etat du Massachusetts leur a fait perdre la majorité qualifiée au Sénat. Une majorité pourtant indispensable afin de faire adopter leurs projets sans risquer une obstruction républicaine.

Alors que dans l’extrait suivant le mot « Sénat » est raccroché au projet de réforme des collectivités territoriales :

Après avoir sillonné les fédérations UMP pendant des semaines pour promouvoir la réforme territoriale, Dominique Perben ne cache pas sa déception : le texte que les sénateurs ont commencé à examiner hier, en séance plénière, est, selon lui, bien en deçà des ambitions du projet gouvernemental. Invité du « Talk Orange-Le Figaro », il a regretté en particulier que « le texte du Sénat soit très en retrait sur les métropoles ».

L’analyse effectuée par le LDA, sans aucune intervention humaine, sans aucune modélisation a priori ni connaissance linguistique autre que l’isolation de tokens (mots) à l’intérieur d’un texte, est remarquable. Le LDA identifie automatiquement l’usage du mot « Sénat » dans différents contextes. On voit l’intérêt que l’on pourrait retirer d’une telle analyse dans le cadre, par exemple, de la désambigüisation de termes ou de fonctions.

Le LDA sert d’ailleurs déjà de socle à différents traitements classiques dans le traitement automatique du langage : clusterisation, catégorisation automatique, annotation morpho-syntaxique, etc. Les études publiées depuis environ cinq ans à ce sujet montrent que le gain apporté par la démarche est souvent très significatif. Assistera-t-on à la même explosion des performances de ces outils que celle dont a bénéficié la traduction automatique ?

En tout cas, chez Antidot, nous y croyons. Nous travaillons sur le sujet depuis un moment déjà,  et la prochaine version d’AFS – la v7 qui sortira en avril 2010 – inclut les premiers résultats de nos recherches. Si vous voulez en savoir plus, venez nous rendre visite sur le salon Documation. Croyez-moi, c’est bluffant !