Moteurs de recherche : vers un usage banalisé des thésaurus ?

Une étude intéressante venue d’Autriche

La Semantic Web Company est une entreprise viennoise spécialisée, comme son nom l’indique, dans la mise en œuvre des technologies du web sémantique. Dans un billet de blog publié le 26 juin et titré « Dans un proche avenir, les moteurs de recherche basés sur des thésaurus seront généralisés »  SWC publie le résultat d’une étude sur le thème des vocabulaires contrôlés, menée en mai-juin 2011 auprès de plus de 150 intervenants dans 27 pays.

A la première question, « Pensez-vous que les entreprises et autres organisations peuvent grandement bénéficier de l’utilisation du Linked Data ? », la réponse est clairement OUI.


Une question corollaire révèle également que  les organisations de toutes tailles ont globalement la même opinion sur le Linked Data. Seules 14 répondants sur 158 considèrent que le Linked Data est un phénomène de niche. On peut globalement dire que plus de 90% des participants pensent que la plupart ou tout au moins certaines organisations peuvent bénéficier du Linked Data.

Les réponses à la seconde question, « Pensez-vous que les moteurs de recherche qui utilisent des thésaurus afin d’améliorer les résultats seront généralisés ? » sont étonnantes : les deux tiers des participants pensent que la recherche basée sur des thésaurus est déjà ou deviendra dominante dans un avenir proche.

Enfin, les réponses à la question  « Quelle est l’importance de l’utilisation de normes comme SKOS pour les vocabulaires contrôlés ? » parlent d’elles-mêmes.

Plus des trois quarts des participants à l’enquête sont convaincus que des standards comme SKOS sont importants pour leur travail quotidien. Deux ans après l’adoption du nouveau standard SKOS en août 2009, il peut être considéré comme adopté puisque 48,7% des répondants ont déclaré que SKOS est « très important » et 29,1% le désignent comme « pertinent ».

En synthèse de cette étude, on peut dire que la communauté du web sémantique a fait un excellent travail pour convaincre les utilisateurs de vocabulaires contrôlés de tirer avantage de SKOS et du Linked Data. Pour autant, seulement 3 à 5% des interrogés sont informés de l’existence de SparQL considéré comme un outil utile pour construire des API standard autour des vocabulaires contrôlés, afin de réduire les coûts d’implémentation de systèmes d’organisation des connaissances.

Antidot a pris cette orientation il y a plus de 5 ans…

 

Aujourd’hui, de nombreux articles et conférences sont consacrés aux apports industriels du web sémantique et nous nous en réjouissons.

Car cela fait de nombreuses années qu’Antidot a décidé d’intégrer à ses technologies les standards du web sémantique. Dès 2005, alors même que ces standards étaient encore en discussion au sein du W3C, et après avoir participé à des projets de recherche sur ces sujets, nous sommes allés résolument de l’avant, car nous étions convaincus  que l’amélioration de la qualité des résultats fournis par un moteur de recherche passerait notamment par l’utilisation de thésaurus et de vocabulaires contrôlés.  Ainsi, dès 2007, nous avons mis en œuvre SKOS et RDF dans des projets industriels, par exemple pour le moteur de recherche de petites annonces du groupe PagesJaunes.

Mais bien au delà des apports évidents de l’utilisation des vocabulaires contrôlés et plus largement des référentiels,  notre engagement s’est également porté sur le Linked Data car nous pensons que la consolidation des données internes de l’entreprise avec des données externes démultiplie la valeur de l’information et donc son efficacité pour l’utilisateur. Ces deux points (référentiels et Linked data) sont d’ailleurs liés puisque les référentiels jouent un rôle clés dans le maillage de l’information et servent de pivot pour articuler les données issues de sources diverses.

… et nos choix sont validés par des projets industriels

C’est sur la base de ces travaux, passés de la R&D à l’application concrète, que notre produit phare, le moteur de recherche Antidot Finder Suite, supporte depuis des années les ontologies et thésaurus décrits selon les formalismes OWL et SKOS.

Pour donner un exemple très simple de leur utilisation, c’est grâce à un thésaurus de couleurs nativementexprimé en SKOS, qu’un site marchand vendant des articles textiles et utilisant AFS@Store pourra proposer un vêtement « kaki » à un utilisateur cherchant du « vert » et ceci même si le mot « kaki » ne figure pas explicitement dans la fiche produit :

Autre exemple chez un client institutioneld’Antidot, avec l’AFPA : le moteur de recherche mis en place sur le site web de l’organisme en charge de la formation professionnelle des adultes – www.afpa.fr – intègre le thésaurus Formacode® 2008 pour réaliser une extension sémantique entre le code ROME de l’ANPE et les offres de  formation proposées par l’AFPA :

Cette intégration au moteur de recherche du thésaurus métier, formalisé en SKOS, permet de catégoriser automatiquement toute l’offre de formation et d’y donner accès de manière plus intuitive pour les utilisateurs, qui s’expriment naturellement avec leurs propres mots.

Au-delà de ces deux exemples impliquant la mise en œuvre de vocabulaires contrôlés, Antidot considère que les standards du web sémantique constituent désormais un apport majeur pour mieux

  • produire automatiquement des métadonnées sémantisées et standardisées au format RDF, à partir de différentes sources dont on collecte les données qui sont ensuite automatiquement agrégées et dynamiquement articulées ;
  • restituer ces données sous forme d’une information nouvelle, enrichie, orientée usage et utilisateur, qui peut être exposée dans la logique du Linked Data.

C’est pour cela que nous avons lancé il y a quelques mois notre solution Antidot Information Factory qui permet de construire et d’exploiter des chaînes de captation et transformation des données pour une mise en relation intelligente des informations disponibles. AIF a rendu possible de grandes réalisations, comme la plateforme ISIDORE du CNRS – TGE Adonis qui apporte un accès unifié à plus d’un million de publications produites par la recherche française en sciences humaines et sociales, et qui constitue à ce jour un des plus grands projets Open Data français.

D’autres projets de grande ampleur, qui tirent parti de façon industrielle des thésaurus, et plus largement du web sémantique et de l’approche du Linked Data, sont en phase de développement chez nos clients et seront mis en production dans les prochains mois. Ces réalisations emblématiques démontrent tout le bien fondé de notre approche technologique, nous ne manquerons pas de vous les présenter le moment venu !

Antidot était à SemWeb.Pro

Ce début de semaine s’est tenu à Paris la toute première édition de la conférence Sem Web Pro.

Ces rencontres professionnelles du web sémantique s’articulaient autour de 2 journées complémentaires de conférences et de tutoriels. Elles ont rassemblé plus d’une centaine de participants, issus du secteur associatif, du monde académique et de la recherche, de grandes entreprises et de PME innovantes.

Le premier jour, Gautier Poupeau, consultant chez Antidot et membre du comité de programme, participait à la conférence de presse, en compagnie des représentants du W3C, de la BBC, de l’INRIA, et de Logilab.

L’après-midi, Jérôme Mainka, co-fondateur et directeur de la recherche  d’Antidot, est intervenu pour présenter le sujet “Moteurs de recherche et Web Sémantique” – voir sur Slideshare – télécharger le PPT (5,3 Mo).

Le lendemain, Gautier Poupeau a co-animé 2 tutoriels :

De l’avis des participants, qui durant les 2 journées ont commenté en direct sur Twitter, les présentations et tutoriels étaient de très bon niveau et les échanges  enrichissants.

Des compte-rendus de SemWeb Pro ont été publiés, notamment par

Nous signalons également ces articles de

Dès à présent nous vous donnons rendez-vous dans un an, pour SemWeb Pro 2012 !

Compte-rendu du premier Meetup Web Sémantique

A l’initiative de Gautier Poupeau, ardent prosélyte des technologies du web sémantique et consultant chez Antidot, a eu lieu une première rencontre ou « meetup » du groupe « Les rencontres du Web de données » sponsorisé par le W3C.

Cet événement a rassemblé, de manière informelle, une trentaine de participants d’horizons divers,  jeudi 16 décembre. Nous remercions l’IRI – Institut de Recherche et d’Innovation du centre Pompidou – d’avoir mis à notre disposition, au cœur de Beaubourg, une salle qui a permis de recevoir ce Meetup dans de très bonnes conditions.

Le thème retenu pour ce premier atelier était “Comment réconcilier le SI legacy et le Web par le Web sémantique ?“, et Christian Fauré, Principal Enterprise Architect chez Cap Gemini et défenseur de longue date du Web sémantique, avait accepté notre proposition de l’animer.

En effet, dans deux récents billets de son blog, titrés “Les technologies relationnelles dans les systèmes d’information” et “Métastabilité et architectures logicielles“, Christian a développé un propos selon lequel il faut distinguer les “technologies de gestion” – en gros, l’informatique de gestion et de production actuelle” et les “technologies relationnelles” – qui sont au cœur du Web. Et il pose la question de savoir en quoi les technologies du Web sémantique peuvent justement permettre de réconcilier ces deux visions.

L’idée était donc de nous réunir en atelier pour échanger autour de ce sujet des “technologies relationnelles” et de l’actualité du web sémantique – sérialisation du RDF, API RDF et RDF comme Hypermedia Type – en essayant de dresser la filiation du Web sémantique avec l’évolution du Web – Web 1.0, Web 2.0 et désormais Web 3.0 – d’une part et les applications traditionnelles du système d’information d’autre part.

2010-12-16 17.18.13 800px

Une fois les participants accueillis par un représentant de l’IRI puis par Gautier, Christian a développé le propos déjà publié sur son blog. Il a, dans une première partie, introduit les concepts philosophiques qui sous-tendent sa réflexion en s’appuyant sur les travaux de Bernard Stiegler et de Gilbert Simondon sur la prolétarisation, l’individuation et les systèmes techniques : la grammatisation des relations entre individus s’inscrit dans un milieu technique qui favorise l’individuation (milieu associé) ou pas (milieu dissocié). Pour Christian, les “technologies de gestion” entraînent une désindividuation et donc plutôt la prolétarisation des utilisateurs et même des concepteurs et développeurs de ces systèmes, tandis que les “technologies relationnelles” sont au cœur de l’individuation psychique et collective. Christian considère que le bon concept pour distinguer si une technologie est plutôt “de gestion” ou “relationnelle” est le concept de « métastabilité » appliqué aux architectures logicielles.

Dans le web, la possibilité de feedback introduit la métastabilité : chaque contribution d’un utilisateur est source de feedback sur le service web qu’il utilise et contribue potentiellement à son évolution. Mieux, l’analyse des logs constitue déjà un feedback, alors qu’en technologie de gestion l’analyse des logs ne sert qu’à détecter un bug pour remettre le système logiciel dans un état stable, voire hyper-stable.

Dans les technologies relationnelles, et donc le web, l’itération – qui n’est pas la répétition – devient la norme, et le système entre graduellement en résonance avec ses utilisateurs. En revanche dans les technologies de gestion le système est intégralement spécifié, puis conçu et mis en production avant de passer en maintenance.

Qu’en est-il alors pour les technologies du Web sémantique ? Technologies de gestion ou technologies relationnelles ? La réponse est eu cœur même des interrogations qui accompagnent le Web sémantique depuis 10 ans. En effet, si le Web sémantique s’est d’abord orienté vers l’intelligence artificielle et les systèmes experts qui s’apparentent plutôt aux technologies de gestion, l’émergence depuis 2006 du « Linked Data » ou « Web de données » a permis de réintroduire le Web et les technologies relationnelles dans la réflexion sur le Web sémantique.

Malgré tout, le Web sémantique reste encore une promesse. En effet, l’enjeu du web sémantique aujourd’hui, afin de s’accomplir pleinement en tant qu’ensemble de  technologies relationnelles, est de se « socialiser » c’est-à-dire de ne pas se contenter d’être un « web des machines », avec un fort déséquilibre entre l’écriture de « données liées », qui se limiterait à un back-office, tandis que les utilisateurs seraient cantonnés à de la consultation en mode « lecture » dans le front-office.  Ceci s’inscrit dans un mouvement général du web qui se déplace vers l’utilisateur. Ce mouvement étant soutenu par les développeurs d’applications, comment amener les développeurs au web sémantique ?

En effet, Christian remarque que, De plus, de par la métastabilité inhérente au Web, le processus de normalisation d’une technologie du Web succède toujours  à son adoption. Or la normalisation des technologies du Web sémantique a jusqu’à maintenant suivi un chemin inverse, via des “propostions”, ce qui pourrait expliquer en partie les difficultés rencontrées. Comment alors, dans ces conditions, assurer la « socialisation » du Web sémantique, sa dissémination auprès des développeurs et, au-delà des concepteurs et développeurs, comment amener au web sémantique chaque utilisateur du Web, et de façon véritablement contributive ?

Afin de répondre à ces questions, Christian a esquissé pour finir quelques pistes techniques en posant les questions suivantes :

  • Peut-on développer avec des langages fonctionnels des applications mettant en œuvre RDF, sans perdre la richesse du graphe ?
  • Quelle sérialisation pour RDF ? XML est-il incontournable ?
  • Opportunité d’une API pour RDF ? L’API n’est-elle pas déjà HTTP ?
  • Faut-il faire de RDF un Hypermedia Type ?
  • Comment faire décoller l’usage de SparQL ?

Les échanges entre les participants ont été animés et parfois presque vifs. Moi qui suis encore au début de ma courbe d’apprentissage sur le web sémantique, j’en ai retenu les points suivants, que vous pouvez évidemment compléter ou discuter en commentaires de ce billet :

  • L’Union Européenne a approuvé une roadmap pour favoriser la publication massive de données publiques suivant les principes du Linked Data.
  • La question de la maturité des outils de stockage des données a été au cœur de plusieurs interventions sur les problématiques de montée en charge, de maintenance ou même de modèles sous-jacents pour le stockage (SGBDR classique avec éventuellement l’implémentation des standards en cours de réflexion au W3C sur le sujet : R2RML ou direct mapping,  column store…)
  • Le bénéfice premier et fondamental du web sémantique, c’est le partage de données : plus il y aura de données partagées via le web sémantique et plus il pourra y avoir de créativité autour de ces données : la publication en RDF peut créer un effet de réseau, et la valeur de ce réseau de données pourrait croître exponentiellement.
  • Le premier vecteur de diffusion du web sémantique et de RDF sera peut-être le e-commerce, car s’il existe une information que les entreprises sont prêtes à publier c’est bien leur catalogue. On constate d’ailleurs les progrès rapides de RDFa / GoodRelations, désormais adoptés par les grands acteurs car le secteur du commerce en ligne voit un intérêt de business immédiat. Ainsi par exemple la description complète d’un produit technique comme une chaudière peut nécessiter de décrire plusieurs centaines ’attributs : un graphe RDF le permet.

En conclusion, il a été rappelé que, si ce premier Meetup a été mis sur pied par Gautier et Antidot, qui en organisera un par trimestre, chaque participant peut évidemment s’impliquer en proposant des thèmes et en prenant en charge l’organisation de prochains ateliers : le champ à défricher est très vaste, et toutes les énergies sont à mobiliser !

J’en profite d’ailleurs pour mentionner une autre initiative très intéressante, avec cet événement qui aura lieu les 16 et 17 janvier à Paris : la conférence SemWep.Pro 2011 vous propose une journée de conférence et une journée de tutoriels destinées à faire se rencontrer les acteurs du Web Sémantique, tant du côté de la communauté scientifique que des industriels.

PS : Merci à Gautier, qui a pris le temps de me relire et d’ajouter de nombreux liens fort utiles.

Mise à jour le 10 janvier 2011 : la vidéo de l’intervention de Christian est disponible via son blog.