db2triples : une implémentation de R2RML et DirectMapping en Open Source

Antidot apporte sa contribution au développement du Web de Données en ouvrant son implémentation des recommandations R2RML et DirectMapping du W3C.

Antidot est impliqué depuis de nombreuses années dans la mise en œuvre opérationnelle des recommandations et standards publiés par le W3C comme RDF, OWL, SKOS ou SPARQL. Ne se cantonnant pas à une approche purement académique, et fort de sa position sur le marché des solutions d’accès à l’information, Antidot a été l’un des premiers éditeurs de logiciels à confronter ces nouveaux outils du Web Sémantique aux besoins et contraintes de grands projets industriels.

Ainsi les dernières versions des solutions logicielles Antidot Information Factory et Antidot Finder Suite ont été parmi les tout premiers logiciels à intégrer nativement ces technologies, pour répondre aux problématiques concrètes de gestion de l’information en entreprise, et aux enjeux stratégiques qui les sous-tendent : réutilisation et urbanisation des données, création de données métier.

Antidot travaille depuis longtemps sur les enjeux de la valorisation des bases de données relationnelles, et en particulier de leur transformation en données sémantiques. C’est donc tout naturellement que nos équipes Recherche & Développement se sont penchées sur les recommandations R2RML et Direct Mapping [1] du W3C en cours de finalisation. Ces technologies apportent en effet une réponse normative à la problématique de la transformation de données relationnelles en graphes RDF pour le chargement automatique d’entrepôts.

Afin de confronter ces recommandations à la réalité opérationnelle de projets clients, Antidot a développé une implémentation à jour des dernières propositions de R2RML et DirectMapping. Et afin de faire bénéficier les communautés informatiques et académiques de nos avancées, nous avons décidé de publier ce composant logiciel en Open Source sous licence LGPL.

Appelée db2triples, cette implémentation en Java, qui s’adapte rapidement à toutes les plateformes. est disponible dès à présent sur la forge Github : http://github.com/antidot/db2triples

db2triples permet d’atteindre les trois buts fixés par le W3C :

  • intégrer les données provenant des bases SQL dans le Web de données (Linked Data)
  • donner la possibilité de les manipuler avec des langages standardisés tels que SPARQL
  • et enfin les regrouper avec d’autres types de données : référentiels, bases de connaissances…

La puissance de cet outil transparaît lors de l’utilisation de données provenant de bases complexes, où il permet rapidement et facilement de trouver les liens entre les données éparpillées dans de multiples tables, et de les enrichir grâce à la puissance de SPARQL 1.1 : nous avons réalisé de nombreux projets de recherche et d’accès à l’information par simple paramétrage en SPARQL de cet outil,  en particulier des indexations génériques de plateformes CMS basées sur WordPress et de sites e-commerce reposant sur la solution Magento.

Antidot a toujours baigné dans le monde de l’Open Source, et nous sommes heureux d’offrir à notre tour db2triples. Chacun peut immédiatement le mettre en pratique, et le modifier à sa guise, par exemple pour exposer immédiatement ses données selon les standards du Web de Données – Linked Data, ou tout simplement les voir sous un autre angle ! En effet, ce composant s’avère particulièrement intéressant dans le cadre de projet Open Data afin de permettre la publication de données vivantes, plutôt que la mise en ligne de fichiers Excel ou PDF dont la réutilisation automatique est complexe, voire impossible.

[1] Références : W3C Working Drafts (24 March 2011)

Moteurs de recherche : vers un usage banalisé des thésaurus ?

Une étude intéressante venue d’Autriche

La Semantic Web Company est une entreprise viennoise spécialisée, comme son nom l’indique, dans la mise en œuvre des technologies du web sémantique. Dans un billet de blog publié le 26 juin et titré « Dans un proche avenir, les moteurs de recherche basés sur des thésaurus seront généralisés »  SWC publie le résultat d’une étude sur le thème des vocabulaires contrôlés, menée en mai-juin 2011 auprès de plus de 150 intervenants dans 27 pays.

A la première question, « Pensez-vous que les entreprises et autres organisations peuvent grandement bénéficier de l’utilisation du Linked Data ? », la réponse est clairement OUI.


Une question corollaire révèle également que  les organisations de toutes tailles ont globalement la même opinion sur le Linked Data. Seules 14 répondants sur 158 considèrent que le Linked Data est un phénomène de niche. On peut globalement dire que plus de 90% des participants pensent que la plupart ou tout au moins certaines organisations peuvent bénéficier du Linked Data.

Les réponses à la seconde question, « Pensez-vous que les moteurs de recherche qui utilisent des thésaurus afin d’améliorer les résultats seront généralisés ? » sont étonnantes : les deux tiers des participants pensent que la recherche basée sur des thésaurus est déjà ou deviendra dominante dans un avenir proche.

Enfin, les réponses à la question  « Quelle est l’importance de l’utilisation de normes comme SKOS pour les vocabulaires contrôlés ? » parlent d’elles-mêmes.

Plus des trois quarts des participants à l’enquête sont convaincus que des standards comme SKOS sont importants pour leur travail quotidien. Deux ans après l’adoption du nouveau standard SKOS en août 2009, il peut être considéré comme adopté puisque 48,7% des répondants ont déclaré que SKOS est « très important » et 29,1% le désignent comme « pertinent ».

En synthèse de cette étude, on peut dire que la communauté du web sémantique a fait un excellent travail pour convaincre les utilisateurs de vocabulaires contrôlés de tirer avantage de SKOS et du Linked Data. Pour autant, seulement 3 à 5% des interrogés sont informés de l’existence de SparQL considéré comme un outil utile pour construire des API standard autour des vocabulaires contrôlés, afin de réduire les coûts d’implémentation de systèmes d’organisation des connaissances.

Antidot a pris cette orientation il y a plus de 5 ans…

 

Aujourd’hui, de nombreux articles et conférences sont consacrés aux apports industriels du web sémantique et nous nous en réjouissons.

Car cela fait de nombreuses années qu’Antidot a décidé d’intégrer à ses technologies les standards du web sémantique. Dès 2005, alors même que ces standards étaient encore en discussion au sein du W3C, et après avoir participé à des projets de recherche sur ces sujets, nous sommes allés résolument de l’avant, car nous étions convaincus  que l’amélioration de la qualité des résultats fournis par un moteur de recherche passerait notamment par l’utilisation de thésaurus et de vocabulaires contrôlés.  Ainsi, dès 2007, nous avons mis en œuvre SKOS et RDF dans des projets industriels, par exemple pour le moteur de recherche de petites annonces du groupe PagesJaunes.

Mais bien au delà des apports évidents de l’utilisation des vocabulaires contrôlés et plus largement des référentiels,  notre engagement s’est également porté sur le Linked Data car nous pensons que la consolidation des données internes de l’entreprise avec des données externes démultiplie la valeur de l’information et donc son efficacité pour l’utilisateur. Ces deux points (référentiels et Linked data) sont d’ailleurs liés puisque les référentiels jouent un rôle clés dans le maillage de l’information et servent de pivot pour articuler les données issues de sources diverses.

… et nos choix sont validés par des projets industriels

C’est sur la base de ces travaux, passés de la R&D à l’application concrète, que notre produit phare, le moteur de recherche Antidot Finder Suite, supporte depuis des années les ontologies et thésaurus décrits selon les formalismes OWL et SKOS.

Pour donner un exemple très simple de leur utilisation, c’est grâce à un thésaurus de couleurs nativementexprimé en SKOS, qu’un site marchand vendant des articles textiles et utilisant AFS@Store pourra proposer un vêtement « kaki » à un utilisateur cherchant du « vert » et ceci même si le mot « kaki » ne figure pas explicitement dans la fiche produit :

Autre exemple chez un client institutioneld’Antidot, avec l’AFPA : le moteur de recherche mis en place sur le site web de l’organisme en charge de la formation professionnelle des adultes – www.afpa.fr – intègre le thésaurus Formacode® 2008 pour réaliser une extension sémantique entre le code ROME de l’ANPE et les offres de  formation proposées par l’AFPA :

Cette intégration au moteur de recherche du thésaurus métier, formalisé en SKOS, permet de catégoriser automatiquement toute l’offre de formation et d’y donner accès de manière plus intuitive pour les utilisateurs, qui s’expriment naturellement avec leurs propres mots.

Au-delà de ces deux exemples impliquant la mise en œuvre de vocabulaires contrôlés, Antidot considère que les standards du web sémantique constituent désormais un apport majeur pour mieux

  • produire automatiquement des métadonnées sémantisées et standardisées au format RDF, à partir de différentes sources dont on collecte les données qui sont ensuite automatiquement agrégées et dynamiquement articulées ;
  • restituer ces données sous forme d’une information nouvelle, enrichie, orientée usage et utilisateur, qui peut être exposée dans la logique du Linked Data.

C’est pour cela que nous avons lancé il y a quelques mois notre solution Antidot Information Factory qui permet de construire et d’exploiter des chaînes de captation et transformation des données pour une mise en relation intelligente des informations disponibles. AIF a rendu possible de grandes réalisations, comme la plateforme ISIDORE du CNRS – TGE Adonis qui apporte un accès unifié à plus d’un million de publications produites par la recherche française en sciences humaines et sociales, et qui constitue à ce jour un des plus grands projets Open Data français.

D’autres projets de grande ampleur, qui tirent parti de façon industrielle des thésaurus, et plus largement du web sémantique et de l’approche du Linked Data, sont en phase de développement chez nos clients et seront mis en production dans les prochains mois. Ces réalisations emblématiques démontrent tout le bien fondé de notre approche technologique, nous ne manquerons pas de vous les présenter le moment venu !

ISIDORE, un grand et beau projet dont nous sommes très fiers

Lundi 4 avril étalt le jour de la saint Isidore, le patron des informaticiens et internautes. C’est le jour qu’avait judicieusement choisi les hautes autorité du CNRS pour lancer officiellement ISIDORE, le nouveau portail des sciences humaines et sociales, un projet piloté par le  TGE Adonis et réalisé réalisé par le CCSd. C’est un projet auquel Antidot a contribué, en apportant ses solutions logicielles Antidot Finder Suite et Antidot Information Factory, aux côtés de ses partenaires Sword et Mondeca.

ISIDORE est un projet qui a mobilisé beaucoup d’énergies chez Antidot durant des mois, et qui, comme c’est le cas dans tout grand projet informatique, nous a parfois fait souffrir. Pour autant, nous sommes fiers d’y avoir participé, et cela pour 2 raisons :

ISIDORE est utile à la société

En mettant à disposition du public plus d’un million de publications de la recherche française en sciences humaines et sociales, ISIDORE diffuse de la connaissance. Des savoirs jusqu’alors réservés aux seuls chercheurs sont désormais disponibles, à portée de clic, pour les étudiants et pour toute personne qui s’intéresse à la philosophie, l’histoire, la démographie, la psychologie… Bien entendu, nos technologies sont toujours utiles : Antidot Finder Suite rend service aux consommateurs quand il leur permet de trouver plus facilement les produits répondant à leurs attentes sur les sites web de très nombreux marchands en ligne (*).

AFS est utile quand il permet de trouver de l’information sur les sites de grands médias comme TF1, Radio France ou Le Point, ou de grands services publics comme Service-Public.fr, la Sécurité Sociale, l’Assurance Maladie, les Agences Régionales de Santé, l’INSERM, l’AFPA, l’APCE ou encore l’Autorité de Sûreté Nucléaire… et maintenant ISIDORE !

Car ce qui nous motive tous dans le projet d’entreprise d’Antidot, c’est la mission que nous nous sommes assignée il y a bientôt 12 ans : « conçevoir des solutions d’accès à l’information permettant aux organisations et aux hommes de comprendre, de décider et d’agir ».

ISIDORE a fait progresser Antidot, dont il concrétise la vision

Pour réaliser cet ambitieux projet, nos avons proposé au CNRS de mettre en œuvre les technologies du web des données, sur lesquelles nous travaillons depuis de nombreuses années et qui ont été intégrées au cœur de la version 7 d’Antidot Finder Suite et aussi de notre nouvelle solution Antidot Information Factory qui a été dévoilée il y a 2 semaines au salon Documation.

Ces technologies constituent en effet le moyen le plus efficace pour collecter les contenus de 850 sources représentant plus d’un million de publications, pour nettoyer et normaliser toutes les données, les enrichir (classification automatique, annotation à la volée), et les aligner sur des référentiels partagés par la communauté scientifique. Plus de 30 traitements distincts sont réalisés par Antidot Information Factory sur chaque document collecté afin d’homogénéiser et valoriser l’information contenue.

Les données enrichies sont rendues accessibles via AFS v7, le moteur de recherche sémantique d’Antidot, et sont exposées via un point accès SPARQL dans un souci d’ouverture des données publiques (Open Data), selon les règles du Web de données (Linked Data). Concrètement ISIDORE est aujourd’hui le plus grand projet Linked Data / Open Data mené à bien en France.

Au-delà d’ISIDORE

Antidot apporte une vraie réponse industrielle à une problématique qui se pose désormais à toutes les organisations :

« Comment mieux mailler et articuler les données issues de différents entrepôts pour produire une information contextualisée et donc vraiment pertinente ? »

Avec Antidot Information Factory, conjuguée à notre moteur de recherche Antidot Finder Suite, nos clients peuvent créer un « hub de valorisation et d’accès à l’information » au service de leurs utilisateurs, pour permettre de nouveaux usages qui vont bien au-delà de ce que permettent les approches traditionnelles que sont la « recherche fédérée » ou  les « search based applications » dont les limites sont maintenant bien connues.

Nous remercions les équipes du CNRS – TGE Adonis et CCSd d’avoir choisi nos solutions pour bâtir ISIDORE à qui nous souhaitons une très longue vie !

Pour aller plus loin :

A lire aussi, ces 2 documents complets :

(*) 3 Suisses Benelux, 3 Suisses Culture, Bricorama, Camaïeu, Château Online, Cultura, Damart, Discounteo, Feu Vert, Galeries Lafayette, IKKS, Internity, King Jouet, Made in Design, Made in Sport, La Maison de Valérie, Mathon, MotoBlouz, NM Médical, Oreca, Pecheur.com, Petit Bateau, Pimkie, Privilège Discount, Sexy Avenue, Wanimo… utilisent AFS@Store, la déclinaison e-commerce du moteur de recherche AFS, directement dans des logiciels spécifiques, dans des plateformes OpenSource comme Magento ou OS Commerce ou dans les solutions e-commerce de Compario, Digitas ou DotSoft.