Antidot publie la version 0.9.9 de db2triples

À la veille de WWW2012, la conférence mondiale consacrée aux technologies du web dont Antidot est un des sponsors, nous mettons à disposition de la communauté Open Source la version 0.9.9  de la bibliothèque db2triples. Cette nouvelle version apporte des évolutions majeures concernant le support des Candidate Recommendations des standards R2RML et Direct Mapping publiées le 23 février 2012 par le W3C.

R2RML et Direct Mapping : Candidate Recommendations du 23/02/2012

Parmi les améliorations figurent donc le support natif de MySQL et PostGreSQL ainsi que d’autres bases de données SQL via des pilotes JDBC, la gestion des types binaires (encodage base64), la prise en compte des caractères de langue spéciaux ainsi que le typage implicite des données et leur conversion selon la norme XML Schema du W3C, la gestion des formes canoniques des littéraux en fonction de leur type et de la casse des identifiants SQL. Pour la liste complète des évolutions, se reporter à la Release Note.

Le Linked Data opérationnel en entreprise

Cette nouvelle version de db2triples constitue une avancée majeure pour le web sémantique, et particulièrement pour la réalisation de projets exploitant les standards du Linked Data en entreprise. En effet, les technologies R2RML et Direct Mapping supportées par db2triples fournissent une réponse standardisée à la problématique de transformation des données relationnelles en graphes RDF pour le chargement automatique d’entrepôts.

Ainsi db2triples s’avère particulièrement intéressant dans le cadre de projet Open Data ou Linked Data nécessitant la publication dans le web des données d’informations vivantes, bien plus facilement réexploitables que la mise en ligne de fichiers Excel ou PDF dont la réutilisation automatique est complexe, voire impossible.

Mise à jour le 24 juillet 2012 : db2triples est pleinement compatible avec le Working Draft du 29 mai 2012 des recommandations R2RML et DirectMapping : en effet, db2triples a passé avec succès les tests de conformité édictés par le groupe de travail RDB2RDF du W3C. Du coup ce composant logiciel, fourni en Open Source, figure dans la liste des implémentations validées  par l’organisme international de normalisation du web. Plus d’information dans notre communiqué de presse diffusé ce jour, en français et en anglais.

db2triples : une implémentation de R2RML et DirectMapping en Open Source

Antidot apporte sa contribution au développement du Web de Données en ouvrant son implémentation des recommandations R2RML et DirectMapping du W3C.

Antidot est impliqué depuis de nombreuses années dans la mise en œuvre opérationnelle des recommandations et standards publiés par le W3C comme RDF, OWL, SKOS ou SPARQL. Ne se cantonnant pas à une approche purement académique, et fort de sa position sur le marché des solutions d’accès à l’information, Antidot a été l’un des premiers éditeurs de logiciels à confronter ces nouveaux outils du Web Sémantique aux besoins et contraintes de grands projets industriels.

Ainsi les dernières versions des solutions logicielles Antidot Information Factory et Antidot Finder Suite ont été parmi les tout premiers logiciels à intégrer nativement ces technologies, pour répondre aux problématiques concrètes de gestion de l’information en entreprise, et aux enjeux stratégiques qui les sous-tendent : réutilisation et urbanisation des données, création de données métier.

Antidot travaille depuis longtemps sur les enjeux de la valorisation des bases de données relationnelles, et en particulier de leur transformation en données sémantiques. C’est donc tout naturellement que nos équipes Recherche & Développement se sont penchées sur les recommandations R2RML et Direct Mapping [1] du W3C en cours de finalisation. Ces technologies apportent en effet une réponse normative à la problématique de la transformation de données relationnelles en graphes RDF pour le chargement automatique d’entrepôts.

Afin de confronter ces recommandations à la réalité opérationnelle de projets clients, Antidot a développé une implémentation à jour des dernières propositions de R2RML et DirectMapping. Et afin de faire bénéficier les communautés informatiques et académiques de nos avancées, nous avons décidé de publier ce composant logiciel en Open Source sous licence LGPL.

Appelée db2triples, cette implémentation en Java, qui s’adapte rapidement à toutes les plateformes. est disponible dès à présent sur la forge Github : http://github.com/antidot/db2triples

db2triples permet d’atteindre les trois buts fixés par le W3C :

  • intégrer les données provenant des bases SQL dans le Web de données (Linked Data)
  • donner la possibilité de les manipuler avec des langages standardisés tels que SPARQL
  • et enfin les regrouper avec d’autres types de données : référentiels, bases de connaissances…

La puissance de cet outil transparaît lors de l’utilisation de données provenant de bases complexes, où il permet rapidement et facilement de trouver les liens entre les données éparpillées dans de multiples tables, et de les enrichir grâce à la puissance de SPARQL 1.1 : nous avons réalisé de nombreux projets de recherche et d’accès à l’information par simple paramétrage en SPARQL de cet outil,  en particulier des indexations génériques de plateformes CMS basées sur WordPress et de sites e-commerce reposant sur la solution Magento.

Antidot a toujours baigné dans le monde de l’Open Source, et nous sommes heureux d’offrir à notre tour db2triples. Chacun peut immédiatement le mettre en pratique, et le modifier à sa guise, par exemple pour exposer immédiatement ses données selon les standards du Web de Données – Linked Data, ou tout simplement les voir sous un autre angle ! En effet, ce composant s’avère particulièrement intéressant dans le cadre de projet Open Data afin de permettre la publication de données vivantes, plutôt que la mise en ligne de fichiers Excel ou PDF dont la réutilisation automatique est complexe, voire impossible.

[1] Références : W3C Working Drafts (24 March 2011)

Compte-rendu du premier Meetup Web Sémantique

A l’initiative de Gautier Poupeau, ardent prosélyte des technologies du web sémantique et consultant chez Antidot, a eu lieu une première rencontre ou « meetup » du groupe « Les rencontres du Web de données » sponsorisé par le W3C.

Cet événement a rassemblé, de manière informelle, une trentaine de participants d’horizons divers,  jeudi 16 décembre. Nous remercions l’IRI – Institut de Recherche et d’Innovation du centre Pompidou – d’avoir mis à notre disposition, au cœur de Beaubourg, une salle qui a permis de recevoir ce Meetup dans de très bonnes conditions.

Le thème retenu pour ce premier atelier était « Comment réconcilier le SI legacy et le Web par le Web sémantique ?« , et Christian Fauré, Principal Enterprise Architect chez Cap Gemini et défenseur de longue date du Web sémantique, avait accepté notre proposition de l’animer.

En effet, dans deux récents billets de son blog, titrés « Les technologies relationnelles dans les systèmes d’information » et « Métastabilité et architectures logicielles« , Christian a développé un propos selon lequel il faut distinguer les « technologies de gestion » – en gros, l’informatique de gestion et de production actuelle » et les « technologies relationnelles » – qui sont au cœur du Web. Et il pose la question de savoir en quoi les technologies du Web sémantique peuvent justement permettre de réconcilier ces deux visions.

L’idée était donc de nous réunir en atelier pour échanger autour de ce sujet des “technologies relationnelles” et de l’actualité du web sémantique – sérialisation du RDF, API RDF et RDF comme Hypermedia Type – en essayant de dresser la filiation du Web sémantique avec l’évolution du Web – Web 1.0, Web 2.0 et désormais Web 3.0 – d’une part et les applications traditionnelles du système d’information d’autre part.

2010-12-16 17.18.13 800px

Une fois les participants accueillis par un représentant de l’IRI puis par Gautier, Christian a développé le propos déjà publié sur son blog. Il a, dans une première partie, introduit les concepts philosophiques qui sous-tendent sa réflexion en s’appuyant sur les travaux de Bernard Stiegler et de Gilbert Simondon sur la prolétarisation, l’individuation et les systèmes techniques : la grammatisation des relations entre individus s’inscrit dans un milieu technique qui favorise l’individuation (milieu associé) ou pas (milieu dissocié). Pour Christian, les « technologies de gestion » entraînent une désindividuation et donc plutôt la prolétarisation des utilisateurs et même des concepteurs et développeurs de ces systèmes, tandis que les « technologies relationnelles » sont au cœur de l’individuation psychique et collective. Christian considère que le bon concept pour distinguer si une technologie est plutôt « de gestion » ou « relationnelle » est le concept de « métastabilité » appliqué aux architectures logicielles.

Dans le web, la possibilité de feedback introduit la métastabilité : chaque contribution d’un utilisateur est source de feedback sur le service web qu’il utilise et contribue potentiellement à son évolution. Mieux, l’analyse des logs constitue déjà un feedback, alors qu’en technologie de gestion l’analyse des logs ne sert qu’à détecter un bug pour remettre le système logiciel dans un état stable, voire hyper-stable.

Dans les technologies relationnelles, et donc le web, l’itération – qui n’est pas la répétition – devient la norme, et le système entre graduellement en résonance avec ses utilisateurs. En revanche dans les technologies de gestion le système est intégralement spécifié, puis conçu et mis en production avant de passer en maintenance.

Qu’en est-il alors pour les technologies du Web sémantique ? Technologies de gestion ou technologies relationnelles ? La réponse est eu cœur même des interrogations qui accompagnent le Web sémantique depuis 10 ans. En effet, si le Web sémantique s’est d’abord orienté vers l’intelligence artificielle et les systèmes experts qui s’apparentent plutôt aux technologies de gestion, l’émergence depuis 2006 du « Linked Data » ou « Web de données » a permis de réintroduire le Web et les technologies relationnelles dans la réflexion sur le Web sémantique.

Malgré tout, le Web sémantique reste encore une promesse. En effet, l’enjeu du web sémantique aujourd’hui, afin de s’accomplir pleinement en tant qu’ensemble de  technologies relationnelles, est de se « socialiser » c’est-à-dire de ne pas se contenter d’être un « web des machines », avec un fort déséquilibre entre l’écriture de « données liées », qui se limiterait à un back-office, tandis que les utilisateurs seraient cantonnés à de la consultation en mode « lecture » dans le front-office.  Ceci s’inscrit dans un mouvement général du web qui se déplace vers l’utilisateur. Ce mouvement étant soutenu par les développeurs d’applications, comment amener les développeurs au web sémantique ?

En effet, Christian remarque que, De plus, de par la métastabilité inhérente au Web, le processus de normalisation d’une technologie du Web succède toujours  à son adoption. Or la normalisation des technologies du Web sémantique a jusqu’à maintenant suivi un chemin inverse, via des « propostions », ce qui pourrait expliquer en partie les difficultés rencontrées. Comment alors, dans ces conditions, assurer la « socialisation » du Web sémantique, sa dissémination auprès des développeurs et, au-delà des concepteurs et développeurs, comment amener au web sémantique chaque utilisateur du Web, et de façon véritablement contributive ?

Afin de répondre à ces questions, Christian a esquissé pour finir quelques pistes techniques en posant les questions suivantes :

  • Peut-on développer avec des langages fonctionnels des applications mettant en œuvre RDF, sans perdre la richesse du graphe ?
  • Quelle sérialisation pour RDF ? XML est-il incontournable ?
  • Opportunité d’une API pour RDF ? L’API n’est-elle pas déjà HTTP ?
  • Faut-il faire de RDF un Hypermedia Type ?
  • Comment faire décoller l’usage de SparQL ?

Les échanges entre les participants ont été animés et parfois presque vifs. Moi qui suis encore au début de ma courbe d’apprentissage sur le web sémantique, j’en ai retenu les points suivants, que vous pouvez évidemment compléter ou discuter en commentaires de ce billet :

  • L’Union Européenne a approuvé une roadmap pour favoriser la publication massive de données publiques suivant les principes du Linked Data.
  • La question de la maturité des outils de stockage des données a été au cœur de plusieurs interventions sur les problématiques de montée en charge, de maintenance ou même de modèles sous-jacents pour le stockage (SGBDR classique avec éventuellement l’implémentation des standards en cours de réflexion au W3C sur le sujet : R2RML ou direct mapping,  column store…)
  • Le bénéfice premier et fondamental du web sémantique, c’est le partage de données : plus il y aura de données partagées via le web sémantique et plus il pourra y avoir de créativité autour de ces données : la publication en RDF peut créer un effet de réseau, et la valeur de ce réseau de données pourrait croître exponentiellement.
  • Le premier vecteur de diffusion du web sémantique et de RDF sera peut-être le e-commerce, car s’il existe une information que les entreprises sont prêtes à publier c’est bien leur catalogue. On constate d’ailleurs les progrès rapides de RDFa / GoodRelations, désormais adoptés par les grands acteurs car le secteur du commerce en ligne voit un intérêt de business immédiat. Ainsi par exemple la description complète d’un produit technique comme une chaudière peut nécessiter de décrire plusieurs centaines ’attributs : un graphe RDF le permet.

En conclusion, il a été rappelé que, si ce premier Meetup a été mis sur pied par Gautier et Antidot, qui en organisera un par trimestre, chaque participant peut évidemment s’impliquer en proposant des thèmes et en prenant en charge l’organisation de prochains ateliers : le champ à défricher est très vaste, et toutes les énergies sont à mobiliser !

J’en profite d’ailleurs pour mentionner une autre initiative très intéressante, avec cet événement qui aura lieu les 16 et 17 janvier à Paris : la conférence SemWep.Pro 2011 vous propose une journée de conférence et une journée de tutoriels destinées à faire se rencontrer les acteurs du Web Sémantique, tant du côté de la communauté scientifique que des industriels.

PS : Merci à Gautier, qui a pris le temps de me relire et d’ajouter de nombreux liens fort utiles.

Mise à jour le 10 janvier 2011 : la vidéo de l’intervention de Christian est disponible via son blog.