Archive for the ‘Antidot’ Category

Découvrez les Monuments Historiques grâce à l’Open Data !

Monday, December 19th, 2011

Pourquoi cette application ?

L’ouverture du site data.gouv.fr le 5 décembre 2011, aussitôt suivie d’autres initiatives, a marqué une accélération du mouvement Open Data en France.

Nous avons voulu apporter notre pierre à l’édifice, en réalisant une démonstration qui met en avant le grand intérêt qu’il y a à pouvoir mailler des données issues de différentes sources grâce aux standards du web sémantique, et la capacité de notre solution Antidot Information Factory à le faire rapidement et simplement, dans une approche industrielle.

Et parce que la France demeure année après année la première destination touristique mondiale, parce que nos territoires regorgent de trésors architecturaux et patrimoniaux, nous avons choisi de réaliser une application de recherche qui vous permet de partir à la découverte de près de 44.000 monuments historiques français !

Quelques explications (un peu) techniques :

Notre application « Monuments historiques » a été réalisée en exploitant 7 sources de données ouvertes :

  1. la liste des Immeubles protégés au titre des Monuments Historiques disponible sur data.gouv.fr. Cette source de données décrit 43.720 monuments dans un fichier CSV.
  2. la liste des gares de voyageurs du Réseau Ferré National avec leurs coordonnées  telle que fournie par data.gouv.fr. Cette source de données décrit 3.065 gares dans un fichier XLS. Elle est exploitée pour situer les monuments à proximité d’une gare.
  3. la liste des stations du métro parisien avec leurs coordonnées, fournie par OpenStreetMap. Cette source de données décrit 301 stations et elle est exploitée pour situer les monuments à proximité d’une station de métro.
  4. les données du code officiel géographique (COG) de l’INSEE. Cette source de données décrit 22 régions, 99 départements, plus de 4.000 cantons et chefs lieux dans un graphe RDF.
  5. Les photos des monuments historiques de Wikipedia proposée par Wikimedia Commons. Cette source de données, notamment alimentée par le concours Wiki loves monuments, apporte 122.828 photos pour 12.586 monuments historiques désignés par leur code PA : il s’agit d’un code délivré de façon unique pour chaque monument et présent dans la liste citée en 1.
  6. La description des monuments historiques de Wikipedia fournie par DBpedia. Cette source de données en RDF décrit 3,64 millions d’objets, dont 413.000 lieux. Cette source est accessible directement à partir des informations de Wikimedia Commons
  7. Les informations de géolocalisation de Yahoo! via Yahoo! PlaceFinder. Cette source permet de géolocaliser à partir de leur adresse les monuments non géolocalisés dans Wikimedia Commons ou DBpedia

La chaine de traitement mise en œuvre pour la réalisation de cette application avec Antidot Information Factory est la suivante :

  1. Une première étape de nettoyage, normalisation et transformation en RDF des fichiers CSV et XLS issus de data.gouv.fr au moyen de Google Refine.
  2. Récupération des données de Wikimedia Commons : un processus de traitement Antidot Information Factory collecte les informations via l’API de Wikimedia et les transforme en RDF : Antidot Information Factory a permis de construire ce processus industriel sans avoir à écrire une seule ligne de code, simplement en assemblant des modules de traitement pris dans une bibliothèque de 50 modules existants.
  3. Récupération des données d’OpenStreetMap pour les stations de métro via son API.
  4. Collecte de toutes les informations de géolocalisation par Antidot Information Factory via l’API de Yahoo! PlaceFinder, pour les lieux non déjà géolocalisés.
  5. Maillage de toutes les données issues des 7 sources par Antidot Information Factory : le résultat est un graphe RDF comprenant plus de 4,5 millions de triplets, dont près de 450.000 ont été inférés à partir des sources.
  6. Ce triple store est ensuite la source unique mise en entrée du module d’indexation du moteur de recherche Antidot Finder Suite.

Le résultat est une application web de recherche permettant  de trouver des monuments historiques

  • par une recherche en plein texte
  • dans une région, un département ou une ville donnés
  • par type de monument : église, château, statue, site industriel
  • par période historique : préhistoire, moyen-âge, renaissance etc
  • par type de propriétaire : personne ou société privée, commune, Etat…

avec combinaison possible de tous ces critères, sous forme de « facettes de recherche » très simples à manipuler.

Conclusion (provisoire)

Cette application a été réalisée en quelques jours, sans impliquer de développeurs et par simple paramétrage de notre solution Antidot Information Factory. Cela montre, s’il en est encore besoin, la puissance et la justesse de l’approche et des technologies du Web Sémantique promues par le W3C.

Cette application démontre que l’Open Data favorise l’émergence de nouveaux usages : par la mise à disposition de données qui sont facilement reliées à d’autres données, la seule limite devient notre imagination et notre capacité à proposer de nouveaux services innovants et utiles !

Merci à tous les fournisseurs de données qui ont rendu possible cette réalisation, notamment le Ministère de la Culture et de la Communication pour la liste des monuments historiques et la Société Nationale des Chemins de Fer pour la liste des gares, avec une mention toute particulière pour les contributeurs de Wikipedia, que vous pouvez soutenir par un don.

A vous maintenant de partir à la découverte de nos monuments historiques, au gré de vos envies !


Crédits : Etalab | Wikimedia Commons | DBpedia | Open Street Map | INSEE | Wikipedia francophone | Wikipedia anglophone

Application réalisée avec Antidot Information Factory – Nous contacter : info@antidot.net


Le contenu de ce billet est sous licence CC BY-SA. Traduction en anglais disponible ici.

db2triples : une implémentation de R2RML et DirectMapping en Open Source

Friday, October 7th, 2011

Antidot apporte sa contribution au développement du Web de Données en ouvrant son implémentation des recommandations R2RML et DirectMapping du W3C.

Antidot est impliqué depuis de nombreuses années dans la mise en œuvre opérationnelle des recommandations et standards publiés par le W3C comme RDF, OWL, SKOS ou SPARQL. Ne se cantonnant pas à une approche purement académique, et fort de sa position sur le marché des solutions d’accès à l’information, Antidot a été l’un des premiers éditeurs de logiciels à confronter ces nouveaux outils du Web Sémantique aux besoins et contraintes de grands projets industriels.

Ainsi les dernières versions des solutions logicielles Antidot Information Factory et Antidot Finder Suite ont été parmi les tout premiers logiciels à intégrer nativement ces technologies, pour répondre aux problématiques concrètes de gestion de l’information en entreprise, et aux enjeux stratégiques qui les sous-tendent : réutilisation et urbanisation des données, création de données métier.

Antidot travaille depuis longtemps sur les enjeux de la valorisation des bases de données relationnelles, et en particulier de leur transformation en données sémantiques. C’est donc tout naturellement que nos équipes Recherche & Développement se sont penchées sur les recommandations R2RML et Direct Mapping [1] du W3C en cours de finalisation. Ces technologies apportent en effet une réponse normative à la problématique de la transformation de données relationnelles en graphes RDF pour le chargement automatique d’entrepôts.

Afin de confronter ces recommandations à la réalité opérationnelle de projets clients, Antidot a développé une implémentation à jour des dernières propositions de R2RML et DirectMapping. Et afin de faire bénéficier les communautés informatiques et académiques de nos avancées, nous avons décidé de publier ce composant logiciel en Open Source sous licence LGPL.

Appelée db2triples, cette implémentation en Java, qui s’adapte rapidement à toutes les plateformes. est disponible dès à présent sur la forge Github : http://github.com/antidot/db2triples

db2triples permet d’atteindre les trois buts fixés par le W3C :

  • intégrer les données provenant des bases SQL dans le Web de données (Linked Data)
  • donner la possibilité de les manipuler avec des langages standardisés tels que SPARQL
  • et enfin les regrouper avec d’autres types de données : référentiels, bases de connaissances…

La puissance de cet outil transparaît lors de l’utilisation de données provenant de bases complexes, où il permet rapidement et facilement de trouver les liens entre les données éparpillées dans de multiples tables, et de les enrichir grâce à la puissance de SPARQL 1.1 : nous avons réalisé de nombreux projets de recherche et d’accès à l’information par simple paramétrage en SPARQL de cet outil,  en particulier des indexations génériques de plateformes CMS basées sur WordPress et de sites e-commerce reposant sur la solution Magento.

Antidot a toujours baigné dans le monde de l’Open Source, et nous sommes heureux d’offrir à notre tour db2triples. Chacun peut immédiatement le mettre en pratique, et le modifier à sa guise, par exemple pour exposer immédiatement ses données selon les standards du Web de Données – Linked Data, ou tout simplement les voir sous un autre angle ! En effet, ce composant s’avère particulièrement intéressant dans le cadre de projet Open Data afin de permettre la publication de données vivantes, plutôt que la mise en ligne de fichiers Excel ou PDF dont la réutilisation automatique est complexe, voire impossible.

[1] Références : W3C Working Drafts (24 March 2011)

ISIDORE, un grand et beau projet dont nous sommes très fiers

Wednesday, April 6th, 2011

Lundi 4 avril étalt le jour de la saint Isidore, le patron des informaticiens et internautes. C’est le jour qu’avait judicieusement choisi les hautes autorité du CNRS pour lancer officiellement ISIDORE, le nouveau portail des sciences humaines et sociales, un projet piloté par le  TGE Adonis et réalisé réalisé par le CCSd. C’est un projet auquel Antidot a contribué, en apportant ses solutions logicielles Antidot Finder Suite et Antidot Information Factory, aux côtés de ses partenaires Sword et Mondeca.

ISIDORE est un projet qui a mobilisé beaucoup d’énergies chez Antidot durant des mois, et qui, comme c’est le cas dans tout grand projet informatique, nous a parfois fait souffrir. Pour autant, nous sommes fiers d’y avoir participé, et cela pour 2 raisons :

ISIDORE est utile à la société

En mettant à disposition du public plus d’un million de publications de la recherche française en sciences humaines et sociales, ISIDORE diffuse de la connaissance. Des savoirs jusqu’alors réservés aux seuls chercheurs sont désormais disponibles, à portée de clic, pour les étudiants et pour toute personne qui s’intéresse à la philosophie, l’histoire, la démographie, la psychologie… Bien entendu, nos technologies sont toujours utiles : Antidot Finder Suite rend service aux consommateurs quand il leur permet de trouver plus facilement les produits répondant à leurs attentes sur les sites web de très nombreux marchands en ligne (*).

AFS est utile quand il permet de trouver de l’information sur les sites de grands médias comme TF1, Radio France ou Le Point, ou de grands services publics comme Service-Public.fr, la Sécurité Sociale, l’Assurance Maladie, les Agences Régionales de Santé, l’INSERM, l’AFPA, l’APCE ou encore l’Autorité de Sûreté Nucléaire… et maintenant ISIDORE !

Car ce qui nous motive tous dans le projet d’entreprise d’Antidot, c’est la mission que nous nous sommes assignée il y a bientôt 12 ans : « conçevoir des solutions d’accès à l’information permettant aux organisations et aux hommes de comprendre, de décider et d’agir ».

ISIDORE a fait progresser Antidot, dont il concrétise la vision

Pour réaliser cet ambitieux projet, nos avons proposé au CNRS de mettre en œuvre les technologies du web des données, sur lesquelles nous travaillons depuis de nombreuses années et qui ont été intégrées au cœur de la version 7 d’Antidot Finder Suite et aussi de notre nouvelle solution Antidot Information Factory qui a été dévoilée il y a 2 semaines au salon Documation.

Ces technologies constituent en effet le moyen le plus efficace pour collecter les contenus de 850 sources représentant plus d’un million de publications, pour nettoyer et normaliser toutes les données, les enrichir (classification automatique, annotation à la volée), et les aligner sur des référentiels partagés par la communauté scientifique. Plus de 30 traitements distincts sont réalisés par Antidot Information Factory sur chaque document collecté afin d’homogénéiser et valoriser l’information contenue.

Les données enrichies sont rendues accessibles via AFS v7, le moteur de recherche sémantique d’Antidot, et sont exposées via un point accès SPARQL dans un souci d’ouverture des données publiques (Open Data), selon les règles du Web de données (Linked Data). Concrètement ISIDORE est aujourd’hui le plus grand projet Linked Data / Open Data mené à bien en France.

Au-delà d’ISIDORE

Antidot apporte une vraie réponse industrielle à une problématique qui se pose désormais à toutes les organisations :

« Comment mieux mailler et articuler les données issues de différents entrepôts pour produire une information contextualisée et donc vraiment pertinente ? »

Avec Antidot Information Factory, conjuguée à notre moteur de recherche Antidot Finder Suite, nos clients peuvent créer un « hub de valorisation et d’accès à l’information » au service de leurs utilisateurs, pour permettre de nouveaux usages qui vont bien au-delà de ce que permettent les approches traditionnelles que sont la « recherche fédérée » ou  les « search based applications » dont les limites sont maintenant bien connues.

Nous remercions les équipes du CNRS – TGE Adonis et CCSd d’avoir choisi nos solutions pour bâtir ISIDORE à qui nous souhaitons une très longue vie !

Pour aller plus loin :


A lire aussi, ces 2 documents complets :

(*) 3 Suisses Benelux, 3 Suisses Culture, Bricorama, Camaïeu, Château Online, Cultura, Damart, Discounteo, Feu Vert, Galeries Lafayette, IKKS, Internity, King Jouet, Made in Design, Made in Sport, La Maison de Valérie, Mathon, MotoBlouz, NM Médical, Oreca, Pecheur.com, Petit Bateau, Pimkie, Privilège Discount, Sexy Avenue, Wanimo… utilisent AFS@Store, la déclinaison e-commerce du moteur de recherche AFS, directement dans des logiciels spécifiques, dans des plateformes OpenSource comme Magento ou OS Commerce ou dans les solutions e-commerce de Compario, Digitas ou DotSoft.