Découvrez les Monuments Historiques grâce à l’Open Data !

Pourquoi cette application ?

L’ouverture du site data.gouv.fr le 5 décembre 2011, aussitôt suivie d’autres initiatives, a marqué une accélération du mouvement Open Data en France.

Nous avons voulu apporter notre pierre à l’édifice, en réalisant une démonstration qui met en avant le grand intérêt qu’il y a à pouvoir mailler des données issues de différentes sources grâce aux standards du web sémantique, et la capacité de notre solution Antidot Information Factory à le faire rapidement et simplement, dans une approche industrielle.

Et parce que la France demeure année après année la première destination touristique mondiale, parce que nos territoires regorgent de trésors architecturaux et patrimoniaux, nous avons choisi de réaliser une application de recherche qui vous permet de partir à la découverte de près de 44.000 monuments historiques français !

Quelques explications (un peu) techniques :

Notre application « Monuments historiques » a été réalisée en exploitant 7 sources de données ouvertes :

  1. la liste des Immeubles protégés au titre des Monuments Historiques disponible sur data.gouv.fr. Cette source de données décrit 43.720 monuments dans un fichier CSV.
  2. la liste des gares de voyageurs du Réseau Ferré National avec leurs coordonnées  telle que fournie par data.gouv.fr. Cette source de données décrit 3.065 gares dans un fichier XLS. Elle est exploitée pour situer les monuments à proximité d’une gare.
  3. la liste des stations du métro parisien avec leurs coordonnées, fournie par OpenStreetMap. Cette source de données décrit 301 stations et elle est exploitée pour situer les monuments à proximité d’une station de métro.
  4. les données du code officiel géographique (COG) de l’INSEE. Cette source de données décrit 22 régions, 99 départements, plus de 4.000 cantons et chefs lieux dans un graphe RDF.
  5. Les photos des monuments historiques de Wikipedia proposée par Wikimedia Commons. Cette source de données, notamment alimentée par le concours Wiki loves monuments, apporte 122.828 photos pour 12.586 monuments historiques désignés par leur code PA : il s’agit d’un code délivré de façon unique pour chaque monument et présent dans la liste citée en 1.
  6. La description des monuments historiques de Wikipedia fournie par DBpedia. Cette source de données en RDF décrit 3,64 millions d’objets, dont 413.000 lieux. Cette source est accessible directement à partir des informations de Wikimedia Commons
  7. Les informations de géolocalisation de Yahoo! via Yahoo! PlaceFinder. Cette source permet de géolocaliser à partir de leur adresse les monuments non géolocalisés dans Wikimedia Commons ou DBpedia

La chaine de traitement mise en œuvre pour la réalisation de cette application avec Antidot Information Factory est la suivante :

  1. Une première étape de nettoyage, normalisation et transformation en RDF des fichiers CSV et XLS issus de data.gouv.fr au moyen de Google Refine.
  2. Récupération des données de Wikimedia Commons : un processus de traitement Antidot Information Factory collecte les informations via l’API de Wikimedia et les transforme en RDF : Antidot Information Factory a permis de construire ce processus industriel sans avoir à écrire une seule ligne de code, simplement en assemblant des modules de traitement pris dans une bibliothèque de 50 modules existants.
  3. Récupération des données d’OpenStreetMap pour les stations de métro via son API.
  4. Collecte de toutes les informations de géolocalisation par Antidot Information Factory via l’API de Yahoo! PlaceFinder, pour les lieux non déjà géolocalisés.
  5. Maillage de toutes les données issues des 7 sources par Antidot Information Factory : le résultat est un graphe RDF comprenant plus de 4,5 millions de triplets, dont près de 450.000 ont été inférés à partir des sources.
  6. Ce triple store est ensuite la source unique mise en entrée du module d’indexation du moteur de recherche Antidot Finder Suite.

Le résultat est une application web de recherche permettant  de trouver des monuments historiques

  • par une recherche en plein texte
  • dans une région, un département ou une ville donnés
  • par type de monument : église, château, statue, site industriel
  • par période historique : préhistoire, moyen-âge, renaissance etc
  • par type de propriétaire : personne ou société privée, commune, Etat…

avec combinaison possible de tous ces critères, sous forme de « facettes de recherche » très simples à manipuler.

Conclusion (provisoire)

Cette application a été réalisée en quelques jours, sans impliquer de développeurs et par simple paramétrage de notre solution Antidot Information Factory. Cela montre, s’il en est encore besoin, la puissance et la justesse de l’approche et des technologies du Web Sémantique promues par le W3C.

Cette application démontre que l’Open Data favorise l’émergence de nouveaux usages : par la mise à disposition de données qui sont facilement reliées à d’autres données, la seule limite devient notre imagination et notre capacité à proposer de nouveaux services innovants et utiles !

Merci à tous les fournisseurs de données qui ont rendu possible cette réalisation, notamment le Ministère de la Culture et de la Communication pour la liste des monuments historiques et la Société Nationale des Chemins de Fer pour la liste des gares, avec une mention toute particulière pour les contributeurs de Wikipedia, que vous pouvez soutenir par un don.

A vous maintenant de partir à la découverte de nos monuments historiques, au gré de vos envies !


Crédits : Etalab | Wikimedia Commons | DBpedia | Open Street Map | INSEE | Wikipedia francophone | Wikipedia anglophone

Application réalisée avec Antidot Information Factory – Nous contacter : [email protected]


Le contenu de ce billet est sous licence CC BY-SA. Traduction en anglais disponible ici.

28 thoughts on “Découvrez les Monuments Historiques grâce à l’Open Data !

  1. @Ivan Nous avons mis le contenu du billet en licence CC-BY-SA, la communauté wikipédienne est en train de le traduire, nous pourrons diffuser quand il sera en ligne. Merci pour la suggestion.

    Bonnes fêtes à toi aussi

    Gautier

  2. Bonjour.

    Le ministère de la Culture a mis en place, depuis des années déjà, des bases de données avec divers modes de recherche (http://www.culture.gouv.fr/culture/inventai/patrimoine/index.htm), qui amènent à des fiches descriptives complètes avec photos professionnelles. A part pour la géolocalisation, je ne vois pas très bien la plus-value de votre appli, qui ira chercher des contenus wiki, donc incertains et incomplets. Ne pouvait-on pas porter les contenus des bases du ministères sans passer par un croisement liste des monuments/contenus wiki ?

  3. Bonjour,

    Cette application n’a pas vocation à se substituer ou à concurrencer celles déjà réalisées par le ministère de la Culture. Pour autant, elle a pour socle les données d’une de ses bases, en l’occurrence la base Mérimée, mises à disposition sous licence libre dans le cadre du site data.gouv.fr.

    Il s’agit plutôt d’un démonstrateur, d’un prototype technique visant à démontrer les possibilités ouvertes par la mise à disposition libre des données publiques et les capacités des standards du Web sémantique et de nos outils dans la mise en relation simple et rapide de différents ensembles de données éparses.

    C’est pourquoi nous avons choisi de croiser les données ouvertes publiées par le ministère de la Culture avec les données de Wikimedia et Wikipedia, entre autres. Nous utiliserions avec plaisir l’ensemble des données du Ministère de la Culture, photos y compris, si ces contenus étaient mis à disposition sous une forme techniquement exploitable et dans des conditions juridiques rendant possible leur réutilisation. Désireux de mettre rapidement en ligne cette démonstration sans prendre le moindre risque juridique, il ne nous était pas possible de mener une étude préalabl quant aux droits d’auteur sur des bases de photos, d’où le choix de nous sources, toutes sous licences libres.

    Et dans la mesure où cela n’était pas notre but, et où nous ne sommes pas des spécialistes du patrimoine culturel, nous n’avons pas cherché, dans le cadre de ce prototype, à juger de la pertinence des différents ensembles de données que nous avons utilisé : nous avons juste exploité ce qui était disponible sur le web.

  4. À M. Gabriel Poisson

    Cher collègue,

    Votre confiance dans le système institutionnel des monuments historiques fait plaisir à voir. Il est certain que ces données sont très importantes, ce que tout le monde reconnaît puisque la base Mérimée telle que mise à disposition dans le cadre de data.gouv.fr est à l’origine de ce mashup.

    Néanmoins, en tant que professionnel du patrimoine et – je l’espère – que chercheur vous-même, vous n’aurez pas manqué de remarquer le gigantesque pas en avant que constitue ce site et l’utilisation des données Wikimédia.

    *les données de Mérimée sont anciennes et pas toujours mises à jour. Vous pouvez essayer de chercher ce monument, vous ne le trouverez pas http://www.culture.gouv.fr/public/mistral/merimee_fr?ACTION=CHERCHER&FIELD_1=REF&VALUE_1=PA00086011 car il a été détruit il y a plusieurs décennies, ce qu’un lecteur ne Mérimée ne peut savoir. Il existe sur Wikipédia une assez longue liste des erreurs trouvées dans Mérimée.

    *les descriptions des monuments dans Mérimée sont extrêmement succinctes, pour la plupart. Ce qui se comprend car il s’agit d’une base de signalement et non de textes de fond ; mais c’est en partie là que réside la plus-value de Wikipédia. D’autant que les textes de Mérimée ne donnent aucune source et ne peuvent être mis à jour au fur et à mesure des publications de nouvelles recherches sur le sujet.

    *les photographies de Mérimée représentent une minorité des éléments classés ou inscrits. Quand elles existent il s’agit souvent de clichés anciens (que de 2CV et de 4L dans les rues des villes), aux couleurs passées qui ne documentent qu’une partie des bâtiments et à une époque donnée.

    *les données de Wikipédia sont extrêmement structurées par l’intermédiaire des infobox et des catégories liées, ce qui permet une recherche plus fine et plus pertinente

    Sur le fond et pour assurer une rigueur au travail, un passage par Wikipédia était utile sinon nécessaire dans l’état actuel des forces de travail du ministère sur le sujet.

    Sans doute convient-il également de souligner – et vous êtes certainement très attaché à cette idée en tant que directeur d’une institution culturelle – qu’une base de donnée est publiée pour un public. Lors donc :

    *il est presque impossible pour une personne ordinaire d’effectuer une recherche dans Mérimée. Une fois la recherche effectuée, le rebond est compliqué. L’interface de ce mashup permet à tous des recherches croisées aisées et précisées au fur et à mesure par un système de facettes

    *Mérimée était jusqu’à ce jour un outil ipso facto réservé aux professionnels, presque inconnu du grand public alors même que l’on sait l’intérêt de tous pour le patrimoine de proximité. Le concours Wiki loves monuments a permis d’apporter 170 000 photos de MH européens, 25 000 français, en un mois ; chacun référencé par son numéro unique officiel. Wikimedia a donc énormément fait pour la visibilité et l’usage de Mérimée, ce dont tout le monde – le ministère en premier lieu – ne manquera pas de se réjouir.

    Je ne me souviens pas vous avoir vu à la table ronde sur les enjeux du partage des données culturelles publiques à laquelle j’étais intervenu au dernier congrès des Archives de France ; aussi demeuré-je bien sûr, cher collègue, à votre disposition pour vous éclairer sur ces sujets si vous désirez mieux les connaître et vous prie de recevoir mes meilleures pensées en cette période de fêtes.

    RM

  5. Bonjour,

    serait-ce possible d’obtenir la liste des liens des photos des monuments historiques avec les codes PA à côté ?

    Ou de me dire comment vous avez fait pour crawler ces infos ?

    C’est pour un projet d’école.

    Merci d’avance,
    Bien cdlt.

  6. Bonjour Lucas,

    Pour récupérer les données de Wikimedia Commons, nous avons utilisé l’API mediaWiki sur le serveur Commons. Vous en trouverez la documentation à l’adresse : http://commons.wikimedia.org/w/api.php .

    Nous avons utilisé cette API avec la catégorie des images avec le code PA Mérimée : http://commons.wikimedia.org/wiki/Category:M%C3%A9rim%C3%A9e_with_PA_parameter . Pour chaque page, nous avons extrait le code PA et nous avons réutilisé l’API pour récupérer l’URL des images.

    J’espère que cela pourra vous servir.

    Gautier

  7. Bon, après une heure passée sur l’API je comprends un peu mais je n’ai pas réussi à afficher toutes les pages liées à la catégorie http://commons.wikimedia.org/wiki/Category:M%C3%A9rim%C3%A9e_with_PA_parameter

    J’ai bien compris que le but est de savoir quel PA est associé à quelle page pour ensuite récupérer les images et savoir à quel PA elles correspondent.

    Malheureusement cette API est peut être fonctionnelle mais c’est vraiment bordélique à comprendre.

    Est-ce que vous ne pourriez pas seulement me dire quelle URL de l’API taper pour afficher toutes les pages liées à la catégorie précitée ?

    Merci d’avance si vous le faites – Vous ne me sauveriez pas la vie mais je le prendrai comme tel 😉

  8. Bonjour,
    Dans le cadre d’un projet universitaire, nous travaillons sur le même sujet que l’article ci-dessus (les monuments), et nous aurions voulu avoir accès a vos données (ou a un endpoint SPARQL), afin de réaliser une interconnexion de nos données.

    Dans l’espoir d’avoir une réponse.

  9. Merci pour cette possibilité de visiter les nombreux et superbes monuments historiques français sans avoir à quitter son fauteuil. On pourrait y rester des heures! Nous reviendrons.

  10. Est-il possible de télécharger la base de données afin de la consulter hors ligne,… sur I pad, par exemple, lorsqu’on visite une région? Dans l’affirmative, comment faire?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *