<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Blog Antidot &#187; Technologie</title>
	<atom:link href="http://blog.antidot.net/category/technology/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.antidot.net</link>
	<description></description>
	<lastBuildDate>Thu, 02 Feb 2012 15:22:07 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>Mais à quoi bon le big data ?</title>
		<link>http://blog.antidot.net/2012/01/23/mais-a-quoi-bon-le-big-data/</link>
		<comments>http://blog.antidot.net/2012/01/23/mais-a-quoi-bon-le-big-data/#comments</comments>
		<pubDate>Mon, 23 Jan 2012 16:23:18 +0000</pubDate>
		<dc:creator>Fabrice Lacroix</dc:creator>
				<category><![CDATA[Technologie]]></category>
		<category><![CDATA[Tendances]]></category>
		<category><![CDATA[big data]]></category>
		<category><![CDATA[cloud computing]]></category>
		<category><![CDATA[cloud processing]]></category>
		<category><![CDATA[cloud storage]]></category>
		<category><![CDATA[Cloudera]]></category>
		<category><![CDATA[clusters]]></category>
		<category><![CDATA[Dropbox]]></category>
		<category><![CDATA[EMC]]></category>
		<category><![CDATA[Facebook]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[Hortonworks]]></category>
		<category><![CDATA[map reduce]]></category>
		<category><![CDATA[Oracle]]></category>
		<category><![CDATA[Twitter]]></category>
		<category><![CDATA[Yahoo!]]></category>

		<guid isPermaLink="false">http://blog.antidot.net/?p=649</guid>
		<description><![CDATA[Un des mots à la mode dans notre domaine du traitement des données est big data. Il s’agit de la capacité à traiter des quantités massives de données structurées ou non structurées. Mais massives comment ? A partir de combien est-ce du big data ? Qui en a besoin ? Quelle est la réalité opérationnelle derrière ces mots ? [...]]]></description>
			<content:encoded><![CDATA[<p>Un des mots à la mode dans notre domaine du traitement des données est <strong><em>big data</em></strong>. Il s’agit de la capacité à traiter des quantités massives de données structurées ou non structurées. Mais massives comment ? A partir de combien est-ce du <em>big data </em>? Qui en a besoin ? Quelle est la réalité opérationnelle derrière ces mots ?</p>
<p style="text-align: center;"><a href="http://www.economist.com/node/15579717" target="_blank"><img class="aligncenter" src="http://www.datastax.com/wp-content/uploads/2011/12/big-data-economist.jpg" alt="" width="274" height="306" /></a></p>
<p>Rappelons d’abord que l’origine du <a href="http://fr.wikipedia.org/wiki/Big_data" target="_blank"><em>big data</em></a> est liée à une logique de programmation distribuée dite <a href="http://fr.wikipedia.org/wiki/MapReduce" target="_blank"><em>map-reduce</em></a> qui a été développée par <a href="http://wiki.apache.org/hadoop/PoweredBy" target="_blank">des sociétés du Web</a> comme Google, Yahoo!, Facebook etc : ces grands sites mondiaux ont des tonnes de données à analyser et ne pouvaient pas se contenter des approches « <em>bases de données centric </em>» habituelles. Dropbox gère 100 millions de sauvegardes de fichiers par jour, Twitter annonce 200 millions de tweets quotidiens, Facebook supporte 250 millions d&#8217;uploads de photos par jour et en stocke plus de 40 milliards&#8230; Le <em>big data</em> est donc d’abord une approche informatique qui prend le relais quand une implémentation classique basée sur l’utilisation de quelques serveurs, même très costauds, ne suffit plus pour assurer les temps de traitement attendus. Ainsi, ces acteurs exploitent <a href="http://en.wikipedia.org/wiki/Commodity_computing" target="_blank">des clusters regroupant chacun plusieurs milliers de serveurs</a> et manipulant des péta-octets <sup>[<a href="#Po">1</a>]</sup> de données.</p>
<p>D’un point de vue logiciel, le <em>big data</em> est souvent associé à la pile technologique <a href="http://fr.wikipedia.org/wiki/Hadoop" target="_blank">Hadoop</a> mise en open source par Yahoo! et reprise par nombre d’entreprises à vocation commerciale (EMC, Cloudera, Hortonworks…). Hadoop et ses dérivés apportent un système de stockage distribué, une base de données répartie, ainsi qu’un cadre de programmation et d’exécution de tâches de calcul réparties.</p>
<p style="text-align: center;"><a class="fancybox" href="http://www.informatica.com/us/Images/big-data-thumb-big-640x480.jpg"><img class="aligncenter" src="http://www.informatica.com/us/Images/big-data-thumb-big-640x480.jpg" alt="" width="448" height="336" /></a></p>
<p>&nbsp;</p>
<p>Mais à quoi cela sert-il et quel sens cela a-t-il pour la plupart des entreprises qui ont quelques téra-octets de données à analyser ?</p>
<p>Quelques éléments de réponse :</p>
<ul>
<li>Le <em>big data</em> est une technologie et non une solution. C’est un moyen et pas une fin. Donc dire « <em>je vais faire du big data </em>» n’a pas de sens car celui-ci ne répond à aucun besoin fonctionnel en particulier. C’est comme dire « <em>je vais faire de la base de données</em> » ou « <em>je vais faire du Web</em> ». Pour quoi faire ? La démarche doit rester pragmatique : partez de votre besoin, voyez s’il est satisfait de façon acceptable par des solutions existantes. Et si rien de ce qui existe ne convient (trop cher, trop lent) alors demandez-vous si une approche alternative exploitant les technologies du <em>big data</em> peut être envisagée.</li>
</ul>
<ul>
<li>Le <em>big data</em> nécessite <a href="http://www.lemagit.fr/article/formation-donnees-gestion-hadoop-big-data/10167/1/big-data-penurie-main-oeuvre-formation-deux-enjeux-analytique/" target="_blank">de très fortes compétences</a>. Tout d’abord, le niveau de maturité des technologies proposées nécessite des ingénieurs qualifiés pour installer, paramétrer, optimiser et faire tourner ces couches logicielles. A fortiori si vous comptez bâtir des solutions opérationnelles critiques. Il en va de même pour le développement des applications car celles qui veulent tirer partie de l’approche doivent être ré-écrites selon les principes du map-reduce. Souvenons-nous que chez Google ou Facebook, ce sont leurs meilleurs ingénieurs logiciels et  mathématiciens qui développent les applications <em>big data</em>.</li>
</ul>
<ul>
<li>Pour faire du <em>big data</em>, il faut beaucoup de données. Des téra-octets, voire plutôt des dizaines de téra-octets. À moins de 10 ou 15 serveurs, le passage au <em>big data</em> n’a pas de sens.<br />
Un exemple : Oracle vient de sortir <a href="http://www.silicon.fr/une-appliance-big-data-hadoop-signee-oracle-et-cloudera-70604.html" target="_blank">une appliance <em>big data</em> petit format</a> : 18 serveurs, 864 Go de mémoire, 648 To de stockage pour la modique somme de 455 000 $. Et encore&#8230; il reste à intégrer et à développer les applications qui reposeront sur cette architecture.</p>
<p><a class="fancybox" href="http://regmedia.co.uk/2011/10/03/oracle_big_data_appliance.jpg"><img class="aligncenter" src="http://regmedia.co.uk/2011/10/03/oracle_big_data_appliance.jpg" alt="" width="410" height="250" /></a><br />
Avec l’arrivée des <a href="http://www.amd.com/fr/products/server/processors/6000-series-platform/6200/Pages/6200-series-processors.aspx" target="_blank">processeurs massivement multi-cœurs</a>, du in-memory computing ou des SSD, la frontière se déplace et pour la majorité des cas, un seul serveur moderne suffit encore. Alors que dans le cas d’un cluster, il faut prendre en compte le coût élevé de possession (TCO) : achat des machines, installation et administration, électricité, froid, maintenance… A fortiori s’il s’agit de n’effectuer que quelques heures ou jours de calcul par mois, la rentabilité d’une telle approche est difficile à atteindre. <em>Big data</em> et <em>cloud computing</em> pourraient alors avoir un avenir commun, mais a condition que les entreprises veuillent bien envoyer dans le <em>cloud</em> leurs téra-octets de données à analyser.</li>
</ul>
<p>En définitive, il ne s’agit pas de savoir sur combien de serveurs les calculs sont faits, mais de savoir lesquels. Pour quel usage ? Quelle valeur créée ?<br />
C’est pourquoi ce sont plutôt les éditeurs de logiciels qui vont s&#8217;emparer du <em>big data</em>, afin d’offrir des solutions opérationnelles répondant aux besoins des entreprises et passant à l’échelle du péta-octets. Les éditeurs de logiciels déjà actifs dans la BI, le data mining ou les moteurs de recherche intégreront ces techniques pour fournir des version « big » de leurs solutions.</p>
<p>Et d’ailleurs qu’en est-il côté <a href="http://www.antidot.net/" target="_blank">Antidot</a> ? Nos <a href="http://antidot.net/fr/Solutions" target="_blank">solutions</a> sont conçues dès l&#8217;origine pour fonctionner aussi bien sur un seul serveur que sur des clusters de machines pour traiter des millions de données et répondre à des centaines de requêtes par seconde. Et nous travaillons déjà à intégrer à nos solutions les apports de l’approche <em>big data</em>.</p>
<p>Mais au delà de la surenchère marketing, nous nous attachons surtout à fournir des solutions qui créent de la valeur pour nos clients. Ainsi, notre <a href="http://antidot.net/fr/Technologie/AIF" target="_blank">framework d’analyse de documents</a> offre des modules prêts à l’emploi couvrant des besoins aussi variés que la classification, la normalisation, l’annotation, l’enrichissement sémantique ou la géolocalisation des données… Agilité et vitesse d’exécution sont des enjeux qui nous semblent plus importants que force et volume.</p>
<p><strong>Conclusion : ce n’est pas la peine de complexer si vous n’avez pas plusieurs centaines de téra-octets de données à analyser et si vous vous sentez exclu du big data. Car en définitive, seule la valeur que vous saurez tirer de vos données a vraiment de l’importance !</strong></p>
<p><a name="Po"></a></p>
<p>[1] un <a href="http://fr.wikipedia.org/wiki/Octet#Multiples_normalis.C3.A9s" target="_blank">péta-octet</a>, en abrégé Po, représente 10<sup>15</sup> octets, soit mille téra-octets ou un million de giga-octets&#8230;</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.antidot.net/2012/01/23/mais-a-quoi-bon-le-big-data/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Découvrez les Monuments Historiques grâce à l&#8217;Open Data !</title>
		<link>http://blog.antidot.net/2011/12/19/decouvrez-les-monuments-historiques-grace-a-lopen-data/</link>
		<comments>http://blog.antidot.net/2011/12/19/decouvrez-les-monuments-historiques-grace-a-lopen-data/#comments</comments>
		<pubDate>Mon, 19 Dec 2011 09:12:45 +0000</pubDate>
		<dc:creator>Pierre Col</dc:creator>
				<category><![CDATA[Antidot]]></category>
		<category><![CDATA[Open Data]]></category>
		<category><![CDATA[Technologie]]></category>
		<category><![CDATA[agrégation de données]]></category>
		<category><![CDATA[Antidot Information Factory]]></category>
		<category><![CDATA[data.gouv.fr]]></category>
		<category><![CDATA[enrichissement sémantique]]></category>
		<category><![CDATA[Etalab]]></category>
		<category><![CDATA[géocodage]]></category>
		<category><![CDATA[géolocalisation]]></category>
		<category><![CDATA[INSEE]]></category>
		<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[Linked Open Data]]></category>
		<category><![CDATA[LOD]]></category>
		<category><![CDATA[maillage de données]]></category>
		<category><![CDATA[Ministère de la Culture et de la Communication]]></category>
		<category><![CDATA[monuments]]></category>
		<category><![CDATA[monuments historiques]]></category>
		<category><![CDATA[OpenStreetMap]]></category>
		<category><![CDATA[OWL]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[SKOS]]></category>
		<category><![CDATA[SNCF]]></category>
		<category><![CDATA[SparQL]]></category>
		<category><![CDATA[triple store]]></category>
		<category><![CDATA[valorisation de données]]></category>
		<category><![CDATA[W3C]]></category>
		<category><![CDATA[web de données]]></category>
		<category><![CDATA[web sémantique]]></category>
		<category><![CDATA[Wikimedia]]></category>
		<category><![CDATA[Wikipedia]]></category>
		<category><![CDATA[Yahoo!]]></category>

		<guid isPermaLink="false">http://blog.antidot.net/?p=510</guid>
		<description><![CDATA[Pourquoi cette application ? L’ouverture du site data.gouv.fr le 5 décembre 2011, aussitôt suivie d’autres initiatives, a marqué une accélération du mouvement Open Data en France. Nous avons voulu apporter notre pierre à l’édifice, en réalisant une démonstration qui met en avant le grand intérêt qu’il y a à pouvoir mailler des données issues de différentes [...]]]></description>
			<content:encoded><![CDATA[<h2><strong>Pourquoi cette application ?</strong></h2>
<p>L’ouverture du site <a href="http://data.gouv.fr/" target="_blank">data.gouv.fr</a> le 5 décembre 2011, aussitôt suivie <a href="../2011/12/08/grande-semaine-pour-lopen-data-francais/" target="_blank">d’autres initiatives</a>, a marqué une accélération du mouvement Open Data en France.</p>
<p>Nous avons voulu apporter notre pierre à l’édifice, en réalisant une démonstration qui met en avant le grand intérêt qu’il y a à pouvoir mailler des données issues de différentes sources grâce aux standards du <a href="http://fr.wikipedia.org/wiki/Web_s%C3%A9mantique" target="_blank">web sémantique</a>, et la capacité de notre solution <a href="http://antidot.net/fr/Technologie/AIF" target="_blank">Antidot Information Factory</a> à le faire rapidement et simplement, dans une approche industrielle.</p>
<p>Et parce que <a href="http://fr.wikipedia.org/wiki/Tourisme_en_France" target="_blank">la France demeure année après année la première destination touristique mondiale</a>, parce que nos territoires regorgent de trésors architecturaux et patrimoniaux, nous avons choisi de réaliser <a href="http://labs.antidot.net/demo/monuments" target="_blank">une application de recherche qui vous permet de partir à la découverte de près de 44.000 monuments historiques français !</a></p>
<p><a href="http://labs.antidot.net/demo/monuments/" target="_blank"><img class="size-full wp-image-512 aligncenter" title="screenshot-home-demo-monuments" src="http://blog.antidot.net/wp-content/uploads/2011/12/screenshot-home-demo-monuments.png" alt="" width="450" height="104" /></a></p>
<h2><strong>Quelques explications (un peu) techniques :</strong></h2>
<p>Notre application « <strong><a href="http://labs.antidot.net/demo/monuments/">Monuments historiques</a></strong> » a été réalisée en exploitant 7 sources de données ouvertes :</p>
<ol>
<li>la liste des <a href="http://www.data.gouv.fr/donnees/view/Liste-des-Immeubles-prot%C3%A9g%C3%A9s-au-titre-des-Monuments-Historiques-30382152?xtmc=merimee&amp;xtcr=6" target="_blank">Immeubles protégés au titre des Monuments Historiques</a> disponible sur <a href="http://data.gouv.fr" target="_blank">data.gouv.fr</a>. Cette source de données décrit <strong>43.720 monuments</strong> dans un <strong>fichier CSV.</strong></li>
<li>la liste des <a href="http://www.data.gouv.fr/donnees/view/Liste-des-gares-de-voyageurs-du-RFN-avec-coordonn%C3%A9es-30383099?xtmc=gare&amp;xtcr=1" target="_blank">gares de voyageurs du Réseau Ferré National</a> avec leurs coordonnées  telle que fournie par <a href="http://data.gouv.fr" target="_blank">data.gouv.fr</a>. Cette source de données décrit <strong>3.065 gares</strong> dans un <strong>fichier XLS. </strong>Elle est exploitée pour situer les monuments à proximité d’une gare.</li>
<li>la liste des stations du métro parisien avec leurs coordonnées, fournie par <a href="http://www.openstreetmap.org" target="_blank">OpenStreetMap</a>. Cette source de données décrit <strong>301 stations</strong> et elle est exploitée pour situer les monuments à proximité d’une station de métro.</li>
<li>les données du code officiel géographique (COG) de l&#8217;<a href="http://rdf.insee.fr/geo/" target="_blank">INSEE</a>. Cette source de données décrit <strong>22 régions, 99 départements, plus de 4.000 cantons et chefs lieux </strong>dans un <strong>graphe RDF.</strong></li>
<li>Les photos des <a href="http://commons.wikimedia.org/wiki/Category:M%C3%A9rim%C3%A9e_with_PA_parameter" target="_blank">monuments historiques de Wikipedia</a> proposée par Wikimedia Commons. Cette source de données, notamment alimentée par le concours <a href="http://www.wikilovesmonuments.fr/" target="_blank"><strong>Wiki loves monuments</strong></a>, apporte <strong>122.828 photos</strong> pour <strong>12.586 monuments</strong> historiques désignés par leur code PA : il s’agit d’un code délivré de façon unique pour chaque monument et présent dans la liste citée en 1.</li>
<li>La description des <a href="http://wiki.dbpedia.org/Datasets" target="_blank">monuments historiques de Wikipedia fournie par DBpedia</a>. Cette source de données <strong>en RDF</strong> décrit <strong>3,64 millions d’objets</strong>, dont <strong>413.000 lieux</strong>. Cette source est accessible directement à partir des informations de Wikimedia Commons</li>
<li>Les informations de géolocalisation de Yahoo! via <a href="http://developer.yahoo.com" target="_blank">Yahoo! PlaceFinder</a>. Cette source permet de géolocaliser à partir de leur adresse les monuments non géolocalisés dans Wikimedia Commons ou DBpedia</li>
</ol>
<p>La chaine de traitement mise en œuvre pour la réalisation de cette application avec <a href="http://antidot.net/fr/Technologie/AIF" target="_blank"><strong>Antidot Information Factory</strong></a> est la suivante :</p>
<ol>
<li>Une première étape de nettoyage, normalisation et transformation en RDF des fichiers CSV et XLS issus de <a href="http://data.gouv.fr" target="_blank">data.gouv.fr</a> au moyen de <a href="http://code.google.com/p/google-refine/" target="_blank"><strong>Google Refine</strong></a>.</li>
<li>Récupération des données de Wikimedia Commons : un <strong>processus de traitement Antidot Information Factory</strong> collecte les informations via l&#8217;API de Wikimedia et les transforme en RDF : Antidot Information Factory a permis de construire ce processus industriel sans avoir à écrire une seule ligne de code, simplement en assemblant des modules de traitement pris dans une bibliothèque de 50 modules existants.</li>
<li>Récupération des données d’OpenStreetMap pour les stations de métro via son API.</li>
<li>Collecte de toutes les informations de géolocalisation par Antidot Information Factory via l&#8217;API de Yahoo! PlaceFinder, pour les lieux non déjà géolocalisés.</li>
<li>Maillage de toutes les données issues des 7 sources par Antidot Information Factory : le résultat est un <strong>graphe RDF </strong>comprenant <strong>plus de 4,5 millions de triplets, dont près de 450.000 ont été inférés à partir des sources</strong>.</li>
<li>Ce triple store est ensuite la source unique mise en entrée du module d’indexation du <strong>moteur de recherche Antidot Finder Suite.</strong></li>
</ol>
<p><a href="http://blog.antidot.net/wp-content/uploads/2011/12/schema-AIF-demo-monuments.png"><img class="aligncenter size-full wp-image-513" title="schema-AIF-demo-monuments" src="http://blog.antidot.net/wp-content/uploads/2011/12/schema-AIF-demo-monuments.png" alt="" width="450" height="129" /></a></p>
<p><strong>Le résultat est une application web de recherche permettant  de trouver des monuments historiques </strong></p>
<ul>
<li><strong>par une recherche en plein texte</strong></li>
<li><strong>dans une région, un département ou une ville</strong> donnés</li>
<li><strong>par type de monument </strong>: église, château, statue, site industriel</li>
<li><strong>par période historique </strong>: préhistoire, moyen-âge, renaissance etc</li>
<li><strong>par type de propriétaire </strong>: personne ou société privée, commune, Etat…</li>
</ul>
<p>avec combinaison possible de tous ces critères, sous forme de « facettes de recherche » très simples à manipuler.</p>
<h2><strong>Conclusion (provisoire)</strong></h2>
<p>Cette application a été réalisée en quelques jours, sans impliquer de développeurs et par simple paramétrage de notre solution Antidot Information Factory. Cela montre, s’il en est encore besoin, la puissance et la justesse de l’approche et des <a href="http://www.w3.org/standards/semanticweb/" target="_blank">technologies du Web Sémantique</a> promues par le <a href="http://www.w3.org/" target="_blank">W3C</a>.</p>
<p>Cette application démontre que l’Open Data favorise l’émergence de nouveaux usages : <strong>par la mise à disposition de données qui sont facilement reliées à d’autres données, la seule limite devient notre imagination et notre capacité à proposer de nouveaux services innovants et utiles !</strong></p>
<p><strong></strong>Merci à tous les fournisseurs de données qui ont rendu possible cette réalisation, notamment le <a href="http://www.culturecommunication.gouv.fr/" target="_blank">Ministère de la Culture et de la Communication</a> pour la liste des monuments historiques et la <a href="http://www.sncf.com/" target="_blank">Société Nationale des Chemins de Fer</a> pour la liste des gares, avec une mention toute particulière pour les contributeurs de Wikipedia, que vous pouvez <a href="http://www.wikimedia.fr/pourquoi-donner" target="_blank">soutenir par un don</a>.</p>
<p><strong><a href="http://labs.antidot.net/demo/monuments" target="_blank">A vous maintenant de partir à la découverte de nos monuments historiques, au gré de vos envies !</a></strong></p>
<hr />
<p>Crédits : <a href="http://www.data.gouv.fr/" target="_blank">Etalab</a> | <a href="http://commons.wikimedia.org/wiki/Main_Page" target="_blank">Wikimedia Commons</a> | <a href="http://dbpedia.org/" target="_blank">DBpedia</a> | <a href="http://www.openstreetmap.org/" target="_blank">Open Street Map</a> | <a href="http://rdf.insee.fr/geo/" target="_blank">INSEE</a> | <a href="http://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Accueil_principal" target="_blank">Wikipedia francophone</a> | <a href="http://en.wikipedia.org/wiki/Main_Page" target="_blank">Wikipedia anglophone</a></p>
<p>Application réalisée avec <a href="http://antidot.net/fr/Technologie/AIF" target="_blank">Antidot Information Factory</a> &#8211; Nous contacter : <a href="mailto:info@antidot.net?subject=Demo%20Monuments">info@antidot.net</a></p>
<hr />
<p>Le contenu de ce billet est sous licence <a href="http://creativecommons.org/licenses/by-sa/3.0/">CC BY-SA</a>. Traduction en anglais <a href="http://blog.antidot.net/discover-french-monuments-through-open-data/">disponible ici</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.antidot.net/2011/12/19/decouvrez-les-monuments-historiques-grace-a-lopen-data/feed/</wfw:commentRss>
		<slash:comments>16</slash:comments>
		</item>
		<item>
		<title>Grande semaine pour l&#8217;Open Data français !</title>
		<link>http://blog.antidot.net/2011/12/08/grande-semaine-pour-lopen-data-francais/</link>
		<comments>http://blog.antidot.net/2011/12/08/grande-semaine-pour-lopen-data-francais/#comments</comments>
		<pubDate>Thu, 08 Dec 2011 09:23:56 +0000</pubDate>
		<dc:creator>Pierre Col</dc:creator>
				<category><![CDATA[Open Data]]></category>
		<category><![CDATA[Open Source]]></category>
		<category><![CDATA[Technologie]]></category>
		<category><![CDATA[Tendances]]></category>
		<category><![CDATA[Data Tuesday]]></category>
		<category><![CDATA[Data Tuesdays]]></category>
		<category><![CDATA[data.gouv.fr]]></category>
		<category><![CDATA[data.sncf.com]]></category>
		<category><![CDATA[Etalab]]></category>
		<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[Linked Open Data]]></category>
		<category><![CDATA[LOD]]></category>
		<category><![CDATA[OWL]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[SKOS]]></category>
		<category><![CDATA[SNCF]]></category>
		<category><![CDATA[SparQL]]></category>
		<category><![CDATA[triple store]]></category>
		<category><![CDATA[W3C]]></category>
		<category><![CDATA[web de données]]></category>
		<category><![CDATA[web sémantique]]></category>

		<guid isPermaLink="false">http://blog.antidot.net/?p=487</guid>
		<description><![CDATA[Cette première semaine de décembre 2011 aura marqué le vrai démarrage du mouvement Open Data en France, avec en l&#8217;espace de 3 jours une succession dense d&#8217;événements importants : lundi a eu lieu  le lancement par la mission Etalab, dirigée par Séverin Naudet,  de la plateforme officielle data.gouv.fr. Mardi soir se tenait la seconde édition [...]]]></description>
			<content:encoded><![CDATA[<p><strong>Cette première semaine de décembre 2011 aura marqué le vrai démarrage du mouvement Open Data en France, avec en l&#8217;espace de 3 jours une succession dense d&#8217;événements importants : lundi a eu lieu  le lancement par la <a href="http://www.etalab.gouv.fr/" target="_blank">mission Etalab</a>, dirigée par <a href="http://www.etalab.gouv.fr/pages/Qui_sommes_nous_-5883786.html" target="_blank">Séverin Naudet</a>,  de la plateforme officielle <a href="http://data.gouv.fr" target="_blank">data.gouv.fr</a>. Mardi soir se tenait la <a href="http://data-tuesday.com/2011/12/02/le-programme-du-data-tuesday-du-mardi-6-decembre/" target="_blank">seconde édition des Data Tuesdays</a>, qui montent en puissance et où <a href="http://slidesha.re/Antidot-DataTuesday" target="_blank">Antidot était présente</a>. Enfin mercredi a été ouverte la plateforme de réflexion collaborative de la SNCF <a href="http://data.sncf.com" target="_blank">data.sncf.com</a></strong><strong>.</strong></p>
<p>Chez Antidot, l&#8217;approche Open Data nous enthousiasme vraiment, car nous sommes convaincus que c&#8217;est le début d&#8217;un mouvement qui, en ouvrant les données publiques, va permettre à l&#8217;intelligence individuelle et collective des citoyens d&#8217;exprimer sa créativité.</p>
<p>Désormais, les données commencent à être publiées, et les standards, technologies et outils sont disponibles : et du coup, tout le monde va comprendre que l&#8217;Open Data n&#8217;est plus un problème de &#8220;<em>comment faire</em>&#8220;, mais bien de &#8220;<em>que faire</em>&#8221; et surtout &#8220;<em>pourquoi le faire</em>&#8220;.</p>
<p>Or le &#8220;<em>que faire</em>&#8221; et le &#8220;<em>pourquoi le faire</em>&#8221; peuvent justifier d&#8217;interconnecter des jeux de données issus de producteurs très différents, et de mailler des informations de nature très diverses pour les réutiliser d&#8217;une façon qui n&#8217;avait pas encore été imaginée. Et du coup, on en vient à considérer qu&#8217;il faut partager des données les plus brutes possibles, sans le filtre d&#8217;APIs qui présupposent des usages et en limitent d&#8217;autres. Espérer que des APIs propriétaires associées à chaque jeu de données vont être vraiment utiles est illusoire, pour une raison très simple : si, pour bâtir une application exploitant 13 jeux de données différents, il faut intégrer 13 APIs de fournisseurs différents, alors le résultat du développement sera un monstre totalement impossible à maintenir et à faire évoluer dans le temps, et donc au final inutile.</p>
<p>Il faut donc que les organisations qui se lancent dans l&#8217;Open Data publient des données non seulement ouvertes mais pleinement réutilisables : à cet égard, on ne saurait se contenter de proposer de sous forme d&#8217;une collection, aussi riche soit-elle, de fichiers XLS, PDF ou même CSV qui vont nécessiter beaucoup de travail pour que les données qu&#8217;ils renferment soient vraiment exploitées. Comme l&#8217;a dit fort justement Tim Berners-Lee à TED 2009 : &#8220;<em><strong>Raw data now!</strong></em>&#8221;</p>
<p><object width="526" height="374" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,40,0"><param name="allowFullScreen" value="true" /><param name="allowScriptAccess" value="always" /><param name="wmode" value="transparent" /><param name="bgColor" value="#ffffff" /><param name="flashvars" value="vu=http://video.ted.com/talk/stream/2009/Blank/TimBernersLee_2009-320k.mp4&amp;su=http://images.ted.com/images/ted/tedindex/embed-posters/TimBerners-Lee-2009.embed_thumbnail.jpg&amp;vw=512&amp;vh=288&amp;ap=0&amp;ti=484&amp;lang=en&amp;introDuration=15330&amp;adDuration=4000&amp;postAdDuration=830&amp;adKeys=talk=tim_berners_lee_on_the_next_web;year=2009;theme=what_s_next_in_tech;event=TED2009;tag=Business;tag=Design;tag=Technology;tag=communication;tag=invention;tag=web;&amp;preAdTag=tconf.ted/embed;tile=1;sz=512x288;" /><param name="src" value="http://video.ted.com/assets/player/swf/EmbedPlayer.swf" /><param name="pluginspace" value="http://www.macromedia.com/go/getflashplayer" /><param name="allowfullscreen" value="true" /><param name="allowscriptaccess" value="always" /><embed width="526" height="374" type="application/x-shockwave-flash" src="http://video.ted.com/assets/player/swf/EmbedPlayer.swf" allowFullScreen="true" allowScriptAccess="always" wmode="transparent" bgColor="#ffffff" flashvars="vu=http://video.ted.com/talk/stream/2009/Blank/TimBernersLee_2009-320k.mp4&amp;su=http://images.ted.com/images/ted/tedindex/embed-posters/TimBerners-Lee-2009.embed_thumbnail.jpg&amp;vw=512&amp;vh=288&amp;ap=0&amp;ti=484&amp;lang=en&amp;introDuration=15330&amp;adDuration=4000&amp;postAdDuration=830&amp;adKeys=talk=tim_berners_lee_on_the_next_web;year=2009;theme=what_s_next_in_tech;event=TED2009;tag=Business;tag=Design;tag=Technology;tag=communication;tag=invention;tag=web;&amp;preAdTag=tconf.ted/embed;tile=1;sz=512x288;" pluginspace="http://www.macromedia.com/go/getflashplayer" allowfullscreen="true" allowscriptaccess="always" /></object></p>
<p><a href="http://www.w3.org/standards/semanticweb/" target="_blank"><img class="alignleft" src="http://www.w3.org/Icons/SW/sw-horz-w3c.png" alt="" width="241" height="48" /></a>Le W3C a défini des standards pour l&#8217;accès aux données brutes, via l&#8217;approche du &#8220;web sémantique&#8221; ou &#8220;web des données&#8221; qui seul permet une réutilisation généralisée des données, par la mise en réseau massive des silos de données ouvertes où qu&#8217;ils se trouvent sur le web.  Ces <a href="http://www.w3.org/standards/semanticweb/" target="_blank">standards publiés par le W3C</a> s&#8217;appellent <a href="http://www.w3.org/standards/techs/rdf#w3c_all" target="_blank">RDF</a>, <a href="http://www.w3.org/standards/techs/owl#w3c_all" target="_blank">OWL</a> et  <a href="http://www.w3.org/standards/techs/sparql#w3c_all" target="_blank">SPARQL</a>. ils sont désormais matures et de nombreux outils existent pour les mettre en œuvre.</p>
<p>Nous considérons que la donnée brute en RDF, publiée dans le &#8220;<a href="http://richard.cyganiak.de/2007/10/lod/imagemap.html" target="_blank">nuage du Linked Open Data</a>&#8221; ou &#8220;<a href="http://richard.cyganiak.de/2007/10/lod/imagemap.html" target="_blank">LOD cloud</a>&#8221; est la seule vraie façon pérenne de permettre une réexploitation massive des données. Et nous ne sommes pas les seuls à le penser, si l&#8217;on en juge par la croissance formidable du LOD en l&#8217;espace de 4 ans : cliquez sur ces images de <a href="http://blog.antidot.net/wp-content/uploads/2011/12/lod-datasets_2007-05-01.png" target="_blank">2007</a>, <a href="http://blog.antidot.net/wp-content/uploads/2011/12/lod-datasets_2009-07-14.png" target="_blank">2009</a> et <a href="http://blog.antidot.net/wp-content/uploads/2011/12/lod-datasets_2011-09-19.png" target="_blank">2011</a>  pour les agrandir et mesurer la puissance de ce phénomène.</p>
<p style="text-align: center;"><a href="http://blog.antidot.net/wp-content/uploads/2011/12/lod-datasets_2007-05-01.png" target="_blank"><img class="aligncenter size-full wp-image-490 fancybox" title="lod-datasets_2007-05-01-440px" src="http://blog.antidot.net/wp-content/uploads/2011/12/lod-datasets_2007-05-01-440px.png" alt="" width="440" height="273" /></a><br />
<a href="http://blog.antidot.net/wp-content/uploads/2011/12/lod-datasets_2009-07-14.png" target="_blank"><img class="aligncenter size-full wp-image-492 fancybox" title="lod-datasets_2009-07-14-440px" src="http://blog.antidot.net/wp-content/uploads/2011/12/lod-datasets_2009-07-14-440px.png" alt="" width="440" height="330" /></a><br />
<a href="http://blog.antidot.net/wp-content/uploads/2011/12/lod-datasets_2011-09-19.png" target="_blank"><img class="aligncenter size-full wp-image-494" title="lod-datasets_2011-09-19-440px" src="http://blog.antidot.net/wp-content/uploads/2011/12/lod-datasets_2011-09-19-440px.png" alt="" width="440" height="290" /></a></p>
<p>Pour découvrir l&#8217;approche ouverte du &#8220;web des données&#8221;, nous vous conseillons le lire <a href="http://www.lespetitescases.net/petite-histoire-du-web-semantique" target="_blank">3 billets de blog</a> très pédagogiques écrits par notre collaborateur Gautier Poupeau, grand spécialiste du web des données et de l&#8217;Open Data. Vous pouvez aussi consulter les différentes <a href="http://www.slideshare.net/AntidotNet" target="_blank">présentations d&#8217;Antidot sur Slideshare</a>.</p>
<p>Enfin, nous vous rappelons que  notre solution <strong>Antidot Information Factory</strong> (<a href="http://bit.ly/doc-AIF" target="_blank">PDF &#8211; 4 pages</a>) permet, de manière industrielle, de mailler très largement des données de provenance et de nature très diverses, de les exploiter et de les valoriser, notamment dans le cadre de projets Open Data ou Linked Data. Par ailleurs, nous avons publié en Open Source une bibliothèque en Java appelée <strong><a href="http://blog.antidot.net/2011/10/07/db2triples-une-implementation-de-r2rml-et-directmapping-en-open-source/" target="_blank">db2triples</a></strong> qui simplifie la transformation en graphe RDF de données issues de bases de données relationnelles classiques. <strong>Nos solutions et notre expertise sont à votre disposition, n&#8217;hésitez pas à faire appel à nous dans le cadre d&#8217;un projet pilote ou d&#8217;un &#8220;proof of concept&#8221; !</strong></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.antidot.net/2011/12/08/grande-semaine-pour-lopen-data-francais/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Moteurs de recherche : vers un usage banalisé des thésaurus ?</title>
		<link>http://blog.antidot.net/2011/06/29/moteurs-de-recherche-vers-un-usage-banalise-des-thesaurus/</link>
		<comments>http://blog.antidot.net/2011/06/29/moteurs-de-recherche-vers-un-usage-banalise-des-thesaurus/#comments</comments>
		<pubDate>Wed, 29 Jun 2011 09:02:33 +0000</pubDate>
		<dc:creator>Pierre Col</dc:creator>
				<category><![CDATA[Retour d'expérience]]></category>
		<category><![CDATA[Technologie]]></category>
		<category><![CDATA[Tendances]]></category>
		<category><![CDATA[Antidot Finder Suite]]></category>
		<category><![CDATA[Antidot Information Factory]]></category>
		<category><![CDATA[extension sémantique]]></category>
		<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[moteur de recherche]]></category>
		<category><![CDATA[Open Data]]></category>
		<category><![CDATA[OWL]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[référentiel]]></category>
		<category><![CDATA[sémantic web]]></category>
		<category><![CDATA[sémantique]]></category>
		<category><![CDATA[SKOS]]></category>
		<category><![CDATA[taxonomie]]></category>
		<category><![CDATA[terminologie]]></category>
		<category><![CDATA[thésaurus]]></category>
		<category><![CDATA[vocabulaires contrôlés]]></category>
		<category><![CDATA[web des données]]></category>
		<category><![CDATA[web of data]]></category>

		<guid isPermaLink="false">http://blog.antidot.net/?p=333</guid>
		<description><![CDATA[Une étude intéressante venue d’Autriche La Semantic Web Company est une entreprise viennoise spécialisée, comme son nom l’indique, dans la mise en œuvre des technologies du web sémantique. Dans un billet de blog publié le 26 juin et titré « Dans un proche avenir, les moteurs de recherche basés sur des thésaurus seront généralisés »  SWC [...]]]></description>
			<content:encoded><![CDATA[<h3><strong>Une étude intéressante venue d’Autriche</strong></h3>
<p>La <a href="http://www.semantic-web.at/" target="_blank">Semantic Web Company</a> est une entreprise viennoise spécialisée, comme son nom l’indique, dans la mise en œuvre des technologies du <a href="http://fr.wikipedia.org/wiki/Web_s%C3%A9mantique" target="_blank">web sémantique</a>. Dans <a href="http://blog.semantic-web.at/2011/06/26/thesaurus-based-search-engines-will-become-main-stream-in-the-near-future/" target="_blank">un billet de blog publié le 26 juin</a> et titré « <em>Dans un proche avenir, les moteurs de recherche basés sur des thésaurus seront généralisés</em> »  SWC publie le résultat d’une étude sur le thème des vocabulaires contrôlés, menée en mai-juin 2011 auprès de plus de 150 intervenants dans 27 pays.</p>
<p>A la première question, « <em><strong>Pensez-vous que les entreprises et autres organisations peuvent grandement bénéficier de l&#8217;utilisation du Linked Data ? </strong></em>», la réponse est clairement OUI.</p>
<p><a href="http://blog.semantic-web.at/wp-content/uploads/2011/06/linked_data_benefit.jpg" rel="http://blog.semantic-web.at/2011/06/26/thesaurus-based-search-engines-will-become-main-stream-in-the-near-future/" target="_blank"><img class="aligncenter" style="border: 0pt none;" src="http://blog.semantic-web.at/wp-content/uploads/2011/06/linked_data_benefit.jpg" alt="" width="425" height="167" /><br />
</a>Une question corollaire révèle également que  les organisations de toutes tailles ont globalement la même opinion sur le <a href="http://en.wikipedia.org/wiki/Linked_Data" target="_blank">Linked Data</a>. Seules 14 répondants sur 158 considèrent que le Linked Data est un phénomène de niche. On peut globalement dire que plus de 90% des participants pensent que la plupart ou tout au moins certaines organisations peuvent bénéficier du Linked Data.</p>
<p>Les réponses à la seconde question, « <em><strong>Pensez-vous que les moteurs de recherche qui utilisent des thésaurus afin d&#8217;améliorer les résultats seront généralisés ?</strong></em> » sont étonnantes : les deux tiers des participants pensent que la recherche basée sur des thésaurus est déjà ou deviendra dominante dans un avenir proche.</p>
<p style="text-align: center;"><a href="http://blog.semantic-web.at/2011/06/26/thesaurus-based-search-engines-will-become-main-stream-in-the-near-future/" target="_blank"><img class="aligncenter" style="border: 0pt none;" src="http://blog.semantic-web.at/wp-content/uploads/2011/06/thesaurus_based_search.jpg" alt="" width="425" height="159" /></a></p>
<p>Enfin, les réponses à la question  « <em><strong>Quelle est l&#8217;importance de l&#8217;utilisation de normes comme SKOS pour les vocabulaires contrôlés ?</strong></em> » parlent d&#8217;elles-mêmes.</p>
<p style="text-align: center;"><a href="http://blog.semantic-web.at/2011/06/26/thesaurus-based-search-engines-will-become-main-stream-in-the-near-future/" target="_blank"><img class="aligncenter" style="border: 0pt none;" src="http://blog.semantic-web.at/wp-content/uploads/2011/06/importance-of-skos.jpg" alt="" width="425" height="158" /></a></p>
<p>Plus des trois quarts des participants à l’enquête sont convaincus que des standards comme <a href="http://fr.wikipedia.org/wiki/Simple_Knowledge_Organization_System" target="_blank">SKOS</a> sont importants pour leur travail quotidien. Deux ans après l’adoption du nouveau standard SKOS en août 2009, il peut être considéré comme adopté puisque 48,7% des répondants ont déclaré que SKOS est « <em>très important</em> » et 29,1% le désignent comme « <em>pertinent</em> ».</p>
<p>En synthèse de cette étude, on peut dire que la communauté du web sémantique a fait un excellent travail pour convaincre les utilisateurs de vocabulaires contrôlés de tirer avantage de SKOS et du Linked Data. Pour autant, seulement 3 à 5% des interrogés sont informés de l’existence de <a href="http://fr.wikipedia.org/wiki/SPARQL" target="_blank">SparQL</a> considéré comme un outil utile pour construire des API standard autour des vocabulaires contrôlés, afin de réduire les coûts d&#8217;implémentation de systèmes d&#8217;organisation des connaissances.</p>
<h3><strong>Antidot a pris cette orientation il y a plus de 5 ans… </strong></h3>
<p>&nbsp;</p>
<p>Aujourd’hui, de nombreux articles et conférences sont consacrés <a href="http://www.usinenouvelle.com/article/l-industrie-s-empare-du-web-semantique.N128850" target="_blank">aux apports industriels du web sémantique</a> et nous nous en réjouissons.</p>
<p>Car cela fait de nombreuses années qu’Antidot a décidé d’intégrer à ses technologies les standards du web sémantique. Dès 2005, alors même que ces standards étaient encore en discussion au sein du W3C, et après avoir participé à des projets de recherche sur ces sujets, nous sommes allés résolument de l’avant, car nous étions convaincus  que l’amélioration de la qualité des résultats fournis par un moteur de recherche passerait notamment par l’utilisation de thésaurus et de vocabulaires contrôlés.  Ainsi, dès 2007, nous avons mis en œuvre SKOS et RDF dans des projets industriels, par exemple pour <a href="http://www.christian-faure.net/2007/01/09/lantidote-de-la-recherche/" target="_blank">le moteur de recherche de petites annonces</a> du groupe <a href="http://www.annoncesjaunes.fr/" target="_blank">PagesJaunes</a>.</p>
<p>Mais bien au delà des<a href="http://blog.antidot.net/2010/03/25/reinventer-les-referentiels/" target="_blank"> apports évidents de l’utilisation des vocabulaires contrôlés et plus largement des référentiels</a>,  notre engagement s’est également porté sur le Linked Data car nous pensons que la consolidation des données internes de l’entreprise avec des données externes démultiplie la valeur de l’information et donc son efficacité pour l’utilisateur. Ces deux points (référentiels et Linked data) sont d’ailleurs liés puisque les référentiels jouent un rôle clés dans le maillage de l’information et servent de pivot pour articuler les données issues de sources diverses.</p>
<h3><strong>… et nos choix sont validés par des projets industriels</strong></h3>
<p>C’est sur la base de ces travaux, passés de la R&amp;D à l’application concrète, que notre produit phare, le moteur de recherche <a href="http://antidot.net/fr/Technologie/AFS" target="_blank">Antidot Finder Suite</a>, supporte depuis des années les ontologies et thésaurus décrits selon les formalismes <a href="http://fr.wikipedia.org/wiki/Web_Ontology_Language" target="_blank">OWL</a> et <a href="http://fr.wikipedia.org/wiki/Simple_Knowledge_Organization_System" target="_blank">SKOS</a>.</p>
<p>Pour donner un exemple très simple de leur utilisation, c’est grâce à un thésaurus de couleurs nativementexprimé en SKOS, qu’un site marchand vendant des articles textiles et utilisant <a href="http://www.antidot.net/fr/Solutions/AFS-Store" target="_blank">AFS@Store</a> pourra proposer un vêtement « <em>kaki</em> » à un utilisateur cherchant du « <em>vert</em> » et ceci même si le mot « <em>kaki</em> » ne figure pas explicitement dans la fiche produit :</p>
<p style="text-align: center;"><a class="fancybox" href="http://blog.antidot.net/wp-content/uploads/2011/06/thesaurus-couleur.png"><img class="aligncenter size-full wp-image-330" title="thesaurus-couleur" src="http://blog.antidot.net/wp-content/uploads/2011/06/thesaurus-couleur.png" alt="" width="440" height="305" /></a><a class="fancybox" href="http://blog.antidot.net/wp-content/uploads/2011/06/exemple-thesaurus-couleur.png"><img class="aligncenter size-full wp-image-331" title="exemple-thesaurus-couleur" src="http://blog.antidot.net/wp-content/uploads/2011/06/exemple-thesaurus-couleur.png" alt="" width="440" height="286" /></a></p>
<p>Autre exemple chez un client institutioneld&#8217;Antidot, avec l’<a href="http://antidot.net/fr/References/Institutionnel/AFPA" target="_blank">AFPA</a> : le moteur de recherche mis en place sur le site web de l’organisme en charge de la formation professionnelle des adultes &#8211; <a href="http://www.afpa.fr/">www.afpa.fr</a> &#8211; intègre le thésaurus Formacode® 2008 pour réaliser une extension sémantique entre le code ROME de l’ANPE et les offres de  formation proposées par l’AFPA :</p>
<p style="text-align: center;"><a class="fancybox" href="http://blog.antidot.net/wp-content/uploads/2011/06/thesaurus-AFPA.png"><img class="aligncenter size-full wp-image-332" style="border: 0pt none;" title="thesaurus-AFPA" src="http://blog.antidot.net/wp-content/uploads/2011/06/thesaurus-AFPA.png" alt="" width="440" height="328" /></a></p>
<p>Cette intégration au moteur de recherche du thésaurus métier, formalisé en SKOS, permet de catégoriser automatiquement toute l’offre de formation et d’y donner accès de manière plus intuitive pour les utilisateurs, qui s&#8217;expriment naturellement avec leurs propres mots.</p>
<p>Au-delà de ces deux exemples impliquant la mise en œuvre de vocabulaires contrôlés, Antidot considère que les standards du web sémantique constituent désormais un apport majeur pour mieux</p>
<ul>
<li>produire automatiquement des métadonnées sémantisées et standardisées au format RDF, à partir de différentes sources dont on collecte les données qui sont ensuite automatiquement agrégées et dynamiquement articulées ;</li>
<li>restituer ces données sous forme d’une information nouvelle, enrichie, orientée usage et utilisateur, qui peut être exposée dans la logique du Linked Data.</li>
</ul>
<p>C’est pour cela que nous avons lancé il y a quelques mois notre solution <a href="http://antidot.net/fr/Technologie/AIF" target="_blank">Antidot Information Factory</a> qui permet de construire et d’exploiter des chaînes de captation et transformation des données pour une mise en relation intelligente des informations disponibles. AIF a rendu possible de grandes réalisations, comme <a href="http://rechercheisidore.fr" target="_blank">la plateforme ISIDORE</a> du CNRS &#8211; <a href="http://www.tge-adonis.fr/service/isidore" target="_blank">TGE Adonis</a> qui apporte <a href="http://dossierdoc.typepad.com/descripteurs/2011/03/isidore-plateforme-de-recherche-shs.html" target="_blank">un accès unifié à plus d’un million de publications</a> produites par la recherche française en sciences humaines et sociales, et qui constitue à ce jour <strong>un des plus grands projets Open Data français</strong>.</p>
<p><strong>D’autres projets de grande ampleur, qui tirent parti de façon industrielle des thésaurus, et plus largement du web sémantique et de l’approche du Linked Data, sont en phase de développement chez nos clients et seront mis en production dans les prochains mois. Ces réalisations emblématiques démontrent tout le bien fondé de notre approche technologique, nous ne manquerons pas de vous les présenter le moment venu !</strong></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.antidot.net/2011/06/29/moteurs-de-recherche-vers-un-usage-banalise-des-thesaurus/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>ISIDORE, un grand et beau projet dont nous sommes très fiers</title>
		<link>http://blog.antidot.net/2011/04/06/isidore-un-grand-projet-dont-nous-sommes-tres-fiers/</link>
		<comments>http://blog.antidot.net/2011/04/06/isidore-un-grand-projet-dont-nous-sommes-tres-fiers/#comments</comments>
		<pubDate>Wed, 06 Apr 2011 09:20:29 +0000</pubDate>
		<dc:creator>Pierre Col</dc:creator>
				<category><![CDATA[Antidot]]></category>
		<category><![CDATA[Retour d'expérience]]></category>
		<category><![CDATA[Technologie]]></category>
		<category><![CDATA[AFS]]></category>
		<category><![CDATA[AIF]]></category>
		<category><![CDATA[annotation automatique]]></category>
		<category><![CDATA[Antidot Finder Suite]]></category>
		<category><![CDATA[Antidot Information Factory]]></category>
		<category><![CDATA[classification automatique]]></category>
		<category><![CDATA[CNRS]]></category>
		<category><![CDATA[Fabrice Lacroix]]></category>
		<category><![CDATA[ISIDORE]]></category>
		<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[ontologie]]></category>
		<category><![CDATA[Open Data]]></category>
		<category><![CDATA[OWL]]></category>
		<category><![CDATA[point d'entrée SparQL]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[RDFa]]></category>
		<category><![CDATA[référentiel]]></category>
		<category><![CDATA[sémantic web]]></category>
		<category><![CDATA[SKOS]]></category>
		<category><![CDATA[SparQL]]></category>
		<category><![CDATA[SparQL endpoint]]></category>
		<category><![CDATA[TGE Adonis]]></category>
		<category><![CDATA[thésaurus]]></category>
		<category><![CDATA[traitements sémantiques]]></category>
		<category><![CDATA[triple store]]></category>
		<category><![CDATA[web des données]]></category>
		<category><![CDATA[web sémantique]]></category>

		<guid isPermaLink="false">http://blog.antidot.net/?p=284</guid>
		<description><![CDATA[Lundi 4 avril étalt le jour de la saint Isidore, le patron des informaticiens et internautes. C&#8217;est le jour qu&#8217;avait judicieusement choisi les hautes autorité du CNRS pour lancer officiellement ISIDORE, le nouveau portail des sciences humaines et sociales, un projet piloté par le  TGE Adonis et réalisé réalisé par le CCSd. C&#8217;est un projet [...]]]></description>
			<content:encoded><![CDATA[<p>Lundi 4 avril étalt le jour de la <a href="http://fr.wikipedia.org/wiki/Isidore_de_S%C3%A9ville" target="_blank">saint Isidore, le patron des informaticiens et internautes</a>. C&#8217;est le jour qu&#8217;avait judicieusement choisi les hautes autorité du CNRS pour <a href="http://www2.cnrs.fr/presse/communique/2147.htm" target="_blank">lancer officiellement</a> <a href="http://www.rechercheisidore.fr/" target="_blank">ISIDORE, le nouveau portail des sciences humaines et sociales</a>, un projet piloté par le  <a href="http://www.tge-adonis.fr/" target="_blank">TGE Adonis</a> et réalisé réalisé par le <a href="http://www.ccsd.cnrs.fr/" target="_blank"><strong>CCSd</strong></a>. C&#8217;est un projet auquel Antidot a contribué, en apportant ses solutions logicielles <a href="http://antidot.net/fr/Technologie/AFS" target="_blank">Antidot Finder Suite</a> et <a href="http://antidot.net/fr/Technologie/AIF" target="_blank">Antidot Information Factory</a>, aux côtés de ses partenaires <a href="http://www.sword-group.com/French">Sword</a> et <a href="http://www.mondeca.com/fr/" target="_blank">Mondeca</a>.</p>
<p><a href="http://rechercheisidore.fr"><img class="aligncenter" src="http://www.science.gouv.fr/images/article/isidore/HP_Une_isidore.jpg" alt="" width="220" height="170" /></a></p>
<p>ISIDORE est un projet qui a mobilisé beaucoup d&#8217;énergies chez Antidot durant des mois, et qui, comme c&#8217;est le cas dans tout grand projet informatique, nous a parfois fait souffrir. Pour autant, nous sommes fiers d&#8217;y avoir participé, et cela pour 2 raisons :</p>
<h3>ISIDORE est utile à la société</h3>
<p>En mettant à disposition du public plus d&#8217;un million de publications de la recherche française en sciences humaines et sociales, ISIDORE diffuse de la connaissance. Des savoirs jusqu&#8217;alors réservés aux seuls chercheurs sont désormais disponibles, à portée de clic, pour les étudiants et pour toute personne qui s&#8217;intéresse à la philosophie, l&#8217;histoire, la démographie, la psychologie&#8230; Bien entendu, nos technologies sont toujours utiles : Antidot Finder Suite rend service aux consommateurs quand il leur permet de trouver plus facilement les produits répondant à leurs attentes sur les sites web de très nombreux marchands en ligne (<a href="#marchands">*</a>).</p>
<p>AFS est utile quand il permet de trouver de l&#8217;information sur les sites de grands médias comme <a href="http://www.tf1.fr" target="_blank">TF1</a>, <a href="http://www.radiofrance.fr/" target="_blank">Radio France</a> ou <a href="http://www.lepoint.fr" target="_blank">Le Point</a>, ou de grands services publics comme <a href="http://www.service-public.fr" target="_blank">Service-Public.fr</a>, la <a href="http://www.securite-sociale.fr/" target="_blank">Sécurité Sociale</a>, l&#8217;<a href="http://www.ameli.fr/recherche.php" target="_blank">Assurance Maladie</a>, les <a href="http://www.ars.sante.fr" target="_blank">Agences Régionales de Santé</a>, l&#8217;<a href="http://www.inserm.fr/" target="_blank">INSERM</a>, l&#8217;<a href="http://www.afpa.fr/" target="_blank">AFPA</a>, l&#8217;<a href="http://www.apce.com/pid186/espace-createur.html?espace=1" target="_blank">APCE</a> ou encore l&#8217;<a href="http://asn.fr/" target="_blank">Autorité de Sûreté Nucléaire</a>&#8230; et maintenant <a href="http://www.rechercheisidore.fr/" target="_blank">ISIDORE</a> !</p>
<p>Car ce qui nous motive tous dans le projet d&#8217;entreprise d&#8217;Antidot, c&#8217;est la mission que nous nous sommes assignée il y a bientôt 12 ans : « <em><strong>conçevoir des solutions d’accès à l’information permettant aux organisations et aux hommes de comprendre, de décider et d’agir</strong></em> ».</p>
<h3><strong>ISIDORE a fait progresser Antidot, dont il concrétise la vision</strong></h3>
<p>Pour réaliser cet ambitieux projet, nos avons proposé au CNRS de mettre en œuvre les technologies du web des données, sur lesquelles nous travaillons depuis de nombreuses années et qui ont été <a href="http://antidot.net/fr/Actualites/Produit/AFS-v7-disponible" target="_blank">intégrées au cœur de la version 7 d&#8217;Antidot Finder Suite</a> et aussi de notre nouvelle solution <a href="http://bit.ly/AIF-v1" target="_blank">Antidot Information Factory</a> qui a été dévoilée il y a 2 semaines au salon Documation.</p>
<p>Ces technologies constituent en effet le moyen le plus efficace pour collecter les contenus de 850 sources représentant plus d’un  million de publications, pour nettoyer et normaliser toutes les  données, les enrichir (classification automatique, annotation à la  volée), et les aligner sur des référentiels partagés par la  communauté scientifique. Plus de 30 traitements distincts sont réalisés  par Antidot Information Factory sur chaque document collecté afin  d’homogénéiser et valoriser l’information  contenue.</p>
<p><strong>Les données  enrichies sont rendues accessibles via AFS v7, le moteur de   recherche  sémantique d’Antidot, et sont exposées via un point accès SPARQL dans un  souci d’ouverture des données publiques (Open Data),  selon les règles  du Web de données (Linked Data). Concrètement ISIDORE est aujourd&#8217;hui le plus grand projet Linked Data / Open Data mené à bien en France.<br />
</strong></p>
<p><a href="http://bit.ly/AIF-v1"><img class="aligncenter" src="http://www.antidot.net/var/plain_site/storage/images/media/aif-traitement-et-publication/8509-1-fre-FR/AIF-traitement-et-publication_large.png" alt="" width="300" height="108" /></a></p>
<h3>Au-delà d&#8217;ISIDORE</h3>
<p>Antidot apporte une  vraie réponse industrielle à une problématique qui se pose désormais à  toutes les organisations  :<strong> </strong></p>
<p style="padding-left: 30px;">« <strong>Comment mieux mailler et articuler les données issues  de différents entrepôts  pour produire une information contextualisée et  donc vraiment pertinente  ?</strong> »</p>
<p>Avec <a href="http://antidot.net/fr/Technologie/AIF" target="_blank">Antidot Information Factory</a>, conjuguée à notre moteur de  recherche Antidot Finder  Suite,  nos clients peuvent créer un « <strong>hub de  valorisation et d’accès à l’information</strong> » au service de leurs utilisateurs, pour permettre de nouveaux usages qui vont bien au-delà de ce que  permettent les approches  traditionnelles que sont la « recherche fédérée »  ou  les « search  based applications » dont les limites sont maintenant bien connues.</p>
<p><strong>Nous remercions les équipes du CNRS &#8211; TGE Adonis et CCSd d&#8217;avoir choisi nos solutions pour bâtir ISIDORE à qui nous souhaitons une très longue vie !</strong></p>
<p><strong>Pour aller plus loin :</strong></p>
<ul>
<li>Présentation du projet ISIDORE par Antidot : <a href="http://bit.ly/CasClientISIDORE" target="_blank">document PDF de 4 pages</a> &#8211; <a href="http://www.slideshare.net/AntidotNet/isidore-linterface-de-la-rencontre-des-shs-et-du-web-de-donnes" target="_blank">présentation en 37 diapositives</a></li>
<li>Description technique de la solution Antidot Information Factory : <a href="http://bit.ly/AIF-v1" target="_blank">document PDF de 4 pages</a></li>
<li>Analyse d’ISIDORE avec point de vue d&#8217;un utilisateur par le site <a href="http://dossierdoc.typepad.com/descripteurs/2011/03/isidore-plateforme-de-recherche-shs.html" target="_blank">Descripteurs</a></li>
<li>Article de Libération : « <a href="http://sciences.blogs.liberation.fr/home/2011/04/le-cnrs-lance-isidore-les-shs-sur-le-web.html" target="_blank">Le CNRS lance Isidore, les SHS sur le web</a> »</li>
<li>Article de NewZilla : « <a href="http://www.newzilla.net/2011/04/05/open-data-ouverture-d’isidore-le-portail-du-cnrs-pour-les-sciences-humaines-et-sociales" target="_blank">Open Data &gt;  Ouverture d’Isidore, le portail du CNRS pour les sciences humaines et sociales</a> »</li>
<li>Article de NetPublic : « <a href="http://www.netpublic.fr/2011/04/isidore-nouveau-portail-pour-les-sciences-humaines-et-sociales-cnrs-avec-1-million-de-documents/#comment-143" target="_blank">Isidore : nouveau portail pour les sciences humaines et sociales (CNRS) avec 1 million de documents</a> »</li>
<li>Article de Dominique Desaunay :  « <a href="http://www.desaunay.com/rechercheisidore-fr-une-nouvelle-plateforme-internet-du-CNRS_a1236.html" target="_blank">rechercheisidore.fr, une nouvelle plateforme internet du CNRS</a> »</li>
<li>Interview vidéo de Fabrice Lacroix, président d&#8217;Antidot sur ITespresso : « <a href="http://www.itespresso.fr/video-fabrice-lacroix-antidot-on-accompagne-le-plus-gros-projet-open-data-en-france-via-le-cnrs-42097.html" target="_blank">On accompagne le plus gros projet open data en France via le CNRS</a> »</li>
</ul>
<p><object classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" width="320" height="278" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,40,0"><param name="align" value="middle" /><param name="allowScriptAccess" value="sameDomain" /><param name="allowFullScreen" value="undefined" /><param name="wmode" value="undefined" /><param name="quality" value="high" /><param name="src" value="http://tv.itespresso.fr/swf/video.swf?richPlayerConfigFileUrl=http://tv.itespresso.fr/home/deported/media_id/961" /><param name="name" value="SmartPlayer" /><param name="allowfullscreen" value="undefined" /><embed type="application/x-shockwave-flash" width="320" height="278" src="http://tv.itespresso.fr/swf/video.swf?richPlayerConfigFileUrl=http://tv.itespresso.fr/home/deported/media_id/961" name="SmartPlayer" quality="high" wmode="undefined" allowfullscreen="undefined" allowscriptaccess="sameDomain" align="middle"></embed></object><br />
<a name="marchands"></a></p>
<p>A lire aussi, ces 2 documents complets :</p>
<ul>
<li><a href="http://bit.ly/AIF-v1" target="_blank"><strong>Présentation PDF 4 pages de la solution Antidot Information Factory</strong></a></li>
<li><strong><a href="http://bit.ly/CasClientISIDORE" target="_blank"><strong>Présentation PDF 4 pages du projet ISIDORE</strong></a></strong></li>
</ul>
<p><span style="font-size: x-small;"> (*) 3 Suisses Benelux, 3 Suisses Culture, Bricorama, Camaïeu, Château Online, Cultura,  Damart, Discounteo, Feu Vert, Galeries Lafayette, IKKS, Internity, King  Jouet, Made in Design, Made in Sport, La Maison de Valérie, Mathon,  MotoBlouz, NM Médical, Oreca, Pecheur.com, Petit Bateau, Pimkie, Privilège  Discount, Sexy Avenue, Wanimo… utilisent <a href="http://antidot.net/fr/Solutions/AFS-Store" target="_blank">AFS@Store</a>, la déclinaison  e-commerce du moteur de recherche AFS, directement dans des logiciels spécifiques, dans des plateformes OpenSource comme Magento ou OS Commerce ou dans les solutions  e-commerce de <a href="http://Compario.net" target="_blank">Compario</a>, <a href="http://agence.digitas.fr/#/fr/solutions/3/6" target="_blank">Digitas</a> ou <a href="http://www.dotsoft.fr/" target="_blank">DotSoft</a>.</span></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.antidot.net/2011/04/06/isidore-un-grand-projet-dont-nous-sommes-tres-fiers/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Antidot était à SemWeb.Pro</title>
		<link>http://blog.antidot.net/2011/01/19/antidot-etait-a-semweb-pro/</link>
		<comments>http://blog.antidot.net/2011/01/19/antidot-etait-a-semweb-pro/#comments</comments>
		<pubDate>Wed, 19 Jan 2011 08:25:38 +0000</pubDate>
		<dc:creator>Pierre Col</dc:creator>
				<category><![CDATA[Antidot]]></category>
		<category><![CDATA[Technologie]]></category>
		<category><![CDATA[Tendances]]></category>
		<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[moteur de recherche]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[RDFa]]></category>
		<category><![CDATA[sémantic web]]></category>
		<category><![CDATA[SKOS]]></category>
		<category><![CDATA[SparQL]]></category>
		<category><![CDATA[web of data]]></category>
		<category><![CDATA[web sémantique]]></category>

		<guid isPermaLink="false">http://blog.antidot.net/?p=240</guid>
		<description><![CDATA[Sur la conférence SemWeb Pro, Antidot a participé à la conférence de presse, animé une présentation sur "Moteurs de recherche et Web Sémantique" et 2 tutoriels : "RDFa, comment insuffler un peu d’intelligence à une page Web ?" et "SPARQL, comment illuminer vos mashups en consommant les données du Linked Data ?"]]></description>
			<content:encoded><![CDATA[<p>Ce début de semaine s&#8217;est tenu à Paris la toute première édition de la conférence <strong><a href="http://www.semweb.pro" target="_blank">Sem Web Pro</a></strong>.</p>
<p><a href="http://www.semweb.pro/"><img class="aligncenter" title="logo SemWeb.Pro" src="http://www.semweb.pro/data4abf435d5d250676b18544b84d52cb0e/semwebpro.png" border="0" alt="" width="250" height="48" /></a></p>
<p>Ces rencontres professionnelles du web sémantique s&#8217;articulaient autour de 2 journées complémentaires de conférences et de tutoriels. Elles ont rassemblé plus d&#8217;une centaine de participants, issus du secteur associatif, du monde académique et de la recherche, de grandes entreprises et de PME innovantes.</p>
<p>Le premier jour, <a href="http://www.twitter.com/lespetitescases" target="_blank">Gautier Poupeau</a>, consultant chez Antidot et membre du <a href="http://www.semweb.pro/card/semwebpro2011_comite" target="_blank">comité de programme</a>, participait à la conférence de presse, en compagnie des représentants du W3C, de la BBC, de l&#8217;INRIA, et de Logilab.</p>
<p>L&#8217;après-midi, Jérôme Mainka, co-fondateur et directeur de la recherche  d&#8217;Antidot, est intervenu pour présenter le sujet &#8220;<a href="http://www.semweb.pro/talk/1161" target="_blank"><em>Moteurs de recherche et Web Sémantique</em></a>&#8221; &#8211; voir sur <a href="http://www.slideshare.net/AntidotNet/moteurs-de-recherche-et-web-smantique" target="_blank">Slideshare</a> &#8211; télécharger le <a href="http://www.antidot.net/fr_admin/content/download/828/7677/version/1/file/Pr%C3%A9sentation+Antidot+AFS+2009.ppt" target="_blank">PPT</a> (5,3 Mo).</p>
<div id="__ss_6623388" style="width: 425px;"><strong style="display: block; margin: 12px 0 4px;"><a title="Moteurs de recherche et web sémantique" href="http://www.slideshare.net/AntidotNet/moteurs-de-recherche-et-web-smantique" target="_blank">Moteurs de recherche et web sémantique</a></strong><object id="__sse6623388" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" width="425" height="355" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,40,0"><param name="allowFullScreen" value="true" /><param name="allowScriptAccess" value="always" /><param name="src" value="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=semwebpro110117-110119025204-phpapp01&amp;stripped_title=moteurs-de-recherche-et-web-smantique&amp;userName=AntidotNet" /><param name="name" value="__sse6623388" /><param name="allowfullscreen" value="true" /><embed id="__sse6623388" type="application/x-shockwave-flash" width="425" height="355" src="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=semwebpro110117-110119025204-phpapp01&amp;stripped_title=moteurs-de-recherche-et-web-smantique&amp;userName=AntidotNet" name="__sse6623388" allowscriptaccess="always" allowfullscreen="true"></embed></object></p>
<div style="padding: 5px 0pt 12px; text-align: right;">Voir toutes les <a href="http://www.slideshare.net/" target="_blank">présentations</a> publiées par <a href="http://www.slideshare.net/AntidotNet">Antidot</a>.</div>
</div>
<p>Le lendemain, Gautier Poupeau a co-animé 2 tutoriels :</p>
<ul>
<li>le matin, &#8220;<a href="http://www.semweb.pro/talk/1184" target="_blank"><em>RDFa, comment insuffler un peu d&#8217;intelligence à une page Web ?</em></a>&#8221; en compagnie d&#8217;<a href="http://www.w3.org/People/Ivan/" target="_blank">Ivan Herman</a>, en charge du <a href="http://www.w3.org/2001/sw/#activity" target="_blank">Semantic Web</a> au W3C &#8211; voir <a href="http://www.slideshare.net/AntidotNet/rdfa-comment-insuffler-un-peu-dintelligence-une-page-web" target="_blank">sur slideshare</a> &#8211; télécharger le <a href="http://www.lespetitescases.net/semweblabs/semwebpro/rdfa/semwebpro-rdfa.ppt" target="_blank">PPT</a> (2,8 Mo)
<div id="__ss_6624480" style="width: 425px;"><strong style="display: block; margin: 12px 0 4px;"><a title="RDFa, comment insuffler un peu d'intelligence à une page Web ?" href="http://www.slideshare.net/AntidotNet/rdfa-comment-insuffler-un-peu-dintelligence-une-page-web">RDFa, comment insuffler un peu d&#8217;intelligence à une page Web ?</a></strong><object id="__sse6624480" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" width="425" height="355" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,40,0"><param name="allowFullScreen" value="true" /><param name="allowScriptAccess" value="always" /><param name="src" value="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=semwebpro-rdfa-110119043829-phpapp02&amp;stripped_title=rdfa-comment-insuffler-un-peu-dintelligence-une-page-web&amp;userName=AntidotNet" /><param name="name" value="__sse6624480" /><param name="allowfullscreen" value="true" /><embed id="__sse6624480" type="application/x-shockwave-flash" width="425" height="355" src="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=semwebpro-rdfa-110119043829-phpapp02&amp;stripped_title=rdfa-comment-insuffler-un-peu-dintelligence-une-page-web&amp;userName=AntidotNet" name="__sse6624480" allowscriptaccess="always" allowfullscreen="true"></embed></object></p>
<div style="padding: 5px 0pt 12px; text-align: right;">Voir toutes les <a href="http://www.slideshare.net/">présentations</a> publiées par <a href="http://www.slideshare.net/AntidotNet">Antidot</a>.</div>
</div>
</li>
<li>l&#8217;après-midi, &#8220;<a href="http://www.semweb.pro/talk/1186" target="_blank"><em>SPARQL, comment illuminer vos mashups en consommant les données du Linked Data ?</em></a>&#8221; avec <a href="http://apassant.net/" target="_blank">Alexandre Passant</a> du <a href="http://deri.ie/" target="_blank">DERI</a> &#8211;  voir <a href="http://www.slideshare.net/AntidotNet/sparql-comment-illuminer-vos-mashups-en-consommant-les-donnes-du-linked-data" target="_blank">sur slideshare</a> &#8211; télécharger le <a href="http://www.lespetitescases.net/semweblabs/semwebpro/sparql/semwebpro-sparql.ppt" target="_blank">PPT </a>(3,6 Mo).
<div id="__ss_6626122" style="width: 425px; text-align: left;"><strong style="display: block; margin: 12px 0 4px;"><a title="SPARQL, comment illuminer vos mashups en consommant les données du Linked Data ?" href="http://www.slideshare.net/AntidotNet/sparql-comment-illuminer-vos-mashups-en-consommant-les-donnes-du-linked-data">SPARQL, comment illuminer vos mashups en consommant les données du Linked Data ?</a></strong><object id="__sse6626122" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" width="425" height="355" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,40,0"><param name="allowFullScreen" value="true" /><param name="allowScriptAccess" value="always" /><param name="src" value="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=semwebpro-sparql-110119065447-phpapp02&amp;stripped_title=sparql-comment-illuminer-vos-mashups-en-consommant-les-donnes-du-linked-data&amp;userName=AntidotNet" /><param name="name" value="__sse6626122" /><param name="allowfullscreen" value="true" /><embed id="__sse6626122" type="application/x-shockwave-flash" width="425" height="355" src="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=semwebpro-sparql-110119065447-phpapp02&amp;stripped_title=sparql-comment-illuminer-vos-mashups-en-consommant-les-donnes-du-linked-data&amp;userName=AntidotNet" name="__sse6626122" allowscriptaccess="always" allowfullscreen="true"></embed></object></p>
<div style="padding: 5px 0pt 12px; text-align: right;">Voir toutes les <a href="http://www.slideshare.net/">présentations</a> publiées par <a href="http://www.slideshare.net/AntidotNet">Antidot</a>.</div>
</div>
</li>
</ul>
<p>De l&#8217;avis des participants, qui durant les 2 journées ont commenté en direct sur <a href="http://twitter.com/#!/search/%23SemWebPro" target="_blank">Twitter</a>, les présentations et tutoriels étaient de très bon niveau et les échanges  enrichissants.</p>
<p>Des compte-rendus de SemWeb Pro ont été publiés, notamment par</p>
<ul>
<li><a href="http://www.figoblog.org/node/1997" target="_blank">Emmanuelle Bermès</a> de la BNF</li>
<li><a href="http://www.biologeek.com/2011/01/retours-chaud-sur-semwebpro/" target="_blank">David Larlet</a></li>
</ul>
<p>Nous signalons également ces articles de</p>
<ul>
<li>Silicon : &#8220;<a href="http://www.silicon.fr/le-web-semantique-comme-future-solution-de-gestion-de-linformation-43840.html" target="_blank">Le web sémantique comme future solution de gestion de l’information</a>&#8220;</li>
<li>Clubic : &#8220;<a href="http://www.clubic.com/internet/actualite-391340-retour-enjeux-web-semantique.html" target="_blank">Retour sur les enjeux du web sémantique</a>&#8220;</li>
<li>L&#8217;informaticien : &#8220;<a href="http://www.linformaticien.com/Actualit%C3%A9s/tabid/58/newsid496/10084/le-web-semantique-est-encore-une-problematique-majeure/Default.aspx" target="_blank">Le Web sémantique est encore une problématique majeure</a>&#8220;</li>
<li>Collaboratif-Info : &#8220;<a href="http://collaboratif-info.fr/actualite/le-web-semantique-deja-une-realite-pas-encore-un-phenomene-de-masse" target="_blank">Le Web sémantique, déjà une réalité, pas encore un phénomène de masse</a>&#8220;</li>
<li>01Net Pro: &#8220;<a href="http://pro.01net.com/editorial/527170/semweb-pro-la-france-bien-positionnee-sur-le-web-semantique/" target="_blank">Semweb.pro : la France bien positionnée sur le web sémantique</a>&#8220;</li>
<li>LeMagIT : &#8220;S<a href="http://www.lemagit.fr/article/france-web-semantique-w3c-donnees/7958/1/semweb-pro-web-semantique-francais-cherche-encore-des-entreprises-utilisatrices/" target="_blank">emweb Pro : le web sémantique français se cherche encore des entreprises utilisatrices</a>&#8220;</li>
</ul>
<p><strong>Dès à présent nous vous donnons rendez-vous dans un an, pour SemWeb Pro 2012 !</strong></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.antidot.net/2011/01/19/antidot-etait-a-semweb-pro/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Web sémantique &amp; E-Commerce &#8211; Enjeux</title>
		<link>http://blog.antidot.net/2010/11/25/web-semantique-e-commerce-enjeux/</link>
		<comments>http://blog.antidot.net/2010/11/25/web-semantique-e-commerce-enjeux/#comments</comments>
		<pubDate>Thu, 25 Nov 2010 07:00:12 +0000</pubDate>
		<dc:creator>Gautier Poupeau</dc:creator>
				<category><![CDATA[Technologie]]></category>
		<category><![CDATA[Tendances]]></category>
		<category><![CDATA[E-Commerce]]></category>
		<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[RDFa]]></category>
		<category><![CDATA[web sémantique]]></category>

		<guid isPermaLink="false">http://blog.antidot.net/?p=129</guid>
		<description><![CDATA[Face à la multiplication des acteurs et à l&#8217;accroissement du marché du E-Commerce, l&#8217;enjeu est clair pour les sites marchands : gagner en visibilité. Les solutions pour y parvenir sont connues : améliorer le référencement partager et valoriser son catalogue auprès d&#8217;un écosystème de partenaires (revendeurs, comparateurs de prix, places de marché). En plus des [...]]]></description>
			<content:encoded><![CDATA[<p  style="font-weight:bold">
Face à la multiplication des acteurs et à l&#8217;accroissement du marché du E-Commerce, l&#8217;enjeu est clair pour les sites marchands : gagner en visibilité. Les solutions pour y parvenir sont connues :
</p>
<ul  style="font-weight:bold">
<li>améliorer le référencement</li>
<li>partager et valoriser son catalogue auprès d&#8217;un écosystème de partenaires (revendeurs, comparateurs de prix, places de marché).</li>
</ul>
<p  style="font-weight:bold">En plus des techniques traditionnelles (Référencement naturel et API Web) émergent, aujourd&#8217;hui, des solutions normalisées (RDFa, Good Relations, Linked Data) issues des travaux menées depuis plus de 10 ans au sein du W3C sur le Web sémantique. Resté longtemps l&#8217;apanage des laboratoires de recherche, le Web sémantique est une réalité industrielle implémentée par des grands acteurs du Web tels que <a href="http://developers.facebook.com/docs/opengraph">Facebook</a>, <a href="http://developer.yahoo.com/searchmonkey/">Yahoo!</a> ou <a href="http://googlewebmastercentral.blogspot.com/2009/05/introducing-rich-snippets.html">Google</a>, de même que des acteurs du E-Commerce tels que <a href="http://www.readwriteweb.com/archives/how_best_buy_is_using_the_semantic_web.php">BestBuy</a>, <a href="http://rdfa.info/2009/12/12/oreilly-catalog-uses-rdfa/">O&#8217;Reilly</a> ou <a href="http://rdfa.info/2010/10/07/overstock-com-adds-rdfa-to-nearly-one-million-pages/">overstock.com</a>. Ces initiatives ouvrent une nouvelle ère dans le domaine de la valorisation, du traitement et de la recherche des données du E-Commerce avec l&#8217;objectif d&#8217;améliorer l&#8217;expérience des utilisateurs.</p>
<p style="font-style:italic">L&#8217;essentiel de ce billet reprend les idées exposées dans la <a href="http://www.slideshare.net/AntidotNet/web-smantique-et-ecommerce">présentation « Web sémantique et E-Commerce » disponible sur Slideshare</a> et donnée à l&#8217;occasion du <a href="http://blog.antidot.net/2010/09/06/lautomne-est-la-saison-du-e-commerce/">salon du E-Commerce à Paris</a></p>
<p>
Le <strong>catalogue</strong> de produits est la richesse du eCommerçant et le site Web en est la matérialisation, la <strong>vitrine</strong> « virtuelle » pour les utilisateurs. C&#8217;est pourquoi <strong>sa maintenance, son enrichissement et sa valorisation</strong> sont des facteurs clé de succès pour les sites marchands. La complexité de cette tâche est à la hauteur de l&#8217;enjeu et ce travail peut s&#8217;avérer rapidement fastidieux et lourd tant pour <strong>améliorer la visibilité</strong> des produits sur les moteurs de recherche grand public, les techniques dit de référencement naturel étant de plus en plus complexes à maintenir avec l&#8217;augmentation de la concurrence, que pour <strong>exposer les données du catalogue auprès des partenaires</strong> qui présentent chacun des particularités en l&#8217;absence de normalisation ou pour <strong>l&#8217;agrégation de données hétérogènes</strong> provenant des différents fournisseurs.
</p>
<p>
Face à ces difficultés, <strong>les technologies du Web sémantique proposent aujourd&#8217;hui des solutions</strong>.
</p>
<p style="text-align:center; font-size:90%"><img title="Telle la tour de Babel, chaque site propose sa solution pour exposer les données du E-Commerce" src="http://blog.antidot.net/wp-content/uploads/2010/11/babel-tower.jpg" alt="La tour de Babel" /><br/>Telle la tour de Babel, chaque site propose sa solution pour exposer<br/>les données du E-Commerce</p>
<p style="font-size:110%"><strong>Qu&#8217;est-ce-que le Web sémantique ou le Web de données ?</strong></p>
<p>
<img style="float:left; margin-right: 12px;margin-bottom:5px" src="http://blog.antidot.net/wp-content/uploads/2010/11/sw-vert.png" alt="logo du Web sémantique" />Créé il y a plus de 20 ans, le <strong>Web</strong> constitue un cadre d&#8217;interopérabilité pour mettre à disposition, partager et lier des <strong>documents</strong> sur un réseau de machines connectées. Pour ce faire, il s&#8217;appuie sur un ensemble de briques technologiques qui va du langage de communication (<a href="http://fr.wikipedia.org/wiki/HTTP">HTTP</a>) au langage de structuration d&#8217;une page Web (<a href="http://fr.wikipedia.org/wiki/HTML">HTML</a>). La force du Web réside dans un consensus né de la normalisation de ces briques ce qui assure l&#8217;interopérabilité. Dans le même état d&#8217;esprit, le <a href="http://www.w3.org/">W3C</a>, l&#8217;organisme de normalisation du Web, et de nombreux laboratoires de recherche <a href="http://www.w3.org/2001/sw/">travaillent depuis plus de 10 ans</a> à l&#8217;élaboration avec la même architecture technologique d&#8217;un cadre d&#8217;interopérabilité pour mettre à disposition, partager et lier des données structurées. Alors que les documents étaient à destination des humains, cette nouvelle étape dans l&#8217;histoire du Web a vocation à <strong>améliorer le traitement des informations et des données par les machines dans un contexte de réseau décentralisé</strong>.
</p>
<p style="clear:both">
<strong>S&#8217;appuyant sur l&#8217;architecture du Web</strong> (protocole HTTP, principe d&#8217;identification avec des URL), le Web sémantique propose lui-même un ensemble de briques technologiques (<a href="http://fr.wikipedia.org/wiki/Resource_Description_Framework"><acronym title="Resource Description Framework">RDF</acronym></a>, <acronym title="Web Ontology Language"><a href="http://fr.wikipedia.org/wiki/Web_Ontology_Language">OWL</a></acronym>/<acronym title="RDF schema"><a href="http://fr.wikipedia.org/wiki/RDFS">RDFS</a>, </acronym><acronym title="Simple Knowledge Organization System"><a href="http://fr.wikipedia.org/wiki/SKOS"> SKOS</a></acronym><acronym title="RDF schema"></acronym>, <acronym title="SPARQL Protocol and RDF Query Language"><a href="http://fr.wikipedia.org/wiki/SPARQL">SPARQL</a></acronym>).</p>
<p style="font-size:110%"><strong>Exposer la richesse de son catalogue dans les pages Web</strong></p>
<p><img style="float:left; margin-right: 12px;margin-bottom:5px" src="http://blog.antidot.net/wp-content/uploads/2010/11/HowToPublish.jpg" alt="Choosing How to publish. Both, human and machine readable" /><br />
A la différence d&#8217;un humain, une machine n&#8217;est pas en capacité de comprendre les différentes informations d&#8217;une fiche de caractéristique produit publiée sur une page Web. <strong>En particulier, les moteurs de recherche n&#8217;identifient pas directement le sens des différentes données et ne savent pas faire de différences entre l&#8217;intitulé du produit, sa marque, sa description ou encore son prix</strong>. En effet, le but poursuivi par HTML n&#8217;est pas d&#8217;encoder le sens des informations, mais la structure de la page Web en vue de sa lecture par un humain. A l&#8217;inverse, le modèle RDF poursuit précisément cet objectif. Afin de réconcilier les deux au sein d&#8217;une page Web, le W3C a mis au point une syntaxe, <strong>le <a href="http://fr.wikipedia.org/wiki/RDFa">RDFa</a>, pour ajouter des assertions/triplets RDF dans le code HTML</strong>. Cette syntaxe se présente sous la forme d&#8217;attributs invisibles pour l&#8217;utilisateur, mais que la machine sera en capacité d&#8217;analyser.</p>
<p>
Mais, si le W3C a normalisé le modèle (RDF) et la syntaxe (RDFa), c&#8217;est-à-dire la manière d&#8217;introduire du RDF dans le HTML, <strong>en revanche </strong><strong>il ne s&#8217;occupe pas de normaliser tous les vocabulaires</strong> pour tous les domaines. Or, <strong>pour assurer toutes les conditions d&#8217;interopérabilité, il est nécessaire, comme pour les humains, d&#8217;utiliser le même vocabulaire</strong>. Dans le domaine du E-Commerce, le RDFa devient peu à peu un enjeu pour améliorer le référencement. Yahoo!, tout d&#8217;abord, avec le programme <a href="http://developer.yahoo.com/searchmonkey/">SearchMonkey</a>, Google avec les <a href="http://googlewebmastercentral.blogspot.com/2009/05/introducing-rich-snippets.html">Google Rich Snippets</a> et, enfin, <a href="http://developers.facebook.com/docs/opengraph">Facebook avec l&#8217;Open Graph Protocol</a> ont annoncé le support de RDFa pour améliorer le rendu des résultats de la recherche ou des recommandations de leurs utilisateurs. Dans ce cadre, ils proposaient tous les deux des vocabulaires spécifiques. De manière parallèle, un chercheur allemand, Martin Hepp, a mis au point et initié la promotion d&#8217;un autre vocabulaire beaucoup plus complet, <a href="http://purl.org/goodrelations/">Good Relations</a>.</p>
<p>
<img style="float:right; margin-left: 12px;margin-bottom:5px" src="http://blog.antidot.net/wp-content/uploads/2010/11/goodrelations-logo-small.png" alt="Logo du vocabulaire Good Relations" />L&#8217;annonce de <a href="http://developer.yahoo.com/blogs/ydn/posts/2010/08/api_updates_and_changes/">l&#8217;arrêt de SearchMonkey</a> suite à la décision de Yahoo! d&#8217;arrêter ces activités &#8220;Moteur de recherche&#8221; au profit de celui de Microsoft, Bing, et <a href="http://www.heppresearch.com/gr4google">l&#8217;annonce récente par Google du support de Good Relations</a> le propulsent comme le <strong>vocabulaire de référence</strong> pour décrire des produits. Même si le programme Google Rich Snippet n&#8217;est actuellement pas disponible dans sa partie &#8220;Produits&#8221; sur les déclinaisons européennes du moteur de recherche, Google a d&#8217;ors et déjà annoncé que ses équipes y travaillaient. Lorsqu&#8217;on voit un groupe comme <strong>BestBuy qui annonce une augmentation de 30% de son trafic</strong> suite à l&#8217;implémentation de RDFa et Good relations dans ses pages, on ne peut qu&#8217;inviter les sites marchands français à préparer l&#8217;avenir et à s&#8217;y mettre dès maintenant.</p>
<p style="text-align:center; font-size:90%"><img title="Exemple de Google Rich Snippet avec RDFa et Good Relations" src="http://blog.antidot.net/wp-content/uploads/2010/11/hepp.png" alt="Exemple de Google Rich Snippet avec RDFa et Good Relations" /><br/><br />
Exemple de Google Rich Snippet avec RDFa et Good Relations</p>
<p>Maintenant que nous avons exposé les enjeux et le contexte industriel, nous verrons dans le prochain billet comment concrètement ajouter du RDFa dans une page Web, ainsi que l&#8217;apport des solutions Antidot dans ce domaine.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.antidot.net/2010/11/25/web-semantique-e-commerce-enjeux/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Du référentiel à l’ontologie</title>
		<link>http://blog.antidot.net/2010/05/17/du-referentiel-a-l%e2%80%99ontologie/</link>
		<comments>http://blog.antidot.net/2010/05/17/du-referentiel-a-l%e2%80%99ontologie/#comments</comments>
		<pubDate>Mon, 17 May 2010 17:36:31 +0000</pubDate>
		<dc:creator>Fabrice Lacroix</dc:creator>
				<category><![CDATA[Technologie]]></category>
		<category><![CDATA[classes]]></category>
		<category><![CDATA[ontologie]]></category>
		<category><![CDATA[référentiel]]></category>
		<category><![CDATA[taxonomie]]></category>

		<guid isPermaLink="false">http://blog.antidot.net/?p=102</guid>
		<description><![CDATA[Lors d’un précédent billet nous avons examiné les différents types de référentiels et la façon dont ils étaient exploités par les moteurs de recherche. Dans la continuité de notre tour d’horizon, nous allons maintenant aborder le lien entre référentiels et ontologies. Comme nous l’avons vu, les référentiels servent à organiser du vocabulaire, c’est-à-dire des mots [...]]]></description>
			<content:encoded><![CDATA[<p>Lors d’un <a title="Réinventer les référentiels" href="http://blog.antidot.net/2010/03/25/reinventer-les-referentiels/" target="_blank">précédent billet</a> nous avons examiné les différents types de référentiels et la façon dont ils étaient exploités par les moteurs de recherche. Dans la continuité de notre tour d’horizon, nous allons maintenant aborder le lien entre référentiels et ontologies.</p>
<p>Comme nous l’avons vu, les référentiels servent à organiser du vocabulaire, c’est-à-dire des mots qui représentent eux-mêmes des personnes, des objets, des choses …<br />
Et c’est là que le bât blesse : les concepts décrits par ces mots sont sous entendus. Ce que décrivent les mots n’est pas  explicité et c’est au lecteur de le déduire.</p>
<p>Exemple :<br />
Si je vous dis « De Gaulle, Mitterrand, Chirac, Sarkozy » &#8230; vous répondez Président de la République.<br />
Si je  dis « Cresson, Fillon, Villepin, Jospin » … vous répondez Premier Ministre.<br />
Et pour « Laguiller, Bayrou, Accoyer, Strauss-Kahn », vous pensez personne-politique.</p>
<p>Dans un beau référentiel de type « taxonomie », ou système de classement, nous aurions pu ranger tout ça de la façon suivante :</p>
<p><code>Personnages politiques<br />
+ Président<br />
|     De Gaulle<br />
|     Mitterrand<br />
|     …<br />
+ Premier ministre<br />
|     Jospin<br />
|     Fillon<br />
|     …<br />
+ Autre<br />
|       Accoyer<br />
|       Strauss Kahn<br />
|       …<br />
</code></p>
<p>Cette taxonomie semble efficace et permet de ranger, classer et organiser les hommes politiques français. Mais si on regarde bien, cette solution a des limites.<br />
La hiérarchie semble décrire une spécialisation, allant du plus générique au plus spécifique :<br />
•	Président est une sorte de d’Homme Politique,<br />
•	Premier Ministre est une sorte d’Homme Politique.</p>
<p>Mais De Gaulle est une sorte de Président, ça ne va pas. Car &#8220;<em>De Gaulle <strong>est un </strong>Président</em>&#8221; et non pas « <strong>une sorte de</strong> ». On dirait en employant un vocabulaire plus technique et informatique que &#8220;<em>Président est une<strong> sous classe</strong> d’Homme Politique</em>&#8221; alors que &#8220;De Gaulle est une <strong>instance</strong> de Président&#8221;. Et ça n’est pas pareil. On constate donc que notre taxonomie mélange en fait les niveaux logiques : elle mixe les concepts et les objets.</p>
<p>On a également des cas plus complexes : Chirac fut Premier Ministre et Président. Faut-il dupliquer l’entrée et le mettre dans les deux branches de la taxonomie ? Mais comment être sûr qu’il s’agit de la même personne ?</p>
<p>Et bien une ontologie ça sert à résoudre tous ces petits problèmes en permettant de modéliser les types d’objets et la façon dont ils interagissent.<br />
On peut ainsi définir une classe &#8220;<em>Homme Politique</em>&#8220;, puis des classes &#8220;<em>Président</em>&#8221; et &#8220;<em>Premier Ministre</em>&#8221; comme sous classes de &#8220;<em>Homme Politique</em>&#8220;. On peut aussi préciser des règles qui décrivent des interactions entre les classes. Exemple : &#8220;<em>un Premier Ministre est nommé par le Président</em>&#8220;.</p>
<p>Voilà, une ontologie, ça sert à ça : à décrire des aspects du monde (la politique, les médicaments, les voitures, …) en modélisant les choses qui constituent le monde. Tout cela permet aux machines de manipuler ces concepts et de faire des opérations très poussées. On parle alors de raisonnement. Ainsi supposons que nous soumettions à une machine la phrase &#8220;<em>Nicolas Sarkozy vient de nommer François Fillon au poste de premier Ministre</em>&#8220;, celle-ci serait capable de déduire automatiquement que Nicolas Sarkozy est Président et François Fillon Premier Ministre. Elle pourrait également en déduire que ces deux personnalités sont des Hommes Politiques.</p>
<p>Et les référentiels dans tout ça ? Et bien nos référentiels contiennent des mots qui permettent de nommer les concepts et les objets eux-mêmes. Les mots permettent de faire le lien entre l’homme et la machine. Les mots sont des étiquettes posées sur les objets pour les identifier. Et lorsqu’une ontologie contient tout le vocabulaire nécessaire à ce qu’elle décrit et manipule , on parle de référentiel onto-terminologique.</p>
<p>Dans un prochain billet, nous verrons comment ces ontologies peuvent être exploitées par les moteurs de recherche.</p>
<p><em>Note pour les puristes : oui la modélisation indiquée ici est simpliste. Il faudrait séparer la modélisation des personnes et de leur fonction, et introduire les modes d&#8217;accès à la fonction et la dimension temporelle.</em></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.antidot.net/2010/05/17/du-referentiel-a-l%e2%80%99ontologie/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Des lettres et des chiffres</title>
		<link>http://blog.antidot.net/2010/02/10/latent-dirichlet-allocation/</link>
		<comments>http://blog.antidot.net/2010/02/10/latent-dirichlet-allocation/#comments</comments>
		<pubDate>Wed, 10 Feb 2010 16:28:30 +0000</pubDate>
		<dc:creator>Jérôme Mainka</dc:creator>
				<category><![CDATA[Technologie]]></category>
		<category><![CDATA[bayes]]></category>
		<category><![CDATA[catégorisation]]></category>
		<category><![CDATA[Latent Dirichlet]]></category>
		<category><![CDATA[LDA]]></category>
		<category><![CDATA[modèles]]></category>
		<category><![CDATA[moteur de recherche]]></category>
		<category><![CDATA[probabilités]]></category>
		<category><![CDATA[recherche d'information]]></category>
		<category><![CDATA[sémantique]]></category>

		<guid isPermaLink="false">http://blog.antidot.net/?p=37</guid>
		<description><![CDATA[L’analyse formelle en bout de course « Au commencement était le Verbe… et le Verbe s’est fait chair. » Puis les hommes se sont mis à assembler des mots entre eux pour s’exprimer. Le langage, cette fonction qui nous semble tellement élémentaire, a été l’un des premiers grands chantiers de l’Intelligence Artificielle. En effet, dès la fin [...]]]></description>
			<content:encoded><![CDATA[<p><strong>L’analyse formelle en bout de course</strong></p>
<p>« Au commencement était le Verbe… et le Verbe s’est fait chair. » Puis les hommes se sont mis à assembler des mots entre eux pour s’exprimer. Le langage, cette fonction qui nous semble tellement élémentaire, a été l’un des premiers grands chantiers de l’Intelligence Artificielle. En effet, dès la fin des années cinquante, l’<a title="IBM - Expérience de Georgetown" href="http://en.wikipedia.org/wiki/Georgetown-IBM_experiment" target="_blank">expérience de Georgetown</a>, menée notamment par IBM, a suscité un espoir démesuré : « within three or five years, machine translation would be a solved problem ». Cet espoir fut à la hauteur de la désillusion provoquée par les faibles résultats constatés.</p>
<p>Cinquante ans plus tard, où en sommes-nous ? La description formelle des langues pour leur utilisation dans des systèmes automatisés a montré ses limites. L’utilisation exclusive de grammaires formelles est incapable de saisir la complexité d’une langue. La principale difficulté réside en un seul mot : ambiguïté. Les rustines techniques ne manquent pas pour tenter de contourner le problème et les années soixante-dix et quatre-vingt ont été particulièrement riches dans la mise en place de systèmes de règles sémantiques, supposées permettre une plus grande précision dans l’analyse de la langue. Ces systèmes n’ont pourtant apporté que des améliorations marginales dans le traitement automatisé de la langue.</p>
<p><strong>L’arme fatale</strong></p>
<p>En fait, la « <a title="Silver Bullet" href="http://en.wikipedia.org/wiki/Silver_bullet#Idiomatic_usage" target="_blank">balle d’argent</a> » semble avoir été tirée par un curieux fusil que le monde de l’informatique et de l’IA semblait avoir négligé : la <a title="Probabilité" href="http://fr.wikipedia.org/wiki/Probabilit%C3%A9" target="_blank">probabilité</a>. Avec l’introduction de modèles de langue probabilistes, Google, pour sa première participation en 2008, a classé son système de traduction automatique à la première place de toutes les tâches de la campagne <a title="NIST 2008" href="http://www.itl.nist.gov/iad/mig/tests/mt/2008/doc/mt08_official_results_v0.html" target="_blank">Open Machine Translation</a> du <a title="NIST" href="http://www.nist.gov" target="_blank">NIST</a> (arabe vers anglais, chinois vers anglais, ourdou vers anglais, anglais vers chinois).</p>
<p>En à peine vingt ans, les techniques probabilistes ont propulsé les capacités des systèmes de traduction automatiques à des hauteurs que quarante ans de systèmes formels n’avaient fait qu’entrevoir.</p>
<p><strong>Le LDA pour les nuls</strong></p>
<p>Ces résultats ont encouragé les chercheurs à appliquer le paradigme probabiliste à d’autres tâches au sein du traitement automatique du langage. Et l’un des concepts les plus prometteurs dans ce domaine est le <a title="Latent Dirichlet Allocation" href="http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation" target="_blank">LDA</a>, ou <em>Latent <a title="Dirichlet" href="http://fr.wikipedia.org/wiki/Dirichlet" target="_blank">Dirichlet</a> Allocation</em>. Nous nous plaçons cette fois-ci dans le cadre d’un grand nombre de documents, ce qu’on appelle un <a title="Corpus" href="http://fr.wikipedia.org/wiki/Corpus" target="_blank"><em>corpus</em></a>. Chaque document est vu comme un <em>sac de mots</em>. Le paragraphe précédent peut par exemple être vu comme un document dans lequel le mot « automatiques » apparaît 1 fois, et le mot « systèmes », 2 fois. On voit qu’il est assez trivial de considérer un document comme une distribution de probabilité sur l’ensemble des mots. Si j’ai le document « a b a c », je peux considérer ce document comme une distribution des mots « a », « b », « c »  et « d » avec les probabilités 2/4, 1/4,  1/4 et 0.</p>
<p>L’idée de LDA est qu’au lieu de considérer un document comme une distribution sur des mots, on le considère comme une distribution de probabilité sur des <em>topics</em> (sujets), eux-mêmes vus comme des distributions sur les mots. Je ne rentrerai pas dans les détails du modèle et je me contenterai de l’illustrer sur un cas concret.</p>
<p><strong>Un exemple de LDA</strong></p>
<p>J’ai effectué un LDA sur la presse quotidienne nationale sur la période du 18 au 23 janvier 2010, à partir de l’excellent site <a title="Pikanews" href="http://www.pikanews.com" target="_blank">Pikanews</a>. Le résultat de l’algorithme du LDA appliqué à ce corpus génère un ensemble de topics, caractérisés eux-mêmes par des mots. Voici un extrait de ces topics générés :</p>
<table border="1" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td width="76" valign="top">
<p align="center"><strong>Topic 92</strong></p>
</td>
<td width="69" valign="top">
<p align="center"><strong>Topic 103</strong></p>
</td>
<td width="80" valign="top">
<p align="center"><strong>Topic 68</strong></p>
</td>
<td width="92" valign="top">
<p align="center"><strong><em>Topic 48</em></strong></p>
</td>
<td width="109" valign="top">
<p align="center"><strong><em>Topic 90</em></strong></p>
</td>
</tr>
<tr>
<td width="76" valign="top">Renault</p>
<p>Flins</p>
<p>Clio</p>
<p>Carlos Ghosn</p>
<p>Usine</p>
<p>Turquie</p>
<p>Bursa</p>
<p>Production</p>
<p>Automobile</td>
<td width="69" valign="top">Numérique</p>
<p>Apple</p>
<p>Google</p>
<p>Mobile</p>
<p>Microsoft</p>
<p>Opérateurs</p>
<p>Taxe</p>
<p>Iphone</p>
<p>ARCEP</td>
<td width="80" valign="top">Haïti</p>
<p>Port au Prince</p>
<p>Séisme</p>
<p>Haïtiens</p>
<p>ONU</p>
<p>Humanitaire</p>
<p>Blessés</p>
<p>Secours</p>
<p>Morts</td>
<td width="92" valign="top"><em>Barack Obama</em></p>
<p><em>Démocrates</em></p>
<p><em>Massachusetts</em></p>
<p><strong><em>Sénat</em></strong></p>
<p><em>Scott Brown</em></p>
<p><em>Républicains</em></p>
<p><em>Maison blanche</em></p>
<p><em>Ted Kennedy</em></p>
<p><em>Congrès</em></td>
<td width="109" valign="top"><em>Scrutin</em></p>
<p><em>Réforme</em></p>
<p><em>Collectivités</em></p>
<p><em>Conseiller territorial</em></p>
<p><em>Élus</em></p>
<p><strong><em>Sénat</em></strong></p>
<p><em>Départements</em></p>
<p><em>Collectivités locales</em></td>
</tr>
</tbody>
</table>
<p>On constate par exemple que le mot « Sénat » se retrouve dans deux topics différents.</p>
<p>Dans l’extrait suivant, le mot « sénat » apparaît dans le contexte de l’élection du Massachusetts :</p>
<p><em>La détermination de l&#8217;administration Obama à brider Wall Street risque toutefois de butter contre une nouvelle réalité politique : comme pour le projet d&#8217;une taxe spéciale sur les banques, ces mesures doivent être approuvées par le Congrès. Et le revers électoral subi par les démocrates, mardi, dans l&#8217;Etat du Massachusetts leur a fait perdre la majorité qualifiée au <strong>Sénat</strong>. Une majorité pourtant indispensable afin de faire adopter leurs projets sans risquer une obstruction républicaine.</em></p>
<p>Alors que dans l’extrait suivant le mot « Sénat » est raccroché au projet de réforme des collectivités territoriales :</p>
<p><em>Après avoir sillonné les fédérations UMP pendant des semaines pour promouvoir la réforme territoriale, Dominique Perben ne cache pas sa déception : le texte que les sénateurs ont commencé à examiner hier, en séance plénière, est, selon lui, bien en deçà des ambitions du projet gouvernemental. Invité du « Talk Orange-Le Figaro », il a regretté en particulier que « le texte du <strong>Sénat</strong> soit très en retrait sur les métropoles ».</em></p>
<p>L’analyse effectuée par le LDA, sans aucune intervention humaine, sans aucune modélisation <em>a priori</em> ni connaissance linguistique autre que l’isolation de <a title="token" href="http://en.wikipedia.org/wiki/Lexical_analysis#Token" target="_blank"><em>tokens</em></a> (mots) à l’intérieur d’un texte, est remarquable. Le LDA identifie automatiquement l’usage du mot « Sénat » dans différents contextes. On voit l’intérêt que l’on pourrait retirer d’une telle analyse dans le cadre, par exemple, de la désambigüisation de termes ou de fonctions.</p>
<p>Le LDA sert d’ailleurs déjà de socle à différents traitements classiques dans le traitement automatique du langage : clusterisation, catégorisation automatique, annotation morpho-syntaxique, etc. Les études publiées depuis environ cinq ans à ce sujet montrent que le gain apporté par la démarche est souvent très significatif. Assistera-t-on à la même explosion des performances de ces outils que celle dont a bénéficié la traduction automatique ?</p>
<p>En tout cas, chez <a title="Antidot" href="http://www.antidot.net/" target="_blank">Antidot</a>, nous y croyons. Nous travaillons sur le sujet depuis un moment déjà,  et la prochaine version d’AFS &#8211; la v7 qui sortira en avril 2010 &#8211; inclut les premiers résultats de nos recherches. Si vous voulez en savoir plus, venez nous rendre visite sur le salon <a title="Antidot à Documation" href="http://www.documation.fr/site/FR/Zoom_Exposant,C1578,I1129,Zoom-77e2cfec5bf071610936eae865290d64,FromOut-ListGlob.htm?KM_Session=911914ecd54478c85221a66a2846cbe6" target="_blank">Documation</a>. Croyez-moi, c’est bluffant !</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.antidot.net/2010/02/10/latent-dirichlet-allocation/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Le sens de la sémantique</title>
		<link>http://blog.antidot.net/2009/11/24/le-sens-de-la-semantique/</link>
		<comments>http://blog.antidot.net/2009/11/24/le-sens-de-la-semantique/#comments</comments>
		<pubDate>Tue, 24 Nov 2009 21:25:04 +0000</pubDate>
		<dc:creator>Fabrice Lacroix</dc:creator>
				<category><![CDATA[Technologie]]></category>
		<category><![CDATA[Tendances]]></category>
		<category><![CDATA[indexation sémantique]]></category>
		<category><![CDATA[web of data]]></category>
		<category><![CDATA[web sémantique]]></category>

		<guid isPermaLink="false">http://blog.antidot.net/?p=24</guid>
		<description><![CDATA[Une très grande confusion règne autour du mot « sémantique » qui est utilisé à toutes les sauces dès qu’il s’agit de moteurs de recherche, et force est de constater que les discours marketing des acteurs ne vont pas dans le sens de la clarté. Tout d’abord, il y a l’indexation sémantique : celle qui consiste, lors [...]]]></description>
			<content:encoded><![CDATA[<p>Une très grande confusion règne autour du mot « sémantique » qui est utilisé à toutes les sauces dès qu’il s’agit de moteurs de recherche, et force est de constater que les discours marketing des acteurs ne vont pas dans le sens de la clarté.</p>
<p>Tout d’abord, il y a l’<strong>indexation sémantique </strong>: celle qui consiste, lors de l’analyse d’un document, à rattacher chaque mot à un concept sous-jacent. Ainsi, par exemple, pour le mot <em>jaguar</em>, il faut déterminer s’il s’agit du félin, de la voiture ou de l’avion. Et ça, c’est compliqué. Tout d’abord, il faut une &#8220;liste&#8221; de concepts cibles (le sens du truc qui est derrière le mot) pour pouvoir transformer le mot en concept. Il faut donc avoir modélisé tous les concepts… Autant dire que c’est peine perdue : cela sous entendrait que tout le monde pense de la même façon et se représente le monde à l’identique. Ensuite, il ne faut pas se tromper lors de l’analyse : faux amis, ambiguïté… Et d’ailleurs, tout ça est tellement compliqué que ça n’a jamais marché. C’est sans doute une des grandes errances et un Graal illusoire des moteurs de recherche des années 80-90. Les grands acteurs de ce domaine se sont dès lors fixé des objectifs plus modestes, mais dont les résultats sont plus probants : extraction d’<a href="http://fr.wikipedia.org/wiki/Entit%C3%A9s_nomm%C3%A9es  ">entités nommées</a>, data mining, etc.</p>
<p>Puis il y a l’<strong>extension sémantique</strong>. Là, plus de concepts, mais seulement des vocabulaires : dictionnaires de synonymes, thésaurus, taxinomies. Le principe est simple : élargir la recherche de l’utilisateur exploitant les synonymes (même sens), les <a href="http://fr.wikipedia.org/wiki/Hyperonyme">hyperonymes</a> (sens plus large : véhicule est hyperonyme de voiture et camion) et les <a href="http://fr.wikipedia.org/wiki/Hyponyme">hyponymes</a> (sens plus réduit). Et donc, si l’utilisateur cherche une <em>chemise verte</em>, il est de bon ton de lui remonter aussi des <em>chemises kaki</em> ou <em>émeraude</em>. C’est ça l’extension sémantique : étendre la recherche de l’utilisateur en appliquant des dictionnaires. Et si possible uniquement du vocabulaire spécifique à domaine et à un objectif fonctionnel afin de ne pas introduire de bruit. Cette méthode, associée à des traitements linguistiques de type <a href="http://fr.wikipedia.org/wiki/Lemmatisation">lemmatisation</a>, a largement pris le pas sur les autres car elle offre à la fois de bonnes performances tout en garantissant un coût de mise en œuvre et de maintenance réduit. C&#8217;est d&#8217;ailleurs le choix d&#8217;<a href="http://www.antidot.net">Antidot</a> pour <a href="http://www.antidot.net/fr/Technologie/AFS">AFS</a>.</p>
<p>Je passe à regret aujourd’hui sur l’<strong>indexation sémantique latente </strong>(LSI : Latent Semantic Indexing) qui est une approche mathématique permettant de générer automatiquement lors de l’indexation l’ensemble des concepts d’un corpus et de les relier à des mots et des documents caractéristiques. Ce sujet intéressant fera très certainement l’objet d’un prochain billet.</p>
<p>J’en arrive enfin au <strong>web sémantique</strong>. Et c’est certainement là que règne la plus grande confusion. Car contrairement à ce que le mot « sémantique » laisse suggérer, il ne s’agit pas pour les moteurs de recherche de découvrir les concepts et le sens caché des textes. Bien au contraire. Il s’agit d’expliciter manuellement le sens des informations afin que les ordinateurs puissent les exploiter de façon automatique, sans ambigüité et à grande échelle. Prenons un exemple : sur le site web d’un restaurant on trouve l’information &#8220;<em>ouvert tous les jours sauf le lundi hors période scolaire&#8221;</em>. On note que cette phrase est déjà ambiguë pour un humain (&#8220;<em>hors période scolaire</em>&#8221; s’applique-t-il à &#8220;<em>tous les jours</em>&#8221; ou à &#8220;<em>sauf le lundi</em>&#8221; ?) mais elle est franchement inexploitable en tant que telle par un moteur de recherche qui vient lire cette page. L’idée sous jacente au<a href="http://fr.wikipedia.org/wiki/Web_s%C3%A9mantique"> web sémantique</a> est donc qu’il faut ajouter dans la page web des informations formelles (grâce à des balises invisibles à l’utilisateur) afin que les logiciels de recherche puissent collecter cette information et l’exploiter.</p>
<p>Le <strong>web sémantique</strong> est très loin de l’indexation sémantique et des promesses de l’intelligence artificielle des années 80. Pas d’analyse du sens caché, pas de réponse miracle à une question exprimée en langage naturel. Mais c’est sans doute en cela qu’il va tenir ses promesses. Et comme l&#8217;avoue Tim Berners Lee, le mot web sémantique est mal choisi (par lui même) car sujet à trop d’incompréhension, et il suggère d’employer maintenant l’expression « web of data » : le web des données.</p>
<p>C’est vrai que ça fait moins rêver… mais comme les mots ont un sens, autant le respecter !</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.antidot.net/2009/11/24/le-sens-de-la-semantique/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>

