<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Blog Antidot &#187; extension sémantique</title>
	<atom:link href="http://blog.antidot.net/tag/extension-semantique/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.antidot.net</link>
	<description></description>
	<lastBuildDate>Thu, 02 Feb 2012 15:22:07 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>Moteurs de recherche : vers un usage banalisé des thésaurus ?</title>
		<link>http://blog.antidot.net/2011/06/29/moteurs-de-recherche-vers-un-usage-banalise-des-thesaurus/</link>
		<comments>http://blog.antidot.net/2011/06/29/moteurs-de-recherche-vers-un-usage-banalise-des-thesaurus/#comments</comments>
		<pubDate>Wed, 29 Jun 2011 09:02:33 +0000</pubDate>
		<dc:creator>Pierre Col</dc:creator>
				<category><![CDATA[Retour d'expérience]]></category>
		<category><![CDATA[Technologie]]></category>
		<category><![CDATA[Tendances]]></category>
		<category><![CDATA[Antidot Finder Suite]]></category>
		<category><![CDATA[Antidot Information Factory]]></category>
		<category><![CDATA[extension sémantique]]></category>
		<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[moteur de recherche]]></category>
		<category><![CDATA[Open Data]]></category>
		<category><![CDATA[OWL]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[référentiel]]></category>
		<category><![CDATA[sémantic web]]></category>
		<category><![CDATA[sémantique]]></category>
		<category><![CDATA[SKOS]]></category>
		<category><![CDATA[taxonomie]]></category>
		<category><![CDATA[terminologie]]></category>
		<category><![CDATA[thésaurus]]></category>
		<category><![CDATA[vocabulaires contrôlés]]></category>
		<category><![CDATA[web des données]]></category>
		<category><![CDATA[web of data]]></category>

		<guid isPermaLink="false">http://blog.antidot.net/?p=333</guid>
		<description><![CDATA[Une étude intéressante venue d’Autriche La Semantic Web Company est une entreprise viennoise spécialisée, comme son nom l’indique, dans la mise en œuvre des technologies du web sémantique. Dans un billet de blog publié le 26 juin et titré « Dans un proche avenir, les moteurs de recherche basés sur des thésaurus seront généralisés »  SWC [...]]]></description>
			<content:encoded><![CDATA[<h3><strong>Une étude intéressante venue d’Autriche</strong></h3>
<p>La <a href="http://www.semantic-web.at/" target="_blank">Semantic Web Company</a> est une entreprise viennoise spécialisée, comme son nom l’indique, dans la mise en œuvre des technologies du <a href="http://fr.wikipedia.org/wiki/Web_s%C3%A9mantique" target="_blank">web sémantique</a>. Dans <a href="http://blog.semantic-web.at/2011/06/26/thesaurus-based-search-engines-will-become-main-stream-in-the-near-future/" target="_blank">un billet de blog publié le 26 juin</a> et titré « <em>Dans un proche avenir, les moteurs de recherche basés sur des thésaurus seront généralisés</em> »  SWC publie le résultat d’une étude sur le thème des vocabulaires contrôlés, menée en mai-juin 2011 auprès de plus de 150 intervenants dans 27 pays.</p>
<p>A la première question, « <em><strong>Pensez-vous que les entreprises et autres organisations peuvent grandement bénéficier de l&#8217;utilisation du Linked Data ? </strong></em>», la réponse est clairement OUI.</p>
<p><a href="http://blog.semantic-web.at/wp-content/uploads/2011/06/linked_data_benefit.jpg" rel="http://blog.semantic-web.at/2011/06/26/thesaurus-based-search-engines-will-become-main-stream-in-the-near-future/" target="_blank"><img class="aligncenter" style="border: 0pt none;" src="http://blog.semantic-web.at/wp-content/uploads/2011/06/linked_data_benefit.jpg" alt="" width="425" height="167" /><br />
</a>Une question corollaire révèle également que  les organisations de toutes tailles ont globalement la même opinion sur le <a href="http://en.wikipedia.org/wiki/Linked_Data" target="_blank">Linked Data</a>. Seules 14 répondants sur 158 considèrent que le Linked Data est un phénomène de niche. On peut globalement dire que plus de 90% des participants pensent que la plupart ou tout au moins certaines organisations peuvent bénéficier du Linked Data.</p>
<p>Les réponses à la seconde question, « <em><strong>Pensez-vous que les moteurs de recherche qui utilisent des thésaurus afin d&#8217;améliorer les résultats seront généralisés ?</strong></em> » sont étonnantes : les deux tiers des participants pensent que la recherche basée sur des thésaurus est déjà ou deviendra dominante dans un avenir proche.</p>
<p style="text-align: center;"><a href="http://blog.semantic-web.at/2011/06/26/thesaurus-based-search-engines-will-become-main-stream-in-the-near-future/" target="_blank"><img class="aligncenter" style="border: 0pt none;" src="http://blog.semantic-web.at/wp-content/uploads/2011/06/thesaurus_based_search.jpg" alt="" width="425" height="159" /></a></p>
<p>Enfin, les réponses à la question  « <em><strong>Quelle est l&#8217;importance de l&#8217;utilisation de normes comme SKOS pour les vocabulaires contrôlés ?</strong></em> » parlent d&#8217;elles-mêmes.</p>
<p style="text-align: center;"><a href="http://blog.semantic-web.at/2011/06/26/thesaurus-based-search-engines-will-become-main-stream-in-the-near-future/" target="_blank"><img class="aligncenter" style="border: 0pt none;" src="http://blog.semantic-web.at/wp-content/uploads/2011/06/importance-of-skos.jpg" alt="" width="425" height="158" /></a></p>
<p>Plus des trois quarts des participants à l’enquête sont convaincus que des standards comme <a href="http://fr.wikipedia.org/wiki/Simple_Knowledge_Organization_System" target="_blank">SKOS</a> sont importants pour leur travail quotidien. Deux ans après l’adoption du nouveau standard SKOS en août 2009, il peut être considéré comme adopté puisque 48,7% des répondants ont déclaré que SKOS est « <em>très important</em> » et 29,1% le désignent comme « <em>pertinent</em> ».</p>
<p>En synthèse de cette étude, on peut dire que la communauté du web sémantique a fait un excellent travail pour convaincre les utilisateurs de vocabulaires contrôlés de tirer avantage de SKOS et du Linked Data. Pour autant, seulement 3 à 5% des interrogés sont informés de l’existence de <a href="http://fr.wikipedia.org/wiki/SPARQL" target="_blank">SparQL</a> considéré comme un outil utile pour construire des API standard autour des vocabulaires contrôlés, afin de réduire les coûts d&#8217;implémentation de systèmes d&#8217;organisation des connaissances.</p>
<h3><strong>Antidot a pris cette orientation il y a plus de 5 ans… </strong></h3>
<p>&nbsp;</p>
<p>Aujourd’hui, de nombreux articles et conférences sont consacrés <a href="http://www.usinenouvelle.com/article/l-industrie-s-empare-du-web-semantique.N128850" target="_blank">aux apports industriels du web sémantique</a> et nous nous en réjouissons.</p>
<p>Car cela fait de nombreuses années qu’Antidot a décidé d’intégrer à ses technologies les standards du web sémantique. Dès 2005, alors même que ces standards étaient encore en discussion au sein du W3C, et après avoir participé à des projets de recherche sur ces sujets, nous sommes allés résolument de l’avant, car nous étions convaincus  que l’amélioration de la qualité des résultats fournis par un moteur de recherche passerait notamment par l’utilisation de thésaurus et de vocabulaires contrôlés.  Ainsi, dès 2007, nous avons mis en œuvre SKOS et RDF dans des projets industriels, par exemple pour <a href="http://www.christian-faure.net/2007/01/09/lantidote-de-la-recherche/" target="_blank">le moteur de recherche de petites annonces</a> du groupe <a href="http://www.annoncesjaunes.fr/" target="_blank">PagesJaunes</a>.</p>
<p>Mais bien au delà des<a href="http://blog.antidot.net/2010/03/25/reinventer-les-referentiels/" target="_blank"> apports évidents de l’utilisation des vocabulaires contrôlés et plus largement des référentiels</a>,  notre engagement s’est également porté sur le Linked Data car nous pensons que la consolidation des données internes de l’entreprise avec des données externes démultiplie la valeur de l’information et donc son efficacité pour l’utilisateur. Ces deux points (référentiels et Linked data) sont d’ailleurs liés puisque les référentiels jouent un rôle clés dans le maillage de l’information et servent de pivot pour articuler les données issues de sources diverses.</p>
<h3><strong>… et nos choix sont validés par des projets industriels</strong></h3>
<p>C’est sur la base de ces travaux, passés de la R&amp;D à l’application concrète, que notre produit phare, le moteur de recherche <a href="http://antidot.net/fr/Technologie/AFS" target="_blank">Antidot Finder Suite</a>, supporte depuis des années les ontologies et thésaurus décrits selon les formalismes <a href="http://fr.wikipedia.org/wiki/Web_Ontology_Language" target="_blank">OWL</a> et <a href="http://fr.wikipedia.org/wiki/Simple_Knowledge_Organization_System" target="_blank">SKOS</a>.</p>
<p>Pour donner un exemple très simple de leur utilisation, c’est grâce à un thésaurus de couleurs nativementexprimé en SKOS, qu’un site marchand vendant des articles textiles et utilisant <a href="http://www.antidot.net/fr/Solutions/AFS-Store" target="_blank">AFS@Store</a> pourra proposer un vêtement « <em>kaki</em> » à un utilisateur cherchant du « <em>vert</em> » et ceci même si le mot « <em>kaki</em> » ne figure pas explicitement dans la fiche produit :</p>
<p style="text-align: center;"><a class="fancybox" href="http://blog.antidot.net/wp-content/uploads/2011/06/thesaurus-couleur.png"><img class="aligncenter size-full wp-image-330" title="thesaurus-couleur" src="http://blog.antidot.net/wp-content/uploads/2011/06/thesaurus-couleur.png" alt="" width="440" height="305" /></a><a class="fancybox" href="http://blog.antidot.net/wp-content/uploads/2011/06/exemple-thesaurus-couleur.png"><img class="aligncenter size-full wp-image-331" title="exemple-thesaurus-couleur" src="http://blog.antidot.net/wp-content/uploads/2011/06/exemple-thesaurus-couleur.png" alt="" width="440" height="286" /></a></p>
<p>Autre exemple chez un client institutioneld&#8217;Antidot, avec l’<a href="http://antidot.net/fr/References/Institutionnel/AFPA" target="_blank">AFPA</a> : le moteur de recherche mis en place sur le site web de l’organisme en charge de la formation professionnelle des adultes &#8211; <a href="http://www.afpa.fr/">www.afpa.fr</a> &#8211; intègre le thésaurus Formacode® 2008 pour réaliser une extension sémantique entre le code ROME de l’ANPE et les offres de  formation proposées par l’AFPA :</p>
<p style="text-align: center;"><a class="fancybox" href="http://blog.antidot.net/wp-content/uploads/2011/06/thesaurus-AFPA.png"><img class="aligncenter size-full wp-image-332" style="border: 0pt none;" title="thesaurus-AFPA" src="http://blog.antidot.net/wp-content/uploads/2011/06/thesaurus-AFPA.png" alt="" width="440" height="328" /></a></p>
<p>Cette intégration au moteur de recherche du thésaurus métier, formalisé en SKOS, permet de catégoriser automatiquement toute l’offre de formation et d’y donner accès de manière plus intuitive pour les utilisateurs, qui s&#8217;expriment naturellement avec leurs propres mots.</p>
<p>Au-delà de ces deux exemples impliquant la mise en œuvre de vocabulaires contrôlés, Antidot considère que les standards du web sémantique constituent désormais un apport majeur pour mieux</p>
<ul>
<li>produire automatiquement des métadonnées sémantisées et standardisées au format RDF, à partir de différentes sources dont on collecte les données qui sont ensuite automatiquement agrégées et dynamiquement articulées ;</li>
<li>restituer ces données sous forme d’une information nouvelle, enrichie, orientée usage et utilisateur, qui peut être exposée dans la logique du Linked Data.</li>
</ul>
<p>C’est pour cela que nous avons lancé il y a quelques mois notre solution <a href="http://antidot.net/fr/Technologie/AIF" target="_blank">Antidot Information Factory</a> qui permet de construire et d’exploiter des chaînes de captation et transformation des données pour une mise en relation intelligente des informations disponibles. AIF a rendu possible de grandes réalisations, comme <a href="http://rechercheisidore.fr" target="_blank">la plateforme ISIDORE</a> du CNRS &#8211; <a href="http://www.tge-adonis.fr/service/isidore" target="_blank">TGE Adonis</a> qui apporte <a href="http://dossierdoc.typepad.com/descripteurs/2011/03/isidore-plateforme-de-recherche-shs.html" target="_blank">un accès unifié à plus d’un million de publications</a> produites par la recherche française en sciences humaines et sociales, et qui constitue à ce jour <strong>un des plus grands projets Open Data français</strong>.</p>
<p><strong>D’autres projets de grande ampleur, qui tirent parti de façon industrielle des thésaurus, et plus largement du web sémantique et de l’approche du Linked Data, sont en phase de développement chez nos clients et seront mis en production dans les prochains mois. Ces réalisations emblématiques démontrent tout le bien fondé de notre approche technologique, nous ne manquerons pas de vous les présenter le moment venu !</strong></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.antidot.net/2011/06/29/moteurs-de-recherche-vers-un-usage-banalise-des-thesaurus/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Réinventer les référentiels</title>
		<link>http://blog.antidot.net/2010/03/25/reinventer-les-referentiels/</link>
		<comments>http://blog.antidot.net/2010/03/25/reinventer-les-referentiels/#comments</comments>
		<pubDate>Thu, 25 Mar 2010 19:47:12 +0000</pubDate>
		<dc:creator>Fabrice Lacroix</dc:creator>
				<category><![CDATA[Retour d'expérience]]></category>
		<category><![CDATA[Tendances]]></category>
		<category><![CDATA[annotation]]></category>
		<category><![CDATA[auto complétion]]></category>
		<category><![CDATA[catégorisation]]></category>
		<category><![CDATA[extension sémantique]]></category>
		<category><![CDATA[plan de classement]]></category>
		<category><![CDATA[recherches connexes]]></category>
		<category><![CDATA[référentiel]]></category>
		<category><![CDATA[taxonomie]]></category>
		<category><![CDATA[terminologie]]></category>

		<guid isPermaLink="false">http://blog.antidot.net/?p=50</guid>
		<description><![CDATA[Dans un contexte où la recherche en texte intégral et l’avènement du Web 2.0 remettent en cause l’utilité et donc l’existence même de référentiels, ceux-ci sont obliger d'évoluer pour survivre. Cependant ces référentiels sont très utiles aux bons moteurs de recherche qui savent les exploiter pour réaliser de nombreuses fonctions dont nous donnons dans ce billet un aperçu [...]
]]></description>
			<content:encoded><![CDATA[<p>Lors d’un <a title="Avenir des référentiels" href="http://blog.antidot.net/2010/03/10/les-referentiels-ont-il-un-avenir/" target="_blank">billet précédent</a>, nous avons soulevé la question de l’avenir des référentiels dans un contexte où la recherche en texte intégral et l’avènement du Web 2.0 remettent en cause l’utilité et donc l’existence même de référentiels.</p>
<p><strong>Ce que sont les référentiels</strong></p>
<p><strong>Référentiel</strong> : données structurées qui sont de référence (donc qui font autorité) et qui permettent à des applications de fonctionner ensemble.</p>
<p>Les plus connus sont certainement les <strong>référentiels terminologiques </strong>: dictionnaires, thésaurus, listes de synonymes…  Ils contiennent du vocabulaire, ils font référence pour l’orthographe et la définition des mots et ils permettent aux hommes de communiquer ensemble en définissant un sens commun au langage. Pas de doute, ils répondent à la définition : ce sont des référentiels.</p>
<p>Ces référentiels terminologiques peuvent être :</p>
<ul>
<li>généralistes comme les dictionnaires : <a title="Littré" href="http://francois.gannaz.free.fr/Littre/accueil.php" target="_blank">Littré</a> : 78423 entrées, <a title="Larousse en ligne" href="http://www.larousse.fr/dictionnaires" target="_blank">Larousse</a> : 135 000 entrées, <a title="Wiktionnary" href="http://fr.wiktionary.org/" target="_blank">Wiktionnaire</a> ;</li>
<li>encyclopédiques : <a title="Rameau" href="http://rameau.bnf.fr/" target="_blank">Rameau</a>, le répertoire autorité-matière édité par la <a title="BNF" href="http://www.bnf.fr" target="_blank">BNF</a> (100 000 noms communs) ;</li>
<li>spécialisés : <a title="Eurovoc" href="http://europa.eu/eurovoc/sg/sga_doc/eurovoc_dif!SERVEUR/menu!prod!MENU?langue=FR" target="_blank">Eurovoc</a> le thésaurus multilingue édité par l’UE, <a title="Geonames" href="http://www.geonames.org/" target="_blank">Geonames</a> pour les noms géographiques (8 millions d’entrées), <a title="Termsciences" href="http://www.termsciences.fr/" target="_blank">Termsciences</a> pour le vocabulaire scientifique (190 000 concepts, 650 000 termes)</li>
<li>métiers : <a title="Gemet" href="http://www.eionet.europa.eu/gemet/index_html?langcode=fr" target="_blank">Gemet</a> dans l’environnement (200 000 descripteurs) ; <a title="MeSH" href="http://extranet.inserm.fr/information-scientifique-et-technique/le-mesh-bilingue" target="_blank">MeSH</a>, <a title="SNOMED" href="http://www.nlm.nih.gov/research/umls/Snomed/snomed_main.html" target="_blank">SNOMED-CT</a>, <a title="WHOART" href="http://en.wikipedia.org/wiki/WHOART" target="_blank">WHOART</a>, <a title="CIM 10" href="http://fr.wikipedia.org/wiki/Liste_de_codes_CIM-10" target="_blank">CIM-10</a>, <a title="CCAM" href="http://www.codage.ext.cnamts.fr/codif/ccam/index_presentation.php?p_site=AMELI" target="_blank">CCAM</a>, <a title="MeDRA" href="http://www.meddramsso.com/" target="_blank">MeDRA</a>, … en santé.</li>
</ul>
<p>Les <strong>systèmes d’information</strong> des entreprises <strong>regorgent</strong> également <strong>de référentiels</strong> qui parfois ne se savent pas eux-mêmes :</p>
<ul>
<li>les <strong>annuaires</strong> (LDAP, ActiveDirectory) utilisés pour la sécurité sont des référentiels de personnes, de groupes et de rôles ;</li>
<li>les <strong>CRM</strong> (gestion de la relation client) sont aussi des référentiels de contacts, de clients, de secteurs ;</li>
<li>les <strong>ERP</strong> (gestion de la production) sont des référentiels de produits, de catégories, de références ;</li>
<li>les <strong>arborescences</strong> de fichiers, les structures même des sites web sont des plans de classement.</li>
</ul>
<p><strong>De l&#8217;usage des référentiels par les moteurs de recherche </strong></p>
<p>Qu’ils soient techniques, ou conçus pour faciliter l’usage (classer, trier), ces <strong>référentiels</strong> sont très <strong>utiles aux <a title="AFS" href="http://www.antidot.net/fr/Technologie/AFS" target="_blank">bons moteurs de recherche</a></strong> qui savent les exploiter pour réaliser de <strong>nombreuses fonctions </strong>:</p>
<ul>
<li><strong>Extension sémantique </strong>: il s’agit d’élargir la recherche par mot clé de l’utilisateur en élargissant la recherche à des termes plus spécifiques ou a des synonymes. A la recherche « voiture », il est de bon ton de remonter des documents parlant également de « cabriolet » et d’ « automobiles ». Cette fonctionnalité est essentielle quand il s’agit de faire correspondre du vocabulaire technique avec celui des utilisateurs plus grand public.</li>
<li><strong>Auto complétion </strong>: les suggestions de recherche proposées à l’utilisateur alors qu’il saisit les premiers caractères peuvent pour partie provenir des référentiels, ce qui a pour effet d’améliorer considérablement la qualité de sa requête.</li>
<li><strong>Suggestions de recherches connexes</strong> : ces expressions affichées en marge des réponses afin de proposer à l’utilisateur des recherches similaires sont habituellement générées par analyse des contenus et des requêtes des utilisateurs. Ces suggestions peuvent être avantageusement contrôlées sur la base de la terminologie de référentiel métier afin d’en accentuer l’intérêt et le centrage sur le corpus.</li>
<li><strong>Catégorisation </strong>: afin d’assurer une continuité entre l’univers informationnel de l’entreprise (la façon dont les données sont rangées dans le SI) et le moteur de recherche, ce dernier doit catégoriser les données de façon similaire et donc exploiter les plans de classement existants.</li>
<li><strong>Recherche à facettes </strong>: les filtres actifs présentés à l’utilisateur en marge des réponses afin qu’il affine sa recherche par clics sont la plupart du temps issus de référentiels (listes d’autorité, plans de classement) qui doivent être familiers à l’utilisateur pour rendre évident le sens du filtre.</li>
<li><strong>Annotation automatique </strong>: il s’agit là d’analyser automatiquement les données afin de les caractériser par des mots significatifs. Cette opération « autrefois » réalisée manuellement (indexation manuelle pour créer les fiches bibliographiques) peut être largement automatisée sur la base de l’analyse du texte intégral. Cette fonction permet par exemple de générer le « nuage de mots » significatif d’un document ou d’un ensemble de documents.</li>
</ul>
<p><strong>Bonnes pratiques</strong></p>
<p>Comme on le voit, loin d’être détrônés par l’annotation libre, les référentiels apportent aux moteurs des données essentielles que la <a title="Folksonomie" href="http://fr.wikipedia.org/wiki/Folksonomie" target="_blank">folksonomie</a> ne saurait fournir, et il faut donc voir ces approches « Web 1.0 » et « Web 2.0 » comme complémentaires.</p>
<p>Il est cependant nécessaire que les référentiels évoluent afin de s’adapter à l’usage qu’en fait l’informatique. En particulier les référentiels terminologiques qui ne doivent plus être pensés pour l’indexation manuelle, mais comme matière première des moteurs et autres outils de traitement de l’information.</p>
<p>Quant aux <strong>bonnes pratiques</strong>, nous n’en préconiserons que 6 :</p>
<ol>
<li>Evitez les gros référentiels généralistes fourre tout. Ils sont générateurs de trop de bruit.</li>
<li>Préférez les petits référentiels métiers centrés sur des thématiques et des usages spécifiques. Ils n’en seront que plus faciles à maintenir.</li>
<li>Réutilisez au maximum des référentiels terminologiques existants, publiés par les organismes de normalisation ou les groupements professionnels.</li>
<li>Enrichissez-les avec votre vocabulaire maison spécifique que vous maintiendrez séparément dans un esprit « Small is beautiful ».</li>
<li>N’oubliez pas que votre système d’information regorge de référentiels. Identifiez les.</li>
<li>Et enfin, n’oubliez pas vos utilisateurs : construisez des petits plans de classements adaptés à leurs usages, et s&#8217;il y a plusieurs besoins, pas de problème, construisez plusieurs taxonomies. Cette multiplicité ne fait pas peur aux moteurs, et vos utilisateurs vous remercieront.</li>
</ol>
]]></content:encoded>
			<wfw:commentRss>http://blog.antidot.net/2010/03/25/reinventer-les-referentiels/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
	</channel>
</rss>

