Archives par étiquette : ontologie

ISIDORE, un grand et beau projet dont nous sommes très fiers

Lundi 4 avril étalt le jour de la saint Isidore, le patron des informaticiens et internautes. C’est le jour qu’avait judicieusement choisi les hautes autorité du CNRS pour lancer officiellement ISIDORE, le nouveau portail des sciences humaines et sociales, un projet piloté par le  TGE Adonis et réalisé réalisé par le CCSd. C’est un projet auquel Antidot a contribué, en apportant ses solutions logicielles Antidot Finder Suite et Antidot Information Factory, aux côtés de ses partenaires Sword et Mondeca.

ISIDORE est un projet qui a mobilisé beaucoup d’énergies chez Antidot durant des mois, et qui, comme c’est le cas dans tout grand projet informatique, nous a parfois fait souffrir. Pour autant, nous sommes fiers d’y avoir participé, et cela pour 2 raisons :

ISIDORE est utile à la société

En mettant à disposition du public plus d’un million de publications de la recherche française en sciences humaines et sociales, ISIDORE diffuse de la connaissance. Des savoirs jusqu’alors réservés aux seuls chercheurs sont désormais disponibles, à portée de clic, pour les étudiants et pour toute personne qui s’intéresse à la philosophie, l’histoire, la démographie, la psychologie… Bien entendu, nos technologies sont toujours utiles : Antidot Finder Suite rend service aux consommateurs quand il leur permet de trouver plus facilement les produits répondant à leurs attentes sur les sites web de très nombreux marchands en ligne (*).

AFS est utile quand il permet de trouver de l’information sur les sites de grands médias comme TF1, Radio France ou Le Point, ou de grands services publics comme Service-Public.fr, la Sécurité Sociale, l’Assurance Maladie, les Agences Régionales de Santé, l’INSERM, l’AFPA, l’APCE ou encore l’Autorité de Sûreté Nucléaire… et maintenant ISIDORE !

Car ce qui nous motive tous dans le projet d’entreprise d’Antidot, c’est la mission que nous nous sommes assignée il y a bientôt 12 ans : « conçevoir des solutions d’accès à l’information permettant aux organisations et aux hommes de comprendre, de décider et d’agir ».

ISIDORE a fait progresser Antidot, dont il concrétise la vision

Pour réaliser cet ambitieux projet, nos avons proposé au CNRS de mettre en œuvre les technologies du web des données, sur lesquelles nous travaillons depuis de nombreuses années et qui ont été intégrées au cœur de la version 7 d’Antidot Finder Suite et aussi de notre nouvelle solution Antidot Information Factory qui a été dévoilée il y a 2 semaines au salon Documation.

Ces technologies constituent en effet le moyen le plus efficace pour collecter les contenus de 850 sources représentant plus d’un million de publications, pour nettoyer et normaliser toutes les données, les enrichir (classification automatique, annotation à la volée), et les aligner sur des référentiels partagés par la communauté scientifique. Plus de 30 traitements distincts sont réalisés par Antidot Information Factory sur chaque document collecté afin d’homogénéiser et valoriser l’information contenue.

Les données enrichies sont rendues accessibles via AFS v7, le moteur de recherche sémantique d’Antidot, et sont exposées via un point accès SPARQL dans un souci d’ouverture des données publiques (Open Data), selon les règles du Web de données (Linked Data). Concrètement ISIDORE est aujourd’hui le plus grand projet Linked Data / Open Data mené à bien en France.

Au-delà d’ISIDORE

Antidot apporte une vraie réponse industrielle à une problématique qui se pose désormais à toutes les organisations :

« Comment mieux mailler et articuler les données issues de différents entrepôts pour produire une information contextualisée et donc vraiment pertinente ? »

Avec Antidot Information Factory, conjuguée à notre moteur de recherche Antidot Finder Suite, nos clients peuvent créer un « hub de valorisation et d’accès à l’information » au service de leurs utilisateurs, pour permettre de nouveaux usages qui vont bien au-delà de ce que permettent les approches traditionnelles que sont la « recherche fédérée » ou  les « search based applications » dont les limites sont maintenant bien connues.

Nous remercions les équipes du CNRS – TGE Adonis et CCSd d’avoir choisi nos solutions pour bâtir ISIDORE à qui nous souhaitons une très longue vie !

Pour aller plus loin :

A lire aussi, ces 2 documents complets :

(*) 3 Suisses Benelux, 3 Suisses Culture, Bricorama, Camaïeu, Château Online, Cultura, Damart, Discounteo, Feu Vert, Galeries Lafayette, IKKS, Internity, King Jouet, Made in Design, Made in Sport, La Maison de Valérie, Mathon, MotoBlouz, NM Médical, Oreca, Pecheur.com, Petit Bateau, Pimkie, Privilège Discount, Sexy Avenue, Wanimo… utilisent AFS@Store, la déclinaison e-commerce du moteur de recherche AFS, directement dans des logiciels spécifiques, dans des plateformes OpenSource comme Magento ou OS Commerce ou dans les solutions e-commerce de Compario, Digitas ou DotSoft.

Du référentiel à l’ontologie

Lors d’un précédent billet nous avons examiné les différents types de référentiels et la façon dont ils étaient exploités par les moteurs de recherche. Dans la continuité de notre tour d’horizon, nous allons maintenant aborder le lien entre référentiels et ontologies.

Comme nous l’avons vu, les référentiels servent à organiser du vocabulaire, c’est-à-dire des mots qui représentent eux-mêmes des personnes, des objets, des choses …
Et c’est là que le bât blesse : les concepts décrits par ces mots sont sous entendus. Ce que décrivent les mots n’est pas  explicité et c’est au lecteur de le déduire.

Exemple :
Si je vous dis « De Gaulle, Mitterrand, Chirac, Sarkozy » … vous répondez Président de la République.
Si je  dis « Cresson, Fillon, Villepin, Jospin » … vous répondez Premier Ministre.
Et pour « Laguiller, Bayrou, Accoyer, Strauss-Kahn », vous pensez personne-politique.

Dans un beau référentiel de type « taxonomie », ou système de classement, nous aurions pu ranger tout ça de la façon suivante :

Personnages politiques
+ Président
|   De Gaulle
|   Mitterrand
|   …
+ Premier ministre
|   Jospin
|   Fillon
|   …
+ Autre
|   Accoyer
|   Strauss Kahn
|   …

Cette taxonomie semble efficace et permet de ranger, classer et organiser les hommes politiques français. Mais si on regarde bien, cette solution a des limites.
La hiérarchie semble décrire une spécialisation, allant du plus générique au plus spécifique :
• Président est une sorte de d’Homme Politique,
• Premier Ministre est une sorte d’Homme Politique.

Mais De Gaulle est une sorte de Président, ça ne va pas. Car « De Gaulle est un Président » et non pas « une sorte de ». On dirait en employant un vocabulaire plus technique et informatique que « Président est une sous classe d’Homme Politique » alors que « De Gaulle est une instance de Président ». Et ça n’est pas pareil. On constate donc que notre taxonomie mélange en fait les niveaux logiques : elle mixe les concepts et les objets.

On a également des cas plus complexes : Chirac fut Premier Ministre et Président. Faut-il dupliquer l’entrée et le mettre dans les deux branches de la taxonomie ? Mais comment être sûr qu’il s’agit de la même personne ?

Et bien une ontologie ça sert à résoudre tous ces petits problèmes en permettant de modéliser les types d’objets et la façon dont ils interagissent.
On peut ainsi définir une classe « Homme Politique« , puis des classes « Président » et « Premier Ministre » comme sous classes de « Homme Politique« . On peut aussi préciser des règles qui décrivent des interactions entre les classes. Exemple : « un Premier Ministre est nommé par le Président« .

Voilà, une ontologie, ça sert à ça : à décrire des aspects du monde (la politique, les médicaments, les voitures, …) en modélisant les choses qui constituent le monde. Tout cela permet aux machines de manipuler ces concepts et de faire des opérations très poussées. On parle alors de raisonnement. Ainsi supposons que nous soumettions à une machine la phrase « Nicolas Sarkozy vient de nommer François Fillon au poste de premier Ministre« , celle-ci serait capable de déduire automatiquement que Nicolas Sarkozy est Président et François Fillon Premier Ministre. Elle pourrait également en déduire que ces deux personnalités sont des Hommes Politiques.

Et les référentiels dans tout ça ? Et bien nos référentiels contiennent des mots qui permettent de nommer les concepts et les objets eux-mêmes. Les mots permettent de faire le lien entre l’homme et la machine. Les mots sont des étiquettes posées sur les objets pour les identifier. Et lorsqu’une ontologie contient tout le vocabulaire nécessaire à ce qu’elle décrit et manipule , on parle de référentiel onto-terminologique.

Dans un prochain billet, nous verrons comment ces ontologies peuvent être exploitées par les moteurs de recherche.

Note pour les puristes : oui la modélisation indiquée ici est simpliste. Il faudrait séparer la modélisation des personnes et de leur fonction, et introduire les modes d’accès à la fonction et la dimension temporelle.