Le sens de la sémantique

Une très grande confusion règne autour du mot « sémantique » qui est utilisé à toutes les sauces dès qu’il s’agit de moteurs de recherche, et force est de constater que les discours marketing des acteurs ne vont pas dans le sens de la clarté.

Tout d’abord, il y a l’indexation sémantique : celle qui consiste, lors de l’analyse d’un document, à rattacher chaque mot à un concept sous-jacent. Ainsi, par exemple, pour le mot jaguar, il faut déterminer s’il s’agit du félin, de la voiture ou de l’avion. Et ça, c’est compliqué. Tout d’abord, il faut une “liste” de concepts cibles (le sens du truc qui est derrière le mot) pour pouvoir transformer le mot en concept. Il faut donc avoir modélisé tous les concepts… Autant dire que c’est peine perdue : cela sous entendrait que tout le monde pense de la même façon et se représente le monde à l’identique. Ensuite, il ne faut pas se tromper lors de l’analyse : faux amis, ambiguïté… Et d’ailleurs, tout ça est tellement compliqué que ça n’a jamais marché. C’est sans doute une des grandes errances et un Graal illusoire des moteurs de recherche des années 80-90. Les grands acteurs de ce domaine se sont dès lors fixé des objectifs plus modestes, mais dont les résultats sont plus probants : extraction d’entités nommées, data mining, etc. read more