<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Blog Antidot &#187; modèles</title>
	<atom:link href="http://blog.antidot.net/tag/modeles/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.antidot.net</link>
	<description></description>
	<lastBuildDate>Thu, 02 Feb 2012 15:22:07 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>Des lettres et des chiffres</title>
		<link>http://blog.antidot.net/2010/02/10/latent-dirichlet-allocation/</link>
		<comments>http://blog.antidot.net/2010/02/10/latent-dirichlet-allocation/#comments</comments>
		<pubDate>Wed, 10 Feb 2010 16:28:30 +0000</pubDate>
		<dc:creator>Jérôme Mainka</dc:creator>
				<category><![CDATA[Technologie]]></category>
		<category><![CDATA[bayes]]></category>
		<category><![CDATA[catégorisation]]></category>
		<category><![CDATA[Latent Dirichlet]]></category>
		<category><![CDATA[LDA]]></category>
		<category><![CDATA[modèles]]></category>
		<category><![CDATA[moteur de recherche]]></category>
		<category><![CDATA[probabilités]]></category>
		<category><![CDATA[recherche d'information]]></category>
		<category><![CDATA[sémantique]]></category>

		<guid isPermaLink="false">http://blog.antidot.net/?p=37</guid>
		<description><![CDATA[L’analyse formelle en bout de course « Au commencement était le Verbe… et le Verbe s’est fait chair. » Puis les hommes se sont mis à assembler des mots entre eux pour s’exprimer. Le langage, cette fonction qui nous semble tellement élémentaire, a été l’un des premiers grands chantiers de l’Intelligence Artificielle. En effet, dès la fin [...]]]></description>
			<content:encoded><![CDATA[<p><strong>L’analyse formelle en bout de course</strong></p>
<p>« Au commencement était le Verbe… et le Verbe s’est fait chair. » Puis les hommes se sont mis à assembler des mots entre eux pour s’exprimer. Le langage, cette fonction qui nous semble tellement élémentaire, a été l’un des premiers grands chantiers de l’Intelligence Artificielle. En effet, dès la fin des années cinquante, l’<a title="IBM - Expérience de Georgetown" href="http://en.wikipedia.org/wiki/Georgetown-IBM_experiment" target="_blank">expérience de Georgetown</a>, menée notamment par IBM, a suscité un espoir démesuré : « within three or five years, machine translation would be a solved problem ». Cet espoir fut à la hauteur de la désillusion provoquée par les faibles résultats constatés.</p>
<p>Cinquante ans plus tard, où en sommes-nous ? La description formelle des langues pour leur utilisation dans des systèmes automatisés a montré ses limites. L’utilisation exclusive de grammaires formelles est incapable de saisir la complexité d’une langue. La principale difficulté réside en un seul mot : ambiguïté. Les rustines techniques ne manquent pas pour tenter de contourner le problème et les années soixante-dix et quatre-vingt ont été particulièrement riches dans la mise en place de systèmes de règles sémantiques, supposées permettre une plus grande précision dans l’analyse de la langue. Ces systèmes n’ont pourtant apporté que des améliorations marginales dans le traitement automatisé de la langue.</p>
<p><strong>L’arme fatale</strong></p>
<p>En fait, la « <a title="Silver Bullet" href="http://en.wikipedia.org/wiki/Silver_bullet#Idiomatic_usage" target="_blank">balle d’argent</a> » semble avoir été tirée par un curieux fusil que le monde de l’informatique et de l’IA semblait avoir négligé : la <a title="Probabilité" href="http://fr.wikipedia.org/wiki/Probabilit%C3%A9" target="_blank">probabilité</a>. Avec l’introduction de modèles de langue probabilistes, Google, pour sa première participation en 2008, a classé son système de traduction automatique à la première place de toutes les tâches de la campagne <a title="NIST 2008" href="http://www.itl.nist.gov/iad/mig/tests/mt/2008/doc/mt08_official_results_v0.html" target="_blank">Open Machine Translation</a> du <a title="NIST" href="http://www.nist.gov" target="_blank">NIST</a> (arabe vers anglais, chinois vers anglais, ourdou vers anglais, anglais vers chinois).</p>
<p>En à peine vingt ans, les techniques probabilistes ont propulsé les capacités des systèmes de traduction automatiques à des hauteurs que quarante ans de systèmes formels n’avaient fait qu’entrevoir.</p>
<p><strong>Le LDA pour les nuls</strong></p>
<p>Ces résultats ont encouragé les chercheurs à appliquer le paradigme probabiliste à d’autres tâches au sein du traitement automatique du langage. Et l’un des concepts les plus prometteurs dans ce domaine est le <a title="Latent Dirichlet Allocation" href="http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation" target="_blank">LDA</a>, ou <em>Latent <a title="Dirichlet" href="http://fr.wikipedia.org/wiki/Dirichlet" target="_blank">Dirichlet</a> Allocation</em>. Nous nous plaçons cette fois-ci dans le cadre d’un grand nombre de documents, ce qu’on appelle un <a title="Corpus" href="http://fr.wikipedia.org/wiki/Corpus" target="_blank"><em>corpus</em></a>. Chaque document est vu comme un <em>sac de mots</em>. Le paragraphe précédent peut par exemple être vu comme un document dans lequel le mot « automatiques » apparaît 1 fois, et le mot « systèmes », 2 fois. On voit qu’il est assez trivial de considérer un document comme une distribution de probabilité sur l’ensemble des mots. Si j’ai le document « a b a c », je peux considérer ce document comme une distribution des mots « a », « b », « c »  et « d » avec les probabilités 2/4, 1/4,  1/4 et 0.</p>
<p>L’idée de LDA est qu’au lieu de considérer un document comme une distribution sur des mots, on le considère comme une distribution de probabilité sur des <em>topics</em> (sujets), eux-mêmes vus comme des distributions sur les mots. Je ne rentrerai pas dans les détails du modèle et je me contenterai de l’illustrer sur un cas concret.</p>
<p><strong>Un exemple de LDA</strong></p>
<p>J’ai effectué un LDA sur la presse quotidienne nationale sur la période du 18 au 23 janvier 2010, à partir de l’excellent site <a title="Pikanews" href="http://www.pikanews.com" target="_blank">Pikanews</a>. Le résultat de l’algorithme du LDA appliqué à ce corpus génère un ensemble de topics, caractérisés eux-mêmes par des mots. Voici un extrait de ces topics générés :</p>
<table border="1" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td width="76" valign="top">
<p align="center"><strong>Topic 92</strong></p>
</td>
<td width="69" valign="top">
<p align="center"><strong>Topic 103</strong></p>
</td>
<td width="80" valign="top">
<p align="center"><strong>Topic 68</strong></p>
</td>
<td width="92" valign="top">
<p align="center"><strong><em>Topic 48</em></strong></p>
</td>
<td width="109" valign="top">
<p align="center"><strong><em>Topic 90</em></strong></p>
</td>
</tr>
<tr>
<td width="76" valign="top">Renault</p>
<p>Flins</p>
<p>Clio</p>
<p>Carlos Ghosn</p>
<p>Usine</p>
<p>Turquie</p>
<p>Bursa</p>
<p>Production</p>
<p>Automobile</td>
<td width="69" valign="top">Numérique</p>
<p>Apple</p>
<p>Google</p>
<p>Mobile</p>
<p>Microsoft</p>
<p>Opérateurs</p>
<p>Taxe</p>
<p>Iphone</p>
<p>ARCEP</td>
<td width="80" valign="top">Haïti</p>
<p>Port au Prince</p>
<p>Séisme</p>
<p>Haïtiens</p>
<p>ONU</p>
<p>Humanitaire</p>
<p>Blessés</p>
<p>Secours</p>
<p>Morts</td>
<td width="92" valign="top"><em>Barack Obama</em></p>
<p><em>Démocrates</em></p>
<p><em>Massachusetts</em></p>
<p><strong><em>Sénat</em></strong></p>
<p><em>Scott Brown</em></p>
<p><em>Républicains</em></p>
<p><em>Maison blanche</em></p>
<p><em>Ted Kennedy</em></p>
<p><em>Congrès</em></td>
<td width="109" valign="top"><em>Scrutin</em></p>
<p><em>Réforme</em></p>
<p><em>Collectivités</em></p>
<p><em>Conseiller territorial</em></p>
<p><em>Élus</em></p>
<p><strong><em>Sénat</em></strong></p>
<p><em>Départements</em></p>
<p><em>Collectivités locales</em></td>
</tr>
</tbody>
</table>
<p>On constate par exemple que le mot « Sénat » se retrouve dans deux topics différents.</p>
<p>Dans l’extrait suivant, le mot « sénat » apparaît dans le contexte de l’élection du Massachusetts :</p>
<p><em>La détermination de l&#8217;administration Obama à brider Wall Street risque toutefois de butter contre une nouvelle réalité politique : comme pour le projet d&#8217;une taxe spéciale sur les banques, ces mesures doivent être approuvées par le Congrès. Et le revers électoral subi par les démocrates, mardi, dans l&#8217;Etat du Massachusetts leur a fait perdre la majorité qualifiée au <strong>Sénat</strong>. Une majorité pourtant indispensable afin de faire adopter leurs projets sans risquer une obstruction républicaine.</em></p>
<p>Alors que dans l’extrait suivant le mot « Sénat » est raccroché au projet de réforme des collectivités territoriales :</p>
<p><em>Après avoir sillonné les fédérations UMP pendant des semaines pour promouvoir la réforme territoriale, Dominique Perben ne cache pas sa déception : le texte que les sénateurs ont commencé à examiner hier, en séance plénière, est, selon lui, bien en deçà des ambitions du projet gouvernemental. Invité du « Talk Orange-Le Figaro », il a regretté en particulier que « le texte du <strong>Sénat</strong> soit très en retrait sur les métropoles ».</em></p>
<p>L’analyse effectuée par le LDA, sans aucune intervention humaine, sans aucune modélisation <em>a priori</em> ni connaissance linguistique autre que l’isolation de <a title="token" href="http://en.wikipedia.org/wiki/Lexical_analysis#Token" target="_blank"><em>tokens</em></a> (mots) à l’intérieur d’un texte, est remarquable. Le LDA identifie automatiquement l’usage du mot « Sénat » dans différents contextes. On voit l’intérêt que l’on pourrait retirer d’une telle analyse dans le cadre, par exemple, de la désambigüisation de termes ou de fonctions.</p>
<p>Le LDA sert d’ailleurs déjà de socle à différents traitements classiques dans le traitement automatique du langage : clusterisation, catégorisation automatique, annotation morpho-syntaxique, etc. Les études publiées depuis environ cinq ans à ce sujet montrent que le gain apporté par la démarche est souvent très significatif. Assistera-t-on à la même explosion des performances de ces outils que celle dont a bénéficié la traduction automatique ?</p>
<p>En tout cas, chez <a title="Antidot" href="http://www.antidot.net/" target="_blank">Antidot</a>, nous y croyons. Nous travaillons sur le sujet depuis un moment déjà,  et la prochaine version d’AFS &#8211; la v7 qui sortira en avril 2010 &#8211; inclut les premiers résultats de nos recherches. Si vous voulez en savoir plus, venez nous rendre visite sur le salon <a title="Antidot à Documation" href="http://www.documation.fr/site/FR/Zoom_Exposant,C1578,I1129,Zoom-77e2cfec5bf071610936eae865290d64,FromOut-ListGlob.htm?KM_Session=911914ecd54478c85221a66a2846cbe6" target="_blank">Documation</a>. Croyez-moi, c’est bluffant !</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.antidot.net/2010/02/10/latent-dirichlet-allocation/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
	</channel>
</rss>

