Budget : 180000 €
ANR
UMR LS2N, Nantes
UPR LIMSI, Orsay
CEA LIST, Palaiseau
Pierre Zweigenbaum
La disponibilité de grandes masses de textes sous forme informatique rend possible aujourd'hui la mise en œuvre de méthodes qui construisent des représentations du sens des mots par exploration automatique exhaustive de leur usage dans ces textes. Ces représentations sont au cœur de nombreuses applications de traitement automatique des langues, de l'extraction d'information à la traduction automatique en passant par la recherche de réponses à des questions. Cependant, dans les domaines spécialisés, deux facteurs rendent ces méthodes plus difficilement applicables. D'une part, les corpus spécialisés à un domaine sont nécessairement de taille moins grande que les corpus non restreints à un domaine, alors que la taille ces corpus employés est un facteur clé dans la qualité des représentations construites. D'autre part, les termes complexes (formés de plusieurs mots) ont une importance particulière dans les domaines spécialisés, alors que les méthodes standard sont conçues pour traiter des termes simples (formés d'un mot).Le projet ADDICTE vise à surmonter ces difficultés en donnant une meilleure représentation des termes complexes, en enrichissant l'analyse des textes d'un domaine par des ressources additionnelles (terminologies du domaine et textes hors domaine), et en mettant au point des représentations qui peuvent tirer parti de ces informations supplémentaires.