Le groupe ILES se consacre au traitement des données langagières écrites (à leur analyse, leur compréhension ou leur production ainsi qu’à l’acquisition des connaissances nécessaires pour y arriver) et signées (modélisation et traitement automatique des langues des signes).
L’ambition est de maintenir des compétences variées et complémentaires pour combiner à la fois approches symboliques et statistiques, ainsi que des aspects fondamentaux et plus appliqués.
Les activités de recherche du groupe ILES s’organisent autour de quatre thèmes :
Le thème Corpus et représentations concerne l’étude des événements linguistiques tels qu’ils se manifestent dans les systèmes de représentation graphiques et signés utilisés par les humains pour communiquer. Dans nos travaux de recherche, nous explorons des corpus, c’est-à-dire des collections de documents, créés selon une hypothèse de travail, ayant des origines diverses : transcription de parole, livres, articles, journaux, rapports, pages web, blogs, microblogs, vidéos de langue des signes etc.
Ce thème de recherche se consacre à l’analyse de productions langagières de même sens mais de formes différentes, problématique au cœur de la sémantique. Cette question s’étend au multilinguisme, question récurrente lors du développement d’un système. Ce thème interagit de façon transverse avec chacun des trois autres thèmes du groupe ILES, ainsi qu’avec l’activité de traduction du groupe TLP.
Deux axes principaux dans ce thème.
Le premier est centré sur la reconnaissance d’informations précises dans des textes, avec deux principaux champs d’étude :
Un second axe concerne la modélisation des processus permettant une interaction en langue naturelle pour interroger la machine, que ce soit pour la recherche d’information, dans un domaine particulier (par exemple sur un site marchand, dans des textes scientifiques) ou en domaine ouvert (recherche dans une base de connaissances ou dans des textes encyclopédiques), et aussi en tant qu’assistant personnel.
Les Langues des Signes (LS) sont des langues naturelles visuo-gestuelles dont système linguistique exploite ces canaux spécifiques : de nombreuses informations sont exprimées simultanément et s’organisent dans l’espace, et l’iconicité joue un rôle central. À ce jour, les LS n’ont pas de système d’écriture ni de système graphique standard pour la transcription. Elles sont encore peu décrites et peu dotées. La modélisation informatique des LS nécessite de concevoir des représentations adaptées. Nous produisons des ressources linguistiques et nous abordons des problématiques d’analyse, de représentation et de traitement de la LSF de manière interdisciplinaire, avec des points de vue de plusieurs domaines de l’informatique (TAL, traitement du signal, vision par ordinateur, informatique graphique), ainsi que des sciences du langage, du mouvement et de la perception.