Le groupe ILES se consacre au traitement des données langagières écrites (à leur analyse, leur compréhension ou leur production ainsi qu’à l’acquisition des connaissances nécessaires pour y arriver) et signées (modélisation et traitement automatique des langues des signes).
L’ambition est de maintenir des compétences variées et complémentaires pour combiner à la fois approches symboliques et statistiques, ainsi que des aspects fondamentaux et plus appliqués.
Les activités de recherche du groupe ILES s’organisent autour de quatre thèmes
Le thème Corpus et représentations concerne l’étude des événements linguistiques tels qu’ils se manifestent dans les systèmes de représentation graphiques et signés utilisés par les humains pour communiquer. Dans nos travaux de recherche, nous explorons des corpus, c’est-à-dire des collections de documents, créés selon une hypothèse de travail, ayant des origines diverses : transcription de parole, livres, articles, journaux, rapports, pages web, blogs, microblogs, vidéos de langue des signes etc.
Ce thème de recherche se consacre à l’analyse de productions langagières de même sens mais de formes différentes, problématique au cœur de la sémantique. Cette question s’étend au multilinguisme, question récurrente lors du développement d’un système. Ce thème interagit de façon transverse avec chacun des trois autres thèmes du groupe ILES, ainsi qu’avec l’activité de traduction du groupe TLP.
Le premier est centré sur la reconnaissance d’informations précises dans des textes, avec deux principaux champs d’étude :
Extraction d’information : reconnaissance et typage d’informations pour construire des bases de connaissances ou analyser des textes
Recherche d’information précise : retrouver des informations dans des textes ou des bases de connaissances en réponse à des questions en langue naturelle
Un second axe concerne la modélisation des processus permettant une interaction en langue naturelle pour interroger la machine, que ce soit pour la recherche d’information, dans un domaine particulier (par exemple sur un site marchand, dans des textes scientifiques) ou en domaine ouvert (recherche dans une base de connaissances ou dans des textes encyclopédiques), et aussi en tant qu’assistant personnel.
À travers de nombreuses collaborations, nous produisons des ressources linguistiques et nous abordons des problématiques d’analyse, de représentation et de traitement de la LSF de manière interdisciplinaire, avec des points de vue de plusieurs domaines de l’informatique (TALTraitement Automatique des langues, traitement du signal, vision par ordinateur, informatique graphique), ainsi que des sciences du langage, du mouvement et de la perception.
Gustave Cortal, Alain Finkel, Patrick Paroubek, Lina Ye. Emotion Recognition based on Psychological Components in Guided Narratives for Emotion Regulation. Association for Computational Linguistics, May 2023, Dubrovnik, Croatia. pp.72-81. ⟨hal-04094814⟩
Sylvain Kahane, Anne Lacheret-Dujour. Syntax and prosody mapping: What and how ?: The case of intonational periods and illocutionary units. Rhapsodie, 89, John Benjamins Publishing Company, pp.339-363, 2019, Studies in Corpus Linguistics, 9789027262929. ⟨10.1075/scl.89.19kah⟩. ⟨hal-04088654⟩
Camille Challant, Michael Filhol. De l’informatique à la linguistique : une grammaire pour les langues des signes basée sur AZee. Langue des signes, grammaire et iconicité – Grammaire des langues des signes, grammaire des langues vocales : complémentarité ou opposition ?, Dec 2022, Bordeaux, France. ⟨hal-04067608⟩
Emmanuella Martinod. Apports d’une approche pluridisciplinaire pour la description de langues des signes micro-communautaires. Multidimensionnalité, transdisciplinarité : à la croisée des approches en Sciences du langage, École Doctorale 268 « Langage et langues »; Université Sorbonne Nouvelle, Jun 2020, PARIS, France. ⟨hal-04006826⟩
Atilla Kaan Alkan, Cyril Grouin, Fabian Schüssler, Pierre Zweigenbaum. TDAC, the First Time-Domain Astrophysics Corpus: Analysis and First Experiments on Named Entity Recognition. Workshop on Information Extraction from Scientific Publications, Nov 2022, Taipei (Online), Taiwan. ⟨hal-04046837⟩
Hicham El Boukkouri, Olivier Ferret, Thomas Lavergne, Pierre Zweigenbaum. Specializing Static and Contextual Embeddings in the Medical Domain Using Knowledge Graphs: Let’s Keep It Simple. International Workshop on Health Text Mining and Information Analysis (LOUHI), Dec 2022, Abu Dhabi (online), United Arab Emirates. ⟨hal-04046746⟩
Clémence Sebe, Aurélie Névéol, Sarah Cohen-Boulakia, Alban Gaignard. Extraction d’informations sur les workflows scientifiques à partir de la littérature. 23ème conférence francophone sur l’Extraction et la Gestion des Connaissances (EGC), Jan 2023, Lyon, France. pp.313-320. ⟨hal-03991363⟩
Nesrine Bannour, Aurélie Névéol, Xavier Tannier, Bastien Rance. Traitement Automatique de la Langue et Intégration de Données pour les Réunions de Concertations Pluridisciplinaires en Oncologie. TALTraitement Automatique des langues & IA 2021, AfIA; ATALA, Feb 2021, Virtuel – Online, France. ⟨hal-04013495⟩
Nesrine Bannour, Perceval Wajsbürt, Bastien Rance, Xavier Tannier, Aurélie Névéol. Modèles préservant la confidentialité des données par mimétisme pour la reconnaissance d’entités nommées en français. Journée d’étude sur la robustesse des systemes de TALTraitement Automatique des langues, ATALA, Nov 2022, Paris, France. ⟨hal-04013420⟩