Le département Sciences et Technologies des Langues étudie des questions fondamentales relatives aux systèmes linguistiques par l’exploitation de larges corpus collectés, annoté et enrichis de manière non-supervisée ou semi-supervisée par des modèles d’apprentissage statistique adaptés au matériau linguistique.
Ces modèles permettent d’étudier le fonctionnement des langues, leurs variations (phonétiques-phonologiques, morphologiques-lexicales, syntaxiques et sémantiques) synchroniques et diachroniques, diaphasiques et diatopiques ainsi que de soulever des questions relatives à leur acquisition en tant que langues maternelles ou secondes. Enfin, le département développe les grandes applications du traitement des langues :reconnaissance vocale, traduction automatique, recherche d’information, agents conversationnels,. . . qui portent des enjeux sociétaux (sauvegarde des langues en danger, outillage de personnes en situation de handicap, aide au traitement de l’information et de la connaissance médicale) et éthiques de plus en plus importants.
Cette approche de la Langue et des langues couvre ainsi un large spectre, des recherches les plus fondamentales aux plus appliquées, dans une grande variété de médias (journaux, médias sociaux, vidéo, téléphone, . . .) et toutes les modalités (écrit, parole et signe).
Ces recherches sont fortement pluridisciplinaires et rassemblent des communautés diverses relevant de l’informatique, des sciences de l’ingénieur et des sciences humaines et sociales, qui se retrouvent autour de l’étude de la langue par l’exploitation de corpus et la culture de l’évaluation quantitative, deux marqueurs forts de leur activité de recherche
Clémence Sebe, Aurélie Névéol, Sarah Cohen-Boulakia, Alban Gaignard. Extraction d'informations sur les workflows scientifiques à partir de la littérature. 23ème conférence francophone sur l'Extraction et la Gestion des Connaissances (EGC), Jan 2023, Lyon, France. pp.313-320. ⟨hal-03991363⟩
Rachel Bawden, François Yvon. Investigating the Translation Performance of a Large Multilingual Language Model: the Case of BLOOM. 2023. ⟨hal-04015863⟩
Nesrine Bannour, Aurélie Névéol, Xavier Tannier, Bastien Rance. Traitement Automatique de la Langue et Intégration de Données pour les Réunions de Concertations Pluridisciplinaires en Oncologie. TAL & IA 2021, AfIA; ATALA, Feb 2021, Virtuel – Online, France. ⟨hal-04013495⟩
Nesrine Bannour, Perceval Wajsbürt, Bastien Rance, Xavier Tannier, Aurélie Névéol. Modèles préservant la confidentialité des données par mimétisme pour la reconnaissance d’entités nommées en français. Journée d’étude sur la robustesse des systemes de TAL, ATALA, Nov 2022, Paris, France. ⟨hal-04013420⟩
Marine Boeuf, Florelle Bellet, Pierre Karapetiantz, Damien Leprovost, François Morlane-Hondère, et al.. A pilot study of the Vigi4MED project: comparison of adverse drug reactions (ADRs) of duloxetine between patients' forum posts and the French pharmacovigilance database (FPVD). Congrès annuel de la Société Française de Pharmacologie et de Thérapeutique, Apr 2017, Rouen, France. Fundamental & Clinical Pharmacology, 31, pp.33, 2017. ⟨hal-04009735⟩
Emmanuella Martinod. Originalité de la langue des signes micro-communautaire de l’île du Marajó (Brésil) par rapport à la langue des signes institutionnelle brésilienne (Libras).. Revista Científica Sigma , 2022, Dossiê – Línguas de Sinais: acessibilidade, emergência e práticas pedagógicas inclusivas, 3 (2), pp.27-46. ⟨hal-03951325⟩
Takaaki Shochi, Albert Rilliard, Donna Erickson. Chapter 8. Perceptual changes between adults and children for multimodal im/politeness in Japanese. Andreas H. Jucker; Iris Hübscher; Lucien Brown. Multimodal Im/politeness: Signed, spoken, written, 333, John Benjamins Publishing Company, pp.213-249, 2023, Pragmatics & Beyond New Series, ⟨10.1075/pbns.333.08sho⟩. ⟨hal-04003226⟩
Mathilde Veron. Systèmes de dialogue apprenant tout au long de leur vie : de l'élaboration à l'évaluation. Informatique et langage [cs.CL]. Université Paris-Saclay, 2022. Français. ⟨NNT : 2022UPASG089⟩. ⟨tel-04000738⟩
Bernard Caron, Marine Courtin, Kim Gerdes, Sylvain Kahane. A Surface-Syntactic UD Treebank for Naija. Marie Candito; Kilian Evang; Stephan Oepen; Djamé Seddah. Proceedings of the 18th International Workshop on Treebanks and Linguistic Theories (TLT, SyntaxFest 2019), Association for Computational Linguistics, pp.13-24, 2019, ⟨10.18653/v1/W19-7803⟩. ⟨halshs-03983518⟩
Natalia Grabar, Thierry Hamon, Benoît Leclercq. Modals as a predictive factor for L2 proficiency level. Models of modals: From pragmatics and corpus linguistics to machine learning, Topics in English Linguistics [TiEL] (110), De Gruyter Mouton, pp. 199-224, 2023, 9783110738612. ⟨hal-03997709⟩