The SEME (semantics and information extraction) team is interested in the problems of accessing the meaning contained in language productions, for the purposes of analysis, comprehension, modeling or production. We apply our research to the written modality, without restriction on the original medium (text produced in electronic format, or from a speech transcription, or from optical recognition) and work on productions in open or specialized domains such as the medical field. We use both linguistic and statistical or neural learning approaches. We are particularly interested in the latter type of approach, and in the environmental costs they generate in automatic language processing, both during production and during use.
Information extraction
Corpus and modeling
Sémantics, poly-lexical expressions
The team comprises 10 permanent members (CNRS researchers, lecturers at Université Paris-Saclay, ENSIIE, and Université Sorbonne Paris-Nord), 14 PhD students, and 3 post-docs or fixed-term contracts. We maintain links with industry (theses under CIFRE contracts, research projects) and regularly organize scientific events (TALN conference, scientific workshops, etc.).
Annelies Braffort. L’héritage scientifique de Patrice Dalle : le traitement automatique des langues des signes au service de l’enseignement en LSF. La main de Thôt : théories, enjeux et pratiques de la traduction, A paraître, 11. ⟨hal-04256752⟩
Clément Morand, Aurélie Névéol, Anne-Laure Ligozat. MLCA: a tool for Machine Learning Life Cycle Assessment. 2024 International Conference on ICT for Sustainability (ICT4S), Jun 2024, Stockholm, Sweden. ⟨hal-04643414⟩
Philippe Boula de Mareüil, Antonio Romano, Marc Evrard, Alexandre François. Cartografia di innovazioni rispetto al latino attraverso un atlante sonoro dell’Europa. Erica Autelli. Il patrimonio linguistico storico della Liguria 2, InSedicesimo, pp.51-62, 2024. ⟨hal-04644943⟩
Jenny Copara, Nona Naderi, Gilles Falquet, Douglas Teodoro. A data-driven assessment of biomedical terminology evolution using information theoretical and network analysis approaches. 2024. ⟨hal-04644071⟩
Constant Bonard, Gustave Cortal. Improving Language Models for Emotion Analysis: Insights from Cognitive Science. The 13th edition of the Workshop on Cognitive Modeling and Computational Linguistics (CMCL 2024) co-located with the 62nd Annual Meeting of the Association for Computational Linguistics (ACL 2024), Aug 2024, Bangkok, Thailand. ⟨hal-04624340v2⟩
Camille Challant, Michael Filhol. Extension d’AZee avec des règles de production concernant les gestes non-manuels pour la langue des signes française. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.410-421. ⟨hal-04623032⟩
Clémence Sebe, Sarah Cohen-Boulakia, Olivier Ferret, Aurélie Névéol. Extraction d’entités nommées décrivant des chaînes de traitement bioinformatiques dans des articles scientifiques en anglais. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.422-434. ⟨hal-04623033⟩
Rémi Uro, Albert Rilliard, David Doukhan, Marie Tahon, Antoine Laurent. Évaluation perceptive de l’anticipation de la prise de parole lors d’interactions dialogiques en français. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.390-400. ⟨hal-04623090⟩
Marco Naguib, Aurélie Névéol, Xavier Tannier. Reconnaissance d’entités cliniques en few-shot en trois langues. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.169-197. ⟨hal-04623016⟩
Maxime Fily, Guillaume Wisniewski, Séverine Guillaume, Gilles Adda, Alexis Michaud. Mesure du niveau de proximité entre enregistrements audio et évaluation indirecte du niveau d’abstraction des représentations issues d’un grand modèle de langage. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.112-121. ⟨hal-04623064⟩
François Buet, Camille Guinaudeau, Cyril Grouin, Sahar Ghannay, Shin’Ichi Satoh. Utiliser l’explicabilité des modèles pour mettre en évidence les expressions genrées dans la parole. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.695-707. ⟨hal-04623052⟩
Atilla Kaan Alkan, Felix Grezes, Cyril Grouin, Fabian Schüssler, Pierre Zweigenbaum. astroECR : enrichissement d’un corpus astrophysique en entités nommées, coréférences et relations sémantiques. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.720-733. ⟨hal-04623049⟩
Thomas Gerald, Louis Tamames, Sofiane Ettayeb, Patrick Paroubek, Anne Vilnat. CQuAE : Un nouveau corpus de question-réponse pour l’enseignement. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.50-63. ⟨hal-04623009⟩
Pierre Lepagnol, Thomas Gerald, Sahar Ghannay, Christophe Servan, Sophie Rosset. Les petits modèles sont bons : une étude empirique de classification dans un contexte zero-shot. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.113-129. ⟨hal-04623012v2⟩
Hugo Boulanger, Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol. Génération contrôlée de cas cliniques en français à partir de données médicales structurées. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.435-448. ⟨hal-04623034⟩
Emmett Strickland, Anne Lacheret-Dujour, Marc Evrard, Sylvain Kahane, Dana Aubakirova, et al.. De nouvelles méthodes pour l’exploration de l’interface syntaxe-prosodie : un treebank intonosyntaxique et un système de synthèse pour le pidgin nigérian. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.376-383. ⟨hal-04623029⟩
Nadège Alavoine, Gaëlle Laperrière, Christophe Servan, Sahar Ghannay, Sophie Rosset. Nouvelle tâche sémantique pour le corpus de compréhension de parole en français MEDIA. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.470-480. ⟨hal-04623097⟩
Nadège Alavoine, Maximin Coavoux, Emmanuelle Esperança-Rodier, Romane Gallienne, Carlos-Emiliano González-Gallardo, et al.. Sur les limites de l’identification par l’humain de textes générés automatiquement. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.18-19. ⟨hal-04623002⟩
Fanny Ducel, Aurélie Névéol, Karën Fort. Évaluation automatique des biais de genre dans des modèles de langue auto-régressifs. TALN 2024, Jul 2024, Toulouse, France. ⟨hal-04621134⟩
Saumya Yadav, Élise Lincker, Caroline Huron, Martin Stéphanie, Camille Guinaudeau, et al.. Vers une pédagogie inclusive : une classification multimodale des illustrations de manuels scolaires pour des environnements d’apprentissage adaptés. JEP TALN RECITAL 2024, Jul 2024, Toulouse, France. ⟨hal-04613698⟩
Pierre Zweigenbaum, Nicolas Maudet, Philippe Morignot, Laurent Vercouter. PFIA 2015. Bulletin de l’Association Française pour l’Intelligence Artificielle, 90, 2015, Association Française d’Intelligence Artificielle. ⟨hal-04595440⟩
Camille Challant, Michael Filhol. Extending AZee with Non-manual Gesture Rules for French Sign Language. 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), May 2024, Turin, Italy. pp.7007-7016. ⟨hal-04594830⟩
Saulo Mendes Santos. How to deal with Discourse Markers : a prosodic, corpus-based, computational and experimental proposal. Computation and Language [cs.CL]. Université Paris-Saclay; Universidade federal de Minas Gerais, 2024. English. ⟨NNT : 2024UPASG013⟩. ⟨tel-04594427⟩
Julie Lascar, Michèle Gouiffès, Annelies Braffort, Claire Danet. Annotation of LSF subtitled videos without a pre-existing dictionary. LREC-COLING 2024 11th Workshop on the Representation and Processing of Sign Languages: Evaluation of Sign Language Resources, May 2024, Turin (IT), Italy. pp.100-108. ⟨hal-04593866⟩
Julie Halbout, Diandra Fabre, Yanis Ouakrim, Julie Lascar, Annelies Braffort, et al.. Matignon-LSF: a Large Corpus of Interpreted French Sign Language. LREC-COLING 2024 11th Workshop on the Representation and Processing of Sign Languages: Evaluation of Sign Language Resources, May 2024, Turin, Italy. pp.202-208. ⟨hal-04593865⟩
Maxime Fily, Guillaume Wisniewski, Séverine Guillaume, Gilles Adda, Alexis Michaud. Mesure du niveau de proximité entre enregistrements audio et évaluation indirecte du niveau d’abstraction des représentations issues d’un grand modèle de langage. JEP TALN RECITAL 2024, Association Française de la Communication Parlée (AFCP), Jul 2024, Toulouse, France. ⟨hal-04583516⟩
Clément Morand, Anne-Laure Ligozat, Aurélie Névéol. Bracing for impact: on-going digitalization of healthcare requires urgent characterization of impact on environment and beyond. Undone Computer Science, Guillaume Munch-Maccagnoni; Chantal Enguehard; Maël Pégny; Marc Anderson, Feb 2024, Nantes (France), France. ⟨hal-04579545⟩
Clément Morand, Anne-Laure Ligozat, Aurélie Névéol. Empreinte carbone des expériences en TALTraitement Automatique des langues : les défis de la reproductibilité. journée d’étude Journée Éthique et TALTraitement Automatique des langues 2024, Karën Fort; Aurélie Névéol, Apr 2024, Nancy, France. ⟨hal-04579556⟩
Leticia Rebollo Couto, Albert Rilliard. Variación pragmática, traducción audiovisual y estrategias conversacionales para el doblaje: léxico coloquial y palabras tabús – Anexos. 2024. ⟨hal-04578522⟩
Rabab Alkhalifa, Hsuvas Borkakoty, Romain Deveaud, Alaa El-Ebshihy, Luis Espinosa-Anke, et al.. LongEval: Longitudinal Evaluation of Model Performance at CLEF 2024. Advances In Information Retrieval (ECIR 2024), Mar 2024, Glasgow (Ecosse), United Kingdom. pp.60-66, ⟨10.1007/978-3-031-56072-9_8⟩. ⟨hal-04577466⟩
Boya Zhang, Nona Naderi, Rahul Mishra, Douglas Teodoro. Online Health Search Via Multidimensional Information Quality Assessment Based on Deep Language Models: Algorithm Development and Validation. JMIR AI, 2024, 3, pp.e42630. ⟨10.2196/42630⟩. ⟨hal-04574791⟩
Hossein Rouhizadeh, Irina Nikishina, Anthony Yazdani, Alban Bornet, Boya Zhang, et al.. A Dataset for Evaluating Contextualized Representation of Biomedical Concepts in Language Models. Scientific Data , 2024, 11 (1), pp.455. ⟨10.1038/s41597-024-03317-w⟩. ⟨hal-04574786⟩
Maxime Fily, Guillaume Wisniewski, Séverine Guillaume, Gilles Adda, Alexis Michaud. Establishing degrees of closeness between audio recordings along different dimensions using large-scale cross-lingual models. Findings of the Association for Computational Linguistics: EACL 2024, Association for Computational Linguistics, Mar 2024, St. Julian’s, Malta. ⟨hal-04561819⟩
Hugo Boulanger, Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol. Using Structured Health Information for Controlled Generation of Clinical Cases in French. The 6th Clinical Natural Language Processing Workshop At NAACL 2024 (ClinicalNLP 2024), Jun 2024, Mexico city, Mexico. ⟨hal-04558890⟩
Nicolas Hiebel, Bertrand Remy, Bruno Guillaume, Olivier Ferret, Aurélie Névéol, et al.. Hostomytho: A GWAP for Synthetic Clinical Texts Evaluation and Annotation. Games and Natural Language Processing Workshop at LREC-COLING 2024, May 2024, Turin, Italy, May 2024, Turin (Italie), Italy. ⟨hal-04555052⟩
Luma da Silva Miranda, João Antônio de Moraes, Albert Rilliard. Visual channel facilitates the comprehension of the intonation of Brazilian Portuguese wh-questions and wh-exclamations: evidence from congruent and incongruent stimuli. Language and Cognition, 2024, pp.1-21. ⟨10.1017/langcog.2024.16⟩. ⟨hal-04538371⟩
Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. SEME at SemEval-2024 Task 2: Comparing Masked and Generative Language Models on Natural Language Inference for Clinical Trials. 2024. ⟨hal-04536273⟩
Djegdjiga Amazouz, Martine-Adda Decker, Lori Lamel. Variation du voisement des occlusives orales en code-switching: analyses par ABX automatique et mesures acoustiques. Journées d’Études sur la Parole – JEP2022, Jun 2022, Noirmoutier, France. ⟨hal-03703081⟩
Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. SEME at SemEval-2024 Task 2: Comparing Masked and Generative Language Models on Natural Language Inference for Clinical Trials. 2024. ⟨hal-04536600⟩
Karën Fort, Laura Alonso Alemany, Luciana Benotti, Julien Bezançon, Claudia Borg, et al.. Your Stereotypical Mileage may Vary: Practical Challenges of Evaluating Biases in Multiple Languages and Cultural Contexts. The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation, May 2024, Turin (Italie), Italy. ⟨hal-04537096⟩
Paul Lerner, Cyril Grouin. INCLURE: a Dataset and Toolkit for Inclusive French Translation. The 17th Workshop on Building and Using Comparable Corpora (BUCC @ LREC 2024), 2024, Turin, Italy. ⟨hal-04531938⟩
Karën Fort, Aurélie Névéol. Ethics and NLP: 10 years after. Journée d’études ATALA “éthique et TALTraitement Automatique des langues : 10 ans après”, 2024. ⟨hal-04533870⟩
Paul Lerner, Olivier Ferret, Camille Guinaudeau. Cross-modal Retrieval for Knowledge-based Visual Question Answering. 46th European Conference on Information Retrieval (ECIR 2024), 2024, Glasgow, United Kingdom. ⟨hal-04384431⟩
Tomohiro Nishiyama, Lisa Raithel, Roland Roller, Pierre Zweigenbaum, Eiji Aramaki. Assessing Authenticity and Anonymity of Synthetic User-generated Content in the Medical Domain. Workshop on Computational Approaches to Language Data Pseudonymization (CALD-pseudo), Mar 2024, St. Julian’s, Malta. pp.8-17. ⟨hal-04528240⟩
Nadège Alavoine, Gaëlle Laperriere, Christophe Servan, Sahar Ghannay, Sophie Rosset. New Semantic Task for the French Spoken Language Understanding MEDIA Benchmark. The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), May 2024, Torino, Italy. ⟨hal-04523286⟩
Nesrine Bannour, Christophe Servan, Aurélie Névéol, Xavier Tannier. A Benchmark Evaluation of Clinical Named Entity Recognition in French. The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), May 2024, Torino, Italy. ⟨hal-04523267⟩
Christophe Servan, Sahar Ghannay, Sophie Rosset. mALBERT: Is a Compact Multilingual BERT Model Still Worth It?. The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation, May 2024, Torino, Italy. ⟨hal-04520797⟩