SEME

SEMantique et Extraction d’information (SEME)

Coordination : Cyril GROUIN

L’équipe SEME (sémantique et extraction d’information) s’intéresse aux problématiques d’accès au sens contenu dans les productions langagières, dans un objectif d’analyse, de compréhension, de modélisation, ou de production. Nous appliquons nos recherches à la modalité écrite, sans restriction sur le support d’origine (texte produit au format électronique, ou provenant d’une transcription de la parole, ou encore d’une reconnaissance optique) et travaillons sur des productions en domaine ouvert ou de spécialité tel que le domaine médical. Nous utilisons des approches aussi bien linguistiques que relevant d’un apprentissage statistique ou neuronal. Précisément sur ce dernier type d’approche, nous nous intéressons au coût environnemental qu’elles génèrent en traitement automatique des langues, tant lors de leur production que lors de leur utilisation.

Extraction d’information
Corpus et modélisation
Sémantique, expressions poly-lexicales

Projets et contrats

UniDive – Universality, Diversity and Idiosyncrasy in Language Technology

Date de début : 05-12-2025

Date de fin : 05-12-2025

Agata Savary

LIPSLangue Interaction Parole et Signes

M3

SEME
SELEXINI – Induction de lexiques sémantiques pour l’interprétabilité et la diversité en traitement de textes

Date de début : 05-12-2025

Date de fin : 05-12-2025

Agata Savary

SEME
PREDHIC – Traitement automatique des Langues pour la PREdiction du risque de Décès ou de reHospitalisation des patients Insuffisants Cardiaques

Date de début : 05-12-2025

Date de fin : 05-12-2025

Pierre Zweigenbaum

SEME

Tous les projets et contrats

L’équipe se compose de 10 membres permanents (chercheurs CNRS, enseignants-chercheurs à l’Université Paris-Saclay, à l’ENSIIE, et à l’Université Sorbonne Paris-Nord), 14 doctorants, et 3 post-doctorants ou CDD. Nous entretenons des liens avec les industriels (thèses en contrat CIFRE, projets de recherche) et organisons régulièrement des manifestations scientifiques (conférence TALN, ateliers et workshops scientifiques, etc.).

Coordination

Sciences et Technologies des Langues

SEME

Grouin Cyril

Ingénieur de recherche HDR

Responsable de l'équipe SEME

Co-responsable de la Commission Locaux

Membres de l’équipe

Sciences et Technologies des Langues

SEME

Aguiar Mathilde

Doctorante

Courriel

Page personnelle
Sciences et Technologies des Langues

SEME

Barthet Virgile

Doctorant
Sciences et Technologies des Langues

SEME

Bezançon Julien

Courriel
Sciences et Technologies des Langues

SEME

Brenaut Rémi
Sciences et Technologies des Langues

SEME

Cortal Gustave

Doctorant
Sciences et Technologies des Langues

SEME

Dobrescu Anca

Doctorante
Sciences et Technologies des Langues

SEME

Ducel Fanny

Doctorante

Page personnelle
Sciences et Technologies des Langues

SEME

Estève Louis

Doctorant
Sciences et Technologies des Langues

SEME

Estienne Lautaro
Sciences et Technologies des Langues

SEME

Feillet Eva
Sciences et Technologies des Langues

SEME

Ficher Marion

Doctorante
Sciences et Technologies des Langues

SEME

Gerald Thomas

Chercheur
Sciences et Technologies des Langues

SEME

Grouin Cyril

Ingénieur de recherche HDR

Responsable de l'équipe SEME

Co-responsable de la Commission Locaux
Sciences et Technologies des Langues

SEME

Hammal Ayoub

Doctorant
Sciences et Technologies des Langues

SEME

Hamon Thierry

Enseignant-chercheur

Courriel

Page personnelle
Sciences et Technologies des Langues

SEME

Illouz Gabriel

Enseignant-chercheur
Sciences et Technologies des Langues

SEME

Lascar Julie

Ingénieure de recherche
Sciences et Technologies des Langues

SEME

Ligozat Anne-Laure

Professeure

Référente développement soutenable du LISN

0169158152

Page personnelle
Sciences et Technologies des Langues

SEME

Morand Clément

Doctorant

Courriel
Sciences et Technologies des Langues

SEME

Naderi Nona

Chaire de Professeur Junior

Page personnelle
Sciences et Technologies des Langues

SEME

Naguib Marco

Doctorant
Sciences et Technologies des Langues

SEME

Nakamura Takuya

Ingénieur d'études
Sciences et Technologies des Langues

SEME

Neveol Aurelie

Directrice de Recherche

Responsable du département STL

Membre de la Cellule Science Responsable (axe Développement Durable)

Courriel

Page personnelle
Sciences et Technologies des Langues

SEME

Paroubek Patrick

Ingénieur de Recherche

Expert en Traitement Automatique du Langage Naturel

0169158004

Courriel

Page personnelle
Sciences et Technologies des Langues

SEME

Rachmat Benedictus Kent
Sciences et Technologies des Langues

SEME

Rauhut Marta
Sciences et Technologies des Langues

SEME

Sauvage Eve

Doctorante
Sciences et Technologies des Langues

SEME

Savary Agata

Professeure

0169158003

Page personnelle
Sciences et Technologies des Langues

SEME

Scholivet Manon
Sciences et Technologies des Langues

SEME

Sebe Clémence

Doctorante
Sciences et Technologies des Langues

SEME

Thiant Floris
Sciences et Technologies des Langues

SEME

Zweigenbaum Pierre

Directeur de recherche

Extraction d'informations dans des textes biomédicaux

Coordinateur projets ANR-DFG-JST KEEPHA et ANR PREDHIC

Page personnelle

Actualités

Sciences et Technologies des langues

EcAuTAL 2025, l’école d’automne en TAL du département STL
COMET, Interaction avec l'Humain, Mécanique Energétique, Médiation, SEME

Le LISN fête la Science !
Colloque, Sciences et Technologies des langues

LT4All 2025 : Technologies de la langue pour tous

Toutes les actualités

Publications

Communication dans un congrès

Michael Filhol. AZVD as a Sign Language writing system proxy, and the potential evolution. Proceedings of Grapholinguistics in the 21st century, Oct 2024, Venice, Italy. ⟨hal-05344585⟩

STL

Année de publication 2024

Disponible en libre accès

Publication HAL
Autre publication scientifique

Bran Knowles, Vicki L Hanson, Christoph Becker, Mike Berners-Lee, Andrew A Chien, et al.. Climate Change: What is Computing’s Responsibility?. 2025, pp.1-18. ⟨10.4230/DagMan.11.1.1⟩. ⟨hal-05369257⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Quentin Le Tellier, Marc Evrard, Albert Rilliard, Jean-Sylvain Liénard. Impact de la parole expressive sur l’estimation de l’intensité vocale. CFA 2025 – 17e Congrès Français d’Acoustique, Société Française d’Acoustique (SFA), Apr 2025, Paris, France. ⟨hal-05365670⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Jean-Sylvain Liénard, Albert Rilliard, Marc Evrard, Quentin Le Tellier. Variabilité du signal de parole en fonction de la Force de Voix en situation d’interaction orale. CFA 2025 – 17e Congrès Français d’Acoustique, Société Française d’Acoustique (SFA), Apr 2025, Paris, France. ⟨hal-05366097⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Quentin Le Tellier, Marc Evrard, Albert Rilliard, Jean-Sylvain Liénard. Robust Vocal Intensity Prediction: Overcoming Dataset Bias with Pretrained Deep Models. Interspeech 2025, Odette Scharenborg; Catharine Oertel; Khiet Truong, Aug 2025, Rotterdam, Netherlands. pp.1728-1732, ⟨10.21437/Interspeech.2025-2311⟩. ⟨hal-05359416⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Fabrizio Nunnari, Cristina Luna Jiménez, Rosalee Wolfe, John Mcdonald, Michael Filhol, et al.. 9th Workshop on Sign Language Translation and Avatar Technologies (SLTAT 2025). 9th workshop on Sign Language Translation and Avatar Technologies (SLTAT), Sep 2025, Berlin, Germany. ⟨10.1145/3742886.3759656⟩. ⟨hal-05344671⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Article dans une revue

Thibault Fabacher, Erik-Andre Sauleau, Emmanuelle Arcay, Bineta Faye, Maxime Alter, et al.. Efficient extraction of medication information from clinical notes: an evaluation in 2 languages. Journal of the American Medical Informatics Association, 2025, pp.ocaf113. ⟨10.1093/jamia/ocaf113⟩. ⟨hal-05375038⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Article dans une revue

Albert Rilliard, João Antônio De Moraes, Donna Erickson, Marine Guerry, Angelika Hönemann, et al.. Cross-cultural dimensions organizing prosodic attitudes reception. Journal of Speech Sciences, 2025, 14, pp.e025012. ⟨10.20396/joss.v14i00.20379⟩. ⟨hal-05359361⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Article dans une revue

David Doukhan, Anissa-Claire Adgharouamane, Marlène Coulomb-Gully, Simon Devauchelle, Benjamin Elie, et al.. Voyage dans le temps : des archives télévision et radio pour observer l’évolution des voix. Culture et recherche, 2025, 149, pp.104-107. ⟨hal-05373155⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Lautaro Estienne, Gabriel Ben Zenou, Nona Naderi, Jackie Cheung, Pablo Piantanida. Collaborative Rational Speech Act: Pragmatic Reasoning for Multi-Turn Dialog. Empirical Methods in Natural Language Processing (EMNLP 2025), Nov 2025, Suzhou, China. pp.22520-22534, ⟨10.18653/v1/2025.emnlp-main.1145⟩. ⟨hal-05347472⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Marco Naguib, Xavier Tannier, Aurélie Névéol. Few-shot clinical entity recognition in English, French and Spanish: masked language models outperform generative model prompting. The 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP 2024), Nov 2024, Miami, United States. pp.6829-6852, ⟨10.18653/v1/2024.findings-emnlp.400⟩. ⟨hal-05331970⟩

STL

Année de publication 2024

Disponible en libre accès

Publication HAL
Communication dans un congrès

Julie Halbout, Diandra Fabre. Corpus bilingue sous-titrage et Langue des Signes Française : la problématique de l’alignement automatique des données. 20e Conférence en Recherche d’Information et Applications (CORIA) 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN) 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL) Les 18e Rencontres Jeunes Chercheurs en RI (RJCRI), 2025, Marseille, France. pp.91-103. ⟨hal-05330660⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Christophe Servan, Cyril Grouin, Aurélie Névéol, Pierre Zweigenbaum. Comment évaluer un grand modèle de langue dans le domaine médical en français ?. 20e Conférence en Recherche d’Information et Applications (CORIA) 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN) 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL) Les 18e Rencontres Jeunes Chercheurs en RI (RJCRI), 2025, Marseille, France. pp.51-67. ⟨hal-05329783⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Omar Adjali, Olivier Ferret, Sahar Ghannay, Hervé Le Borgne. Génération augmentée de récupération multi-niveau pour répondre à des questions visuelles. 20e Conférence en Recherche d’Information et Applications (CORIA) 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN) 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL) Les 18e Rencontres Jeunes Chercheurs en RI (RJCRI), 2025, Marseille, France. pp.128-130. ⟨hal-05330645⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Eve Sauvage. SynKGP: Knowledge Graph Population with Syntactic-LLM Hybridation for Question-Answering. ECIR, Apr 2025, Lucca, Italy. pp.212-219, ⟨10.1007/978-3-031-88720-8_34⟩. ⟨hal-05344073⟩

STL

Année de publication 2025

Publication HAL
Communication dans un congrès

Anca Dobrescu, Sarah Cohen-Boulakia, Nona Naderi. Attempt to rerun, reproduce and replicate Clinical Trials Sentence Classification Studies: lessons learnt. ACM REP ’25: ACM Conference on Reproducibility and Replicability, Jul 2025, Vancouver, Canada. pp.243-244, ⟨10.1145/3736731.3746133⟩. ⟨hal-05326886⟩

BioInfo, STL

Année de publication 2025

Publication HAL
Communication dans un congrès

Anne-Laure Ligozat. Côté obscur de l’IA : quels bénéfices réels de l’IA pour faire face aux crises environnementales ?. GreenDays 2023, Mar 2023, Lyon, France. ⟨hal-05317071⟩

STL

Année de publication 2023

Disponible en libre accès

Publication HAL
Communication dans un congrès

Anne-Laure Ligozat, Aurélie Bugeau. Méthodes d’évaluation de l’empreinte de l’IA. GreenDays 2025, Mar 2025, Rennes, France. ⟨hal-05317063⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Diandra Fabre, Julie Lascar, Julie Halbout, Yanis Ouakrim, Annelies Braffort, et al.. Exploring Sign-level Strategies to Enhance Automatic Translation of French Sign Language. IVA 2025 – 25th ACM International Conference on Intelligent Virtual Agents, Sep 2025, Berlin, Germany. ⟨10.1145/3742886.3756733⟩. ⟨hal-05280328⟩

AMIArchitectures et modèles pour l'Interaction, STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Thèse

Marco Naguib. Extraction d’information clinique : méthodes et ressources pour l’adaptation en domaine. Informatique [cs]. Université Paris-Saclay, 2025. Français. ⟨NNT : 2025UPASG054⟩. ⟨tel-05289152⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Armand Stricker, Patrick Paroubek. Chitchat as Interference: Adding User Backstories to Task-Oriented Dialogues. The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), ELRA; ICCL, May 2024, Torino, Italy. pp.3203–3214. ⟨hal-05242362⟩

STL

Année de publication 2024

Disponible en libre accès

Publication HAL
Communication dans un congrès

Fanny Ducel, Jeffrey André, Aurélie Névéol, Karën Fort. Introducing MascuLead: the First Gender Bias Leaderboard. EALM 2025 – Ethic and Alignment of (Large) Language Models, Jun 2025, Marseille, France. pp.12-19. ⟨hal-05282981⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Fanny Ducel, Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol. « Les femmes ne font pas de crise cardiaque ! » Étude des biais de genre dans les cas cliniques synthétiques en français. 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2025), Jul 2025, Marseille, France. pp.1. ⟨hal-05282965⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Clémentine Bleuze, Fanny Ducel, Maxime Amblard, Karën Fort. « De nos jours, ce sont les résultats qui comptent » : création et étude diachronique d’un corpus de revendications issues d’articles de TALTraitement Automatique des langues. TALN 2025 – 32ème Conférence sur le Traitement Automatique des Langues Naturelles, Jul 2025, Marseille, France. ⟨hal-05282966⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Thèse

Yajing Feng. Continuous Recognition of Client Emotions from Speech and Text in Real-World Call Center Conversations : a Context-Aware Dataset and Empirical Study. Artificial Intelligence [cs.AI]. Université Paris-Saclay, 2025. English. ⟨NNT : 2025UPASG042⟩. ⟨tel-05241382⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Pré-publication, Document de travail

Alexander Goldberg, Ihsan Ullah, Thanh Gia Hieu Khuong, Benedictus Kent Rachmat, Zhen Xu, et al.. Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS’24 Experiment. 2025. ⟨hal-05230379⟩

AO, STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Floris Thiant, Olivia Penas, Yann Leroy, Anne-Laure Ligozat. System analysis of digital service system perimeter and its interdependencies in Life Cycle Assessment. 2025 IEEE International Symposium on Systems Engineering (ISSE 2025), Oct 2025, Palaiseau, France. ⟨hal-05240543⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Article dans une revue

Thomas Gerald, Louis Tamames, Sofiane Ettayeb, Ha-Quang Le, Patrick Paroubek, et al.. CQuAE: A new Contextualized QUestion Answering corpus on Education domain. Data and Knowledge Engineering, 2024, 151, pp.102305. ⟨10.1016/j.datak.2024.102305⟩. ⟨hal-05242257⟩

STL

Année de publication 2024

Publication HAL
Chapitre d'ouvrage

Tommaso Raso, Saulo Mendes Santos, Albert Rilliard, João A. Moraes. Defining and Identifying Discourse Markers in Spontaneous Speech. Miguel Oliveira, Jr. Prosodic Interfaces – Interdisciplinary Perspectives on Sound Patterns and Human Interaction, De Gruyter, pp.65-102, 2025, 978-3-11-105990-7. ⟨10.1515/9783111060309-003⟩. ⟨hal-05230528⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Clémence Sebe, Sarah Cohen-Boulakia, Olivier Ferret, Aurélie Névéol. Extracting Information in a Low-resource Setting: Case Study on Bioinformatics Workflows. Symposium on Intelligent Data Analysis (IDA 2025), May 2025, Konstanz, Germany. pp.274-287, ⟨10.1007/978-3-031-91398-3_21⟩. ⟨hal-05244222⟩

BioInfo, STL

Année de publication 2025

Disponible en libre accès

Publication HAL

Toutes les publications

Projets et contrats

Coordination

Membres de l’équipe

Actualités

Publications

Michael Filhol. AZVD as a Sign Language writing system proxy, and the potential evolution. Proceedings of Grapholinguistics in the 21st century, Oct 2024, Venice, Italy. ⟨hal-05344585⟩

Bran Knowles, Vicki L Hanson, Christoph Becker, Mike Berners-Lee, Andrew A Chien, et al.. Climate Change: What is Computing’s Responsibility?. 2025, pp.1-18. ⟨10.4230/DagMan.11.1.1⟩. ⟨hal-05369257⟩

Quentin Le Tellier, Marc Evrard, Albert Rilliard, Jean-Sylvain Liénard. Impact de la parole expressive sur l’estimation de l’intensité vocale. CFA 2025 – 17e Congrès Français d’Acoustique, Société Française d’Acoustique (SFA), Apr 2025, Paris, France. ⟨hal-05365670⟩

Albert Rilliard, João Antônio De Moraes, Donna Erickson, Marine Guerry, Angelika Hönemann, et al.. Cross-cultural dimensions organizing prosodic attitudes reception. Journal of Speech Sciences, 2025, 14, pp.e025012. ⟨10.20396/joss.v14i00.20379⟩. ⟨hal-05359361⟩

David Doukhan, Anissa-Claire Adgharouamane, Marlène Coulomb-Gully, Simon Devauchelle, Benjamin Elie, et al.. Voyage dans le temps : des archives télévision et radio pour observer l’évolution des voix. Culture et recherche, 2025, 149, pp.104-107. ⟨hal-05373155⟩

Eve Sauvage. SynKGP: Knowledge Graph Population with Syntactic-LLM Hybridation for Question-Answering. ECIR, Apr 2025, Lucca, Italy. pp.212-219, ⟨10.1007/978-3-031-88720-8_34⟩. ⟨hal-05344073⟩

Anne-Laure Ligozat. Côté obscur de l’IA : quels bénéfices réels de l’IA pour faire face aux crises environnementales ?. GreenDays 2023, Mar 2023, Lyon, France. ⟨hal-05317071⟩

Anne-Laure Ligozat, Aurélie Bugeau. Méthodes d’évaluation de l’empreinte de l’IA. GreenDays 2025, Mar 2025, Rennes, France. ⟨hal-05317063⟩

Marco Naguib. Extraction d’information clinique : méthodes et ressources pour l’adaptation en domaine. Informatique [cs]. Université Paris-Saclay, 2025. Français. ⟨NNT : 2025UPASG054⟩. ⟨tel-05289152⟩

Fanny Ducel, Jeffrey André, Aurélie Névéol, Karën Fort. Introducing MascuLead: the First Gender Bias Leaderboard. EALM 2025 – Ethic and Alignment of (Large) Language Models, Jun 2025, Marseille, France. pp.12-19. ⟨hal-05282981⟩

Yajing Feng. Continuous Recognition of Client Emotions from Speech and Text in Real-World Call Center Conversations : a Context-Aware Dataset and Empirical Study. Artificial Intelligence [cs.AI]. Université Paris-Saclay, 2025. English. ⟨NNT : 2025UPASG042⟩. ⟨tel-05241382⟩

Alexander Goldberg, Ihsan Ullah, Thanh Gia Hieu Khuong, Benedictus Kent Rachmat, Zhen Xu, et al.. Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS’24 Experiment. 2025. ⟨hal-05230379⟩

Floris Thiant, Olivia Penas, Yann Leroy, Anne-Laure Ligozat. System analysis of digital service system perimeter and its interdependencies in Life Cycle Assessment. 2025 IEEE International Symposium on Systems Engineering (ISSE 2025), Oct 2025, Palaiseau, France. ⟨hal-05240543⟩

Thomas Gerald, Louis Tamames, Sofiane Ettayeb, Ha-Quang Le, Patrick Paroubek, et al.. CQuAE: A new Contextualized QUestion Answering corpus on Education domain. Data and Knowledge Engineering, 2024, 151, pp.102305. ⟨10.1016/j.datak.2024.102305⟩. ⟨hal-05242257⟩