SEME

SEMantique et Extraction d’information (SEME)

Coordination : Cyril GROUIN

L’équipe SEME (sémantique et extraction d’information) s’intéresse aux problématiques d’accès au sens contenu dans les productions langagières, dans un objectif d’analyse, de compréhension, de modélisation, ou de production. Nous appliquons nos recherches à la modalité écrite, sans restriction sur le support d’origine (texte produit au format électronique, ou provenant d’une transcription de la parole, ou encore d’une reconnaissance optique) et travaillons sur des productions en domaine ouvert ou de spécialité tel que le domaine médical. Nous utilisons des approches aussi bien linguistiques que relevant d’un apprentissage statistique ou neuronal. Précisément sur ce dernier type d’approche, nous nous intéressons au coût environnemental qu’elles génèrent en traitement automatique des langues, tant lors de leur production que lors de leur utilisation.

Extraction d’information
Corpus et modélisation
Sémantique, expressions poly-lexicales

Projets et contrats

EQUATION – Question-réponses explicables sur des documents complexes mélant textes et contenus infographiques

Date de début : 10-03-2026

Date de fin : 10-03-2026

Thomas Gerald

LIPSLangue Interaction Parole et Signes

M3

SEME
UniDive – Universality, Diversity and Idiosyncrasy in Language Technology

Date de début : 10-03-2026

Date de fin : 10-03-2026

Agata Savary

LIPSLangue Interaction Parole et Signes

M3

SEME
SELEXINI – Induction de lexiques sémantiques pour l’interprétabilité et la diversité en traitement de textes

Date de début : 10-03-2026

Date de fin : 10-03-2026

Agata Savary

SEME

Tous les projets et contrats

L’équipe se compose de 10 membres permanents (chercheurs CNRS, enseignants-chercheurs à l’Université Paris-Saclay, à l’ENSIIE, et à l’Université Sorbonne Paris-Nord), 14 doctorants, et 3 post-doctorants ou CDD. Nous entretenons des liens avec les industriels (thèses en contrat CIFRE, projets de recherche) et organisons régulièrement des manifestations scientifiques (conférence TALN, ateliers et workshops scientifiques, etc.).

Coordination

Sciences et Technologies des Langues

SEME

Savary Agata

Professeure

0169158003

Page personnelle

Membres de l’équipe

Sciences et Technologies des Langues

SEME

Aguiar Mathilde

Doctorante

Courriel

Page personnelle
Sciences et Technologies des Langues

SEME

Arakkal Remesh Binesh
Sciences et Technologies des Langues

SEME

Bezançon Julien

Courriel
Sciences et Technologies des Langues

SEME

Cellard Loup
Sciences et Technologies des Langues

SEME

Cortal Gustave

Doctorant
Sciences et Technologies des Langues

SEME

Ducel Fanny

Doctorante

Page personnelle
Sciences et Technologies des Langues

SEME

Elkasaby Mahmoud

Courriel
Sciences et Technologies des Langues

SEME

Estève Louis

Doctorant
Sciences et Technologies des Langues

SEME

Estienne Lautaro
Sciences et Technologies des Langues

SEME

Feillet Eva

Maîtresse de Conférences

Apprentissage profond

Apprentissage continu

Page personnelle
Sciences et Technologies des Langues

SEME

Ficher Marion

Doctorante
Sciences et Technologies des Langues

SEME

Gerald Thomas

Chercheur
Sciences et Technologies des Langues

Direction, SEME

Grouin Cyril

Ingénieur de recherche HDR

Directeur d'unité adjoint (DUA)

Co-responsable de la Commission Locaux
Sciences et Technologies des Langues

SEME

Hammal Ayoub

Doctorant
Sciences et Technologies des Langues

SEME

Hamon Thierry

Enseignant-chercheur

Courriel

Page personnelle
Sciences et Technologies des Langues

SEME

Illouz Gabriel

Enseignant-chercheur
Sciences et Technologies des Langues

SEME

Kebdi Lounès
Sciences et Technologies des Langues

SEME

Ligozat Anne-Laure

Professeure

Référente développement soutenable du LISN

0169158152

Page personnelle
Sciences et Technologies des Langues

SEME

Longuépée Lubin
Sciences et Technologies des Langues

SEME

Morand Clément

Doctorant

Courriel
Sciences et Technologies des Langues

SEME

Naderi Nona

Chaire de Professeur Junior

Page personnelle
Sciences et Technologies des Langues

SEME

Nakamura Takuya

Ingénieur d'études
Sciences et Technologies des Langues

SEME

Névéol Aurélie

Directrice de Recherche

Responsable du département STL

Membre de la Cellule Science Responsable (axe Développement Durable)

Courriel

Page personnelle
Sciences et Technologies des Langues

SEME

Paroubek Patrick

Ingénieur de Recherche

Expert en Traitement Automatique du Langage Naturel

0169158004

Courriel

Page personnelle
Sciences et Technologies des Langues

SEME

Pras Baptiste
Sciences et Technologies des Langues

SEME

Rachmat Benedictus Kent

Machine Learning

TALTraitement Automatique des langues

IAIntelligence Artificielle

Courriel

Page personnelle
Sciences et Technologies des Langues

SEME

Rauhut Marta
Sciences et Technologies des Langues

SEME

Sauvage Eve

Doctorante
Sciences et Technologies des Langues

SEME

Savary Agata

Professeure

0169158003

Page personnelle
Sciences et Technologies des Langues

SEME

Sebe Clémence

Doctorante
Sciences et Technologies des Langues

SEME

Thiant Floris
Sciences et Technologies des Langues

SEME

Vallet Sam
Sciences et Technologies des Langues

SEME

Zhetessov Nur
Sciences et Technologies des Langues

SEME

Zweigenbaum Pierre

Directeur de recherche

Extraction d'informations dans des textes biomédicaux

Coordinateur projets ANR-DFG-JST KEEPHA et ANR PREDHIC

Page personnelle

Actualités

Presse, Sciences et Technologies des langues

Créer éthiquement des textes artificiels pour entraîner les intelligences artificielles du domaine biomédical
Sciences et Technologies des langues

EcAuTAL 2025, l’école d’automne en TAL du département STL
Colloque, Sciences et Technologies des langues

LT4All 2025 : Technologies de la langue pour tous

Toutes les actualités

Publications

Pré-publication, Document de travail

Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. Assessing the Difficulty of Inference Types in Natural Language Inference for Clinical Trials. 2026. ⟨hal-05533706⟩

STL

Année de publication 2026

Disponible en libre accès

Publication HAL
Article dans une revue

Juan Manuel Coria, Hervé Bredin, Sahar Ghannay, Sophie Rosset, Khaled Zaouk, et al.. Diart: A Python Library for Real-Time Speaker Diarization. Journal of Open Source Software, 2024, 9 (99), pp.5266. ⟨10.21105/joss.05266⟩. ⟨hal-05530961⟩

STL

Année de publication 2024

Disponible en libre accès

Publication HAL
Communication dans un congrès

Clémentine Bleuze, Karën Fort, Vincent P. Martin, Aurélie Névéol. Grands modèles de langue pour la détection de pathologies psychiatriques : promesses, réalité, et enjeux. Journée d’étude “LLM@hopital”, ATALA, Mar 2026, Paris, France. ⟨hal-05532823⟩

STL

Année de publication 2026

Disponible en libre accès

Publication HAL
Communication dans un congrès

Iskandar Boucharenc. Hierarchical Prefixes for Long Document Representations. ECIR, Apr 2025, Lucca, Italy. pp.171-177, ⟨10.1007/978-3-031-88720-8_28⟩. ⟨hal-05530637⟩

STL

Année de publication 2025

Publication HAL
Communication dans un congrès

Fanny Ducel, Aurélie Névéol, Vidit Khazanchi, Loïc Leclere, Arthur Pedrini, et al.. Code-switching as a Bias Indicator in LLMs: “The consequences are not the same para nosotros”. LREC 2026 – 15th biennial Language Resources and Evaluation Conference, May 2026, Palma De Mallorca, Spain. ⟨hal-05529786⟩

STL

Année de publication 2026

Disponible en libre accès

Publication HAL
Communication dans un congrès

Oralie Cattan, Christophe Servan, Sophie Rosset. On the Usability of Transformers-based models for a French Question-Answering task. Joint Conference of the Information Retrieval Communities in Europe (CIRCLE) 2022, Jul 2022, Samatan, France. ⟨hal-03701740⟩

ILES, STL

Année de publication 2022

Disponible en libre accès

Publication HAL
Communication dans un congrès

Léa Pacini, Jérôme Dupire, Isabelle Barbet, Olivier Pons, Camille Guinaudeau, et al.. Textbook’s accessibility for children with dyspraxia and visual disability. 17th International Conference of the Association for the Advancement of Assistive Technology in Europe, AAATE 2023, Association for the Advancement of Assistive Technology in Europe, Aug 2023, Paris, France. ⟨hal-04410340⟩

STL

Année de publication 2023

Disponible en libre accès

Publication HAL
Communication dans un congrès

Fanny Ducel. How to define, understand and evaluate stereotypical biases in language models?. Séminaire du groupe de travail Intelligence Artificielle Sûre, Intelligible et Vérifiable (IASIV), Mar 2025, Palaiseau, France. ⟨hal-05467784⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Thèse

Gustave Cortal. Natural language processing for subjectivity analysis in personal narratives. Computation and Language [cs.CL]. Université Paris-Saclay, 2026. English. ⟨NNT : 2026UPASG003⟩. ⟨tel-05501345⟩

STL

Année de publication 2026

Disponible en libre accès

Publication HAL
Poster de conférence

Julie Halbout, Annelies Braffort, Michèle Gouiffès. Annotation automatique d’un corpus de Langue des Signes Française. Rencontres Jeunes Chercheurs en Parole (RJCP), Nov 2025, Paris, France. ⟨hal-05495878⟩

STL

Année de publication 2025

Publication HAL
Poster de conférence

Annelies Braffort, Michael Filhol, Michèle Gouiffès, Julie Halbout, Julie Lascar. Sign Language Processing with Linguistic Structure. BMVA Symposium on AIArtificial Intelligence for Sign Language Translation, Production, and Linguistics, Dec 2025, London, United Kingdom. ⟨hal-05495664⟩

STL

Année de publication 2025

Publication HAL
Communication dans un congrès

Jules Françoise, Julie Lascar, Cyril Verrecchia, Sidonie Minodier, Michèle Gouiffès, et al.. LaboSignes : vers une IAIntelligence Artificielle participative pour la reconnaissance automatique de la Langue des Signes Française. Journée d’études AFIA-ATALA : Technologies linguistiques pour les langues peu dotées, Dec 2025, Paris, France. ⟨hal-05495906⟩

AMIArchitectures et modèles pour l'Interaction, STL

Année de publication 2025

Publication HAL
Communication dans un congrès

Idrissa Mahamoudou Dicko, Nona Naderi. Biomedical hallucination detection of LLMs using Med-HALT and HaloScope frameworks. 10th Junior Conference on Data Sciences and Engineering Conference (JDSE 2025), Sep 2025, Paris, France. ⟨hal-05483690⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Chapitre d'ouvrage

Philippe Boula de Mareüil, Albert Rilliard, Frédéric Vernier. Valorisation de la diversité linguistique à travers un atlas sonore. Myriam Caressa; Christophe Doubovetzky. Langue(s) et droit(s). Enjeux et paradoxes en France, L’Harmattan, pp.177-188, 2025, Logiques Juridiques, 978-2-336-55319-1. ⟨hal-05464189⟩

AVIZ, STL

Année de publication 2025

Publication HAL
Chapitre d'ouvrage

Natalia Grabar, Thierry Hamon, Emmanuelle Canut. Le langage simplifié pour le public FLE : des critères linguistiques à interroger. Éducation, formation et communication. L’accompagnement des publics en exil. Problèmes de langue et modalités de communication, A paraître, 2865310019. ⟨hal-05465059⟩

STL

Année de publication 2026

Publication HAL
Article dans une revue

Anjani Dhrangadhariya, Roger Hilfiker, Karl Martin Sattelmayer, Nona Naderi, Katia Giacomino, et al.. RoBuster: A Corpus Annotated with Risk of Bias Text Spans in Randomized Controlled Trials in Physiotherapy and Rehabilitation (forthcoming/in press). JMIR Formative Research, In press, ⟨10.2196/55127⟩. ⟨hal-05462769⟩

STL

Année de publication 2026

Disponible en libre accès

Publication HAL
Communication dans un congrès

Fanny Ducel, Karën Fort, Aurélie Névéol. La linguistique appliquée pour une IAIntelligence Artificielle plus éthique. NéALA 2025 – Colloque sur Naturel et Artificiel en Linguistique Appliquée : une époque de paradoxes, Jul 2025, Nancy, France. ⟨hal-05457534⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Autre publication scientifique

Luciana Benotti, Fanny Ducel, Karën Fort, Guido Ivetta, Zhijing Jin, et al.. Navigating Ethical Challenges in NLP: Hands-on strategies for students and researchers. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 5: Tutorial Abstracts), 2025, ⟨10.18653/v1/2025.acl-tutorials.5⟩. ⟨hal-05457524⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Article dans une revue

Mathieu Laï-King, Patrick Paroubek. Evaluation of Clinical Trials Reporting Quality using Large Language Models. Revue TALTraitement Automatique des langues : traitement automatique des langues, 2024, 65 (2), pp.13-38. ⟨10.57896/2024-talTraitement Automatique des langues-65_2_1⟩. ⟨hal-05447024⟩

STL

Année de publication 2024

Disponible en libre accès

Publication HAL
Chapitre d'ouvrage

Simon Devauchelle, Albert Rilliard, David Doukhan, Lucas Ondel Yang. Variation of Perceived Voice Pitch Across Time Periods, Gender, and Age in French Media Archives. Valentina De Iacovo; Bianca Maria De Paolis; Daniela Mereu. The voice in the media and new technologies, 12 (004), Officinaventuno, pp.47-71, 2024, Studi Associazione Italiana Scienze della Voce, 978-88-97657-73-6. ⟨10.17469/O2112AISV000004⟩. ⟨hal-05450567⟩

STL

Année de publication 2024

Disponible en libre accès

Publication HAL
Thèse

Armand Stricker. Towards More Natural Dialogues : Integrating Chitchat Capabilities into Task-oriented Dialogue Agents. Document and Text Processing. Université Paris-Saclay, 2025. English. ⟨NNT : 2025UPASG065⟩. ⟨tel-05453281⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Mathieu Laï-King, Patrick Paroubek. Pre-training data selection for biomedical domain adaptation using journal impact metrics. 23rd Workshop on Biomedical Natural Language Processing, Aug 2024, Bangkok, Thailand. pp.363-369, ⟨10.18653/v1/2024.bionlp-1.27⟩. ⟨hal-05447036⟩

STL

Année de publication 2024

Disponible en libre accès

Publication HAL
Rapport

Adrien Berthelot, Tiago da Silva Barros, Laurent Lefèvre, Anne-Laure Ligozat, Emeline Pegon. Multi-criteria and multi-stage environmental study of Pl@ntnet service for the year 2024. Inria Lyon. 2026. ⟨hal-05448455v2⟩

STL

Année de publication 2026

Disponible en libre accès

Publication HAL
Communication dans un congrès

François Buet, Camille Guinaudeau, Cyril Grouin, Sahar Ghannay, Shin’ichi Satoh. XAI for Gender Representation in Media Analysis. 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025), IEEE Signal Processing Society, Apr 2025, Hyderabad, India. pp.1-5, ⟨10.1109/ICASSP49660.2025.10888945⟩. ⟨hal-05442625⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Phrashant Khatri, Hansjörg Mixdorff, Preeti Rao, Albert Rilliard. Recognition of Audio-Visual Attitudes. 36. Konferenz Elektronische Sprachsignalverarbeitung (ESSV), Department of Speech Science and Phonetics of the Institute of Music, Media and Speech Sciences at the Martin Luther University Halle-Wittenberg in Halle/Saale; Central German Association for Speech Science and Speech Education, Mar 2025, Halle / Saale, Germany. pp.19-26. ⟨hal-05426157⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Poster de conférence

Luc Pommeret, Sophie Rosset, Christophe Servan, Sahar Ghannay. AtomicEval: Evaluation Framework for Atomic Proposition Autonomy with French Propositioner. 10th Junior Conference on Data Sciences and Engineering, Sep 2025, Gif-sur-Yvette, France. . ⟨hal-05414939⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Michael Filhol. AZVD as a Sign Language writing system proxy, and the potential evolution. Proceedings of Grapholinguistics in the 21st century, Oct 2024, Venice, Italy. ⟨hal-05344585⟩

STL

Année de publication 2024

Disponible en libre accès

Publication HAL
Autre publication scientifique

Bran Knowles, Vicki L Hanson, Christoph Becker, Mike Berners-Lee, Andrew A Chien, et al.. Climate Change: What is Computing’s Responsibility?. 2025, pp.1-18. ⟨10.4230/DagMan.11.1.1⟩. ⟨hal-05369257⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Quentin Le Tellier, Marc Evrard, Albert Rilliard, Jean-Sylvain Liénard. Impact de la parole expressive sur l’estimation de l’intensité vocale. CFA 2025 – 17e Congrès Français d’Acoustique, Société Française d’Acoustique (SFA), Apr 2025, Paris, France. ⟨hal-05365670⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Jean-Sylvain Liénard, Albert Rilliard, Marc Evrard, Quentin Le Tellier. Variabilité du signal de parole en fonction de la Force de Voix en situation d’interaction orale. CFA 2025 – 17e Congrès Français d’Acoustique, Société Française d’Acoustique (SFA), Apr 2025, Paris, France. ⟨hal-05366097⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL

Toutes les publications

Projets et contrats

Coordination

Membres de l’équipe

Actualités

Publications

Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. Assessing the Difficulty of Inference Types in Natural Language Inference for Clinical Trials. 2026. ⟨hal-05533706⟩

Juan Manuel Coria, Hervé Bredin, Sahar Ghannay, Sophie Rosset, Khaled Zaouk, et al.. Diart: A Python Library for Real-Time Speaker Diarization. Journal of Open Source Software, 2024, 9 (99), pp.5266. ⟨10.21105/joss.05266⟩. ⟨hal-05530961⟩

Clémentine Bleuze, Karën Fort, Vincent P. Martin, Aurélie Névéol. Grands modèles de langue pour la détection de pathologies psychiatriques : promesses, réalité, et enjeux. Journée d’étude “LLM@hopital”, ATALA, Mar 2026, Paris, France. ⟨hal-05532823⟩

Iskandar Boucharenc. Hierarchical Prefixes for Long Document Representations. ECIR, Apr 2025, Lucca, Italy. pp.171-177, ⟨10.1007/978-3-031-88720-8_28⟩. ⟨hal-05530637⟩

Oralie Cattan, Christophe Servan, Sophie Rosset. On the Usability of Transformers-based models for a French Question-Answering task. Joint Conference of the Information Retrieval Communities in Europe (CIRCLE) 2022, Jul 2022, Samatan, France. ⟨hal-03701740⟩

Fanny Ducel. How to define, understand and evaluate stereotypical biases in language models?. Séminaire du groupe de travail Intelligence Artificielle Sûre, Intelligible et Vérifiable (IASIV), Mar 2025, Palaiseau, France. ⟨hal-05467784⟩

Gustave Cortal. Natural language processing for subjectivity analysis in personal narratives. Computation and Language [cs.CL]. Université Paris-Saclay, 2026. English. ⟨NNT : 2026UPASG003⟩. ⟨tel-05501345⟩

Julie Halbout, Annelies Braffort, Michèle Gouiffès. Annotation automatique d’un corpus de Langue des Signes Française. Rencontres Jeunes Chercheurs en Parole (RJCP), Nov 2025, Paris, France. ⟨hal-05495878⟩

Annelies Braffort, Michael Filhol, Michèle Gouiffès, Julie Halbout, Julie Lascar. Sign Language Processing with Linguistic Structure. BMVA Symposium on AIArtificial Intelligence for Sign Language Translation, Production, and Linguistics, Dec 2025, London, United Kingdom. ⟨hal-05495664⟩

Idrissa Mahamoudou Dicko, Nona Naderi. Biomedical hallucination detection of LLMs using Med-HALT and HaloScope frameworks. 10th Junior Conference on Data Sciences and Engineering Conference (JDSE 2025), Sep 2025, Paris, France. ⟨hal-05483690⟩

Fanny Ducel, Karën Fort, Aurélie Névéol. La linguistique appliquée pour une IAIntelligence Artificielle plus éthique. NéALA 2025 – Colloque sur Naturel et Artificiel en Linguistique Appliquée : une époque de paradoxes, Jul 2025, Nancy, France. ⟨hal-05457534⟩

Armand Stricker. Towards More Natural Dialogues : Integrating Chitchat Capabilities into Task-oriented Dialogue Agents. Document and Text Processing. Université Paris-Saclay, 2025. English. ⟨NNT : 2025UPASG065⟩. ⟨tel-05453281⟩

Mathieu Laï-King, Patrick Paroubek. Pre-training data selection for biomedical domain adaptation using journal impact metrics. 23rd Workshop on Biomedical Natural Language Processing, Aug 2024, Bangkok, Thailand. pp.363-369, ⟨10.18653/v1/2024.bionlp-1.27⟩. ⟨hal-05447036⟩

Adrien Berthelot, Tiago da Silva Barros, Laurent Lefèvre, Anne-Laure Ligozat, Emeline Pegon. Multi-criteria and multi-stage environmental study of Pl@ntnet service for the year 2024. Inria Lyon. 2026. ⟨hal-05448455v2⟩

Luc Pommeret, Sophie Rosset, Christophe Servan, Sahar Ghannay. AtomicEval: Evaluation Framework for Atomic Proposition Autonomy with French Propositioner. 10th Junior Conference on Data Sciences and Engineering, Sep 2025, Gif-sur-Yvette, France. . ⟨hal-05414939⟩

Michael Filhol. AZVD as a Sign Language writing system proxy, and the potential evolution. Proceedings of Grapholinguistics in the 21st century, Oct 2024, Venice, Italy. ⟨hal-05344585⟩

Bran Knowles, Vicki L Hanson, Christoph Becker, Mike Berners-Lee, Andrew A Chien, et al.. Climate Change: What is Computing’s Responsibility?. 2025, pp.1-18. ⟨10.4230/DagMan.11.1.1⟩. ⟨hal-05369257⟩

Quentin Le Tellier, Marc Evrard, Albert Rilliard, Jean-Sylvain Liénard. Impact de la parole expressive sur l’estimation de l’intensité vocale. CFA 2025 – 17e Congrès Français d’Acoustique, Société Française d’Acoustique (SFA), Apr 2025, Paris, France. ⟨hal-05365670⟩