SEME

SEMantique et Extraction d’information (SEME)

Coordination : Cyril GROUIN

L’équipe SEME (sémantique et extraction d’information) s’intéresse aux problématiques d’accès au sens contenu dans les productions langagières, dans un objectif d’analyse, de compréhension, de modélisation, ou de production. Nous appliquons nos recherches à la modalité écrite, sans restriction sur le support d’origine (texte produit au format électronique, ou provenant d’une transcription de la parole, ou encore d’une reconnaissance optique) et travaillons sur des productions en domaine ouvert ou de spécialité tel que le domaine médical. Nous utilisons des approches aussi bien linguistiques que relevant d’un apprentissage statistique ou neuronal. Précisément sur ce dernier type d’approche, nous nous intéressons au coût environnemental qu’elles génèrent en traitement automatique des langues, tant lors de leur production que lors de leur utilisation.

  • Extraction d’information
  • Corpus et modélisation
  • Sémantique, expressions poly-lexicales

Projets et contrats

L’équipe se compose de 10 membres permanents (chercheurs CNRS, enseignants-chercheurs à l’Université Paris-Saclay, à l’ENSIIE, et à l’Université Sorbonne Paris-Nord), 14 doctorants, et 3 post-doctorants ou CDD. Nous entretenons des liens avec les industriels (thèses en contrat CIFRE, projets de recherche) et organisons régulièrement des manifestations scientifiques (conférence TALN, ateliers et workshops scientifiques, etc.).

Coordination

Membres de l’équipe

Actualités

Publications

  • Thèse

    Virgile Barthet. Extraction d’information et classification de textes cliniques pour la prédiction du risque de décès. Intelligence artificielle [cs.AIArtificial Intelligence]. Université Paris-Saclay, 2026. Français. ⟨NNT : 2026UPASG019⟩. ⟨tel-05599487⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Luc Pommeret, Thomas Gerald, Christophe Servan, Sahar Ghannay, Patrick Paroubek, et al.. Étude des propositionneurs multilingues : formalisation, évaluation et interprétabilité. CORIA-TALN, ARIA; ATALA, Jun 2026, Nantes, France. ⟨hal-05597666⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Mathilde Deletombe, Manon Scholivet, Louis Estève, Thomas Lavergne, Agata Savary. Diversity patterns run deep: Impact of diversity intake on multiword expression identification. 22nd Workshop on Multiword Expressions (MWE 2026), Mar 2026, Rabat, Morocco. pp.110-116, ⟨10.18653/v1/2026.mwe-1.13⟩. ⟨hal-05588681⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Manon Scholivet, Agata Savary, Carlos Ramisch, Eric Bilinski, Takuya Nakamura, et al.. Edition 2.0 of the PARSEME shared task on multilingual identification and paraphrasing of multiword expressions. Proceedings of the 22nd Workshop on Multiword Expressions (MWE 2026), Mar 2026, Rabat, Morocco. pp.254-275, ⟨10.18653/v1/2026.mwe-1.33⟩. ⟨hal-05588684⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Eva Feillet, Ryan Whetten, David Picard, Alexandre Allauzen. POLYNOMIAL MIXING FOR EFFICIENT SELF-SUPERVISED SPEECH ENCODERS. 2026. ⟨hal-05589762⟩

    STL

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Yoshua Bengio, Holger Schwenk, Jean-Sébastien Senécal, Emmanuel Morin, Jean-Luc Gauvain. Neural Probabilistic Language Models. Innovations in Machine Learning: Theory and Applications, 194, pp.137-186, 2005, ⟨10.1007/3-540-33486-6_6⟩. ⟨hal-01434258⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Jean-Luc Gauvain, Abdel Messaoudi, Holger Schwenk. Language Recognition Using Phone Lattices. International Conference on Speech and Language Processing, Oct 2004, Jeju, South Korea. pp.1283–1286. ⟨hal-01434492⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Luc Pommeret, Thomas Gerald, Sophie Rosset, Patrick Paroubek, Christophe Servan, et al.. Les propositions atomiques : un pont entre approches neuronales et symboliques. Journée interprétabilité, GDR TALTraitement Automatique des langues, Mar 2026, Jussieu, Paris, France. ⟨hal-05575718⟩

    STL

    Année de publication

  • Communication dans un congrès

    Luc Pommeret, Thomas Gerald, Patrick Paroubek, Sahar Ghannay, Christophe Servan, et al.. LLM-based Atomic Propositions Help Weak Extractors: Evaluation of a Propositioner for Triplet Extraction. KG-LLM@LREC – Knowledge Graphs and Large Language Models, ELRA, May 2026, Palma De Majorque, Spain. ⟨hal-05572941⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Luc Pommeret, Thibault Wagret, Jules Deret. THIVLVC: Retrieval Augmented Dependency Parsing for Latin. EvaLatin (LT4HALA@LREC), ELRA, May 2026, Palma De Majorque, Spain. ⟨hal-05572961v2⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Jean-Luc Gauvain, Gilles Adda, Lori Lamel, Fabrice Lefèvre, Holger Schwenk. Transcription de la parole conversationnelle. Revue TALTraitement Automatique des langues : traitement automatique des langues, 2005, 45 (3). ⟨hal-01434260⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Jean-Luc Gauvain, Gilles Adda, Martine Adda-Decker, Alexandre Allauzen, Veronique Gendner, et al.. Where are we in transcribing French broadcast news?. Eurospeech, Sep 2005, Lisbonne, Portugal. pp.1665-1668, ⟨10.21437/Interspeech.2005-544⟩. ⟨hal-01434245⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Hélène Bonneau-Maynard, Alexandre Allauzen, Daniel Déchelotte, Holger Schwenk. Combining Morphosyntactic Enriched Representation with n-best Reranking in Statistical Translation. HLT/NACL workshop on Syntax and Structure in Statistical Translation, Apr 2007, Rochester, United States. pp.65-71. ⟨hal-01434104⟩

    STL, TLP

    Année de publication

  • Article dans une revue

    Sophie Rosset, Delphine Tribout, Lori Lamel. Multi-level information and automatic dialog act detection in human-human spoken dialogs. Speech Communication, 2008, 50 (1), pp.1-13. ⟨10.1016/j.specom.2007.05.007⟩. ⟨halshs-00746318⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Duarte M. Alves, André F T Martins, Ayoub Hammal, et al.. EuroBERT: Scaling Multilingual Encoders for European Languages. COLM 2025 – Second Conference on Language Modeling, Oct 2025, Montreal, Canada. pp.1-28. ⟨hal-05226285⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Pierre Lepagnol. Petits modèles génératifs en contexte industriel : Adaptation par prompting avec peu de données. Intelligence artificielle [cs.AIArtificial Intelligence]. Université Paris-Saclay, 2026. Français. ⟨NNT : 2026UPASG011⟩. ⟨tel-05572429⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Ayoub Hammal, Pierre Zweigenbaum, Caio Corro. KAD: A Framework for Proxy-based TestDéfinition courte Lorem ipsum-time Alignment with Knapsack Approximation Deferral. EACL 2026 – 19th Conference of the European Chapter of the Association for Computational Linguistics, Mar 2026, Rabat, Morocco. pp.3854-3872, ⟨10.18653/v1/2026.eacl-long.179⟩. ⟨hal-05571208⟩

    STL

    Année de publication

    Disponible en libre accès

  • Rapport

    Karin Dassas, Cyrille Bonamy, Bruno Bzeznik, Emmanuelle Frenoux, Gaël Guennebaud, et al.. Estimer l’impact carbone des activités numériques d’une unité de recherche. CNRS (EcoInfo). 2026. ⟨hal-05568070⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Jules Françoise, Julie Lascar, Cyril Verrecchia, Sidonie Minodier, Michèle Gouiffès, et al.. LaboSignes: an Interactive French Sign Language Recognition Interface. ACM CHI’26, Apr 2026, Barcelona, Spain. ⟨10.1145/3772363.3799328⟩. ⟨hal-05564455⟩

    AMIArchitectures et modèles pour l'Interaction, ASARD, STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Clément Morand, Jacques Combaz, Aurélie Névéol, Anne-Laure Ligozat. When rebound effect is not a side effect: analyzing sociotechnical contexts of digital technologies. 2026. ⟨hal-05566029⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Julie Lascar, Jules Françoise, Michèle Gouiffès, Annelies Braffort, Diandra Fabre. PoET: Lightweight Pose Encoder Transformer for Online Sign Language Recognition. 21st International Conference on Computer Vision Theory and Applications, Mar 2026, Marbella, Spain. pp.19-28, ⟨10.5220/0014237500004084⟩. ⟨hal-05564749⟩

    AMIArchitectures et modèles pour l'Interaction, STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Baptiste Pras, Nona Naderi. Fine-Grained Mention-Level Analysis of Biomedical Entity Linking Models. Medical Informatics Europe 2026, May 2026, Gênes (Italie), Italy. ⟨hal-05544092⟩

    STL

    Année de publication

    Disponible en libre accès

  • Notice d’encyclopédie ou de dictionnaire

    Albert Rilliard. Fala, emoções e atitudes. Speech Sciences Entries, 2024, https://gepf.falar.org/entries/66. ⟨hal-05474723⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Natalia Grabar, Cyril Grouin. Year 2021: COVID-19, Information Extraction and BERTization among the Hottest Topics in Medical Natural Language Processing. IMIA Yearbook of Medical Informatics, 2022, 31 (01), pp.254-260. ⟨10.1055/s-0042-1742547⟩. ⟨hal-03931852⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Pierre Lepagnol, Sahar Ghannay, Thomas Gerald, Christophe Servan, Sophie Rosset. Format Matters: A Critical Evaluation of Output Formats for Prompting LLMs in SLU and NER. The Fifteenth biennial Language Resources and Evaluation Conference (LREC 2026), May 2026, Palma de Majorque, Spain. ⟨hal-05546569⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Clémentine Bleuze, Fanny Ducel, Maxime Amblard, Karën Fort. COCOA: Creation and Exploratory Investigation of a Corpus of Claims from NLP Articles. LREC 2026 – International Conference on Language Resources and Evaluation, ELRA Language Resources Association, May 2026, Palma de Mallorca, Spain. ⟨hal-05547842⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. Assessing the Difficulty of Inference Types in Natural Language Inference for Clinical Trials. 2026. ⟨hal-05533706v2⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Juan Manuel Coria, Hervé Bredin, Sahar Ghannay, Sophie Rosset, Khaled Zaouk, et al.. Diart: A Python Library for Real-Time Speaker Diarization. Journal of Open Source Software, 2024, 9 (99), pp.5266. ⟨10.21105/joss.05266⟩. ⟨hal-05530961⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Clémentine Bleuze, Karën Fort, Vincent P. Martin, Aurélie Névéol. Grands modèles de langue pour la détection de pathologies psychiatriques : promesses, réalité, et enjeux. Journée d’étude “LLM@hopital”, ATALA, Mar 2026, Paris, France. ⟨hal-05532823⟩

    STL

    Année de publication

    Disponible en libre accès