SEME

SEMantics and Information Extraction (SEME)

Coordination: Cyril GROUIN

The SEME (semantics and information extraction) team is interested in the problems of accessing the meaning contained in language productions, for the purposes of analysis, comprehension, modeling or production. We apply our research to the written modality, without restriction on the original medium (text produced in electronic format, or from a speech transcription, or from optical recognition) and work on productions in open or specialized domains such as the medical field. We use both linguistic and statistical or neural learning approaches. We are particularly interested in the latter type of approach, and in the environmental costs they generate in automatic language processing, both during production and during use.

  • Information extraction
  • Corpus and modeling
  • Sémantics, poly-lexical expressions

The team comprises 10 permanent members (CNRS researchers, lecturers at Université Paris-Saclay, ENSIIE, and Université Sorbonne Paris-Nord), 14 PhD students, and 3 post-docs or fixed-term contracts. We maintain links with industry (theses under CIFRE contracts, research projects) and regularly organize scientific events (TALN conference, scientific workshops, etc.).

Coordination

  • Sciences et Technologies des Langues

    SEME

    Grouin Cyril

    Research Engineer

    Head of SEME

Members

Publications

  • Article dans une revue

    Annelies Braffort. L’héritage scientifique de Patrice Dalle : le traitement automatique des langues des signes au service de l’enseignement en LSF. La main de Thôt : théories, enjeux et pratiques de la traduction, A paraître, 11. ⟨hal-04256752⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Clément Morand, Aurélie Névéol, Anne-Laure Ligozat. MLCA: a tool for Machine Learning Life Cycle Assessment. 2024 International Conference on ICT for Sustainability (ICT4S), Jun 2024, Stockholm, Sweden. ⟨hal-04643414⟩

    STL

    Year of publication

    Available in free access

  • Chapitre d'ouvrage

    Philippe Boula de Mareüil, Antonio Romano, Marc Evrard, Alexandre François. Cartografia di innovazioni rispetto al latino attraverso un atlante sonoro dell’Europa. Erica Autelli. Il patrimonio linguistico storico della Liguria 2, InSedicesimo, pp.51-62, 2024. ⟨hal-04644943⟩

    STL

    Year of publication

    Available in free access

  • Article dans une revue

    Nassim Naderi, Nona Naderi, Huey Chern Boo, Kuan-Huei Lee, Po-Ju Chen. Editorial: Food tourism: culture, technology, and sustainability. Frontiers in Nutrition, 2024, 11 (1), pp.e42630. ⟨10.3389/fnut.2024.1390676⟩. ⟨hal-04644101⟩

    STL

    Year of publication

    Available in free access

  • Pré-publication, Document de travail

    Jenny Copara, Nona Naderi, Gilles Falquet, Douglas Teodoro. A data-driven assessment of biomedical terminology evolution using information theoretical and network analysis approaches. 2024. ⟨hal-04644071⟩

    STL

    Year of publication

  • Communication dans un congrès

    Constant Bonard, Gustave Cortal. Improving Language Models for Emotion Analysis: Insights from Cognitive Science. The 13th edition of the Workshop on Cognitive Modeling and Computational Linguistics (CMCL 2024) co-located with the 62nd Annual Meeting of the Association for Computational Linguistics (ACL 2024), Aug 2024, Bangkok, Thailand. ⟨hal-04624340v2⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Camille Challant, Michael Filhol. Extension d’AZee avec des règles de production concernant les gestes non-manuels pour la langue des signes française. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.410-421. ⟨hal-04623032⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Clémence Sebe, Sarah Cohen-Boulakia, Olivier Ferret, Aurélie Névéol. Extraction d’entités nommées décrivant des chaînes de traitement bioinformatiques dans des articles scientifiques en anglais. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.422-434. ⟨hal-04623033⟩

    BioInfo, STL, STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Rémi Uro, Albert Rilliard, David Doukhan, Marie Tahon, Antoine Laurent. Évaluation perceptive de l’anticipation de la prise de parole lors d’interactions dialogiques en français. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.390-400. ⟨hal-04623090⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Marco Naguib, Aurélie Névéol, Xavier Tannier. Reconnaissance d’entités cliniques en few-shot en trois langues. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.169-197. ⟨hal-04623016⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Maxime Fily, Guillaume Wisniewski, Séverine Guillaume, Gilles Adda, Alexis Michaud. Mesure du niveau de proximité entre enregistrements audio et évaluation indirecte du niveau d’abstraction des représentations issues d’un grand modèle de langage. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.112-121. ⟨hal-04623064⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    François Buet, Camille Guinaudeau, Cyril Grouin, Sahar Ghannay, Shin’Ichi Satoh. Utiliser l’explicabilité des modèles pour mettre en évidence les expressions genrées dans la parole. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.695-707. ⟨hal-04623052⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Atilla Kaan Alkan, Felix Grezes, Cyril Grouin, Fabian Schüssler, Pierre Zweigenbaum. astroECR : enrichissement d’un corpus astrophysique en entités nommées, coréférences et relations sémantiques. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.720-733. ⟨hal-04623049⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Thomas Gerald, Louis Tamames, Sofiane Ettayeb, Patrick Paroubek, Anne Vilnat. CQuAE : Un nouveau corpus de question-réponse pour l’enseignement. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.50-63. ⟨hal-04623009⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Pierre Lepagnol, Thomas Gerald, Sahar Ghannay, Christophe Servan, Sophie Rosset. Les petits modèles sont bons : une étude empirique de classification dans un contexte zero-shot. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.113-129. ⟨hal-04623012v2⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Hugo Boulanger, Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol. Génération contrôlée de cas cliniques en français à partir de données médicales structurées. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.435-448. ⟨hal-04623034⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Emmett Strickland, Anne Lacheret-Dujour, Marc Evrard, Sylvain Kahane, Dana Aubakirova, et al.. De nouvelles méthodes pour l’exploration de l’interface syntaxe-prosodie : un treebank intonosyntaxique et un système de synthèse pour le pidgin nigérian. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.376-383. ⟨hal-04623029⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Nadège Alavoine, Gaëlle Laperrière, Christophe Servan, Sahar Ghannay, Sophie Rosset. Nouvelle tâche sémantique pour le corpus de compréhension de parole en français MEDIA. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.470-480. ⟨hal-04623097⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Nadège Alavoine, Maximin Coavoux, Emmanuelle Esperança-Rodier, Romane Gallienne, Carlos-Emiliano González-Gallardo, et al.. Sur les limites de l’identification par l’humain de textes générés automatiquement. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.18-19. ⟨hal-04623002⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Fanny Ducel, Aurélie Névéol, Karën Fort. Évaluation automatique des biais de genre dans des modèles de langue auto-régressifs. TALN 2024, Jul 2024, Toulouse, France. ⟨hal-04621134⟩

    STL

    Year of publication

    Available in free access

  • Poster de conférence

    Saumya Yadav, Élise Lincker, Caroline Huron, Martin Stéphanie, Camille Guinaudeau, et al.. Vers une pédagogie inclusive : une classification multimodale des illustrations de manuels scolaires pour des environnements d’apprentissage adaptés. JEP TALN RECITAL 2024, Jul 2024, Toulouse, France. ⟨hal-04613698⟩

    STL

    Year of publication

    Available in free access

  • N°spécial de revue/special issue

    Pierre Zweigenbaum, Nicolas Maudet, Philippe Morignot, Laurent Vercouter. PFIA 2015. Bulletin de l’Association Française pour l’Intelligence Artificielle, 90, 2015, Association Française d’Intelligence Artificielle. ⟨hal-04595440⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Camille Challant, Michael Filhol. Extending AZee with Non-manual Gesture Rules for French Sign Language. 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), May 2024, Turin, Italy. pp.7007-7016. ⟨hal-04594830⟩

    STL

    Year of publication

    Available in free access

  • Thèse

    Saulo Mendes Santos. How to deal with Discourse Markers : a prosodic, corpus-based, computational and experimental proposal. Computation and Language [cs.CL]. Université Paris-Saclay; Universidade federal de Minas Gerais, 2024. English. ⟨NNT : 2024UPASG013⟩. ⟨tel-04594427⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Julie Lascar, Michèle Gouiffès, Annelies Braffort, Claire Danet. Annotation of LSF subtitled videos without a pre-existing dictionary. LREC-COLING 2024 11th Workshop on the Representation and Processing of Sign Languages: Evaluation of Sign Language Resources, May 2024, Turin (IT), Italy. pp.100-108. ⟨hal-04593866⟩

    AMIArchitectures et modèles pour l'Interaction, STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Julie Halbout, Diandra Fabre, Yanis Ouakrim, Julie Lascar, Annelies Braffort, et al.. Matignon-LSF: a Large Corpus of Interpreted French Sign Language. LREC-COLING 2024 11th Workshop on the Representation and Processing of Sign Languages: Evaluation of Sign Language Resources, May 2024, Turin, Italy. pp.202-208. ⟨hal-04593865⟩

    AMIArchitectures et modèles pour l'Interaction, STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Maxime Fily, Guillaume Wisniewski, Séverine Guillaume, Gilles Adda, Alexis Michaud. Mesure du niveau de proximité entre enregistrements audio et évaluation indirecte du niveau d’abstraction des représentations issues d’un grand modèle de langage. JEP TALN RECITAL 2024, Association Française de la Communication Parlée (AFCP), Jul 2024, Toulouse, France. ⟨hal-04583516⟩

    STL

    Year of publication

  • Communication dans un congrès

    Clément Morand, Anne-Laure Ligozat, Aurélie Névéol. Bracing for impact: on-going digitalization of healthcare requires urgent characterization of impact on environment and beyond. Undone Computer Science, Guillaume Munch-Maccagnoni; Chantal Enguehard; Maël Pégny; Marc Anderson, Feb 2024, Nantes (France), France. ⟨hal-04579545⟩

    STL

    Year of publication

    Available in free access

  • Pré-publication, Document de travail

    Leticia Rebollo Couto, Albert Rilliard. Variación pragmática, traducción audiovisual y estrategias conversacionales para el doblaje: léxico coloquial y palabras tabús – Anexos. 2024. ⟨hal-04578522⟩

    STL

    Year of publication

  • Communication dans un congrès

    Rabab Alkhalifa, Hsuvas Borkakoty, Romain Deveaud, Alaa El-Ebshihy, Luis Espinosa-Anke, et al.. LongEval: Longitudinal Evaluation of Model Performance at CLEF 2024. Advances In Information Retrieval (ECIR 2024), Mar 2024, Glasgow (Ecosse), United Kingdom. pp.60-66, ⟨10.1007/978-3-031-56072-9_8⟩. ⟨hal-04577466⟩

    STL

    Year of publication

  • Article dans une revue

    Boya Zhang, Nona Naderi, Rahul Mishra, Douglas Teodoro. Online Health Search Via Multidimensional Information Quality Assessment Based on Deep Language Models: Algorithm Development and Validation. JMIR AI, 2024, 3, pp.e42630. ⟨10.2196/42630⟩. ⟨hal-04574791⟩

    STL

    Year of publication

    Available in free access

  • Article dans une revue

    Hossein Rouhizadeh, Irina Nikishina, Anthony Yazdani, Alban Bornet, Boya Zhang, et al.. A Dataset for Evaluating Contextualized Representation of Biomedical Concepts in Language Models. Scientific Data , 2024, 11 (1), pp.455. ⟨10.1038/s41597-024-03317-w⟩. ⟨hal-04574786⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Maxime Fily, Guillaume Wisniewski, Séverine Guillaume, Gilles Adda, Alexis Michaud. Establishing degrees of closeness between audio recordings along different dimensions using large-scale cross-lingual models. Findings of the Association for Computational Linguistics: EACL 2024, Association for Computational Linguistics, Mar 2024, St. Julian’s, Malta. ⟨hal-04561819⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Hugo Boulanger, Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol. Using Structured Health Information for Controlled Generation of Clinical Cases in French. The 6th Clinical Natural Language Processing Workshop At NAACL 2024 (ClinicalNLP 2024), Jun 2024, Mexico city, Mexico. ⟨hal-04558890⟩

    STL

    Year of publication

    Available in free access

  • Pré-publication, Document de travail

    Marion Ficher, Tom Bauer, Anne-Laure Ligozat. A comprehensive review of the end-of-life modeling in LCAs of digital equipment. 2024. ⟨hal-04555155⟩

    STL, STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Nicolas Hiebel, Bertrand Remy, Bruno Guillaume, Olivier Ferret, Aurélie Névéol, et al.. Hostomytho: A GWAP for Synthetic Clinical Texts Evaluation and Annotation. Games and Natural Language Processing Workshop at LREC-COLING 2024, May 2024, Turin, Italy, May 2024, Turin (Italie), Italy. ⟨hal-04555052⟩

    STL

    Year of publication

    Available in free access

  • Thèse

    Oralie Cattan. Systèmes de questions-réponses interactifs à grande échelle. Informatique [cs]. Université Paris-Saclay (2020-..), 2022. Français. ⟨NNT : ⟩. ⟨tel-04551072⟩

    STL

    Year of publication

  • Article dans une revue

    Luma da Silva Miranda, João Antônio de Moraes, Albert Rilliard. Visual channel facilitates the comprehension of the intonation of Brazilian Portuguese wh-questions and wh-exclamations: evidence from congruent and incongruent stimuli. Language and Cognition, 2024, pp.1-21. ⟨10.1017/langcog.2024.16⟩. ⟨hal-04538371⟩

    STL

    Year of publication

    Available in free access

  • Pré-publication, Document de travail

    Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. SEME at SemEval-2024 Task 2: Comparing Masked and Generative Language Models on Natural Language Inference for Clinical Trials. 2024. ⟨hal-04536273⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Djegdjiga Amazouz, Martine-Adda Decker, Lori Lamel. Variation du voisement des occlusives orales en code-switching: analyses par ABX automatique et mesures acoustiques. Journées d’Études sur la Parole – JEP2022, Jun 2022, Noirmoutier, France. ⟨hal-03703081⟩

    STL

    Year of publication

    Available in free access

  • Pré-publication, Document de travail

    Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. SEME at SemEval-2024 Task 2: Comparing Masked and Generative Language Models on Natural Language Inference for Clinical Trials. 2024. ⟨hal-04536600⟩

    STL

    Year of publication

  • Communication dans un congrès

    Karën Fort, Laura Alonso Alemany, Luciana Benotti, Julien Bezançon, Claudia Borg, et al.. Your Stereotypical Mileage may Vary: Practical Challenges of Evaluating Biases in Multiple Languages and Cultural Contexts. The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation, May 2024, Turin (Italie), Italy. ⟨hal-04537096⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Paul Lerner, Cyril Grouin. INCLURE: a Dataset and Toolkit for Inclusive French Translation. The 17th Workshop on Building and Using Comparable Corpora (BUCC @ LREC 2024), 2024, Turin, Italy. ⟨hal-04531938⟩

    STL

    Year of publication

    Available in free access

  • Proceedings/Recueil des communications

    Karën Fort, Aurélie Névéol. Ethics and NLP: 10 years after. Journée d’études ATALA “éthique et TALTraitement Automatique des langues : 10 ans après”, 2024. ⟨hal-04533870⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Paul Lerner, Olivier Ferret, Camille Guinaudeau. Cross-modal Retrieval for Knowledge-based Visual Question Answering. 46th European Conference on Information Retrieval (ECIR 2024), 2024, Glasgow, United Kingdom. ⟨hal-04384431⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Tomohiro Nishiyama, Lisa Raithel, Roland Roller, Pierre Zweigenbaum, Eiji Aramaki. Assessing Authenticity and Anonymity of Synthetic User-generated Content in the Medical Domain. Workshop on Computational Approaches to Language Data Pseudonymization (CALD-pseudo), Mar 2024, St. Julian’s, Malta. pp.8-17. ⟨hal-04528240⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Nadège Alavoine, Gaëlle Laperriere, Christophe Servan, Sahar Ghannay, Sophie Rosset. New Semantic Task for the French Spoken Language Understanding MEDIA Benchmark. The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), May 2024, Torino, Italy. ⟨hal-04523286⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Nesrine Bannour, Christophe Servan, Aurélie Névéol, Xavier Tannier. A Benchmark Evaluation of Clinical Named Entity Recognition in French. The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), May 2024, Torino, Italy. ⟨hal-04523267⟩

    STL

    Year of publication

    Available in free access

  • Communication dans un congrès

    Christophe Servan, Sahar Ghannay, Sophie Rosset. mALBERT: Is a Compact Multilingual BERT Model Still Worth It?. The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation, May 2024, Torino, Italy. ⟨hal-04520797⟩

    STL

    Year of publication

    Available in free access