SEME

SEMantique et Extraction d’information

Coordination : Cyril GROUIN

L’équipe SEME (sémantique et extraction d’information) s’intéresse aux problématiques d’accès au sens contenu dans les productions langagières, dans un objectif d’analyse, de compréhension, de modélisation, ou de production. Nous appliquons nos recherches à la modalité écrite, sans restriction sur le support d’origine (texte produit au format électronique, ou provenant d’une transcription de la parole, ou encore d’une reconnaissance optique) et travaillons sur des productions en domaine ouvert ou de spécialité tel que le domaine médical. Nous utilisons des approches aussi bien linguistiques que relevant d’un apprentissage statistique ou neuronal. Précisément sur ce dernier type d’approche, nous nous intéressons au coût environnemental qu’elles génèrent en traitement automatique des langues, tant lors de leur production que lors de leur utilisation.

  • Extraction d’information
  • Corpus et modélisation
  • Sémantique, expressions poly-lexicales

L’équipe se compose de 10 membres permanents (chercheurs CNRS, enseignants-chercheurs à l’Université Paris-Saclay, à l’ENSIIE, et à l’Université Sorbonne Paris-Nord), 14 doctorants, et 3 post-doctorants ou CDD. Nous entretenons des liens avec les industriels (thèses en contrat CIFRE, projets de recherche) et organisons régulièrement des manifestations scientifiques (conférence TALN, ateliers et workshops scientifiques, etc.).

Coordination

  • Sciences et Technologies des Langues

    SEME

    Grouin Cyril

    Ingénieur de recherche HDR

    Responsable de l'équipe SEME

    Co-responsable de la Commission Locaux

Membres de l’équipe

Actualités

Publications

  • Communication dans un congrès

    Shu Okabe, François Yvon. LISN @ SIGMORPHON 2023 Shared Task on Interlinear Glossing. The 20th SIGMORPHON workshop on Computational Morphology, Phonology, and Phonetics, Association for computational linguistics, Jul 2023, Toronto, Canada. ⟨10.18653/v1/2023.sigmorphon-1.21⟩. ⟨hal-04186388⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Philippe Boula de Mareüil, Marcel Courthiade, Frédéric Vernier. De la Provence aux Balkans : discours épilinguistiques autour d’un atlas sonore des langues régionales ou minoritaires d’Europe. Annie Rialland; Michela Russo. Les langues régionales de France. Nouvelles approches, nouvelles méthodologie, revitalisation, Éditions de la Société de Linguistique de Paris, pp.247-283, 2023, 9782957089420. ⟨hal-04176590⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Théo GIGANT, Frédéric Dufaux, Camille Guinaudeau, Marc Decombas. TIB: A Dataset for Abstractive Summarization of Long Multimodal Videoconference Records. 20th International Conference on Content-based Multimedia Indexing (CBMI 2023), ACM, Sep 2023, Orléans, France. ⟨hal-04168911⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Gilles Adda, Ioana Vasilescu, François Yvon. Language Report French. Georg Rehm; Andy Way. European Language Equality. A Strategic Agenda for Digital Language Equality, Springer International Publishing, pp.139-142, 2023, Cognitive Technologies, 978-3-031-28818-0. ⟨10.1007/978-3-031-28819-7_16⟩. ⟨hal-04121465⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Xinying Chen, Kim Gerdes, Sylvain Kahane, Marine Courtin. The co-effect of Menzerath-Altmann law and heavy constituent shift in natural languages. Quantitative Approaches to Universality and Individuality in Language, De Gruyter, pp.11-24, 2022, ⟨10.1515/9783110763560-002⟩. ⟨hal-04099935⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Gustave Cortal, Alain Finkel, Patrick Paroubek, Lina Ye. Emotion Recognition based on Psychological Components in Guided Narratives for Emotion Regulation. Association for Computational Linguistics, May 2023, Dubrovnik, Croatia. pp.72-81. ⟨hal-04094814⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Anne Lacheret-Dujour, Sylvain Kahane, Rachel Bawden, Serge Fleury, Ilaine Wang. Exploration of the Rhapsodie corpus: Data structure, formats and query tools. Rhapsodie, 89, John Benjamins Publishing Company, pp.271-283, 2019, Studies in Corpus Linguistics, 9789027262929. ⟨10.1075/scl.89.16lac⟩. ⟨hal-04088638⟩

    STL, TLP

    Année de publication

  • Chapitre d'ouvrage

    Sylvain Kahane, Anne Lacheret-Dujour. Syntax and prosody mapping: What and how ?: The case of intonational periods and illocutionary units. Rhapsodie, 89, John Benjamins Publishing Company, pp.339-363, 2019, Studies in Corpus Linguistics, 9789027262929. ⟨10.1075/scl.89.19kah⟩. ⟨hal-04088654⟩

    ILES, STL

    Année de publication

  • Communication dans un congrès

    Anisia Popescu, Elina Rubertus, Aude Noiray. Differences in reading proficiency correlate with variations in vowel duration and dynamics. 8th International Conference onSpeech Motor Control 2022, Aug 2022, Groningen, The Netherlands, Netherlands. ⟨hal-04086093⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Shu Okabe, François Yvon. Joint Word and Morpheme Segmentation with Bayesian Non-Parametric Models. 17th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2023), Association for Computational Linguistics, May 2023, Dubrovnik, Croatia. pp.628-642. ⟨hal-04086368⟩

    STL, TLP

    Année de publication

    Disponible en libre accès