Modélisation automatique de zones d’intérêt dans des corpus oraux pour la recherche en sciences humaines et sociales

Type de poste : CDD

Co-encadrement : Ioana Vasilescu, Marc Evrard

Publié le 22 mai 2025

Contexte

Ce sujet de doctorat en informatique et linguistique de corpus s’inscrit dans le cadre du projet VOLI (Voices from Online Labour: Inequalities in digital earning activities across countries), financé par l’ANR pour la période 2024–2028, et coordonné au LISN par Ioana Vasilescu. Ce projet interdisciplinaire combine de manière novatrice des hypothèses et des méthodes issues de la sociologie, de la linguistique de corpus à grande échelle, ainsi que des technologies de la parole et de l’intelligence artificielle. En plus de questionner les enjeux économiques et sociaux liés au travail sur plateformes numériques, VOLI s’intéresse aux variations linguistiques dans la langue parlée des travailleurs de ces plateformes (décrits comme « micro-travailleurs de l’IAIntelligence Artificielle »), en enrichissant les corpus avec des métadonnées issues d’enquêtes sociologiques. Parallèlement, VOLI contribue au développement de nouveaux outils pour l’analyse de la variation en langue parlée et le traitement automatique de l’oral.

Objectifs

Ce projet de thèse s’appuie sur les données du volet sociologique du projet ANR VOLI et vise à développer une méthodologie d’analyse et de modélisation de données verbales pour les SHS. Il s’agit de concevoir un outil d’aide à la recherche permettant l’identification automatique de « zones d’intérêt » dans des corpus oraux. La preuve de concept portera sur un corpus d’entretiens en espagnol réalisés auprès de micro-travailleurs d’Amérique latine, enrichi de métadonnées socio-démographiques. L’analyse combinera indices linguistiques (segmentaux, supra-segmentaux, expressifs) et modélisation automatique, avec validation par des chercheurs en SHS et comparaison à d’autres corpus. L’objectif final est de proposer une approche généralisable et partiellement automatisée pour faciliter l’analyse qualitative de corpus oraux en SHS, tout en encourageant une réflexion critique sur les pratiques interprétatives.

Missions

Le/la doctorant.e se focalisera sur les actions suivantes :
– Analyse et modélisation statistique de la variation acoustique et prosodique de l’oral
– Construction de patrons de variation selon différentes variables
– Modélisation de l’expressivité
– Détection automatique des zones dites « expressives » ou « d’intérêt » à l’aide d’algorithmes de classification, de segmentation ou d’apprentissage automatique et implémentation de modèles IAIntelligence Artificielle/ML pour automatiser l’identification

Profil du/de la doctorant.e

Master (M2 ou équivalent) en TALTraitement Automatique des langues ou linguistique avec une forte composante/connaissances en informatique.
Compétences informatiques : TALTraitement Automatique des langues (Python, Praat, OpenSMILE, etc.), modélisation statistique, classification, apprentissage automatique.
Compétences en linguistique et sciences affectives : linguistique de corpus, phonétique expérimentale, modélisation de l’expressivité etc. Les connaissances en sociolinguistique appliquées à la variation de l’oral représentent un plus.

Candidature

Vous pouvez candidater via le portail emploi du CNRS (référence UMR9015-IOAVAS-014) ou en envoyant un CV à ioana.vasilescu@lisn.fr, marc.evrard@lisn.fr

Lieu de déroulement de la thèse et conditions matérielles

La thèse se déroulera au LISN (Campus Universitaire bâtiment 507, Rue du Belvédère, 91405 Orsay). Salaire brut env. 2200 euros/mois.

Contact

Sciences et Technologies des Langues

LIPSLangue Interaction Parole et Signes

Vasilescu Ioana

Directrice de recherche (DR2)

Responsable équipe LIPSLangue Interaction Parole et Signes

Linguistique de corpus, variations de l'oral, corpus multilingues

Page personnelle
Sciences et Technologies des Langues

LIPSLangue Interaction Parole et Signes, M3

Evrard Marc

Maitre de conférences

Page personnelle