
Directrice de recherche (DR2)
Responsable équipe LIPSLangue Interaction Parole et Signes
Linguistique de corpus, variations de l'oral, corpus multilingues
Thèse
Type de poste : CDD
Publié le
Ce sujet de doctorat en informatique et linguistique de corpus s’inscrit dans le cadre du projet VOLI (Voices from Online Labour: Inequalities in digital earning activities across countries), financé par l’ANR pour la période 2024–2028, et coordonné au LISN par Ioana Vasilescu. Ce projet interdisciplinaire combine de manière novatrice des hypothèses et des méthodes issues de la sociologie, de la linguistique de corpus à grande échelle, ainsi que des technologies de la parole et de l’intelligence artificielle. En plus de questionner les enjeux économiques et sociaux liés au travail sur plateformes numériques, VOLI s’intéresse aux variations linguistiques dans la langue parlée des travailleurs de ces plateformes (décrits comme « micro-travailleurs de l’IA »), en enrichissant les corpus avec des métadonnées issues d’enquêtes sociologiques. Parallèlement, VOLI contribue au développement de nouveaux outils pour l’analyse de la variation en langue parlée et le traitement automatique de l’oral.
Ce projet de thèse s’appuie sur les données du volet sociologique du projet ANR VOLI et vise à développer une méthodologie d’analyse et de modélisation de données verbales pour les SHS. Il s’agit de concevoir un outil d’aide à la recherche permettant l’identification automatique de « zones d’intérêt » dans des corpus oraux. La preuve de concept portera sur un corpus d’entretiens en espagnol réalisés auprès de micro-travailleurs d’Amérique latine, enrichi de métadonnées socio-démographiques. L’analyse combinera indices linguistiques (segmentaux, supra-segmentaux, expressifs) et modélisation automatique, avec validation par des chercheurs en SHS et comparaison à d’autres corpus. L’objectif final est de proposer une approche généralisable et partiellement automatisée pour faciliter l’analyse qualitative de corpus oraux en SHS, tout en encourageant une réflexion critique sur les pratiques interprétatives.
Le/la doctorant.e se focalisera sur les actions suivantes :
– Analyse et modélisation statistique de la variation acoustique et prosodique de l’oral
– Construction de patrons de variation selon différentes variables
– Modélisation de l’expressivité
– Détection automatique des zones dites « expressives » ou « d’intérêt » à l’aide d’algorithmes de classification, de segmentation ou d’apprentissage automatique et implémentation de modèles IA/ML pour automatiser l’identification
Vous pouvez candidater via le portail emploi du CNRS (référence UMR9015-IOAVAS-014) ou en envoyant un CV à ioana.vasilescu@lisn.fr, marc.evrard@lisn.fr
La thèse se déroulera au LISN (Campus Universitaire bâtiment 507, Rue du Belvédère, 91405 Orsay). Salaire brut env. 2200 euros/mois.
Directrice de recherche (DR2)
Responsable équipe LIPSLangue Interaction Parole et Signes
Linguistique de corpus, variations de l'oral, corpus multilingues
Maitre de conférences