Thèse

Modélisation automatique des variations linguistiques pour des robots socialement réactifs

Type de poste : CDD

Offre doctorat en informatique au CEA LIST et LISN CNRS, Saclay ; Co-encadrement : Ioana Vasilescu (LISN CNRS), Bianca Vieru, Gaël de Chalendar, Romaric Besançon (CEA LIST)

Publié le

Contexte

Les agents conversationnels, de plus en plus utilisés grâce aux avancées en NLP et en intelligence artificielle, peinent encore à reproduire la complexité de la communication humaine, notamment dans sa dimension sociale et contextuelle. Cette thèse vise à modéliser automatiquement la variation linguistique pour concevoir des agents capables d’adapter leur langage aux caractéristiques socio-démographiques et émotionnelles de leurs interlocuteurs. Elle explore également l’exploitation conjointe du langage oral et écrit, l’évaluation d’indices linguistiques pertinents, et la généralisation à partir de données multilingues et variées.
La thèse s’inscrit dans les actions du PEPR Sharp IA (https://www.pepr-ia.fr/projet/sharp/).

Objectifs

Cette thèse s’appuie sur un état de l’art et sur une expertise interdisciplinaire—depuis la modélisation linguistique de la variation de la parole jusqu’à l’analyse automatique des interactions humain–systèmes automatiques –  pour proposer une modélisation automatique d’indices linguistiques verbaux et non-verbaux en fonction de facteurs liés à l’expressivité et aux caractéristiques socio-démographiques des interlocuteurs humains.

Le travail de thèse portera sur les questions de recherche suivantes :   

  • Comment représenter la variation phonétique, supra-segmentale, lexicale, syntaxique et discursive, tout en tenant compte des phénomènes non verbaux (disfluences, accents régionaux ou étrangers, etc.) dans une interaction humain–chatbot ?
  • Quels repères linguistiques permettent à un agent de s’adapter aux états social, émotionnel et cognitif de l’utilisateur ? Ces indices peuvent-ils favoriser l’adaptation culturelle et sociale, l’apprentissage dynamique des schémas d’interaction et la réactivité affective ?
  • Comment tirer parti des données multilingues et multisituationnelles disponibles ? Quelles méthodes employer pour construire de nouveaux jeux de données ou enrichir les annotations existantes ?

Missions

Le/la doctorant.e se focaliser sur les actions suivantes :

  • Modéliser l’interaction entre les dimensions verbales et non verbales du langage parlé, tout en prenant en compte les indices en lien avec l’expressivité (état émotionnel du locuteur) et les caractéristiques socio-démographiques de l’interlocuteur humain
  • Développer des modèles statistiques généralisables qui prennent en compte les facteurs évoqués et la variabilité inter-corpus
  • Mettre en œuvre des méthodes de détection automatique de clusters à partir des caractéristiques linguistiques multidimensionnelles identifiées
  • Améliorer l’alignement entre l’utilisateur et l’agent conversationnel
  • Évaluer les solutions proposées à l’aide de benchmarks existants, ainsi que de nouvelles ressources qui pourraient émerger au cours de la thèse.

Profil du/de la doctorant.e

  • Master (M2 ou équivalent) dans un domaine pertinent, tel que l’apprentissage automatique, la vision par ordinateur, le traitement automatique du langage naturel, les mathématiques appliquées, ou un domaine proche, obtenu au cours des deux dernières années.
  • Expérience préalable en apprentissage automatique, en particulier en apprentissage profond, incluant la capacité à lire, comprendre et expliquer un article scientifique publié dans une conférence de haut niveau
  • Compétences en communication orale et écrite en anglais
  • Solides compétences en programmation Python (notamment une bonne maîtrise d’un framework d’apprentissage profond, idéalement PyTorch)
  • Une/des publications pertinentes pour le sujet pendant le master représente un plus

Candidature

Envoyez un CV détaillé et une lettre de motivation à phd-recruitment@saxifrage.saclay.cea.fr

Lieu de déroulement de la thèse et conditions matérielles

La thèse se déroulera au CEA LIST – Site DIGITEO Saclay. Des réunions régulières sont prévues au LISN (Campus Universitaire bâtiment 507, Rue du Belvédère, 91405 Orsay).
Salaire brut env. 2400 euros/mois.

Contact