
Doctorante
Du
Horaire
Lieu LISN Site Belvédère
Science des Données, Thèses et HDR
Orateur : Yuting Feng
Comprendre les émotions des clients dans les interactions de centres d’appels est essentiel pour améliorer l’expérience client et l’efficacité du service. Cependant, la plupart des jeux de données existants sur les émotions en centre d’appels reposent sur des étiquettes catégorielles, ce qui ne permet pas de capturer les fluctuations subtiles au cours d’une conversation. Par ailleurs, il existe peu de jeux de données continus, à grande échelle et disponibles publiquement, pour des interactions en service client dans des conditions réelles.
Pour combler cette lacune, nous présentons CusEmo, un nouveau jeu de données d’émotions, avec des annotations continues et contextuelles, issu de conversations d’un centre d’appels. Notre annotation s’appuie sur la théorie des émotions construites de Lisa Feldman Barrett, selon laquelle les émotions sont générées dynamiquement à partir de l’affect de base et des connaissances conceptuelles. Suivant ce principe, nous annotons en continu la valence et l’arousal au fil du temps, tout en intégrant des informations contextuelles de haut niveau telles que le rôle social, le statut de résolution, l’urgence, l’empathie, l’engagement et la satisfaction, qui façonnent la construction globale des expériences émotionnelles dans les interactions de centre d’appels. Le jeu de données a été annoté par deux annotateurs, étudiants en psychologie, et comprend 470 conversations d’une durée variant de 14 à 311 secondes, totalisant 13,1 heures de parole. Afin d’en assurer l’applicabilité dans des contextes réels, sa conception respecte les principes éthique et responsable.
Au-delà de la création du jeu de données, nous comparons systématiquement trois approches d’extraction de caractéristiques : (1) des descripteurs manuels, (2) des représentations apprises de bout en bout, et (3) des embeddings pré-entraînés. Nous menons des analyses approfondies sur l’impact de différents facteurs sur la performance de la reconnaissance continue des émotions, notamment la longueur des segments, le décalage temporel émotionnel, la modélisation conjointe ou séparée des dimensions émotionnelles des annotateurs, ainsi que l’intégration du contexte conversationnel via l’apprentissage multi-tâches (multi-task learning, MTL).
Enfin, nous comparons les modalités vocale et textuelle en évaluant les performances du modèle audio pré-entraîné wav2vec 2.0 et du modèle textuel pré-entraîné FlauBERT sur la reconnaissance continue des émotions. Cette analyse offre des perspectives pour les futures recherches en reconnaissance multimodale des émotions, et met en lumière les défis clés liés à l’intégration des informations vocales et textuelles. Plus largement, notre travail met en évidence les défis technologiques et éthiques liés aux applications de la reconnaissance des émotions en conditions réelles.
Understanding customer emotions in call center interactions is essential for improving customer experience and service efficiency. However, most existing call center emotion datasets rely on categorical labels, which fail to capture subtle fluctuations throughout a conversation. Furthermore, publicly available large-scale continuous emotion datasets for real-world customer service interactions are lacking.
To bridge this gap, we introduce CusEmo, a novel emotion dataset with contextual and continuous annotations, derived from real-world call center conversations. Our annotation is inspired by Lisa Feldman Barrett’s Theory of Constructed Emotion, which posits that emotions are constructed dynamically based on core affect and conceptual knowledge. Following this principle, we annotate valence and arousal continuously over time, while also incorporating high-level contextual information such as social role, resolution status, urgency, empathy, engagement and satisfaction, which shape the overall construction of emotional experiences in call center interactions. The dataset is double-annotated by trained psychology students and consists of 470 conversations ranging from 14s to 311s, totaling 13.1 hours of speech. To ensure its applicability in real-world contexts, its design follows ethical and responsible development principles.
Beyond dataset creation, we systematically compare three feature extraction approaches: (1) hand-crafted features, (2) end-to-end (E2E) learned representations, and (3) pre-trained embeddings. We conduct extensive analyses on how different factors impact continuous emotion recognition performance, including segment length, emotional time shift, joint vs. separate modeling of emotional dimensions and annotators, and the integration of conversational context using multi-task learning (MTL).
Finally, we compare speech and text modalities by benchmarking the pre-trained audio model (wav2vec 2.0) and the pre-trained text model (FlauBERT) on continuous emotion recognition. This analysis provides insights into future multimodal emotion recognition research and highlights key challenges in integrating speech and textual information. More broadly, our work highlights the technological and ethical challenges associated with real-world applications of emotion recognition.
Doctorante
Professeure à Sorbonne Université
Chercheuse en Intelligence Artificielle
Présidente de la Fondation Blaise Pascal de médiation en mathématique