TLP

Caractérisation du locuteur dans un contexte multimedia

Membres : Hervé Bredin, Gilles Adda, Claude Barras, Camille Guinaudeau, Guillaume Wisniewski, Ruiqing YIN

Les activités du thème “Caractérisation du locuteur dans un contexte multimédia” se sont développées principalement selon trois grands axes :

Les travaux sur la segmentation et le regroupement en locuteurs dans les documents audio, en retrait ces dernières années, ont été relancés. En particulier, il s’agit de repenser les approches classiquement utilisées pour le traitement des journaux radio- ou télé-diffusés, qui atteignent leurs limites quand elles sont appliquées à d’autres types de contenus (films, séries TV, enregistrements de réunions). Dans le cadre du projet ANR-SNSF/ODESSA (2016-2019), nous étudions l’apport des approches neuronales et des techniques d’apprentissage structuré pour le traitement en flux. Nous avons en particulier démontré l’efficacité des réseaux de neurones récurrents pour les tâches de segmentation et représentation des tours de parole.
La composante “multimédia” a émergé avec la tâche “Multimodal Person Discovery in Broadcast TV” que nous avons organisée lors des campagnes d’évaluation MediaEval 2015 et 2016 en lien avec le projet CHIST-ERA/CAMOMILE (2012- 2016). Dans ce cadre, nous avons montré qu’il est possible d’identifier de façon non supervisée (c’est-à-dire sans faire appel à des modèles biométriques préalablement entraînés sur des données annotées manuellement) la grande majorité des personnes intervenant à la télévision – en combinant reconnaissance de visage, segmentation et regroupement en locuteur, et reconnaissance optique des noms de personnes. Le projet ANR-DFG/PLUMCOT qui a débuté en 2016 vise à développer cette thématique, et en particulier à étudier l’apport du traitement automatique de la langue pour l’identification nommée du locuteur : il s’agit ici d’inférer l’identité des personnages à partir de la structure et du contenu des dialogues.
Enfin, une nouvelle activité portant sur la structuration sémantique de contenus audio-visuels (films, séries TV) a vu le jour, où la composante « traitement automatique de la langue » prend une place importante. Il s’agit de tirer profit des différentes méta-données textuelles (transcription manuelle, sous-titre, résumé, etc.) pour structurer automatiquement ce type de contenu (Bredin et al., J. Multimedia Information Retrieval, 2014). Les premiers travaux dans cette direction ont été menés dans le cadre du projet ANR/MetaDaTV (2015-2018).
Un axe transverse portant sur la question de l’évaluation des technologies multimédia rapproche ces trois grands axes thé¬matiques. En particulier, un effort particulier a été mené autour de la question de la recherche reproductible, au travers du développement de la plateforme CAMOMILE d’annotation collaborative de documents multimédia, de la bibliothèque libre pyannote pour l’évaluation des différentes technologies développées, et évidemment de la campagne d’évaluation comparative MediaEval.