Du

Horaire

Science des Données, STL, Thèses et HDR

Dimensions mémorielles de l’interaction écrite homme-machine

Une approche cognitive par les modèles mnémoniques pour la détection et la correction des incohérences du système dans les dialogues orientés-tâche

Orateur : Léon-Paul SCHAUB

La thèse a été dirigée par Patrick Paroubek et co-encadrée par Gil Francopoulo puis par Samuel Rumeur. Le jury est composé de :

  • Frédéric Landragin (rapporteur)
  • Chloé Clavel (rapporteure)
  • Yves Lepage (examinateur) 
  • Frédéric Béchet (examinateur) 
  • Magalie Ochs (examinatrice) 
  • Gil Francopoulo (examinateur)
  • Samuel Rumeur, directeur produit de la société Akio (invité)

Il s’agit d’une thèse CIFRE réalisée, en partenariat avec le LISN (anciennement LIMSILaboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur, créé en 1972 et dont les équipes ont rejoint celles du LRI en 2021 pour fonder le LISN.), chez Akio, une entreprise éditrice de logiciels pour l’interaction client omnicananux (SMS, mail, tchat, appels téléphoniques…). L’objectif de cette thèse était d’opérer un transfert industriel des dernières avancées en système de dialogue pour l’implémentation et l’intégration d’un chatbot dans le logiciel d’interaction client appelé Unified afin d’automatiser certaines de ces interactions et faciliter le travail des agents. J’ai résumé la contribution scientifique de la manière suivante :

“Dans ce travail, nous nous intéressons à la place des systèmes de dialogue orientés-tâche à la fois dans le traitement automatique des langues, et dans l’interaction homme-machine. Nous nous concentrons plus particulièrement sur la différence de traitement de l’information et de l’utilisation de la mémoire, d’un tour de parole à l’autre, par l’humain et la machine, pendant une conversation écrite de type clavardage. Après avoir étudié les mécanismes de rétention et de rappel mémoriels chez l’humain durant un dialogue, en particulier dans l’accomplissement d’une tâche, nous émettons l’hypothèse qu’un des éléments susceptible d’expliquer que les performances des machines demeurent en deçà de celles des humains, est la capacité à posséder non seulement une image de l’utilisateur, mais également une image de soi, explicitement convoquée pendant les inférences liées à la poursuite du dialogue. Cela se traduit pour le système par les trois axes suivants. Tout d’abord, par l’anticipation, à un tour de parole donné, du tour suivant de l’utilisateur. Ensuite, par la détection d’une incohérence dans son propre énoncé, facilitée, comme nous le démontrons, par l’anticipation du tour suivant de l’utilisateur en tant qu’indice supplémentaire. Enfin, par la prévision du nombre de tours de paroles restants dans le dialogue afin d’avoir une meilleure vision de la progression du dialogue. C’est que nous appelons le double modèle du système, qui, en prenant en compte la potentielle présence d’une incohérence dans son propre énoncé, représente à la fois l’utilisateur et l’image que le système renvoie à l’utilisateur. Pour mettre en place ces fonctionnalités, nous exploitons les réseaux de mémoire de bout-en-bout, un modèle de réseau de neurones récurrent qui possède la spécificité non seulement de traiter des historiques de dialogue longs (comme un RNN ou un LSTMLong short-term memory) mais également de créer des sauts de réflexion, permettant de filtrer l’information contenue à la fois dans l’énoncé de l’utilisateur et dans celui de l’historique de dialogue. De plus, ces sauts de réflexion servent de mécanisme d’attention “naturel” pour le réseau de mémoire, à la manière d’un décodeur de transformeur. Pour notre étude, nous améliorons, en y ajoutant nos trois fonctionnalités, un type de réseau de mémoire appelé WMM2Seq (réseau de mémoire de travail par séquence). Ce modèle s’inspire des modèles cognitifs de la mémoire, en présentant les concepts de mémoire épisodique, de mémoire sémantique et de mémoire de travail. Il obtient des résultats performants sur des tâches de génération de réponse de dialogue sur les corpus DSTC2 (homme-machine dans le domaine du restaurant) et MultiWOZ (multi-domaine créé avec Magicien d’Oz); ce sont les corpus que nous utilisons pour nos expériences. Le système obtenu grâce à ce modèle se nomme Bi-WMM2Seq. Les trois axes mentionnés précédemment apportent deux contributions principales à l’existant. En premier lieu, ceci complexifie l’intelligence du système de dialogue en le dotant d’un garde-fou (incohérences détectées). En second lieu, cela optimise à la fois le traitement des informations dans le dialogue (réponses plus précises ou plus riches) et la durée de celui-ci. Nous évaluons les performances de notre système avec premièrement les mesures de f-mesure pour les entités détectées à chaque tour de parole, deuxièmement de score BLEU pour la fluidité de l’énoncé du système et troisièmement de taux d’exactitude jointe pour la réussite du dialogue. Les résultats obtenus (+ 7% de F-mesure sur les entités détectées) montrent qu’il serait intéressant d’orienter les recherches vers des modèles de gestion de la mémoire plus cognitifs afin de réduire l’écart de performance dans un dialogue entre l’homme et la machine.”