Budget : 1 007 697 €
ANR
INRIA (coord)
Université de Tours
Université Orléans
Université Paris Dauphine
Fatiha Sais
LaHDAK
Les journalistes doivent souvent analyser des quantités massives de données numériques, par exemple, des dizaines de milliers de fichiers (textes, feuilles de calcul, etc.), pour comprendre ce que contiennent les données et en tirer des enseignements (comme pour les Paradise Papers). Actuellement, plusieurs systèmes doivent être utilisés, et les techniques de l’état de l’art sont spécifiques à un seul modèle de données. L'exploitation de plusieurs jeux de données soulève des problèmes d'extraction d'information et de passage à l'échelle. Le projet TopOL (Top of the lake) vise à aider ces utilisateurs sans compétences techniques à explorer et analyser un grand nombre de jeux de données hétérogènes. En répondant à des requêtes en langage naturel, TopOL renverra des entités (des objets complexes et structurés), avec leurs relations, en reflétant les intérêts de l'utilisateur. Nous utiliserons des graphes au niveau conceptuel et logique, ainsi que de l'extraction d'information basée sur des modèles de langage, pour montrer les données sous forme d'entités et de relations. Lors de l'ingestion dans le lac de données, les jeux de données seront automatiquement profilés, organisés et regroupés en fonction des connexions et de leurs similitudes. A l'exploration, les entités et les relations seront récupérées à partir des sources du lac de données et classées en fonction des intérêts de l'utilisateur. Des étapes d'exploration seront recommandées : parcourir une relation, élargir ou restreindre un ensemble d'entités, montrer des motifs inattendus dans les données, etc. Nous mettrons en place un cluster pour héberger les jeux de données et tester nos algorithmes, et aborderons les problèmes de passage à l'échelle. Les cas d'utilisation viseront les journalistes. Le Consortium international des journalistes d'investigation accepte de partager avec nous certains jeux de données. Le résultat de TopOL comprendra du code et des modèles ouverts, ainsi que des jeux de données.