PEPR ShareFair – Sharing reliable protocols to transform datasets into gold standards: Application to Neuro-Vascular Pathologies

Obtention :

Date de fin :

Budget : 1799890 €

ANR

Institut Pasteur

Université Paris-Dauphine

Université Claude Bernard Lyon

Université de Rennes

INRIA

CEA

INSERM

CNRS

Sarah Cohen Boulakia

L'accès à une grande diversité de données complémentaires, multi-échelles et massives ouvre des opportunités uniques pour la recherche en santé. Un large éventail d'analyses de données complexes utilisant divers outils à configurer et interconnecter peut être développé sous la forme de workflows. La reproductibilité des résultats obtenus par ces analyses est un enjeu majeur en particulier pour les données de santé. Alors que le partage des données de santé est complexe et se heurte à la problématique de l’échange de données personnelles et à des contraintes techniques fortes, le partage des workflows permet de s’en extraire en ramenant les workflows proches des données et en garantissant des résultats scientifiques comparables car analysés de la même façon. Ces workflows fournissent aussi des traces de provenance des données analysées, décrivant la méthodologie utilisée et renforçant la confiance des scientifiques dans les résultats produits.  Les défis incluent donc la normalisation et l'annotation des ensembles de données et des workflows, l'extraction des workflows à partir de données textuelles et cliniques et leur synthèse en workflows interopérables, partageables et réutilisables. L'originalité de ShareFAIR réside dans le fait d'aborder à la fois la fiabilité des jeux de données et celle des workflows. Plus précisément, ShareFAIR fournira - (WP1) des standards communs et de qualité pour annoter les données, les protocoles, les workflows, et pour fournir une provenance de qualité retraçant l'origine des données, - (WP2) un cadre interopérable pour le partage, l'annotation, la réutilisation de protocoles et workflows fiables (FAIR), - (WP3) des approches pour (i) extraire des workflows à partir de données textuelles afin d'enrichir l'ensemble des workflows et de mieux documenter la provenance des ensembles de données, (ii) apprendre ou extraire des workflows à partir d'ensembles de données biomédicales et cliniques.  Les preuves de concept réalisées seront appliquées à des cas d'utilisation réels liés aux pathologies neuro-vasculaires avec des ensembles de données multi-échelles et des workflows d'analyse complexes.