Pipelines d’Analyse Bioinformatiques : solutions offertes par les systèmes de workflows, cadre de représentation et étude de la réutilisation

Soutenance de thèse

Orateur : Marine Djaffardjy

La bioinformatique est un domaine multidisciplinaire qui combine biologie, informatique et statistiques, permettant de mieux comprendre les mécanismes du vivant. Son fondement repose essentiellement sur l’analyse des données biologiques. L’émergence de nouvelles technologies, en particulier les avancées majeures dans le domaine du séquençage, a entraîné une croissance exponentielle des données, posant de nouveaux défis en matière d’analyse et de gestion des données. Pour exploiter ces données, des pipelines sont utilisés, enchaînant des outils et des processus informatiques pour conduire les analyses de manière fiable et efficace. Cependant, la crise de la reproductibilité dans la recherche scientifique souligne la nécessité de rendre les analyses reproductibles et réutilisables par des tiers. Les systèmes de workflows scientifiques ont émergé comme une solution pour rendre les pipelines plus structurés, compréhensibles et reproductibles. Les workflows décrivent des procédures en plusieurs étapes coordonnant des tâches et leurs dépendances de données. Ces systèmes aident les bioinformaticiens à concevoir et exécuter des workflows, et facilitent leur partage et réutilisation. En bioinformatique, les systèmes de workflows les plus populaires sont Galaxy, Snakemake, et Nextflow. Cependant, la réutilisation des workflows fait face à des difficultés, notamment l’hétérogénéité des systèmes de workflows, le manque d’accessibilité des workflows et le besoin de bases de données publiques de workflows. De plus, l’indexation et le développement de moteurs de recherche de workflows sont nécessaires pour faciliter la recherche et la réutilisation des workflows. Dans un premier temps, nous avons développé une méthode d’analyse des spécifications de workflows afin d’extraire plusieurs caractéristiques représentatives à partir d’un ensemble de données de workflows. Notre objectif était de proposer un cadre standard pour leur représentation, indépendamment de leur langage de spécification. Dans un second temps, nous avons sélectionné un ensemble de caractéristiques de ces workflows et les avons indexées dans une base de données relationnelle, puis dans un format structuré sémantique. Enfin, nous avons mis en place une approche pour détecter les similarités entre les workflows et les processeurs, permettant ainsi d’observer les pratiques de réutilisation adoptées par les développeurs de workflows.

Jury

Rapporteurs :
- Olivier Dameron, PR, Université de Rennes, Irisa
- Pierre Poulain, MdC HDR, Université Paris cité, institut Jacques Monod
Examinateurs :
- Caroline Appert, DR CNRS, Université Paris-saclay, LISN
- Bruno Crémilleux, PR, Université de Caen, GREYC
- Marie-Dominique Devignes, CR CNRS, Loria
Encadrants :
- Sarah Cohen-Boulakia, PR, Université Paris-Saclay, LISN
- Alban Gaignard, IR, CNRS, Université de Nantes, ITX

Publications

Article dans une revue

Marine Djaffardjy, George Marchment, Clémence Sebe, Raphaël Blanchet, Khalid Belhajjame, et al.. Developing and reusing bioinformatics data analysis pipelines using scientific workflow systems. Computational and Structural Biotechnology Journal, 2023, 21, pp.2075-2085. ⟨10.1016/j.csbj.2023.03.003⟩. ⟨hal-04037221v2⟩

Année de publication 2023

Disponible en libre accès

Publication HAL

Toutes les publications

Jury

Publications Lieu de l'événement

Lieu de l'événement Lieu de l'événement

Publications

Lieu de l'événement