Du
Horaire
Lieu
STL, Thèses et HDR
Orateur : Clément BERNARD
Les ARN sont, comme les protéines, des molécules biologiques jouant des rôles essentiels à divers stades de la vie d’un organisme et impliqués dans diverses maladies. Déterminer leur structure, notamment 3D, est un enjeu essentiel pour mieux comprendre leur fonction. Récemment, Google DeepMind a proposé une méthode appelée AlphaFold, pour la prédiction de la structure 3D des protéines basée sur l’apprentissage profond, qui a révolutionné le domaine en montrant une efficacité des prédictions très largement au-dessus de l’état de l’art. Cependant, les molécules d’ARN et de protéines diffèrent fortement en termes de structure et de dynamique, ce qui rend non trivial l’adaptation directe des méthodes développées pour les protéines aux ARN. AlphaFold, AlphaFold 2, ainsi que sa nouvelle version AlphaFold 3, qui prédit également la structure 3D des ARN, s’appuient fortement sur les alignements de séquences multiples (MSA), qui sont coûteux à calculer et ne sont pas toujours disponibles, en particulier pour les ARN.
Dans cette thèse, nous visons à explorer la prédiction de la structure 3D de l’ARN sans utiliser l’information issue des alignements multiples. Nous cherchons à développer des méthodes pour prédire les structures 3D des ARN à partir uniquement de la séquence. Pour cela, nous utilisons des méthodes d’apprentissage profond, et en particulier des modèles de langage, afin de faire le lien entre les séquences et les caractéristiques structurales. En exploitant des modèles de langage préentraînés sur un grand nombre de séquences d’ARN, nous pouvons apprendre des représentations riches des caractéristiques structurales de l’ARN, et ainsi prédire leur structure 3D.
Le travail de cette thèse est divisé en trois contributions principales. La première, appelée RNAdvisor, est un outil qui intègre les outils d’évaluation de la structure 3D des ARN les plus récents pour évaluer de manière exhaustive les structures 3D des ARN, avec et sans références expérimentales. La deuxième contribution, State-of-the-RNArt, est un benchmark des méthodes de prédiction de la structure 3D de l’ARN les plus récentes, mettant en évidence les limites et les défis des méthodes actuelles. Elle est suivie d’une analyse plus détaillée des limites d’AlphaFold 3, la dernière version d’AlphaFold adaptée à la prédiction de la structure 3D de l’ARN. La troisième contribution, RNA-TorsionBERT, est une méthode d’apprentissage profond qui prédit les angles de torsion des structures 3D de l’ARN à partir de la séquence. Elle s’appuie sur un modèle de langage pour mettre en correspondance les séquences avec les caractéristiques de la structure. Cette méthode est étendue à une nouvelle fonction de scoring, TorsionBERT- MCQ, qui permet d’évaluer la qualité des structures 3D de l’ARN dans l’espace des torsions. Ce travail constitue une étape vers le développement de méthodes d’apprentissage profond pour la prédiction de la structure 3D des ARN, en utilisant uniquement des informations sur la séquence et sans s’appuyer sur des alignements de séquences multiples coûteux.