Proposition de sujet de thèse – Assemblage et haplotypage

L’équipe GenScale recherche une ou un candidat pour travailler sur le sujet suivant:

Question de recherche initiale

L’objectif fondamental de la thèse est de proposer des approches innovantes pour l’assemblage de génomes permettant de résoudre les répétitions et de générer un assemblage reflétant de manière fidèle le contenu génomique de l’ADN séquencé . L’idée phare consiste à combiner les données issues de diverses techniques de séquençage et d’exploiter la complémentarité de leurs caractéristiques pour permettre ce type d’assemblage.

Contexte

L’assemblage des lectures NGS / HTS consiste à reconstruire la séquence (dans de nombreux cas, le génome) dont elles sont issues. De nombreux algorithmes d’assemblage ont été développés au cours des 25 dernières années. Ils se basent sur l’organisation des données de séquençage dans des graphes, notamment le graphe de de Bruijn, et sur la recherche de chemins optimaux dans ceux­-ci.

À l’heure actuelle, afin de produire des séquences les plus longues possibles, les assembleurs ont pour stratégie d’écraser les bulles générées dans les graphes d’assemblage par les variants. Ainsi, par exemple dans le cas de génomes diploïdes, les variants (différences entre chromosomes homologues) sont perdus. Pour pouvoir proposer des assemblages comportant une séquence par chromosome et reflétant ainsi véritablement le contenu génomique des cellules séquencées, les futurs assembleurs devront obligatoirement gérer les bulles sans les écraser. Cette réflexion est en cours, et des projets tels que FALCON­unzip2 vont dans ce sens.

Enjeux scientifiques

L’enjeu central de ce sujet de thèse consiste ainsi à 1) intégrer au graphe d’assemblage les informations longue distance issues de données hétérogènes (données pairées, hiC, optical mapping), et 2) proposer de nouveaux algorithmes de parcours de graphe respectant les contraintes issues de ces informations longue distance. Ce parcours contraint permettra d’une part de résoudre les répétitions plus longue que les lectures utilisées pour créer le graphe d’assemblage et d’autre part d’effectuer un haplotypage, c’est­ à­ dire de différencier les chromosomes séquencés. Plus précisément, cet haplotypage sera rendu possible par l’exploitation des variations ponctuelles (polymorphisme) : au lieu d’être écrasées , celles ­ ci seront phasées.  Le phasage consiste à déterminer les variants qui sont présents sur la même molécule d’ADN. L’application à l’assemblage de métagénomes et métatranscriptomes est également prévue en fonction des résultats obtenus sur les assemblages génomiques.

Contacts

Merci de faire parvenir un CV et une lettre de motivation à pierre.peterlongo@inria.fr

Permanent link to this article: https://team.inria.fr/genscale/proposition-de-sujet-de-these-assemblage-et-haplotypage/