Summer internship (Master 1)

Stage niveau Master 1

Durée :
4-6 mois
Intitulé du stage :
Workflow pour l’addition de génomes et données connexes dans la base de connaissances Génolevures

Description :
La base de connaissances Génolevures est dédiée à la génomique comparée des levures hémiascomycètes (dont l’organisme modèle est la levure de bière Saccharomyces cerevisiae). Elle stocke et fournit les données et résultats obtenus à la suite de plusieurs campagnes d’annotation de génomes de levures. Cette base concerne les comparaisons à grande échelle de ces génomes, contenant non seulement les différents éléments chromosomiques détectés dans les séquences mais aussi leurs relations. La base contient actuellement 9 génomes et deux autres seront ajoutés début 2012.

Les progrès technologiques permettent de séquencer des génomes pour un coût accessible. Ce qui conduit à une augmentation spectaculaire de la masse de séquences. Ainsi la base Génolevures contiendra plus de 50 génomes et données connexes à l’horizon de 2 à 3 ans, auxquels il faudra rajouter des génomes de référence accessibles dans les bases de séquences généralistes. Chaque addition de génome dans la base implique l’analyse de fichiers d’annotation et la productions de données connexes soit particulières au génome à ajouter (par exemple une table synthétique des annotations, le fichiers FASTA des produits protéiques des gènes prédits dans le génome, …) soit transversales (par exemple la mise à jour des familles de protéines).

Jusqu’à présent ces opérations étaient largement réalisées manuellement mais, avec l’augmentation du rythme de production des séquences de génomes, une automatisation de l’enchainement de ces opérations devient nécessaire. Le but de ce stage est de concevoir et implémenter un workflow pour réaliser l’ensemble des tâches mises en jeu pour l’addition d’un génome dans la base Génolevures. La mise en place du workflow se fera en concertation avec les ingénieurs responsables de la base Génolevures et de l’outil MAGUS (scripts et bibliothèques de haut niveau pour l’exploitation des objets biologiques dans la base).

Contact:
Pascal Durrens, pascal.durrens@inria.fr