Ray : un logiciel parallèle performant pour le séquençage Sébastien Boisvert, Université Laval @sebhtml http://boisvert.info 2014-01-31 10h30-10h50 amphithéâtre (1035) du pavillon JA Bombardier, Université de Montréal https://www.calculquebec.ca/fr/evenements/375-journee-bio-info
Titre Ray : un logiciel parallèle performant pour le séquençage (de l'adn) Et distribué (roule sur plusieurs ordinateurs)
Écosystème Préparation d'échantillons Séquençage Transport de données (Calcul Québec, Amazon EC2, Azure) Calcul analytique (analyses) Consommation du résultat (Livraison, évaluation, téléchargement, visualisation)
Données Méthode: Séquençage de l'adn Séquences de A, T, C, G ADN génomique Métagénomique (plusieurs sources) Exons (génomique) Séquençage de l'arn (RNA-Seq) (insérer $foo-seq ici) Kahvejian, A., Quackenbush, J. & Thompson, J. F. What would you do if you could sequence everything? Nature Biotechnology 26, 1125-1133 (2008). URL http://dx.doi.org/10.1038/nbt1494
Pipelines Permet de lancer panoplie de logiciels avec une interface facile sur des données locales ( aggrandizement model ) Loman, N. and M. Watson (2013, November). So you want to be a computational biologist? Nature Biotechnology 31 (11), 996-998. http://dx.doi.org/10.1038/nbt.2740 Brown, C. T. and J. M. Tiedje (2011). Metagenomics: The paths forward. pp. 579-588. http://onlinelibrary.wiley.com/doi/10.1002/9781118010549.ch54/summary
Analyses Avec alignement Sans alignement (assemblage de novo) Flicek & Birney (2009) Nature Methods http://www.nature.com/nmeth/journal/v6/n11s/full/nmeth.1376.html
Ray pour l'assemblage de génomes Entrées: courtes séquences d'adn (possiblement en paires) Sorties: séquences d'adn plus longues assemblées Casse-tête avec des milliards de morceaux https://github.com/sebhtml/ray http://denovoassembler.sourceforge.net/ Boisvert et al. Journal of Computational Biology http://online.liebertpub.com/doi/abs/10.1089/cmb.2009.0238
Assemblage de novo License: AttributionNoncommercialNo Derivative Works Some rights reserved by jugbo
Assembler l'adn avec Ray (un logiciel distribué en C++)
Choix technologiques pour Ray Langage de programmation: C++ Transport de messages: Message Passing Interface (MPI)
Sous-graphe du graphe de de Bruijn Distribué sur tous les processeurs $ head -n 15 HiSeq-2500-NA12878-demo-2x150-4/GraphPartition.txt #Rank NumberOfKmers IdealNumberOfKmers Difference RelativeDifference #TotalKmers: 5688778046 #Ranks: 512 #IdealNumberOfKmers: 11110894 0 11104838 11110894-6056 -0.0545051% 1 11116398 11110894 5504 0.049537% 2 11105164 11110894-5730 -0.051571% 3 11108162 11110894-2732 -0.0245885% 4 11116656 11110894 5762 0.051859% 5 11113632 11110894 2738 0.0246425% 6 11116572 11110894 5678 0.051103% 7 11111554 11110894 660 0.00594012% 8 11112168 11110894 1274 0.0114662% 9 11107410 11110894-3484 -0.0313566% 10 11112460 11110894 1566 0.0140943%
Microbiome Blaser et al. 2013 Nature Reviews Microbiology http://ssubacteriology.pbworks.com/w/file/fet ch/65139019/blaser_microbiome%202013.pdf Beaucoup de bactéries ne sont pas cultivables individuellement Analyser microbiome sans cultiver Possible avec séquençage d'adn
Métagénomique! Métagénomique: possiblement le plus grand producteur de données dans l'avenir Défis: beaucoup de données Communauté de bactéries ou autres Pas de génome de référence Brown, C. T. and J. M. Tiedje (2011). Metagenomics: The paths forward. pp. 579-588. http://onlinelibrary.wiley.com/doi/10.1002/9781118010549.ch54/summary
Ray pour la métagénomique Assemblage de novo Profilage de taxons Boisvert et al. (2012) Genome Biology http://genomebiology.com/2012/13/12/r122
Librairie RayPlatform https://github.com/sebhtml/rayplatform Godzaridis, Boisvert et al. (2013) Big Data http://online.liebertpub.com/doi/abs/10.1089/big.2013.0031
Écosystème Préparation d'échantillons Séquençage Transport de données (Calcul Québec, Amazon EC2, Azure) Calcul analytique (analyses) Consommation du résultat (Livraison, évaluation, téléchargement, visualisation)
Problème Les données se déplacent beaucoup!
Alternative Les résultats demeurent dans les nuages Consommation du résultat dans le web (comme DNAnexus, Galaxy, Globus Genomics)
Visualisation Ray Cloud Browser Frontend : Javascript, HTML5 Backend : C++ Communication: JSON sur HTTP But: visualiser des graphes d'assemblage Compatible: Ray, ABySS, Cortex En préparation
Comment peut-on explorer les métagénomes (visuellement)?
Visualiser l'adn à la Google Maps Ray Cloud Browser
La carte de métro génomique
Carte de métro génomique
Artefacts de séquençage http://genome.ulaval.ca/corbeillab/ray-cloud-browser/
Conclusion Séquençeurs et superordinateurs Il faut des logiciels pour l'analyse Et la visualisation aussi.
Animation http://genome.ulaval.ca:10208/client/?map =0§ion=0®ion=3&location=1067&depth =10&zoom=1.399999058351862&play=backward& speed=8 http://genome.ulaval.ca:10208/client/
Remerciements Directeur: Prof. Jacques Corbeil Codirecteur: Prof. François Laviolette René Paradis: machines virtuelles Calcul Québec (sites colosse et mp2)