Ray : un logiciel parallèle performant pour le séquençage



Documents pareils
DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Assemblage adaptatif de génomes et de méta-génomes par passage de messages

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Assemblage adaptatif de génomes et de méta-génomes par passage de messages

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

SERVICES DE SEQUENÇAGE

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Cloud et SOA La présence du Cloud révolutionne-t-elle l approche SOA?

Le Cloud: Mythe ou Réalité?

Introduction aux applications réparties

Guide préparatif «Automatiser sa vigie sur Twitter avec R» 1

21 mars Simulations et Méthodes de Monte Carlo. DADI Charles-Abner. Objectifs et intérêt de ce T.E.R. Générer l'aléatoire.

Big Data et la santé

Récupérer les documents stockés sur l ENTG

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

[Open] [Big] Data [as a Service] [Re]définir les services publics digitaux

POP-Java : Parallélisme et distribution orienté objet

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Les technologies du Big Data

Big Data et Graphes : Quelques pistes de recherche

La tête dans les nuages

Analyse des données de séquençage massif par des méthodes phylogénétiques

LICENCE PROFESSIONNELLE

Utilisation de l éditeur.

Magento. Magento. Réussir son site e-commerce. Réussir son site e-commerce BLANCHARD. Préface de Sébastien L e p e r s

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Big Data et Graphes : Quelques pistes de recherche

Logitech Tablet Keyboard for Windows 8, Windows RT and Android 3.0+ Setup Guide Guide d installation

Le BigData, aussi par et pour les PMEs

Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Publier dans la Base Documentaire

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

La rencontre du Big Data et du Cloud

Informatique & Systèmes de Communication. Stages de 12 à 16 semaines aux Etats-Unis

Air Transat. Contexte. Buts. Défis. Solution. Industry Travelling, Transport

Concevoir la déclinaison d un site Internet pour Smartphone et tablette tactile.

FACEBOOK MARKETING Comment mieux tirer profit du ROI des médias sociaux

Magento. Pratique du e-commerce avec Magento. Christophe Le Bot avec la contribution technique de Bruno Sebarte

Développer des Applications Internet Riches (RIA) avec les API d ArcGIS Server. Sébastien Boutard Thomas David

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Business Intelligence

Programme. Maria Fiore Responsable du développement des affaires MicroAge. Hugo Boutet Président igovirtual. Présentation de MicroAge

CLOUD COMPUTING et Relation Client/Fournisseur Une Révolution culturelle?

Gestion des prestations Volontaire

Introduction à Linux (pour le HPC) «Linux 101» Présentation :

Outils gratuits de présentation de documents «animés» Issuu - Slideshare

Projet en nouvelles technologies de l information et de la communication

Nicolas Géraud CXO dasein interactions. Extraits de l intervention de

Stéphane DERACO, DSI CNRS l Argos Devops : de l hyperviseur aux conteneurs l 11/12/2014 DOCKER

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

4D Web 2.0 Pack DATA LIVES HERE. TM. Internet Riche et Solutions Mobiles en toute simplicité. 4D Ajax Framework 4D Ajax for Dreamweaver 4D for Flex

Culture numérique Cloud computing

Formation Scrum. 2 jours

WEB page builder and server for SCADA applications usable from a WEB navigator

Table des matières. 1. Installation de VMware ESXI Pré-requis Installation... 3

Publier un Carnet Blanc

4. SERVICES WEB REST 46

PrestaShop Cloud. Créer un site e-commerce avec. PrestaShop Cloud. Mise en place et suivi du projet. Créer un site e-commerce avec

Twixl Portfolio DE INDESIGN VERS LES TABLETTES. Luk Dhondt - Product Manager

DOCUMENTATION - FRANCAIS... 2

Webmaster / Webdesigner / Wordpress

Guide d utilisation. Version 1.1

Chapitre 4: Introduction au Cloud computing

OBJECTIFS. Une démarche E-science

Location Intelligence powered by SAP BusinessObjects. Jérôme Berthier, ELCA Informatique SA 29 mai 2013

Transformation Digitale Challenges et Opportunités

Plateforme académique de partage de documents - owncloud

Déployer des tablettes en classe de LVE: les points clés. Rennes, le 26 août 2014

Les sites Internet dynamiques. contact : Patrick VINCENT pvincent@erasme.org

Serveur d'application Client HTML/JS. Apache Thrift Bootcamp

Présentation Internet

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Micro-ordinateurs, informations, idées, trucs et astuces. Utiliser les services de fichiers

Perspectives en matière de portails géographiques et de 3D

Cloud Computing : quels intérêts et quelles solutions pour les développeurs?

SysFera. Benjamin Depardon

Optimiser les s marketing Les points essentiels

Big Data. Concept et perspectives : la réalité derrière le "buzz"

INTRODUCTION A JAVA. Fichier en langage machine Exécutable

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

Windows Azure. Principales fonctions

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Pourquoi intégrer le Big Data à son organisa3on?

La virtualisation, si simple!

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

Le Cloud Computing est-il l ennemi de la Sécurité?

ARCHITECTURE ET SYSTÈMES D'EXPLOITATIONS

Big data et sciences du Vivant L'exemple du séquençage haut débit

La Data Visualisation dans les organisations. Par Claude-Henri Meledo

Transcription:

Ray : un logiciel parallèle performant pour le séquençage Sébastien Boisvert, Université Laval @sebhtml http://boisvert.info 2014-01-31 10h30-10h50 amphithéâtre (1035) du pavillon JA Bombardier, Université de Montréal https://www.calculquebec.ca/fr/evenements/375-journee-bio-info

Titre Ray : un logiciel parallèle performant pour le séquençage (de l'adn) Et distribué (roule sur plusieurs ordinateurs)

Écosystème Préparation d'échantillons Séquençage Transport de données (Calcul Québec, Amazon EC2, Azure) Calcul analytique (analyses) Consommation du résultat (Livraison, évaluation, téléchargement, visualisation)

Données Méthode: Séquençage de l'adn Séquences de A, T, C, G ADN génomique Métagénomique (plusieurs sources) Exons (génomique) Séquençage de l'arn (RNA-Seq) (insérer $foo-seq ici) Kahvejian, A., Quackenbush, J. & Thompson, J. F. What would you do if you could sequence everything? Nature Biotechnology 26, 1125-1133 (2008). URL http://dx.doi.org/10.1038/nbt1494

Pipelines Permet de lancer panoplie de logiciels avec une interface facile sur des données locales ( aggrandizement model ) Loman, N. and M. Watson (2013, November). So you want to be a computational biologist? Nature Biotechnology 31 (11), 996-998. http://dx.doi.org/10.1038/nbt.2740 Brown, C. T. and J. M. Tiedje (2011). Metagenomics: The paths forward. pp. 579-588. http://onlinelibrary.wiley.com/doi/10.1002/9781118010549.ch54/summary

Analyses Avec alignement Sans alignement (assemblage de novo) Flicek & Birney (2009) Nature Methods http://www.nature.com/nmeth/journal/v6/n11s/full/nmeth.1376.html

Ray pour l'assemblage de génomes Entrées: courtes séquences d'adn (possiblement en paires) Sorties: séquences d'adn plus longues assemblées Casse-tête avec des milliards de morceaux https://github.com/sebhtml/ray http://denovoassembler.sourceforge.net/ Boisvert et al. Journal of Computational Biology http://online.liebertpub.com/doi/abs/10.1089/cmb.2009.0238

Assemblage de novo License: AttributionNoncommercialNo Derivative Works Some rights reserved by jugbo

Assembler l'adn avec Ray (un logiciel distribué en C++)

Choix technologiques pour Ray Langage de programmation: C++ Transport de messages: Message Passing Interface (MPI)

Sous-graphe du graphe de de Bruijn Distribué sur tous les processeurs $ head -n 15 HiSeq-2500-NA12878-demo-2x150-4/GraphPartition.txt #Rank NumberOfKmers IdealNumberOfKmers Difference RelativeDifference #TotalKmers: 5688778046 #Ranks: 512 #IdealNumberOfKmers: 11110894 0 11104838 11110894-6056 -0.0545051% 1 11116398 11110894 5504 0.049537% 2 11105164 11110894-5730 -0.051571% 3 11108162 11110894-2732 -0.0245885% 4 11116656 11110894 5762 0.051859% 5 11113632 11110894 2738 0.0246425% 6 11116572 11110894 5678 0.051103% 7 11111554 11110894 660 0.00594012% 8 11112168 11110894 1274 0.0114662% 9 11107410 11110894-3484 -0.0313566% 10 11112460 11110894 1566 0.0140943%

Microbiome Blaser et al. 2013 Nature Reviews Microbiology http://ssubacteriology.pbworks.com/w/file/fet ch/65139019/blaser_microbiome%202013.pdf Beaucoup de bactéries ne sont pas cultivables individuellement Analyser microbiome sans cultiver Possible avec séquençage d'adn

Métagénomique! Métagénomique: possiblement le plus grand producteur de données dans l'avenir Défis: beaucoup de données Communauté de bactéries ou autres Pas de génome de référence Brown, C. T. and J. M. Tiedje (2011). Metagenomics: The paths forward. pp. 579-588. http://onlinelibrary.wiley.com/doi/10.1002/9781118010549.ch54/summary

Ray pour la métagénomique Assemblage de novo Profilage de taxons Boisvert et al. (2012) Genome Biology http://genomebiology.com/2012/13/12/r122

Librairie RayPlatform https://github.com/sebhtml/rayplatform Godzaridis, Boisvert et al. (2013) Big Data http://online.liebertpub.com/doi/abs/10.1089/big.2013.0031

Écosystème Préparation d'échantillons Séquençage Transport de données (Calcul Québec, Amazon EC2, Azure) Calcul analytique (analyses) Consommation du résultat (Livraison, évaluation, téléchargement, visualisation)

Problème Les données se déplacent beaucoup!

Alternative Les résultats demeurent dans les nuages Consommation du résultat dans le web (comme DNAnexus, Galaxy, Globus Genomics)

Visualisation Ray Cloud Browser Frontend : Javascript, HTML5 Backend : C++ Communication: JSON sur HTTP But: visualiser des graphes d'assemblage Compatible: Ray, ABySS, Cortex En préparation

Comment peut-on explorer les métagénomes (visuellement)?

Visualiser l'adn à la Google Maps Ray Cloud Browser

La carte de métro génomique

Carte de métro génomique

Artefacts de séquençage http://genome.ulaval.ca/corbeillab/ray-cloud-browser/

Conclusion Séquençeurs et superordinateurs Il faut des logiciels pour l'analyse Et la visualisation aussi.

Animation http://genome.ulaval.ca:10208/client/?map =0&section=0&region=3&location=1067&depth =10&zoom=1.399999058351862&play=backward& speed=8 http://genome.ulaval.ca:10208/client/

Remerciements Directeur: Prof. Jacques Corbeil Codirecteur: Prof. François Laviolette René Paradis: machines virtuelles Calcul Québec (sites colosse et mp2)