IMAGERIE GÉNÉTIQUE : DÉFIS COMPUTATIONNELS ET IMPLÉMENTATION GROS GRAINS SUR CLUSTER



Documents pareils
Gènes Diffusion - EPIC 2010

BIG DATA en Sciences et Industries de l Environnement

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Cartographie des solutions BigData

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

MABioVis. Bio-informatique et la

Introduction à MapReduce/Hadoop et Spark

Panorama des solutions analytiques existantes

Programmation parallèle et distribuée

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Certificat Big Data - Master MAthématiques

Big Data Concepts et mise en oeuvre de Hadoop

BIG Data et R: opportunités et perspectives

Programmation parallèle et distribuée (Master 1 Info )

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Génétique et génomique Pierre Martin

Les technologies du Big Data

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Initiation au HPC - Généralités

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Fouille de données massives avec Hadoop

Journées Big Data à l ENSAI Big Data: les challenges, les défis

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Introduction Big Data

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Bases de données des mutations

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Rapport 2014 et demande pour Portage de Méso-NH sur Machines Massivement Parallèles du GENCI Projet 2015 : GENCI GEN1605 & CALMIP-P0121

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

DG-ADAJ: Une plateforme Desktop Grid

HADOOP ET SON ÉCOSYSTÈME

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Big data et sciences du Vivant L'exemple du séquençage haut débit

Programmation parallèle et distribuée

SysFera. Benjamin Depardon

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

4 Exemples de problèmes MapReduce incrémentaux

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Big Graph Data Forum Teratec 2013

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE


Ricco Rakotomalala R.R. Université Lyon 2

IBM Software Group. Migration vers Tivoli Workload Scheduler. Philippe TESSIER 2009 IBM Corporation

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5

Big Data et la santé

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Offre formation Big Data Analytics

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

Infrastructures Parallèles de Calcul

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Anticiper et prédire les sinistres avec une approche Big Data

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Gestion de clusters de calcul avec Rocks

Labs Hadoop Février 2013

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Les quatre piliers d une solution de gestion des Big Data

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

SSTIC Désobfuscation automatique de binaires. Alexandre Gazet. Yoann Guillot. Et autres idyles bucoliques...

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Gouvernance IT : par où commencer? Hubert Lalanne DE, Chief Architect for Industries IBM Software France

Change the game with smart innovation

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Tables Rondes Le «Big Data»

L axe 5 du Cancéropole Nord Ouest

Big Data et Graphes : Quelques pistes de recherche

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Les datas = le fuel du 21ième sicècle

Les environnements de calcul distribué

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Fast and furious decision tree induction

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Première partie. Introduction Générale

Introduction au Data-Mining

Hémochromatose génétique non liée à HFE-1 : quand et comment la rechercher? Cécilia Landman 11 décembre 2010

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Contexte et motivations Les techniques envisagées Evolution des processus Conclusion

Amazon Elastic MapReduce (Amazon EMR)

INEX. Informatique en Nuage : Expérimentations et Vérification. Livrable n M2.1 ÉTUDE ET PARALLÉLISATION. Jérôme Richard

Big Data et Graphes : Quelques pistes de recherche

Le cloud computing au service des applications cartographiques à haute disponibilité

Transcription:

IMAGERIE GÉNÉTIQUE : DÉFIS COMPUTATIONNELS ET IMPLÉMENTATION GROS GRAINS SUR CLUSTER Forum TERATEC Vincent Frouin Déluge de données S Laguitton (CATI-CEA) B damota (INRIA-CEA) 28 JUIN 202 28 JUIN 202 CEA 28 JUIN 202 PAGE

NEUROIMAGERIE-GÉNÉTIQUE : CONTEXTE CEA 28 JUIN 202 PAGE 2 28 JUIN 202

NEUROIMAGERIE-GÉNÉTIQUE : MOTIVATIONS Etude de groupe, basée sur le génotype L étude inclut ~30 sujets 2 groupes : 5-HTT muté vs 5-HTT Activité plus grande dans l amygdale à droite (structure impliquée dans le comportement lié à la peur), A R Hariri et al Science 2002;297:400-403 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 3

NEUROIMAGERIE-GÉNÉTIQUE : MOTIVATIONS (2) Un outil pour trouver de nouveaux biomarqueurs (via l endo-phénotype d imagerie) Un outil pour étudier des questions de recherche appliquée ou fondamentale Integration des mesures obtenues à des échelles différentes Révelateur des réseaux moléculaires ou fonctionnels à l oeuvre Patient file, Behavior, Environment SNPs,CNVs, CGH Expression, Methylation smri fmri dmri 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 4

SOMMAIRE Neuroimagerie Génétique Le contexte, les mesures, L integration des données produites par des outils de neuroimagerie et de génomique matures Implémentation gros-grain du modèle de dosage allélique Besoins de run multiples d un code données (permutation, validation-croisée) MapReduce pattern, Soma-Workflow Cluster avec 240 cores 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 5

NEUROIMAGERIE-GÉNÉTIQUE : SNP/GENOTYPE Single Nucleotide Polymorphism : 90% de la variabilité de l ADN ~0M loci) 5 3 E Exon Exon Exon Exon 0000000 0500042 0700042 5 3 E Gene Gene 2 Pr Exon Exon Exon Exon Configuration Hom-M, hom -m ou het(0,2,) 2 Sujets 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 6

NEUROIMAGERIE-GÉNÉTIQUE : PHENOTYPE + ROIs Sujets 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 7

92 60 60 249 44 48 7 7 88 35 35 249 204 84 4 4 0000 75 246 59 46 27 55 46 46 Cartes statistiques des associations avec des SNPs 2000 sujets normaux, acquisition fmri et tâche «Impulsivité», genotype M SNPs Schuman et al 200 Mol Psych Y X Subjects phenotype (n q) y j? genotype (n p) 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 8 0 2 0 2 0 2 2 0 2 0 x i

MODÈLE LINÉAIRE MASSIVEMENT UNIVARIÉ CEA 28 JUIN 202 PAGE 9 28 JUIN 202

92 60 60 249 44 48 7 7 88 35 35 249 204 84 4 4 0000 75 246 59 46 27 55 46 46 Cartes statistiques des associations avec des SNPs 2000 sujets normaux, acquisition fmri et tâche «Impulsivité», genotype M SNPs Schuman et al 200 Mol Psych Y X Subjects phenotype (n q) y j? 0 2 0 2 0 2 2 0 2 0 x i genotype (n p) 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 0

Cartes statistiques des associations avec des SNPs 2000 sujets normaux, acquisition fmri et tâche «Impulsivité», genotype M SNPs Schuman et al 200 Mol Psych Y X Subjects phenotype (n q) genotype (n p) Modèle de dosage allèlique : Ajuster un modèle pour chaque (SNP, voxel) Cartographier la statistique (eg F-score) 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE

Cartes statistiques des associations avec des SNPs 2000 sujets normaux, acquisition fmri et tâche «Impulsivité», genotype M SNPs Schuman et al 200 Mol Psych Y X Subjects phenotype (n q) genotype (n p) Modèle de dosage allèlique : Ajuster un modèle pour chaque (SNP, voxel) Cartographier la statistique (eg F-score) X T Y F-score pour chaque association 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 2

Cartes statistiques des associations avec des SNPs 2000 sujets normaux, acquisition fmri et tâche «Impulsivité», genotype M SNPs Schuman et al 200 Mol Psych Y X Subjects phenotype (n q) genotype (n p) Modèle de dosage allèlique : Ajuster un modèle pour chaque (SNP, voxel) Cartographier la statistique (eg F-score) Avec p=0 6 q=0 5 SNP en LD Voxels sont corrélés Procédure Calibration des statistiques Correction pour les tests multiples PERMUTATIONS, MAX(T) 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 3

Cluster-based Analysis Algorithme complet : BOUCLE: Données «observées» et «(sujet)-permutées» BOUCLE : Pour chaque SNP - Calculer la carte statistique - Seuiller la carte et enregistrer les clusters De la distribution empirique sous H0, déterminer les clusters significatifs 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 4

MULM CLUSTER BASED ANALYSIS : MAP-REDUCE PATTERN ET SOMA-WORKFLOW CEA 28 JUIN 202 PAGE 5 28 JUIN 202

ACCÉLÉRATION PAR LA PARALLÉLISATION Données: 2000 subj, ~50k voxels MRI, ~500K SNP Unité: GWAS : dosage allélique 500k SNP vs phenotype Code de référence PLINK séquentiel sur un core : 05 GWAS/s/c 50k voxels, k perm : 4,7 années : 400 Tb de données à partager L accélération peut être obtenue par le profilage du code unitaire la distribution du code sur les nœuds d un cluster par l optimisation-parallélisation conjointe JUNE 28, 202 TERATEC 202 Déluges de données 0 AVRIL 202 PAGE 6

PARALLÉLISATION Repenser l algorithme pour minimiser les E/S : Optimiser le remplissage de la mémoire cache du processeur Ne charger que les données utiles Approche «gros grain» est facilitée car le problème est naturellement parallèle en : SNP, Voxels Permutations Utilisation d un code facile à lire et compatible avec différentes architectures Implémentation Python 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 7

28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 8

28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 9

28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 20

28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 2

SOMA-WORKFLOW A B C Cmd line C D Execution dependancy D E E Subject -> Subject 00 G F 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 22

SOMA-WORKFLOW (2) Permet de décrire un ensemble Description du graphe d exécution tâches indépendantes qui vont A s exécuter suivant le graphe B C C D E D E Permet de contrôler l exécution du graphe en soumettant F des jobs à un système de file d attente G classique sur un cluster de calcul 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 23

PERFORMANCES Données: 2000 subj, ~50k voxels MRI, ~500K SNP Unité: GWAS : dosage allèlique 500k SNP vs phénotype Code de référence PLINK séquentiel sur un core : 05 GWAS/s/c 50k voxels, k perm : 4,7 années LONI cluster: 300 nodes (2400 @24GHz cores)? (Stein et al Neuroimage 0) Code Natif Plink comme code unitaire Implémentation Naïve parallèle de PLINK code 0002 GWAS/s/c DSVcluster: 20 nodes 240 cores @26GHz (B damota et al Compstat 2) Notre implémentation optimisée (corrélation, cache size) Map-reduce pattern et soma-workflow 20 GWAS/s/c JUNE 28, 202 TERATEC 202 Déluges de données 0 AVRIL 202 PAGE 24

DISCUSSION - CONCLUSION CEA 28 JUIN 202 PAGE 25 28 JUIN 202

BESOINS RÉCURRENTS CONCEPTS RÉUTILISABLES Besoins : définitivement la parallélisation à gros grain Codes pour étudier la variabilité (ex GWAS phénotype vs full génotype ) par des approches statistiques classiques ou apprentissage automatique CHARGE : PERMUTATIONS - CROSS VALIDATION, BOOTSTRAP Codes pour le traitement d image dédié à l analyse d un sujet (efficace, débuggé) CHARGE : BOUCLE SUR LES IMAGES de la DB Concepts Map Reduce pattern Efficient pour un problème «embarrassingly parallel» comme les GW-BW association analysis Plusieurs environnements supportent ce pattern : Hadoop /Apache, SomaWorkflow Optimisation/Parallélisation conjointe en neuroimagerie-génétique: Permutations (ou CV) gagnent à être intégrées dans le code unitaire 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 26

DEVELOPEMENTS FUTURS Evolutions Soma-workflow Adapter Soma-Workflow à des clusters opérés classiquement : En utilisant openmp Optimisation Nouvelles implémentations du mapper (Brainomics : NeuroSpin and AS+) Nœuds avec des cartes GPU 28 JUIN 202 TERATEC 202 Déluges de données 28 JUIN 202 PAGE 27

BIBLIOGRAPHIE A R Hariri et al Serotonin transporter genetic variation and the response of the human amygdala Science 2002;297:400-403 Stein et al 200 Voxelwise genome-wide association study (vgwas) Neuroimage, 53 (200), pp 60 74 damota et al 202 A fast computational framework for genome-wide association studies with neuroimaging data COMPSTAT conference, Limassol, Cyprus 28 JUIN 202 CEA 28 JUIN 202 PAGE 28

S Laguitton E Duchesnay JB Poline JF Mangin Collaboration : B DaMota B Thirion PARIETAL AS+ Brainomics M Cadennes V Ducrot S Monot PAGE 29 CEA 28 JUIN 202 Commissariat à l énergie atomique et aux énergies alternatives Centre de Saclay 99 Gif-sur-Yvette Cedex T +33 (0) 69 08 79 74 F +33 (0) DSV I2BM NeuroSpin 28 JUIN 202 Etablissement public à caractère industriel et commercial RCS Paris B 775 685 09