Edouard Duchesnay Benoit Da Mota



Documents pareils
Rapport 2014 et demande pour Portage de Méso-NH sur Machines Massivement Parallèles du GENCI Projet 2015 : GENCI GEN1605 & CALMIP-P0121

Retour d expérience, portage de code Promes dans le cadre de l appel à projets CAPS-GENCI

Gènes Diffusion - EPIC 2010

Segmentation d'images à l'aide d'agents sociaux : applications GPU

Infrastructure de calcul du CRRI

Architecture des ordinateurs

Contrôle Non Destructif : Implantation d'algorithmes sur GPU et multi-coeurs. Gilles Rougeron CEA/LIST Département Imagerie Simulation et Contrôle

3 ème journée des utilisateurs de l archivage

Thierry DELZESCAUX. «biopicsel» group, URA CNRS-CEA 2210 Service MIRCen, I²BM, CEA Fontenay-aux-Roses, France.

T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5

IT SERVICES BUSINESS STORAGE DATA AUDIT PARTNERSHIP INTEGRATOR SECURITY PLANNING PRIVATE AGILITY DYNAMIC PUBLIC TECHNOLOGY SOLUTIONS MANAGEMENT

Acquisition de matériels informatiques

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Hétérogénéité pour atteindre une consommation énergétique proportionnelle dans les clouds

Identification de nouveaux membres dans des familles d'interleukines

Fondation PremUp. Mieux naître pour mieux vivre

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

TRANSFORM IT + BUSINESS + YOURSELF

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Foscolo (1), J Felblinger (2), S Bracard (1) CHU Hôpital central, service de neuroradiologie, Nancy (1) CHU BRABOIS, Centre d investigation clinique

Biomarqueurs en Cancérologie

La maison de la simulation

Cloud computing Architectures, services et risques

Le supercalculateur Tera 100 Premier supercalculateur pétaflopique européen

Eléments d architecture des machines parallèles et distribuées

Architectures d implémentation de Click&DECiDE NSI

Catalogue des stages Ercom 2013

Outil d aide au choix Serveurs Lot 4 Marché Groupement de Recherche

libérez votre innovation avec l extreme computing CEA/Philippe Stroppa

Découverte et analyse de dépendances dans des réseaux d entreprise

Actualités IRM dans la SEP Thomas Tourdias 1, 2

BIG DATA en Sciences et Industries de l Environnement

Les mésocentres HPC àportée de clic des utilisateurs industriels

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Architecture des calculateurs

APX et VCE, Modèle d industrialisation de l intégration et du déploiement. Olivier BERNARD, VCE

Infrastructures Parallèles de Calcul

Sibelco garantit la performance applicative de ses applications critiques tout en maîtrisant ses coûts

En garantissant les performances de MICROSOFT Lync et de SharePoint, Marel a reduit ses frais de deplacement

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Simulation d'un examen anthropomorphique en imagerie TEMP à l iode 131 par simulation Monte Carlo GATE

Structure de base d un ordinateur

L état de l ART. Évolution récente des technologies. Denis Szalkowski Formateur Consultant

Économétrie, causalité et analyse des politiques

Quantification d incertitude et Tendances en HPC

StruxureWare Power Monitoring v7.0. La nouvelle génération en matière de logiciel de gestion complète d énergie

Relever les défis des véhicules autonomes

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Initiation au HPC - Généralités

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

NON-LINEARITE ET RESEAUX NEURONAUX

Projet IGGI. Infrastructure pour Grappe, Grille et Intranet. Fabrice Dupros. CASCIMODOT - Novembre Systèmes et Technologies de l Information

BIG DATA et EDISCOVERY

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

L Application Performance Management pourquoi et pour quoi faire?

Séminaire RGE REIMS 17 février 2011

IMI : Avantages et Inconvénients L exemple du projet COMBACTE

Transformation des applications SAP avec EMC et SAP HANA. Présentation commerciale : Solutions SAP HANA pour les datacenters

PRACE Appels à projets : mode d emploi. Virginie MAHDI, responsable projets de GENCI

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

OPTIMISER SON PROCESSUS DE TEST AVEC UNE APPROCHE BOITE GRISE

MABioVis. Bio-informatique et la

NetCrunch 6. Superviser

Limitations of the Playstation 3 for High Performance Cluster Computing

INF6304 Interfaces Intelligentes

Etude d architecture de consolidation et virtualisation

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Master UP 6. Mention Santé Publique et Management de la Santé. Spécialité Pharmacologie Clinique. Construire une carrière dans l industrie

Cloud et Informatique Scientifique

OUTIL D'EVALUATION DU TEMPS ARC / CHEF DE PROJET PROMOTEUR REQUIS POUR UNE RECHERCHE BIOMEDICALE V 2.3 DE L OUTIL NOTICE D UTILISATION

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Apprentissage Automatique

Introduction à l approche bootstrap

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

SERVEUR LYNX CALLEO DATACENTER 2460

Annexe 6 et 7 Du Contrat de Performance Medicen Paris Region. Liste des engagements du Pôle avec d autres clusters français ou étrangers

Journées MATHRICE "Dijon-Besançon" DIJON mars Projet MySafeKey Authentification par clé USB

Résolvez vos problèmes d énergie dédiée à l informatique

INGÉNIEUR - DÉVELOPPEUR SENIOR EMBEDDED - C/C++ - MICROCONT RÔLEURS. 34 ans - 10 ans d'expérience

<Insert Picture Here> Exadata Storage Server et DB Machine V2

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Architecture des Ordinateurs. Partie II:

LOT 1 - ACQUISITION DE SERVEURS INFORMATIQUES LOT 2 - ACQUISITION DE 5 POSTES INFORMATIQUES

L axe 5 du Cancéropole Nord Ouest

Rapport de stage Master 2

De la physico-chimie à la radiobiologie: nouveaux acquis (I)

LIVRET D INFORMATION. Livret d information des utilisateurs des ressources GENCI dans les centres nationaux

Big data et sciences du Vivant L'exemple du séquençage haut débit

Vous êtes bien à la bonne présentation, c est juste que je trouvais que le titre de cette présentation étais un peu long,

Du Datacenter au Cloud Quels challenges? Quelles solutions? Christophe Dubos Architecte Microsoft

Zeus V3.XX :: PRE-REQUIS TECHNIQUES

Spécificités, Applications et Outils

PROJECT POUR LE SYSTÈME DE SURVEILLANCE PAR CAMERA BASÉ SUR TECHNOLOGIE AXIS, PANNEAUX SOLAIRES ET LUMIERE DU LEDS BLOC D APARTEMENT LAURIER.

Transcription:

Le calcul haute performance pour l'analyse de données de neuroimagerie-génétique en grandes dimensions Edouard Duchesnay Benoit Da Mota Donnons de la suite à vos idées

Problème et enjeux Compréhension des processus biologiques impliqués dans les maladies cérébrales Génétique Cellulaire Cérébral Maladie Enjeux : Diagnostic précoce Développement de nouvelles thérapies Médecine personnalisée

Études de jumeaux Approches classiques pour découvrir l'influence de la génétique sur le cerveau: Les études de jumeaux. [Lohmann 1999, Thompson 2001] Héritabilité

Études d associations Gènes candidats Étude exploratoire Krabbenkutter Ivonne / Pellworm bei Südfall / CC-BY-SA-2.0-DE 5 x 10 5 SNP 4 x 10 5 voxels (matière grise) X Y Problème: Association = corrélation 5 x 10 5 SNP x 4 x 10 5 voxels x 10 4 permutations = 20 x 10 14 tests

Project Management Le projet Brainomics Méthodes mathématiques et outils informatiques pour la découverte des liens imagerie / génétique Genetic Neuroimagery phenotypes Clinical data SNP/CNV gene expression methylation Structural MRI Diffusion MRI Quality checking / pre-processing Functionnal MRI Histology WP4: Data providers Data Multimodal BD WP2: Software WP3: bio-statistical methods/machine learning Biomarkers Subgroup characterization Network inference WP1 WP1: Neurospin; Keosys WP2: Logilab; AS+; Neurospin; WP3: Neurospin; Supelec WP4: St Anne; IGR; Neurospin

CEA - DSV - NeuroSpin NeuroSpin - IRM haut champs - UNATI: Analyse image/stats CEA: EPIC, 5 directions dont: DSV: Direction des sciences de la vie NeuroSpin: Centre de neuroimagerie - IRM haut champs: 3T clinique 7T clinique 11.7T clinique 3T 7T 1000umx1000umx1000um 300umx300umx300um

AS+ - Groupe EOLEN Structure crée en 2003 Adossée au groupe EOLEN depuis janvier 2012 24 M et 420 collaborateurs en 2013 Secteurs : Métiers Informatique scientifique & HPC Systèmes d information Ingénierie Télécom PLM Activités HPC Conseil et expertise Analyse / profilage de codes Choix d architectures HPC Outils et méthodes de parallélisation Support applicatif (TGCC, PSA, CEA) Maintenance / portage de codes sur architectures parallèles Formations Calcul parallèle Programmation sur GPU Intel Cluster Studio XE Projets collaboratifs OpenGPU Brainomics ITEA MACH Membre actif de l écosystème HPC Ter@tec System@tic

Le calcul GPU: une évidence? Novembre 2013 : les 10 machines les plus efficaces utilisent des GPU Nvidia k20

Quel gain pour notre application? Intel Xeon E5-2620 (Avril 2012) Architecture Sandy Bridge (Janvier 2011) Accélération X 2.3 Nvidia C2075 (Juillet 2011) Architecture Fermi (Mars 2010)

Quel gain dans le futur? Source: Nvidia Source: Nvidia Source: Nvidia Plus rapide Plus facile Plus efficace

MASS UNIVARIATE LINEAR MODEL

Modèle univarié de masse Jeu de données ciblé : IRM génomique covariables bruit 336 188 voxels (matière grise cérébrale), 466 125 SNPs et 10 covariables pour 1 292 sujets Correlations 1 à 1 (10 000 permutations): 1,5 x 10 15 correlations 8 x 1,5 x 10 15 = 12 Po (12000 disques durs de 1To ou 2.5M de DVDs) => Seuls les meilleurs scores devront être gardés (0.1 à 0.01%) => Filtrage sur le GPU

Permutations en présence de covariables Quantiles observés Modèle complet: trop couteux en temps de calcul Modèle sur les résidus Modèle sur les résidus: mauvais contrôle des faux positifs Solution: approximation de Freedman and Lane Modèle complet Quantiles théoriques Permutation tests for linear models. M. J. Anderson and J. Robinson. (2001), Australian and New Zealand Journal of Statistics, (43):75 88, 2001. A nonstochastic interpretation of reported significance levels. D. Freedman and D. Lane. (1983) Journal of Business & Economic Statistics, 1(4):292{98, 1983}.

Algorithme séquentiel

Algorithme parallèle

Détails d implémentation Généralités Code CPU en Python Code GPU en CUDA C Kernel #1 et #2 en Python pour la version hétérogène MapReduce avec Soma-Workflow Spécifiques aux GPU Permutations réalisées en mémoire partagée (shared) pour maximiser la réutilisation (kernel #2) Optimisations : alignements en cache et accès coalescents Code réglé finement pour l architecture cible

Performances Comparaison avec Voxelwise genome-wide association study (vgwas), Stein J.L et al. (2010), NeuroImage 2010, 53(3), pp. 1160-74, PMID:20171287.

Déploiement et résultats Pour le jeu de données ciblé, nous avons utilisé la tranche hybride (GPU) du supercalculateur Curie (PRACE Preparatory Access) Plus grand calcul de neuroimagerie-génétique jamais réalisé Gestion multi-machines à l aide de soma-workflow 18 tâches de 3 h 20, jusqu à 200 GPU simultanément Une durée totale de 60 h, l équivalent de 12000 h sur 1 GPU Post-traitements également réalisés sur Curie 2 associations significatives qui demandent de plus amples investigations Nœuds Curie Hybrid 2 Intel Xeon E5640 2 Nvidia M2090

Résultats scientifiques SNP : rs13107325 Putamen Chromosome 4q22 dans exon 8 du gène SLC39A8 (ZIP8) (metal ions transporter) Obésité [Speliote 2011, Juonala 2011] Schizophrénie [Carrera 2012] TOC [De Wit 2014] Schizophrénie [Van Erp 2014]

Conclusion et perspectives Génétique Cellulaire Cérébral Maladie SLC39A8 (ZIP8) Résultats : Marqueurs génétique Imagerie pathologies Perspectives :? Putamen Mécanismes cellulaires / effet sur le putamen Expression de ce gène dans le putamen (Allen atlas) Liens avec les pathologies Perspectives : cibles biologiques / stratégies thérapeutiques Obésité TOC Schizophrénie