Génomique et GPU. Jean Michel Batto jean-michel.batto@jouy.inra.fr

Documents pareils

Big data et sciences du Vivant L'exemple du séquençage haut débit

Initiation au HPC - Généralités

MABioVis. Bio-informatique et la

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Quantification d incertitude et Tendances en HPC

Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution?

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Segmentation d'images à l'aide d'agents sociaux : applications GPU

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Analyse des données de séquençage massif par des méthodes phylogénétiques

Architecture des ordinateurs

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Gènes Diffusion - EPIC 2010

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Ingénieur R&D en bio-informatique

Génétique et génomique Pierre Martin

Eléments d architecture des machines parallèles et distribuées

Systèmes et traitement parallèles

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Marie Curie Actions Marie Curie Career Integration Grant (CIG) Call: FP7-People-2012-CIG

SysFera. Benjamin Depardon

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Introduction aux bases de données: application en biologie

Perspectives en matière de portails géographiques et de 3D

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

Contrôle Non Destructif : Implantation d'algorithmes sur GPU et multi-coeurs. Gilles Rougeron CEA/LIST Département Imagerie Simulation et Contrôle

: l IDRIS a vingt ans!

Relever les défis des véhicules autonomes

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5

UNIVERSITÉ D ORLÉANS ÉCOLE DOCTORALE MIPTIS MATHÉMATIQUES, INFORMATIQUE, PHYSIQUE THÉORIQUE ET INGÉNIEURIE DES SYSTÈMES. THÈSE présentée par :

O.S.S.I.R. rdv du 11 mai 2010

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Limitations of the Playstation 3 for High Performance Cluster Computing

Fiche Produit. Plateforme de sauvegarde en marque blanche Kiwi Business

Calcul intensif pour la biologie

Une dérivation du paradigme de réécriture de multiensembles pour l'architecture de processeur graphique GPU

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Fotolia / Sergej Khackimullin. conseil scientifique. Rapport du groupe de travail sur la gestion et le partage des données

Le calcul intensif chez PSA Peugeot Citroën. TERATEC 28 juin 2011

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

Fonctionnement et performance des processeurs

Les environnements de calcul distribué

Identification de nouveaux membres dans des familles d'interleukines

Spectrophotomètre double faisceau modèle 6800

Introduction au calcul parallèle avec OpenCL

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

INF6500 : Structures des ordinateurs. Sylvain Martel - INF6500 1

Bibliographie Introduction à la bioinformatique

Exécution des instructions machine

Architecture des calculateurs

Rapport d activité. Mathieu Souchaud Juin 2007

Équilibrage Dynamique de Charge pour des Calculs Parallèles sur Cluster Linux - Une Évaluation de l Environnement AMPI.

Introduction au Data-Mining

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Traduction binaire dynamique de l extension SIMD Néon de l ARMv7 dans Qemu

Bases de données des mutations

Le très haut débit sur le territoire du Parc des Monts d'ardèche

GPA770 Microélectronique appliquée Exercices série A

Une bibliothèque de templates pour CUDA

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire

Eco-système calcul et données

Canvas 3D et WebGL. Louis Giraud et Laetitia Montagny. 9 Avril Université Lyon 1

Rapport 2014 et demande pour Portage de Méso-NH sur Machines Massivement Parallèles du GENCI Projet 2015 : GENCI GEN1605 & CALMIP-P0121

CARTE ACHAT. Yolande Sallent

Assemblée générale Aristote

CAP CAMION A ASSISTANCE PNEUMATIQUE

Architectures d implémentation de Click&DECiDE NSI

Java à Murex: un retour d'expérience. Jean-Pierre DACHER & Craig MORRISON

Note de cadrage du PEPI MACS Mathématiques Appliquées & Calcul Scientifique

Parallélisme et Répartition

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Eric Bertrand 08/11/06 Maître de conférence 1

Perl Orienté Objet BioPerl There is more than one way to do it

Extraction d information des bases de séquences biologiques avec R

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Architecture distribuée

INGÉNIEUR - DÉVELOPPEUR SENIOR EMBEDDED - C/C++ - MICROCONT RÔLEURS. 34 ans - 10 ans d'expérience

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

Catalogue des stages Ercom 2013

Résultats semestriels 2014 & perspectives. «Du mobile au Big Data»

Service formation permanente locale. Cahier des charges : «HABILITATIONS ELECTRIQUES FORMATIONS INTIALES ET RECYCLAGES»

EN QUOI L'EQUILIBRE DE NOTRE FLORE INTESTINALE INFLUE-T-IL SUR NOTRE SANTE?

Utilisation de l ingénierie des modèles pour la conception collaborative de produits mécaniques

Configuration Matérielle et Logicielle AGORA V2

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Laboratoire 4 Développement d un système intelligent

Maarch Framework 3 - Maarch. Tests de charge. Professional Services. 11, bd du Sud Est Nanterre

Solution IT Power Management Gérer la consommation électrique de toute votre infrastructure IT

GCOS 7 sur microprocesseur standard Diane Daniel POIRSON 14 octobre 2004 Matériels 64 / DPS 7 / DPS 7000 Architecture & Evolution - Daniel POIRSON 1

Base de données bibliographiques Pubmed-Medline

Moderniser. le système d information et le portefeuille applicatif.

Transcription:

Génomique et GPU Jean Michel Batto jean-michel.batto@jouy.inra.fr INRA, Laboratoire de Génétique Microbienne Centre de Recherche de Jouy en Josas (78) Forum TER@TEC, Ecole Supélec (91), 1 er Juillet 2009 1

Génomique : une donnée simple L ADN : une chaine de texte dans un alphabet de 4 lettres (A, T, C, G) 2

Génomique : une donnée encore simple Les objets d intérêt : ADN ARN Protéines Structures 3

La diversité des structures de données Les ordres de grandeurs Gène >1..n protéines : 100 10000 lettres ARN messager : ~100 10000 lettres ARN antisens : ~100 lettres Opéron : ~ 3 gènes Plasmide/Virus/Phage : ~100 gènes Un génome bactérien : ~2000 gènes Un génome humain : ~30000 gènes 4

Que faire avec les données brutes? Un génome est une collection d informations Des données brutes associées à des fonctions Des fonctions inconnus 5

Par identification, prédiction des fonctions 6

Ces prédictions sont difficiles : La prédiction dépend de la qualité du corpus Par exemple : rôle des gènes des phages > dans un génome bactérien on peut avoir 15% des gènes qui sont des séquences répétées La complexité est exponentielle : un modèle = (organisation gènes)* (interactions)* (régulations) 7

La loi de Moore et la génomique Evolution de la puissance CPU 1E+10 1E+09 100000000 10000000 1000000 100000 10000 1000 100 10 1 effectif transistors processeur x86 effectif transistors processeur x86 Expon. (effectif transistors processeur x86) L effectif du nombre de transistors du x86 le plus puissant, double tous les 18 mois http://en.wikipedia.org/wiki/transistor_count 8

La loi de Moore et la génomique Evolution de la taille des banques de séquence 1E+12 1E+11 1E+10 1E+09 Genbank EMBL effectif transistors processeur x86 Expon. (effectif transistors processeur x86) 100000000 10000000 1000000 100000 10000 La taille totale double tous les ~ 18 mois 1000 100 10 1 Sources : EMBL et NCBI 9

La loi de Moore et la génomique Apport des données brutes en bp/jour 1E+12 1E+11 1E+10 1E+09 100000000 10000000 1000000 100000 10000 1000 100 10 1 Genbank EMBL Puissance séquenceur bp/jour effectif transistors processeur x86 Expon. (Puissance séquenceur bp/jour) Les séquenceurs haut débits > technologie nouvelle De l ordre de la loi de Moore. 10

La génomique haut débit Des nouveaux séquenceurs haut débit (2008) 454 Roche 240 Mb / 8h Solexa Illumina 400 Mb / jour Solid Applied Biosystems 1200 Mb / jour 1200 X ce que produit un séquenceur de 2002 11

La génomique haut débit : un début fulgurant Octobre 2008 : Un déluge d informations 12

Une application : Le métagénome humain Un nouveau champ d investigation: Dans le tractus digestif, il y a 1 à 2 kg de bactéries Il y a plus de 1000 espèces présentes L intestin est un organe clé dans la réponse immunitaire Projet MetaHIT : www.metahit.eu 13

La production et les traitements La base de données du Sanger Institute (2006) : 22 To de chromatogrammes La production de connaissances de MetaHIT : 150 fois le génome humain 3 millions de gènes annotés Une projection du coût d analyse sur Solexa dans 5 ans : 1000 $ >il faut des outils de traitements non attachés à des supercalculateurs 14

Le multicore et le GPU SISD : Pas de Parallélisme : 1 instruction X 1 donnée SIMD : Single Instruction Multiple Data SSE, MMX, GPU MIMD : Multiple Instruction Multiple Data Multicore, GPU Source : wikipedia / Flynn s taxonomy 15

Utilisation du GPU en bioinformatique 2005 : RAxML / Phylogeny / BrookGPU gain gpu/cpu : 2,3x 2006 : GPU ClustalW / mult. alignement / OpenGL gain gpu/cpu : 11,2x 2007 : MUMmerGPU / mult. alignement / CUDA gain gpu/cpu : 3,8x 2008 : Smith Waterman / algo alignement / CUDA gain gpu/cpu : 2,4x 2009 : GPU HMMER / HMM / CUDA gain gpu/cpu : 30x 16

Du point de vue de l utilisateur Accès en ligne de commande Après compilation, sur une machine linux Accès via une API Python http://www.biomanycores.org/ Comment concilier la haute spécificité du GPU et l utilisateur? architecture 3 tiers 17

Perspectives : une architecture 3 tiers pour valoriser les outils bioinformatiques GPU HTML/SOAP -métagénomique Primitives OpenCL -prétraitements -indexation Frontal WEB/SOA Accès aux outils de traitements Poste utilisateur 18

Cohérence dans le projet FUI OpenGPU Panel utilisateurs INRA : Applications autour du métagénome Facilite les investigations Validation du scénario d utilisation Implémentation bioinformatique 3 tiers : OpenCL Diffusion du code et validation Codes bioinformatiques Défini un domaine de validation du gain et enrichi la base de connaissance Problématique algorithmique à travers Tfold / IBISC Fariza Tahi exploration de l impact OpenCL 19

Perspectives : le début d une nouvelle industrie L apport des séquenceurs haut débits La mise à disposition des résultats scientifiques autour du métagénome La création et l utilisation d outils de navigation/requêtage >une nouvelle industrie de la santé : ie : 20

Remerciements : INRA Fouad Boumezbeur Nicolas Pons Sean Kennedy Alexander Bolotine Pierre Renault S. Dusko Ehrlich AS+ Benjamin Candelon LIFL CNRS Mathieu Giraud IBISC CNRS Fariza Tahi 21