Génomique et GPU Jean Michel Batto jean-michel.batto@jouy.inra.fr INRA, Laboratoire de Génétique Microbienne Centre de Recherche de Jouy en Josas (78) Forum TER@TEC, Ecole Supélec (91), 1 er Juillet 2009 1
Génomique : une donnée simple L ADN : une chaine de texte dans un alphabet de 4 lettres (A, T, C, G) 2
Génomique : une donnée encore simple Les objets d intérêt : ADN ARN Protéines Structures 3
La diversité des structures de données Les ordres de grandeurs Gène >1..n protéines : 100 10000 lettres ARN messager : ~100 10000 lettres ARN antisens : ~100 lettres Opéron : ~ 3 gènes Plasmide/Virus/Phage : ~100 gènes Un génome bactérien : ~2000 gènes Un génome humain : ~30000 gènes 4
Que faire avec les données brutes? Un génome est une collection d informations Des données brutes associées à des fonctions Des fonctions inconnus 5
Par identification, prédiction des fonctions 6
Ces prédictions sont difficiles : La prédiction dépend de la qualité du corpus Par exemple : rôle des gènes des phages > dans un génome bactérien on peut avoir 15% des gènes qui sont des séquences répétées La complexité est exponentielle : un modèle = (organisation gènes)* (interactions)* (régulations) 7
La loi de Moore et la génomique Evolution de la puissance CPU 1E+10 1E+09 100000000 10000000 1000000 100000 10000 1000 100 10 1 effectif transistors processeur x86 effectif transistors processeur x86 Expon. (effectif transistors processeur x86) L effectif du nombre de transistors du x86 le plus puissant, double tous les 18 mois http://en.wikipedia.org/wiki/transistor_count 8
La loi de Moore et la génomique Evolution de la taille des banques de séquence 1E+12 1E+11 1E+10 1E+09 Genbank EMBL effectif transistors processeur x86 Expon. (effectif transistors processeur x86) 100000000 10000000 1000000 100000 10000 La taille totale double tous les ~ 18 mois 1000 100 10 1 Sources : EMBL et NCBI 9
La loi de Moore et la génomique Apport des données brutes en bp/jour 1E+12 1E+11 1E+10 1E+09 100000000 10000000 1000000 100000 10000 1000 100 10 1 Genbank EMBL Puissance séquenceur bp/jour effectif transistors processeur x86 Expon. (Puissance séquenceur bp/jour) Les séquenceurs haut débits > technologie nouvelle De l ordre de la loi de Moore. 10
La génomique haut débit Des nouveaux séquenceurs haut débit (2008) 454 Roche 240 Mb / 8h Solexa Illumina 400 Mb / jour Solid Applied Biosystems 1200 Mb / jour 1200 X ce que produit un séquenceur de 2002 11
La génomique haut débit : un début fulgurant Octobre 2008 : Un déluge d informations 12
Une application : Le métagénome humain Un nouveau champ d investigation: Dans le tractus digestif, il y a 1 à 2 kg de bactéries Il y a plus de 1000 espèces présentes L intestin est un organe clé dans la réponse immunitaire Projet MetaHIT : www.metahit.eu 13
La production et les traitements La base de données du Sanger Institute (2006) : 22 To de chromatogrammes La production de connaissances de MetaHIT : 150 fois le génome humain 3 millions de gènes annotés Une projection du coût d analyse sur Solexa dans 5 ans : 1000 $ >il faut des outils de traitements non attachés à des supercalculateurs 14
Le multicore et le GPU SISD : Pas de Parallélisme : 1 instruction X 1 donnée SIMD : Single Instruction Multiple Data SSE, MMX, GPU MIMD : Multiple Instruction Multiple Data Multicore, GPU Source : wikipedia / Flynn s taxonomy 15
Utilisation du GPU en bioinformatique 2005 : RAxML / Phylogeny / BrookGPU gain gpu/cpu : 2,3x 2006 : GPU ClustalW / mult. alignement / OpenGL gain gpu/cpu : 11,2x 2007 : MUMmerGPU / mult. alignement / CUDA gain gpu/cpu : 3,8x 2008 : Smith Waterman / algo alignement / CUDA gain gpu/cpu : 2,4x 2009 : GPU HMMER / HMM / CUDA gain gpu/cpu : 30x 16
Du point de vue de l utilisateur Accès en ligne de commande Après compilation, sur une machine linux Accès via une API Python http://www.biomanycores.org/ Comment concilier la haute spécificité du GPU et l utilisateur? architecture 3 tiers 17
Perspectives : une architecture 3 tiers pour valoriser les outils bioinformatiques GPU HTML/SOAP -métagénomique Primitives OpenCL -prétraitements -indexation Frontal WEB/SOA Accès aux outils de traitements Poste utilisateur 18
Cohérence dans le projet FUI OpenGPU Panel utilisateurs INRA : Applications autour du métagénome Facilite les investigations Validation du scénario d utilisation Implémentation bioinformatique 3 tiers : OpenCL Diffusion du code et validation Codes bioinformatiques Défini un domaine de validation du gain et enrichi la base de connaissance Problématique algorithmique à travers Tfold / IBISC Fariza Tahi exploration de l impact OpenCL 19
Perspectives : le début d une nouvelle industrie L apport des séquenceurs haut débits La mise à disposition des résultats scientifiques autour du métagénome La création et l utilisation d outils de navigation/requêtage >une nouvelle industrie de la santé : ie : 20
Remerciements : INRA Fouad Boumezbeur Nicolas Pons Sean Kennedy Alexander Bolotine Pierre Renault S. Dusko Ehrlich AS+ Benjamin Candelon LIFL CNRS Mathieu Giraud IBISC CNRS Fariza Tahi 21