DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION PRINCIPES DE BASE SUR LES DONNEES ET LE CALCUL HAUTE PERFORMANCE Lois de Gray sur l ingénierie des données 1 : Les calculs scientifiques traitent des volumes considérables de données, sans limites réelles. La solution est l architecture «scale-out» avec accès aux données distribuées. Il faut déplacer les organes de calcul vers les données et non l inverse. Loi d Amdahl sur le calcul haute performance (HPC) 2 : Ajouter des cœurs de microprocesseur à un processus ne permet pas de l accélérer de manière linéaire. Accélération = 1/((1 - P) + P/N) N = nombre de composants parallèles P = partie de programme parallèle (pourcentage) (1-P) = partie séquentielle P/N = partie simultanée/parallèle Les processeurs multicœurs n atténuent pas le problème car le séquençage nouvelle génération est hautement parallélisé. Les systèmes de calcul haute performance (HPC) actuels sont riches en termes de traitement CPU et pauvres en termes d entrées/sorties. Figure 1 : Loi d Amdahl L objectif du séquençage nouvelle génération (SNG) est de créer de grandes régions contiguës de séquences ADN (les blocs de construction du génome) significatives d un point de vue biologique, à partir de milliards d éléments de données issus de fragments courts. Le séquençage du génome entier (méthode globale ou Shotgun) est la meilleure approche en termes de coût par opération de séquençage, de ressources de calcul et de portée clinique. La méthode de séquençage Shotgun consiste à réaliser un échantillonnage aléatoire de séquences de lectures effectuées par les instruments de séquençage nouvelle génération, avec une couverture optimale. La couverture de séquençage nouvelle génération se définit comme suit : nombre de lectures x (longueur de lecture/longueur du génome). Le nombre de lectures est généralement de l ordre de plusieurs millions, la longueur de lecture et la longueur du génome étant exprimées en paires de bases. La longueur du génome humain est d environ 3 milliards de paires de bases. Les étapes du séquençage Shotgun sont les suivantes : 1. Extraction et fragmentation de l ADN. 2. Clonage de l ADN et séquençage des deux extrémités du clone. 3. Recueil des données brutes du séquenceur et de la fonction d appel de bases. 4. Assemblage de la séquence par création d un graphe de De Bruijn 3 (qui peut comporter plus de 100 millions de nœuds et dont les segments sont appelés k-mers) et de ses sous-graphes ; détection des chevauchements et assemblage ; réduction du graphe et création d échafaudages. 5. Finalisation de la séquence en comblant les trous : une couverture plus importante aboutit à des trous plus petits et moins nombreux. 6. Recherche de la signification phénotypique et clinique via les polymorphismes nucléotidiques (SNP), insertions/suppressions (InDel), variants, variations du nombre d exemplaires (CNV) et mutations. Les principaux composants d une architecture de séquençage nouvelle génération sont : le ou les instruments, le calcul haute performance (HPC), le stockage et le réseau. Dans le séquençage nouvelle génération, le calcul haute performance a pour but de réduire la latence et d optimiser le volume de données de séquences ADN traitées par unité de temps. Les composants les plus lents d un environnement HPC sont le réseau et les disques. Il existe plusieurs raisons pour lesquelles on ne peut parvenir à une parallélisation totale 4, notamment : Limitations des algorithmes : Elles sont dues à des dépendances mutuelles ou à des parties du processus qui ne peuvent être exécutées que séquentiellement. Goulots d étranglement : L accès aux données constitue le goulot d étranglement majeur dans les workflows HPC. Dans la mesure où les algorithmes en boucle font entrer et sortir du CPU de grandes quantités de données, les ressources intégrées ont tendance à être sous-utilisées et les performances sont limitées par les chemins de données les plus lents vers la mémoire et son stockage. L accès à une ressource partagée (chemins d exécution dans le cœur, chemins mémoire partagés dans les processeurs multi-cœurs et périphériques d entrées/sorties) sérialise l exécution. Cela influe également sur la simultanéité. Temps système au démarrage : Le processus d appel de bases et les autres opérations faisant intervenir de nombreuses écritures de petits fichiers sont également responsables de ce temps système avant la mise en cache. Communication : La parfaite simultanéité entre les différentes parties d un système parallèle relève davantage de la théorie que de la pratique. La communication étant la pierre angulaire des algorithmes parallèles, il existe toujours un certain pourcentage de sérialisation. Les problèmes d instabilité, dus aux pilotes et aux versions, dans le système d exploitation et le réseau peuvent également être à l origine de goulots d étranglement. PRÉSENTATION DE SOLUTION
Exemples d utilisation du séquençage nouvelle génération Au cours des cinq dernières années, les progrès de la science génomique, plus rapides que ne le prévoyait la loi de Moore, ont permis d accélérer l avènement du diagnostic moléculaire (MDx), que le Dr Leroy Hood décrit sous le nom de «médecine P4» 5 : personnalisée, prédictive, préventive et participative. Les exemples d utilisation pour une génomique clinique utilisant le séquençage nouvelle génération sont présentés dans le tableau 1. Tableau 1 : Exemples d utilisation du séquençage nouvelle génération et stratégie d analyse NOM POPULATION D ACIDES NUCLÉIQUES STRATÉGIE D ANALYSE SÉQUENÇAGE ARN (RNA-SEQ) ARN (poly-a, ARNm ou ARN total) Alignement des lectures sur les «gènes» ; variations pour la détection des jonctions d épissage et la quantification de l abondance SÉQUENÇAGE DES PETITS ARN Petits ARN (ou microarn) Alignement des lectures sur les références des petits ARN (par exemple mirbase), puis sur le génome ; quantification de l abondance MÉTHODE CHIP-SEQ ADN lié aux protéines, capturé par l intermédiaire de l anticorps (ChIP = Chromatin ImmunoPrecipitation) Alignement des lectures sur le génome de référence, identifications des pics et des motifs ANALYSE DES VARIATIONS STRUCTURELLES ADN génomique, avec deux lectures «mate-pair» par modèle d ADN Alignement des mate-pairs sur la séquence de référence et interprétation des variants structurels SÉQUENÇAGE DE NOVO ADN génomique, avec éventuellement données externes (par ex. ADNc, génomes d espèces étroitement apparentées, etc.) Regroupement des lectures pour assemblage des contigs, échafaudages et (dans l idéal) séquence de génome entier MÉTAGÉNOMIQUE Intégralité de l ARN ou de l ADN d une communauté (généralement microbienne) Analyse phylogénétique des séquences
La stratégie d analyse est gérée principalement par un logiciel Open Source, comme indiqué ci-dessous dans le tableau 2. Toutefois, avec l arrivée à maturité du domaine de la génomique clinique, les plates-formes telles qu Avadis et CLCbio gagnent du terrain pour des raisons de documentation, d audit et d exigences réglementaires. Les techniques de séquençage smallrna, ChIPseq et RNAseq, comme la méthode de séquençage de novo, se révèlent prometteuses d un point de vue clinique. Tableau 2 : Outils d analyses couramment utilisés dans le séquençage nouvelle génération ÉTAPES DES PROCESSUS BIOINFORMATIQUES OUTILS INTÉGRÉS ALIGNEMENT/ ASSEMBLAGE AU GENOME DE REFERENCE ALIGNEMENT ET ASSEMBLAGE DE NOVO DÉCOUVERTE DES SNP/INDEL ANNOTATION, NAVIGATEUR CASAVA BoWTie ABySS SOAPsnp Avadis CLCbio BWA SOAPdenovo EagleView Genomics Workbench Galaxy GATK ELAND Maq SAMtools BFAST Harvard Genotator NCBI MapView SAMtools UCSC Genome Browser Débit de données avec Illumina HiSeq 2000 Débit d environ 30 à 50 Gbp par jour Longueur de lecture d environ 100 bp couverture d environ 50 x à 75 x ~ 8 To de données brutes par run (opération de séquençage) - fichiers d appel de bases compris, images et fichiers log non compris ~ 100 Go de données de résultats par run 2 runs par semaine et par instrument ~ 8 To par semaine et par instrument 4 séquences de génome entier (WGS) ou 16 exomes par semaine et par instrument Débit réaliste de 160 génomes entiers ou 480 exomes par an et par instrument. Cela représente environ 350 To par an. ILLUMINA HISEQ L architecture de séquençage de nouvelle génération présentée à la Figure 2 correspond à un seul exemple de séquenceur de production, l Illumina HiSeq. Avec le succès croissant du «séquençage en tant que service», les chercheurs se concentrent sur le fichier BAM (Binary Alignment Map) pour commencer l analyse des séquences d un point de vue fonctionnel : SNP, insertions/suppressions (InDel), variants, CNV et mutations. Figure 2. Architecture de référence
Figure 3 : Les types de stockage EMC Isilon et leurs fonctions La solution : EMC Isilon EMC ISILON ONEFS Le système d exploitation EMC Isilon OneFS combine les trois couches des architectures de stockage traditionnelles (système de fichiers, gestionnaire de volume et RAID) au sein d une couche logicielle unifiée, constituant ainsi un système de fichiers distribué, intelligent et unique qui s exécute sur un cluster de stockage Isilon. Les avantages que présente OneFS pour le séquençage nouvelle génération sont nombreux : Évolutivité : Évolution en fonction des besoins. Évolution linéaire avec une capacité croissante : de 18 To à 20 Po dans un même système de fichiers et un même espace de nommage global. Prévisibilité : L équilibrage dynamique des contenus s effectue au fur et à mesure que des nœuds sont ajoutés, mis à niveau ou que la capacité est modifiée. Ce processus étant très simple, il ne nécessite pas de temps de gestion supplémentaire. Disponibilité : OneFS est capable d auto-réparation Il protège vos données en cas de coupure d alimentation, de panne de nœud ou de disque, de défaut de quorum et de reconstruction du stockage en distribuant les données, métadonnées et données de parité sur l ensemble des nœuds. Efficacité : Comparé aux 50 % d efficacité moyenne des systèmes RAID, OneFS vous garantit une efficacité de 80 %, indépendamment du cache ou de la charge de calcul du CPU. Cette efficacité est due à la hiérarchisation du processus en trois types, comme le montre la Figure 3, et aux pools existant dans ces types de nœuds. Prêt à l emploi pour l entreprise : Administration des clusters de stockage par l intermédiaire d une interface utilisateur Web intuitive. Connectivité à vos processus via les protocoles standard : CIFS, SMB, NFS, FTP/HTTP, Objet et HDFS. Authentification et contrôle d accès normalisés disponibles : AD, LDAP et NIS. Notez que pour mettre en place un système équilibré, vous devez vous procurer en même temps un modèle X ou S et un modèle NL. Postulats : a. Les fichiers bruts sont traités séparément b. Le processus débute au niveau des fichiers d appel de bases c. Couche d archivage commune Fichiers de sortie : Fichiers BAM : 30 octets par lecture + 2 octets par paire de bases ; environ 100 Go à 250 Go pour le séquençage du génome humain entier Fichiers SRA : 10 octets par paire de bases (~ 30 Go pour le séquençage du génome humain entier) Temps d analyse et d interprétation non compris (variable d une semaine à plusieurs mois). Tableau 3 : Deux architectures de référence de stockage ARCHITECTURE DE TYPE «UN VERS UN» Un séquenceur pour un cluster de stockage 3 séquenceurs EXEMPLE AVEC UN SEUL SÉQUENCEUR EMC Isilon X 18 To de capacité brute (3 x 6 To) avec un minimum de 400 Go sur disque SSD, 48 Go de RAM Déplacement vers la couche d archivage après chaque exécution avec SmartPools ou SnapshotIQ TM Zone de travail temporaire (dossiers tmp) sur cluster de stockage Back-end IB et Ethernet front-end 1 Gbit/s minimum (LACP 2 x 1 Gbit/s ou 10 Gbit/s pour améliorer les performances) ÉVOLUTIVITÉ AVEC L AJOUT DE SÉQUENCEURS Couche d archivage : Gamme NL 108 To de capacité brute (3 x 36 To) : Conception offrant 324 To de données brutes (3 x 108 To) pour planification de stockage sur un an ARCHITECTURE DE TYPE «PLUSIEURS VERS UN» Plusieurs séquenceurs pour un cluster de stockage 3 séquenceurs EXEMPLE AVEC 3 SÉQUENCEURS Gamme EMC Isilon S 36 To de capacité brute (3 x 12 To) avec un minimum de 800 Go sur disque SSD, 144 Go de RAM Zone de stockage temporaire (dossiers tmp) sur cluster HPC si le logiciel d analyse de séquençage nouvelle génération permet cette configuration ; dans le cas contraire, zone de stockage temporaire sur le cluster de la gamme S Back-end IB et Ethernet front-end 10 Gbit/s ÉVOLUTIVITÉ AVEC L AJOUT DE SÉQUENCEURS Couche d archivage : Déplacement par lots via les règles SmartPools ou SnapshotIQ : Gamme NL 324 To de capacité brute (3 x 108 To) : Conception offrant 2 clusters NL pour planification de stockage sur un an
Flux de données et performances FLUX DE DONNÉES ET DIMENSIONNEMENT POUR LE SÉQUENÇAGE NOUVELLE GÉNÉRATION Malgré la similarité des composants SNG, notamment en matière de séquenceurs, de calcul haute performance et de stockage, les workflows peuvent présenter de grandes différences, comme le montre le tableau 1. Il est donc impératif que les équipes de recherche et d informatique comprennent et planifient en conséquence l architecture du calcul haute performance et du stockage. La figure 4 fournit l illustration d un workflow de ce type, avec chemins de données, tailles de fichiers et volumes de données. Cet exemple est représentatif de la plupart des workflows du séquençage de génomes entiers. Il est également essentiel de bien appréhender le débit de l instrument. Figure 4 : Flux de données et dimensionnement METRICS DE PERFORMANCES Tout comme la bonne compréhension du workflow, le degré de parallélisation des algorithmes dans le processus est fondamental en termes de performances. Il existe également d autres facteurs importants, notamment la RAM (3 Go/cœur), le réglage du système de fichiers NFS et les trames jumbo (TCP MTU 9000). Le réglage des threads pour SGE et NFS peut également contribuer à l amélioration des performances. Configuration de test : plate-forme HPC 72 cœurs (2,6 GHz) avec 144 Go de RAM sur CentOS 6.2 Son-of Grid Engine et PDSH, programmation parallèle avec le compilateur GCC Nœud EMC Isilon S avec capacité brute de 12 To, disque SSD de 540 Go et 144 Go de RAM avec back-end IB sur OneFS 6.5.4 Ethernet front-end 1 Gbit/s, NFSv4 Plate-forme d analyse Illumina CASAVA 6 1.8 Séquençage du génome humain entier par Illumina
Références : 1. Jim Gray, «Scalable Computing» (présentation chez Nortel : Microsoft Research, avril 1999). Figure 5 : Performance du séquençage nouvelle génération avec Illumina CASAVA 2. Amdahl, «Validity of the Single Processor Approach to Achieving Large-Scale Computing Capabilities». AFIPS Conference Proceedings (30) : 483 485, 1967. 3. Compeau, Pevzner et Tesler, «How to apply de Bruijn graphs to genome assembly», Nature Biotechnology. Volume 29, numéro 11, novembre 2011. 4. Hagar et Wellein, «Introduction to High Performance Computing for Scientists and Engineers», CRC Press, 2011. 5. Hood et Friend, «Predictive, personalized, preventive, participatory (P4) cancer medicine», Nature Reviews Clinical Oncology 8, 184-187, mars 2011. 6. Guide d utilisation de CASAVA 1.8, Illumina Réf. 15011196 Rév. B, mai 2011. CONCLUSION Le séquençage nouvelle génération est une entreprise complexe faisant intervenir de multiples variables. En effet, les instruments eux-mêmes évoluent plus rapidement que les couches de stockage ou de calcul haute performance à mesure que le processus prend la direction de la génomique clinique. Avec EMC Isilon, la conception du stockage des données de séquençage nouvelle génération, sa mise en œuvre et le processus de mise à niveau sont à la fois simples et sans problèmes. NOUS CONTACTER Pour savoir comment les produits, services et solutions EMC peuvent vous aider à relever vos défis métiers et informatiques, contactez un responsable de compte ou un revendeur agréé, ou visitez notre site Web à l adresse france.emc.com/isilon. EMC 2, EMC, le logo EMC, Isilon, OneFS, SmartPools et SnapshotIQ sont des marques déposées ou des marques commerciales d EMC Corporation aux États-Unis et dans d autres pays. Toutes les autres marques citées dans le présent document sont la propriété de leurs détenteurs respectifs. Copyright 2013 EMC Corporation. Tous droits réservés. 06/13 Présentation de solution H10628.3 france.emc.com EMC estime que les informations figurant dans ce document sont exactes à la date de publication. Ces informations sont modifiables sans préavis.