Séquençage massif en parallèle Défis technologiques et informatiques Jean-Baptiste Rivière, PhD jean-baptiste.riviere@u-bourgogne.fr 10/09/2014
Séquençage massif en parallèle Défis technologiques de Sanger à Illumina
Le génome humain Organisme diploïde, 23 paires de chromosomes. 3,3 milliards de paires de bases. 20 687 gènes et 6,3 isoformes par locus. Par individu, en moyenne : 3 à 4 millions de variations ponctuelles. > 1 000 variations structurales.
1990 Début du Human Genome Project Initié par le US Department of Energy (DOE) et le NIH. Projet collaboratif international prévu sur 15 ans Objectif : décoder le génome humain pour accélérer les progrès en génétique, de la médecine à l'évolution de l'humain.
2003 Fin du Human Genome Project Human Genome Project 13 ans > 3 milliards $ 2003
Principe du séquençage Sanger
Développements technologiques
Vers le séquençage en routine de génomes entiers Human Genome Project Génome de James Watson Génome individuel Génome Individuel Génome Individuel 13 ans > 3 milliards $ 2 mois 2 millions $ 15 jours 3000-5000 $ 3 jours 1000 $ 1h 100 $ 2003 2007 2013 2015 2025
Quelques définitions Séquençage haut débit (SHD) : terme générique et peu spécifique (utilisation à éviter). Séquençage nouvelle génération (NGS) ou massif en parallèle : regroupe les technologies de 2nde et 3ème génération. Séquençage de 2nde génération : séquençage d'un ensemble de molécules nucléotidiques à l'aide de techniques de wash-and-scan (ou cycles). Wash-and-scan : technique basée sur des polymérases et réactifs qui doivent être enlevés à chaque cycle après l'incorporation des bases à lire.
Quelques définitions Séquençage de 3ème génération : processus de séquençage de molécules uniques ne nécessitant pas de wash-and-scan. Lecture : fragment nucléotidique individuel dont la séquence est déterminée par un instrument. Longueur de lecture : correspond au nombre de bases individuelles composant une lecture donnée. Préparation de librairies : procédure expérimentale précédant le séquençage des fragments d'adn d'intérêt. Varie en fonction de la technologie.
Principe du NGS
Principe du NGS Préparation des libraires Bridge PCR Emulsion PCR Semiconductor sequencing (Ion Torrent) Sequencing by ligation (SOLiD) Pyrosequencing (454) Reversible terminator sequencing (Illumina)
Séquençage Solexa/Illumina Preuve de principe de la technologie par le séquençage d'un génome humain (2008). Séquençage bidirectionnel de lectures 35 pb et profondeur de séquençage > 30X en moyenne.
Bridge (ou cluster ) PCR L'ADN est fragmenté et lié à des adapteurs. Les fragments sont liés à une surface tapissée de séquences adaptatrices et amplifiés par PCR. Résultat : obtention de groupes d'amplicons à la surface de la flowcell (appelés clusters).
Principe du séquençage Illumina
Principe du séquençage Illumina Hybridation d'une amorce de séquençage universelle. Extension d'une seule base à chaque cycle par l'utilisation de nucléotides modifiés ( reversible terminators ) et marqués par fluorescence (une couleur par base). Cycle individuel de séquençage : (1) ajout d'une base, (2) acquisition d'image, (3) clivage chimique du groupement terminator et du marquage fluorescent pour le cycle suivant.
Séquenceurs Illumina
Caractéristiques techniques Lectures Débit Lectures/run Précision Temps d'exécution HiSeq 2000/2500 HiScan SQ Genome Analyzer IIx MiSeq 2x100 pb 2x100 pb 2x150 pb 2x250 pb 600 Gb 140 Gb 96 Gb 7,5 Gb 3 milliards 700 millions 320 millions 15 millions 99,9% 99,9% 99,9% 99,9% 11 jours 8 jours 14 jours 39h
Principe des index Principe : utilisation de séquences nucléotidiques synthétiques appelées index (ou barcodes ) pour identifier et combiner plusieurs échantillons dans une même expérience de séquençage.
Avantages et limites d'illumina Avantages Technologie avec le débit le plus important et le coût/base le plus faible actuellement. Technologie adoptée par la communauté scientifique (ex : disponibilité de nombreux outils bio-informatiques en libre accès). Limites Précision inférieure au Sanger (les erreurs principales sont des substitutions) Lectures de petite taille
Avantages du NGS vs Sanger Construction in vitro de librairies à séquencer et amplification clonale subséquente (vs transformation de E. coli et sélection de colonies). Parallelisation bien supérieure par une miniaturisation du processus de séquençage permettant des millons de réactions de séquençage sur une surface donnée. Diminution des volumes de réactifs de séquençage grâce à la miniaturisation du processus et la fixation des fragments sur un support solide. Conséquence : coût bien inférieur pour un débit bien supérieur.
Désavantages du NGS vs Sanger Taille des lectures limitée (problématique pour les régions non uniques dans le génome et l'analyse bioinformatique). Précision (taux d'erreurs) inférieure au séquençage Sanger (au minimum 10 fois moindre). Problématiques liées aux 2 technologies : Régions fortement répétées (ex: triplets nucléotidiques). Régions riches en nucléotides G et C. Point à considérer : ce n'est que le début du NGS, des améliorations sont à prévoir.
Séquençage massif en parallèle Défis informatiques Exemple de l'exome
Séquençage de l'exome Exome : exons codants du génome (1-2 % des séquences du génome) 20,000 variations codantes
Principe de la capture de l'exome
Identification de gènes responsables par séquençage d'exomes Boycott et al., Nature Reviews Genetics, 2013
Quel que soit le mode de transmission Boycott et al., Nature Reviews Genetics, 2013
Concept #1 There is a real disconnect between the ability to collect next-generation sequence data (easy) and the ability to analyze it meaningfully (hard) Dave O Connor
Concept #2
Outils bio-informatiques Logiciels d'analyses Traitement des données brutes Identification & annotation des variations Navigateurs de génomes Bases de données Visualisation et annotation des données Bases de données de variations & phénotypiques Outils de prédiction in silico Prédiction de l'impact des variations
Traitement des données Fichiers Fastq récupérés BWA Samtools GATK
Livraison & gestion des données Données Données brutes brutes Fichiers Fichiers FASTQ FASTQ Analyses Analyses Stockage Stockage haute haute performance performance Sauvegarde Sauvegarde Stockage Stockage basse basse performance performance
Séquences Séquences brutes brutes Contrôle Qualité Alignement Alignement des des séquences séquences Identification Identification des des variations variations Annotation Annotation et et priorisation priorisation Validation Validation des des résultats résultats
Types de fichiers Fichiers textes/binaires Fichiers de référence Séquences de référence (ex: fasta) Listes d'intervales chromosomiques (ex: bed) Listes de gènes, transcrits, variants, etc. Fichiers de données à analyser Séquences brutes (ex: fastq) Séquences alignées (ex: SAM/BAM) Listes de variants (ex: vcf)
Types de fichiers Séquences Séquences brutes brutes (FASTQ) (FASTQ) Séquences Séquences alignées alignées (SAM/BAM) (SAM/BAM) Liste Liste de de variants variants (VCF) (VCF)
Notion de scores de qualité Généralement représenté à l'aide de l'échelle de Phred (pratique pour les probabilités faibles) Score de qualité : Q(A) = -10 log10 (P(~A)) où P(~A) est la probabilité que A est faux
CQ des données brutes Logiciel : FastQC Taille des lectures Taux d'erreurs moyen par cycle Duplicats de PCR Détection de fragments surreprésentés (séquences adaptatrices) Biais GC
Alignement des données FASTQ FASTQ SAM SAM Contrôle Contrôle Qualité Qualité Picard Picard BAM BAM (clean, (clean, sort, sort, dedup) dedup) GATK GATK BAM BAM (realign, (realign, recal) recal)
Exemple de réalignement autour d'une délétion
CQ des données alignées Logiciels : Picard & GATK Estimation de la complexité des librairies Pourcentage de lectures alignées au génome de référence (hg19) Pourcentage de duplicatas de PCR Profondeur de séquençage utile (exons codants RefSeq) Samples Mean depth of coverage % bases 10X % bases 20X % bases 60X % bases 100X 65 exomes 94X 93 90 67 41
Identification des variations Logiciels : GATK (SNV & indels) XHMM (CVNs) Régions ciblées : exons codants RefSeq Variations Variations brutes brutes (VCF) (VCF) GATK GATK UnifiedGenotyper UnifiedGenotyper Filtre Filtre des des variations variations (VCF) (VCF) GATK GATK VariantFiltration VariantFiltration
Annotation des variations Variations Variations non-annotées non-annotées (VCF) (VCF) GATK GATK Variations Variations annotées annotées (VCF) (VCF) SeattleSeq SeattleSeqAnnotation Annotation Annotation Annotation Omim Omim (VCF) (VCF) Annotation Annotation ClinVar ClinVar (VCF) (VCF)
Variations rares Filtres de qualité Variants PASS Profondeur : 10X Allèle mutant dans 4 lectures et 10% des lectures NS/SS/I : Variations non-synonymes, d'épissage, ins/dels affectant la séquence codante & synonymes à proximité de sites d'épissage
Variations rares Fréquence dans les bases de données < 1% dans dbsnp < 1% dans EVS (6,500 exomes) < 5% dans les autres exomes locaux Filtre OMIM : gène associé à une pathologie génétique dans OMIM Autres filtres/stratégies possibles en fonction du design expérimental
Priorisation des variations Recherche Boycott et al., Nature Reviews Genetics, 2013
Priorisation Diagnostic Variations codantes non-synonymes / d'épissage > 10 000 Variations rares (< 1 %) 500 Gènes de pathologie Humaine (OMIM) 80 Classification & Validation 0-5
Classification Diagnostic Richards et al., Genetics in Medicine 2008
Navigateurs de génome Accès aux données du génome humain à l'aide d'un interface graphique Accès à de très nombreuses données d'annotation Les 2 principaux : UCSC Genome Browser Ensembl Genome Browser
UCSC Genome Browser
UCSC Genome Browser
Visualisation des variations (IGV)
Bases de données de variants SNPs et indels Single Nucleotide Polymorphism Database (dbsnp) Exome Variant Server (EVS) 1000 Genomes Project CNVs Database of Genomic Variants (DGV)
Exome Variant Server
Exome Variant Server
Exome Variant Server
Bases de données de variations en pathologie humaine Généralistes Single Nucleotide Polymorphism Database (dbsnp) Human Gene Mutation Database (HGMD) Online Mendelian Inheritance in Man (OMIM) Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resource ( DECIPHER) Spécialisées Locus Specific DataBases (LSDB) Catalogue of somatic mutations in cancer (COSMIC)
COSMIC
Outils de prédiction in silico Prédiction informatique de l'effet de variations génétiques Exemple 1: mutations non-synonymes SIFT Polyphen Exemple 2: effet sur l'épissage Human Splicing Finder (HSF)
Conclusion Constat : la génétique ne se fait plus sans informatique (au sens large, incluant la bio-informatique), particulièrement en recherche, mais également en mileu hospitalier. Nécessité d'intégrer des outils informatiques variés dans la pratique professionnelle Nécessité d'intégrer l'informatique dans la formation des étudiants & professionnels
Se former à la bio-informatique Niveau 0 : Se documenter sur le sujet. Niveau 1 : Utiliser et maîtriser les outils ayant une interface graphique (bases de données publiques, navigateurs de génome, Galaxy, outils de prédiction in silico). Niveau 2 : Se familiariser avec Linux (ex : Ubuntu) ou utiliser le terminal du Mac. Niveau 3 : Apprendre un (des) langage(s) de programmation (ex : Python, Perl, R). Niveau 4 : Analyser des données réelles dans ses études ou sa pratique professionnelle.