BIG DATA @ USPC Données issues des «Omics» en Biologie et Médecine Jean-Michel Camadro Pôle «Sciences de la Vie et Santé» USPC 30 Novembre 2015
«Omics» en Biologie et Médecine
L univers des «Omics» G T M P
Les Omics donnent accès à une description des phénotypes dans des conditions normales et pathologiques Chem. Soc. Rev., 2011, 40, 387-426
Vers une médecine personnalisée, un objectif ambitieux des «Omics»
Les données «Omics» sont produites principalement par des approches NGS et MS Next Generation Sequencing (Nucleic acids) Exome/re-sequencing analysis Chromatin Immunoprecipitation (ChIP) Transcriptome analysis De novo assembly Small RNA analysis Mass Spectrometry (Proteins and metabolites) Quantitative proteomics Metabolomics
Les «Omics» au sein de SPC NGS Imagine Necker Institut Cochin Campus PRG (CEDC, IJM) IUH St-Louis Génomique Bichat MS 3P5 (Paris Diderot) Institut Jacques Monod P13; Beaujon Métabolomique Pharma P5 Biotyper BFA P7
Statistiques mondiales sur le NGS (29 Nov 2015 - NGI, Japan) No. Library strategy Run Data Counts 1 WGS 653 112 2 WXS 629 261 3 RNA-Seq 466 937 4 AMPLICON 447 642 5 ChIP-Seq 61 169 6 POOLCLONE 48 317 7 SELEX 21 649 8 Bisulfite-Seq 14 005 9 CLONE 12 214 10 WGA 8 350 11 mirna-seq 8 035 12 EST 5 046 13 DNase-Hypersensitivity 4 355 14 Targeted-Capture 3 748 15 MeDIP-Seq 1 993 16 MNase-Seq 1 947 17 FL-cDNA 1 805 18 ncrna-seq 1 599 19 Tn-Seq 1 494 20 MRE-Seq 1 300 21 RAD-Seq 1 193 22 MBD-Seq 1 119 23 WCS 1 014 24 RIP-Seq 899 25 CTS 415 26 FAIRE-seq 339 27 CLONEEND 124 28 ChIA-PET 101 29 Synthetic-Long-Read 47 30 FINISHING 34 31 VALIDATION 29 - Others (unknown,other etc.) 1 133 853 WGS: Whole genome shotgun sequencing: An assay in which DNA is the input molecule derived from fragmented whole genome preparation is sequenced. WXS: Random exon sequencing: An assay in which DNA is the input molecule derived from exons is sequenced. RNA-Seq: Whole Transcriptome Shotgun Sequencing: Random sequencing of whole transcriptome, also known as Whole Transcriptome Shotgun Sequencing, or WTS AMPLICON: Amplicon sequencing: An assay in which a DNA or RNA input molecule amplified by PCR is sequenced. ChIP-Seq: Direct sequencing of chromatin immunoprecipitates: An assay in which chromatin immunoprecipitation with high throughput sequencing is used to identify the cistrome of DNAassociated proteins. POOLCLONE: Pooled clone sequencing: An assay in which DNA is the input molecule derived from pooled clones (for example BACs and Fosmids) is sequenced using high throughput technology using shotgun methodology. Bisulfite-Seq: Sequencing following treatment of DNA with bisulfite to determine methylation status: An assay in which DNA is the input molecule derived from a bisulphite treatment of DNA to convert cytosine residues to uracil to determine methylation status.
Des pipelines d analyse spécifiques aux différentes approches NGS http://www.gvkbio.com/products-services/informatics-analytics/services/ngs-services/analysis-pipelines/
Les principales plateformes NGS Illumina; Ion Torrent PGM; Pacific Biosciences RS Roche 454; SOLiD
Exemple de données produites sur l un des systèmes implémenté dans SPC The HiSeq2000 can run two flow cells independently. - Read length: Single read 50 (SR50) or SR100 and Paired-end 50 (PE50) or PE100. - Up to 3000 mio reads and 600 Gbases per run with both flow cells and PE100. - Per lane up to 187.5 mio reads and 37.5 Gbases with PE100.
Caractéristiques des outputs There are typically 100-180 million clusters seen passing filter per HiSeq2000 lane which correspond to 100-180mio reads in a Single Read (SR) and to 200-360mio reads in a Paired-End (PE) run. A typical Paired-End 100 base run takes approximately 12 days to complete on the instrument (HiSeq2000) (nota: beaucoup plus rapide sur des systèmes plus récents) Average gzipped FastQ size per HiSeq2000 lane: - SR50, 8-10 Gigabyte (GB) - PE100, 20-25 GB Platforms often distribute the reads in FastQ packages of 50mio reads. Gzipped 50mio FastQs of 50/100 base reads have 2.5/5 GB, after unzipping 7.5/15 GB
Pipeline d analyse Génomique (DNA) Sample Library preparation Nest Gen Sequencing Illumina Ion PacBio Roche 454 Raw Data Size ~TB e.g..fastq files SVs identified (Paire-end, read depth, split-read algorithms) BreakSeq, DELLY, Pindel SNV identification and effect GATK, HugeSeq, SAMTools, SIFT, Polyphen, Annovar Mapping of reads ELAND II, Bowtie, SOAP, Novoaling MAQ, BWA, GATK Quality control FastQC, Trimming, CutAdapt, Picard
Importance critique des bases de données de référence, qui peuvent contenir plusieurs centaines de millions d entrées
Transcriptomique: un transfert technologique massif vers le NGS Microarray-based technologies NGS Statistics from Natl Genomics Inst. Japan
Pipeline d analyse de transcriptome par RNA-Seq RNA Sample Library preparation Nest Gen Sequencing Single or pairedend sequencing data e.g..fastq files; size ~ GB Normalization, differential expression CuffDiff, DESeq Annotation/ assembly Cufflinks, Scripture Mapping of reads Tophat, BWA Quality control FastQC, Trimming, CutAdapt, Picard
Quelle corrélation Transcriptome/Protéome? => Une approche émergente clé: la traductomique
Nécessité de déposer les données dans des bases performantes Data (Accession prefix) NCBI (SRA) (rate%) EBI (ERA) (rate%) DDBJ (DRA) (rate%) Total Submission Data (SRA,ERA,DRA) 287,142 (54.7%) 234,996 (44.8%) 2,379 (0.4%) 524,517 Experiment Data (SRX,ERX,DRX) 1,421,293 (70.5%) 570,738 (28.3%) 21,976 (1%) 2,014,007 Run Data (SRR,ERR,DRR) 2,910,943 (82.3%) 597,490 (16.9%) 24,712 (0.6%) 3,533,145 Sample Data (SRS,ERS,DRS) 1,118,573 (70.7%) 441,388 (27.9%) 20,437 (1.2%) 1,580,398 Study Data (SRP,ERP,DRP) 66,175 (85.5%) 8,774 (11.3%) 2,430 (3.1%) 77,379
Pipeline d analyse Protéomique quantitative Quantitation sample preparation SILAC, itraq, TMT, Labelfree Liquid Chromatography Mass Spectrometry profiling (LC-MS/MS) Convert to.mzml for Open Source MSConvert, TPP Data annotation/ Consolidation Uniprot / NCBI annotations Normalization Ratios (µ = 1); distinct runs Quality Control, false discovery rate estimations MS/MS spectra identification X!Tandem, SEQEST, Mascot, Byonic Performances actuelles des meilleurs systèmes: 1 µg de protéine (HeLa cells) donne 190000 MS/MS sur un gradient de 90 min, 33000 peptides caractérisés et 5000 protéines identifiées
Dynamique du protéome plasmatique humain
Data Dependent Acquisition vs Data Independant Acquisition
DIA method
Pipeline d analyse Métabolomique Gas or Liquid Chromatography Mass Spectrometry profiling (GC/LC-MS) Convert to.mzml for Open Source MSConvert Annotation PubChem, KEGG, Metlin, MetaCyc, Reactome Quality control Retention time filtering, average replicats Id missing data Align mass and retention time data XCMS, SIEVE, Matlab, MassHunter Profiler, MzMine
Métabolomes humains 3100 (T3DB) Toxins/Env. Chemicals 1000 (DrugBank) Drug metabolites 30000 (FooDB) Food additives/phytochemicals 1450 (DrugBank) Drugs 8500 (HMDB) Endogenous metabolites M mm M nm pm fm www.bioinformatics.ca
Importance déterminante des bases de données externes
Interactions avec d autres disciplines 1) «Proteomics is the shine of bioinformatics» Nature Biotechnology (2004) doit être maintenant lu comme «Omics is the shine of bioinformatics» 2) Mathématiques : biostatistiques, modélisation de systèmes complexes; théorie des graphes (représentation des données pour en extraire du sens biologique) 3) Chimie: développement de nouveaux réactifs 4) Physique: nouveaux instruments, nouveaux capteurs, traitement du signal 5) Sciences humaines et sociales: Droit, éthique
Quelles formations pour les «Omics»? Peu de formations spécifiques: modules ou UE «génomique» dans des cursus t.q. le Master Génomique et Productivité Végétale (GPV), Master Biologie- Informatique/Bioinformatique (BiB), Master de Génétique ou BC2T (P5-P7) Enseignements de Biostatistiques à différents niveaux (L-M) Master BCPP: spécialité Master-Pro «Ingénierie de plateforme en biologie» (P5-P7) Formation «sur le tas» Formations assurées par les fournisseurs d instrumentation => Initiative récente de proposition de création d un DU de bioinformatique génomique
Besoins en infrastructure Moyens de stockage importants, en regard de la nécessité de conserver les data pendant des durées difficilement évaluables Nécessité d assurer la conservation des données de manière confidentielle et sécurisée (données «patient») MISE EN PLACE DE SERVEURS GALAXY (N et P) pour le partage des applications usuelles Gestion appropriée des transferts de données Ne pas négliger les salles informatiques pour les enseignements