Données issues des «Omics» en Biologie et Médecine

Documents pareils

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

EMME : un environnement de gestion des métadonnées expérimentales

Exemple PLS avec SAS

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Introduction aux bases de données: application en biologie

Big data et sciences du Vivant L'exemple du séquençage haut débit

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Eco-système calcul et données

Informatique. epims : un LIMS pour la gestion des données de spectrométrie de masse TECHNOLOGIE APPLIQUÉE

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Protéomique Séance 1 Introduction aux données de protéomique et aux outils de recherche

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Kick Off SCC EMC l offre EXTREMIO. fmarti@fr.scc.com Philippe.rolland@emc.com. Vers de nouveaux horizons

Contrôle d'accès Access control. Notice technique / Technical Manual

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

McGILL UNIVERSITY MARTLET CLASSIC UNIVERSITE McGILL CLASSIQUE MARTLET

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

Agile&:&de&quoi&s agit0il&?&

Exercices sur SQL server 2000

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Algorithmes de recommandation, Cours Master 2, février 2011

ez 5 series Révolutionnez votre approche Marketing

CATALOGUE DES PRESTATIONS DE LA

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Lean approach on production lines Oct 9, 2014

Environmental Research and Innovation ( ERIN )

OBJECTIFS. Une démarche E-science

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

TRAVAUX DE RECHERCHE DANS LE

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

CONTEC CO., LTD. Novembre 2010

Instructions Mozilla Thunderbird Page 1

FORMATIONS STAGES INSERTION PROFESSIONNELLE. UFR Sciences Orsay. Isabelle DEMACHY

The impacts of m-payment on financial services Novembre 2011

Faculté des Sciences d ORSAY

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Le cloud IFB et ses services bioinformatiques

Improving the breakdown of the Central Credit Register data by category of enterprises

staff worldwide years 36b. revenues countries

Differential Synchronization

Data issues in species monitoring: where are the traps?

VTP. LAN Switching and Wireless Chapitre 4

Génération de code binaire pour application multimedia : une approche au vol

Physiopathologie : de la Molécule à l'homme

Cedric Dumoulin (C) The Java EE 7 Tutorial

BIG DATA en Sciences et Industries de l Environnement

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

PANDORA database: a compilation of indoor air pollutant emissions

Industrial Phd Progam

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

WEB page builder and server for SCADA applications usable from a WEB navigator

Thermo Scientific Training Courses. La clé de la réussite pour votre laboratoire. Catalogue Formations 2015 Suisse

Extraction d information des bases de séquences biologiques avec R

Institut français des sciences et technologies des transports, de l aménagement

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Détection et prise en charge de la résistance aux antirétroviraux

L. Obert, T. Lascar, A. Adam

Sub-Saharan African G-WADI

Services à la recherche: Data Management et HPC *

Notice Technique / Technical Manual

Calcul intensif pour la biologie

Biomarqueurs en Cancérologie

ILM ou Archivage Une démarche Métier

Big Data et la santé

POLICY: FREE MILK PROGRAM CODE: CS-4

Package Contents. System Requirements. Before You Begin

UFR Sciences Fondamentales et Appliquées Université de Poitiers. Se réorienter à l UFR Sciences Fondamentales et Appliquées en janvier 2013

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Thermo Scientific Training Courses. La clé de la réussite pour votre laboratoire. Catalogue Formations 2015 France

Pour toute information complémentaire, Appeler le , le ou écrire à l adresse e mail : ensai_recherche@yahoo.

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Monitoring des classes de neige des calottes polaires par Envisat

Bigdata et Web sémantique. les données + l intelligence= la solution

Application Form/ Formulaire de demande

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

M2-Images. Rendu Temps Réel - OpenGL 4 et compute shaders. J.C. Iehl. December 18, 2013

Communication Master AgroFood Chain

La renaissance de l industrie

Outils d'analyse de la sécurité des réseaux. HADJALI Anis VESA Vlad

THE EVOLUTION OF CONTENT CONSUMPTION ON MOBILE AND TABLETS

Embases pour raccordement G1/8 - G1/4

Le risque humain en entreprise Le cadre du renseignement

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Portrait du Groupe Roquette

PARIS ROISSY CHARLES DE GAULLE

Le socle de sécurité nouvelle génération Consolider, virtualiser et simplifier les architectures sécurisées

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

Le signal GPS. Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = Mhz

APPENDIX 6 BONUS RING FORMAT

Transcription:

BIG DATA @ USPC Données issues des «Omics» en Biologie et Médecine Jean-Michel Camadro Pôle «Sciences de la Vie et Santé» USPC 30 Novembre 2015

«Omics» en Biologie et Médecine

L univers des «Omics» G T M P

Les Omics donnent accès à une description des phénotypes dans des conditions normales et pathologiques Chem. Soc. Rev., 2011, 40, 387-426

Vers une médecine personnalisée, un objectif ambitieux des «Omics»

Les données «Omics» sont produites principalement par des approches NGS et MS Next Generation Sequencing (Nucleic acids) Exome/re-sequencing analysis Chromatin Immunoprecipitation (ChIP) Transcriptome analysis De novo assembly Small RNA analysis Mass Spectrometry (Proteins and metabolites) Quantitative proteomics Metabolomics

Les «Omics» au sein de SPC NGS Imagine Necker Institut Cochin Campus PRG (CEDC, IJM) IUH St-Louis Génomique Bichat MS 3P5 (Paris Diderot) Institut Jacques Monod P13; Beaujon Métabolomique Pharma P5 Biotyper BFA P7

Statistiques mondiales sur le NGS (29 Nov 2015 - NGI, Japan) No. Library strategy Run Data Counts 1 WGS 653 112 2 WXS 629 261 3 RNA-Seq 466 937 4 AMPLICON 447 642 5 ChIP-Seq 61 169 6 POOLCLONE 48 317 7 SELEX 21 649 8 Bisulfite-Seq 14 005 9 CLONE 12 214 10 WGA 8 350 11 mirna-seq 8 035 12 EST 5 046 13 DNase-Hypersensitivity 4 355 14 Targeted-Capture 3 748 15 MeDIP-Seq 1 993 16 MNase-Seq 1 947 17 FL-cDNA 1 805 18 ncrna-seq 1 599 19 Tn-Seq 1 494 20 MRE-Seq 1 300 21 RAD-Seq 1 193 22 MBD-Seq 1 119 23 WCS 1 014 24 RIP-Seq 899 25 CTS 415 26 FAIRE-seq 339 27 CLONEEND 124 28 ChIA-PET 101 29 Synthetic-Long-Read 47 30 FINISHING 34 31 VALIDATION 29 - Others (unknown,other etc.) 1 133 853 WGS: Whole genome shotgun sequencing: An assay in which DNA is the input molecule derived from fragmented whole genome preparation is sequenced. WXS: Random exon sequencing: An assay in which DNA is the input molecule derived from exons is sequenced. RNA-Seq: Whole Transcriptome Shotgun Sequencing: Random sequencing of whole transcriptome, also known as Whole Transcriptome Shotgun Sequencing, or WTS AMPLICON: Amplicon sequencing: An assay in which a DNA or RNA input molecule amplified by PCR is sequenced. ChIP-Seq: Direct sequencing of chromatin immunoprecipitates: An assay in which chromatin immunoprecipitation with high throughput sequencing is used to identify the cistrome of DNAassociated proteins. POOLCLONE: Pooled clone sequencing: An assay in which DNA is the input molecule derived from pooled clones (for example BACs and Fosmids) is sequenced using high throughput technology using shotgun methodology. Bisulfite-Seq: Sequencing following treatment of DNA with bisulfite to determine methylation status: An assay in which DNA is the input molecule derived from a bisulphite treatment of DNA to convert cytosine residues to uracil to determine methylation status.

Des pipelines d analyse spécifiques aux différentes approches NGS http://www.gvkbio.com/products-services/informatics-analytics/services/ngs-services/analysis-pipelines/

Les principales plateformes NGS Illumina; Ion Torrent PGM; Pacific Biosciences RS Roche 454; SOLiD

Exemple de données produites sur l un des systèmes implémenté dans SPC The HiSeq2000 can run two flow cells independently. - Read length: Single read 50 (SR50) or SR100 and Paired-end 50 (PE50) or PE100. - Up to 3000 mio reads and 600 Gbases per run with both flow cells and PE100. - Per lane up to 187.5 mio reads and 37.5 Gbases with PE100.

Caractéristiques des outputs There are typically 100-180 million clusters seen passing filter per HiSeq2000 lane which correspond to 100-180mio reads in a Single Read (SR) and to 200-360mio reads in a Paired-End (PE) run. A typical Paired-End 100 base run takes approximately 12 days to complete on the instrument (HiSeq2000) (nota: beaucoup plus rapide sur des systèmes plus récents) Average gzipped FastQ size per HiSeq2000 lane: - SR50, 8-10 Gigabyte (GB) - PE100, 20-25 GB Platforms often distribute the reads in FastQ packages of 50mio reads. Gzipped 50mio FastQs of 50/100 base reads have 2.5/5 GB, after unzipping 7.5/15 GB

Pipeline d analyse Génomique (DNA) Sample Library preparation Nest Gen Sequencing Illumina Ion PacBio Roche 454 Raw Data Size ~TB e.g..fastq files SVs identified (Paire-end, read depth, split-read algorithms) BreakSeq, DELLY, Pindel SNV identification and effect GATK, HugeSeq, SAMTools, SIFT, Polyphen, Annovar Mapping of reads ELAND II, Bowtie, SOAP, Novoaling MAQ, BWA, GATK Quality control FastQC, Trimming, CutAdapt, Picard

Importance critique des bases de données de référence, qui peuvent contenir plusieurs centaines de millions d entrées

Transcriptomique: un transfert technologique massif vers le NGS Microarray-based technologies NGS Statistics from Natl Genomics Inst. Japan

Pipeline d analyse de transcriptome par RNA-Seq RNA Sample Library preparation Nest Gen Sequencing Single or pairedend sequencing data e.g..fastq files; size ~ GB Normalization, differential expression CuffDiff, DESeq Annotation/ assembly Cufflinks, Scripture Mapping of reads Tophat, BWA Quality control FastQC, Trimming, CutAdapt, Picard

Quelle corrélation Transcriptome/Protéome? => Une approche émergente clé: la traductomique

Nécessité de déposer les données dans des bases performantes Data (Accession prefix) NCBI (SRA) (rate%) EBI (ERA) (rate%) DDBJ (DRA) (rate%) Total Submission Data (SRA,ERA,DRA) 287,142 (54.7%) 234,996 (44.8%) 2,379 (0.4%) 524,517 Experiment Data (SRX,ERX,DRX) 1,421,293 (70.5%) 570,738 (28.3%) 21,976 (1%) 2,014,007 Run Data (SRR,ERR,DRR) 2,910,943 (82.3%) 597,490 (16.9%) 24,712 (0.6%) 3,533,145 Sample Data (SRS,ERS,DRS) 1,118,573 (70.7%) 441,388 (27.9%) 20,437 (1.2%) 1,580,398 Study Data (SRP,ERP,DRP) 66,175 (85.5%) 8,774 (11.3%) 2,430 (3.1%) 77,379

Pipeline d analyse Protéomique quantitative Quantitation sample preparation SILAC, itraq, TMT, Labelfree Liquid Chromatography Mass Spectrometry profiling (LC-MS/MS) Convert to.mzml for Open Source MSConvert, TPP Data annotation/ Consolidation Uniprot / NCBI annotations Normalization Ratios (µ = 1); distinct runs Quality Control, false discovery rate estimations MS/MS spectra identification X!Tandem, SEQEST, Mascot, Byonic Performances actuelles des meilleurs systèmes: 1 µg de protéine (HeLa cells) donne 190000 MS/MS sur un gradient de 90 min, 33000 peptides caractérisés et 5000 protéines identifiées

Dynamique du protéome plasmatique humain

Data Dependent Acquisition vs Data Independant Acquisition

DIA method

Pipeline d analyse Métabolomique Gas or Liquid Chromatography Mass Spectrometry profiling (GC/LC-MS) Convert to.mzml for Open Source MSConvert Annotation PubChem, KEGG, Metlin, MetaCyc, Reactome Quality control Retention time filtering, average replicats Id missing data Align mass and retention time data XCMS, SIEVE, Matlab, MassHunter Profiler, MzMine

Métabolomes humains 3100 (T3DB) Toxins/Env. Chemicals 1000 (DrugBank) Drug metabolites 30000 (FooDB) Food additives/phytochemicals 1450 (DrugBank) Drugs 8500 (HMDB) Endogenous metabolites M mm M nm pm fm www.bioinformatics.ca

Importance déterminante des bases de données externes

Interactions avec d autres disciplines 1) «Proteomics is the shine of bioinformatics» Nature Biotechnology (2004) doit être maintenant lu comme «Omics is the shine of bioinformatics» 2) Mathématiques : biostatistiques, modélisation de systèmes complexes; théorie des graphes (représentation des données pour en extraire du sens biologique) 3) Chimie: développement de nouveaux réactifs 4) Physique: nouveaux instruments, nouveaux capteurs, traitement du signal 5) Sciences humaines et sociales: Droit, éthique

Quelles formations pour les «Omics»? Peu de formations spécifiques: modules ou UE «génomique» dans des cursus t.q. le Master Génomique et Productivité Végétale (GPV), Master Biologie- Informatique/Bioinformatique (BiB), Master de Génétique ou BC2T (P5-P7) Enseignements de Biostatistiques à différents niveaux (L-M) Master BCPP: spécialité Master-Pro «Ingénierie de plateforme en biologie» (P5-P7) Formation «sur le tas» Formations assurées par les fournisseurs d instrumentation => Initiative récente de proposition de création d un DU de bioinformatique génomique

Besoins en infrastructure Moyens de stockage importants, en regard de la nécessité de conserver les data pendant des durées difficilement évaluables Nécessité d assurer la conservation des données de manière confidentielle et sécurisée (données «patient») MISE EN PLACE DE SERVEURS GALAXY (N et P) pour le partage des applications usuelles Gestion appropriée des transferts de données Ne pas négliger les salles informatiques pour les enseignements