Plateforme de bioinformatique Arnaud Droit Centre de Recherche du CHU de Québec Laboratoire de biologie computa;onelle
Compréhension des différences 2005 Génome du chimpanzee Nous sommes identiques ± 1% 2005 Arrivées des séquenceurs de nouvelles générations 2008 Projet 1000 Genomes
Le séquençage du génome complet Obtenir la séquence des bases des molécules d ADN est au coeur de la biologie moléculaire Aujourd hui, grâce au séquençage de nouvelle généra;on des projets d envergure peuvent être menés par de pe;tes équipes de recherche à une frac;on du coût de ce qu il en coûtait auparavant 2003 génome humain 2012 >10 ans 8 jours 3 000 000 000$ 10 000$
Le séquençage Le coût du séquençage a diminué drastiquement Séquençage du génome de James Watson avec la technologie 454 en 2007 : 2 millions de $ Bientôt : 1 génome humain pour 1000$ La diminution des coûts favorise l émergence de nouvelles applications!
Une course à l équipement
Séquençage de nouvelle généra;on - Sta;s;ques Séquençage de nouvelle génération - Statistiques Données du site omicsmaps.com Le données sont fournies sur un base volontaire par les détenteurs de séquenceurs de nouvelle génération Fort probablement biaisées http://omicsmaps.com/stats
Les technologies de séquençage Les technologies de séquençage de nouvelle génération https://flxlexblog.wordpress.com/2014/06/11/developments-in-next-generation-sequencing-june-2014-edition/
Séquençage par synthèse (Illumina) Séquençage par synthèse (Illumina) HiSeq Taille minimale des séquences: 1*36 bp Taille maximale des séquences: 2*250 bp Quantité de données produites: 18Gb-1Tb Durée d un analyse: 29h-11j Qualité des données: >75 à >85% des bases au-delà de Q30 MiSeq Taille minimale des séquences: 1*25 bp Taille maximale des séquences: 2*300 bp Quantité de données produites: 12Mb - 15Gb Durée d un analyse: 4-65h Qualité des données: >75 à >90% des bases au-delà de Q30
Séquencage SMRT (PacBio) Séquençage SMRT (PacBio) PacBio RS II http://files.pacb.com/pdf/pacbio_rs_ii_brochure.pdf
Une Une mul;tude multitude d applica;on d applications... Génome Séquençage de novo Reséquençage de génomes complets et détection des variations : Reséquençage de régions ciblées (exons) Métagénome Diversité des microbes Échantillons hétérogènes Transcriptome (RNA-Seq) Profil d expression des ARNm Variants d épissage Expression propre à certaines allèles Expression des micro ARN Épigénome (ChIP-Seq) Sites actifs dans la transcription Interactions ADN - Protéines Modification des histones Nucléosomes
Séquencage du génome complet(pacbio) Le défi des projets u;lisant des données de nouvelle généra;on réside dans la ges;on, l analyse et l interpréta;on des données Il existe des centaines de programmes des;nés à l'analyse de données de nouvelle généra;on Si des plate- formes commerciales existent (ex. Genome quest), la plupart des groupes font appel à des bio- informa;ciens qui privilégient l u;lisa;on d ou;ls indépendants 20-60 Gb de données 56 Tb de données brutes
Pipeline standard de séquencage de nouvelle généra;ons ADN, ARN, nucléo;des Matériel biologique Analyses des donées brutes Conversion du signal et détermination des bases Alignement sur le génome en;er Alignement sur le génome de référence Annota;on Intégration des processus biologique Analyse et intégration d une quantité impressionnante de données est le prochain grand défis
Le séquençage d exome
Le séquençage du génome
Calcul Canada High Performance Compu;ng resources from six partner consor;a Compute servers Colosse, Québec Guillimin, Montréal Image : Compute Calcul Canada
Colosse
Le séquençage d exome En produc;on sur les serveurs de Colosse (U. Laval) et de Guillemin (McGill) Etape 1 Etape 2 Etape 3 Green boxes: analyze step Blue boxes: annota;on step Red boxes: metrics steps Image : hfps://biowiki.atlassian.net/wiki/display/ps/dnaseq+pipeline
L analyse des données de Chip- Seq L analyse des données de ChIP-Seq Données brutes (fastq) Nettoyage des séquences Données nettoyées (fastq) Annotation Détection des régions enrichies Positions des régions (bed) Alignement Régions annotées (tsv) Analyse des motifs Séquences alignées (bam) Liste des motifs (pwm)
L épigénome Définir épigénétique et épigénomique
Programme de régula;on de l expression des gènes Conforma;on des chromosomes + Structure de la chroma;ne + Facteurs de transcrip;ons + Co- Facteurs + Transcrip;on = Programme d expression des gènes
Les différentes types d informa;on Rivera and Ren, Cell, 2013.
Les facteurs de transcrip;ons Qu est-ce qu un facteur de transcription? Les facteurs de transcriptions sont des protéines qui se lient à des séquences d ADN spécifiques et régulent l expression des gènes
Les modifica;ons des histones
Le ChIP- Seq ChIP-Seq - Protocol protocole expérimental expérimental 10 7 cells Gel size select 100-300 bp fragments millions of short reads (101 bp) 101bp read Next-Generation Sequencing 100-300 base pair fragment
L analyse des données de ChIP-Seq Données brutes (fastq) Nettoyage des séquences Données nettoyées (fastq) Annotation Détection des régions enrichies Positions des régions (bed) Alignement Régions annotées (tsv) Analyse des motifs Séquences alignées (bam) Liste des motifs (pwm)
L analyse des données de ChIP-Seq Données brutes (fastq) Nettoyage des séquences Données nettoyées (fastq) Alignement Détection des régions enrichies Positions des régions (bed) Annotation L analyse des données de ChIP-Seq Séquences alignées (bam) Données Régions brutes (fastq) annotées (tsv) Nettoyage des séquences Données nettoyées (fastq) Alignement Séquences alignées (bam) Analyse des motifs Liste des motifs (pwm) Régions annotées (tsv) Annotation Détection des régions enrichies L analyse des données de ChIP-Seq Positions des régions (bed) Données brutes (fastq) Analyse des Nettoyage motifs des séquences Liste des motifs Données (pwm) nettoyées (fastq) Annotation Détection des régions enrichies Positions des régions (bed) Alignement Régions annotées (tsv) Analyse des motifs Séquences alignées (bam) Liste des motifs (pwm)
Friedman p value Intégra;on des données Exp1 Exp1 Exp1 Exp2 Exp2 Exp2 Données d utilisateur Exp3 ENCODExplorer Exp3 Exp3 metagene 30 H3K4me3 enhancers Friedman p value 0 3.0 H3K4me1 tss Friedman p value 0 Données d ENCODE Résultats Mean RPM for each position 20 10 0 1.0 0.5 0.0 0.5 1.0 4 group H3K4me3_0 H3K4me3_25 H3K4me3_50 H3K4me3_75 3H3K4me3_100 Mean RPM for each position 2 1 STAT1 tss 0 Mean RPM for each position 2.5 2.0 group 1.5 STAT1_0 STAT1_25 STAT1_50 STAT1_75 STAT1_100 1.0 1.0 0.5 0.0 0.5 1.0 group H3K4me1_0 H3K4me1_25 H3K4me1_50 H3K4me1_75 H3K4me1_100 1.0 0.5 0.0 0.5 1.0
Projet Encode Prescott SL, Cell 2015
PROJET PERSPECTIVE Royaume- Uni Pays- Bas Allemagne Canada (ON, QC) États- Unis (UT) Projet interna;onal 5 050 échan;llons Séquençage Massivement Parallèle Consomma;on 2015 : 200 coeurs- année = 100 ans de calcul sur un ordinateur personnel moyen
Annota;ons Sources de données: ENCODE, ROADMAP, FANTOM5 1000 Genome Project NCBI GEO Ou;ls: HaploReg, RegulomeDB, UCSC Genome Browser Galaxy HaploView
Projet Encode
1000 genomes
ICGC Interna;onal Cancer Genome Consor;um 39
VEXOR
VEXOR
VEXOR
VEXOR Choose your variants Choose your experiments
Visualisa;on des données
Visualisa;on des données
Intégra;on des données
Intégra;on des données Erez Lieberman-Aiden, et al. Science 326, 289 (2009) Duan Z., et al. Nature. May 20;465(7296):363-7 (2010)
Médecine Personalisée 48
Merci Charles Joly- Beauparlant Astride Louise- Deschenes Fréderic Fournier Audrey Lemaçon Maxime Vallée Adrien Dessemond Equipe Jacques Simard: Penny Soucy Mar;ne Dumont Equipe Steve Bilodeau: Fabien Lamaze Mar;ne Dumont Collaborateurs Lajmi Lakhal Kadher Kadraoui Florent Parent Guillaume Bourque