Plateforme de bioinformatique

Documents pareils

Big data et sciences du Vivant L'exemple du séquençage haut débit

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

MABioVis. Bio-informatique et la

VISUALISATION DE NUAGES DE POINTS

Présenta6on Isatech. ERP, Décisionnel, Architecture Systèmes & Réseaux. Isatech Tous droits réservés Page 1

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Optimisation de la supervision by Somone. - Présentation Générale -!

Baromètre Direct Assurance des cyberconsommateurs

DOCUMENTATION KAPTravel Module de gestion des appels de disponibilité

Un nouveau modèle régional à Ouranos : défis et opportunités

Évolu>on et maintenance

CATALOGUE DES PRESTATIONS DE LA

LA TABLETTE TACTILE DANS LES ÉCOLES DE LA FRANCOPHONIE : QUELS DÉFIS POUR LES ENSEIGNANTS DE LA BELGIQUE, DU CANADA ET DE LA FRANCE?

Consultants, trouvez de nouveaux marchés grâce aux médias sociaux animé par Valérie March au Salon des micro- entreprises 2012

Ges$on des clients du réseau pédagogique. Stéphan Cammarata - DANE Strasbourg - Version 10/2013

DEVELOPPER SON SOURCING VIA LES RESEAUX SOCIAUX FACEBOOK

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Présentation Level5. Editeur de Logiciels. «If it s not monitored, it s not in production» Theo Schlossnagle #velocityconf

Introduction aux bases de données: application en biologie

Emergence du Big Data Exemple : Linked Open Data

Comment CEGID et ses solu/ons peuvent elles implémenter les standards TICPME2010?

H2PS engage ses compétences auprès des entreprises et des parculiers par la mise en place de soluons d accompagnements et de services.

Poli%que ins%tu%onnelle: le numérique au service de la forma%on à l Université Laval CFQCU Paris, 26 mai 2015

SÉLECTIONNER LES MEILLEURS CANDIDATS : L APPORT DES OUTILS D ÉVALUATION AU RECRUTEMENT ET À LA MOBILITÉ INTERNE

Nom du client. Date. Client Logo or project name

Biomarqueurs en Cancérologie

USER EXPERIENCE ET DATA : AUGMENTER LES CONVERSIONS GRÂCE À UN PARCOURS UTILISATEUR OPTIMISÉ

Valorisez vos actifs logiciels avec Rational Asset Manager. Jean-Michel Athané, Certified IT Specialist IBM Rational Software

Groupe de travail Low Cost. Frédéric DIDIER Jacques WITKOWSKI

SERVICES DE SEQUENÇAGE

EXPÉRIENCE HNAS AVEC UN CLUSTER DE CALCUL. Dr Tru HUYNH Responsable Informatique DBSC/BIS INSTITUT PASTEUR

CQP 112 Introduc/on à la programma/on. Thème 2 : Architecture d un système informa/que. Département d informa/que

Programme international de formation

Découvrir Drupal. Les meilleurs thèmes et modules Drupal (présenta5on démo)

Devenez un virtuose de Google. Atelier en informa5que présenté par Dominic P. Tremblay

SysFera. Benjamin Depardon

TRAVAUX DE RECHERCHE DANS LE

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Assemblage adaptatif de génomes et de méta-génomes par passage de messages

Masses de données et calcul : à l IRIT. 8 octobre 2013

Contrat d accompagnement de projet

Les termes du cloud CUMULO NUMBIO 2015 O. COLLIN

#GoSocial. solutions de marketing communautaire & social crm

Les réseaux sociaux et le mobile au service de l industrie du tourisme digital

Gènes Diffusion - EPIC 2010

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

La démarche Omnicanal Outils d'aide à l'amélioration de l'expérience client Avec le partenaire SKema Alumni

Le Cloud Compu+ng modèle et évalua+on de performances

Améliorez et industrialisez vos feedback produit

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

Contrôle de l'expression génétique :

Ma stack d ou,ls agiles, tout un programme! OU COMMENT BÉNÉFICIER DES TECHNOLOGIES GRAND PUBLIC POUR AMÉLIORER ET OPTIMISER MES OUTILS LOGICIELS.

RESSOURCES INFORMATIQUES UFR IMAG ANNEE Présentation service informatique UFR IMAG année 2010/2011 1

«39 ans d expérience» ( )

Le doctorat, passeport pour l international

SAUVER LA DISTRIBUTION!

1 les caractères des êtres humains.

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

Déployer des tablettes en classe de LVE: les points clés. Rennes, le 26 août 2014

Emergence du Big Data Exemple : Linked Open Data

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Laboratoire de Photophysique et de Photochimie Supra- et Macromoléculaires (UMR 8531)

LES SOLUTIONS DE MESSAGERIE ET BUREAUTIQUE PROFESSIONNELLES

Mon subjet et quelque chose qui est très per8nent etant donné que nos infrastructure devient de plus et plus virtualisée et élas8que.

Municipalité de La Nation The Nation Municipality

Catalogue de FORMATIONS 2015

14 Octobre 2008 TICPME2010 Sage et TICPME2010

La surveillance biologique des salariés Surveiller pour prévenir

L expertise en sécurité pour toutes les entreprises! Passez à la vitesse supérieure. Kaspersky. avec. Open Space Security

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Approche hybride de la QoS

Vers un Système unique d informa4on na4onale de médicaments au Mexique, dans le cadre du suivi de l OMD 8.13

L ORIENTATION POST-BAC

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

Guide du démembrement

Le Protocole de Nagoya sur l accès et le partage des avantages

CORBA haute performance

Bases de données des mutations

La formation interprofessionnelle pour les professions de la santé: L avenir C est dès maintenant!

IFT 6261: L Analytique Web. Fares Aldik, Consultant principal, Analytique Web et optimisation Bell Marchés Affaires services d expérience client

Qui sommes nous? Partie 1

Logitech Tablet Keyboard for Windows 8, Windows RT and Android 3.0+ Setup Guide Guide d installation

Prépara&on Opéra&onnelle à l Emploi de BASYCA (POEB) BASYCA SAS FRANCE - Anzize BADAROU

LOT 1 - ACQUISITION DE SERVEURS INFORMATIQUES LOT 2 - ACQUISITION DE 5 POSTES INFORMATIQUES

THE FLASH REVOLUTION IS RIGHT NOW. Pure Storage France Contact : france@purestorage.com Pure Storage, Inc. 1

StruxureWare Power Monitoring v7.0. La nouvelle génération en matière de logiciel de gestion complète d énergie

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Guide de l utilisateur du système MiSeq MD DESTINÉ À LA RECHERCHE

Coopération Textile dans la Zone EuroMed

OBJECTIFS. Une démarche E-science

Transcription:

Plateforme de bioinformatique Arnaud Droit Centre de Recherche du CHU de Québec Laboratoire de biologie computa;onelle

Compréhension des différences 2005 Génome du chimpanzee Nous sommes identiques ± 1% 2005 Arrivées des séquenceurs de nouvelles générations 2008 Projet 1000 Genomes

Le séquençage du génome complet Obtenir la séquence des bases des molécules d ADN est au coeur de la biologie moléculaire Aujourd hui, grâce au séquençage de nouvelle généra;on des projets d envergure peuvent être menés par de pe;tes équipes de recherche à une frac;on du coût de ce qu il en coûtait auparavant 2003 génome humain 2012 >10 ans 8 jours 3 000 000 000$ 10 000$

Le séquençage Le coût du séquençage a diminué drastiquement Séquençage du génome de James Watson avec la technologie 454 en 2007 : 2 millions de $ Bientôt : 1 génome humain pour 1000$ La diminution des coûts favorise l émergence de nouvelles applications!

Une course à l équipement

Séquençage de nouvelle généra;on - Sta;s;ques Séquençage de nouvelle génération - Statistiques Données du site omicsmaps.com Le données sont fournies sur un base volontaire par les détenteurs de séquenceurs de nouvelle génération Fort probablement biaisées http://omicsmaps.com/stats

Les technologies de séquençage Les technologies de séquençage de nouvelle génération https://flxlexblog.wordpress.com/2014/06/11/developments-in-next-generation-sequencing-june-2014-edition/

Séquençage par synthèse (Illumina) Séquençage par synthèse (Illumina) HiSeq Taille minimale des séquences: 1*36 bp Taille maximale des séquences: 2*250 bp Quantité de données produites: 18Gb-1Tb Durée d un analyse: 29h-11j Qualité des données: >75 à >85% des bases au-delà de Q30 MiSeq Taille minimale des séquences: 1*25 bp Taille maximale des séquences: 2*300 bp Quantité de données produites: 12Mb - 15Gb Durée d un analyse: 4-65h Qualité des données: >75 à >90% des bases au-delà de Q30

Séquencage SMRT (PacBio) Séquençage SMRT (PacBio) PacBio RS II http://files.pacb.com/pdf/pacbio_rs_ii_brochure.pdf

Une Une mul;tude multitude d applica;on d applications... Génome Séquençage de novo Reséquençage de génomes complets et détection des variations : Reséquençage de régions ciblées (exons) Métagénome Diversité des microbes Échantillons hétérogènes Transcriptome (RNA-Seq) Profil d expression des ARNm Variants d épissage Expression propre à certaines allèles Expression des micro ARN Épigénome (ChIP-Seq) Sites actifs dans la transcription Interactions ADN - Protéines Modification des histones Nucléosomes

Séquencage du génome complet(pacbio) Le défi des projets u;lisant des données de nouvelle généra;on réside dans la ges;on, l analyse et l interpréta;on des données Il existe des centaines de programmes des;nés à l'analyse de données de nouvelle généra;on Si des plate- formes commerciales existent (ex. Genome quest), la plupart des groupes font appel à des bio- informa;ciens qui privilégient l u;lisa;on d ou;ls indépendants 20-60 Gb de données 56 Tb de données brutes

Pipeline standard de séquencage de nouvelle généra;ons ADN, ARN, nucléo;des Matériel biologique Analyses des donées brutes Conversion du signal et détermination des bases Alignement sur le génome en;er Alignement sur le génome de référence Annota;on Intégration des processus biologique Analyse et intégration d une quantité impressionnante de données est le prochain grand défis

Le séquençage d exome

Le séquençage du génome

Calcul Canada High Performance Compu;ng resources from six partner consor;a Compute servers Colosse, Québec Guillimin, Montréal Image : Compute Calcul Canada

Colosse

Le séquençage d exome En produc;on sur les serveurs de Colosse (U. Laval) et de Guillemin (McGill) Etape 1 Etape 2 Etape 3 Green boxes: analyze step Blue boxes: annota;on step Red boxes: metrics steps Image : hfps://biowiki.atlassian.net/wiki/display/ps/dnaseq+pipeline

L analyse des données de Chip- Seq L analyse des données de ChIP-Seq Données brutes (fastq) Nettoyage des séquences Données nettoyées (fastq) Annotation Détection des régions enrichies Positions des régions (bed) Alignement Régions annotées (tsv) Analyse des motifs Séquences alignées (bam) Liste des motifs (pwm)

L épigénome Définir épigénétique et épigénomique

Programme de régula;on de l expression des gènes Conforma;on des chromosomes + Structure de la chroma;ne + Facteurs de transcrip;ons + Co- Facteurs + Transcrip;on = Programme d expression des gènes

Les différentes types d informa;on Rivera and Ren, Cell, 2013.

Les facteurs de transcrip;ons Qu est-ce qu un facteur de transcription? Les facteurs de transcriptions sont des protéines qui se lient à des séquences d ADN spécifiques et régulent l expression des gènes

Les modifica;ons des histones

Le ChIP- Seq ChIP-Seq - Protocol protocole expérimental expérimental 10 7 cells Gel size select 100-300 bp fragments millions of short reads (101 bp) 101bp read Next-Generation Sequencing 100-300 base pair fragment

L analyse des données de ChIP-Seq Données brutes (fastq) Nettoyage des séquences Données nettoyées (fastq) Annotation Détection des régions enrichies Positions des régions (bed) Alignement Régions annotées (tsv) Analyse des motifs Séquences alignées (bam) Liste des motifs (pwm)

L analyse des données de ChIP-Seq Données brutes (fastq) Nettoyage des séquences Données nettoyées (fastq) Alignement Détection des régions enrichies Positions des régions (bed) Annotation L analyse des données de ChIP-Seq Séquences alignées (bam) Données Régions brutes (fastq) annotées (tsv) Nettoyage des séquences Données nettoyées (fastq) Alignement Séquences alignées (bam) Analyse des motifs Liste des motifs (pwm) Régions annotées (tsv) Annotation Détection des régions enrichies L analyse des données de ChIP-Seq Positions des régions (bed) Données brutes (fastq) Analyse des Nettoyage motifs des séquences Liste des motifs Données (pwm) nettoyées (fastq) Annotation Détection des régions enrichies Positions des régions (bed) Alignement Régions annotées (tsv) Analyse des motifs Séquences alignées (bam) Liste des motifs (pwm)

Friedman p value Intégra;on des données Exp1 Exp1 Exp1 Exp2 Exp2 Exp2 Données d utilisateur Exp3 ENCODExplorer Exp3 Exp3 metagene 30 H3K4me3 enhancers Friedman p value 0 3.0 H3K4me1 tss Friedman p value 0 Données d ENCODE Résultats Mean RPM for each position 20 10 0 1.0 0.5 0.0 0.5 1.0 4 group H3K4me3_0 H3K4me3_25 H3K4me3_50 H3K4me3_75 3H3K4me3_100 Mean RPM for each position 2 1 STAT1 tss 0 Mean RPM for each position 2.5 2.0 group 1.5 STAT1_0 STAT1_25 STAT1_50 STAT1_75 STAT1_100 1.0 1.0 0.5 0.0 0.5 1.0 group H3K4me1_0 H3K4me1_25 H3K4me1_50 H3K4me1_75 H3K4me1_100 1.0 0.5 0.0 0.5 1.0

Projet Encode Prescott SL, Cell 2015

PROJET PERSPECTIVE Royaume- Uni Pays- Bas Allemagne Canada (ON, QC) États- Unis (UT) Projet interna;onal 5 050 échan;llons Séquençage Massivement Parallèle Consomma;on 2015 : 200 coeurs- année = 100 ans de calcul sur un ordinateur personnel moyen

Annota;ons Sources de données: ENCODE, ROADMAP, FANTOM5 1000 Genome Project NCBI GEO Ou;ls: HaploReg, RegulomeDB, UCSC Genome Browser Galaxy HaploView

Projet Encode

1000 genomes

ICGC Interna;onal Cancer Genome Consor;um 39

VEXOR

VEXOR

VEXOR

VEXOR Choose your variants Choose your experiments

Visualisa;on des données

Visualisa;on des données

Intégra;on des données

Intégra;on des données Erez Lieberman-Aiden, et al. Science 326, 289 (2009) Duan Z., et al. Nature. May 20;465(7296):363-7 (2010)

Médecine Personalisée 48

Merci Charles Joly- Beauparlant Astride Louise- Deschenes Fréderic Fournier Audrey Lemaçon Maxime Vallée Adrien Dessemond Equipe Jacques Simard: Penny Soucy Mar;ne Dumont Equipe Steve Bilodeau: Fabien Lamaze Mar;ne Dumont Collaborateurs Lajmi Lakhal Kadher Kadraoui Florent Parent Guillaume Bourque