Séquençage massif en parallèle Défis technologiques et informatiques



Documents pareils
Bases de données et outils bioinformatiques utiles en génétique

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Big data et sciences du Vivant L'exemple du séquençage haut débit

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Gènes Diffusion - EPIC 2010

SERVICES DE SEQUENÇAGE

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

SysFera. Benjamin Depardon

CATALOGUE DES PRESTATIONS DE LA

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Bases de données des mutations

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Génétique et génomique Pierre Martin

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

SEQUENÇAGE LI-COR DNA 4200

MYRIAD. l ADN isolé n est à présent plus brevetable!

Big Data et la santé

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Biomarqueurs en Cancérologie

Eco-système calcul et données

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

AGRÉGATION DE SCIENCES DE LA VIE - SCIENCES DE LA TERRE ET DE L UNIVERS

Détection et prise en charge de la résistance aux antirétroviraux

Introduction à la Génomique Fonctionnelle

Programme détaillé. Administrateur de Base de Données Oracle - SQLServer - MySQL. Objectifs de la formation. Les métiers

Contrôle de l'expression génétique :

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Identification de nouveaux membres dans des familles d'interleukines

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Construire le Business Case lié à l automatisation du Cloud avec vcloud Suite

Système MiSeq MD Guide de préparation du site

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

TD de Biochimie 4 : Coloration.

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Big Data et Graphes : Quelques pistes de recherche

Bio-Rad Laboratories CONTRÔLE DE QUALITÉ. Le logiciel de Bio-Rad pour une gestion experte du contrôle de qualité

Leica Application Suite. Archive

Principaux utilisateurs du Réseau

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

ESPACE COLLABORATIF SHAREPOINT

Introduction aux bases de données: application en biologie

Système de gestion des données RAPIDComm 3.0 : la solution avancée de connectivité et de communication en biologie délocalisée

Les plateformes de génétique

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

L analyse de la gestion de la clientèle

CYCLE CERTIFIANT ADMINISTRATEUR BASES DE DONNÉES

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Big Data et Graphes : Quelques pistes de recherche

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Intervenants. Thomas d'erceville Project Manager. Christian NGUYEN Practice Manager IT Quality

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

STREAMCORE. Gestion de Performance et Optimisation Réseau

L axe 5 du Cancéropole Nord Ouest

Conserver les Big Data, source de valeur pour demain

Utilisation du Cloud StratusLab dans le cadre d application astroparticule à l APC

Génomique Comparative et intégrative

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

Chapitre 2 - Complexité des relations entre génotype et phénotype

Stéphane DERACO, DSI CNRS l Argos Devops : de l hyperviseur aux conteneurs l 11/12/2014 DOCKER

Suite IBM Tivoli IT Service Management : comment gérer le système d information comme une véritable entreprise

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Gestion collaborative de documents

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

BASE DE DONNÉES ORACLE 11G SUR LE SYSTÈME DE STOCKAGE PILLAR AXIOM. Livre blanc publié par Oracle Novembre 2007

LANGAGUE JAVA. Public Développeurs souhaitant étendre leur panel de langages de programmation

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

How to Login to Career Page

Les tests de génétique moléculaire pour l accès aux thérapies ciblées en France en 2011

Failles XSS : Principes, Catégories Démonstrations, Contre mesures

Business Intelligence avec Excel, Power BI et Office 365

Oracle Learning Library Tutoriel Database 12c Installer le logiciel Oracle Database et créer une Database

Coûts, avantages et inconvénients des différents moyens de paiement

Analyse des données de séquençage massif par des méthodes phylogénétiques

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

Les bases de données transcriptionnelles en ligne

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Conférence technique internationale de la FAO

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

CATALOGUE DES FORMATIONS

Marquage CE et dispositifs médicaux

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

ORACLE DIAGNOSTIC PACK 11G

Ateliers Python+Qt : Premiers pas : Comment développez ses propres interfaces graphiques sur le RaspberryPi?

Jean-François Boulicaut & Mohand-Saïd Hacid

JOURNÉE THÉMATIQUE SUR LES RISQUES

Introduction Définition...3

Première partie. Introduction Générale

L'interface utilisateur guide le compilateur à travers les procédures de saisie des données et de calculs impliqués dans le processus d'inventaire

Outils permettant la diffusion de l information. Un point sur le droit numérique

Plateforme de capture et d analyse de sites Web AspirWeb

Transcription:

Séquençage massif en parallèle Défis technologiques et informatiques Jean-Baptiste Rivière, PhD jean-baptiste.riviere@u-bourgogne.fr 10/09/2014

Séquençage massif en parallèle Défis technologiques de Sanger à Illumina

Le génome humain Organisme diploïde, 23 paires de chromosomes. 3,3 milliards de paires de bases. 20 687 gènes et 6,3 isoformes par locus. Par individu, en moyenne : 3 à 4 millions de variations ponctuelles. > 1 000 variations structurales.

1990 Début du Human Genome Project Initié par le US Department of Energy (DOE) et le NIH. Projet collaboratif international prévu sur 15 ans Objectif : décoder le génome humain pour accélérer les progrès en génétique, de la médecine à l'évolution de l'humain.

2003 Fin du Human Genome Project Human Genome Project 13 ans > 3 milliards $ 2003

Principe du séquençage Sanger

Développements technologiques

Vers le séquençage en routine de génomes entiers Human Genome Project Génome de James Watson Génome individuel Génome Individuel Génome Individuel 13 ans > 3 milliards $ 2 mois 2 millions $ 15 jours 3000-5000 $ 3 jours 1000 $ 1h 100 $ 2003 2007 2013 2015 2025

Quelques définitions Séquençage haut débit (SHD) : terme générique et peu spécifique (utilisation à éviter). Séquençage nouvelle génération (NGS) ou massif en parallèle : regroupe les technologies de 2nde et 3ème génération. Séquençage de 2nde génération : séquençage d'un ensemble de molécules nucléotidiques à l'aide de techniques de wash-and-scan (ou cycles). Wash-and-scan : technique basée sur des polymérases et réactifs qui doivent être enlevés à chaque cycle après l'incorporation des bases à lire.

Quelques définitions Séquençage de 3ème génération : processus de séquençage de molécules uniques ne nécessitant pas de wash-and-scan. Lecture : fragment nucléotidique individuel dont la séquence est déterminée par un instrument. Longueur de lecture : correspond au nombre de bases individuelles composant une lecture donnée. Préparation de librairies : procédure expérimentale précédant le séquençage des fragments d'adn d'intérêt. Varie en fonction de la technologie.

Principe du NGS

Principe du NGS Préparation des libraires Bridge PCR Emulsion PCR Semiconductor sequencing (Ion Torrent) Sequencing by ligation (SOLiD) Pyrosequencing (454) Reversible terminator sequencing (Illumina)

Séquençage Solexa/Illumina Preuve de principe de la technologie par le séquençage d'un génome humain (2008). Séquençage bidirectionnel de lectures 35 pb et profondeur de séquençage > 30X en moyenne.

Bridge (ou cluster ) PCR L'ADN est fragmenté et lié à des adapteurs. Les fragments sont liés à une surface tapissée de séquences adaptatrices et amplifiés par PCR. Résultat : obtention de groupes d'amplicons à la surface de la flowcell (appelés clusters).

Principe du séquençage Illumina

Principe du séquençage Illumina Hybridation d'une amorce de séquençage universelle. Extension d'une seule base à chaque cycle par l'utilisation de nucléotides modifiés ( reversible terminators ) et marqués par fluorescence (une couleur par base). Cycle individuel de séquençage : (1) ajout d'une base, (2) acquisition d'image, (3) clivage chimique du groupement terminator et du marquage fluorescent pour le cycle suivant.

Séquenceurs Illumina

Caractéristiques techniques Lectures Débit Lectures/run Précision Temps d'exécution HiSeq 2000/2500 HiScan SQ Genome Analyzer IIx MiSeq 2x100 pb 2x100 pb 2x150 pb 2x250 pb 600 Gb 140 Gb 96 Gb 7,5 Gb 3 milliards 700 millions 320 millions 15 millions 99,9% 99,9% 99,9% 99,9% 11 jours 8 jours 14 jours 39h

Principe des index Principe : utilisation de séquences nucléotidiques synthétiques appelées index (ou barcodes ) pour identifier et combiner plusieurs échantillons dans une même expérience de séquençage.

Avantages et limites d'illumina Avantages Technologie avec le débit le plus important et le coût/base le plus faible actuellement. Technologie adoptée par la communauté scientifique (ex : disponibilité de nombreux outils bio-informatiques en libre accès). Limites Précision inférieure au Sanger (les erreurs principales sont des substitutions) Lectures de petite taille

Avantages du NGS vs Sanger Construction in vitro de librairies à séquencer et amplification clonale subséquente (vs transformation de E. coli et sélection de colonies). Parallelisation bien supérieure par une miniaturisation du processus de séquençage permettant des millons de réactions de séquençage sur une surface donnée. Diminution des volumes de réactifs de séquençage grâce à la miniaturisation du processus et la fixation des fragments sur un support solide. Conséquence : coût bien inférieur pour un débit bien supérieur.

Désavantages du NGS vs Sanger Taille des lectures limitée (problématique pour les régions non uniques dans le génome et l'analyse bioinformatique). Précision (taux d'erreurs) inférieure au séquençage Sanger (au minimum 10 fois moindre). Problématiques liées aux 2 technologies : Régions fortement répétées (ex: triplets nucléotidiques). Régions riches en nucléotides G et C. Point à considérer : ce n'est que le début du NGS, des améliorations sont à prévoir.

Séquençage massif en parallèle Défis informatiques Exemple de l'exome

Séquençage de l'exome Exome : exons codants du génome (1-2 % des séquences du génome) 20,000 variations codantes

Principe de la capture de l'exome

Identification de gènes responsables par séquençage d'exomes Boycott et al., Nature Reviews Genetics, 2013

Quel que soit le mode de transmission Boycott et al., Nature Reviews Genetics, 2013

Concept #1 There is a real disconnect between the ability to collect next-generation sequence data (easy) and the ability to analyze it meaningfully (hard) Dave O Connor

Concept #2

Outils bio-informatiques Logiciels d'analyses Traitement des données brutes Identification & annotation des variations Navigateurs de génomes Bases de données Visualisation et annotation des données Bases de données de variations & phénotypiques Outils de prédiction in silico Prédiction de l'impact des variations

Traitement des données Fichiers Fastq récupérés BWA Samtools GATK

Livraison & gestion des données Données Données brutes brutes Fichiers Fichiers FASTQ FASTQ Analyses Analyses Stockage Stockage haute haute performance performance Sauvegarde Sauvegarde Stockage Stockage basse basse performance performance

Séquences Séquences brutes brutes Contrôle Qualité Alignement Alignement des des séquences séquences Identification Identification des des variations variations Annotation Annotation et et priorisation priorisation Validation Validation des des résultats résultats

Types de fichiers Fichiers textes/binaires Fichiers de référence Séquences de référence (ex: fasta) Listes d'intervales chromosomiques (ex: bed) Listes de gènes, transcrits, variants, etc. Fichiers de données à analyser Séquences brutes (ex: fastq) Séquences alignées (ex: SAM/BAM) Listes de variants (ex: vcf)

Types de fichiers Séquences Séquences brutes brutes (FASTQ) (FASTQ) Séquences Séquences alignées alignées (SAM/BAM) (SAM/BAM) Liste Liste de de variants variants (VCF) (VCF)

Notion de scores de qualité Généralement représenté à l'aide de l'échelle de Phred (pratique pour les probabilités faibles) Score de qualité : Q(A) = -10 log10 (P(~A)) où P(~A) est la probabilité que A est faux

CQ des données brutes Logiciel : FastQC Taille des lectures Taux d'erreurs moyen par cycle Duplicats de PCR Détection de fragments surreprésentés (séquences adaptatrices) Biais GC

Alignement des données FASTQ FASTQ SAM SAM Contrôle Contrôle Qualité Qualité Picard Picard BAM BAM (clean, (clean, sort, sort, dedup) dedup) GATK GATK BAM BAM (realign, (realign, recal) recal)

Exemple de réalignement autour d'une délétion

CQ des données alignées Logiciels : Picard & GATK Estimation de la complexité des librairies Pourcentage de lectures alignées au génome de référence (hg19) Pourcentage de duplicatas de PCR Profondeur de séquençage utile (exons codants RefSeq) Samples Mean depth of coverage % bases 10X % bases 20X % bases 60X % bases 100X 65 exomes 94X 93 90 67 41

Identification des variations Logiciels : GATK (SNV & indels) XHMM (CVNs) Régions ciblées : exons codants RefSeq Variations Variations brutes brutes (VCF) (VCF) GATK GATK UnifiedGenotyper UnifiedGenotyper Filtre Filtre des des variations variations (VCF) (VCF) GATK GATK VariantFiltration VariantFiltration

Annotation des variations Variations Variations non-annotées non-annotées (VCF) (VCF) GATK GATK Variations Variations annotées annotées (VCF) (VCF) SeattleSeq SeattleSeqAnnotation Annotation Annotation Annotation Omim Omim (VCF) (VCF) Annotation Annotation ClinVar ClinVar (VCF) (VCF)

Variations rares Filtres de qualité Variants PASS Profondeur : 10X Allèle mutant dans 4 lectures et 10% des lectures NS/SS/I : Variations non-synonymes, d'épissage, ins/dels affectant la séquence codante & synonymes à proximité de sites d'épissage

Variations rares Fréquence dans les bases de données < 1% dans dbsnp < 1% dans EVS (6,500 exomes) < 5% dans les autres exomes locaux Filtre OMIM : gène associé à une pathologie génétique dans OMIM Autres filtres/stratégies possibles en fonction du design expérimental

Priorisation des variations Recherche Boycott et al., Nature Reviews Genetics, 2013

Priorisation Diagnostic Variations codantes non-synonymes / d'épissage > 10 000 Variations rares (< 1 %) 500 Gènes de pathologie Humaine (OMIM) 80 Classification & Validation 0-5

Classification Diagnostic Richards et al., Genetics in Medicine 2008

Navigateurs de génome Accès aux données du génome humain à l'aide d'un interface graphique Accès à de très nombreuses données d'annotation Les 2 principaux : UCSC Genome Browser Ensembl Genome Browser

UCSC Genome Browser

UCSC Genome Browser

Visualisation des variations (IGV)

Bases de données de variants SNPs et indels Single Nucleotide Polymorphism Database (dbsnp) Exome Variant Server (EVS) 1000 Genomes Project CNVs Database of Genomic Variants (DGV)

Exome Variant Server

Exome Variant Server

Exome Variant Server

Bases de données de variations en pathologie humaine Généralistes Single Nucleotide Polymorphism Database (dbsnp) Human Gene Mutation Database (HGMD) Online Mendelian Inheritance in Man (OMIM) Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resource ( DECIPHER) Spécialisées Locus Specific DataBases (LSDB) Catalogue of somatic mutations in cancer (COSMIC)

COSMIC

Outils de prédiction in silico Prédiction informatique de l'effet de variations génétiques Exemple 1: mutations non-synonymes SIFT Polyphen Exemple 2: effet sur l'épissage Human Splicing Finder (HSF)

Conclusion Constat : la génétique ne se fait plus sans informatique (au sens large, incluant la bio-informatique), particulièrement en recherche, mais également en mileu hospitalier. Nécessité d'intégrer des outils informatiques variés dans la pratique professionnelle Nécessité d'intégrer l'informatique dans la formation des étudiants & professionnels

Se former à la bio-informatique Niveau 0 : Se documenter sur le sujet. Niveau 1 : Utiliser et maîtriser les outils ayant une interface graphique (bases de données publiques, navigateurs de génome, Galaxy, outils de prédiction in silico). Niveau 2 : Se familiariser avec Linux (ex : Ubuntu) ou utiliser le terminal du Mac. Niveau 3 : Apprendre un (des) langage(s) de programmation (ex : Python, Perl, R). Niveau 4 : Analyser des données réelles dans ses études ou sa pratique professionnelle.