Les techniques de séquençage L analyse qualité

Documents pareils
Big data et sciences du Vivant L'exemple du séquençage haut débit

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Gènes Diffusion - EPIC 2010

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

SysFera. Benjamin Depardon

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Analyse des données de séquençage massif par des méthodes phylogénétiques

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Génétique et génomique Pierre Martin

CATALOGUE DES PRESTATIONS DE LA

SERVICES DE SEQUENÇAGE

SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Introduction à la Génomique Fonctionnelle

Biomarqueurs en Cancérologie

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

France SMS+ MT Premium Description

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Brest (29) Lessay (50), Mars 2012

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Perl Orienté Objet BioPerl There is more than one way to do it

Potentiels de la technologie FPGA dans la conception des systèmes. Avantages des FPGAs pour la conception de systèmes optimisés

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Cours 13. RAID et SAN. 2004, Marc-André Léger

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Usine Numérique Intégration Produit Production

Assemblage adaptatif de génomes et de méta-génomes par passage de messages

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

SensOrLabs. a protocol validation platform for the IoT. Dominique Barthel, Quentin Lampin IMT/OLPS/BIZZ/MIS Apr 7th 2014, ST, CEA, LIG

M2-Images. Rendu Temps Réel - OpenGL 4 et compute shaders. J.C. Iehl. December 18, 2013

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Cassandra et Spark pour gérer la musique On-line

SEQUENÇAGE LI-COR DNA 4200

Calcul intensif pour la biologie

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

McGILL UNIVERSITY MARTLET CLASSIC UNIVERSITE McGILL CLASSIQUE MARTLET

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

Power BI 365. #SPSParis E05 Isabelle Van Campenhoudt Jean-Pierre Riehl 30 Mai 2015 / May 30 th, 2015

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Guide de l utilisateur du système MiSeq MD DESTINÉ À LA RECHERCHE

Tier 1 / Tier 2 relations: Are the roles changing?

Systèmes et Réseaux (ASR 2) - Notes de cours Cours 14

Guide d'installation rapide TFM-560X YO.13

«39 years of experience» ( )

SOCIAL INTELLIGENCE BUSINESS RESULTS

Focus sur : Comparatif de 3 logiciels de gestion des références bibliographiques

Contrôle de l'expression génétique :

Plateforme Transgenèse/Zootechnie/Exploration Fonctionnelle IBiSA. «Anexplo» Service Transgenèse. Catalogue des prestations

Ingénierie Dirigée par les Modèles. Editeurs de modèles. (Eclipse Modeling Tools) Jean-Philippe Babau

EMC Forum EMC ViPR et ECS : présentation des services software-defined

Agile&:&de&quoi&s agit0il&?&

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

PARIS ROISSY CHARLES DE GAULLE

Netdays Comprendre et prévenir les risques liés aux codes malicieux

Gouvernance IT : par où commencer? Hubert Lalanne DE, Chief Architect for Industries IBM Software France

Eco-système calcul et données

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

OBJECTIFS. Une démarche E-science

MABioVis. Bio-informatique et la

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Lancement de la plateforme de private cloud IBM Connections en partenariat avec. 04 Novembre 2010

Conception de Médicament

SYLLABS Claude de Loupy

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Anticiper et prédire les sinistres avec une approche Big Data

PRINCIPE DE HOTTE SPÉCIALE COMPLÈTE TYPE «RHC» COMPLETE «RHC» TYPE SPECIAL HOOD SYSTEM

Photoactivatable Probes for Protein Labeling

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

L'agilité appliquée à nous-mêmes. Philippe Krief, PhD Development Manager IBM France Lab

Jean-François Boulicaut & Mohand-Saïd Hacid

Les OGM. 5 décembre Nicole Mounier

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

TD de Biochimie 4 : Coloration.

Editing and managing Systems engineering processes at Snecma

DOSSIER DE CANDIDATURE APPLICATION FORM

NOM ENTREPRISE. Document : Plan Qualité Spécifique du Projet / Project Specific Quality Plan

EMME : un environnement de gestion des métadonnées expérimentales

BIG Data et R: opportunités et perspectives

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Exemple PLS avec SAS

TRAVAUX DE RECHERCHE DANS LE

Stratégie de réduc-on des déchets Waste Reduc-on Strategy: Contrat 2016 Contract

4 Exemples de problèmes MapReduce incrémentaux

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Maxwell 16 Blood DNA Purification System

National Research Council Canada

Big Data et la santé

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

Edna Ekhivalak Elias Commissioner of Nunavut Commissaire du Nunavut

Transcription:

Les techniques de séquençage L analyse qualité http://bioinfo.genotoul.fr

Séquençage : déterminer la succession linéaire des bases A, C, G, T de l ADN, la lecture de cette séquence permet d étudier l information biologique contenue par celle-ci Séquençage Nouvelle Génération (NGS, Next Generation Sequencing) : Séquençage à très haut débit, génération d un très grand nombre de séquences simultanément

A quoi sert le séquençage? RNA-seq : transcriptome sequencing. Informations sur les ARN via le séquençage de l ADN complémentaire (cdna) Re-séquencage : séquençage d un fragment d ADN et comparaison du résultat obtenu avec une séquence de référence connue - détection de SNP, haplotyping Séquencage de novo : séquençage d un génome pour lequel il n existe pas de séquence de référence, détermination d une séquence inconnue Epigénétique : étude des changements d'activité des gènes qui sont transmis au fil des divisions cellulaires ou des générations sans faire appel à des mutations de l'adn. Génotypage par séquençage : découverte et génotypage de plusieurs milliers de polymorphismes de type SNP/INDEL chez de nombreux individus Metagénomique : analyse du matériel génétique provenant directement des échantillons biologiques étude de la diversité génétique d un échantillon

Unique sequence From Sanger to 3 rd generation Next Genration Sequencing Long Reads Sequencing Sanger NGS - short reads Chromium (10X genomics) 16 or 48 capillaries Illumina 3 x MiSeq 15 Gb 2 x 300 pb 2xHiSeq 3000 700 Gb 2 x 150 pb Oxford Nanopore MinION 3G - long reads PacBio RsII 70 000 reads - 20 kb

Spécifications : 700 Gb / 1 run (2,5 jours) Paired-end (2x150 bp) : ~600 millions de séquences/lane Séquencage par synthèse Présentation d un séquenceur NGS Illumina HiSeq3000 1 flowcell = une lame = 8 lignes

Productivité et coût 4000 3500 3000 2500 2000 1500 1000 500 0 Hiseq 2000 Hiseq 2500 1T Hiseq 3000 Hiseq 4000 January 2015 : announcement of HiSeq3000 & HiSeq4000 (same Flow Cells as Hiseq X) Hiseq X five Hiseq X ten 50 45 40 35 30 25 20 15 10 5 0 Gb / FC Gb / sem $ / Gb

Construction des librairies Illumina Ligation des adaptateurs (contiennent l index) P5 et P7: Fixation sur la flowcell SP 1 et 2: primers de séquençage Tag: index (6 bases): multiplexage par 24

Génération des clusters Design de la flowcell

Génération des clusters Hybridation des librairies grâce aux adaptateurs à l intérieur de la flowcell Synthèse du brin complémentaire Dénaturation

Génération des clusters Formation d un pont Synthèse du brin complémentaire Dénaturation

Génération des clusters Formation de 750 000-850 000 clusters / mm²

Fluidigm C1 Single Cell RNA seq

Unique sequence From Sanger to 3 rd generation Next Genration Sequencing Long Reads Sequencing Sanger NGS - short reads Chromium (10X genomics) 16 or 48 capillaries Illumina 3 x MiSeq 15 Gb 2 x 300 pb 2xHiSeq 3000 700 Gb 2 x 150 pb Oxford Nanopore MinION 3G - long reads PacBio RsII 70 000 reads - 20 kb

3 ième génération de séquenceurs + Séquençage molécule unique + Pas d étape de PCR + Lectures longues - Beaucoup d erreur pour l instant (>10%) Ce sont des erreurs aléatoires qui se corrigent bien avec une couverture importante http://www.pacificbiosciences.com

Reads of Insert Reads of Insert Read length increase 147 SMRT on 1st sunflower genome: N50 15365 800 Mb / SMRT cell 18kb cut off (loading 0.36nM= 1036Mb) N50 subreads 19kb 103 SMRT on 2nd sunflower genome: N50 18510 1 041 Mb / SMRT cell (max 1 445 Mb) 6h movie Top 10 of our longest subreads 80974 bp 79860 bp 79834 bp 78105 bp 77481 bp 76881 bp 76558 bp 76355 bp 75569 bp 75559 bp 20kb cut off (loading 0.45nM= 1000Mb) N50 subreads 20.5kb 6h movie

Unique sequence From Sanger to 3 rd generation Next Genration Sequencing Long Reads Sequencing Sanger NGS - short reads Chromium (10X genomics) 16 or 48 capillaries Illumina 3 x MiSeq 15 Gb 2 x 300 pb 2xHiSeq 3000 700 Gb 2 x 150 pb Oxford Nanopore MinION 3G - long reads PacBio RsII 70 000 reads - 20 kb

New techlonogy available Chromium (10X genomics) - Library prep for Illumina sequencing - Long range genomic (~100 kb), haplotyping - Single cell analysis - Exome sequencing

10XGENOMICS

10XGENOMICS

Unique sequence From Sanger to 3 rd generation Next Genration Sequencing Long Reads Sequencing Sanger NGS - short reads Chromium (10X genomics) 16 or 48 capillaries Illumina 3 x MiSeq 15 Gb 2 x 300 pb 2xHiSeq 3000 700 Gb 2 x 150 pb Oxford Nanopore MinION 3G - long reads PacBio RsII 70 000 reads - 20 kb

Oxford Nanopore MinION smidgion PromethION

L ANALYSE QUALITÉ

Comparaison des technologies

Les formats de fichiers Illumina PacBio Nanopore Fastq H5 - Bam Fast5 (H5) Fastq : @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 Qualité : Score PHRED Score de qualité phred Probabilité d'une identification incorrecte 10 1 pour 10 90 % Précision de l'identification d'une base H5 : HDF5 pour Hierarchical Data Format permet de structurer et de 20 1 pour 100 99 % sauvegarder des fichier contenant de très grandes quantités de données 30 1 pour 1000 99.9 % 40 1 pour 10000 99.99 % 50 1 pour 100000 99.999 %

Critères de qualité Critères de qualité Le nombre de reads produites correspondant au nombre attendu Pas de contamination Longueur des reads correcte Bonne qualité, mais ce n'est pas un critère rédhibitoire Bon alignement (re-séquençage avec génome de référence «propre») : peu de reads non alignées

Analyses bioinformatiques et statistiques Différentes approches d'alignement des séquences: De novo : pas de génome de référence, transcriptome non disponible, très coûteux en terme de calculs, résultats très variables Transcriptome de référence : la plupart sont incomplets Génome de référence : le plus utilisé, permet l'alignement de reads sur des parties non annotées, nécessite un «spliced aligner» pour eucaryotes Etude à différents niveaux : gènes, transcripts, spécificité allèlique Découvertes de nouveaux transcripts, nouveaux isoformes, nouvelles structures de gènes (fusion) IMPORTANT : Discuter de la question biologique et du plan expérimental avec des Bioinformaticiens et Biostatisticiens AVANT de mettre en place l expérience

Main quality control workflows for Illumina s data DNA Resequencing illumina_qc Alignment Statistics ) Visualization of insert Size Distribution Core pipeline RNA Resequencing illumina_rnaseq Statistics about demultiplexing DemultiplexStat Alignment Statistics Visualization of insert Size Distribution Contamination Search Filter CASAVA 1.8/2.16 FASTQ file Illumina Filter These NGS pipelines are provided by NG6 1, an information system built upon the jflow workflow management system. Statistics on reads and their qualities Fastqc Amplicon/16S sequencing illumina_diversity_qc Paired-end reads merging Mate Pair Sequencing illumina_matepair Nextera MatePair Adapters trimming Adapters and quality trimming Assignation on a subset of sequences Alignment Statistics Whole Genome Bisulfite Sequencing methylseq C1/mRNASeq Alignement and methylaytion calling (Bismark) Visualization of insert Size Distribution Transcription differences Contamination Search / Spike For every specific protocol, a new workflow is built with jflow components, based on open source software or our in-house tools.

R1 R2

Inserts trop petits

R1 R2

Dimères d adaptateurs

LIMS development Current integration in NG6 : Main quality control workflows for PacBio s data Upcoming : A new LIMS for NGS samples, sequencing and analysis tracking