Introduction au GBS. Hueber Yann, Alexis Dereeper, Gautier Sarah, François Sabot, Vincent Ranwez, Jean-François Dufayard 9-13 février 2015



Documents pareils
SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Gènes Diffusion - EPIC 2010

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Etude, par simulations, de l intérêt d une sélection génomique dans une population porcine de type mâle

Détection et prise en charge de la résistance aux antirétroviraux

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

CATALOGUE DES PRESTATIONS DE LA

Première partie. Introduction Générale

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Big data et sciences du Vivant L'exemple du séquençage haut débit

SERVICES DE SEQUENÇAGE

Analyse des données de séquençage massif par des méthodes phylogénétiques

Data issues in species monitoring: where are the traps?

Galaxy4Bioinformatics Développement et intégration d application sous Galaxy

MANUEL MARKETING ET SURVIE PDF

Au-delà du coalescent : quels modèles pour expliquer la di

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

3: Clonage d un gène dans un plasmide

Génétique et génomique Pierre Martin

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Développement, utilisation et comparaison de différents types de marqueurs pour étudier la diversité parmi une collection de blé tendre

Packet Tracer : configuration des listes de contrôle d'accès étendues, scénario 1

Représenté par Eric Mamy A22 présenté par CFR & CGL Consulting

LES MÉMOIRES FLASH : ENTRE MÉMOIRE VIVE ET MÉMOIRE DE STOCKAGE. Etienne Nowak 12 mars Etienne Nowak - 12 mars GIS-SPADON

EMME : un environnement de gestion des métadonnées expérimentales

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

IPv6: from experimentation to services

Calcul intensif pour la biologie

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

Services à la recherche: Data Management et HPC *

FOURNIR UN SERVICE DE BASE DE DONNÉES FLEXIBLE. Database as a Service (DBaaS)

Lavatory Faucet. Instruction Manual. Questions?

Lecture critique d article ou comment briller en société sans en avoir trop l air

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

Focus sur : Comparatif de 3 logiciels de gestion des références bibliographiques

Plateforme Technologique Innovante. Innovation Center for equipment& materials

Jean-François Boulicaut & Mohand-Saïd Hacid

Nicolas Géraud CXO dasein interactions. Extraits de l intervention de

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

!"" # $%%&'())) * + ' # ()))'()),!"" -. /

COULEE D ALLIAGES METALLIQUES : MODELISATION DES STRUCTURES ET SEGREGATIONS CHIMIQUES

Brest (29) Lessay (50), Mars 2012

SEQUENÇAGE LI-COR DNA 4200

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

ADAPT: un modèle de transcodage des nombres. Une application des systèmes de production au développement

StruxureWare Power Monitoring v7.0. La nouvelle génération en matière de logiciel de gestion complète d énergie

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

Exemple PLS avec SAS

FOURTH SESSION : "MRP & CRP"

Improving the breakdown of the Central Credit Register data by category of enterprises

Business-Insight Company Presentation

Phamaco-génétique et analyses multivariés

Once the installation is complete, you can delete the temporary Zip files..

Etude comparative de différents motifs utilisés pour le lancé de rayon

National Research Council Canada

Our recommendation engine has come up with some personalized suggestions for you.

CONTEC CO., LTD. Novembre 2010

OPEN SCIENCE CATI CODEX MONTPELLIER 14 FÉVRIER 2013

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Isolement automatisé d ADN génomique à partir de culots de cellules sanguines à l aide de l appareil Tecan Freedom EVO -HSM Workstation

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Projet Java EE Approfondi

GEIDE MSS /IGSS. The electronic document management system shared by the Luxembourg

Le cloud conçu pour votre organisation.

THE EVOLUTION OF CONTENT CONSUMPTION ON MOBILE AND TABLETS

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Package Contents. System Requirements. Before You Begin

Tutoriel de formation SurveyMonkey

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Annex 1: OD Initiative Update

Usine Numérique Intégration Produit Production

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Application Form/ Formulaire de demande

Etablit des Budgets et des Quotas Utilisateurs par Montant, Nombre de pages, copies et types de fichiers.

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

L IMPACT ATTENDU DE DMARC SUR LE PHISHING. Auteur Sébastien GOUTAL Responsable Filter Lab

La Priorité Thématique 1 : «Sciences du Vivant, génomique et biotechnologie pour la Santé» du 6 ème PCRDT

GUGGO 4 ème rencontre

Flood risk assessment in the Hydrographic Ebro Basin. Spain

DOCUMENTATION - FRANCAIS... 2

Bases de données des mutations

Solutions Dell Networking pour le Big Data. Philippe MARTIN Networking Sales Specialist - p_martin@dell.com

Guide de formation EndNote Web Interface EndNote Web

Charges virales basses sous traitement: définition impact virologique. Laurence Bocket Virologie CHRU de Lille

Valorisez vos actifs logiciels avec Rational Asset Manager. Jean-Michel Athané, Certified IT Specialist IBM Rational Software

Virus de l hépatite B

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

Résumé de la thèse intitulée

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

: Machines Production a créé dès 1995, le site internet

HSCS 6.4 : mieux appréhender la gestion du stockage en environnement VMware et service de fichiers HNAS Laurent Bartoletti Product Marketing Manager

Nombre dérivé et tangente

SARM: Simulation of Absorption Refrigeration Machine

La rencontre du Big Data et du Cloud

Transcription:

Introduction au GBS Hueber Yann, Alexis Dereeper, Gautier Sarah, François Sabot, Vincent Ranwez, Jean-François Dufayard 9-13 février 2015

Sommaire Définition Les différentes méthodologies Exemple du RADseq (single, paired-end) Implications bioinformatiques Applications (avantages, inconvénients) Pipelines existants

Définition GBS = Genotyping by Sequencing Génotypage de milliers de variants (SNP, INDEL) chez de nombreux individus Réduction de la complexité des génomes ciblés Utilisation d enzyme de restriction Utilisation des technologies NGS (Illumina, etc..)

Pourquoi? Centaines d individus séquencés simultanément (multiplexage des individus sur une même lane) Milliers/Millions de marqueurs Sous-échantillonnage du génome Prix attractifs

Réduction de la complexité Avec une (ou plusieurs) enzyme de restriction Large choix Site de reconnaissance de tailles différentes Sensibilité à la méthylation (cibler les régions géniques, éviter les régions répétées) Site de restriction ADNg

Méthodologies «GBS» Préparation des échantillons Restriction site associated DNA markers Double digest RAD Genotyping by sequencing Reduce-representation library

RAD Digestion Ligation Digestion : fragmentation de l ADNg avec une enzyme de restriction Pooling Random shear Size selection Ligation

RAD Digestion Ligation Ligation : ajout d un adaptateur commun + barcode Barcode = séquence de 4 à 8 bases qui permet d identifier un individu Pooling Random shear Size selection Ligation Adaptateur 1 barcode Site de restriction ADNg

RAD Digestion Pooling Ligation Pooling Random shear Random shear Size selection Size selection Ligation

RAD Digestion Ligation Ligation Pooling Random shear PCR Size selection Ligation Adaptateur 1 barcode Site de restriction ADNg Adaptateur 2

Single-end RAD : single vs paired-end ADNg Paired-end Site de restriction Read forward Read reverse SE : jusqu à 300pb PE : 300 pb + 300 à 500 pb

RAD : paired-end contig

RAD : paired-end contig

RAD : single-end vs paired-end

Fichier fastq Exemple (2 premiers reads) Read indiv 1 Read indiv 2 @HWI-ST1085:185:C30RAACXX:6:1101:2648:2087 1:N:0: TGCTTTGCAGCGTGATAAAGGTTTGCCAGAGAAGCTGCAGGCTCGCTCTCCTGGCGAATC +???DDBBDDDDDA@E?BB>4<<CE+CEE<C89?D@DDCABBDD9D6CD=8@==@65::/? @HWI-ST1085:185:C30RAACXX:6:1101:2614:2089 1:N:0: ATAGATTGCAGCTGCCACTGCCGCAGCTGCCTCCCCTTCTCCTCTTCCTCGCTTCTTCCC +?@@DFFFDFHHGH>EGGIDEHIGIDGI>?DBB9DGGADFBBF@GGH4BAH@G@FBDCAEF barcode Site de restriction ADNg

Contrôle qualité Filtrer sur la qualité/longueur des reads Enlever les éventuels adaptateurs communs Garder les reads sans erreur de séquençage dans le barcode + site de coupure? Si données pairées : garder read 1 et read 2 correspondant dans le même ordre dans fichier fastq1 et fastq2 Vérification de la qualité avec FASTQC Outils: cutadapt, trimmomatic, etc..

Démultiplexage Obtenir un fichier fastq unique par individu FASTQ (reads correspondant à n individus) Fichier Barcode (correspondance NOM indiv <--> barcode fastx_splitter.pl TASSEL STACKS FASTQ (indiv 1) FASTQ (indiv 2) FASTQ (indiv n) Suppression des barcodes mais pas des sites de restrictions!!

Applications Linkage/QTL mapping Population genomics Marker discovery Phylogenetics/geography Genome assembly

Applications Filtration pipeline on raw variants (SNPs, short indels) called on 106 accessions of Musa using GBS single-end methodology to get highly reliable markers for Genome Wide Association Studies (GWAS). # Raw variants (SNPs, short indels) 1) Remove individuals with missing data > 50 % 2) Discard markers with one or more missing genotypes 148,108 46,418 3) Remove non-polymorphic markers 4) Keep only biallelic markers 5) Remove markers with Fis (inbreeding coefficient) score outside normal range of gaussian distribution (in our case inferior to -0,8) 22,456 21,769 6) Keep markers with minor allele frequency (MAF) 5 % 7) Set to missing genotypes positions with read depth < 10 8) Discard markers > 9 missing genotypes 5,544 # Analysis-ready variants

Applications Phylogenetic trees generated with markers coming from a) GBS (3257 SNPs) and b) RAD sequencing (12880 SNPs) on 11 Musa diploids a) b) banksii BB balbisiana BB microcarpa AB ney poovan (cv) AB pisang jari buaya (cv) AA burmannicoïdes AA tomolo (cv) burmannica siamea zebrina pisang mas (cv)

Avantages Simple et rapide à mettre en œuvre Pas besoin de beaucoup d ADN (100ng/indiv) Applicable à toutes les espèces (avec ou sans génome de référence) Flexible : plus ou moins de marqueurs selon multiplexage et couverture Pipelines d analyse déjà existants

Inconvénients Plus la librarie GBS est grande, plus on a de données manquantes Polymorphismes dans les sites de restrictions Variations structurales entre individus Hétérogénéité des qualités/quantités d ADN Séquences répétées

Coûts (ex librairie GBS 96 échantillons)

Pipeline TASSEL GBS (Cornell) Pipeline de découverte des variants Tag = séquence de read unique

Logiciel TASSEL (v 5.0)

Pipeline STACKS

Détection de SNP Cartographie Génétique Construction de mini-contig (données pairées) Génomique des populations (avec ou sans génome de référence) Pipeline STACKS

Références Davey J.W., Hohenlohe P.A., Etter P.D., Boone J.Q., Catchen J.M., Blaxter M.L. (2011) Genome-wide genetic marker discovery and genotyping using next-generation sequencing. Nature Reviews Genetics 12(7):499-510. Baird NA, Etter PD, Atwood TS, Currey MC, Shiver AL, Lewis ZA, Selker EU, Cresko WA and Johnson EA (2008) Rapid SNP discovery and genetic mapping using sequenced RAD markers. PLoSONE 3: e3376. Bradbury PJ, Zhang Z, Kroon DE, Casstevens TM, Ramdoss Y, Buckler ES. (2007) TASSEL: Softwar for association mapping of complex traitts in diverse samples. Bioinformatics 23:2633-2635. J. Catchen, P. Hohenlohe, S. Bassham, A. Amores, and W. Cresko. Stacks: an analysis tool set for population genomics. Molecular Ecology. 2013. Karim Gharbi RAD sequencing: next-generation tools for an old problem (workshop Rennes 30/01/2014)