Plan. la méthode. Séquençage de RAD tags : mise en oeuvre et applications. Le séquençage de RAD-tags: une représentation réduite du génome.



Documents pareils
SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

Gènes Diffusion - EPIC 2010

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Big data et sciences du Vivant L'exemple du séquençage haut débit

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Réunion du réseau de génétique du Département EFPA

Analyse des données de séquençage massif par des méthodes phylogénétiques

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

National Research Council Canada

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Génétique et génomique Pierre Martin

SERVICES DE SEQUENÇAGE

Isolement et Diversité Génétique des Dugongs de Nouvelle Calédonie

Gestion des références bibliographiques. Comment simplifier la gestion des références bibliographiques?

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Bases de données des mutations

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Eco-système calcul et données

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

Protocoles pour le suivi des pontes de tortues marines dans le cadre de Protomac. Professeur Marc Girondot

SysFera. Benjamin Depardon

Détection et prise en charge de la résistance aux antirétroviraux

Développement, utilisation et comparaison de différents types de marqueurs pour étudier la diversité parmi une collection de blé tendre

Première partie. Introduction Générale

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Plateforme Transgenèse/Zootechnie/Exploration Fonctionnelle IBiSA. «Anexplo» Service Transgenèse. Catalogue des prestations

Application Form/ Formulaire de demande

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

CATALOGUE DES PRESTATIONS DE LA

PANDORA database: a compilation of indoor air pollutant emissions

Guide d'installation rapide TFM-560X YO.13

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Modèles et simulations informatiques des problèmes de coopération entre agents

Focus sur : Comparatif de 3 logiciels de gestion des références bibliographiques

Master 2 Recherche Biologie Géosciences Agroressources Environnement Parcours Biodiversité Écologie Évolution Dounia SALEH

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

Big Data et Graphes : Quelques pistes de recherche

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Principes de bonne pratique :

Au-delà du coalescent : quels modèles pour expliquer la di

Biomarqueurs en Cancérologie

MABioVis. Bio-informatique et la

Big Data et Graphes : Quelques pistes de recherche

Jean-François Boulicaut & Mohand-Saïd Hacid

Charges virales basses sous traitement: définition impact virologique. Laurence Bocket Virologie CHRU de Lille

Instructions Mozilla Thunderbird Page 1

Mendeley, pour gérer sa bibliographie et la partager. Patricia Volland-Nail

Utilisation du Cloud StratusLab dans le cadre d application astroparticule à l APC

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Ingénieur R&D en bio-informatique

Data issues in species monitoring: where are the traps?

TD de Biochimie 4 : Coloration.

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

altona altona RealStar CMV PCR Kit 1.0 always a drop ahead. 04/2015 altona Diagnostics GmbH Mörkenstr Hamburg Germany

OBJECTIFS. Une démarche E-science

Tutoriel de formation SurveyMonkey

Chapitre 3 : INFERENCE

MASTER (LMD) GESTION DE DONNEES ET SPATIALISATION EN ENVIRONNEMENT (GSE)

4. Résultats et discussion

Faits saillants et survol des résultats du sondage

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Convergence des programmes qualité Qualitéet Recherche UMR 6284 CNRS ISIT JEAN-YVES BOIRE

Prérequis réseau constructeurs

Guide de l'utilisateur. Linksys AE1000 Adaptateur USB sans fil - N hautes performances

Retour d expérience sur Prelude

Business-Insight Company Presentation

DOCUMENTATION - FRANCAIS... 2

Introduction à l approche bootstrap

Etude, par simulations, de l intérêt d une sélection génomique dans une population porcine de type mâle

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Montréal, 24 mars David Levine Président et chef de la direction DL Strategic Consulting. DL Consulting Strategies in Healthcare

Introduction à la Génomique Fonctionnelle

SEQUENÇAGE LI-COR DNA 4200

Prélèvement/préparation p des échantillons et analyse des reliquats d azote

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Fonds de dotation : lorsque les temps sont difficiles

Utilisation du Logiciel de statistique SPSS 8.0

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Les apports de l informatique. Aux autres disciplines

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Console de supervision en temps réel du réseau de capteurs sans fil Beanair

Afin de valider votre inscription merci de bien veiller à :

TP11 - Administration/Tuning

Big Data et la santé

Conférence Web sur demande de TELUS Guide de référence rapide

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Guide de formation EndNote Web Interface EndNote Web

Perl Orienté Objet BioPerl There is more than one way to do it

SONDAGE OMNIBUS TÉLÉPHONIQUE - OPINION AU SUJET DU PROJET ÉNERGIE EST -

Transcription:

Séquençage de RAD tags : mise en oeuvre et applications Eric Pante laboratoire LIENSs UMR 7266 CNRS-Université de La Rochelle http://epante.wordpress.com/ concept Plan applications en biologie évolutive comparaisons avec d autres outils de représentation réduite du genome mise en oeuvre & stratégies outils d analyses frontières Le séquençage de RAD-tags: une représentation réduite du génome la méthode fragmentation du génome par digestion enzymatique séquençage de type NGS des séquences liées aux sites de restriction RAD:! restriction site-associated DNA Hohenlohe et al, PLoS Genetics 2010 Bill Cresko, University of Oregon

la méthode la méthode { adaptateur P1 ligation d amorces et d un code barre (pour distinguer différents échantillons) ligation d amorces et d un code barre (pour distinguer différents échantillons) Bill Cresko, University of Oregon Bill Cresko, University of Oregon la méthode la méthode séquençage next-generation de fragments courts (Illumina / SOLiD / Ion Torrent PGM) adaptateur P1 P2 adaptateur P1 P2 { fragment séquencé Illumina HiSeq 2500: ~ nt adaptateur P2 Baird et al,! Bill Cresko, University of Oregon PLoS ONE 2008

la méthode séquençage next-generation de fragments courts (Illumina / SOLiD / Ion Torrent PGM) Quelques difficultés liées au génotypage de SNPs RAD-tags Source Description Références (e.g.) cut-site read 1 read 2 (banques paired-ends) Laboratoire Séquençage qualité des réactifs, contamination, erreurs de pipettage, sensibilité de l enzyme à la qualité de l ADN, équi-molarité des ADNs purifiés, PCR bias / error, sélection de taille de la banque erreurs de séquençage; séquençage aléatoire d allèles et loci Bonin et al (2004) Baird et al (2008), Peterson et al (2012) Hohenlohe et al (2012) Meachan et al (2011) Nielsen et al (2011) Hohenlohe et al (2012) Loman et al (2012) nb RAD-tags = 2 x sites de restrictions Intrinsèque au génome séquençage préférentiel selon le % de G/C, polymorphisme sur le site de restriction, méthylation du site de restriction Roberts et al (2010) Davey et al (2013) Gautier et al (2013) Davey et al (2013) Mol Ecol Plan marker mapping concept applications en biologie évolutive comparaisons avec d autres outils de représentation réduite du genome mise en oeuvre & stratégies outils d analyses frontières https://www.tpwd.state.tx.us/fishboat/fish/images/inland_species/spotgarbig.jpg Amores et al (2011)! Genetics

scan génomique phylogéographie Reitzel et al (2013) Mol Ecol http://genome.jgi-psf.org/ Nemve1/Nematostellapolyp.jpg Stölting et al (2013) Molecular Ecology arbres Populus tremula x P. trichocarpa http://www.commanster.eu/commanster/plants/trees/trees/populus.tremula.html phylogénomique phylogénie basée sur un alignement de > 2 260 000 nt Cruaud et al (2014) MBE phylogénomique Cruaud et al (2014) MBE

DIC 000 105000 100 2 23000 DIC 22000 K=3: detailed analysis on panel g 20 52000 DIC 50000 92 TER12032, 2 TER12047, 8 TER12042, 8 TER12054, 8 TER32, 8 TER13067, 2 TER13061, 2 TER12053, 8 TER120416, 2 TER13069, 2 TER12063, 2 TER120413, 2 TER12062, 8 TER12069, 8 TER12067, 2 TER13062, 8 TER310, 2 TER120415, 8 TER13065, 8 TER130610, 2 TER13045, 9 TER130424, 9 TER13042, 9 TER130420, 9 TER130423, 9 TER13033, 9 TER13047, 9 TER13088, 9 TER130422, 9 TER13036, 9 TER130418, 9 TER130410, 9 TER13089, 9 TER13083, 9 TER13087, 9 TER13084, 9 TER13086, 9 TER130419, 9 20000 TER12033, 2 TER12063, 2 TER12032, 2 TER120416, 2 TER11105, 4 TER11108, 4 TER5017, 4 TER11106, 4 TER110924, 4 TER41, 4 TER110916, 4 TER110920, 4 TER110935, 4 TER111010, 4 TER110910, 4 TER110914, 4 TER52, 4 TER54, 4 TER5031, 4 TER5016, 4 TER110926, 4 TER11101, 4 TER110922, 4 TER11095, 4 TER11107, 6 TER11102, 6 TER12058, 8 TER32, 8 TER12068, 8 TER12042, 8 TER12054, 8 TER120415, 8 TER12048, 8 TER12053, 8 TER13065, 8 TER13064, 8 TER12062, 8 TER12069, 8 TER13062, 8 TER13034, 8 TER130611, 8 TER130612, 8 TER12045, 8 TER13066, 8 TER12047, 8 TER120414, 8 54000 6 7 8 9 10 12 PNG12024, 14 30 PNG12011, 30 PNG1205, 30 16 18 TER130826, 14 2 3 4 5 6 7 8 9 TER2041, 11 Number of clusters (K) TER2044, 11 TER130826, TER130826,1414 TER13045, 9 TER41, TER414 TER13042, 9 TER13033, 9 TER52, TER524 TER130423, 9 TER13036, 9 TER13089, 9 TER54, TER544 TER13086, 9 TER13083, 9 TER130419, 9 TER5031, TER50314 99 Clade 1 TER13047, 9 TER130422, 9 TER5016, TER50164 TER130424, 9 TER130420, 9 TER13088, 9 TER5017, TER5017 4 TER130418, 9 TER130410, 9 TER11095, TER13087, 9 TER11095 4 TER13084, 9 PNG1181, 7 TER110910, 4 TER110910 PNG3033, 7 PNG9048, 7 TER110924, TER1109244 87 TER110916, 8 TER1109164 TER130612, TER12062, 8 TER12069, 8 TER110926, TER1109264 TER13062, 8 TER13066, 8 TER120416, 2 TER110920, 4 TER110920 TER13067, 2 TER310, 2 92 TER110914, TER1109144 77 TER12032, 2 TER12058, 8 TER130610, 2 TER110922, 98 TER1109224 TER120413, 2 92 TER120415, 8 TER12054, 8 TER110935, TER110935 4 TER12042, 8 TER13061, 2 Clade 3 TER111010, TER111010 4 88 TER12033, 2 TER12045, 8 TER13065, 8 TER11105, TER111054 TER13069, 2 TER12068, 8 TER11106, TER32, 8 TER11106 4 93 TER120414, 8 TER11108, 4TER12041,8 13 TER11108TER12048, TER12067, 2 85 8 TER11101, TER11101854 TER12053, TER12063, 2 SE Slope of New Caledonia 19 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 Number of clusters (K) Jumeau Ouest Seamount (Norfolk Ridge) 1.0 Munida Seamount (Norfolk Ridge) 0.8 TER13034, TER13034,8 8 0.01 17 0.6 TER13034, 8 TER11107, 6 TER11102, 6 TER12047, 8 TER13064, 8 TER130611, 8 TER8061, 7 TER11021, 7 TER7093, 7 TER7091, 7 TER7092, 7 TER41, 4 TER52, 4 TER54, 4 TER5031, 4 TER5016, 4 99 TER5017, 4 TER11095, 4 TER110910, 4 TER110924, 4 TER110916, 4 87 TER110926, 4 TER110920, 4 TER110914, 4 92 TER110922, 4 98 92 TER110935, 4 TER111010, 4 TER11105, 4 88 TER11106, 4 93 TER11108, 4 85 TER11101, 4 PNG7021, 10 TER2051, 10 PNG3032, 10 PNG12024, 30 PNG12011, 30 PNG1205, 30 TER5031 TER5017 TER5016 TER11108 TER11106 TER11105 TER111010 TER11101 TER11095 TER110935 TER110926 TER110924 TER110922 TER110920 TER110916 TER110914 TER54 TER110910 89 PNG3033, PNG3033,77 PNG9048, PNG9048,77 PNG1181, PNG1181,77 TER7093, TER7093,77 TER7091,77 98 TER7091, TER8061, TER8061,77 81 TER11021, TER11021,7 7 TER7092, TER7092,77 TER12047, TER12047,8 8 TER12045, TER12045,8 8 TER12033, TER12033,2 2 TER120414, TER120414,8 8 TER12053, TER12053,8 8 TER120416, TER120416,2 2 TER310, TER310,2 2 TER12062, TER12062,8 8 TER120413, TER120413,2 2 TER130612, TER130612,8 8 TER12063, TER12063,2 2 91 TER12069, TER12069,8 8 TER12032, TER12032,2 2 TER12041, TER12041,1313 77 TER32, TER32,8 8 TER12048, TER12048,8 8 TER12054, TER12054,8 8 TER120415, TER120415,8 8 TER130610, TER130610,2 2 TER13065, TER13065,8 8 96 TER13064, TER13064,8 8 TER12067, TER12067,2 2 TER13066, TER13066,8 8 TER12058, TER12058,8 8 TER13062, TER13062,8 8 TER12042, TER12042,8 8 TER12068, TER12068,8 8 TER13069, TER13069,2 2 TER130611, TER130611,8 8 TER13067, TER13067,2 2 84 TER13061, TER13061,2 2 TER5031, TER5031,44 TER110916, TER110916,4 4 TER11095, TER11095,4 4 TER11108, TER11108,4 4 TER110910, TER110910,4 4 TER110924, TER110924,4 4 TER110935, TER110935,4 4 TER110926, TER110926,4 4 TER110922, TER110922,4 4 TER110914, TER110914,4 4 TER110920, TER110920,4 4 TER11106, TER11106,4 4 TER11105, TER11105,4 4 TER111010, TER111010,4 4 TER5016, TER5016,44 TER5017, TER5017,44 TER11101, TER11101,4 4 TER52, TER52,4 4 TER41, TER41,4 4 TER54, TER54,4 4 TER52 q 15 0.4 78 13 d. RAD-tags, PyRAD m6s93 dataset g JAC1018, J PNG3032, PNG3032,10 10 PNG7021, PNG7021,10 10 TER2051, TER2051,10 10 PNG12011, PNG12011,3030 PNG12024,3030 PNG12024, PNG1205, PNG1205,30 30 TER130422, TER130422,9 9 TER13083, TER13083,9 9 TER130423, TER130423,9 9 TER13047, TER13047,9 9 TER13042, TER13042,9 9 TER13036, TER13036,9 9 TER13033, TER13033,9 9 TER13088, TER13088,9 9 TER13045, TER13045,9 9 TER130424, TER130424,9 9 TER130410, TER130410,9 9 TER130420, TER130420,9 9 TER130419, TER130419,9 9 TER13084, TER13084,9 9 TER13087, TER13087,9 9 TER13086, TER13086,9 9 TER130418, TER130418,9 9 TER13089, TER13089,9 9 11 Number of clusters (K) un peu de biblio TER2057, 11 0.2 5 96 TER2057, TER2057,11 11 TER2041, TER2041,11 11 TER2044, TER2044,11 11 91 4 0.0 97 3 0.01 c. RAD-tags, Stacks m3m10n12 dataset JAC1018, JAC1018,JJ 2 TER41 TER2057, 11 TER2044, 11 TER2041, 11 95000 48000 0.001 PNG3032, 10 TER2051, 10 PNG7021, 10 98 19000 délimitation d espèces < > structure des populations articles sur le RAD-seq référencés dans SCOPUS 2007-2014 95 NouvelleCalédonie TER11102, TER11102,6 6 TER11107, TER11107,6 6 0.001 TER2057, 11 TER2044, 11 TER2041, 11 96 Clade 2 TER130826, 14 Pante et al (2014) Heredity http://images.vliz.be/resized/ 41876_chrysogorgia.jpg résolution des marqueurs de type RAD Plan concept applications en biologie évolutive comparaisons avec d autres outils de représentation réduite du genome mise en oeuvre & stratégies outils d analyses frontières Peterson et al (2012) PLoS ONE

comparaisons avec d autres outils de représentation réduite du génome, une sélection RAD résolution des marqueurs de type RAD Méthode Stratégie Référence ezrad nb d enzymes 1; préparation simplifiée; coût réduit (30 librairies < $10K) Toonen et al (2013) ddrad 2b-RAD couplage de 2 enzymes de restriction dont les fréquences de coupe sont différentes utilisation d enzymes de type IIB qui coupent l ADN en petits fragments (33-36nt) de taille uniforme Et bien d autres: GBS, tegbs, RESTseq, RRLs, CRoPS Peterson et al (2012) Wang et al (2012) allele A allele A allele a allele A allele a le ddrad (double-digest): moins de loci, mieux couverts Comparaison de méthodes: Wang et al (2012) Nature Methods, Toonen et al (2013) PeerJ, Lepais et Weir (2014) Mol Ecol Res Peterson et al (2012) PLoS ONE (méthode)! (figure) Plan Une étape clé :! le choix de l enzyme de restriction concept applications en biologie évolutive comparaisons avec d autres outils de représentation réduite du genome mise en oeuvre & stratégies outils d analyses frontières reconnaissance d un palindrome spécifique Hohenlohe et al, PLoS Genetics 2010

RADtag counter from GenePool, Edinburgh To use this counter: 1 Enter the GC content of your target genome here: 0.4 proportion GC 2 Enter the size in megabases of your genome here: 2000 taille megabases génome (Mb) genome 3 Enter the fold coverage of RADtags you require here: 30 fold couverture coverage 4 Enter the per-pool plexity you plan to use here: 96 plexity 5 Enter number of million reads per lane (please contact the GenePool for throughput currently 80 million reads per lane achieved on the GAIIx and HiSeq platforms) Overhang Enzyme SbfI TGCA PstI NsiI NotI GGCC EaeI EagI EcoRI AATT ApoI Site CCTGCA*GG CTGCA*G ATGCA*T Site frequency 5.76E-06 0.000144 0.000324 2.56E-06 0.0004 0.000064 0.000324 0.002025 Sites/Mb 6 144 324 3 400 64 324 2025 Number of sites in genome 11520 288000 648000 5120 800000 128000 648000 4050000 Number of tags 23040 576000 1296000 10240 1600000 256000 1296000 8000 Num sequences for coverage 691200 17280000 38880000 307200 48000000 7680000 38880000 243000000 Million sequences per pool 66.4 1658.9 3732.5 29.5 4608.0 737.3 3732.5 23328.0 does your pool fit in one lane? YES NO NO YES NO NO NO NO GC*GGCCGC Y*GGCCR C*GGCCG G*AATTC R*AATTY choix de l enzyme pour différents modèles Model Divergence level Enzyme Genome size Expected coverage Expected number of restriction sites Carabes: Cruaud et al (2014), Mol Biol Evol Multiplexing! (nb. indiv) 1-17 MY PstI 300 MB 48x 49068 31 Dauphins: Viricel et al (2014), Mol Ecol Res 0-19 MY NotI 3 GB 38x 10714 92 Coraux: Pante et al (2014), Heredity 0-17 MY? SbfI 224 MB - 1.8 TB 30x 23040 91 PredRAD: Herrera et al (2014) BioRxiv PredRAD: Herrera et al (2014) BioRxiv fréquence des sites de coupe extrêmement variable, dépend des groupes taxinomiques plus le site de coupe est long, moins les sites de coupes sont fréquents sur le génome pas de corrélation claire entre composition en nt du site de coupe et sa prévalence prévalence de certains tri-nucléotides meilleur indicateur de fréquence de sites de coupe * * * *

Plan control qualité de données RAD concept applications en biologie évolutive comparaisons avec d autres outils de représentation réduite du genome mise en oeuvre & stratégies outils d analyses frontières control qualité de données RAD outils d analyse outils utilisation auteurs année language GUI citations stacks RAD pipeline Catchen et al 2011 C / perl yes 128 site de coupe de l enzyme de restriction! Sbf1: TGCA*GG rtd ddrad pipeline Petterson et al 2012 python no 73 RADtools RAD pipeline Baxter et al 2011 perl no 71 RApiD RAD pipeline Willing et al 2011 C / perl no 23 Rainbow RAD pipeline Chong et al 2012 C / perl no 10 PyRAD RAD pipeline, phylogenetics Eaton 2014 python no 5 RADami RAD tools, phylogenetics Hipp et al 2014 R no 3 RADtyping linkage maps Fu et al 2013 perl no 1 PredRAD enzyme choice Herrera et al 2014 python no 0 ddocent ddrad pipeline Puritz et al 2014 bash no 0 SimRAD RAD simulation Lepais & Weir 2014 R no 0 Et quelques outils généralistes, appliqués à des données RAD: GATK, BWA, Stampy, SAMtools, iml

reads nettoyés et démultiplexés détection d allèles par individu large panel d analyzes et d applications mises à jour très fréquentes / réactivité du dévelopeur communauté bien développée (google group: 879 sujets) facile d emploi / interface graphique (base de données) paramètre m profondeur de couverture Catchen et al (2013) Molecular Ecology Catchen et al (2011) G3 http://creskolab.uoregon.edu/stacks/ Catchen et al (2013) Molecular Ecology Catchen et al (2011) G3 création d une liste de loci putatifs par individu détection de polymorphisme basé sur le maximum de vraisemblance paramètre M divergence entre alleles pour l assemblage de loci Catchen et al (2013) Molecular Ecology Catchen et al (2011) G3 Catchen et al (2013) Molecular Ecology Catchen et al (2011) G3

Quelques difficultés bioinformatiques liées au génotypage de SNPs RAD-tags Source Description Références (e.g.) Profondeur de couverture (PC) Duplicata PCR Longueur des fragments de restriction filtre PC trop faible: inclusion d erreurs de d inférence de SNPs et de génotypage; filtre PC trop haut: allele drop-out PC hétérogène, sur-représentation de certaines séquences allele / locus drop-out diminue avec la longueur du fragment de restriction Davey et al (2013) Hohenlohe et al (2012) Catchen et al (2013) Davey et al (2013) Davey et al (2013) Paralogues et régions répétées des séquences similaires, mais non homologues Hohenlohe et al (2012) peuvent être assemblées pour former des loci artificiels Dou et al (2012) Indels! (insertions / délétions) certains pipelines d analyses ignorent les indels (Stacks, RADtools), d autres non (RApiD, PyRAD) Peterson et al (2012) Davey et al (2013) Catchen et al (2013) Molecular Ecology Catchen et al (2011) G3 paramètre n de divergence entre loci de différents individus Divergence et génome de référence (GR) les allèles qui sont différent du GR ont une probabilité plus élevé de ne pas être cartographiés, comparé à des alleles similaires au GR Pool et al (2010) Difficultés bioinformatiques : sources d erreurs de génotypage Difficultés bioinformatiques : sources d erreurs de génotypage couverture minimum trop basse: inflation du taux d erreurs

Difficultés bioinformatiques : distribution de séquences uniques Difficultés bioinformatiques : sources d erreurs de génotypage erreurs de séquençage? régions répétées? Davey et al (2013) Mol Ecol Difficultés bioinformatiques : sources d erreurs de génotypage utilisation de réplicats techniques pour calculer le taux d erreur en l absence d un génome de référence couverture minimum trop haute: inflation du taux d erreurs locus dropout allele dropout ou erreur (PCR ou séquençage)

utilisation de réplicats techniques pour calculer le taux d erreur en l absence d un génome de référence présence / absence de loci locus dropout réplicats de séquençage et présence / absence de loci locus dropout réplicat 2010 réplicat 2012 Hipp et al, PLoS ONE 2014 utilisation de réplicats techniques pour calculer le taux d erreur en l absence d un génome de référence polymorphisme sur le site de restriction: allele dropout détection des allèles et des SNPs l allele dropout sur-estime : la variation génétique au sein et entre populations l hétérozygotie le FST et la proportion d FST outliers Gautier et al (2013) Mol Ecol

Différents filtres, différents résultats? Différents filtres, différents résultats? Stacks, m3m4n4 Stacks, m3m10n12 PyRAD, m6s93 résolution phylogénétique Pante et al (2014) Heredity conclusions conclusions RAD-tag, une représentation réduite du génome couplage enzyme de restriction / NGS large panel d utilisations (cartographie -> phylogénétique) déclinaisons (e.g. ddrad) augmentent l applicabilité compromis rendement / mise en oeuvre / échelle (échantillonnage, phylogénétique ) large panel d outils / pipelines bioinformatiques outils diffèrent par leur stratégies de détection des loci, polymorphisms, allèles détection nécessaire des erreurs liés à ces détections (locus drop-out, allele drop-out, genotyping error ) compromis nb marqueurs / taux d erreur

conclusions merci de votre attention! stratégies de mise en oeuvre en laboratoire choix du nb d individus, de l enzyme, de la plateforme de séquençage, du nb de runs réplicats techniques: individus / banques / séquençage stratégies de traitement bioinformatique des données choix de la plateforme de traitement, philosophie des outils disponibles (e.g. Stacks vs. PyRAD) exploration de l espace paramétrique (e.g. couverture, divergence) et estimation de l incertitude liée au génotypage merci aux organisateurs du workshop merci à Fred Viard (SBR) sources de financement projets RAD: APEGE (InEE du CNRS) MNHN, Institut ISYEB cluster de calcul YMIR, Université de La Rochelle salaire FEDER / CPER collaborateurs RAD, particulièrement Amélia Viricel (LIENSs) et Jawad Abdelkrim (MNHN)