Introduction sur les nouvelles technologies de séquençages (NGS) et l'analyse des données générées sous Galaxy



Documents pareils
Big data et sciences du Vivant L'exemple du séquençage haut débit

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Gènes Diffusion - EPIC 2010

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistiques Descriptives à une dimension

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Travaux pratiques avec RapidMiner

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

MABioVis. Bio-informatique et la

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

SERVICES DE SEQUENÇAGE

Fête de la science Initiation au traitement des images

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Table des matières. Table des matières

Initiation à LabView : Les exemples d applications :

1 les caractères des êtres humains.

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

SIG ET ANALYSE EXPLORATOIRE

Mallette Métrologie Contrôle des spectrophotomètres

Logiciel XLSTAT version rue Damrémont PARIS

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Dans la série. présentés par le site FRAMASOFT

QUICK START RF Monitor 4.3-1

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Identification de nouveaux membres dans des familles d'interleukines

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Statistique : Résumé de cours et méthodes

CATALOGUE DES PRESTATIONS DE LA

SOFI Gestion+ Version 5.4. Echanges de données informatiques Spicers Sofi gestion+ Groupements. SOFI Informatique. Actualisé le

Analyse des données de séquençage massif par des méthodes phylogénétiques

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Service des ressources informatiques - Conseil Scolaire de District Catholique Centre-Sud Page 1

BAMOSONIC IT. - Mesure de niveau -

MÉTHODE Investir en bourse avec Isiotrade. " Hier est derrière. Demain est un mystère. Ce qui compte, c est ce que l'on fait dans l instant.

Ce dont nous avons besoin pour suivre ce tutorial :

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

Guide d'utilisation. OpenOffice Calc. AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons

Contrôle de l'expression génétique :

LibreOffice Calc : introduction aux tableaux croisés dynamiques

Didacticiel de mise à jour Web

Classe de première L

Freeway 7. Nouvelles fonctionnalités

Introduction à la Génomique Fonctionnelle

Jexcel. V1.1.4 Manuel d'utilisation. modifié le 16 nov. 2004

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

SEQUENÇAGE LI-COR DNA 4200

Créer le schéma relationnel d une base de données ACCESS

Exemples de Projets SAFI

Traitement numérique de l'image. Raphaël Isdant

Statistiques 0,14 0,11

Le Marketing Direct et la relation client

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

Projet Robot Centaure

G E S T S K E D. Logiciel de gestion de QSO journaliers ou hebdomadaires appelés SKED. Version 1.0. Logiciel développé par René BUSSY F5AXG

Séries Statistiques Simples

10. Instruments optiques et Microscopes Photomètre/Cuve

données en connaissance et en actions?

GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA)

EVOLUTIONS suite à mise à jour


TD de supervision. J.P. Chemla. Polytech Tours Département productique 2ème année

Génétique et génomique Pierre Martin

«Manuel Pratique» Gestion budgétaire

Analyse et interprétation des données

Les tableaux croisés dynamiques

Evaluation de la variabilité d'un système de mesure

Comment et pourquoi créer des clés d'activation?

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Interface PC Vivago Ultra. Pro. Guide d'utilisation

v7.1 SP2 Guide des Nouveautés

Transmission d informations sur le réseau électrique

v Sygic, a.s. All rights reserverd. Manuel utilisateur

Bernard Lecomte. Débuter avec HTML

Administration du site (Back Office)

Problèmes de dénombrement.

Nouveautés FDS Pour créer des équipements 2D et les publier à partir d'autocad

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

WHS ProRealTime. édition

Numbers sur ipad. Atelier Formation Numbers sur ipad. [Notes extraitres de l'aide en ligne]

Infolettre #18 : Les graphiques avec Excel 2010

Manuel d utilisation de l outil collaboratif

Transcription:

Introduction sur les nouvelles technologies de séquençages (NGS) et l'analyse des données générées sous Galaxy Yvan Le Bras, Projet e-biogenouest, CNRS UMR 6074 IRISA-INRIA, Rennes I. Informations globales sur les NGS 1. Derrière NGS -DNA-seq : étude de l'adn (séquençage de novo, reséquençage,.) -RNA-seq : étude des ARN (mrna, ncrna, smrna,.) -ChIP-seq : étude des interactions protéine/adn (chromatine) pour rechercher les lieux d'actions des facteurs de transcriptions, des régions régulant l'expression des gènes, souvent des régions promotrices (Chromatin ImmunoPrecipitation) (Genomics Select, Cell, Volume 130, Issue 4, 24 August 2007, Pages 575,577, ISSN 0092-8674, 10.1016/j.cell.2007.08.014. (http://www.sciencedirect.com/science/article/pii/s0092867407010367). Il s'agit d'effectuer une première étape de ChIP (chromatin ImmunoPrecipitation) pour enrichir de façon sélective en séquence d'adn liées par une protéine particulière dans les cellules vivantes. C'est une bonne alternative au ChIP-chip. -ClIP-seq (=HITS-CLIP): étude des interactions protéine/arn (ultraviolet crosslinking/ immunoprecipitation/ sequencing) (Ule et al., 2005, J. Ule, K. Jensen, A. Mele, R.B. Darnell CLIP: a method for identifying protein-rna interaction sites in living cells Methods, 37 (2005), pp. 376 386) -Metagenomique : étude du contenu génétique d'un échantillon issu d'un environnement complexe (intestin, océan, sols, ) trouvé dans la nature (définition Wikipédia) 2. De nombreux types de données: -FastQ: Format texte issu du format fasta contenant donc des séquences biologiques mais avec les scores de qualité de séquençage associés à chaque position nucléotidique. Selon les softs et surtout les plateformes de séquençage utilisé, le format fastq est plus ou moins bien détecté. Pour homogénéiser le formatage, on passe souvent par une transformation du fastq en type "Sanger" (datatype fastqsanger sous Galaxy). Le format est décrit par un @ pour l identifiant de la séquence, la séquence, une ligne débutant par + parfois suivi de l identifiant, les scores de qualité associés à chacune des bases Ex: @SRR034310.1 4_1_1684_208/1 GGGGGGGGGGGGGGGGGGGGGGGGGGGAGGTGGGTT + IIIII6II./IIIIIIIIIIIIIIIII0*I%FIIII @SRR034310.2 4_1_1209_1559/1 GGTTTGCAGGCACTTCAGGTTAATGAACAACGCCTC + IIIII>I774IIIIIIIIIIIIIIIIIIIIIIIIII Les scores :

Un score Phred de 10 autorise 1 erreur sur 10. Un score Phred de 20 autorise une erreur sur 100. Un score de 40, une sur 10 000. Dans le cas présent, nos séquences ont un score de qualité codée en Phred+33 Sanger. Il faut donc regarder la première ligne du tableau ci-dessous ainsi que la première ligne de score correspondant au code de la sixième ligne. Au passage, remarquons que le symbole I représente un score de 40 dans notre cas (une erreur autorisée sur 10 000 nucléotides séquencés) alors qu'avec un code de type Illumina1.3+, nous aurions obtenus un score de 9, soit plus d'une erreur sur 10 nucléotides séquencés! Les seuils de scores couramment utilisés pour enlever les séquences de mauvaise qualité sont 20 ou 30. La répartition du score de qualité sur notre première séquence peut être représentée comme suit : Contrôle des qualités via FastQC: Le fichier de sortie est un rapport html constitué de plusieurs parties :

Quelques statistiques simples sur le fichier analysé. On y trouve notamment le type d'encodage ASCII utilisé pour les valeurs de qualité, le nombre de séquences filtrées si utilisé en mode Casava ainsi que le taux de GC (régions génomiques enrichies en GC sont en moyenne enrichies en gènes, avec plus d'exons que d'introns) La ligne rouge représente la valeur moyenne de score. La boîte jaune représente la répartition des valeurs inter-quartiles (25-75%). Le haut et le bas des moustaches représentent les points à respectivement 90% et 10%. La ligne bleue représente la qualité moyenne par position. Les différentes parties du graphique (vert, orange, rouge) représentent respectivement des qualités très bonnes, raisonnablement bonnes et faible. Comme la qualité se dégrade en général au fur et à mesure que le run de séquençage progresse, les valeurs ont tendance à diminuer vers la droite du graphe. Un warning est mis si une des valeurs de quartile inférieur est en dessous de 10 ou si la valeur médiane d'une base est inférieure à 25. Erreur quand premier quartile<5 ou médiane<20.

La répartition du nombre de séquences par scores permet de voir si un sous-jeux de séquences présente une faible qualité, ce qui peut être le cas notamment si elles ont mal été capturées sur image (sur le bord du champ de vision de l'appareil par exemple). Cela peut révéler un problème systématique pendant le run correspondant à une partie de la flowcell par exemple. Un warning est indiqué quand le pic est en dessous de 27 (taux d'erreur de 0.2%). Un échec quand en dessous de 20 (taux d'erreur de 1%). Dans une librairie "randomisée", nous nous attendrions à peu voire aucune différence. Quand une forte différence est observée, cela vient souvent du fait de séquences sur représentées contaminant la librairie. Un biais persistent tout au long de la séquence indiquerait plus un biais dans la librairie initiale ou un problème systématique pendant le séquençage de la librairie. Un warning quand différence, à au moins une position, entre A et T ou G et C supérieur à 10%, une erreur à 20%.

Un biais ponctuel peut indiquer une séquence sur représentée contaminant la librairie. Un biais persistent tout au long de la séquence indiquerait plus un biais dans la librairie initiale ou un problème systématique pendant le séquençage de la librairie. Warning si valeur à une base diffère d'au moins 5% de la moyenne en GC, erreur à 10%. Une distribution normale du contenu en GC peut être attendu d'une librairie "randomisée" avec un pic central correspondant à la moyenne générale du contenu en GC du génome étudié. Un écart peut indiquer des contaminations ou d'autres types de biais. Un déplacement de la distribution indique plutôt des biais systématiques indépendant de la position. Warning quand la somme des déviations à la normal représente plus de 15% des reads. Une erreur pour 30%.

Warning quand le contenu en N > 5% à une position, 20% pour une erreur. Nous devons observer un pic unique. Si ce n'est pas le cas, un warning apparaît, une erreur si une séquence à une longueur de 0.

Score établit en regardant les 200 000 première séquences du fichier. Il est habituel de voir la courbe remonter à 10 car y sont répertoriés toutes les séquences présentant 10 duplications et plus. Ici, le niveau est élevé, impliquant un grand nombre de séquences avec un fort niveau de duplication. Un warning est indiqué quand les séquences non uniques représentent plus de 20% du total, 50% pour une erreur. Warning si une séquence représente plus de 0.1% du total, une erreur pour 1%. Graphe des top 6 hits de 5-mer en utilisant 20% des séquences. Warning quand un k-mer est enrichi plus de 3 fois en tou ou 5 fois à une position donnée. Si la valeur passe à 10 fois, une erreur s'affiche.

-SAM / BAM: format générique pour stocker de grands alignements de séquence nucléotidique. BAM est la version binaire du format SAM tabulé Il se compose d' un en-tête (header) optionnel mais important pour de nombreux outils bioinformatiques, et d'une section alignement. @RG ID : Identifiant du groupe de read (individu) SM : Nom de l échantillon (individu) PL : Plateforme utilisée (Illumina) LB : Librairie d ADN (1, 2, ) Et possiblement beaucoup d'autres informations (http://samtools.sourceforge.net/samv1.pdf) Pour ce qui concerne la section alignemment: Information de FLAG :

Information sur la qualité de mapping MAPQ : Ce score est calculé de la même manière que pour un score PHRED de séquence Sanger. Un score MAPQ de 10 autorise 1 erreur de positionnement lors de l'alignement sur 10. Un score MAPQ de 20 autorise une erreur sur 100. Un score de 40, une sur 10 000. Information CIGAR : -BED: Format de fichier tabulé composé de 3 champs obligatoires: nom du chrom., début de la séquence sur le chromosome (>0), fin de la séquence sur le chromosome ; suivi de 9 champs non obligatoires : nom de la ligne BED, score pour le niveau de gris à utiliser dans un genome browser, le sens du brin "+" ou "-", la position nucléotidique à partir de laquelle représenter en épais la séquence dans un génome browser (ex: codon start), la position finale correspondante (ex: codon stop), valeur RGB, le nombre d'exons dans la ligne BED, liste des tailles d'exons séparés par une virgule, une liste de positions indiquant les débuts des exons). Ex: track name=pairedreads description="clone Paired Reads" usescore=1 chr22 1000 5000 clonea 960 + 1000 5000 0 2 567,488, 0,3512 chr22 2000 6000 cloneb 900-2000 6000 0 2 433,399, 0,3601 -ACE: fichiers de données de contigs génomiques. Il y a 6 champs. Un premier (la ligne débute par CO) contenant le nombre d'identifiants de contig (ici 1), et pour chacun d'entre eux, le nombre de bases (30502), le nombre de lectures (510), et le nombre de segments de base (273) ainsi que l'information le contig est en Forward (U pour Uncomplemented) ou reversed (Complemented) suivi de la séquence consensus avec * pour un gap ; un second champ (après BQ) renseigne sur la qualité (au format de type phred) sans représentation

des gaps ; un troisième (après AF) fournis une ligne par lecture avec son nom, le fait qu'elle soit Complemented ou non (C ou U), suivi par le premier nucléotide de la lecture avec sa position relative à la séquence consensus (1, 2, ) ; un quatrième (après BS) indiquant quels lectures sont utilisées pour faire la séquence consensus entre les coordonnées précisées ; un cinquième champ (après RD) reprend chaque lecture avec la séquence associée ; un dernier (après QA) suivant chaque lecture contient deux intervalles (celui de la séquence brute, celui de la séquence nettoyée). Ex: CO 1 30502 510 273 U CCTCTCC*GTAGAGTTCAACCGAAGCCGGTAGAGTTTTATCACCCCTCCC BQ 20 20 20 20 20 20 20 20 20 20 20 20 20 AF TBEOG48.y1 C 1 BS 1 137 TBEOG48.y1 RD TBEOG48.y1 619 0 0 CCTCTCC*GTAGAGTTCAACCGAAGCCGGTAGAGTTTTATCACCCCTCCC QA 1 619 1 619 -gff: contenant le nom de la séquence (un chromosome ou un scaffold), la source de la séquence (le programme qui l'a généré), le nom du type de "feature" (sous-séquence) (CDS, exon, Start_codon, transcript ), la position de départ de cette sous-séquence, la position de fin, le score (pour le niveau de gris de représentation dans un genome browser), le type de brin (+ ou -), the reading frame (si codon, 0-2, sinon ".", et enfin un nom de groupe permettant de lier toute les lignes d'un même groupe. Ex: browser position chr22:10000000-10025000 browser hide all track name=regulatory description="telegene(tm) Regulatory Regions" visibility=2 chr22 TeleGene enhancer 10000000 10001000 500 +. touch1 chr22 TeleGene promoter 10010000 10010100 900 +. touch1 chr22 TeleGene promoter 10020000 10025000 800 -. touch2 -Wig et BigWig pour visualiser dans un genome browser, des données denses, continues. Cela stocke juste la fenêtre chromosomique à utiliser dans le browser. -peaksfile. contient les pics identifiés en utilisant les paramètres fournis par l'utilisateur. Les colonnes sont: ID : Un identifiant unique pour chaque pic identifié Chromosome : le chromosome sur lequel a été identifié le pic Start location : la coordonnée de début du pic sur le génome End location : la coordonnée de fin du pic sur le génome Peak maximum location : la coordonnée du maximum observé du pic Maximum height : la plus forte valeur observé dans une région spécifiées par des coordonnées de début et de fin.

Exemple : id chrom start end max_coord score 1 22 21885493 21885792 21885543 1.0 2 22 21885836 21886136 21886136 3.119 3 22 21886138 21886374 21886220 3.971 4 22 21886376 21886499 21886376 1.490 5 22 21886501 21887016 21886796 4.750 6 22 21887018 21887876 21887728 77.201 7 22 21887878 21888791 21888100 159.824 8 22 21888793 21889484 21888977 8.759 9 22 21889486 21889807 21889622 2.630 10 22 21889809 21890185 21889897 2.0 Voici donc une petite vision des différents formats de données utilisés lors d'analyse NGS. Il en existe une grande diversité, leur évolution est constante et cela nécessite un grand besoin de convertisseurs. II. Assemblage de novo Un assemblage de novo correspond à la récupération de séquences issu du séquençage d'un organisme sans génome de référence. Il faut alors pratiquer un nettoyage des données en fonction de la qualité du séquençage, faire certains ajustement en fonction du fait que les séquences soient pairées ou non. On fera ensuite un assemblage des séquences afin d'obtenir des contig ou scaffold voire le génome de notre organisme si le génome entier a été séquencé avec une qualité et une couverture suffisante -Input datasets : Données de séquences en entrée -FASTQ Groomer : vérification des données et mise en forme de la qualité de séquençage suivant le code Sanger. -velveth (ici version de la plateforme MIGALE) : Préparation des données avant assemblage. Il faut spécifier une longueur de hash. Cette valeur de taille de K-mer influe fortement sur la fidélité de l'assemblage et le temps de calcul / utilisation des ressources! Plus cette valeur est forte, plus le temps de calcul est important.

-velvetg (ici version de la plateforme MIGALE) : Utilise la sortie de velveth pour assembler des séquences contiguës les unes avec les autres. Cet outil est un assembleur construisant un graphe de Bruijn. III. RNA seq Les approches de type RNA-seq. -Tophat aligne les lectures (ici pairées) sur un génome de référence (ici renseigné directement au lancement de l'outil en utilisant la liste des génomes préinstallés dans l'environnement Galaxy) en utilisant Bowtie. Chaque fichier BAM généré (ne conservant que les reads mappées) peut ensuite être utilisé comme fichier d'entrée d'autres outils comme Cufflinks. -Cufflinks assemble des transcrits et estime leur abondance. Il fournit notamment un fichier gtf pouvant être utilisé comme fichier d'entrée dans d'autres outils comme Cuffdiff. -Cuffdiff test l'expression différentielle et la régulation d'échantillons de RNA-seq. -Il est possible comme ici de filtrer les résultats en fonction de la significativité des scores obtenus (ici colonne 14 = yes) IV. xip seq Les approches de type XIP-seq (ChIP-seq, ClIP-seq), permettent de focaliser son effort de séquençage sur de l'adn / ARN lié par des protéines d'intérêt (facteurs de transcription ou autre régulateur fonctionnel des cellules). L'idée est ici, après séquençage, assemblage et mapping sur le génome, de ressortir des listes de "pics" correspondant à des aires génomique, loci de fort enrichissement en séquences.

Il faut détecter le bruit de fond afin de pouvoir déterminer les pics statistiquement forts. V. SNP detection L'idée est de rechercher des variations de séquence dans le génome et de les discriminer d'erreurs de séquençage. VI. Recherche de marqueurs (SNP ou microsat.) outliers L'idée est de rechercher des marqueurs, souvent des SNPs, dont la fréquence évolue dans les populations en fonctions d'événements passés pouvant être liés à des phénomènes de sélection. Ici l'exemple de l'utilisation de données de RAD-seq et du pipeline STACKS.

Figure 1 Le pipeline STACKS Etude de cartographie génétique Il est possible d'utiliser des données sans génome de référence (approche "de novo") : -Demultiplexage et nettoyage des lectures avec STACKS : Process radtags -Préparation du fichier de population utilisable dans STACKS : Reference map -Assemblage de novo des loci de chaque individu et détection de SNP, construction du catalogue de loci et association de tous les échantillons avec le catalogue de loci. Contrairement à l'approche "reference", les algorithmes d'association (match) se basent sur des similarités de séquence, pas des positions génomiques. -Il est possible d'utiliser des données avec génome de référence (approche "reference") : -Demultiplexage et nettoyage des lectures avec STACKS : Process radtags -Mapping des lectures correspondants aux barcodes via BWA -Préparation du fichier de population utilisable dans STACKS : Reference map

-Assemblage des loci de chaque individu en se basant sur le génome de référence et détection de SNP, construction du catalogue de loci et association de tous les échantillons avec le catalogue de loci. Contrairement à l'approche de novo, les algorithmes d'association (match) se basent sur des positions génomiques, pas de la similarité de séquence. -Si des parents et des descendants sont fournis au pipeline, comme c'est le cas ici, le programme genotypes est lancé en fin de run. Cela permet d'identifier les loci cartographiable et d'encoder de façon générique le type de locus (ex : ab x aa deux allèles au locus chez le premier parent, un seul chez le deuxième). Cela dit, il est possible de lancer l'outil STACKS : genotypes une fois le pipeline finit, comme c'est le cas ici via STACKS : genotypes, pour obtenir les génotypes d'un croisement particuliers et pour un logiciel de cartographie particuliers. Etude de populations Il est possible d'utiliser des données sans génome de référence (approche "de novo") : -Demultiplexage et nettoyage des lectures avec STACKS : Process radtags -Préparation du fichier de population utilisable dans STACKS : Reference map -Assemblage de novo des loci de chaque individu et détection de SNP, construction du catalogue de loci et association de tous les échantillons avec le catalogue de loci. Contrairement à l'approche "reference", les algorithmes d'association (match) se basent sur des similarités de séquence, pas des positions génomiques. Il est possible d'utiliser des données avec génome de référence (approche "reference") :

-Demultiplexage et nettoyage des lectures avec STACKS : Process radtags -Mapping des lectures correspondants aux barcodes via BWA -Préparation du fichier de population utilisable dans STACKS : Reference map -Assemblage des loci de chaque individu en se basant sur le génome de référence et détection de SNP, construction du catalogue de loci et association de tous les échantillons avec le catalogue de loci. Contrairement à l'approche de novo, les algorithmes d'association (match) se basent sur des positions génomiques, pas de la similarité de séquence. -Si, comme c'est le cas ici, un seul type d'individus est placé en entrée du pipeline (i.e. pas de parents et de descendants), le programme populations est lancé en fin de run. Cela permet de calculer des statistiques utilisable en génomique des populations comme l'hétérozygotie, la diversité nucléotidique Pi, la différenciation des individus au sein de chaque population (Fis) ou entre les populations (Fst). Dans le cas présent, avec génome de référence, un algorithme de fenêtre glissante est utilisé pour générer une moyenne lissée (kernel-smoothed) de ces statistiques le long du génome. Si en plus, comme c'est le cas ici, nous lui fournissons un fichier reliant les populations aux échantillons (population map), il sera généré des valeurs de Fst par paire de populations. Lancer finalement STACKS : populations permet de relancer le programme populations sur les fichiers générés par STACKS : Reference map pour filtrer les données de diverses manières ou pour générer différents fichiers de sortie de format variés (structure, genpop, vcf, phylip, fasta, )