Recherche et analyse de polymorphismes SNP



Documents pareils
Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Gènes Diffusion - EPIC 2010

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Génétique et génomique Pierre Martin

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Exercices de génétique classique partie II

Big data et sciences du Vivant L'exemple du séquençage haut débit

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Retrouver les informations demandées dans les différents rapports Utiliser les fonctionnalités des rapports Utiliser la segmentation avancée

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

CATALOGUE DES PRESTATIONS DE LA

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Compte-rendu re union Campus AAR 3 mars 2015

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Travaux pratiques avec RapidMiner

SERVICES DE SEQUENÇAGE

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Maps Tableau de bord avec MindManager et Power Markers

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

BeLearner.com, en 5 leçons!

Manuel d utilisation

Etude, par simulations, de l intérêt d une sélection génomique dans une population porcine de type mâle

Les tests génétiques à des fins médicales

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Les 10 étapes incontournables pour réaliser un site internet performant et accessible

Bertrand Cornanguer Sogeti

Descriptif des fonctionnalités de notre site professionnel. Page 1 sur 13

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

Manuel des bonnes pratiques avec CATIA V.5

DataEXchanger. Echangez en toute simplicité. Atelier Dex Etat des lieux Dex X. Présentation DEX X

Génomique Comparative et intégrative

Relation entre deux variables : estimation de la corrélation linéaire

1 les caractères des êtres humains.

POVERELLO KASONGO Lucien SIO 2, SISR SITUATION PROFESSIONNELLE OCS INVENTORY NG ET GLPI

MINISTÈRE DE L ÉDUCATION DES ÉTATS-UNIS. Bureau des Droits Civiques (BDC) Formulaire de plainte pour discrimination

Vulgarisation Java EE Java EE, c est quoi?

CRM Service. Exemples de secteurs concernés. Fonctionnalités clés. Gestion de l activité quotidienne. Gestion complète de la force de vente

Algoba Systems valoriser et partager leur patrimoine numérique Orphea Studio

1 Architecture du cœur ARM Cortex M3. Le cœur ARM Cortex M3 sera présenté en classe à partir des éléments suivants :

Au-delà du coalescent : quels modèles pour expliquer la di

Guide d utilisation. Version 1.1

SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

1 ITEM DESIGNATION DE L ITEM

Outils de traitements de logs Apache

Maîtriser l'utilisation des outils bureautiques. Maîtriser le logiciel de traitement de texte - Word. Maitriser le logiciel tableur - Excel

Galaxy4Bioinformatics Développement et intégration d application sous Galaxy

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

HOWTO INSTALLATION DB2 et NSE (sous RedHat)

COMMENT FAIRE UN PLAN DE COMMUNICATION. Présentation : Chrystel Skowron Responsable communication à Côte-d Or Tourisme

Veille - recherche enrichissement. Veille sur les technologies et pratiques émergentes Recherche :

Talend Technical Note

Analyse des données de séquençage massif par des méthodes phylogénétiques

Développement, utilisation et comparaison de différents types de marqueurs pour étudier la diversité parmi une collection de blé tendre

Université Paris IX DAUPHINE DATE : 24/04/06

SYSTEME DE GESTION DES ENERGIES EWTS EMBEDDED WIRELESS TELEMETRY SYSTEM

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Memento sur le service

Design adaptatif. Guide de l utilisateur VIENNA LONDON MUNICH BERLIN PARIS HONG KONG MOSCOW ISTANBUL BEIJING ZURICH

La PLateforme BoLero. mode d emploi

LES OUTILS DU TRAVAIL COLLABORATIF

Suite Jedox La Business-Driven Intelligence avec Jedox

Les outils BI du consultant métier

Bases de données des mutations

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

VI- Exemples de fiches pédagogiques en 3 ème année primaires

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Sage 100. pour les PME. Faites de votre gestion un levier de performance

Qu est-ce qu un outil de travail collaboratif Google Drive?

1. Installation de COMPTINE

PageScope Suite L accélérateur de workflow * L essentiel de l image

Guide de démarrage Intellipool Network Monitor

Isolement et Diversité Génétique des Dugongs de Nouvelle Calédonie

Nouveautés I7.10. Chers clients,

PROGRAMME D ACTION COMMISSION FÉDÉRALE DÉMARCHE CITOYENNE

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

6Des lunettes pour ceux qui en ont besoin

Une solution pour les experts! Les relevés de surfaces. solution? On y retourne!

Identification de nouveaux membres dans des familles d'interleukines

les outils du travail collaboratif

Les tableaux croisés dynamiques

FOSS Enterprise Integration Plattaform

Guide pour aider à l évaluation des actions de formation

ALLIANZ MODE OPERATOIRE DE MIGRATION D UNE AGENCE WINDOWS Août Version du document : 010

Feuille d exercices 2 : Espaces probabilisés

QUESTIONNAIRE DE PRE-AUDIT. Rubrique n 1 : Présentation de l entreprise

Services bancaires par Internet aux entreprises. Guide pratique pour : Rapports de solde Version

Logiciel XLSTAT version rue Damrémont PARIS

Analyser votre impact

DYNTEST AML (Alarme/Moniteur/Logger) Surveillance du filtre à particules

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Transcription:

Recherche et analyse de polymorphismes SNP 1- Tablet : Détection visuelle de SNP avec Tablet Tablet est un outil graphique de visualisation d assemblage et d alignement de séquences issues de NGS (Next Generation Sequencing). Lancer le logiciel Tablet via le Java Web Start : http://bioinf.hutton.ac.uk/tablet/faq.shtml. Charger le fichier SAM issu du mapping par BWA, fichier rassemblant l ensemble des individus. (Depuis Galaxy: Data libraries => Formation => SNP => V2 => MergedSAM_sorted) Sélectionner le gène Os01g62920. Sur ce gène : o Pouvez-vous repérer des SNP? o Repérez un SNP où tous les individus séquencés différent de la référence o Repérez un SNP où seul RC5 diffère de la référence o Repérez une position hétérozygote o Intuitivement, comment estimeriez-vous la fiabilité d un SNP? Comment feriez-vous la différence entre une position hétérozygote et une erreur de séquençage? o Quels peuvent-être les problèmes rencontrés du fait de la présence de pseudogènes ou gènes répétés? Tablet propose de nombreuses options pour la visualisation des reads assemblés, notamment la colorisation selon les «Read Groups» ou encore la mise en évidence des variants. Ce logiciel va permettre de confirmer à l œil des SNP détectés de manière automatique mais ne sera pas utilisé pour une détection des variants à large échelle.

2- Détection de SNP avec GATK via Galaxy : GATK (Genome Analysis Tool Kit) est une librairie logicielle permettant l analyse de données NGS. GATK va détecter les SNP et indels et affecter à chacune de ces positions un génotype aux individus. GATK fournit en sortie un fichier au format VCF (Variant Call Format). Spécification du format VCF Ouvrir Galaxy. Convertir le fichier SAM en fichier BAM en utilisant SAM-to-BAM. Créer le workflow GATK suivant : IndelRealigner =>UnifiedGenotyper o A quoi correspondent les différents champs du fichier VCF? o Observer les SNPs obtenus et vérifier avec Tablet o Identifiez dans le fichier VCF une position hétérozygote? o Vérifier l effet de IndelRealigner sur l appel de SNP en relançant directement UnifiedGenotyper. Observer la différence de SNPs obtenus entre les 2 traitements sur le gène Os12g32240.1 Lancer le module DepthOfCoverage pour obtenir la profondeur de séquençage par position par individu. o Observer le fichier de sortie. Lancer le module ReadBackedPhasing permettant de retrouver les haplotypes. o Pour RS4 présentant plusieurs positions hétérozygotes consécutives, tentez de reconstituer manuellement les 2 haplotypes du gène Os12g32240.1. La technique de séquençage a-t-elle permis d'identifier directement les haplotypes (avec ReadBackedPhasing)? Pour RS3? - Note1 : Le module IndelRealigner permet un réalignement local autour des insertions/délétions afin d éviter des erreurs d appel de SNP. - Note2 : Le module UnifiedGenotyper propose 2 options appelées «Stand call conf» et «Stand emit conf» permettant de fixer les bornes de qualité de SNP à partir desquels les SNP doivent être appelés et taggués comme étant «PASS» et «LowQual». - Note3 : En pratique, il a été observé que les erreurs d appels de SNP sont plus fréquentes sur les transversions que sur les transitions. - Note4 : D autres technologies générant des reads plus longs (ex : PacBio) permettent théoriquement d améliorer la résolution des haplotypes.

3- Utilisation du pipeline SNiPlay pour l'exploitation des SNP SNiPlay est une application Web dédié à la recherche et l analyse de SNP à partir de données de séquençage. SNiPlay offre la possibilité d associer des informations externes aux individus. Typiquement, il est possible d associer l appartenance aux compartiments cultivés ou sauvages. Par ailleurs, plusieurs options de SNiPlay sont disponibles : - une option consiste à filtrer sur les données manquantes par position et à supprimer les portions de séquences ayant plus d un certain % de données manquantes - une option consiste à écarter de l analyse ou recoder en SNP bialléliques les SNP multialléliques et les insertions/délétions. - une option consiste à baser l annotation des SNP (positions génomiques, synonymes/non synonymes ) non plus sur un BLAST des séquences mais directement sur l annotation du génome si le mapping a été fait sur les CDS ou les mrna de ce génome. Aller sur le pipeline SNiPlay : http://sniplay.cirad.fr. Cocher le type d entrée VCF puis charger 3 fichiers : le fichier VCF phasé. le fichier FASTA de référence. le fichier de profondeur de séquençage. Intégrer les informations externes sur les individus analysés comme donné en exemple ci-dessous Accession,compartiment reference,cultivated RC1,cultivated RC2,cultivated RC3,cultivated RC4,cultivated RC5,cultivated RC6,cultivated RC7,cultivated RC8,cultivated RC9,cultivated RC10,cultivated RS1,wild RS2,wild RS3,wild RS4,wild RS5,wild RS6,wild RS7,wild RS8,wild RS9,wild RS10,wild Choisir le riz comme génome de référence pour positionner les SNP, et indiquez que la référence correspond aux mrna. Sélectionner les étapes «Network analysis» et «Distance tree». Laisser le reste par défaut, et lancer l analyse.

3-1- SNP et statistiques o Observer les SNP obtenus et les statistiques associées. o Observer les alignements qui ont été reconstruits à partir du VCF et de la référence. o Quelle information fournie en entrée a permis de définir où la séquence de chaque individu commence? o Quel gène possède un INDEL? 3-2- Partage de SNP entre groupes o Observer les SNP partagés entre individus cultivés et sauvages. o Combien de SNP permettent de discriminer entre les compartiments cultivés et sauvages? 3-3- Design de puces Illumina o Quel fichier serait-il possible de soumettre à Illumina pour designer des puces SNP (technologie VeraCode) sur l ensemble des gènes? Que contient ce fichier? o Que se passe-t-il si une insertion/délétion se trouve juste en amont d un SNP? 3-4- Fichiers alléliques SNiPlay génère des fichiers de génotypage en différent format accepté par plusieurs logiciels d analyse : STRUCTURE, DARwin, Phase, TASSEL o Observer les différents formats de fichiers alléliques disponibles. 3-5- Annotation des SNP SNiPlay permet de mapper les séquences sur un génome de référence pour annoter les SNP. o Combien de SNPs sont retrouvés dans les exons? Quelle est la part de SNPs nonsynonymes sur ces derniers? o Quel est le ratio Transition/Transversion? 3-6- Reconstruction d'haplotypes SNiPlay offre la possibilité de reconstruire les haplotypes des individus, c est-à-dire les groupes d allèles situés sur les mêmes chromosomes homologues. o Combien y a-t-il d haplotypes distincts pour le gène Os01g62920? 3-7- Réseau d'haplotypes Haplophyle est un outil permettant de générer des réseaux d haplotypes. o Pour le gène Os01g62920.1, existe-t-il des haplotypes spécifiques du compartiment cultivé? Observer le réseau d haplotypes pour ce gène. 3-8- Arbre de distance

o Observer l arbre de distance généré pour l ensemble des positions polymorphes.