Détection de balayages sélectifs à l aide de chaînes de Markov cachées.

Documents pareils
Gènes Diffusion - EPIC 2010

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Modélisation du comportement habituel de la personne en smarthome

CarrotAge, un logiciel pour la fouille de données agricoles

Enregistrement et transformation du son. S. Natkin Novembre 2001

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Réunion du réseau de génétique du Département EFPA

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Génétique et génomique Pierre Martin

Alarme domestique- Présentation

Au-delà du coalescent : quels modèles pour expliquer la di

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Object Removal by Exemplar-Based Inpainting

O, i, ) ln x. (ln x)2

INF6304 Interfaces Intelligentes

MCMC et approximations en champ moyen pour les modèles de Markov

Big data et sciences du Vivant L'exemple du séquençage haut débit

Apprentissage Automatique

Projet de Traitement du Signal Segmentation d images SAR

Echantillonnage Non uniforme

Dérivation : Résumé de cours et méthodes

Calculs de probabilités avec la loi normale

Quels outils pour prévoir?

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Introduction aux bases de données: application en biologie

Chapitre 3. Les distributions à deux variables

JEU VIDEO : UN NOUVEAU COMPAGNON par Colette KELLER-DIDIER

Etude, par simulations, de l intérêt d une sélection génomique dans une population porcine de type mâle

Méthodes de Simulation

PLAN DE COURS. GPA750 Ordonnancement des systèmes de production aéronautique

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

Introduction au Data-Mining

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

MABioVis. Bio-informatique et la

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABDELHAMID IBN BADIS MOSTAGANEM TUNISIE MAROC ALGERIE

Programme Agroforesterie 2006/08. Groupe de Travail GT1

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Résumé non technique. Tableaux d estimation

AP1.1 : Montages électroniques élémentaires. Électricité et électronique

Mallette Métrologie Contrôle des spectrophotomètres

Analyse de la bande passante

Comment réaliser physiquement un ordinateur quantique. Yves LEROYER

1 Savoirs fondamentaux

Intelligence artificielle et les défis en robotique mobile et autonome

TSTI 2D CH X : Exemples de lois à densité 1

Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Continuité et dérivabilité d une fonction

Propriétés des options sur actions

ANALYSE CATIA V5. 14/02/2011 Daniel Geffroy IUT GMP Le Mans

Ecran : Processeur : OS : Caméra : Communication : Mémoire : Connectique : Audio : Batterie : Autonomie : Dimensions : Poids : DAS :

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Série HarmonicGuard Application Omnibus Filtre Harmonique Actif. Démarrage Rapide Configuration du Logiciel de l unité

Table des matières. 7 Gérer des ordres 5 Formater des paramètres OptionStation Pro 9

Correction du baccalauréat ES/L Métropole 20 juin 2014

Cinq conseils pour tirer le meilleur parti de Google Analytics

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Introduction à la théorie des files d'attente. Claude Chaudet

Coûts, avantages et inconvénients des différents moyens de paiement

Cartographie mobile implantée au service de police de la ville de Québec

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Plateforme Transgenèse/Zootechnie/Exploration Fonctionnelle IBiSA. «Anexplo» Service Transgenèse. Catalogue des prestations

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Big Data et Graphes : Quelques pistes de recherche

III- Raisonnement par récurrence

CATALOGUE DES PRESTATIONS DE LA

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Audit activité base Oracle / SAP

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

MYRIAD. l ADN isolé n est à présent plus brevetable!

1 les caractères des êtres humains.

Stockage des machines virtuelles d un système ESXi jose.tavares@hesge.ch & gerald.litzistorf@hesge.ch

TP DOMOTIQUE. 01 avril Objectifs : Etre capable : Découvrir quelques possibilités domotiques.

Minimisation de la somme des retards dans un jobshop flexible

Communication Master AgroFood Chain

Cours de méthodes de scoring

Principe de symétrisation pour la construction d un test adaptatif

A.3 Les méthodes : L applicabilité

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Comptabilité à base d activités (ABC) et activités informatiques : une contribution à l amélioration des processus informatiques d une banque

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Aide - mémoire gnuplot 4.0

Option de souscription en dollars américains

LISACode. Un simulateur opérationnel pour LISA. Antoine PETITEAU LISAFrance - le 16 mai 2006

La rencontre du Big Data et du Cloud

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

Simulation de variables aléatoires

Module 7: Chaînes de Markov à temps continu

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

Etude Benchmarking 2010 sur les formations existantes apparentées au métier de Business Developer en Innovation

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Transcription:

Détection de balayages sélectifs à l aide de chaînes de Markov cachées. Simon Boitard, Andreas Futschik, Christian Schlötterer INRA, LGC, Toulouse Université de Vienne (Autriche) Simon Boitard (LGC) Détection de balayages sélectifs 1 / 19

Outline 1 Détection de balayages sélectifs 2 Un modèle de chaîne de Markov cachée Méthodes Résultats Simon Boitard (LGC) Détection de balayages sélectifs 2 / 19

Détection de balayages sélectifs 1 Détection de balayages sélectifs 2 Un modèle de chaîne de Markov cachée Méthodes Résultats Simon Boitard (LGC) Détection de balayages sélectifs 3 / 19

Détection de balayages sélectifs Contexte Une majorité de sites neutres, quelques uns sous sélection. Balayage sélectif (selective sweep) : un allèle sélectionné passe d une fréquence très faible à une fréquence de 1 (fixation) dans une population. Laisse des traces sur les fréquences alléliques des sites voisins. Détection des sites sous sélection au niveau d une seule population. Simon Boitard (LGC) Détection de balayages sélectifs 4 / 19

Détection de balayages sélectifs Type de données n séquences d ADN de longueur L issues d une même population. Modèle à infinité de sites au plus deux alléles distincts par site 0 = ancestral, 1 = dérivé. Simon Boitard (LGC) Détection de balayages sélectifs 5 / 19

Détection de balayages sélectifs Type de données n séquences d ADN de longueur L issues d une même population. Modèle à infinité de sites au plus deux alléles distincts par site 0 = ancestral, 1 = dérivé. Simon Boitard (LGC) Détection de balayages sélectifs 5 / 19

Détection de balayages sélectifs Type de données n séquences. 0 0 0 0 1 0 0 0 0 0 0... 0 0 0 0 1 0 0 0 1 0 0... 0 0 0 0 0 0 0 0 0 0 0... x i nombre d allèles 1 (dérivés) au site i. 0 0 0 0 2 0 0 0 1 0 0... Distribution de probabilité de X i dépend du modèle d évolution supposé. Simon Boitard (LGC) Détection de balayages sélectifs 6 / 19

Balayage sélectif Détection de balayages sélectifs Simon Boitard (LGC) Détection de balayages sélectifs 7 / 19

Balayage sélectif Détection de balayages sélectifs Simon Boitard (LGC) Détection de balayages sélectifs 7 / 19

Balayage sélectif Détection de balayages sélectifs Simon Boitard (LGC) Détection de balayages sélectifs 7 / 19

Balayage sélectif Détection de balayages sélectifs Simon Boitard (LGC) Détection de balayages sélectifs 7 / 19

Balayage sélectif Détection de balayages sélectifs Simon Boitard (LGC) Détection de balayages sélectifs 7 / 19

Détection de balayages sélectifs Effet d un balayage sélectif sur les fréquences alléliques A proximité d un site sous sélection : Densité des sites polymorphes diminue (Kaplan et al. 1989), Probabilité des fréquences extrèmes (hautes et basses) augmente (Braverman et al. (1995), Fay et Wu (2000)), par rapport à ce que l on attend sous un modèle neutre. Simon Boitard (LGC) Détection de balayages sélectifs 8 / 19

Détection de balayages sélectifs Loi de probabilité de X i Figure: Loi de probabilité du nombre d allèles mutés (X i ) à un site neutre (i) loin d un site sélectionné (courbe bleue) (ii) proche d un site sélectionné (courbe rouge) Simon Boitard (LGC) Détection de balayages sélectifs 9 / 19

Détection de balayages sélectifs Détection par maximum de vraisemblance Vraisemblance composite : L(j, s) = P(X 1 = x 1,..., X L = x l j, s) L P(X i = x i j, s) oú P(. j, s) suppose qu il y a eu un évènement de sélection d intensité s au site j. La distance j i a une influence. i=1 Maximum de vraisemblance ĵ, ŝ. L 0 L i=1 P 0(X i = x i ), P 0 sous un modèle neutre. Rejet de H 0 : neutralité pour H 1 : sélection si L(ĵ,ŝ) L 0 > λ. Kim et Stephan (2002), Nielsen et al (2005), Li et Stephan (2006)... Simon Boitard (LGC) Détection de balayages sélectifs 10 / 19

Détection de balayages sélectifs Méthode de Nielsen et al (2005) Hypothèse : la plupart des sites sont neutres P 0 estimé à partir des données : ˆP 0 (X i = k) = L k L, k = 0,..., n 1 L k nombre de sites avec k alleles 1. P(. j, s) déduit de P 0 grâce à un modèle simplifié de coalescent sous sélection. Un paramètre α tient compte des effets combinés de j i et s. Simon Boitard (LGC) Détection de balayages sélectifs 11 / 19

Un modèle de chaîne de Markov cachée 1 Détection de balayages sélectifs 2 Un modèle de chaîne de Markov cachée Méthodes Résultats Simon Boitard (LGC) Détection de balayages sélectifs 12 / 19

Modèle Un modèle de chaîne de Markov cachée Méthodes Simon Boitard (LGC) Détection de balayages sélectifs 13 / 19

Un modèle de chaîne de Markov cachée Méthodes Motivations S i représente la généalogie des n séquences observés au site i. La structure Markovienne de S permet de tenir compte de la corrélation entre les généalogies aux différents sites de la séquence. La loi de X i est entièrement déterminée par la généalogie au site i (donc par S i ). Simon Boitard (LGC) Détection de balayages sélectifs 14 / 19

Un modèle de chaîne de Markov cachée Méthodes Paramètres Probabilités d émission comme Nielsen et al (2005). deux valeurs distinctes de α pour les états Intermédiaire et Sélection. Matrice de transition : 1 p p 0 p/2 1 p p/2 0 p 1 p p est utilisé pour contrôler le taux d erreur sous H 0 (neutralité). Prédiction de S par l algorithme de Viterbi. Simon Boitard (LGC) Détection de balayages sélectifs 15 / 19

Un modèle de chaîne de Markov cachée Résultats Exemple Figure: Etats cachés prédits le long de la séquence pour un échantillon simulé sous un scénario de balayage sélectif.. 1 = Neutre, 2 = Intermédiaire, 3 = Sélection, 4 = vrai site sous sélection. Simon Boitard (LGC) Détection de balayages sélectifs 16 / 19

Un modèle de chaîne de Markov cachée Puissance de détection Résultats Echantillons de taille n = 30 et de longueur L = 100kb. Mutation θ = 4Nµ = 0.005, recombinaison ρ = 4Nr = 0.02. Balayage sélectif récent (τ/n = 0.002) d intensité α = 2Ns = 300. 5% d erreur de type I. HMM HMM-SEG SF Puissance de détection 0.97 0.84 0.94 quand de la sélection est détectée Nombre de fenêtres de sélection 1.13 1.13 X Taille d une fenêtre de sélection 5.99 kb 5.71 kb X Site sous sélection inclus? 1.00 0.81 X Erreur d estimation sur j 1.48 kb 2.45 kb 3.20 kb : en moyenne Simon Boitard (LGC) Détection de balayages sélectifs 17 / 19

Un modèle de chaîne de Markov cachée Résultats Conclusions et perspectives Méthodologie alternative pour la détection de balayages sélectifs récents. Bonne puissance de détection, y compris pour sélection faible, et localisation précise du site sous sélection. Peu sensible à la démographie (croissance, goulot d étranglement). Développements futurs : estimation des paramètres par EM, prise en compte des taux de mutation variables le long de la séquence. Simon Boitard (LGC) Détection de balayages sélectifs 18 / 19

Un modèle de chaîne de Markov cachée Résultats Bibliographie Kim, Y. and W. Stephan. Detecting a local signature of genetic hitchhiking along a recombining chromosome. Genetics 160: 765-777, 2002. Nielsen, R., Williamson, S., Kim, Y, Hubisz, M. J., Clark, A. G., and Bustamante, C.. Genomic scans for selective sweeps using SNP data. Genome Research 1566-1575, 2005. Spencer, C.C.A. and Coop, G.. SelSim: a program to simulate population genetic data with natural selection and recombination. Bioinformatics 20:3673-3675. Simon Boitard (LGC) Détection de balayages sélectifs 19 / 19