Application d une méthode spectrale utilisant des séries temporell

Documents pareils
Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

CarrotAge, un logiciel pour la fouille de données agricoles

Programmes des classes préparatoires aux Grandes Ecoles

Gènes Diffusion - EPIC 2010

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

4. Martingales à temps discret

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Introduction à la statistique non paramétrique

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Méthodes de Simulation

MODELES DE DUREE DE VIE

Cours d analyse numérique SMI-S4

Dynamique des protéines, simulation moléculaire et physique statistique

Object Removal by Exemplar-Based Inpainting

Précision d un résultat et calculs d incertitudes

IdR Trading et Microstructure CA Cheuvreux. Charles-Albert Lehalle

Simulation de variables aléatoires

Apprentissage Automatique

de calibration Master 2: Calibration de modèles: présentation et simulation d

MATHS FINANCIERES. Projet OMEGA

Continuité et dérivabilité d une fonction

TSTI 2D CH X : Exemples de lois à densité 1

Echantillonnage Non uniforme

Génétique et génomique Pierre Martin

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Au-delà du coalescent : quels modèles pour expliquer la di

Suites numériques 4. 1 Autres recettes pour calculer les limites

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

EMETTEUR ULB. Architectures & circuits. Ecole ULB GDRO ESISAR - Valence 23-27/10/2006. David MARCHALAND STMicroelectronics 26/10/2006

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Introduction au Data-Mining

De la mesure à l analyse des risques

SDLV120 - Absorption d'une onde de compression dans un barreau élastique

Physique quantique et physique statistique

Soutenance de stage Laboratoire des Signaux et Systèmes

PRÉCIS DE SIMULATION

Théories de champ moyen et convection à grande échelle

CCP PSI Mathématiques 1 : un corrigé

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Plus courts chemins, programmation dynamique

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Manuel de validation Fascicule v4.25 : Thermique transitoire des structures volumiques

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Intérêt du découpage en sous-bandes pour l analyse spectrale

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Espérance conditionnelle

Moments des variables aléatoires réelles

Module 7: Chaînes de Markov à temps continu

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Un modèle stochastique du taux d intérêt implicite en microcrédit

Texte Agrégation limitée par diffusion interne

Relever les défis des véhicules autonomes

Conception des systèmes répartis

Cours de gestion des risques d assurances et de théorie de la ruine. Stéphane Loisel

Monitoring continu et gestion optimale des performances énergétiques des bâtiments

Tutoriels. 01 Utiliser Praat. 02 Transcrire sous Praat en utilisant les conventions VALIBEL. Sylviane Bachy. Rédaction octobre 2005

Économetrie non paramétrique I. Estimation d une densité

TP: Représentation des signaux binaires. 1 Simulation d un message binaire - Codage en ligne

Fonctions de plusieurs variables. Sébastien Tordeux

Intégrale de Lebesgue

Un exemple de régression logistique sous

Optimisation Discrète

Cours de méthodes de scoring

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

TP N 57. Déploiement et renouvellement d une constellation de satellites

Contributions aux méthodes d estimation en aveugle

Modélisation de séries financières par un modèle multifractal. Céline Azizieh

Maîtrise universitaire ès sciences en mathématiques

Chapitre 3. Algorithmes stochastiques. 3.1 Introduction

Introduction au Data-Mining

Chapitre 1 Cinématique du point matériel

Correction du baccalauréat ES/L Métropole 20 juin 2014

Une fréquence peut-elle être instantanée?

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

C1 : Fonctions de plusieurs variables

Modélisation et simulation

Quantification des Risques

Le modèle de Black et Scholes

INTRODUCTION. 1 k 2. k=1

Probabilités avancées. Florin Avram

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Resolution limit in community detection

Coûts, avantages et inconvénients des différents moyens de paiement

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Théorie de la Mesure et Intégration

Intelligence artificielle et les défis en robotique mobile et autonome

Le langage SQL pour Oracle - partie 1 : SQL comme LDD

Lois de probabilité. Anita Burgun

Du Premier au Second Degré

Markov processes and applications to queueing/risk/storage theory and mathematical biology

Thèse. présentée en vu d obtenir le grade de Docteur, spécialité «Mathématiques Appliquées» par. ARRAR Nawel Khadidja

Transcription:

Application d une méthode spectrale utilisant des séries temporelles pour estimer les paramètres de sélection d un SNP dans un modèle de diffusion de Wright Fisher GenPhySE, INRA, Toulouse, France 28 avril 2017

Objectifs de la thèse Un approche récente Utiliser des données génomiques d époques différentes pour préciser notre connaissance de phénomènes évolutifs. L information contenue dans un échantillonnage au cours du temps est (a priori) plus importante que dans un simple échantillonnage au temps présent. 2 questions de recherche Histoire démographique des populations (changement de taille...) Détection de régions génomiques sous sélection 2 types de données Données à court terme (cryobanques) Données à long terme (ADN ancien)

Idée des séries temporelles allele frequency 0.0 0.2 0.4 0.6 0.8 1.0 Allele frequency evolution 0 200 400 600 800 1000 time in generation Real allele frequency sample variability of the sampling Concept des méthodes s appuyant sur des séries temporelles Tenir compte de l incertitude de l échantillonnage dans la détermination de la trajectoire. Déterminer alors s il est probable qu il y ait eu sélection.

Exemple de données temporelles à court terme Données à analyser 87 animaux au total (vaches de la race Asturianas de los valles ) pour lesquels 50, 000 SNP ont été génotypés. Données fournies par Susana Dunner (UCM). 0 1980 1985 1990 1995 2000 2005 2010 date number of cows 16 14 12 10 8 6 4 2

Modèle de diffusion Notations X t : fréquence allélique à l instant t P(X t = x X 0 = p) = f (t, x, p) Equation de Kolmogorov Backward f t = 1 2 p(1 p) 2 f p 2 + 1 f [α(1 p) βp] 2 p + 2p(1 p)[σ 1 (1 2p) + σ 2 p] f p Publications utilisant cette modélisation Bollback et al. (2008) : résolution numérique Song et al. (2012) : résolution analytique Steinrucken et al. (2014) : calcul de vraisemblance

Opérateur différentiel Définition de l opérateur L L = 1 2 p(1 p) 2 p 2 + 1 (α(1 p) βp) 2 p + 2p(1 p)(σ 1 (1 2p) + σ 2 p) p Si f est une fonction propre pour L de valeur propre λ et si = λf, Alors f est solution de l équation de diffusion. f t

Existence des vecteurs propres Définitions σ(p) = 4σ 1 p(1 p) + 2σ 2 p 2 π(p) = e σ(p) p α 1 (1 p) β 1 f, g π = 1 0 f (x)g(x)π(x)dx Propriétés L est auto adjoint pour, π (Song et al. 2012) Il existe une base hilbertienne de fonctions propres B n associées aux valeurs propres Λ n telles que 0 Λ 0 > Λ 1 > Λ 2 > et lim n Λ n = (Karlin and Taylor 1981)

Détermination de la solution Une famille orthogonale connue K n (p) = e σ(p) n de Jacobi modifiés. 2 R α,β (p), où (Rn α,β ) n N est la famille des polynomes (Rn α,β ) n N est une famille de polynômes bien étudiée K n est une base hilbertienne donc B n (p) = m=0 w n,mk m (p) w n,m s obtient comme solution de Mw n = Λ n w n où M est une matrice connue ne dépendant que des paramètres de l EDP Synthèse En considérant la condition au bord f (0, x, p) = δ(x p), la solution s écrit : f (t, x, p) = n=0 π(x)e Λnt B n(p)b n (x) B n, B n π

Modèle de Markov Caché (HMM) - Présentation O 1 O 2 O 3 p 1 p 2 p 3 Modelisation du HMM n i : taille de l échantillon i émission : O i B(n i, p i ) transition : p Θ (t i t i 1, p i, p i 1 ) Définitions et propriétés (algorithme forward) f k (x)dx = P Θ (O [1:k], X (t k ) dx) P Θ (O 1:K ) = 1 0 f K (x)dx (vraisemblance) f k (x) = ( n k ) O k x O k (1 x) n k O k 1 0 f k 1(p)p Θ (t k t k 1, x, p)dp

Modèle de Markov Caché (HMM) - Application Définition et notation f k (x) = π(x) b k,n B n (x) et b k = (b k,0, b k,1,... ) Algorithme n=0 b 0 est à fixer selon l état initial du modèle b k = b k 1 exp( Λ(t k t k 1 ))WG O k (I G) n k O k W 1 P Θ (O 1:K ) = B 0,B 0 π B 0 (0) b K,0 Λ est la matrice diagonale des valeurs propres de l opérateur W est la matrice des vecteurs propres B n exprimés dans la base K n G est une matrice obtenue à l aide de propriétés sur les polynômes de Jacobi

Premiers résultats sur des simulations Chercher le maximum de la vraisemblance On calcule la vraisemblance sur une grille de paramètres et on cherche les paramètres qui la maximisent. Frequency Empirical distribution of the marginal maximum likelihood estimation (theoretical value : 0.005) 120 100 80 60 40 0.020 Likelihood profile (theoretical maximum in (0,0.01) 20 0.015 0.010 0.005 0.000 0.010 0.005 0.000 0.005 0.010 4 5 6 7 8 9 10 11 0 0.010 0.005 0.000 0.005 0.010 Selection parameter Distribution de l estimation La distribution du maximum de vraisemblance est localisée autour de la vraie valeur

Futur Sur ce sujet Analyser des données réelles Comparer avec les méthodes n utilisant que des échantillons actuels Inclure la corrélation entre deux locus dans la modélisation. Généraliser cette méthode à d autres modèles. Sur l histoire démographique d une population Trouver (ou concevoir) une modélisation permettant d utiliser les séries temporelles pour estimer les changements de taille d une population

Merci de votre attention!