Texte Chaînes de Wright-Fisher

Documents pareils
Texte Agrégation limitée par diffusion interne

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Le modèle de Black et Scholes

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Probabilités III Introduction à l évaluation d options

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Que faire lorsqu on considère plusieurs variables en même temps?

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

4. Martingales à temps discret

Chaînes de Markov au lycée

Sur quelques applications des processus de branchement en biologie moléculaire

Simulation de variables aléatoires

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

TSTI 2D CH X : Exemples de lois à densité 1

Variables Aléatoires. Chapitre 2

Moments des variables aléatoires réelles

Modèles et Méthodes de Réservation

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Programmes des classes préparatoires aux Grandes Ecoles

P1 : Corrigés des exercices

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Filtrage stochastique non linéaire par la théorie de représentation des martingales

PRIME D UNE OPTION D ACHAT OU DE VENTE

Fonctions de deux variables. Mai 2011

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Couples de variables aléatoires discrètes

Probabilités sur un univers fini

M2 IAD UE MODE Notes de cours (3)

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Chapitre 3. Les distributions à deux variables

Probabilités Loi binomiale Exercices corrigés

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

Probabilités conditionnelles Loi binomiale

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Résumé des communications des Intervenants

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

EI - EXERCICES DE PROBABILITES CORRIGES

Introduction à l approche bootstrap

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

Espérance conditionnelle

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Résolution d équations non linéaires

Chapitre 2 Le problème de l unicité des solutions

Continuité en un point

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Pour l épreuve d algèbre, les calculatrices sont interdites.

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Calcul élémentaire des probabilités

Travaux dirigés d introduction aux Probabilités

Coefficients binomiaux

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Comparaison de fonctions Développements limités. Chapitre 10

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Lois de probabilité. Anita Burgun

Représentation d une distribution

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Calculs de probabilités conditionelles

Lagrange, où λ 1 est pour la contrainte sur µ p ).

CCP PSI Mathématiques 1 : un corrigé

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Feuille d exercices 2 : Espaces probabilisés

Modélisation des risques

Commun à tous les candidats

La simulation probabiliste avec Excel

Hedging delta et gamma neutre d un option digitale

Calcul différentiel sur R n Première partie

Image d un intervalle par une fonction continue

Calculs de probabilités avec la loi normale

Correction du baccalauréat ES/L Métropole 20 juin 2014

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

3 Approximation de solutions d équations

Loi d une variable discrète

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

FIMA, 7 juillet 2005

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

La maison Ecole d ' Amortissement d un emprunt Classe de terminale ES. Ce qui est demandé. Les étapes du travail

Les indices à surplus constant

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

SEANCE 4 : MECANIQUE THEOREMES FONDAMENTAUX

Probabilités. C. Charignon. I Cours 3

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

MÉTHODE DE MONTE CARLO.

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Cours de gestion des risques d assurances et de théorie de la ruine. Stéphane Loisel

1 Complément sur la projection du nuage des individus

Cours de méthodes de scoring

Suites numériques 3. 1 Convergence et limite d une suite

Master Modélisation Aléatoire Paris VII, Cours Méthodes de Monte Carlo en nance et C++, TP n 2.

Texte Ruine d une compagnie d assurance

Correction du Baccalauréat S Amérique du Nord mai 2007

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Corps des nombres complexes, J Paul Tsasa

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Transcription:

Page n 1. Texte Chaînes de Wright-Fisher Mots-clefs : chaîne de Markov, martingale, temps d absorption. 1 Modélisation On souhaite étudier l évolution de la fréquence d un allèle dans une population de petite taille pour un gène se présentant sous deux allèles seulement. On considère une population haploïde : chaque individu possède un seul exemplaire du gène, sous la forme d un des deux allèles A ou B. C est par exemple le cas de l ADN mitochondrial humain qui est uniquement transmis par la mère. L étude de son évolution repose donc sur un modèle de population haploïde et asexué, car seul l évolution de la population féminine conditionne l évolution de cet ADN. Présentons le cadre de notre modèle : le gène d intérêt se présente sous deux allèles distincts A et B, la taille de la population reste constante au cours du temps, égale à N, les générations ne se chevauchent pas : à chaque instant k, la k-ième génération meurt et donne naissance aux N individus de la (k + 1)-ième génération, chacun des enfants choisit son parent uniformément parmi tous les individus de la génération précédente et indépendamment des autres, la reproduction à l instant k ne dépend pas des reproductions précédentes. On note X n le nombre d allèles A dans la population au temps n. Au vu des hypothèses ci-dessus, il paraît naturel de modéliser la suite (X n ) n 0 par une chaîne de Markov à valeurs dans S = {0, 1,..., N} déterminée par la propriété suivante : la loi de X n+1 sachant X n est la loi binomiale B(N, X n /N). En d autres termes, la matrice de transition P = (p ij ) i,j de la chaîne est donnée par ( ) N p ij := P(X n+1 = j X n = i) = ψ j i j (1 ψ i) N j (1) pour 0 i, j N avec ψ i = i/n. Il semble intuitif qu un allèle puisse finir par l emporter sur l autre car, si, à un instant n, X n vaut 0 ou N alors il en sera de même dans tout le futur. C est ce phénomène, appelé dérive génétique, qu il s agit à présent de décrire et quantifier. Février 2008. Copyright c F. Malrieu. GNU FDL Copyleft. Page n 1.

Page n 2. 2 Le modèle simple Les états 0 et N sont absorbants. Tous les autres mènent à {0, N}, ils sont donc transients. L espace d états étant fini, le temps d atteinte de {0, N} est fini presque sûrement et même intégrable. La remarque suivante donne une justification de ce point dans le cas particulier de la chaîne de Wright-Fisher. Remarque 2.1. Sachant que X n = i / {0, N}, la probabilité que X n+1 {0, N} est égale à (1 ψ i ) N + ψi N qui est minimale pour ψ i = 1/2 et vaut alors 2 N+1. Ainsi, la chaîne atteindra les états absorbants avant qu un lanceur de pièces ne fasse pile si la pièce est biaisée de telle sorte que pile sorte avec probabilité 2 N+1. Cette borne est extrêmement pessimiste mais elle fournit facilement un contrôle sous géométrique explicite pour le temps d atteinte étudié et confirme en particulier que le temps d atteinte de {0, N} est fini presque sûrement et même intégrable. En plus d être une chaîne de Markov, la suite (X n ) n a le bon goût d être également une martingale. Proposition 2.2. La suite (X n ) n est une martingale pour sa filtration naturelle (F n ) n 0. Cette propriété de (X n ) n permet de déterminer la probabilité de fixation (et la probabilité de disparation) de l allèle A. Corollaire 2.3. La probabilité sachant que X 0 = i que X atteigne N (avant 0) est égale à i/n. Démonstration. On applique le théorème d arrêt à la martingale bornée X. Notons T le temps d atteinte de l ensemble {0, N}. Alors, pour i = 0, 1,..., N, { 1 = P i (T < + ) = P i (X T = 0) + P i (X T = N), i = E i (X 0 ) = E i (X T ) = 0 P i (X T = 0) + N P i (X T = N), d où l on tire P i (X T = N) = i/n. La question suivante est de mesurer la vitesse de disparition de l un des allèles. Voici quelques résultats dans cette direction. Lemme 2.4. Pour tout n 1, Démonstration. On a E(X n (N X n )) = ( 1 1 N ) n E(X 0 (N X 0 )). E(X n (N X n )) = NE(X n ) E(X 2 n) = NE(X n 1 ) E ( E(X 2 n X n 1 ) ). Février 2008. Copyright c F. Malrieu. GNU FDL Copyleft. Page n 2.

Page n 3. Probabilité de sortir à droite 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Estimation IdC Theorie 0.0 0 2 4 6 8 10 12 14 16 18 20 Fig. 1 Probabilité de fixation de A pour N = 20. On écrit alors E(X 2 n X n 1 ) = Var(X n X n 1 ) + (E(X n X n 1 )) 2 = X n 1 (1 X n 1 /N) + X 2 n 1. En regroupant les termes, on obtient bien ce qui fournit le résultat. E(X n (N X n )) = ( 1 1 N ) E(X n 1 (N X n 1 )). Posons λ = 1 1/N. L hétérozygotie est la probabilité que deux gènes choisis aléatoirement (sans remise) dans la population totale à la génération n soient représentés par des allèles différents. Elle est donnée par H n = 2X n(n X n ). N(N 1) D après le calcul précédent, l hétérozygotie moyenne h(n) vérifie h n := E(H n ) = λ n h 0. Février 2008. Copyright c F. Malrieu. GNU FDL Copyleft. Page n 3.

Page n 4. Remarque 2.5. De même, la variance de X n se calcule par un simple conditionnement : V(X n ) = E(V(X n X n 1 )) + V(E(X n X n 1 )). On obtient alors, toujours avec λ = 1 1/N, V(X n ) = E(X 0 )(N E(X 0 ))(1 λ n ) + λ n V(X 0 ). Une question naturelle est aussi de mieux comprendre la loi de T le temps de disparition d un des deux allèles, par exemple en estimant son espérance. Pour le modèle de Wright- Fisher cette question est délicate : il n existe pas de formule simple pour tout N. En effet, si l on note m i l espérance du temps d absorption de X sachant que X 0 = i, on a m 0 = m N = 0 et, grâce à la propriété de Markov, m i = 1 + N p ij m j. Ce système à N 1 inconnues n est pas facile à résoudre. Il est possible d utiliser l ordinateur pour trouver une valeur approchée déterministe de la solution mais, dès que N est un peu grand, des problèmes dus au fait que les coefficients p ij sont très petits risquent de fausser le résultat. On peut aussi utiliser une méthode probabiliste pour estimer la quantité m i via une méthode de Monte-Carlo. Il est toutefois possible de trouver un équivalent de m lorsque la taille de la population tend vers l infini. Notons Z la chaîne sur S/N définie par Z n = X n /N. Bien entendu, le temps d atteinte de {0, N} pour X est égal au temps d atteinte de {0, 1} pour Z. Pour tout x S/N, notons t(x) l espérance de T lorsque Z 0 = x. Enfin, sachant que Z 0 = x, alors Z 1 s écrit x + X où X est tel que N(X x) suit la loi binomiale B(N, x). On a alors, d après la propriété de Markov et la définition de X, j=0 t(x) = E(t(x + X) + 1) = 1 + E(t(x + X)). Supposons que t soit proche d une fonction de classe C. Puisque la variable aléatoire X est bornée, on peut écrire t(x + X) = t(x) + t (x)x + t (x) 2 X2 + O( X 3 ). Or, il est clair que E(X) = 0, E(X 2 x(1 x) ) = N. D autre part, en vertu du théorème limite central, la loi de NX est proche de la loi N (0, x(1 x)) et ainsi, par exemple, E(X 4 ) est de l ordre de N 2. En résumé, on obtient l expression suivante : t(x) = 1 + t(x) + x(1 x) 2N t (x) + O(N 3/2 ). Février 2008. Copyright c F. Malrieu. GNU FDL Copyleft. Page n 4.

Page n 5. On pourrait donc dire que la fonction t doit ressembler à la fonction y solution de x ]0, 1[, y (x) = 2N x(1 x) et y(0) = y(1) = 0. On obtient alors l approximation suivante. Proposition 2.6. Si N est grand et x = i/n alors m(i) N 2N(x ln x + (1 x) ln(1 x)). Espérance du temps de sortie 90 80 70 60 50 40 30 20 10 0 Estimation Theorie 10 0 10 20 30 40 50 60 Fig. 2 Estimation du temps de fixation pour N = 40. 2.1 Prise en compte de la sélection Les différents allèles procurent à l individu qui en est doté des capacités plus ou moins grandes dans tous les domaines de son développement et de sa reproduction : viabilité, potentiel attractif, fertilité etc. C est la fameuse sélection naturelle. Tentons de quantifier ceci. Bien que l adaptation d un individu à son environnement soit déterminée par de nombreux facteurs, nous supposerons ici qu il n est déterminé que par le locus qui nous intéresse. Nous supposerons de plus que la sélection ne s opère que sur le critère de viabilité. Supposons que les adaptabilités des deux allèles A et B soient données par 1 + s et 1, c est-à-dire que qu un individu porteur de l allèle A a 1+s fois plus de chances de survivre Février 2008. Copyright c F. Malrieu. GNU FDL Copyleft. Page n 5.

Page n 6. qu un individu porteur de l allèle B. Pour construire la population à la date n+1, sachant que X n = k, tout se passe comme si on tirait des allèles dans une urne qui contient une proportion (1 + s)k/((1 + s)k + N k). En d autres termes, (X n ) n 0 est une chaîne de Markov sur S telle que la loi de X n+1 sachant X n = k est la loi binomiale de paramètres N et (1 + s)k/((1 + s)k + N k). Les états 0 et N sont toujours absorbants mais X n est plus une martingale. Ceci complique le calcul des probabilités de fixation des allèles A et B. Notons (π i ) i les probabilités de fixation de la chaîne en N (avant 0) lorsque X 0 = i. La propriété de Markov assure que π i = N p ij π j, avec π 0 = 0 et π N = 1. j=0 La pression de sélection est très faible en pratique. Supposons que s soit de l ordre N 1 et posons α = Ns. Par le même raisonnement que dans la preuve de la proposition 2.6, on peut écrire, pour x = i/n π(x) = E(π(x + Z)) = π(x) + π (x)e(z) + π (x) E(Z 2 ) + O( Z 3 ). 2 En tenant compte de la sélection, on a Z = Y/N x où Y suit la loi B(N, (1+s)x/(sx+1)) donc E(Z) = (1 + s)x sx + 1 x = sx(1 x) sx + 1 = 1 N αx(1 x) + O(N 2 ), E(Z 2 ) = 1 N 2 V(Y ) + (E(Y )/N x)2 = 1 N x(1 x) + O(N 2 ), E( Z 3 ) = O ( N 3/2). La fonction π semble donc proche de la solution de l équation différentielle suivante : c est-à-dire z (x) + 2αz (x) = 0, avec z(0) = 0 et z(1) = 1, π(x) z(x) = 1 e 2αx 1 e 2α. La figure 3 propose une illustration de l estimation du la probabilité de fixation de l allèle A pour N = 30 et α = 2. Supposons que N = 10 5, s = 10 4 et x = 0, 5. Alors α = 20 et π = 0, 999955. En l absence de sélection (s = 0), on a bien sûr π(0, 5) = 0, 5. Même le faible avantage 0, 0001 (inobservable en laboratoire ou par des mesures statistiques) est pourtant suffisamment grand pour avoir un effet déterminant sur la fixation des allèles. Bien que cet effet soit imperceptible sur une génération, il l est jusqu à l instant de fixation car le temps de fixation est très grand. Février 2008. Copyright c F. Malrieu. GNU FDL Copyleft. Page n 6.

Page n 7. Probabilité de sortir à droite 1.2 1.0 0.8 0.6 0.4 0.2 Estimation IdC Theorie 0.0 0 5 10 15 20 25 30 Fig. 3 Probabilité de fixation de A pour N = 30 et α = 2. Remarque 2.7. Le même type de raisonnement conduirait à approcher l espérance du temps de fixation par la solution de l équation différentielle suivante : z (x) + 2αz (x) = 2N, avec z(0) = 0 et z(1) = 0, x(1 x) qui n est pas facile à résoudre... La figure 4 propose une illustration de l estimation du temps d absorption pour N = 30 et α = 10. 3 Suggestions 1. On pourra introduire le modèle de Wright-Fisher. 2. On pourra démontrer et/ou illustrer par la simulation le corollaire 2.3. 3. On pourra démontrer et/ou illustrer par la simulation la proposition 2.6. 4. On pourra expliquer comment prendre en compte la sélection et illustrer les résultats sur les probabilités et temps de fixation. Février 2008. Copyright c F. Malrieu. GNU FDL Copyleft. Page n 7.

Page n 8. Espérance du temps de sortie 20 18 Estimation IdC 16 14 12 10 8 6 4 2 0 0 5 10 15 20 25 30 Fig. 4 Espérance du temps de fixation pour N = 30 et α = 10. Février 2008. Copyright c F. Malrieu. GNU FDL Copyleft. Page n 8.