Au-delà du coalescent : quels modèles pour expliquer la di



Documents pareils
Que faire lorsqu on considère plusieurs variables en même temps?

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Gènes Diffusion - EPIC 2010

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Méthodes de Simulation

I. Polynômes de Tchebychev

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

FIMA, 7 juillet 2005

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

PROBABILITES ET STATISTIQUE I&II

Introduction à l approche bootstrap

Lois de probabilité. Anita Burgun

Calculs de probabilités conditionelles

Amphi 3: Espaces complets - Applications linéaires continues

La classification automatique de données quantitatives

Qu est-ce qu une probabilité?

Introduction à la Sécurité Informatique

Texte Agrégation limitée par diffusion interne

Sur quelques applications des processus de branchement en biologie moléculaire

Probabilités sur un univers fini

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Techniques de Lyapunov en contrôle quantique pour le couplage dipolaire et polarisabilité

Simulation de variables aléatoires

Suites numériques 3. 1 Convergence et limite d une suite

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Programmes des classes préparatoires aux Grandes Ecoles

Principe de symétrisation pour la construction d un test adaptatif

Algorithmes pour la planification de mouvements en robotique non-holonome

Démonstration de la conjecture de Dumont

TSTI 2D CH X : Exemples de lois à densité 1

Travaux dirigés d introduction aux Probabilités

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Data issues in species monitoring: where are the traps?

Génétique et génomique Pierre Martin

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Quantification Scalaire et Prédictive

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

Chapitre 2 Le problème de l unicité des solutions

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Moments des variables aléatoires réelles

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

DOCM Solutions officielles = n 2 10.

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Résolution de systèmes linéaires par des méthodes directes

Introduction à la statistique non paramétrique

Les tests génétiques à des fins médicales

Une application des algorithmes génétiques à l ordonnancement d atelier

Probabilités sur un univers fini

Génération de signaux multifractals possédant une structure de branchement sous-jacente.

14. Introduction aux files d attente

The Exploration of HIV Fitness Landscapes

Loi binomiale Lois normales

Algorithmique et Programmation Fonctionnelle

Bases de données des mutations

Probabilités III Introduction à l évaluation d options

3. Caractéristiques et fonctions d une v.a.

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Probabilités. C. Charignon. I Cours 3

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Espérance conditionnelle

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Modèles et simulations informatiques des problèmes de coopération entre agents

Régression linéaire. Nicolas Turenne INRA

aux différences est appelé équation aux différences d ordre n en forme normale.

Modélisation aléatoire en fiabilité des logiciels

LE FORMAT DES RAPPORTS DU PERSONNEL DES COMMISSIONS DE DISTRICT D AMENAGEMENT FORMAT OF DISTRICT PLANNING COMMISSION STAFF REPORTS

Économetrie non paramétrique I. Estimation d une densité

TABLE DES MATIERES. C Exercices complémentaires 42

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Efficience des marchés et finance comportementale

QUI VEUT JOUER AVEC MOI?

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

Chapitre 3 : INFERENCE

Algorithmique des Systèmes Répartis Protocoles de Communications

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Sur certaines séries entières particulières

Calcul Stochastique pour la finance. Romuald ELIE

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Exercices de génétique classique partie II

Introduction au datamining

Introduction à l analyse numérique : exemple du cloud computing

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Modèles pour données répétées

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

Variables Aléatoires. Chapitre 2

Cours de méthodes de scoring

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

Etude des propriétés empiriques du lasso par simulations

Exercices sur le chapitre «Probabilités»

Complément d information concernant la fiche de concordance

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

Transcription:

Au-delà du coalescent : quels modèles pour expliquer la diversité génétique? LPMA, Université Paris 6, CMAP Polytechnique 13 octobre 2009 A partir de travaux conjoints avec N. Berestycki, V. Limic, J. Schweinsberg

Outline 1 Wright-Fisher, Kingman et quelques autres 2 3 4

Question : comment expliquer l évolution? Depuis 1859 : La sélection est le moteur de l évolution (The natural selection, C. Darwin) Depuis 1970 : Le moteur de l évolution moléculaire est le drift génétique (The neutral theory, M Kimura)

Une mutation apparaît et se transmet modèle de reproduction; Hypothèses : Pas de sélection, Population de taille N constante, panmictique. Générations discrètes et sans recouvrements, haploide. Pas d individus favorisés : si N = 6,(ν 1,...,ν 6 ) = # d enfants alors P(3,1,0,0,2,0) = P(1,0,0,0,3,2) (échangeable). A chaque génération on tire un vecteur ν iid. Modèle de Cannings

Pas d ordre sur les individus. Wright-Fisher : La loi du vecteur ν est multinomiale chaque individu choisit son parent dans la génération précédente uniformément. Question 1 : Proportion d allèle (en avant dans le temps) Question 2 : Généalogie de k indiv. quand N (en remontant dans le temps)

Quand N Proportion de ( ) diffusion de Wright Fisher Généalogie de k indiv. objet limite = le coalescent de Kingman. (temps mesuré en unités de N générations. Robuste Reste vrai pour de nombreuses lois des vecteurs ν.

Un modèle naturel de Cannings Wright Fisher. À Chaque génération : - reproduction libre Chaque individ. produit Y i enfants, Y i iid. Avec proba N 1 1 on a N i=1 Y i > N. - limitation (ressources,...). Seuls N enfants survivent, tirés uniforméments parmi N i=1 Y i. Si E(Yi 2 ) < alors on est dans le régime Kingman / Wright Fisher.

Dynamique : paire de lignés coalesce à taux 1. T i Temps durant lequel exactement i lignées actives. E(T i ) = 2/(i(i 1)) (E(T 2 ) = 1,E(T 3 ) = 1/3,...). Plus récent ancêre commun (MRCA) E(MRCA) = 2(1 1/n).

Quelques réalisations

ISM et IAM Dans le modèle de WF, chaque indiv.a une proba θ/n de muter/ son parent. Les mutations arrivent le long d une séquence ADN (...ATTGTCA...) : chaque mutation affecte un nouveau site. Si la séquence code pour une couleur, chaque mutation crée une nouvelle couleur jamais vue. Quand N les mutations surviennent à taux θ le long de chaque lignée.

Arbres et séquences On peut reconstruire l arbre à partir des séquences

ESF Wright-Fisher, Kingman et quelques autres Ewens sampling formula : la loi de la partition de l échantillon en couleurs. Si j,π a a j familles de taille j, alors P(Π n = π) = n! θ(θ + 1)... (θ + n 1) n j=1 θ a j j a ja j!. # de couleurs θ log n E (# de couleurs portées par 1 indiv.) = nθ/(n + θ 1).

de population Population effective = la taille qui fait que ça marche Dans le modèle de WF : age MRCA = 2N,P(T 2 = 1) = 1/N,... Donc on définit N e = 1/P(T 2 = 1) ou N e = agemrca/2, etc... Si dans chaque gén. trois gènes génèrent chacun 1/3 de la pop. à la gén. suivante alors N e = 3; - Pop. humaine : pour de nombreux gènes MRCA 400.000 ans. Une gén. = 20 ans et E(MRCA) = 2N N 10000!!! La population est modélisée par un WF avec N = 10000. - D. Melanogaster gen 15 jours, N e = 10 4 MRCA 820 ans. - HIV (dans un patient) gen 1.5 jours, N e 10 3 10 6 donc MRCA 4-400 ans.

HIV Wright-Fisher, Kingman et quelques autres Pour estimer la population effective on utilise le turn over (combien de temps pour une population génétiquement distincte?) observé 2 ans. N e 10 3 10 4 alors que la pop. virale 10 8.

Quand utiliser N e? Utiliser N e dans le modèle de WF ou Kingman n est pas toujours justifié. Probablement ok pour les pop. ou la généalogie est de type Kingman (i.e. pop. humaine), mais pas quand on a des évènements de coal. multiples Quelques exemples suivent :

HIV intra patient La population de virus est soumise à une très forte sélection. Conduit à des balayages sélectifs répétés.

HIV intra patient E(π) = 2Nθ,N e = π/2θ E(π) = 2θ/ρy 2

Biologie marine Li and Hedgehock (1998) Genetic heterogeneity [...] among samples of larval Pacific oysters (Crassostrea gigas) supports the hypothesis of large variance in reproductive success Can. J. Fish. Aquat. Sci. Analyse un échantillon de n = 666 larves d huitre. Trouve S n = 67 haplotypes différents, et parmi eux 72% ne se trouvent que dans 1 indiv. Prediction pour Kingman : θ/θ log n 15%. Eldon Wakeley Coalescent processes when the distribution of offspring number among individuals is highly skewed et Birkner Blath Inference for Λ-coalescents.

Retour sur le modèle de Cannings À Chaque génération : - reproduction libre Chaque individ. produit Y i enfants, Y i iid. Avec proba N 1 1 on a N i=1 Y i > N. - limitation (ressources,...). Seuls N enfants survivent, tirés uniforméments parmi N i=1 Y i. Si P(Y i > k) k α avec α (1,2) alors on ne converge plus vers Kingman. Autre arbre limite : le Beta-coalescent (Schweinsberg 2000). (collisions multiples possibles).

Sélection Conjecture de Brunnet Derrida Simon. Population de N individus sur la droite réelle. Position = fitness. À chaque gén. les indiv.produisent 2 enfants situés à une dist. Z du parent. Les Z sont iid. On garde les N plus à droite pour faire la gén. suivante. Conjecture Bien renormalisée, la généalogie converge vers le Coaescent de Bolthausen Sznitman. Progrès récents en ce sens pas B., Berestycki et Schweinsberg.

To do list Objectif Développer une description du polymorphisme génétique attendu pour ces autres coalescents. Ex : l asymptotique du # SNP sites de ségregation S n, ou # allèles K n parmi n indiv. (Kingman θ log n) S n est proportionel à L n T1 n 0 N n (t)dt où N n (t) = # de blocs au temps t quand on part de n blocs et T 1 premier temps où un seul bloc. On a aussi L n T1 T N (t)dt. n

Descente de l infini : formulation biologique l age du MRCA converge-t-il quand n? formulation mathématique si T = inf{t : N(t) = 1} est ce que T fini? Théorème Pitman 99 Λ({1}) = 0.N(0) =. Avec proba 1 on a l un des deux cas suivants - t > 0,N(t) = - t > 0,N(t) < (et dans ce cas CD ). On a des critères.

Beta-coalescents Famille à 1 paramètre, objet naturel (Galton-Watson avec ressources finies), va de Kingman au BolthausenSznitman. B. Berestycki et Schweinsberg donnent une formule asymptotique pour la partition allélique et le spectre de mutation. Permet de faire de l estimation.

EMV

Un peu de maths Qu est ce qu un Λ-coalescent? On veut que quand b lignées chaque k-tuple coalesce à taux λ b,k. Flash quizz Quels λ b,k pour avoir Kingman? Question : Quels sont les λ b,k possibles? (Attention il faut consistence. Échantillon de taille n + 1, avec cette dynamique. Si on oublie indiv. n + 1 on veut la bonne loi. Théorème (Pitman 99) Possibl SSI Λ mesure finie sur [0,1] t.q. Kingman : Λ = δ 0 Rateau : Λ = δ 1 λ b,k = 1 0 p k 2 (1 p) b k Λ(dp)

Cas des Beta-coalescents. Λ = Beta(2 α,α) 1 < α < 2. Λ(dx) = CD (Berestycki-B.-Schweinsberg 06) Théorème 1 Γ(2 α)γ(α) x1 α (1 x) α 1 dx Soit N t = # blocs dans un Beta-coalescent. t 1 α 1 Nt a.s. (αγ(α)) 1 α 1, t 0

Spectre allélique dans le cas Beta Théorème (BBS, BBL) Fixons k 0. Si la généalogie est décrite par un Beta-coalescent (α). S n = # sites de ségrégation n α 2 S n p.s θ N k (n) = # de types portés par k indiv. α(α 1)Γ(α). 2 α n α 2 N k (n) p.s θα(α 1) 2Γ(k + α 2) k! Permet de fitter α sur exemple huitre α = 1.42... Pb : ne concerne que les petites mutations...

Cas général Pour une mesure de proba. Λ donnée. ψ(q) := 1 0 (e qx 1 + qx)x 2 Λ(dx) ψ est le mécanisme de branchement d un CSBP (processus de branchement à espace d états continu) (Z t,t 0) Si dq ψ(q) < (1) on pose dq u(s) = ψ(q) et soit v(t) son inverse cadlag. s

Théorème BBL For any fixed x > 0 ( n ) qdq S n / θ (2) ψ(q) x in probability. If furthermore Λ has (strong) regular variation at zero in the sense that Λ(dx) = f (x)dx where f (x) Ax 1 α as x 0 for some A > 0 and 1 < α < 2, then the above convergence holds almost surely and thus S n θb,a.s. n2 α for some constant B depending only on A and α.

Théorème Suppose that Λ has (strong) regular variation at zero in the sense that Λ(dx) = f (x)dx where f (x) Ax 1 α as x 0 for some A > 0 and 1 < α < 2. For all k 1, as n, F k,n Γ(k + α 2) θc, a.s. (3) nα 2 k! and M k,n Γ(k + α 2) θc, a.s. (4) nα 2 k!