Les Mathématiques de l'hérédité

Les Mathématiques de l'hérédité olivier.francois@imag.fr Mai 2011 LIESSE

Introduction Darwin (1859) dénissait l'évolution comme un processus de descendance avec modication En terme génétique, les organismes transmettent les allèles de leurs gènes à leurs descendants. Génétique des populations: Discipline qui étudie la variation des fréquences d'allèle dans les populations. Fondateurs: S. Wright, R. Fisher, J. Haldane, G. Malécot.

Lois de Mendel

Données de polymorphisme génétique Marqueurs alléliques (ex: microsatellites GATAGATAGATA) Séquences d'adn, haplotypes Puces à SNPs (Single Nucleotide Polymorphisms) Génomes complets

Applications Recherche de gènes impliqués dans les maladies (ou tout autre phénotype) : GWAS Genome-Wide Association Studies Médecine P4 : personnalisée, prédictive, préventive et participative. Compréhension des mécanismes moléculaires de l'adaptation Interprétation de la diversité et de la variation génétique au sein des populations

Objectifs de l'exposé Un modèle mathématique de la génétique d'une population : le modèle de Wright-Fisher Une vision rétrospective de la transmission de l'hérédité : le modèle de coalescence de Kingmann. Age de l'ancêtre commun le plus récent Des mutations dans les généalogies Estimation de la diversité génétique d'une population

La transmission des gènes

Arbres d'espèces

Arbres de populations

Histoire de l'espèce humaine

et des espèces s ures Green et al Science (2010)

Quelles mathématiques pour les modèles en Biologie? Outils analytiques traditionnels pour obtenir des formules explicites

Quelles mathématiques pour les modèles en Biologie? Qu'apportent les mathématiques que l'on ne peut pas explorer par la simulation informatique? Plusieurs représentations des objets étudiés, qui permettent ensuite des algorithmes de simulation ecaces pour l'exploration et l'inférence numériques.

Intro aux modèles : la dynamique de Wright-Fisher La population est de taille constante, notée N, Les générations sont non-chevauchantes, Le nombre de descendants de chaque gène est aléatoire, de loi de Poisson conditionnée à être plus petite que N. Dans le cas de reproduction sexuée nous supposons que les mariages se font au hasard.

Modèle de Wright-Fisher

Un modèle d'urne Théorème. Dans le modèle de Wright-Fisher, chaque descendant choisit un parent par un tirage avec remise dans une urne où sont placés les N parents. Preuve. Soit ν i le nombre d'enfants de i, i = 1,..., N. Par hypothèse, ν i suit la loi de Poisson de moyenne λ. Soit n 1,..., n N des entiers tels que i n i = N. Nous avons N Pr(ν 1 = n 1,..., ν N = n N ν i = N) = i=1 N! n 1! n N! ( ) N 1. N

Pourquoi c'est vrai Suite de la preuve. Soit ν i le nombre d'enfants de i, i = 1,..., N. Nous avons Pr(ν i = n i ) = λn i n i! e λ et Pr( N i=1 ν i = N) = (Nλ)N e Nλ. N!

Simulation : x = sample(x, replace = T)

Généalogies dans le modèle de Wright-Fisher

Temps de coalescence de 2 gènes Dénition. On appelle temps de coalescence, τ 2, de deux lignées le nombre de générations qu'il est nécessaire de remonter pour trouver le premier ancêtre commun des deux lignées.

Temps de coalescence Si l'unité de temps est une génération, alors la probabilité pour que τ 2 = 1 est 1/N et plus généralement Pr(τ 2 > k) = (1 1/N) k Si l'unité de temps est N générations, k = tn et τ 2 = T 2 N Pr(τ 2 > k) = Pr(T 2 > t) exp( t), N.

Le processus ancestral {A N n (k), k = 0, 1,..., } décrit le nombre d'ancêtres distincts d'un échantillon de n gènes à la génération k en remontant le temps. est une chaîne de Markov à valeurs dans {1,..., n} telle que A N n Pr(A N n (k + 1) = j A N n (k) = i) = S j i N(N 1)(N j + 1) N j, où j = 1,..., i et S j i est un nombre de Stirling de seconde espèce (nombre de manière de partitionner un ensemble de i éléments en j sous-ensemble non-vides).

L'approximation de Kingman : le coalescent(1981) Théorème. Supposons que l'unité de temps est N générations (k = tn ), alors A N n ( N. ) A n (.), N où {A n (t), t 0}, est un chaîne de Markov à temps continu telle que A n (0) = n. Les taux de transition sont

L'approximation de Kingman : le coalescent(1981) Les durées séparant les coalescences successives des lignées sont indépendantes, de loi exponentielle de moyennes respectives E[T j ] = 2 j(j 1) j = n,..., 2. Le processus est facile à simuler informatiquement (exemple de simulateur : le programme ms).

Variabilité des généalogies

Le temps écoulé depuis l'ancêtre commun le plus récent, T MRCA Dans la représentation limite de l'arbre de coalescence, la hauteur de l'arbre est égale à T MRCA = T 2 + + T n où T j est de loi exponentielle de moyenne 2/j(j 1). La fonction de répartition de T MRCA se calcule de la manière suivante Pr(T MRCA t) = Pr(A n (t) = 1).

Le temps écoulé depuis l'ancêtre commun le plus récent, T MRCA Pour une chaîne de Markov, les probabilités Pr(A n (t) = j) sont solutions d'un système d'équations diérentielles linéaires. Nous trouvons Pr(A n (t) = 1) = n j=2 ( 1) j 1 (2j 1) n [j] n (j) e j(j 1)t/2 n [j] = n(n 1) (n j + 1) et n (j) = n(n + 1) (n + j 1).

Loi de T MRCA obtenue par simulation(n = 30) Histogram of tmrca Density 0.0 0.1 0.2 0.3 0.4 0.5 0 2 4 6 8 10 12 14 tmrca

Quelques propriétés simples de T MRCA Espérance Variance E[T MRCA ] = n j=2 ( 2 j(j 1) = 2 1 1 ) n Var[T MRCA ] = n j=2 4 j 2 (j 1) 2 4 3 π2 12

Quelles conclusions pour les espèces Le temps T MRCA est exprimé en unité de la taille ecace de la population N, aussi notée N e Il faut donc estimer N ou N e. Pour cela, les données génétiques entrent en jeu.

Partie 2 Des mutations dans les gènes

Un modèle à innité d'allèles

Mutations On suppose que les mutations n'ont pas d'eet sélectif sur la séquence d'adn étudiée (ADN neutre). On note µ la probabilité de mutation de la séquence étudiée par génération. On mesure le temps en prenant pour unité N générations (N est la taille de la population) θ = 2µN Les mutations sont aléatoirement réparties dans la généalogie des n séquences selon un processus de Poisson de paramètre θ/2.

Spectre de fréquences On appelle spectre de fréquences le vecteur c = (c 1,..., c n ) où c i est le nombres d'allèles présents en i copies dans l'échantillon de n gènes. Nous avons c 1 + 2c 2 + + nc n = n Le nombre d'allèles distincts présents dans l'échantillon est K n = c 1 + c 2 + + c n.

Petit exemple On observe un échantillon de 10 allèles A 1, A 1, A 2, A 1, A 3, A 2, A 3, A 4, A 4, A 4 Le spectre est c = (0, 2, 2, 0, 0, 0, 0, 0, 0, 0) Le nombre d'allèles distincts présents dans l'échantillon est k = 4.

La formule d'ewens (1972) Théorème. Pour le modèle de mutation à innité d'allèles et un échantillon de taille n Pr(c) = n! n ( ) θ cj 1 θ (n) j c j! où θ (n) = θ(θ + 1) (θ + n 1). j=1

Le processus du restaurant chinois

Le processus du restaurant chinois Imaginons un restaurant avec un nombre inni de tables. Les n clients arrivent un par un, et choisissent leur table de la manière suivante. Le client j choisit une table inoccupée avec la probabilité θ j 1 + θ et une table occupée avec la probabilité n j j 1 + θ où n j est le nombre de personnes assises à la table en question.

Le processus du restaurant chinois Pr(c) = θ θ

Le processus du restaurant chinois Pr(c) = θ θ θ 1 + θ

Le processus du restaurant chinois Pr(c) = θ θ θ 1 1 + θ 2 + θ

Le processus du restaurant chinois Pr(c) = θ θ θ 1 + θ 1 2 + θ θ 3 + θ

Le processus du restaurant chinois Pr(c) = θ θ θ 1 + θ 1 2 + θ θ 3 + θ 1 4 + θ

Le processus du restaurant chinois Pr(c) = θ θ θ 1 + θ 1 2 + θ θ 3 + θ 1 4 + θ 2 5 + θ

Ewens au restaurant Théorème. La conguration c obtenue à l'issue de n étapes du processus appelé restaurant chinois obéit à la formule d'ewens.

Nombre d'allèles distincts Théorème. Pour le modèle de mutation à innité d'allèles et un échantillon de taille n Pr(K n = k) = θk θ (n) S k n où S k n est le coecient de θ k dans le développement de θ(θ + 1) (θ + n 1). S k n est appelé nombre de Stirling de première espèce et dénombre les permutations de n éléments ayant k cycles.

Nombre d'allèles distincts Preuve. Pour le modèle de mutation à innité d'allèles et un échantillon de taille n Pr(K n = k) = θk n ( ) cj n! 1 1. θ (n) j c j! c j : c j =k Par normalisation, le coecient orange est nécessairement le coecient de θ k dans le développement de θ (n). j=1 Remarque. Sn k = (n 1) S k k 1 n 1 + S n 1

Nombre de tables occupées au restaurant chinois Pr(c) = θ θ θ 1 + θ 1 2 + θ θ 3 + θ 1 4 + θ 2 5 + θ La probabilité Pr(c) est invariante par permutation des indices ( S k n possibilités) Elle est proportionnelle à θ k

Un autre représentation de la loi de K n Fonction génératrice. Pour le modèle de mutation à innité d'allèles et un échantillon de taille n G Kn (z) = n k=1 Pr(K n = k)z k = (θz) (n) θ (n). En explicitant cette relation, on obtient G Kn (z) = n j=1 G X j (z) où X j {0, 1} est une variable de Bernoulli Pr(X j = 1) = θ θ + j 1 (Initiation d'une table dans le restaurant chinois).

Quelques propriétés simples de K n (1972) Espérance Espérance E[K n ] = n E[X j ] = j=1 n j=1 θ θ + j 1 θ log n, n Var[K n ] = Var[X j ] = j=1 n j=1 θj (θ + j 1) 2 θ log n K n / log n est un estimateur de θ parfois appelé diversité génétique. Il converge en 1/ log n, avec une vitesse asymtotiquement optimale.

Une application à l'adn mitochondrial

Une application à l'adn mitochondrial Chez les mammifères, l'adn mitochondrial est transmis par la mère. Pour les études généalogiques, on séquence la boucle de contrôle D ( 500bp). On considère que la probabilité de mutation de cette séquence est µ 10 6 par génération par paire de base. Pour la tribu amérindienne Nuu-Chah-Nulth, on observe 8 allèles dans un échantillon de n = 55 séquences d'individus non apparentés.

Taille ecace de la population Nuu-Chah-Nulth Pour estimer la taille ecace de la population N e θ 2µL où θ 2.7 est solution de 8 = 55 j=2 θ θ + j 1 La taille ecace est N e 2700 individus. T MRCA 100000 ans!

Messages à ramener à la maison L'étude de l'hérédité est une discipline ayant une longue tradition mathématique Les mathématiciens ont proposé de nouvelles représentations des modèles manipulés par la génétique des populations, en particulier, rétrospectives. En retour, ces representations permettent de simuler ecacement le polymorphisme génétique au sein des populations

Pour aller plus loin Tavaré S (2004) Ancestral inference in population genetics, Springer NY. Durrett R (2006) Probability models of DNA sequence evolution, Springer NY.

Du temps pour une discussion Merci de votre attention!