Les Mathématiques de l'hérédité

Documents pareils
Au-delà du coalescent : quels modèles pour expliquer la di

MABioVis. Bio-informatique et la

Gènes Diffusion - EPIC 2010

Probabilités sur un univers fini

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

4 Distributions particulières de probabilités

Programmes des classes préparatoires aux Grandes Ecoles

La classification automatique de données quantitatives

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Lois de probabilité. Anita Burgun

Génétique et génomique Pierre Martin

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Introduction à la théorie des files d'attente. Claude Chaudet

Chaînes de Markov au lycée

Sur quelques applications des processus de branchement en biologie moléculaire

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Texte Agrégation limitée par diffusion interne

Objets Combinatoires élementaires

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Rappels sur les suites - Algorithme

Moments des variables aléatoires réelles

Probabilités Loi binomiale Exercices corrigés

Probabilités sur un univers fini

Chapitre 7. Récurrences

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Suites numériques 3. 1 Convergence et limite d une suite

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Coefficients binomiaux

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Bureau N301 (Nautile)

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

CHAPITRE 3 LA SYNTHESE DES PROTEINES

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

PRIME D UNE OPTION D ACHAT OU DE VENTE

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

TABLE DES MATIERES. C Exercices complémentaires 42

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12


Simulation de variables aléatoires

Probabilités III Introduction à l évaluation d options

FIMA, 7 juillet 2005

Introduction à l approche bootstrap

Commun à tous les candidats

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Travaux dirigés d introduction aux Probabilités

Introduction à la Statistique Inférentielle

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Qu est-ce qu une probabilité?

LES GENERATEURS DE NOMBRES ALEATOIRES

INF 162 Probabilités pour l informatique

4. Martingales à temps discret

INFORMATION GÉNÉTIQUE et REPRODUCTION SEXUÉE

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Annexe commune aux séries ES, L et S : boîtes et quantiles

SERVICES DE SEQUENÇAGE

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Probabilités conditionnelles Loi binomiale

I. Cas de l équiprobabilité

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

MIS 102 Initiation à l Informatique

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

III- Raisonnement par récurrence

Big data et sciences du Vivant L'exemple du séquençage haut débit

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Le modèle de Black et Scholes

Introduction à la statistique non paramétrique

Cours de Probabilités et de Statistique

TSTI 2D CH X : Exemples de lois à densité 1

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Introduction au Calcul des Probabilités

Sur certaines séries entières particulières

Résolution d équations non linéaires

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

TESTS D'HYPOTHESES Etude d'un exemple

Groupe symétrique. Chapitre II. 1 Définitions et généralités

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

VI. Tests non paramétriques sur un échantillon

Que faire lorsqu on considère plusieurs variables en même temps?

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

L E Ç O N. Marches aléatoires. Niveau : Terminale S Prérequis : aucun

Pourquoi l apprentissage?

Programmation linéaire

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

3: Clonage d un gène dans un plasmide

Résumé des communications des Intervenants

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Chapitre 3 : INFERENCE

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Couplage efficace entre Optimisation et Simulation stochastique Application à la maintenance optimale d une constellation de satellites

Modélisation des risques

Maîtrise universitaire ès sciences en mathématiques

Transcription:

Les Mathématiques de l'hérédité olivier.francois@imag.fr Mai 2011 LIESSE

Introduction Darwin (1859) dénissait l'évolution comme un processus de descendance avec modication En terme génétique, les organismes transmettent les allèles de leurs gènes à leurs descendants. Génétique des populations: Discipline qui étudie la variation des fréquences d'allèle dans les populations. Fondateurs: S. Wright, R. Fisher, J. Haldane, G. Malécot.

Lois de Mendel

Données de polymorphisme génétique Marqueurs alléliques (ex: microsatellites GATAGATAGATA) Séquences d'adn, haplotypes Puces à SNPs (Single Nucleotide Polymorphisms) Génomes complets

Applications Recherche de gènes impliqués dans les maladies (ou tout autre phénotype) : GWAS Genome-Wide Association Studies Médecine P4 : personnalisée, prédictive, préventive et participative. Compréhension des mécanismes moléculaires de l'adaptation Interprétation de la diversité et de la variation génétique au sein des populations

Objectifs de l'exposé Un modèle mathématique de la génétique d'une population : le modèle de Wright-Fisher Une vision rétrospective de la transmission de l'hérédité : le modèle de coalescence de Kingmann. Age de l'ancêtre commun le plus récent Des mutations dans les généalogies Estimation de la diversité génétique d'une population

La transmission des gènes

Arbres d'espèces

Arbres de populations

Histoire de l'espèce humaine

et des espèces s ures Green et al Science (2010)

Quelles mathématiques pour les modèles en Biologie? Outils analytiques traditionnels pour obtenir des formules explicites

Quelles mathématiques pour les modèles en Biologie? Qu'apportent les mathématiques que l'on ne peut pas explorer par la simulation informatique? Plusieurs représentations des objets étudiés, qui permettent ensuite des algorithmes de simulation ecaces pour l'exploration et l'inférence numériques.

Intro aux modèles : la dynamique de Wright-Fisher La population est de taille constante, notée N, Les générations sont non-chevauchantes, Le nombre de descendants de chaque gène est aléatoire, de loi de Poisson conditionnée à être plus petite que N. Dans le cas de reproduction sexuée nous supposons que les mariages se font au hasard.

Modèle de Wright-Fisher

Un modèle d'urne Théorème. Dans le modèle de Wright-Fisher, chaque descendant choisit un parent par un tirage avec remise dans une urne où sont placés les N parents. Preuve. Soit ν i le nombre d'enfants de i, i = 1,..., N. Par hypothèse, ν i suit la loi de Poisson de moyenne λ. Soit n 1,..., n N des entiers tels que i n i = N. Nous avons N Pr(ν 1 = n 1,..., ν N = n N ν i = N) = i=1 N! n 1! n N! ( ) N 1. N

Pourquoi c'est vrai Suite de la preuve. Soit ν i le nombre d'enfants de i, i = 1,..., N. Nous avons Pr(ν i = n i ) = λn i n i! e λ et Pr( N i=1 ν i = N) = (Nλ)N e Nλ. N!

Simulation : x = sample(x, replace = T)

Généalogies dans le modèle de Wright-Fisher

Temps de coalescence de 2 gènes Dénition. On appelle temps de coalescence, τ 2, de deux lignées le nombre de générations qu'il est nécessaire de remonter pour trouver le premier ancêtre commun des deux lignées.

Temps de coalescence Si l'unité de temps est une génération, alors la probabilité pour que τ 2 = 1 est 1/N et plus généralement Pr(τ 2 > k) = (1 1/N) k Si l'unité de temps est N générations, k = tn et τ 2 = T 2 N Pr(τ 2 > k) = Pr(T 2 > t) exp( t), N.

Le processus ancestral {A N n (k), k = 0, 1,..., } décrit le nombre d'ancêtres distincts d'un échantillon de n gènes à la génération k en remontant le temps. est une chaîne de Markov à valeurs dans {1,..., n} telle que A N n Pr(A N n (k + 1) = j A N n (k) = i) = S j i N(N 1)(N j + 1) N j, où j = 1,..., i et S j i est un nombre de Stirling de seconde espèce (nombre de manière de partitionner un ensemble de i éléments en j sous-ensemble non-vides).

L'approximation de Kingman : le coalescent(1981) Théorème. Supposons que l'unité de temps est N générations (k = tn ), alors A N n ( N. ) A n (.), N où {A n (t), t 0}, est un chaîne de Markov à temps continu telle que A n (0) = n. Les taux de transition sont

L'approximation de Kingman : le coalescent(1981) Les durées séparant les coalescences successives des lignées sont indépendantes, de loi exponentielle de moyennes respectives E[T j ] = 2 j(j 1) j = n,..., 2. Le processus est facile à simuler informatiquement (exemple de simulateur : le programme ms).

Variabilité des généalogies

Le temps écoulé depuis l'ancêtre commun le plus récent, T MRCA Dans la représentation limite de l'arbre de coalescence, la hauteur de l'arbre est égale à T MRCA = T 2 + + T n où T j est de loi exponentielle de moyenne 2/j(j 1). La fonction de répartition de T MRCA se calcule de la manière suivante Pr(T MRCA t) = Pr(A n (t) = 1).

Le temps écoulé depuis l'ancêtre commun le plus récent, T MRCA Pour une chaîne de Markov, les probabilités Pr(A n (t) = j) sont solutions d'un système d'équations diérentielles linéaires. Nous trouvons Pr(A n (t) = 1) = n j=2 ( 1) j 1 (2j 1) n [j] n (j) e j(j 1)t/2 n [j] = n(n 1) (n j + 1) et n (j) = n(n + 1) (n + j 1).

Loi de T MRCA obtenue par simulation(n = 30) Histogram of tmrca Density 0.0 0.1 0.2 0.3 0.4 0.5 0 2 4 6 8 10 12 14 tmrca

Quelques propriétés simples de T MRCA Espérance Variance E[T MRCA ] = n j=2 ( 2 j(j 1) = 2 1 1 ) n Var[T MRCA ] = n j=2 4 j 2 (j 1) 2 4 3 π2 12

Quelles conclusions pour les espèces Le temps T MRCA est exprimé en unité de la taille ecace de la population N, aussi notée N e Il faut donc estimer N ou N e. Pour cela, les données génétiques entrent en jeu.

Partie 2 Des mutations dans les gènes

Un modèle à innité d'allèles

Mutations On suppose que les mutations n'ont pas d'eet sélectif sur la séquence d'adn étudiée (ADN neutre). On note µ la probabilité de mutation de la séquence étudiée par génération. On mesure le temps en prenant pour unité N générations (N est la taille de la population) θ = 2µN Les mutations sont aléatoirement réparties dans la généalogie des n séquences selon un processus de Poisson de paramètre θ/2.

Spectre de fréquences On appelle spectre de fréquences le vecteur c = (c 1,..., c n ) où c i est le nombres d'allèles présents en i copies dans l'échantillon de n gènes. Nous avons c 1 + 2c 2 + + nc n = n Le nombre d'allèles distincts présents dans l'échantillon est K n = c 1 + c 2 + + c n.

Petit exemple On observe un échantillon de 10 allèles A 1, A 1, A 2, A 1, A 3, A 2, A 3, A 4, A 4, A 4 Le spectre est c = (0, 2, 2, 0, 0, 0, 0, 0, 0, 0) Le nombre d'allèles distincts présents dans l'échantillon est k = 4.

La formule d'ewens (1972) Théorème. Pour le modèle de mutation à innité d'allèles et un échantillon de taille n Pr(c) = n! n ( ) θ cj 1 θ (n) j c j! où θ (n) = θ(θ + 1) (θ + n 1). j=1

Le processus du restaurant chinois

Le processus du restaurant chinois Imaginons un restaurant avec un nombre inni de tables. Les n clients arrivent un par un, et choisissent leur table de la manière suivante. Le client j choisit une table inoccupée avec la probabilité θ j 1 + θ et une table occupée avec la probabilité n j j 1 + θ où n j est le nombre de personnes assises à la table en question.

Le processus du restaurant chinois Pr(c) = θ θ

Le processus du restaurant chinois Pr(c) = θ θ θ 1 + θ

Le processus du restaurant chinois Pr(c) = θ θ θ 1 1 + θ 2 + θ

Le processus du restaurant chinois Pr(c) = θ θ θ 1 + θ 1 2 + θ θ 3 + θ

Le processus du restaurant chinois Pr(c) = θ θ θ 1 + θ 1 2 + θ θ 3 + θ 1 4 + θ

Le processus du restaurant chinois Pr(c) = θ θ θ 1 + θ 1 2 + θ θ 3 + θ 1 4 + θ 2 5 + θ

Ewens au restaurant Théorème. La conguration c obtenue à l'issue de n étapes du processus appelé restaurant chinois obéit à la formule d'ewens.

Nombre d'allèles distincts Théorème. Pour le modèle de mutation à innité d'allèles et un échantillon de taille n Pr(K n = k) = θk θ (n) S k n où S k n est le coecient de θ k dans le développement de θ(θ + 1) (θ + n 1). S k n est appelé nombre de Stirling de première espèce et dénombre les permutations de n éléments ayant k cycles.

Nombre d'allèles distincts Preuve. Pour le modèle de mutation à innité d'allèles et un échantillon de taille n Pr(K n = k) = θk n ( ) cj n! 1 1. θ (n) j c j! c j : c j =k Par normalisation, le coecient orange est nécessairement le coecient de θ k dans le développement de θ (n). j=1 Remarque. Sn k = (n 1) S k k 1 n 1 + S n 1

Nombre de tables occupées au restaurant chinois Pr(c) = θ θ θ 1 + θ 1 2 + θ θ 3 + θ 1 4 + θ 2 5 + θ La probabilité Pr(c) est invariante par permutation des indices ( S k n possibilités) Elle est proportionnelle à θ k

Un autre représentation de la loi de K n Fonction génératrice. Pour le modèle de mutation à innité d'allèles et un échantillon de taille n G Kn (z) = n k=1 Pr(K n = k)z k = (θz) (n) θ (n). En explicitant cette relation, on obtient G Kn (z) = n j=1 G X j (z) où X j {0, 1} est une variable de Bernoulli Pr(X j = 1) = θ θ + j 1 (Initiation d'une table dans le restaurant chinois).

Quelques propriétés simples de K n (1972) Espérance Espérance E[K n ] = n E[X j ] = j=1 n j=1 θ θ + j 1 θ log n, n Var[K n ] = Var[X j ] = j=1 n j=1 θj (θ + j 1) 2 θ log n K n / log n est un estimateur de θ parfois appelé diversité génétique. Il converge en 1/ log n, avec une vitesse asymtotiquement optimale.

Une application à l'adn mitochondrial

Une application à l'adn mitochondrial Chez les mammifères, l'adn mitochondrial est transmis par la mère. Pour les études généalogiques, on séquence la boucle de contrôle D ( 500bp). On considère que la probabilité de mutation de cette séquence est µ 10 6 par génération par paire de base. Pour la tribu amérindienne Nuu-Chah-Nulth, on observe 8 allèles dans un échantillon de n = 55 séquences d'individus non apparentés.

Taille ecace de la population Nuu-Chah-Nulth Pour estimer la taille ecace de la population N e θ 2µL où θ 2.7 est solution de 8 = 55 j=2 θ θ + j 1 La taille ecace est N e 2700 individus. T MRCA 100000 ans!

Messages à ramener à la maison L'étude de l'hérédité est une discipline ayant une longue tradition mathématique Les mathématiciens ont proposé de nouvelles représentations des modèles manipulés par la génétique des populations, en particulier, rétrospectives. En retour, ces representations permettent de simuler ecacement le polymorphisme génétique au sein des populations

Pour aller plus loin Tavaré S (2004) Ancestral inference in population genetics, Springer NY. Durrett R (2006) Probability models of DNA sequence evolution, Springer NY.

Du temps pour une discussion Merci de votre attention!