Coalescence : principe et bases théoriques

Documents pareils
Au-delà du coalescent : quels modèles pour expliquer la di

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Gènes Diffusion - EPIC 2010

Génétique et génomique Pierre Martin

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

PLAN DE COURS. GPA750 Ordonnancement des systèmes de production aéronautique

Connectiques et Utilisation d un disque dur multimédia MMEMUP

Probabilités III Introduction à l évaluation d options

Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistiques et traitement des données

MABioVis. Bio-informatique et la

CARACTERISTIQUE D UNE DIODE ET POINT DE FONCTIONNEMENT

ELEC2753 Electrotechnique examen du 11/06/2012

VI. Tests non paramétriques sur un échantillon

La gestion des contraintes pour modéliser les stratégies humaines d'ordonnancement et concevoir des interfaces homme-machine ergonomiques

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

TSTI 2D CH X : Exemples de lois à densité 1

TD 11. Les trois montages fondamentaux E.C, B.C, C.C ; comparaisons et propriétés. Association d étages. *** :exercice traité en classe.

Chapitre 1 Régime transitoire dans les systèmes physiques

4 Distributions particulières de probabilités

Bachelor Informatique et Systèmes de Communication

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Intérêt du découpage en sous-bandes pour l analyse spectrale

LISTE D EXERCICES 2 (à la maison)


Variables Aléatoires. Chapitre 2

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Nombre de crédits Nombre d'évaluation UE Majeure de spécialité 6 2. UE mineure de spécialité 3 ou 2 1. UE libre 1 1

Contexte Colloque Santé et Société Mai 2015

UFR d Informatique. FORMATION MASTER Domaine SCIENCES, TECHNOLOGIE, SANTE Mention INFORMATIQUE

Plan. 5 Actualisation. 7 Investissement. 2 Calcul du taux d intérêt 3 Taux équivalent 4 Placement à versements fixes.

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Isolement et Diversité Génétique des Dugongs de Nouvelle Calédonie

Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire

Suites numériques 4. 1 Autres recettes pour calculer les limites

Introduction à la théorie des files d'attente. Claude Chaudet

Master 2. Mention : «Ecosciences, Microbiologie» Domaine : Sciences Technologies Santé Responsable : F. Menu

Chaînes de Markov au lycée

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Equipement. électronique

Plus courts chemins, programmation dynamique

Exercices de génétique classique partie II

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Cours de Master Recherche

MIS 102 Initiation à l Informatique

Réunion du réseau de génétique du Département EFPA

CCP PSI Mathématiques 1 : un corrigé

Chap 4. La fonction exponentielle Terminale S. Lemme : Si est une fonction dérivable sur R telle que : = et 0! = 1 alors ne s annule pas sur R.

TP Git. Author : Cedric Dumoulin Date : 2 déc Rev : 9 Dec. 2014

Chapitre 3 Les régimes de fonctionnement de quelques circuits linéaires

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Principes de bonne pratique :

Les débats sur l évolution des

Dimensionnement Introduction

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Protection individuelle

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

F411 - Courbes Paramétrées, Polaires

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

UFR Sciences Fondamentales et Appliquées Université de Poitiers. Se réorienter à l UFR Sciences Fondamentales et Appliquées en janvier 2013

Année Universitaire ère année de Master Droit Mention Droit Privé 1 er semestre. 1 er SEMESTRE 8 matières CM TD COEFF ECTS.

Projet de raccordement au réseau de transport de gaz naturel EXPRESSION PRELIMINAIRE DE BESOIN SITE :..

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Co-habilitation. Objectifs de la formation. Modalités de recrutement et schéma général

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Pôle de Dakar S IMUL ATIONS. 1 Utiliser un taux d accroissement pour une simulation

Coefficients binomiaux

Architecture des ordinateurs TD1 - Portes logiques et premiers circuits

Feuille d exercices 2 : Espaces probabilisés

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Simulation d une économie monétaire (programmation impérative, sujet 3)

Réseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.

Big data et sciences du Vivant L'exemple du séquençage haut débit

Module 7: Chaînes de Markov à temps continu

Statistique : Résumé de cours et méthodes

Complément d information concernant la fiche de concordance

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

I. Cas de l équiprobabilité

Fonctions homographiques

ÉVALUATION FORMATIVE. On considère le circuit électrique RC représenté ci-dessous où R et C sont des constantes strictement positives.

Introduction au Data-Mining

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Agrégation des portefeuilles de contrats d assurance vie

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

TD 1 - Structures de Traits et Unification

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

Alarme domestique- Présentation

Développement de lois et de structures de réglages destinées à la téléopération avec retour d effort

Chapitre 7. Récurrences

Lois de probabilité. Anita Burgun

Transcription:

Coalescence : principe et bases théoriques Simon Boitard INRA, Laboratoire de Génétique Cellulaire, Toulouse Master MABS, UE Génétique et génomique statistique, 2011-2012 S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 1 / 28

Introduction Modèle mathématique permettant de décrire / simuler la généalogie d un échantillon d individus. On remonte le temps au lieu de le descendre. Article fondateur de Kingman en 1982, très utilisé depuis. S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 2 / 28

Principes (une population de taille constante, un locus sans recombinaison) S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 3 / 28

Principes (une population de taille constante, un locus sans recombinaison) S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 3 / 28

Principes (une population de taille constante, un locus sans recombinaison) S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 3 / 28

Principes (une population de taille constante, un locus sans recombinaison) S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 3 / 28

Principes (une population de taille constante, un locus sans recombinaison) S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 3 / 28

Principes (une population de taille constante, un locus sans recombinaison) S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 3 / 28

une population de taille constante, un locus sans recombinaison Plan du cours 1 Modèle de base : une population de taille constante, un locus sans recombinaison 2 Population de taille variable au cours du temps 3 Population structurée 4 Modèle avec recombinaison 5 Conclusions S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 4 / 28

une population de taille constante, un locus sans recombinaison Plan du cours 1 Modèle de base : une population de taille constante, un locus sans recombinaison 2 Population de taille variable au cours du temps 3 Population structurée 4 Modèle avec recombinaison 5 Conclusions S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 5 / 28

une population de taille constante, un locus sans recombinaison Temps de coalescence Proba qu il n y ait pas de coalescence à une génération donnée n 1 q N (n) = (1 i N i=1 ) = 1 n(n 1) 2N + O( 1 N 2 ) T N n suit une loi géométrique P(T N n > t) = (q N (n)) t Changement d échelle τ = t N P(T N n > Nτ) = (q N (n)) Nτ (1 n(n 1) 2N )Nτ e n(n 1) τ 2 quand N +. Tn N tend vers T n, de loi exponentielle de paramètre n(n 1) 2. S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 6 / 28

une population de taille constante, un locus sans recombinaison Evènements de coalescence La proba que trois individus ou plus coalescent à la même génération est en O( 1 ) N 2 négligeable quand N +. En pratique, une coalescence consiste toujours à regrouper exactement deux lignées. S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 7 / 28

une population de taille constante, un locus sans recombinaison Espérance du TMRCA T MRCA = E[T MRCA ] = n k=2 T k n E[T k ] k=2 n 2 = k(k 1) k=2 n 1 = 2 ( k 1 1 k ) k=2 = 2(1 1 n ) 2 S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 8 / 28

une population de taille constante, un locus sans recombinaison Mutations Proba µ de mutation par site et par méiose. M(t) nombre de mutations pour une branche de longueur t = Nτ et un locus de taille L. en posant θ = 2Nµ. E[M(t)] = µlnτ = θ 2 Lτ M(τ) processus de Poisson d intensité θ 2 L. On peut choisir ensuite le modèle qu on veut pour décrire ce qui se passe quand une mutation se produit. S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 9 / 28

une population de taille constante, un locus sans recombinaison Mutations S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 10 / 28

une population de taille constante, un locus sans recombinaison Mutations S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 10 / 28

une population de taille constante, un locus sans recombinaison Infinite site model S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 11 / 28

une population de taille constante, un locus sans recombinaison Simulation 1 Pour k allant de n à 2 : 1 Simuler une loi exponentielle T k de paramètre k(k 1) 2. 2 Choisir uniformément celui des k(k 1) 2 couples d haplotypes qui coalesce. 2 Placer les mutations indépendamment sur chaque branche selon un processus de Poisson d intensité θ 2 L. Beaucoup plus rapide que de simuler la population en forward! S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 12 / 28

une population de taille constante, un locus sans recombinaison Population diploïde N taille de la population, 2N allèles. Remplacer N par 2N dans tout ce qui précède. En particulier : unité de temps 2N générations, θ = 4Nµ. S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 13 / 28

Plan du cours Population de taille variable au cours du temps 1 Modèle de base : une population de taille constante, un locus sans recombinaison 2 Population de taille variable au cours du temps 3 Population structurée 4 Modèle avec recombinaison 5 Conclusions S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 14 / 28

Population de taille variable au cours du temps Principe La taille de la population change selon une fonction déterministe du temps : Croissance exponentielle : N(t) = N 0 e αt, α > 0 Décroissance exponentielle : N(t) = N 0 e αt, α > 0 Décroissance linéaire : N(t) = N 0 + αt, α > 0 Goulot d étranglement ( bottleneck ) : N(t) = N 0 si t < t, N 1 si t t La probabilité de coalescence dépend de la taille de population et donc varie au cours du temps. L unité de temps est τ = t N 0. En un temps τ, on a à peu près: T n (τ) N(τ) n(n 1) exp( ) N 0 2 S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 15 / 28

Population de taille variable au cours du temps Simulation (approchée) τ = 0 1 Pour k allant de n à 2 : 1 Simuler une loi exponentielle T k de paramètre k(k 1) 2. 2 La multiplier par N(τ) N 0. 3 τ = τ + T k. 4 Choisir uniformément celui des k(k 1) 2 couples d haplotypes qui coalesce. 2 Placer les mutations indépendamment sur chaque branche selon un processus de Poisson d intensité θ 2 L. S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 16 / 28

Population de taille variable au cours du temps Application Population croissante temps de coalescence plus longs en bas de l arbre plus de fréquences alléliques extrêmes. Population décroissante temps de coalescence plus longs en haut de l arbre plus de fréquences alléliques intermédiaires. S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 17 / 28

Plan du cours Population structurée 1 Modèle de base : une population de taille constante, un locus sans recombinaison 2 Population de taille variable au cours du temps 3 Population structurée 4 Modèle avec recombinaison 5 Conclusions S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 18 / 28

Principe Population structurée Pour chaque noeud de l arbre, une étiquette indique sa population d origine. Coalescences intra population. Par ex, pour deux pops 1 et 2, 2 évènements possibles : coalescence dans 1 et coalescence dans 2. Taille relative des pops importante car détermine la vitesse des évènements. Si migrations entre populations avec une proba par génération en O( 1 N ), évènements migration de 1 vers 2 et migration de 2 vers 1 possibles. S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 19 / 28

Exemple Population structurée S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 20 / 28

Plan du cours Modèle avec recombinaison 1 Modèle de base : une population de taille constante, un locus sans recombinaison 2 Population de taille variable au cours du temps 3 Population structurée 4 Modèle avec recombinaison 5 Conclusions S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 21 / 28

Modèle avec recombinaison Principe Un haplotype créé par recombinaison n a plus un seul mais deux parents. En remontant dans le temps, une branche peut donc se diviser en deux. Cela se produit avec une proba c par génération, c taux de recombinaison entre les locus. A l échelle τ = t N, et en posant ρ = 2Nc, le temps au bout duquel une branche se divise en deux suit une loi exponentielle de paramètre ρ 2. La généalogie joite des deux locus est appellée Ancestral Recombination Graph. On peut en déduire les arbres de coalescence marginaux pour chacun des locus (qui sont corrélés). S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 22 / 28

Exemple Modèle avec recombinaison S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 23 / 28

Simulation Modèle avec recombinaison k = n. Tant que k > 1 : 1 Simuler U, une loi exponentielle de paramètre k(k 1) 2. 2 Simuler V, une loi exponentielle de paramètre kρ 2. 3 Si U V, choisir au hasard celui des k(k 1) 2 couples d haplotypes qui coalesce. Si U > V, choisir au hasard celle des k lignées qui se sépare. Remarque : le stade k = 1 finit toujours par être atteint, mais cela peut être long. S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 24 / 28

Plan du cours Conclusions 1 Modèle de base : une population de taille constante, un locus sans recombinaison 2 Population de taille variable au cours du temps 3 Population structurée 4 Modèle avec recombinaison 5 Conclusions S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 25 / 28

Conclusions Le coalescent en génétique des populations Modèle théorique permettant de faire le lien entre des données génétiques observées et des modèles démographiques. Outil de simulation très performant. Logiciels de simulation : ms, SIMCOAL, GENOME... En pratique, tous les aspects du modèles (démographie, structure, recombinaison) sont mélangés. S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 26 / 28

Conclusions A suivre : TD, Etude de deux estimateurs de θ Echantillon de n séquences d ADN de longueur L. Estimateur de Watterson : θ W = 1 L S n 1 1 n( k ) 1 avec S n nombre de sites polymorphes. Estimateur de Tajima : k=1 θ T = π n = 1 1 Π(i, j) L n(n 1) avec Π(i, j) nombre de différences entre les séquences i et j. i j S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 27 / 28

Conclusions A suivre : TP, Simulation de données génétiques par coalescence et analyses standard Simulation de données génétiques avec SIMCOAL2. Analyse de ces échantillons simulés avec ARLEQUIN. Comparaison entre des populations de taille constante ou croissante. S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 28 / 28

Conclusions Quelques refs Simon Tavaré (2001), Ancestral inference in molecular biology. Ecole de Probabilités de Saint-Flour. Handbook of statistical genetics, Wiley. Chapitres 22.6, 25, 26, 27.3. S. Boitard (INRA, Laboratoire de Génétique Cellulaire, Toulouse) Coalescence 29 / 28