Modélisation coalescente pour la détection précoce d un cancer Mathieu Emily 27 Novembre 2007 Bioinformatics Research Center - Université d Aarhus Danemark Mathieu Emily Coalescence et cancer 1
Introduction - Contexte médicale et biologique Instabilité génétique et tumeurs Théorie introduite par Loeb et al. en 1974 Les tumeurs sont caractérisées par un nombre anormalement élevé de mutations Une perte de stabilité du génome intervient au début du développement d un cancer L instabilité génétique comme événement initiateur reste encore aujourd hui très controversée (Loeb et al., 2003). Les hypothèses alternatives sont : Aneuploidie (Duesberg et al., 1998) Sélection clonale (Tomlinson and Bodmer, 1999) Mathieu Emily Coalescence et cancer 2
Introduction - Contexte médicale et biologique Perte de MMR (Mismatch Repair) Plus de 130 gènes sont impliqués dans la réparation de l ADN (Anderson et al., 2001) Altération de gènes au niveau de : la fidélité de la replication de l ADN l efficacité de la réparation de l ADN Conséquence : hausse du taux de mutation d un facteur 10 3 (Bhattacharyya et al. 1994, Tomlinson et al., 1996). Taux de mutation pour les cellules somatiques humaines: 1.4 10 10 nucléotides par cellule par division (Loeb, 1991) Instabilité génétique 10 10 10 7 Mathieu Emily Coalescence et cancer 3
Modélisation - Hypothèses Perte de MMR Deux taux de mutation affectent l échantillon de gènes. Certaines cellules subissent un taux de mutation normal et les autres un taux de mutation élevé Le nombre de cellules affectées est inconnu La généalogie des cellules se modélise par un processus de coalescence (Moran 1962, Kingman 1982) Neutralité : le processus de mutation est indépendant de la généalogie Objectif : détecter (tester) la perte de MMR Mathieu Emily Coalescence et cancer 4
Modélisation - Contexte statistique Coalescent neutre (Kingman 1982, Hein et al. 2005) Soit T i (i = 2,..., n) les temps inter-coalescence tels que les T i soient des variables exponentielles indépendantes de paramètres λ i = i(i 1) 2. Exemple d arbre coalescent avec n = 5 Mathieu Emily Coalescence et cancer 5
Modélisation - Contexte statistique Modèle pour le processus de mutation Modèle à Infinité de sites (Watterson, 1975) Le processus de mutation est un processus de Poisson indépendant de taux θ/2 le long des branches de l arbre, où θ = 4Nµ, avec µ le taux de mutation par base par division mitotique et N le nombre total de cellules Estimateurs classiques de θ : estimateur de Watterson et estimateur de Tajima Mathieu Emily Coalescence et cancer 6
Modélisation - Contexte statistique Estimateur de Watterson Soit S le nombre de sites de ségrégation Sous le modèle à infinité de sites, S est égal au nombre total de mutation Séquence 1 Séquence 2 Séquence 3 acagttacat agagctacat agagttgcgt - -- - - - Exemple de trois séquences d ADN où S = 4 L estimateur de Watterson est défini comme : θ W = 2S E[L] = S n 1 i=1 1/i, où L = n i=2 it i représente la longueur totale de l arbre Mathieu Emily Coalescence et cancer 7
Modélisation - Contexte statistique Estimateur de Tajima Soit Π(i, j) le nombre de différences 2 à 2 entre la séquence i et la séquence j L estimateur de Tajima s écrit de la manière suivante : θ T = 2 n(n 1) Π(i, j) i<j Seq1 vs Seq2 Seq1 vs Seq3 Seq2 vs Seq3 acagttacat acagttacat agagctacat agagctacat agagttgcgt agagttgcgt Exemple de trois séquences où θ T = 2.67 ( θ W = 2.67) Mathieu Emily Coalescence et cancer 8
Modélisation - Modélisation colaescente conditionnelle Contraintes de modélisation L événement Perte de MMR,, survient une et une seule fois dans la généalogie de l échantillon. Contraintes sur les taux de mutation de l arbre de coalescence Notre échantillon est divisé en 2 sous-échantillons : N pour lequel le taux de mutation θ 0 est normal, R pour lequel le taux de mutation θ 1 is élevé (θ 1 > θ 0 ). Contraintes topologiques sur l arbre de coalescence Notre objectif : corriger les estimateurs de Watterson et de Tajima pour estimer le taux de mutation élevé conditionnellement au taux de mutation normal Mathieu Emily Coalescence et cancer 9
Modélisation - Modélisation colaescente conditionnelle Les mutations suivent des processus de Poisson de taux : - θ 0 /2 le long des branches bleues - θ 1 /2 le long des branches rouges Mathieu Emily Coalescence et cancer 10
Modélisation - Modélisation colaescente conditionnelle Le spectre de fréquences La généalogie de l échantillon suit un arbre de coalescent conditionnel (Griffiths and Tavaré 1998, Wiuf and Donnelly 1999) B, le nombre de descendants de, suit une distribution Yule : P(B = b) = 1 bh n 1 b = 1,..., n 1. où H n correspond au nème nombre harmonique Mathieu Emily Coalescence et cancer 11
Modélisation - Résultats Correction de l estimateur de Watterson S n, le nombre de sites de ségrégation, est une variable aléatoire égale au nombre total de mutations Deux contributions pour S n, S 0n et S 1n où : E[S 0n ] = E[L 0 ]θ 0 /2 E[S 1n ] = E[L ]θ 1 /2 Un estimateur sans biais de θ 1 est donné par : θ 1,W = S n E[L 0 ]θ 0 /2 E[L ]/2 Mathieu Emily Coalescence et cancer 12
Modélisation - Résultats Correction de l estimateur de Watterson E[L ] = E[L 1 ] + E[η n ] Proposition Soit L 1 la longueur totale de la sous-généalogie rouge (Griffiths and Tavaré, 2003) : E[L 1 B = b] = n b+1 j=2 p j n k=j+1 2 k(k 1) c jk, Proposition Soit η n le temps entre le MRCA de la sous-généalogie rouge et (Wiuf and Donnelly, 1999) : n b+1 E[η n B = b] = 2 k=2 p k k. Mathieu Emily Coalescence et cancer 13
Modélisation - Résultats Correction de l estimateur de Watterson - L 0 E[L 0 ] et E[L 0 B] sont inconnus dans la littérature. L 0 = L L où : L est la longueur totale de l arbre L est la longueur du sous-arbre rouge Mathieu Emily Coalescence et cancer 14
Modélisation - Résultats Correction de l estimateur de Watterson - L Proposition Fixons le nombre de descendants de la mutation à B = b. Pour un processus coalescent conditionnel, nous avons : 1 2 E[L B = b] = H n 1 + 1 n b+1 pk H n 1 b(k 1) k=2 Preuve : L = n i=2 it i où T i sont les temps inter-coalescence Mathieu Emily Coalescence et cancer 15
Modélisation - Résultats Preuve Théorème - Temps inter-coalescent pour un arbre coalescent conditionnel Fixons B = b. La loi jointe des temps inter-coalescent (T 2,..., T n ) a pour densité : f (t 2,..., t n ) = n b+1 k=2 p k λ kt k n f l (t l ) l=2 où f l (t l ) est la densité d une loi exponentielle de paramètre λ l et : p k = ( n k b 1 ) ( n 1 b ) 1 k = 2,..., n b + 1 Mathieu Emily Coalescence et cancer 16
Modélisation - Résultats Correction de l estimateur de Tajima Nombre moyen de différences deux à deux: Π Un estimateur sans biais de θ 1 s écrit : θ 1,T = Π C nθ 0 D n Une formulation exacte de C n et D n se trouve en considérant les espérances de 3 temps de coalescence entre deux séquences: du R (sous-arbre rouge), du N (sous-arbre bleu), appartenant à un des deux sous-ensemble. Mathieu Emily Coalescence et cancer 17
Modélisation - Résultats Coefficients correctifs n 5 10 15 20 25 30 35 40 45 A n 2.171 2.693 3.024 3.265 3.455 3.612 3.747 3.864 3.967 B n 0.595 0.68 0.713 0.732 0.746 0.756 0.764 0.771 0.776 Tables pour A n = E[L 0 ]/2 et B n = E[L ]/2 n 5 10 15 20 25 30 35 40 45 C n 0.996 1.019 1.021 1.02 1.02 1.019 1.019 1.018 1.018 D n 0.253 0.218 0.199 0.187 0.178 0.171 0.166 0.161 0.156 Tables pour C n et D n Mathieu Emily Coalescence et cancer 18
Modélisation - Résultats Algorithme de simulation d un arbre coalescent conditionnel Algorithme Simuler B selon le spectre de frequence. Simuler J, le nombre d ancêtres lorsque survient (Cf. Stephens, 2000). Simuler le nombre total d ancêtres lorsque le sous-échantillon R a r ancestors (1 < r < b 1) (Tavaré, 2004). Simuler les T l selon leurs lois exponentielles respectives Gamma(1, λ l ), pour l J et T J selon la loi Gamma(2, λ J ). Mathieu Emily Coalescence et cancer 19
Modélisation - Résultats Performances de θ 1,W et θ 1,T pour θ 0 = 1 (N = 2.5 10 9 et µ = 10 10 ) θ 1 = 10 θ 1 = 100 θ 1 = 1000 n E SD E SD E SD 10 9.9 12.0 97.4 112.4 947.5 1109.7 30 10.2 12.8 102.9 126.1 1060.3 1286.1 50 10.4 13.5 102.0 131.7 1045.7 1235.9 Moyenne et Déviation Standard pour θ 1,W à partir de 1000 simulations θ 1 = 10 θ 1 = 100 θ 1 = 1000 n E SD E SD E SD 10 9.9 13.7 107.3 133.9 1006.2 1243.5 30 9.5 15.5 100.9 147.9 1040.0 1589.5 50 10.3 17.6 106.5 164.6 1039.7 1598.1 Moyenne et Déviation Standard pour θ 1,T à partir de 1000 simulations Mathieu Emily Coalescence et cancer 20
Modélisation - Résultats Performances de θ 1,W et θ 1,T pour θ 0 = 1 Les estimateurs de Watterson et de Tajima corrigés sont sans biais. Comportements similaires aux estimateurs classiques (variance élevée). L estimateur de Watterson corrigé semble avoir une variance plus faible que l estimateur de Tajima corrigé. Mathieu Emily Coalescence et cancer 21
Modélisation - Résultats Tests de l absence Loss of Mismatch Repair H 0 : Absence de. H 1 : Occurrence de et θ 1 > θ 0. En supposant que la généalogie de l échantillon est connue et que les données sont les temps inter-coalescence (T k ). Le rapport de vraisemblance (LR) s écrit de la façon suivante : r = L(H n b+1 1) L(H 0 ) = λ k pk t k k=2 Puissance pour une erreur de type I : α = 0.05 : 1 β = 0.2 pour b n et chute à 0.1 lorsque b/n 0.5, où b correspond au nombre de cellules affectées Mathieu Emily Coalescence et cancer 22
Modélisation - Résultats Tests de l absence de (LMMR) - θ 0 = 1 H 0 : Absence de. H 1 : Occurrence de et θ 1 > θ 0. n θ 1 = 10 θ 1 = 100 θ 1 = 1000 20 0.44 0.74 0.90 40 0.42 0.73 0.88 Puissance pour l estimateur θ n θ 1 = 10 θ 1 = 100 θ 1 = 1000 20 0.44 0.69 0.84 40 0.34 0.64 0.79 Puissance pour l estimateur Π Mathieu Emily Coalescence et cancer 23
Modélisation - Résultats Tests de l occurrence de (LMMR) - θ 0 = 1 H 0 : Occurrence of and θ 1 > θ 0. H 1 : Absence of. n θ 1 = 10 θ 1 = 100 θ 1 = 1000 20 0.06 0.18 0.70 40 0.11 0.24 0.59 Puissance pour θ 1,W n θ 1 = 10 θ 1 = 100 θ 1 = 1000 20 0.12 0.29 0.54 40 0.12 0.19 0.35 Puissance pour θ 1,T Mathieu Emily Coalescence et cancer 24
Discussion - Conclusion La statistique de test de Watterson est plus puissante que celle de Tajima. La puissance est faible lorsque le rapport entre le taux de mutation normal et le taux élevé est inférieur à 1000 (θ 0 < θ 1 ). En accord avec des expériences biologiques : l occurence d une perte de MMR est quasi-indétectable lorsque θ 1 /θ 0 < 1.000 (Boland et al., 1998). Conditionnellement à l événement perte de MMR, la puissance dećroit lorsque la taille d échantillon augmente Augmenter la puissance en considérant une analyse multilocus. Mathieu Emily Coalescence et cancer 25
Discussion - Publications Merci pour votre attention M. Emily and O.Francois. Conditional coalescent trees with two mutation rates and their application to genomic instability, Genetics, Vol. 172, Mars 2006, pages 1809-1820. Mathieu Emily Coalescence et cancer 26