Modélisation coalescente pour la détection précoce d un cancer

Documents pareils

Au-delà du coalescent : quels modèles pour expliquer la di

PROBABILITES ET STATISTIQUE I&II

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Que faire lorsqu on considère plusieurs variables en même temps?

Introduction à la théorie des files d'attente. Claude Chaudet

Chapitre 3 : INFERENCE

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Introduction à l approche bootstrap

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Filtrage stochastique non linéaire par la théorie de représentation des martingales

MODELES DE DUREE DE VIE

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Soutenance de stage Laboratoire des Signaux et Systèmes

Probabilités Loi binomiale Exercices corrigés

TABLE DES MATIERES. C Exercices complémentaires 42

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Chaînes de Markov au lycée

Echantillonnage Non uniforme

Bases de données des mutations

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Processus aléatoires avec application en finance

4 Distributions particulières de probabilités

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Big data et sciences du Vivant L'exemple du séquençage haut débit

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Sur quelques applications des processus de branchement en biologie moléculaire

Programmes des classes préparatoires aux Grandes Ecoles

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modélisation aléatoire en fiabilité des logiciels

Lois de probabilité. Anita Burgun

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Moments des variables aléatoires réelles

Arbres binaires de décision

Méthodes de Simulation

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Plus courts chemins, programmation dynamique

Le modèle de Black et Scholes

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Probabilités III Introduction à l évaluation d options

Module 7: Chaînes de Markov à temps continu

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Intérêt du découpage en sous-bandes pour l analyse spectrale

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Introduction au Data-Mining

Modèles et Méthodes de Réservation

M2 IAD UE MODE Notes de cours (3)

Variables Aléatoires. Chapitre 2

Algorithmes d'apprentissage

Calculs de probabilités conditionelles

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Précision d un résultat et calculs d incertitudes

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

Travaux dirigés d introduction aux Probabilités

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Probabilités. C. Charignon. I Cours 3

MABioVis. Bio-informatique et la

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Feuille d exercices 2 : Espaces probabilisés

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Théorie des sondages : cours 5

Génétique et génomique Pierre Martin

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Transmission d informations sur le réseau électrique

PRIME D UNE OPTION D ACHAT OU DE VENTE

Loi binomiale Lois normales

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Modèle GARCH Application à la prévision de la volatilité

FIMA, 7 juillet 2005

Introduction au datamining

De la mesure à l analyse des risques

TSTI 2D CH X : Exemples de lois à densité 1

IFT3245. Simulation et modèles

Simulation de variables aléatoires

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Dunod, Paris, 2014 ISBN

Le risque Idiosyncrasique

Big Data et Graphes : Quelques pistes de recherche

INF6304 Interfaces Intelligentes

Cours d électricité. Circuits électriques en courant constant. Mathieu Bardoux. 1 re année

Chapitre 3. Les distributions à deux variables

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

CNAM léments de cours Bonus-malus et Crédibilité

Chapitre I La fonction transmission

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Valorisation d es des options Novembre 2007

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Transcription:

Modélisation coalescente pour la détection précoce d un cancer Mathieu Emily 27 Novembre 2007 Bioinformatics Research Center - Université d Aarhus Danemark Mathieu Emily Coalescence et cancer 1

Introduction - Contexte médicale et biologique Instabilité génétique et tumeurs Théorie introduite par Loeb et al. en 1974 Les tumeurs sont caractérisées par un nombre anormalement élevé de mutations Une perte de stabilité du génome intervient au début du développement d un cancer L instabilité génétique comme événement initiateur reste encore aujourd hui très controversée (Loeb et al., 2003). Les hypothèses alternatives sont : Aneuploidie (Duesberg et al., 1998) Sélection clonale (Tomlinson and Bodmer, 1999) Mathieu Emily Coalescence et cancer 2

Introduction - Contexte médicale et biologique Perte de MMR (Mismatch Repair) Plus de 130 gènes sont impliqués dans la réparation de l ADN (Anderson et al., 2001) Altération de gènes au niveau de : la fidélité de la replication de l ADN l efficacité de la réparation de l ADN Conséquence : hausse du taux de mutation d un facteur 10 3 (Bhattacharyya et al. 1994, Tomlinson et al., 1996). Taux de mutation pour les cellules somatiques humaines: 1.4 10 10 nucléotides par cellule par division (Loeb, 1991) Instabilité génétique 10 10 10 7 Mathieu Emily Coalescence et cancer 3

Modélisation - Hypothèses Perte de MMR Deux taux de mutation affectent l échantillon de gènes. Certaines cellules subissent un taux de mutation normal et les autres un taux de mutation élevé Le nombre de cellules affectées est inconnu La généalogie des cellules se modélise par un processus de coalescence (Moran 1962, Kingman 1982) Neutralité : le processus de mutation est indépendant de la généalogie Objectif : détecter (tester) la perte de MMR Mathieu Emily Coalescence et cancer 4

Modélisation - Contexte statistique Coalescent neutre (Kingman 1982, Hein et al. 2005) Soit T i (i = 2,..., n) les temps inter-coalescence tels que les T i soient des variables exponentielles indépendantes de paramètres λ i = i(i 1) 2. Exemple d arbre coalescent avec n = 5 Mathieu Emily Coalescence et cancer 5

Modélisation - Contexte statistique Modèle pour le processus de mutation Modèle à Infinité de sites (Watterson, 1975) Le processus de mutation est un processus de Poisson indépendant de taux θ/2 le long des branches de l arbre, où θ = 4Nµ, avec µ le taux de mutation par base par division mitotique et N le nombre total de cellules Estimateurs classiques de θ : estimateur de Watterson et estimateur de Tajima Mathieu Emily Coalescence et cancer 6

Modélisation - Contexte statistique Estimateur de Watterson Soit S le nombre de sites de ségrégation Sous le modèle à infinité de sites, S est égal au nombre total de mutation Séquence 1 Séquence 2 Séquence 3 acagttacat agagctacat agagttgcgt - -- - - - Exemple de trois séquences d ADN où S = 4 L estimateur de Watterson est défini comme : θ W = 2S E[L] = S n 1 i=1 1/i, où L = n i=2 it i représente la longueur totale de l arbre Mathieu Emily Coalescence et cancer 7

Modélisation - Contexte statistique Estimateur de Tajima Soit Π(i, j) le nombre de différences 2 à 2 entre la séquence i et la séquence j L estimateur de Tajima s écrit de la manière suivante : θ T = 2 n(n 1) Π(i, j) i<j Seq1 vs Seq2 Seq1 vs Seq3 Seq2 vs Seq3 acagttacat acagttacat agagctacat agagctacat agagttgcgt agagttgcgt Exemple de trois séquences où θ T = 2.67 ( θ W = 2.67) Mathieu Emily Coalescence et cancer 8

Modélisation - Modélisation colaescente conditionnelle Contraintes de modélisation L événement Perte de MMR,, survient une et une seule fois dans la généalogie de l échantillon. Contraintes sur les taux de mutation de l arbre de coalescence Notre échantillon est divisé en 2 sous-échantillons : N pour lequel le taux de mutation θ 0 est normal, R pour lequel le taux de mutation θ 1 is élevé (θ 1 > θ 0 ). Contraintes topologiques sur l arbre de coalescence Notre objectif : corriger les estimateurs de Watterson et de Tajima pour estimer le taux de mutation élevé conditionnellement au taux de mutation normal Mathieu Emily Coalescence et cancer 9

Modélisation - Modélisation colaescente conditionnelle Les mutations suivent des processus de Poisson de taux : - θ 0 /2 le long des branches bleues - θ 1 /2 le long des branches rouges Mathieu Emily Coalescence et cancer 10

Modélisation - Modélisation colaescente conditionnelle Le spectre de fréquences La généalogie de l échantillon suit un arbre de coalescent conditionnel (Griffiths and Tavaré 1998, Wiuf and Donnelly 1999) B, le nombre de descendants de, suit une distribution Yule : P(B = b) = 1 bh n 1 b = 1,..., n 1. où H n correspond au nème nombre harmonique Mathieu Emily Coalescence et cancer 11

Modélisation - Résultats Correction de l estimateur de Watterson S n, le nombre de sites de ségrégation, est une variable aléatoire égale au nombre total de mutations Deux contributions pour S n, S 0n et S 1n où : E[S 0n ] = E[L 0 ]θ 0 /2 E[S 1n ] = E[L ]θ 1 /2 Un estimateur sans biais de θ 1 est donné par : θ 1,W = S n E[L 0 ]θ 0 /2 E[L ]/2 Mathieu Emily Coalescence et cancer 12

Modélisation - Résultats Correction de l estimateur de Watterson E[L ] = E[L 1 ] + E[η n ] Proposition Soit L 1 la longueur totale de la sous-généalogie rouge (Griffiths and Tavaré, 2003) : E[L 1 B = b] = n b+1 j=2 p j n k=j+1 2 k(k 1) c jk, Proposition Soit η n le temps entre le MRCA de la sous-généalogie rouge et (Wiuf and Donnelly, 1999) : n b+1 E[η n B = b] = 2 k=2 p k k. Mathieu Emily Coalescence et cancer 13

Modélisation - Résultats Correction de l estimateur de Watterson - L 0 E[L 0 ] et E[L 0 B] sont inconnus dans la littérature. L 0 = L L où : L est la longueur totale de l arbre L est la longueur du sous-arbre rouge Mathieu Emily Coalescence et cancer 14

Modélisation - Résultats Correction de l estimateur de Watterson - L Proposition Fixons le nombre de descendants de la mutation à B = b. Pour un processus coalescent conditionnel, nous avons : 1 2 E[L B = b] = H n 1 + 1 n b+1 pk H n 1 b(k 1) k=2 Preuve : L = n i=2 it i où T i sont les temps inter-coalescence Mathieu Emily Coalescence et cancer 15

Modélisation - Résultats Preuve Théorème - Temps inter-coalescent pour un arbre coalescent conditionnel Fixons B = b. La loi jointe des temps inter-coalescent (T 2,..., T n ) a pour densité : f (t 2,..., t n ) = n b+1 k=2 p k λ kt k n f l (t l ) l=2 où f l (t l ) est la densité d une loi exponentielle de paramètre λ l et : p k = ( n k b 1 ) ( n 1 b ) 1 k = 2,..., n b + 1 Mathieu Emily Coalescence et cancer 16

Modélisation - Résultats Correction de l estimateur de Tajima Nombre moyen de différences deux à deux: Π Un estimateur sans biais de θ 1 s écrit : θ 1,T = Π C nθ 0 D n Une formulation exacte de C n et D n se trouve en considérant les espérances de 3 temps de coalescence entre deux séquences: du R (sous-arbre rouge), du N (sous-arbre bleu), appartenant à un des deux sous-ensemble. Mathieu Emily Coalescence et cancer 17

Modélisation - Résultats Coefficients correctifs n 5 10 15 20 25 30 35 40 45 A n 2.171 2.693 3.024 3.265 3.455 3.612 3.747 3.864 3.967 B n 0.595 0.68 0.713 0.732 0.746 0.756 0.764 0.771 0.776 Tables pour A n = E[L 0 ]/2 et B n = E[L ]/2 n 5 10 15 20 25 30 35 40 45 C n 0.996 1.019 1.021 1.02 1.02 1.019 1.019 1.018 1.018 D n 0.253 0.218 0.199 0.187 0.178 0.171 0.166 0.161 0.156 Tables pour C n et D n Mathieu Emily Coalescence et cancer 18

Modélisation - Résultats Algorithme de simulation d un arbre coalescent conditionnel Algorithme Simuler B selon le spectre de frequence. Simuler J, le nombre d ancêtres lorsque survient (Cf. Stephens, 2000). Simuler le nombre total d ancêtres lorsque le sous-échantillon R a r ancestors (1 < r < b 1) (Tavaré, 2004). Simuler les T l selon leurs lois exponentielles respectives Gamma(1, λ l ), pour l J et T J selon la loi Gamma(2, λ J ). Mathieu Emily Coalescence et cancer 19

Modélisation - Résultats Performances de θ 1,W et θ 1,T pour θ 0 = 1 (N = 2.5 10 9 et µ = 10 10 ) θ 1 = 10 θ 1 = 100 θ 1 = 1000 n E SD E SD E SD 10 9.9 12.0 97.4 112.4 947.5 1109.7 30 10.2 12.8 102.9 126.1 1060.3 1286.1 50 10.4 13.5 102.0 131.7 1045.7 1235.9 Moyenne et Déviation Standard pour θ 1,W à partir de 1000 simulations θ 1 = 10 θ 1 = 100 θ 1 = 1000 n E SD E SD E SD 10 9.9 13.7 107.3 133.9 1006.2 1243.5 30 9.5 15.5 100.9 147.9 1040.0 1589.5 50 10.3 17.6 106.5 164.6 1039.7 1598.1 Moyenne et Déviation Standard pour θ 1,T à partir de 1000 simulations Mathieu Emily Coalescence et cancer 20

Modélisation - Résultats Performances de θ 1,W et θ 1,T pour θ 0 = 1 Les estimateurs de Watterson et de Tajima corrigés sont sans biais. Comportements similaires aux estimateurs classiques (variance élevée). L estimateur de Watterson corrigé semble avoir une variance plus faible que l estimateur de Tajima corrigé. Mathieu Emily Coalescence et cancer 21

Modélisation - Résultats Tests de l absence Loss of Mismatch Repair H 0 : Absence de. H 1 : Occurrence de et θ 1 > θ 0. En supposant que la généalogie de l échantillon est connue et que les données sont les temps inter-coalescence (T k ). Le rapport de vraisemblance (LR) s écrit de la façon suivante : r = L(H n b+1 1) L(H 0 ) = λ k pk t k k=2 Puissance pour une erreur de type I : α = 0.05 : 1 β = 0.2 pour b n et chute à 0.1 lorsque b/n 0.5, où b correspond au nombre de cellules affectées Mathieu Emily Coalescence et cancer 22

Modélisation - Résultats Tests de l absence de (LMMR) - θ 0 = 1 H 0 : Absence de. H 1 : Occurrence de et θ 1 > θ 0. n θ 1 = 10 θ 1 = 100 θ 1 = 1000 20 0.44 0.74 0.90 40 0.42 0.73 0.88 Puissance pour l estimateur θ n θ 1 = 10 θ 1 = 100 θ 1 = 1000 20 0.44 0.69 0.84 40 0.34 0.64 0.79 Puissance pour l estimateur Π Mathieu Emily Coalescence et cancer 23

Modélisation - Résultats Tests de l occurrence de (LMMR) - θ 0 = 1 H 0 : Occurrence of and θ 1 > θ 0. H 1 : Absence of. n θ 1 = 10 θ 1 = 100 θ 1 = 1000 20 0.06 0.18 0.70 40 0.11 0.24 0.59 Puissance pour θ 1,W n θ 1 = 10 θ 1 = 100 θ 1 = 1000 20 0.12 0.29 0.54 40 0.12 0.19 0.35 Puissance pour θ 1,T Mathieu Emily Coalescence et cancer 24

Discussion - Conclusion La statistique de test de Watterson est plus puissante que celle de Tajima. La puissance est faible lorsque le rapport entre le taux de mutation normal et le taux élevé est inférieur à 1000 (θ 0 < θ 1 ). En accord avec des expériences biologiques : l occurence d une perte de MMR est quasi-indétectable lorsque θ 1 /θ 0 < 1.000 (Boland et al., 1998). Conditionnellement à l événement perte de MMR, la puissance dećroit lorsque la taille d échantillon augmente Augmenter la puissance en considérant une analyse multilocus. Mathieu Emily Coalescence et cancer 25

Discussion - Publications Merci pour votre attention M. Emily and O.Francois. Conditional coalescent trees with two mutation rates and their application to genomic instability, Genetics, Vol. 172, Mars 2006, pages 1809-1820. Mathieu Emily Coalescence et cancer 26