1 Simulation de Monte-carlo, test d écart de proportions

1 Simulation de Monte-carlo, test d écart de proportions Sommaire 1.1 Description................................................. 1 1.1.1 Objectifs................................................... 1 1.1.2 Simulation de Monte-carlo.......................................... 1 1.1.3 L observation et un test........................................... 1 1.2 Un modèle et hypothèse......................................... 2 1.2.1 Le modèle probabiliste............................................ 2 1.2.2 L hypothèse nulle H 0(π 1 = π 2)....................................... 3 1.2.3 Le modèle probabiliste sous hypothèse nulle H 0(π 1 = π 2)........................ 3 1.2.4 La statistique : l écart de proportion.................................... 3 1.3 Méthode de monte-carlo......................................... 3 1.3.1 La simulation sous l hypothèse nulle H 0(π 1 = π 2)............................. 3 1.3.2 Le test empirique de monte-carlo...................................... 4 1.4 L approximation normale........................................ 5 1.4.1 Une approximation de la loi de la statistique............................... 5 1.4.2 Le test de Wald................................................ 6 1.5 Conclusion................................................. 6 1.1 Description 1.1.1 Objectifs Dans cet exercice on teste l égalité de deux proportions Wald c est une méthode aléatoire théorique qui modélise l écart entre deux proportions à l aide de la loi normale. Elle utile l approximation gaussienne. chi2 c est aussi un modéle aléatoire qui utilse la loi du χ 2? Monte-carlo on simule deux échantillons binomiaux dans le quel les deux proportions sont égales, on compare l écart observé aux valeurs simulées des écarts et on en déduit une probabilité empirique d occurence. 1.1.2 Simulation de Monte-carlo La méthode de simulation de monte-carlo consiste à tirer aléatoirement un grand nombre d échantillon d une réalisation d un phénomène aléatoire. A partir de l échantillon aléatoire, on calcule la loi empirique de cet échantillon qui est approximée par une loi théorique. On peut étudier les fonctions de probabilités, les densités, les fonctions de répartition, les moyennes, les écarts types,... Ici on va étudier si une différence de proportion peut être nulle. 1.1.3 L observation et un test normal eleve non 443 95 oui 44 27 Table 1 Le tableau de contingence croisant infartus et traux de catécholamine var.x="cat" tableau=table(x$y,x[[var.x]]) plot(y~cat,data=x,col=c('green','red')) http://www.math.unicaen.fr/~kauffman/cours 1 francois.kauffmann@unicaen.fr

y non oui normal eleve 0.0 0.2 0.4 0.6 0.8 1.0 cat Figure 1 Diagramme mosaic infarctus en fonction de la dose de catécholamine La question que nous allons nous poser est: est ce que les deux proportions de ne pas être malade pourraient être égales (hypothèse nulle)? Si on refuse cette hypothèse quelle est la probabilité de se tromper (p.value). On utilise ici un test appelé du chi 2 (Pearson). > prop.test(t(tableau)) 2-sample test for equality of proportions with continuity correction data: t(tableau) X-squared = 14.9998, df = 1, p-value = 0.0001075 alternative hypothesis: two.sided 95 percent confidence interval: 0.0478977 0.2140271 sample estimates: prop 1 prop 2 0.9096509 0.7786885 On refuse l hypothèse que les deux proportions puissent être égale, c est à dire qu il y a un effet du taux de catécholamine sur la probabilité d être malade. Et on a moins de 2 chances sur 10000 de se tromper en affirmant ceci en supposant que le modèle mathématique est juste. 1.2 Un modèle et hypothèse 1.2.1 Le modèle probabiliste On modélise le nombre de personnes n ayant pas eu un infartus par une variable aléatoire binomiale y1 B(n,π) ou n est le nombre de personnes et π est la probabilité d avoir un infarctus. échantillon avec un taux de catécholamine normal n 1 = 487 π1 obs = 443 44+443. Le modèle probabiliste du nombre de personnes non atteinte d infarctus est une variable aléatoire y 1 suivant la loi B(n 1,π 1 ). Le vrai paramètre π 1 est une inconnue c est un paramètre du modèle. échantillon avec un taux de catécholamine élevé n 2 = 122 π1 obs = 95 95+27. Le modèle probabiliste du nombre de personnes non atteinte d infarctus est une variable aléatoire y 2 suivant la loi B(n 2,π 2 ). Le vrai paramètre π 2 est une inconnue c est un paramètre du modèle. On suppose que ces deux variables sont indépedantes. http://www.math.unicaen.fr/~kauffman/cours 2 francois.kauffmann@unicaen.fr

1.2.2 L hypothèse nulle H 0 (π 1 = π 2 ) Ici on suppose que π 1 = π 2 = π 0 88%. On étudie si cette hypothèse est réaliste en faisant des tirages aléatoires. On observe les proportions de tirages positifs et on regarde si il est vraisemblable de varier de π1 obs à π2 obs. 1.2.3 Le modèle probabiliste sous hypothèse nulle H 0 (π 1 = π 2 ) L observation est normal eleve non 443 95 oui 44 27 somme n1 = 487 n2 = 122 Le modèle aléatoire de ce tableau de contingence sous l hypothèse nulle est normal elevé non N 1,1 (ω) N 1,2 (ω) oui n1 N 1,1 (ω) n2 N 1,2 (ω) somme n1 = 487 n2 = 122 ou N 1,1 B(n = 487,p 0 ) et N 2,2 B(n = 122,p 0 ) avec p 0 = 538 538+71. 1.2.4 La statistique : l écart de proportion On va voir si l hypothèse que π 1 = π 2 = π 0 est nulle est vraisemblable en étudiant observation la valeur observée modèle modélisée par la variable aléatoire simulation 5000 tirages stat obs = π obs 1 π obs 2 stat(ω) = N 1,1 (ω)/n1 N 1,2 (ω)/n2. (stat(ω 1 ) = N 1,1 (ω 1 )/n1 N 1,2 (ω 1 )/n2,,stat(ω 5000 ) = N 1,1 (ω 5000 )/n1 N 1,2 (ω 5000 )/n2) 1.3 Méthode de monte-carlo 1.3.1 La simulation sous l hypothèse nulle H 0 (π 1 = π 2 ) On va tirer (réaliser) 5000 tirages indépendants de ce couple de variable aléatoire. nb.sample=5000 p0=(table(x$y)/nrow(x))[['non']] # hypothèse nulle set.seed(1) n11=rbinom(nb.sample,size=n1,p0) n21=n1-n11 n12=rbinom(nb.sample,size=n2,p0) n22=n2-n12 A=rbind(n11,n21,n12,n22) tables=list() for (i in 1:nb.sample) tables[[i]]=matrix(a[,i],ncol=2, dimnames=list(c('non','oui'),c('normal','eleve'))) # centième tirage tables[[100]] # vérifier que on a tiré le bon nombre de personnes addmargins(tables[[100]]) http://www.math.unicaen.fr/~kauffman/cours 3 francois.kauffmann@unicaen.fr

la liste tables contient les tirages en forme de matrice. 1 100 2056 n11 429 426 440 n21 58 61 47 n12 108 107 100 n22 14 15 22 Table 2 Premier, centième et 2056 ème tirages normal eleve Sum non 426 107 533 oui 61 15 76 Sum 487 122 609 Table 3 Centième tirage Une seule question se pose, ici, pourquoi avons nous tous trouvé le même résultat alors que nous avons tiré aléatoirement nos données? 1.3.2 Le test empirique de monte-carlo 1. Calculer la statistique observée statistique.obs=443/(443+44)-95/(95+27) 2. Calculer le vecteur des différences des écarts de proportions sur l échantillon simulé. statistiques=sapply(tables,function(x) (as.matrix(prop.table(x,2))%*%c(1,-1))[1]) 3. On va estimer à partir des données simulées le nombre de fois ou l on a tiré une statistique plus grande que la valeur observée 0.13. Parmi nos 5000 tirages toutes les réalisations du modèle sont inférieure à 0.13. On peut donc dire que notre modèle sous hypothèse nulle est fort peu vraisemblable puisque sur 5000 tirages aucun des écarts de fréquence n a pu dépasser la valeur observée 0.13 hist(statistiques,breaks=100,freq=false,xlim=c(-0.15,0.15)) points(statistique.obs,0,pch=20,col="red",cex=3) table(statistiques> statistique.obs) Histogram of statistiques Density 0 2 4 6 8 10 12 14 0.15 0.10 0.05 0.00 0.05 0.10 0.15 statistiques Figure 2 Histogramme de la statistique simulée http://www.math.unicaen.fr/~kauffman/cours 4 francois.kauffmann@unicaen.fr

1.4 L approximation normale 1.4.1 Une approximation de la loi de la statistique Dans ce paragraphe on veut pouvoir mieux quantifier la probabilité de se tromper en refusant l hypothèse nulle. Pour ceci on va approximer la loi de la statistique par une loi normale et ainsi pourvoir donner une approximation de l évènement se tromper la p-value en refusant l hypothèse nulle: Pr([stat(ω) > stat obs ]) 1. Calculer la moyenne et l écart type de la statistique simulée > (moyenne=mean(statistiques)) [1] -0.0001011782 > (ecart.type=sd(statistiques)) [1] 0.03239802 2. On modélise la loi de la statistique par une variable aléatoire suivant une loi normale z N(m,sd) de moyenne nulle, d écart type sd 0.03. Sur un même graphique tracer l histogramme empirique des statistiques simulées ainsi que la densité d une loi normale de moyenne et d écart type précédemment calculés. Est ce que l approximation semble correcte? Que vaut la moyenne empirique des statistique? hist(statistiques,breaks=100,freq=false,xlim=c(-0.15,0.15)) points(statistique.obs,0,pch=20,col="red") x=seq(from=-0.15,to=0.15,length.out=100) densite=dnorm(x,mean=0,sd=ecart.type) lines(x,densite,col="red",lwd=3) points(statistique.obs,0,col="red",pch=20,cex=3) Histogram of statistiques Density 0 2 4 6 8 10 12 14 0.15 0.10 0.05 0.00 0.05 0.10 0.15 statistiques Figure 3 histogramme de la variable simulée et de son modèle 3. Calculer alors la probabilité pour que Pr([z(ω) > stat obs ]) Comparer ce résultat avec celui obtenu par simulation de monte-carlo. rbind( approximation=1-pnorm(statistique.obs,mean=0,sd=ecart.type), monte-carlo=sum(statistiques>statistique.obs)/length(statistiques) ) http://www.math.unicaen.fr/~kauffman/cours 5 francois.kauffmann@unicaen.fr

1.4.2 Le test de Wald Sous l hypothèse H 0 (π 1 = π 2 ), le mathématicien mathématicien Abraham Wald propose une modélisation de la loi statistique un peu différente de celle empirique précédente. On modélise la z = N 1,1 (ω)/n1 N 1,2 (ω)/n2 par une loi normale de moyenne nulle π 1 π 2 = 0 et d écart type En résumé sd = π1 (1 π 1 ) n1 + π 2(1 π 2 ) n2 z = N 1,1 (ω)/n1 N 1,2 (ω)/n2 N(0,sd) Calculez la probabilité P r([z > statistique.obs]), comparez vos résultats. statistique.sd.theo=sqrt(p1*(1-p1)/n1+p2*(1-p2)/n2) rbind( monte.carlo=sum(statistiques>statistique.obs)/length(statistiques), approximation=1-pnorm(statistique.obs,mean=0,sd=ecart.type), wald=1-pnorm(statistique.obs,mean=0,sd=statistique.sd.theo) ) 1.5 Conclusion p-value monte.carlo 0.000E+00 approximation 2.647E-05 wald 4.950E-04 prop.test 1.075E-4 Table 4 p-value Si l hypothèse nulle était vérifiée, on a environ au plus 5 chances sur 10000 pour qu une variable aléatoire de moyenne nulle et d écart type 0.03 soit plus grande en valeur absolue que 0.13. On a donc de très forts soupçons sur la véracité de notre hypothèse nulle. On rejette l hypothèse que les deux proportions soient égales et on a moins de 5 chances sur 10000 de se tromper. http://www.math.unicaen.fr/~kauffman/cours 6 francois.kauffmann@unicaen.fr