1 Simulation de Monte-carlo, test d écart de proportions

Documents pareils
NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Introduction à la statistique non paramétrique

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

TABLE DES MATIERES. C Exercices complémentaires 42

TESTS D'HYPOTHESES Etude d'un exemple

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Lire ; Compter ; Tester... avec R

TP N 57. Déploiement et renouvellement d une constellation de satellites

TSTI 2D CH X : Exemples de lois à densité 1

Introduction aux Statistiques et à l utilisation du logiciel R

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

«Cours Statistique et logiciel R»

Probabilités conditionnelles Loi binomiale

Calcul élémentaire des probabilités

Probabilités III Introduction à l évaluation d options

Peut-on imiter le hasard?

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Probabilités Loi binomiale Exercices corrigés

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Chapitre 3 : INFERENCE

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

Annexe commune aux séries ES, L et S : boîtes et quantiles

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Lois de probabilité. Anita Burgun

Soutenance de stage Laboratoire des Signaux et Systèmes

Les mathématiques du XXe siècle

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

BTS Groupement A. Mathématiques Session Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

La simulation probabiliste avec Excel

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Calculs de probabilités conditionelles

Estimation du coût de l incessibilité des BSA

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Agrégation des portefeuilles de contrats d assurance vie

Programmes des classes préparatoires aux Grandes Ecoles

Ressources pour le lycée général et technologique

FIMA, 7 juillet 2005

Chaînes de Markov au lycée

Optimisation des ressources des produits automobile première

Simulation d'un examen anthropomorphique en imagerie TEMP à l iode 131 par simulation Monte Carlo GATE

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

L E Ç O N. Marches aléatoires. Niveau : Terminale S Prérequis : aucun

Des familles de deux enfants

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Estimation et tests statistiques, TD 5. Solutions

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

!-.!#- $'( 1&) &) (,' &*- %,!

Précision d un résultat et calculs d incertitudes

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Analyse de la variance Comparaison de plusieurs moyennes

L exclusion mutuelle distribuée

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Représentation d une distribution

Que faire lorsqu on considère plusieurs variables en même temps?

Statistiques avec la graph 35+

Les risques liés à l activité de l entreprise : quels outils pour les identifier?

Introduction à l approche bootstrap

POKER ET PROBABILITÉ

Variables Aléatoires. Chapitre 2

Correction du baccalauréat ES/L Métropole 20 juin 2014

Incertitudes expérimentales

CNAM léments de cours Bonus-malus et Crédibilité

O, i, ) ln x. (ln x)2

TRAVAUX DE RECHERCHE DANS LE

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Manipuler des données calendaires

Loi binomiale Lois normales

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Fluctuation d une fréquence selon les échantillons - Probabilités

Aide-mémoire de statistique appliquée à la biologie

Mesures de temps de propagation de groupe sur convertisseurs de fréquence sans accès aux OL

Biostatistiques : Petits effectifs

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Un exemple de régression logistique sous

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Statistique : Résumé de cours et méthodes

PROBABILITES ET STATISTIQUE I&II

M2 IAD UE MODE Notes de cours (3)

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

4 Distributions particulières de probabilités

Chapitre 3. Les distributions à deux variables

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

P1 : Corrigés des exercices

Transcription:

1 Simulation de Monte-carlo, test d écart de proportions Sommaire 1.1 Description................................................. 1 1.1.1 Objectifs................................................... 1 1.1.2 Simulation de Monte-carlo.......................................... 1 1.1.3 L observation et un test........................................... 1 1.2 Un modèle et hypothèse......................................... 2 1.2.1 Le modèle probabiliste............................................ 2 1.2.2 L hypothèse nulle H 0(π 1 = π 2)....................................... 3 1.2.3 Le modèle probabiliste sous hypothèse nulle H 0(π 1 = π 2)........................ 3 1.2.4 La statistique : l écart de proportion.................................... 3 1.3 Méthode de monte-carlo......................................... 3 1.3.1 La simulation sous l hypothèse nulle H 0(π 1 = π 2)............................. 3 1.3.2 Le test empirique de monte-carlo...................................... 4 1.4 L approximation normale........................................ 5 1.4.1 Une approximation de la loi de la statistique............................... 5 1.4.2 Le test de Wald................................................ 6 1.5 Conclusion................................................. 6 1.1 Description 1.1.1 Objectifs Dans cet exercice on teste l égalité de deux proportions Wald c est une méthode aléatoire théorique qui modélise l écart entre deux proportions à l aide de la loi normale. Elle utile l approximation gaussienne. chi2 c est aussi un modéle aléatoire qui utilse la loi du χ 2? Monte-carlo on simule deux échantillons binomiaux dans le quel les deux proportions sont égales, on compare l écart observé aux valeurs simulées des écarts et on en déduit une probabilité empirique d occurence. 1.1.2 Simulation de Monte-carlo La méthode de simulation de monte-carlo consiste à tirer aléatoirement un grand nombre d échantillon d une réalisation d un phénomène aléatoire. A partir de l échantillon aléatoire, on calcule la loi empirique de cet échantillon qui est approximée par une loi théorique. On peut étudier les fonctions de probabilités, les densités, les fonctions de répartition, les moyennes, les écarts types,... Ici on va étudier si une différence de proportion peut être nulle. 1.1.3 L observation et un test normal eleve non 443 95 oui 44 27 Table 1 Le tableau de contingence croisant infartus et traux de catécholamine var.x="cat" tableau=table(x$y,x[[var.x]]) plot(y~cat,data=x,col=c('green','red')) http://www.math.unicaen.fr/~kauffman/cours 1 francois.kauffmann@unicaen.fr

y non oui normal eleve 0.0 0.2 0.4 0.6 0.8 1.0 cat Figure 1 Diagramme mosaic infarctus en fonction de la dose de catécholamine La question que nous allons nous poser est: est ce que les deux proportions de ne pas être malade pourraient être égales (hypothèse nulle)? Si on refuse cette hypothèse quelle est la probabilité de se tromper (p.value). On utilise ici un test appelé du chi 2 (Pearson). > prop.test(t(tableau)) 2-sample test for equality of proportions with continuity correction data: t(tableau) X-squared = 14.9998, df = 1, p-value = 0.0001075 alternative hypothesis: two.sided 95 percent confidence interval: 0.0478977 0.2140271 sample estimates: prop 1 prop 2 0.9096509 0.7786885 On refuse l hypothèse que les deux proportions puissent être égale, c est à dire qu il y a un effet du taux de catécholamine sur la probabilité d être malade. Et on a moins de 2 chances sur 10000 de se tromper en affirmant ceci en supposant que le modèle mathématique est juste. 1.2 Un modèle et hypothèse 1.2.1 Le modèle probabiliste On modélise le nombre de personnes n ayant pas eu un infartus par une variable aléatoire binomiale y1 B(n,π) ou n est le nombre de personnes et π est la probabilité d avoir un infarctus. échantillon avec un taux de catécholamine normal n 1 = 487 π1 obs = 443 44+443. Le modèle probabiliste du nombre de personnes non atteinte d infarctus est une variable aléatoire y 1 suivant la loi B(n 1,π 1 ). Le vrai paramètre π 1 est une inconnue c est un paramètre du modèle. échantillon avec un taux de catécholamine élevé n 2 = 122 π1 obs = 95 95+27. Le modèle probabiliste du nombre de personnes non atteinte d infarctus est une variable aléatoire y 2 suivant la loi B(n 2,π 2 ). Le vrai paramètre π 2 est une inconnue c est un paramètre du modèle. On suppose que ces deux variables sont indépedantes. http://www.math.unicaen.fr/~kauffman/cours 2 francois.kauffmann@unicaen.fr

1.2.2 L hypothèse nulle H 0 (π 1 = π 2 ) Ici on suppose que π 1 = π 2 = π 0 88%. On étudie si cette hypothèse est réaliste en faisant des tirages aléatoires. On observe les proportions de tirages positifs et on regarde si il est vraisemblable de varier de π1 obs à π2 obs. 1.2.3 Le modèle probabiliste sous hypothèse nulle H 0 (π 1 = π 2 ) L observation est normal eleve non 443 95 oui 44 27 somme n1 = 487 n2 = 122 Le modèle aléatoire de ce tableau de contingence sous l hypothèse nulle est normal elevé non N 1,1 (ω) N 1,2 (ω) oui n1 N 1,1 (ω) n2 N 1,2 (ω) somme n1 = 487 n2 = 122 ou N 1,1 B(n = 487,p 0 ) et N 2,2 B(n = 122,p 0 ) avec p 0 = 538 538+71. 1.2.4 La statistique : l écart de proportion On va voir si l hypothèse que π 1 = π 2 = π 0 est nulle est vraisemblable en étudiant observation la valeur observée modèle modélisée par la variable aléatoire simulation 5000 tirages stat obs = π obs 1 π obs 2 stat(ω) = N 1,1 (ω)/n1 N 1,2 (ω)/n2. (stat(ω 1 ) = N 1,1 (ω 1 )/n1 N 1,2 (ω 1 )/n2,,stat(ω 5000 ) = N 1,1 (ω 5000 )/n1 N 1,2 (ω 5000 )/n2) 1.3 Méthode de monte-carlo 1.3.1 La simulation sous l hypothèse nulle H 0 (π 1 = π 2 ) On va tirer (réaliser) 5000 tirages indépendants de ce couple de variable aléatoire. nb.sample=5000 p0=(table(x$y)/nrow(x))[['non']] # hypothèse nulle set.seed(1) n11=rbinom(nb.sample,size=n1,p0) n21=n1-n11 n12=rbinom(nb.sample,size=n2,p0) n22=n2-n12 A=rbind(n11,n21,n12,n22) tables=list() for (i in 1:nb.sample) tables[[i]]=matrix(a[,i],ncol=2, dimnames=list(c('non','oui'),c('normal','eleve'))) # centième tirage tables[[100]] # vérifier que on a tiré le bon nombre de personnes addmargins(tables[[100]]) http://www.math.unicaen.fr/~kauffman/cours 3 francois.kauffmann@unicaen.fr

la liste tables contient les tirages en forme de matrice. 1 100 2056 n11 429 426 440 n21 58 61 47 n12 108 107 100 n22 14 15 22 Table 2 Premier, centième et 2056 ème tirages normal eleve Sum non 426 107 533 oui 61 15 76 Sum 487 122 609 Table 3 Centième tirage Une seule question se pose, ici, pourquoi avons nous tous trouvé le même résultat alors que nous avons tiré aléatoirement nos données? 1.3.2 Le test empirique de monte-carlo 1. Calculer la statistique observée statistique.obs=443/(443+44)-95/(95+27) 2. Calculer le vecteur des différences des écarts de proportions sur l échantillon simulé. statistiques=sapply(tables,function(x) (as.matrix(prop.table(x,2))%*%c(1,-1))[1]) 3. On va estimer à partir des données simulées le nombre de fois ou l on a tiré une statistique plus grande que la valeur observée 0.13. Parmi nos 5000 tirages toutes les réalisations du modèle sont inférieure à 0.13. On peut donc dire que notre modèle sous hypothèse nulle est fort peu vraisemblable puisque sur 5000 tirages aucun des écarts de fréquence n a pu dépasser la valeur observée 0.13 hist(statistiques,breaks=100,freq=false,xlim=c(-0.15,0.15)) points(statistique.obs,0,pch=20,col="red",cex=3) table(statistiques> statistique.obs) Histogram of statistiques Density 0 2 4 6 8 10 12 14 0.15 0.10 0.05 0.00 0.05 0.10 0.15 statistiques Figure 2 Histogramme de la statistique simulée http://www.math.unicaen.fr/~kauffman/cours 4 francois.kauffmann@unicaen.fr

1.4 L approximation normale 1.4.1 Une approximation de la loi de la statistique Dans ce paragraphe on veut pouvoir mieux quantifier la probabilité de se tromper en refusant l hypothèse nulle. Pour ceci on va approximer la loi de la statistique par une loi normale et ainsi pourvoir donner une approximation de l évènement se tromper la p-value en refusant l hypothèse nulle: Pr([stat(ω) > stat obs ]) 1. Calculer la moyenne et l écart type de la statistique simulée > (moyenne=mean(statistiques)) [1] -0.0001011782 > (ecart.type=sd(statistiques)) [1] 0.03239802 2. On modélise la loi de la statistique par une variable aléatoire suivant une loi normale z N(m,sd) de moyenne nulle, d écart type sd 0.03. Sur un même graphique tracer l histogramme empirique des statistiques simulées ainsi que la densité d une loi normale de moyenne et d écart type précédemment calculés. Est ce que l approximation semble correcte? Que vaut la moyenne empirique des statistique? hist(statistiques,breaks=100,freq=false,xlim=c(-0.15,0.15)) points(statistique.obs,0,pch=20,col="red") x=seq(from=-0.15,to=0.15,length.out=100) densite=dnorm(x,mean=0,sd=ecart.type) lines(x,densite,col="red",lwd=3) points(statistique.obs,0,col="red",pch=20,cex=3) Histogram of statistiques Density 0 2 4 6 8 10 12 14 0.15 0.10 0.05 0.00 0.05 0.10 0.15 statistiques Figure 3 histogramme de la variable simulée et de son modèle 3. Calculer alors la probabilité pour que Pr([z(ω) > stat obs ]) Comparer ce résultat avec celui obtenu par simulation de monte-carlo. rbind( approximation=1-pnorm(statistique.obs,mean=0,sd=ecart.type), monte-carlo=sum(statistiques>statistique.obs)/length(statistiques) ) http://www.math.unicaen.fr/~kauffman/cours 5 francois.kauffmann@unicaen.fr

1.4.2 Le test de Wald Sous l hypothèse H 0 (π 1 = π 2 ), le mathématicien mathématicien Abraham Wald propose une modélisation de la loi statistique un peu différente de celle empirique précédente. On modélise la z = N 1,1 (ω)/n1 N 1,2 (ω)/n2 par une loi normale de moyenne nulle π 1 π 2 = 0 et d écart type En résumé sd = π1 (1 π 1 ) n1 + π 2(1 π 2 ) n2 z = N 1,1 (ω)/n1 N 1,2 (ω)/n2 N(0,sd) Calculez la probabilité P r([z > statistique.obs]), comparez vos résultats. statistique.sd.theo=sqrt(p1*(1-p1)/n1+p2*(1-p2)/n2) rbind( monte.carlo=sum(statistiques>statistique.obs)/length(statistiques), approximation=1-pnorm(statistique.obs,mean=0,sd=ecart.type), wald=1-pnorm(statistique.obs,mean=0,sd=statistique.sd.theo) ) 1.5 Conclusion p-value monte.carlo 0.000E+00 approximation 2.647E-05 wald 4.950E-04 prop.test 1.075E-4 Table 4 p-value Si l hypothèse nulle était vérifiée, on a environ au plus 5 chances sur 10000 pour qu une variable aléatoire de moyenne nulle et d écart type 0.03 soit plus grande en valeur absolue que 0.13. On a donc de très forts soupçons sur la véracité de notre hypothèse nulle. On rejette l hypothèse que les deux proportions soient égales et on a moins de 5 chances sur 10000 de se tromper. http://www.math.unicaen.fr/~kauffman/cours 6 francois.kauffmann@unicaen.fr