Pla du cours 2 RFIDEC cours 2 : Échatillos, estimatios poctuelles Christophe Gozales LIP6 Uiversité Paris 6, Frace 1 Lois des grads ombres 2 Théorème cetral-limite 3 Estimatio poctuelle à partir d échatillos 4 Biais das les estimatios Covergece e probabilité RFIDEC cours 2 : Échatillos, estimatios poctuelles 2/37 Loi faible des grads ombres Loi faible Défiitio (X ) N : suite de variables a : costate (X ) coverge e probabilité vers a si, pour tout ɛ > 0 la probabilité que l écart absolu etre X et a dépasse ɛ ted vers 0 quad : 000 111 0000 1111 lim P( X a ɛ) = 0 0000 1111 a ɛ a 00 11 0000 1111 0000 1111 a + ɛ (X ) N est ue suite de variables aléatoires : de même loi d espérace m possédat ue variace σ 2 deux à deux idépedates k=1 alors la suite des variables X = X k coverge e probabilité vers m X est appelée moyee empirique Aire hachurée ted vers 0 quad RFIDEC cours 2 : Échatillos, estimatios poctuelles 3/37 E(X ) = m V (X ) = σ2 coséquece : échatillos de grades tailles = boe chace d estimer m RFIDEC cours 2 : Échatillos, estimatios poctuelles 4/37
Covergece presque sûre Loi forte des grads ombres Défiitio (X ) N : suite de variables a : costate (X ) coverge presque sûremet vers a s il y a ue proba 1 que la suite des réalisatios des X tede vers a : ( ) P lim X = a = 1 Loi forte (X ) N : suite de variables aléatoires de même loi d espérace m possédat ue variace σ 2 mutuellemet idépedates k=1 alors la suite des variables X = X k presque sûremet vers m coverge Défiitio plus exigeate que la covergece e probabilité Iterprétatio : échatillo de grade taille = boe estimatio de m RFIDEC cours 2 : Échatillos, estimatios poctuelles 5/37 Covergece e loi RFIDEC cours 2 : Échatillos, estimatios poctuelles 6/37 Théorème cetral-limite Défiitio (X ) N : suite de variables F : foctio de répartitio de X X : variable de foctio de répartitio F La suite X coverge e loi vers X lorsque F (x) ted vers F(x) e tout poit de cotiuité de F Notatio : X loi X Théorème cetral-limite (X ) N : suite de variables de même loi d espérace µ de variace σ 2 mutuellemet idépedates alors la suite des moyees empiriques cetrées réduites X µ σ / ted e loi vers la loi ormale cetrée réduite : X µ σ / loi N (0, 1) RFIDEC cours 2 : Échatillos, estimatios poctuelles 7/37 RFIDEC cours 2 : Échatillos, estimatios poctuelles 8/37
Illustratio du théorème cetral-limite (1/4) Illustratio du théorème cetral-limite (2/4) distributio de X pour 2 jets de dés Lacés de dés à 6 faces = { Xi = résultat du jet du ième dé X = somme des résultats des dés 1 6 distributio de X pour 1 jet de dé 6 5 4 3 2 1 1 2 3 4 5 6 RFIDEC cours 2 : Échatillos, estimatios poctuelles 9/37 Illustratio du théorème cetral-limite (3/4) distributio de X pour 3 jets de dés y 1 2 3 4 5 6 7 8 9 10 11 12 RFIDEC cours 2 : Échatillos, estimatios poctuelles 10/37 Illustratio du théorème cetral-limite (4/4) distributio de X pour 4 jets de dés y 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 RFIDEC cours 2 : Échatillos, estimatios poctuelles 11/37 y 3 12 4 5 6 7 8 9 10 11 13 14 17 15 16 18 19 20 21 22 23 24 y 4 RFIDEC cours 2 : Échatillos, estimatios poctuelles 12/37
Statistique iféretielle Statistique iféretielle Statistique iféretielle Hypothèses : les doées = les observatios observatios (x 1,..., x ) = réalisatio d ue variable aléatoire multidimesioelle X = (X 1,..., X ) observatios = échatillo empirique l échatillo est tiré suivat ue loi X 0 Exemples : sodages électoraux, études de marché tests de fiabilité/qualité bases de doées = diagostic But : chaque variable X i suit la même loi que X 0 déduire des iformatios sur X 0 RFIDEC cours 2 : Échatillos, estimatios poctuelles 13/37 Estimatio poctuelle RFIDEC cours 2 : Échatillos, estimatios poctuelles 14/37 Échatilloage (1/2) Idée force Das moult études statistiques : populatio de grade taille = impossible de la coaître précisémet possibilité de prélever des échatillos caractéristique de la populatio = échatillo = problème : commet prélever l échatillo? = étudier l échatillo et e déduire les caractéristiques de la populatio caractéristiques : moyee µ, variace σ 2, proportio de succès p Défiitio d u échatillo Échatillo d ue populatio = sous-esemble représetatif de la populatio = compositio de l échatillo due au hasard RFIDEC cours 2 : Échatillos, estimatios poctuelles 15/37 RFIDEC cours 2 : Échatillos, estimatios poctuelles 16/37
Échatilloage (2/2) Prélèvemet d u échatillo 2 maières de prélever u échatillo aléatoiremet : 1 Échatilloage avec remise : choisir u idividu au hasard oter la valeur de la variable d itérêt pour celui-ci remettre l idividu das la populatio réitérer le processus 2 Échatilloage sas remise : même procédé mais sas remettre das la populatio les idividus sélectioés échatilloage avec remise = u idividu peut apparaître plusieurs fois das l échatillo populatio de grade taille = avec remise sas remise RFIDEC cours 2 : Échatillos, estimatios poctuelles 17/37 Estimatio de la moyee d ue populatio (2/4) Estimatio de la moyee d ue populatio (1/4) résultats suivat valables uiquemet pour des échatillos avec remise = o va travailler avec des échatillos i.i.d : Échatillo i.i.d échatillo de idividus X i = variable aléatoire valeur du ième idividu tiré les X i sot mutuellemet idépedats les X i ot tous la même distributio = les X i sot idépedats et idetiquemet distribués (i.i.d) échatillos i.i.d = boes propriétés mathématiques RFIDEC cours 2 : Échatillos, estimatios poctuelles 18/37 Estimatio de la moyee d ue populatio (3/4) X variable aléatoire sur l esemble de la populatio espérace : µ, variace : σ 2 échatillo de idividus = observatio de valeurs de X X i : variable aléatoire correspodat au ième idividu échatillo i.i.d = espérace de X i : µ, variace de X i : σ 2 X = X 1 + X 2 + + X Problèmes : que valet E(X) et V (X)? = moyee de l échatillo RFIDEC cours 2 : Échatillos, estimatios poctuelles 19/37 E(X) = 1 E(X 1 + X 2 + + X ) = 1 (E(X 1) + E(X 2 ) + + E(X )) = 1 (µ + µ + + µ) = µ variables X i mutuellemet idépedates = ( ) X1 + X 2 + + X V (X) = V = 1 2 V (X 1 + X 2 + + X ) = 1 2 (V (X 1) + V (X 2 ) + + V (X )) = 1 2 (σ2 + σ 2 + + σ 2 ) = σ2 RFIDEC cours 2 : Échatillos, estimatios poctuelles 20/37
Estimatio de la moyee d ue populatio (4/4) Exemple : calcul du hadicap au bowlig Théorème 1 X : variable aléatoire espérace de X : µ, variace de X : σ 2 échatillo de taille avec remise sur X X : variable aléatoire moyee de l échatillo Alors : E(X) = µ et V (X) = σ2 Compétitio e 2 phases : 1ère phase : 6 parties calcul du hadicap : Hadicap H = (215 moyee des 6 parties) 60% 2ème phase : 6 parties (score + le hadicap H) Corollaire X : variable aléatoire suivat ue loi ormale N (µ; σ 2 ) échatillo de taille avec remise sur X X : variable aléatoire moyee de l échatillo Calcul du hadicap = estimatio de votre iveau 6 parties de la 1ère phase = échatillo de taille 6 X i = variable aléatoire score de la ième partie Alors : X N (µ; σ2 ) idée : scores de l échatillo = score moye de la populatio RFIDEC cours 2 : Échatillos, estimatios poctuelles 21/37 Retour sur l estimatio de la moyee RFIDEC cours 2 : Échatillos, estimatios poctuelles 22/37 Exemple 1 : la plache de Galto (1/2) Problème : que faire si X e suit pas ue loi ormale? = sauvé grâce au théorème cetral-limite : Théorème 2 X : variable aléatoire espérace de X : µ, variace de X : σ 2 échatillo de taille avec remise sur X suffisammet grad ( 30 si la distributio de X est pas trop dissymétrique, 50 sio) X : variable aléatoire moyee de l échatillo Alors : X E(X) V (X) = X µ σ N (0; 1) RFIDEC cours 2 : Échatillos, estimatios poctuelles 23/37 RFIDEC cours 2 : Échatillos, estimatios poctuelles 24/37
Exemple 1 : la plache de Galto (2/2) Exemple 2 : aalyse des déchets chaque iveau = expériece de Beroulli = X loi biomiale = X loi ormale théorème 2 = X E(X) V (X) = X µ σ N (0; 1) Greelle de l eviroemet = réductio des déchets = aalyse des déchets impossible à réaliser sur toute la populatio = échatillo de taille 100 : 450 320 320 390 410 415 380 390 440 350 400 380 430 400 375 moyee de l échatillo = 390 kg/a/habitat X : variable aléatoire moyee de l échatillo σ = 20 supposé cou X N (µ, σ2 ) = écart-type de X = 20/10 = 2 RFIDEC cours 2 : Échatillos, estimatios poctuelles 25/37 Estimatio de proportios de succès (1/3) RFIDEC cours 2 : Échatillos, estimatios poctuelles 26/37 Estimatio de proportios de succès (2/3) Problème : v.s. Questio : peut-o déduire p e observat les p i? p = proportio de succès das la populatio (p pas trop petit) échatillo i.i.d de taille assez grad P i = variable aléatoire succès du ième idividu lacemet de la Wii = étude de marché échatillo de taille = succès = Wii, échec = PS3 p = proportio de succès das toute la populatio P i : variable aléatoire succès du ième idividu Questio : peut-o déduire p e observat les p i? RFIDEC cours 2 : Échatillos, estimatios poctuelles 27/37 P i loi biomiale B(1, p) P = moyee de l échatillo Théorème cetral-limite = P E(P) V (P) Or P 1 B(; p) = E(P) = p N (0; 1) et V (P) = p(1 p) RFIDEC cours 2 : Échatillos, estimatios poctuelles 28/37
Estimatio de proportios de succès (3/3) Applicatio du théorème précédet Théorème 3 échatillo i.i.d de taille assez grad p = proportio de succès das la populatio (p pas trop petit) P = moyee de l échatillo Alors : P E(P) V (P) = P p p(1 p) N (0; 1) = o peut estimer p e observat la valeur de P RFIDEC cours 2 : Échatillos, estimatios poctuelles 29/37 Applicatio au réchauffemet climatique Avril 2007 : étude tms-sofres / CNRS : opiio des ges sur le réchauffemet climatique 1000 persoes de 15 as et + iterrogées = échatillo i.i.d 790 peset qu il y a u chagemet climatique 210 e le peset pas P : proportio de succès moyee de l échatillo p : proportio de persoes pesat qu il y a dérèglemet climatique das la populatio fraçaise P p N (0; 1) p(1 p) 0.25 = estimatio de p = 79%, écart-type de P 1000 0, 015 RFIDEC cours 2 : Échatillos, estimatios poctuelles 31/37 Expert : 80% v.s. 20% échatillo de 100 persoes = 70 Wii et 30 PS3 Doit-o croire l expert? si p = 80% alors Théorème 3 = P 0, 8 0,8 0,2 100 Prob(P 0.7) = Prob(25(P 0.8) 25 (0.7 0.8)) = Prob(25(P 0.8) 2, 5) 0, 62% = 25(P 0, 8) N (0; 1) RFIDEC cours 2 : Échatillos, estimatios poctuelles 30/37 Caractéristiques des estimateurs Trasparets précédets = si échatillo de grade taille alors X µ = estimer µ par X Estimateur o biaisé Estimateur T d u paramètre θ = valeur estimée ˆθ T o biaisé si E(T ) = θ estimateur biaisé = o surévalue ou sous-évalue θ Estimateur coverget Estimateur T d u paramètre θ T coverget si E[(T θ) 2 ] 0 lorsque la taille de l échatillo moyee X et proportio de succès P : estimateurs o biaisés et covergets RFIDEC cours 2 : Échatillos, estimatios poctuelles 32/37
Biais : estimatio poctuelle d ue variace (1/5) populatio = 4 ombres {1, 2, 3, 4} µ = 5 2 et σ2 = 5 4 échatillo de taille 2 avec remise : échat. espérace variace échat. espérace variace 1 1 E(X) = 1 V (X) = 0 1 2 E(X) = 3 2 1 3 E(X) = 2 V (X) = 1 1 4 E(X) = 5 2 V (X) = 9 4 2 1 E(X) = 3 2 2 2 E(X) = 2 V (X) = 0 2 3 E(X) = 5 2 2 4 E(X) = 3 V (X) = 1 3 1 E(X) = 2 V (X) = 1 3 2 E(X) = 5 2 3 3 E(X) = 3 V (X) = 0 3 4 E(X) = 7 2 4 1 E(X) = 5 2 V (X) = 9 4 4 2 E(X) = 3 V (X) = 1 4 3 E(X) = 7 2 4 4 E(X) = 4 V (X) = 0 { des moyees des échatillos = µ espérace des variaces des échatillos = 5 8 5 4 = biais! RFIDEC cours 2 : Échatillos, estimatios poctuelles 33/37 Biais : estimatio poctuelle d ue variace (3/5) S 2 = 1 ( (X i X) 2 = 1 X 2 i ) X 2 s 2 est ue réalisatio de S 2 ( ( ) ) ( ) E(S) 2 1 = E Xi 2 X 2 = 1 E(Xi 2 ) Or échatillo i.i.d = i, E(X 2 i ) = E(X 2 ) = E(S 2 ) = E(X 2 ) E(X 2 ) E (X 2) Or V (X) = E(X 2 ) E(X) 2 et V (X) = E(X 2 ) E(X) 2 = E(X 2 ) E(X) 2 = E(S 2 ) = V (X) + E(X) 2 V (X) E(X) 2 = V (X) V (X) Or échatillo i.i.d = V (X) = σ 2 et V (X) = σ2 = E(S) 2 = σ 2 σ2 = 1 RFIDEC cours 2 : Échatillos, estimatios poctuelles 35/37 σ2 Biais : estimatio poctuelle d ue variace (2/5) X : variable aléatoire sur l esemble de la populatio σ 2 : variace de X échatillo i.i.d.de taille X i : variable aléatoire correspodat au ième idividu x i : valeur observée de X i X : variable aléatoire moyee sur l échatillo x : valeur observée de X ( s 2 = 1 (x i x) 2 = 1 s 2 = variace de l échatillo x 2 i ) x 2 Problème : pourquoi s 2 est-il pas u bo estimateur de σ 2? RFIDEC cours 2 : Échatillos, estimatios poctuelles 34/37 Biais : estimatio poctuelle d ue variace (4/5) courbe verte : la populatio courbes rouges : échatillos pts bleus : valeurs observées variace S 2 sous-estimée : mesurée par rapport à la moyee de l échatillo au lieu de la moyee de la populatio RFIDEC cours 2 : Échatillos, estimatios poctuelles /37
Biais : estimatio poctuelle d ue variace (5/5) Variace corrigée X : variable aléatoire sur la populatio σ 2 : variace de X sur cette populatio échatillo de taille avec remise X i : variable aléatoire correspodat au ième idividu X : moyee des X i ( alors : E 1 ) (X i X) 2 = σ 2 Variace corrigée : 1 fois la variace de l échatillo S2 RFIDEC cours 2 : Échatillos, estimatios poctuelles 37/37