Estimatios et itervalles de cofiace Estimatios et itervalles de cofiace Résumé Cette vigette itroduit la otio d estimateur et ses propriétés : covergece, biais, erreur quadratique, avat d aborder l estimatio poctuelle de paramètres de loi : proportio, moyee, variace. La coaissace des lois de ce estimateurs permet l estimatio par itervalle de cofiace et doc de préciser l icertitude sur ces estimatios : itervalle de cofiace d ue proportio, d ue moyee si la variace est coue ou o, d ue variace. Retour au pla du cours. 1 Itroductio Le cadre est le suivat : o dispose de doées observées e ombre fii et l o désire tirer des coclusios de ces doées sur l esemble de la populatio. O fait alors ue hypothèse raisoable : il existe ue loi de probabilité sous-jacete telle que les valeurs observables" des différets élémets de la populatio étudiée puisset être cosidérées comme des variables aléatoires idépedates ayat cette loi. U aspect importat de l iférece statistique cosiste à obteir des estimatios fiables" des caractéristiques d ue populatio de grade taille à partir d u échatillo extrait de cette populatio. C est u problème de décisio cocerat des paramètres qui le plus souvet sot : l espérace mathématique µ ; la proportio p ; la variace 2. Ces paramètres sot a priori icous car la taille réelle de la populatio état très grade, il serait trop coûteux de tester tous les élémets de la populatio. Aisi, comme u échatillo e peut doer qu ue iformatio partielle sur la populatio, les estimatios que l o obtiedra serot iévitablemet etachées d erreurs qu il s agit d évaluer et de miimiser autat que possible. E résumé, estimer u paramètre icou, c est e doer ue valeur approchée à partir des résultats obteus sur u échatillo aléatoire extrait de la populatio sous-jacete. Exemple : U semecier a récolté 5 toes de graies de Touresol. Il a besoi de coaître le taux de germiatio de ces graies avat de les mettre e vete. Il extrait u échatillo de 40 graies, les dépose sur u buvard humide et compte le ombre de graies ayat évolué favorablemet. O remarque que ce cotrôle est de type destructif : l échatillo ayat servi au cotrôle e peut plus être commercialisé. Il s agit doc d évaluer la proportio p des graies de la populatio à grad effectif, présetat u certai caractère X : succès de la germiatio. Même avec ue populatio d effectif restreit, u cotrôle destructif impose de faire cofiace à u échatillo restreit et la valeur exacte de p e peut être calculée. Le modèle s écrit comme réalisatios x i de v.a.r. idépedates de Beroulli X i défiies par : { 1 si l idividu i présete le caractère X X i = 0 sio. Il est aturel d estimer p par x = 1 x i, qui est la proportio des idividus ayat le caractère X das l échatillo. E effet, la LGN ous assure de la covergece e probabilité de la v.a.r. X = 1 X i vers l espérace de X 1, c est-à-dire p ; X est l estimateur de la proportio p et p est estimée par la réalisatio x de X. Das l expériece de germiatio, 36 graies ot eu ue issue favorable avec x i = 1. La proportio estimée est x = 40/36 = 0, 9 C est ue estimatio dite poctuelle. D autre part, das toute disciplie scietifique, il est importat d avoir ue idicatio de la qualité d u résultat ou ecore de l erreur dot elle peut-être affectée. Ceci se traduit e statistique par la recherche d u itervalle, dit itervalle de cofiace, dot o peut assurer, avec u risque d erreur cotrôlé et petit, que cet itervalle cotiet la vraie valeur icoue du paramètre. Das la suite ous ous itéresseros doc à deux types d estimatios : soit ue estimatio doée par valeur scalaire issue des réalisatios des v.a.r. X i : l estimatio poctuelle ; soit ue estimatio doée par u esemble de valeurs apparteat à u itervalle : l estimatio par itervalle de cofiace cotrôlé par u risque d erreur fixé a priori. 1
2 Estimatios et itervalles de cofiace 2 Estimatio poctuelle 2.1 Estimateur Covergece DÉFINITION 1. U -échatillo aléatoire issu d ue v.a.r. X est u esemble X 1,..., X de v.a.r. idépedates et de même loi que X. Soit θ u paramètre associé à la loi de X, par exemple θ = EX ou θ = VarX. À partir de l observatio d u échatillo aléatoire X 1,..., X, o souhaite estimer le paramètre θ. DÉFINITION 2. U estimateur θ de θ est ue foctio qui déped uiquemet du -échatillo X 1,..., X. Il est dit coverget s il est proche" de θ au ses de la covergece e probabilité : pour tout ɛ > 0, θ θ > ɛ 0. + Das l exemple de l itroductio, la quatité 1 X i est u estimateur coverget de p et si, par exemple, o a observé 21 pièces défectueuses sur u lot de 1500 pièces prélevées, l estimatio poctuelle de p obteue est x = 21/1500 = 1, 4%. our estimer l espérace µ des variables aléatoires X i, o utilise la moyee empirique X = 1 X i, car par la LGN, o sait qu elle coverge e probabilité vers l espérace µ = EX 1. Le but de la théorie de l estimatio est de choisir, parmi toutes les statistiques possibles, le meilleur" estimateur coverget, c est-à-dire celui qui doera ue estimatio poctuelle la plus proche possible du paramètre et ceci, quel que soit l échatillo. Exemple : Cosidéros ue v.a.r. X représetat le ombre de grippes attrapées par ue persoe e u a. O peut supposer que X suit ue loi de oisso de paramètre λ > 0. Chercher la loi de X, c est chercher λ, qui est autre que l espérace mathématique de X. ar coséquet, la LGN ous idique que X est u estimateur coverget de λ : pour tout ɛ > 0, 1 X i λ ɛ 0. + Grâce à l iégalité de Chebychev, o peut démotrer le théorème suivat : THÉORÈME 3. Soit θ u estimateur de θ. Si l o a : lim E θ = θ et lim Var θ = 0, + + alors θ est u estimateur coverget de θ. Biais DÉFINITION 4. Soit θ u estimateur coverget d u paramètre θ. O appelle biais la quatité E θ θ. L estimateur θ est dit sas biais si E θ = θ, et biaisé sio. Exemple : La moyee empirique X est u estimateur coverget et sas biais de l espérace mathématique µ. Écart quadratique moye Notos que l o a { E θ θ 2} = E { θ E θ + E θ θ 2} { = E θ E θ 2 + E θ θ 2 + 2 θ E θ E θ = Var θ + biais 2, { } car le terme E θ E θ E θ θ est ul. Aisi, pour redre l écart } quadratique moye E { θ θ 2 le plus petit possible, il faut que
3 Estimatios et itervalles de cofiace E θ = θ, doc choisir u estimateur sas biais, la variace Var θ soit faible. O choisira doc, parmi les estimateurs covergets et sas biais, celui qui a la variace la plus petite. E d autres termes, si θ est u estimateur coverget et sas biais de θ, o a tout itérêt à ce que θ e varie pas trop autour de sa moyee. Cette propriété traduit ce que l o appelle l efficacité de l estimateur. 2.2 Estimateur d ue moyee ou d ue proportio O cosidère u -échatillo X 1,..., X issu d ue loi de moyee µ et de variace 2, toutes deux icoues. 1. d après la LGN, la moyee empirique X est u estimateur coverget de µ. 2. l estimateur X est sas biais. 3. par idépedace : VarX = 2. 4. loi de X : si X N µ, 2, alors X N µ, 2 /. lorsque est grad, d après le TCL, la loi de X est approchée par ue loi ormale N µ, 2 /. L estimatio d ue proportio p est u cas particulier du précédet, au ses où les v.a.r. X i cosidérées sot de Beroulli de paramètre p. 2.3 Estimateur de la variace DÉFINITION 5. La variace empirique associée à u -échatillo X 1,..., X est défiie par S 2 = 1 1 X i X 2. DÉFINITION 6. Soit Y 1,..., Y u -échatillo de v.a.r. de loi N 0, 1. O appelle loi du chi-deux à degrés de liberté la loi de la v.a.r. Y i 2, et o la ote χ 2. ropriétés de la variace empirique : 1. S 2 est u estimateur coverget de la variace 2. 2. S 2 est sas biais. 3. loi de S 2 : pas de résultat gééral. Cepedat, si X N µ, 2, alors la v.a.r. 1 S 2 2 suit ue loi du chi-deux à 1 degrés de libertés χ 2 1. Remarque : uisque EY i = 0, o a EYi 2 = VarY i = 1. Si V suit ue loi χ 2, alors EV = EY1 2 +... + Y 2 =. Aisi o retrouve le fait que S 2 est u estimateur coverget et sas biais de 2 : ES 2 = 2 1 Eχ2 1 = 2. 3 Estimatio par itervalle de cofiace our l estimatio poctuelle, o cosidère u paramètre icou θ, u esemble de valeurs observées x 1,..., x, réalisatios d u - échatillo aléatoire X 1,..., X, et so estimatio poctuelle x = 1 x i. Les estimatios poctuelles apportet pas d iformatio sur la précisio des résultats, c est-à-dire qu elles e tieet pas compte des erreurs dues aux fluctuatios d échatilloage. our évaluer la cofiace que l o peut avoir e ue valeur, il est écessaire de détermier u itervalle coteat, avec ue certaie probabilité fixée au préalable, la vraie valeur du paramètre : c est l estimatio par itervalle de cofiace. 3.1 Défiitio d u itervalle de cofiace Soit X 1,..., X u -échatillo aléatoire et θ u paramètre icou de la loi des X i. DÉFINITION 7. Soit α 0, 1[. S il existe des v.a.r. θ mi X 1,..., X et θmaxx 1,..., X telles que θ [θ mi X 1,..., X, θmaxx 1,..., X = 1 α, o dit alors que [θ mi X 1,..., X, θmaxx 1,..., X est u itervalle de cofiace pour θ, avec coefficiet de sécurité 1 α. O le ote IC 1 α θ.
4 Estimatios et itervalles de cofiace Das la pratique, o peut predre par exemple α = 5%, ce qui ous doe u IC à 95%. Cela sigifie qu il y a 95% de chace que la valeur icoue θ soit comprise etre θ mi x 1,..., x et θmaxx 1,..., x. 3.2 Itervalle de cofiace pour la moyee et la variace das le cas d u échatillo gaussie Soit X 1,..., X u -échatillo de v.a.r. de loi N µ, 2. Estimatio de l espérace µ lorsque la variace 2 est coue our estimer µ, o utilise la moyee empirique X = 1 X i qui a pour loi N µ, 2 /. Il e résulte que et que Ceci équivaut à X µ N 0, 1, z 1 α/2 X µ z 1 α/2 = 1 α. X z 1 α/2 µ X + z 1 α/2 = 1 α. O obtiet doc u IC pour l espérace µ avec coefficiet de sécurité 1 α das le cas où est cou : il s agit de l itervalle aléatoire [X z 1 α/2, X + z 1 α/2. Aisi, das les calculs, l IC est doé par IC 1 α µ = [x z 1 α/2, x + z 1 α/2, où x est l estimatio poctuelle de µ associée à la réalisatio du -échatillo X 1,..., X. Estimatio de l espérace µ lorsque la variace 2 est icoue Lorsque la variace 2 est icoue, il est alors écessaire de remplacer das les formules précédetes cette quatité par la variace empirique, qui e est u estimateur coverget. Il faut doc cosidérer o plus la quatité X µ mais plutôt X µ, S qui e suit plus ue loi ormale mais ue loi dite de Studet à 1 degrés de liberté, que l o ote T 1. La desité de la loi de Studet est ue foctio paire, comme la loi ormale N 0, 1. O dispose de tables pour obteir les quatiles de cette loi. O e déduit doc que t 1 α/2 X µ t 1 α/2 = 1 α, ce qui équivaut à S S X t 1 α/2 µ X + t 1 α/2 = 1 α. S O obtiet doc u IC pour µ avec coefficiet de sécurité 1 α, das le cas où la variace 2 est icoue : il s agit de l itervalle aléatoire [ S S X t 1 α/2, X + t 1 α/2. Aisi, das les calculs, l IC est doé par [ s s IC 1 α µ = x t 1 α/2, x + t 1 α/2, où x et s 2 sot les estimatios poctuelles respectives de la moyee µ et de la variace 2. Remarque : Si les v.a.r. X 1,..., X e sot pas gaussiees mais que est assez grad e pratique supérieur à 30, alors le TCL ous garatit que la moyee empirique suit approximativemet la loi N µ, 2 /. Aisi, das
5 Estimatios et itervalles de cofiace le cas où l o souhaite estimer l espérace lorsque la variace est coue, l IC est idetique à celui détermié lorsque les v.a.r. X 1,..., X suivet la loi N µ, 2. Estimatio de la variace 2 O estime la variace 2, supposée icoue, par la variace empirique S 2 = 1 1 X i X 2. O sait que la v.a.r. S 2 2 a pour loi 1 χ2 1 et que ES 2 = 2 1 Eχ2 1 = 2, c est-à-dire que S 2 est u estimateur sas biais de 2. De plus, o lit das des tables les quatiles d ordre α/2 et 1 α/2 de la loi du χ 2 1, respectivemet otés v α/2 et v 1 α/2 il est ormal que les quatiles qui ous itéresset e soiet pas opposés car la desité de cette loi est pas paire, à l iverse de la loi ormale cetrée réduite. O obtiet alors Ceci équivaut à 1S 2 v α/2 1 2 S 2 v 1 α/2 v 1 α/2 = 1 α. 2 1S2 = 1 α. v α/2 O obtiet doc u IC pour la variace 2 avec coefficiet de sécurité 1 α : il s agit de l itervalle aléatoire [ 1S 2, 1S2. v 1 α/2 v α/2 Aisi, das les calculs, l IC est doé par [ 1s IC 1 α 2 2 =, 1s2, v 1 α/2 v α/2 où s 2 est l estimatio poctuelle de 2 associée à la réalisatio du - échatillo X 1,..., X : s 2 = 1 x i x 2. 1 3.3 Itervalle de cofiace pour la proportio Reveos à l exemple itroductif : o cherche à estimer la proportio π de graies défectueuses du lot de céréales. O prélève u lot de graies et o ote X i la v.a.r. qui vaut 1 si la graie i germe, et 0 sio. O estime π par la moyee empirique X = 1 X i. Les v.a.r. X i état de Beroulli, o peut alors utiliser l approximatio doée par le TCL. Soit Z N 0, 1 et z 1 α/2 le quatile d ordre 1 α/2 de la loi N 0, 1. ar le TCL, Ceci implique que z 1 α/2 c est-à-dire X i π π1 π L Z N 0, 1. Xi π z 1 α/2 z 1 α/2 Z z 1 α/2 = 1 α, π1 π + π1 π π1 π X z 1 α/2 π X + z 1 α/2 1 α. + Ceci e fourit pas u IC pour π car les bores de l itervalle dépedet de π. Mais o peut motrer que l o a le même résultat de covergece, e remplaçat π das les bores de l itervalle par so estimateur coverget X. O obtiet alors X z 1 α/2 X 1 X π X + z 1 α/2 X 1 X 1 α. + O dit que l itervalle X 1 X X 1 X X z 1 α/2, X + z 1 α/2 est u IC asymptotique pour le paramètre π, de coefficiet de sécurité 1 α. our α = 5%, o lit das les tables z 1 α/2 = z 97,5% = 1, 96. Aisi, le semecier e déduit qu ayat observé 36 graies germées sur 40, l itervalle de cofiace asymptotique pour π est [0.807, 0.993 ; il suffit de remplacer das les calculs la moyee empirique aléatoire X par l estimatio poctuelle x = 36/40.
6 Estimatios et itervalles de cofiace 3.4 Exemple Ue etreprise chimique commercialise u polymère servat à la fabricatio de microprocesseurs et stocké das ue cuve dot la caractéristique à cotrôler est la viscosité ; celle-ci doit être comprise etre 75 et 95 pour pouvoir commercialiser le polymère. Quatre extractios ot été réalisées das des zoes différetes de la cuve et ot coduit aux valeurs de l échatillo :x 1 = 78, x 2 = 85, x 3 = 91, x 4 = 76, réalisatio des variables aléatoires X 1, X 2, X 3, X 4. L etreprise a besoi d estimer la viscosité et aussi de coaître la précisio de cette estimatio. Ayat choisi a priori u seuil de 5%, il s agit de fourir aux cliets des itervalles de cofiaces à 95% pour µ. Estimatios poctuelles Le modèle cosidère que les variables X i sot idépedates selo ue loi N µ, 2 ; µ représete la moyee de la viscosité das la cuve tadis que 2 pred e compte la variabilité de la viscosité au sei de la cuve et celle due à l erreur de mesure. Les paramètres sot la moyee µ et la variace 2. Les estimateurs sot X de µ et S 2 de 2. Les estimatios poctuelles sot x = 82.5 et s = 6.86. Itervalle de cofiace de µ avec 2 coue Il est admis que la variabilité du processus de fabricatio est costate et coue avec = 5. Das ce cas, l estimateur de µ est gaussie, z 1 α/2 = 1.96 et les formules précédetes coduiset à l estimatio de l itervalle de cofiace de µ : cofiace deviet alors : [82.5 3.182 6.86/2; 82.5 + 3.182 6.86/2 = [71.6; 93.4. L itervalle est pas coteu das la spécificatio. Notez l augmetatio sesible de la taille de cet itervalle par le simple fait de devoir estimer la variace plutôt que de la supposer coue ; Itervalle de cofiace de 2 L estimateur de la variace suit ue loi du chi-deux à ν = 1 = 3 degrés de liberté. Attetio, la loi est pas symétrique et il faut chercher les deux quatiles à gauche et à droite das la table ; χ 2 3;0.025 = 0.218 et χ 2 3;0.975 = 9.35. Avec s = 6.86, l itervalle de cofiace s écrit : [ 3 6.86 2 3 6.86 2, = [3.9; 25.4. 9.35 0.218 La taille de cet itervalle, soulige le maque de précisio de l estimatio de l écart-type, la taille de l échatillo y est pour beaucoup. [82.5 1.96 5/2; 82.5 + 1.96 5/2 = [77.6; 87.4. L itervalle obteu est bie à l itérieur de la spécificatio [75; 95. Itervalle de cofiace de µ avec 2 estimée La variace est plus supposée costate et coue, elle doit être estimée. L estimatio de l écart-type est s = 6.86. Celui-ci est certes plus importat que la valeur théorique précédete mais surtout, l estimateur de la moyee µ suit maiteat ue loi de Studet à 1 = 3 degrés de liberté. La table de la loi e questio fourit le 1 α/2-quatile t 3;0.975 = 3.182. L itervalle de