Statistique mathématique pour le Master 1 Cours de l ENS Cachan Bretagne. Benoît Cadre

Transcription

1 Statistique mathématique pour le Master 1 Cours de l ENS Cacha Bretage Beoît Cadre 4 jui 2010

2 2

3 Table des matières 1 Modélisatio statistique U exemple Pricipe fodametal de la statistique Modèle statistique Domiatio das u modèle statistique Estimatio Costructio des estimateurs Pricipes de l iférece statistique Critères de performace e moyee Critères de performace asymptotique Itervalles de cofiace Itervalle de cofiace pour ue taille d échatillo fiie Itervalle de cofiace asymptotique Vraisemblace Le cocept de vraisemblace Cosistace de l EMV Iformatio de Fisher Normalité asymptotique de l EMV Classificatio des statistiques Estimateurs efficaces Statistiques exhaustives Statistiques complètes Test statistique Problème de test

4 4 TABLE DES MATIÈRES 5.2 Erreurs d u test Comparaiso des tests Optimalité das les tests simples Optimalité das les tests composites Tests asymptotiques Statistique des échatillos gaussies Projectio de vecteurs gaussies Tests sur les paramètres Comparaiso de 2 échatillos Modèle liéaire gaussie Le problème et sa formulatio vectorielle Statistique de test

5 Chapitre 1 Modélisatio statistique 1.1 U exemple Ue pièce a ue probabilité p 0 ]0,1[ de tomber sur "pile". Sur les 1000 lacers réalisés idépedammet les us des autres, o compte 520 "pile" et 480 "face". O est doc teté de coclure que p Cepedat, de la même maière qu il est sas itérêt de doer ue valeur approchée d ue itégrale sas préciser l erreur d approximatio, ce résultat a que peu de valeur, car il e ous reseige pas sur l erreur commise. Nous allos examier de quelle maière la costructio d u modèle permet de combler cette lacue. O ote x 1,,x les résultats des = 1000 lacers de pièce, avec la covetio suivate : x i = 1 si le i-ème lacer a doé "pile", et 0 das le cas cotraire. Le pricipe de base de l estimatio statistique est de cosidérer que x 1,,x est ue réalisatio de la loi B(p 0 ), si pour chaque p [0,1], B(p) désige la loi de Berouilli de paramètre p (i.e. B(p) = pδ 1 + (1 p)δ 0, avec δ 0 et δ 1 les mesures de Dirac e 0 et 1). E l absece d iformatios sur la valeur de p 0, o e peut e fait que supposer que x 1,,x est ue réalisatio de l ue des lois {B(p), p ]0,1[}. De cet esemble de probabilités, appelé modèle statistique, o cherche à déduire la valeur de p qui s ajuste le mieux aux observatios x 1,,x. Ue répose raisoable est basée sur l ituitio suivate : compte teu des iformatios dot o dispose, la meilleure approximatio de p 0 que l o puisse doer est ue valeur 5

6 6 CHAPITRE 1. MODÉLISATION STATISTIQUE qui maximise la foctio p B(p) ({x 1,,x }) = B(p)({x i }) = p x i (1 p) x i. C est le pricipe de costructio d ue valeur approchée -o parlera d estimateurde p 0 par maximisatio de la vraisemblace. Selo ce pricipe, la valeur qui s ajuste le mieux aux observatios est la moyee empirique des observatios : x = 1 O retrouve aisi la valeur x = 0.52 du début. L itroductio d u modèle ous permet e plus de doer ue erreur das l approximatio. Soit p ]0,1[, et X 1,,X des v.a. i.i.d. sur l espace probabilisé (Ω,F,P) de loi commue B(p). O peut calculer le risque quadratique, c està-dire le carré de la distace L 2 etre la cible p et l estimateur X = (1/) X i obteu par le pricipe de maximisatio de la vraisemblace : x i. E( X p) 2 = 1 EX 1(1 EX 1 ) = 1 p(1 p). Comme p(1 p) 1/4, l erreur quadratique moyee commise est doc majorée par 1/(2 ) Cepedat, si le résultat doe des iformatios sur la qualité de l approximatio, ce est qu ue évaluatio e moyee, qui e déped doc pas des observatios. Bie d autres pricipes peuvet être evisagés pour préciser la qualité de l approximatio. Par exemple, supposos que l o veuille costruire u itervalle das lequel p 0 doit se trouver, avec ue probabilité de 0.95 par exemple. Le pricipe de costructio est le suivat : pour chaque p ]0,1[, o cherche das u premier temps u itervalle de cofiace par excès I(X 1,,X ) costruit avec la suite de v.a. X 1,,X tel que P(p I(X 1,,X )) O peut alors coclure, avec les observatios x 1,,x, que p 0 I(x 1,,x ), avec ue probabilité de 95% au mois. Das l exemple qui ous itéresse, l iégalité de Bieaymé-Tchebytchev ous doe, pour tout ε > 0 : P( X p ε) var( X ) ε 2 = var(x 1) ε 2 = p(1 p) ε 2 1 4ε 2.

7 1.2. PRINCIPE FONDAMENTAL DE LA STATISTIQUE 7 De ce fait, P( X p ε) 0.05 au mois si 1/(4ε 2 ) 0.05 soit, tous calculs faits, si ε Par suite, P(p [ X 0.07, X ]) E utilisat les observatios x 1,,x o a x = 0.52, et doc p 0 [0.45,0.59] avec ue probabilité 0.95 au mois. Le mois que l o dire ici est que cette iformatio est peu satisfaisate, eu égard au grad ombre d observatios! Commet améliorer ces résultats? Si la questio posée est "la pièce est-elle équilibrée?", l itervalle ci-dessus e permet pas de doer ue répose ; dès lors, quelle stratégie de décisio evisager? L objet de ce cours est de doer quelques élémets de répose à ces questios. Das u premier temps, il coviet de fixer les objectifs de l iférece statistique, aisi que le cotexte mathématique. 1.2 Pricipe fodametal de la statistique Le phéomèe aléatoire fourit observatios x 1,,x de l espace topologique H. Celles-ci sot supposées être les réalisatios d ue loi Q 0 sur l espace probabilisable (H, B(H )). Le pricipe de base de l iférece statistique est d utiliser ces observatios pour e déduire des iformatios sur Q 0. Cette approche estelle raisoable? De maière plus ambitieuse, est-il possible de recostruire u approximatio de Q 0 à partir des observatios x 1,,x? Nous allos voir que la répose est affirmative, au mois das le cas où le phéomèe aléatoire global cosiste e phéomèes idépedats et régis par la même loi. Au préalable, rappelos que la suite de probabilités (ν ) sur R d coverge étroitemet vers ν si, pour chaque foctio f : R d R cotiue borée, o a : f dν f dν. R d R d Le critère de covergece de Lévy ous affirme que (ν ) coverge étroitemet vers ν si, pour chaque t R d, la suite ( ˆν (t)) coverge vers ˆν(t), où ˆν désige la traformée de Fourier de ν, i.e. la foctio ˆν : t exp(itt x)ν(dx), R d et idem pour ˆν.

8 8 CHAPITRE 1. MODÉLISATION STATISTIQUE Das la suite, δ x désige la mesure de Dirac e x R d. Théorème [VARADARAJAN] Soiet X 1,X 2, des v.a.i.i.d. sur (Ω,F,P) à valeurs das R k, de loi commue µ. O ote µ la mesure empirique des premières v.a., i.e. µ = 1 δ Xi. Alors, P-p.s., la suite de mesures (µ ) coverge étroitemet vers µ. Preuve Pour simplifier la preuve, o suppose que X 1 est itégrable. D après le critére de Lévy, il suffit de motrer que ( ) P t R d : ˆµ (t) ˆµ(t) = 1, si ˆµ et ˆµ désiget les trasformées de Fourier de µ et µ. Or, la loi forte des grads ombres ous motre que pour tout t R d, l évéemet t T Ω(t) = { ˆµ (t) ˆµ(t)} est de probabilité. Soit T R d u esemble déombrable dese, et Ω 0 = Ω(t) { } 1 X j E X 1, j=1 où. désige la orme euclidiee de R d. Comme X 1 est itégrable et T est déombrable, o a P(Ω 0 ) = 1 d après la loi forte des grads ombres et car P(Ω(t)) = 1 pour tout t. Fixos t R d et ω Ω 0. O choisit ue suite (t p ) p de T telle que t p t, et o ote pour tout s R d, ˆµ ω (s) la réalisatio e ω de ˆµ (s), i.e. ˆµ ω (s) = 1 exp(is T X j (ω)). j=1 Soit p fixé. O a : ˆµ ω (t) ˆµ(t) ˆµ ω (t) ˆµ ω (t p ) + ˆµ ω (t p ) ˆµ(t p ) + ˆµ(t p ) ˆµ(t) ( ) 1 t t p X j (ω) + E X 1 + ˆµ ω (t p ) ˆµ(t p ) j=1

9 1.3. MODÈLE STATISTIQUE 9 Par suite, pour tout p : lim sup ˆµ ω (t) ˆµ(t) 2 t t p E X 1. E faisat efi tedre p vers l ifii, o peut e déduire que pour tout ω Ω 0 et tout t R d, ˆµ ω (t) ˆµ(t). Comme P(Ω 0 ) = 1, le résultat est démotré. Repreos le cotexte où les observatios (x 1,,x ) H sot issues de phéomèes aléatoires idépedats et régis par la même loi Q 0 sur H = R d. Le théorème de Varadaraja motre que si (X 1,,X ) suit la loi Q 0 alors la mesure empirique 1 est proche de la mesure Q 0, lorsque est assez grad. Autremet dit, e multipliat les expérieces, la mesure discrète 1 est proche de la mesure Q 0. Ce résultat doe u appui théorique à la démarche statistique cosistat à teter de recostruire la mesure théorique Q 0 à l aide des observatios x 1,,x. Toute démarche e statistique iféretielle asymptotique est basée sur ce théorème, qui mérite doc so titre de "Théorème fodametal de la statistique". δ Xi δ xi 1.3 Modèle statistique Formalisos le cocept de modèle statistique vu das la sectio 1.1. Das ce cadre, l espace des observatios était {0,1}. Défiitios U modèle statistique est u couple (H,P), où H est l espace -supposé topologique- de chaque observatio, et P est ue famille de lois de probabilités sur H mui de sa tribu boréliee. Le modèle statistique (H,P) est paramétré par Θ si P = {P θ } θ Θ L expériece aléatoire sous-jacete fourit observatios (x 1,,x ) H du même phéomèe aléatoire, qui est régit par la loi icoue P 0. Le pricipe

10 10 CHAPITRE 1. MODÉLISATION STATISTIQUE de base de la statistique est de cosidérer que (x 1,,x ) est régit par l ue des lois d u modèle P, avec P 0 P. Cette étape de modélisatio état achevée, il s agira de chercher quelle loi de ce modèle s ajuste le mieux aux observatios. Par exemple, lorsque les expérieces ot été meées idépedammet les ues des autres, l observatio (x 1,,x ) est régie par la loi P 0 = Q 0, et le modèle statistique est u esemble de probabilités sur H coteat Q A oter, doc : à l iverse du probabiliste, le statisticie travaille plutôt sur l espace des observatios, qui costitue u cadre d étude plus aturel. Par ailleurs, le statisticie e suppose pas que la loi des observatios est coue, à l iverse du probabiliste. Exemple E utilisat des observatios idépedates x 1,,x de la durée de vie de ampoules du même type, o veut coaître la loi suivie par la durée de vie de ce type d ampoule. La 1ère étape cosiste à défiir le modèle statistique associé, dot l espace des observatios est R +. Du poit de vue de la modélisatio, il est raisoable d affirmer qu ue v.a. X sur (Ω,F,P) qui représete la durée de vie de l ampoule est sas mémoire, i.e. L (X t X t) = L (X), t 0. Cette propriété sigifie que l ampoule "e se souviet pas d avoir vieilli". Par ailleurs, o peut aussi supposer que la loi de X est à desité par rapport à la mesure de Lebesgue. O sait alors qu il existe λ > 0 tel que X E (λ). Comme les observatios des durées de vie sot idépedates, x 1,,x est ue réalisatio d ue loi E (λ 0 ), pour u certai λ 0 > 0 qu il s agira de trouver. Le modèle statistique associé à cette expériece aléatoire est doc (R +,{E (λ) } λ>0 ). Nous verros das la suite commet trouver ue valeur de λ qui s ajuste aux observatios. Das l exemple de la sectio 1.1, comme les lacers de pièce sot idépedats, la loi dot sot issues les résultats de l expériece est clairemet l ue des lois du modèle P = {B(p), p ]0,1[}. Remarquos aussi que l applicatio p B(p) est ijective : cette propriété, appelée idetifiabilité, ôte tout ambiguité das le modèle, e permettat d associer à des observatios ue, et ue seule loi du modèle. Défiitios Soit P = {P θ } θ Θ u modèle statistique. 0.

11 1.4. DOMINATION DANS UN MODÈLE STATISTIQUE Il est dit idetifiable si l applicatio θ P θ défiie sur Θ est ijective. 2. Il est dit paramétrique si il existe d N tel que Θ R d. Sio, il est o paramétrique. Le modèle statistique {N(m,σ 2 );m R,σ > 0} est paramétrique et idetifiable, mais {N(m,σ 2 );m R,σ 0}, qui est aussi paramétrique, est pas idetifiable car N(m,σ 2 ) = N(m,( σ) 2 ). Par ailleurs, le modèle costitué de toutes les lois à desité est o paramétrique. O s itéressera das ce cours aux modèles paramétriques. Cette restrictio cofère au modèle u atout majeur : e limitat l espace des probabilités à explorer, elle permet d obteir de meilleurs résultats quatitatifs. 1.4 Domiatio das u modèle statistique Soit le modèle statistique paramétrique (H,P), avec u espace d observatios idividuelles H R k. Rappelos que, pour 2 mesures σ-fiies µ et ν sur R p, µ est absolumet cotiue par rapport à ν, et o ote µ ν, si pour tout A B(R p ) tel que ν(a) = 0, o a µ(a) = 0. Das ce cas, le théorème de Rado-Nikodym ous doe l existece d ue foctio mesurable f et ν-p.p. positive, appelée desité de µ par rapport à ν, telle que dµ = f dν. Si ν est la mesure de Lebesgue, o parle plus simplemet de la desité de µ. Efi, si µ est borée, f est ν-itégrable. Défiitio Le modèle statistique (H,P) est dit domié si il existe ue mesure σ-fiie µ telle que P µ pour chaque P P. La mesure µ est appelée mesure domiate du modèle. Les modèles {N(m,σ 2 );m R,σ > 0} et {B(p) ; p ]0,1[} sot domiés : ue mesure domiate du premier est la mesure de Lebesgue sur R, alors qu ue mesure domiate du secod est (δ 0 + δ 1 ). De maière plus géérale, les exemples de modèles domiés que ous recotreros le serot soit par rapport à ue mesure de comptage, soit par rapport à ue mesure de Lebesgue. Théorème Supposos que (H,P) est domié, et otos cov(p) so covexi-

12 12 CHAPITRE 1. MODÉLISATION STATISTIQUE fié, i.e. { cov(p) = } a P, avec P k P, a k 0 et a = 1. Alors, il existe ue probabilité de cov(p) qui domie P. Preuve Soit µ ue mesure domiate. O ote C l esemble des évéemets C tels que µ(c) > 0 et tels qu il existe P C cov(p) dot la desité f C par rapport à µ vérifie f C > 0 µ-p.p. sur C. Choisissos (C ) 1, ue suite de C, telle que : lim µ(c ) = sup µ(c) +. C C O ote P C la probabilité associée à chaque C, et f C la desité associée. O pose : C s = 1C, f = 2 f C. 1 La probabilité Q telle que dq = f dµ, qui est das cov(p), admet f pour desité par rapport à µ. Comme µ(c s ) > 0 et f > 0 µ-p.p. sur C s, o a C s C. Par ailleurs, o a aussi µ(c s ) = sup C C µ(c). Motros maiteat que Q domie P. Soit P P, de desité p par rapport à µ, et A u évéemet tel que Q(A) = 0. Comme 0 = Q(A C s ) = A C s f dµ et que f > 0 µ-p.p. sur C s, o a µ(a C s ) = 0, d où P(A C s ) = 0 car P µ. Par ailleurs, P(Cs c ) = 0. E effet, il est clair que C s { f + p > 0} µ-p.p., et comme { f + p > 0} C, la propriété de maximalité de C s motre que C s = { f + p > 0} µ-p.p. Comme P µ, o a aussi C s = { f + p > 0} P-p.p. et doc P(Cs c ) = P({ f + p = 0}) P({p = 0}) = {p=0} pdµ = 0. E remarquat fialemet que A (A C s ) Cs c, o e déduit que P(A) = 0, c est-à-dire que P Q. Comme Q cov(p), le théorème est démotré. 1.5 Estimatio Soit le modèle statistique paramétrique (H,{P θ } θ Θ ), avec u espace d observatios idividuelles H R k et u espace de paramètres Θ R d. Das ce modèle, le paramètre d itérêt est θ. Si les expérieces du phéomèe sot idépedates, o a alors P θ = Q θ pour chaque θ Θ.

13 1.5. ESTIMATION 13 Das u soucis de simplicité, o se limitera das tout le cours au cas où le paramètre d itérêt est θ, état etedu que les défiitios et la plupart des propriétés qui suivet s adaptet sas difficulté au cas où le paramètre d itérêt est ue foctio boréliee de θ. Défiitio U échatillo de loi P θ est ue v.a. caoique sur (H,P θ ). O rappelle qu ue v.a. caoique (X 1,,X ) sur (H,P θ ) est ue v.a. qui vérifie pour chaque i = 1,, : X i : (x 1,,x ) H x i H. La taille de l échatillo est le ombre d expérieces aléatoires. Das l exemple de la sectio 1.1, la taille de l échatillo est = 1000, et ue suite X 1,,X de v.a.i.i.d. issues de la loi B(p) costitue, après cocatéatio, u échatillo de la loi B(p). A l aide de cette modélisatio stochastique, l ejeu est de costruire ue foctio de l échatillo, qui fourira l iformatio sur le paramètre icou, oté p 0 das la sectio 1.1. Ceci ous amèe à la otio d estimateur, qui est ue quatité cesé être proche du paramètre. Différetes otios de proximité serot abordées au chapitre 2. Défiitios 1. Ue statistique est ue v.a. défiie sur H idépedate de θ, i.e. ue foctio boréliee défiie sur H idépedate de θ. 2. U estimateur (de θ) est ue statistique à valeurs das u sur-esemble de Θ. Remarque U échatillo de loi P θ état ue v.a. caoique (X 1,,X ), il s esuit qu ue statistique s écrit aussi : g(.) = g(x 1,,X ). O utilisera l ue ou l autre de ces représetatios, selo le cotexte. Par exemple, pour isister sur le fait que la statistique déped de l échatillo, o utilisera la représetatio g(x 1,,X ). Pour distiguer ue statistique d u estimateur, o otera ce derier avec u chapeau. Das l exemple de la sectio 1.1, si (X 1,,X ) est u échatillo de la loi B(p), X 1 et X sot des estimateurs de p. Ces 2 estimateurs ot évidemmet

14 14 CHAPITRE 1. MODÉLISATION STATISTIQUE pas le même itérêt ; la termiologie du chapitre 2 permettra d etrepredre ue première classificatio. 1.6 Costructio des estimateurs Soit le modèle statistique paramétrique (H,{Q θ } θ Θ ), avec u espace d observatios idividuelles H R k et u espace de paramètres Θ R d. Pour costruire u estimateur raisoable, o utilise e gééral l ue ou l autre des 2 procédures suivates : le pricipe de la vraisemblace maximale, qui fera l objet du chapitre 3, ou ue méthode ad hoc das laquelle, par le calcul, o observe tout d abord ce que représete le paramètre θ pour la loi Q θ, puis o e costruit ue versio empirique. Examios e détail la 2ème méthode. Das u premier temps, o regarde ce que ce paramètre représete pour la loi Q θ, puis o remplace la mesure Q θ par sa versio empirique. Supposos par exemple que θ = H f dq θ, pour ue certaie foctio coue f L 1 (Q θ ). E vertu de la loi des grads ombres, u estimateur raisoable sera : ˆθ = 1 f (X i ). U tel procédé de costructio s appelle méthode des momets, bie qu il e cocere pas écessairemet les momets de la loi Q θ. Bie etedu, ce est qu u procédé de costructio, et rie e ous assure e gééral qu u estimateur costruit de la sorte ait de boes propriétés statistiques. Néamois, o retrouve des estimateurs aturels. Par exemple, si θ représete la moyee de la loi Q θ, l estimateur costruit par cette méthode sera la moyee empirique : X = 1 Par ailleurs, si θ représete la variace de la loi Q θ, l estimateur sera la variace empirique : ˆσ 2 = 1 X i. (X i X ) 2. D autres procédés de costructio d estimateurs sot evisageables, e foctio

15 1.6. CONSTRUCTION DES ESTIMATEURS 15 du modèle statistique étudié. Exemples 1. Das le modèle (R +,{E (λ) } λ>0 ), le paramètre λ représete l iverse de la moyee de la loi E (λ). U estimateur aturel de λ, costruit avec l échatillo (X 1,,X ) de la loi E (λ) est doc ˆλ = 1 X. 2. Das le modèle (R +,{U ([0,θ]) } θ>0 ), θ représete le maximum des valeurs prises par ue réalisatio de la loi U ([0, θ]). L estimateur aturel costruit avec l échatillo (X 1,,X ) de la loi U ([0,θ]) est doc ˆθ = max 1 i X i. U autre estimateur, costruit cette fois avec la mesure empirique est, par exemple, ˆθ = 1 2 X.

16 16 CHAPITRE 1. MODÉLISATION STATISTIQUE

17 Chapitre 2 Pricipes de l iférece statistique O s itéresse ici à des critères de performace des estimateurs, posat aisi les bases de l iférece statistique. Le modèle statistique cosidéré est (H,{P θ } θ Θ ), avec H R k et Θ R d. Rappelos que, pour simplifier les écritures, o suppose que le paramètre d itérêt, i.e. le paramètre que l o souhaite estimer avec les observatios, est θ. Das ce qui suit, toutes les défiitios et les résultats gééraux s étedet au cas où le paramètre d itérêt est ue foctio g(θ) de θ. O désigera par E θ la moyee sous la loi P θ : sous la propriété d itégrabilité adéquate, E θ g(.) = E θ g(x 1,,X ) = g(x)p H θ (dx), pour g : H R et (X 1,,X ) u échatillo de loi P θ. 2.1 Critères de performace e moyee La première propriété que l o puisse exiger d u estimateur est qu il se comporte e moyee comme so paramètre cible. C est le cocept de biais, décrit ci-dessous. Doréavat, o dira qu ue statistique ˆθ est d ordre p si ˆθ L p (P θ ) pour chaque θ Θ. 17

18 18 CHAPITRE 2. PRINCIPES DE L INFÉRENCE STATISTIQUE Défiitios Soit ˆθ u estimateur d ordre Le biais de ˆθ e θ est E θ ˆθ θ ; 2. ˆθ est sas biais lorsque so biais est ul e chaque θ Θ. 3. ˆθ est asymptotiquemet sas biais si pour chaque θ Θ, lim E θ ˆθ = θ. Pour reveir à l exemple de la sectio 1.1, lorsque (X 1,,X ) est u échatillo de la loi B(p), les 2 estimateurs X 1 et X sot sas biais. La proximité etre l estimateur et sa cible peut être évaluée grâce à la distace L 2 etre les 2 quatités. Das ce qui suit,. désige la orme euclidiee de R d. Défiitios Soit ˆθ u estimateur d ordre Le risque quadratique de ˆθ sous P θ est R(θ; ˆθ) = E θ ˆθ θ Soit ˆθ u autre estimateur d ordre 2. O dit que ˆθ est préférable à ˆθ lorsque pour chaque θ Θ, R(θ; ˆθ) R(θ; ˆθ ). 3. Supposos que ˆθ est sas biais. O dit que ˆθ est de variace uiformémet miimum parmi les estimateurs sas biais (VUMSB) si il est préférable à tout autre estimateur sas biais d ordre 2. L existece d u estimateur VUMSB est e gééral pas acquise. Nous reviedros sur ce problème das la partie 4.3. Das la sectio 1.1, o a remarqué que lorsque (X 1,,X ) est u échatillo de la loi B(p), R(p; X ) = p(1 p)/. Aisi, à mesure que l o acquiert de l iformatio e multipliat les expérieces aléatoires, l estimateur X gage e précisio. Ce est pas le cas pour l estimateur X 1, dot le risque quadratique vaut R(p;X 1 ) = p(1 p). Comme o pouvait s y attedre, X est doc préférable à X 1. E fait, X est VUMSB. Pour le motrer, cosidéros u estimateur sas biais quelcoque ˆϕ := ˆϕ(X 1,,X ), et otos : L(p;X 1,,X ) = p X (1 p) X, et K(p) = ll(p;x 1,,X ). O remarque das u premier temps que : ( 1 E p K (p) = E p p X 1 ) 1 p ( X ) = 0.

19 2.1. CRITÈRES DE PERFORMANCE EN MOYENNE 19 Par suite, si var p et cov p désiget la variace et la covariace sous la loi B(p) : cov p ( ˆϕ,K (p)) = E p ˆϕK (p) = ˆϕ(i 1, i )L (p;i 1,,i ) i 1,,i {0,1} = d dp E p ˆϕ = 1, car ˆϕ est sas biais. Comme, d après l iégalité de Cauchy-Schwarz, ( covp ( ˆϕ,K (p)) ) 2 varp ( ˆϕ)var p (K (p)), o a doc Or, var p ( ˆϕ) 1 var p (K (p)). ( 1 var p (K (p)) = var p p X + 1 ) 1 p X 2 = p 2 (1 p) 2 var p ( X ) = p(1 p) = (R(p; X )) 1. (2.1.1) O a doc obteu R(p; ˆϕ) = var p ( ˆϕ) R(p; X ), c est-à-dire que X est VUMSB. Cette preuve, qui peut sembler ici miraculeuse, sera formalisée das les sectios 3.3 et 4.1. Exercice [CAS OÙ LE PARAMÈTRE D INTÉRÊT EST UNE FONCTION DE θ] Soit le modèle statistique (R,{Q θ } θ Θ ) tel que pour chaque θ Θ, Q θ admet u momet d ordre 2. Pour u échatillo (X 1,,X ) de loi Q θ, o ote : X = 1 X i, et S 2 = 1 1 (X i X ) 2. Motrer que X et S 2 sot des estimateurs sas biais de la moyee et de la variace de la loi Q θ, respectivemet. O ote doréavat, pour deux vecteurs aléatoires X,Y de carrés itégrables et à valeurs das R d : K θ (X,Y ) = E θ (X E θ X) T (Y E θ Y ) = E θ X T Y E θ X T E θ Y et V θ (X) = K θ (X,X) = E θ X E θ X 2.

20 20 CHAPITRE 2. PRINCIPES DE L INFÉRENCE STATISTIQUE Noter que K θ (X,Y ) = K θ (Y,X). Par ailleurs, K θ et V θ e représetet pas la covariace et la variace sous la loi P θ (respectivemet otées cov θ et var θ ), sauf lorsque d = 1. Propositio [DÉCOMPOSITION BIAIS-VARIANCE] Soit ˆθ u estimateur d ordre 2. O a alors la décompositio : R(θ; ˆθ) = E θ ˆθ θ 2 +V θ ( ˆθ). Pour u risque doé, abaisser le biais reviet doc à augmeter la variatio, et réciproquemet. Preuve O a : R(θ; ˆθ) = E θ ( ˆθ E θ ˆθ) + (E θ ˆθ θ) 2 = E θ ˆθ E θ ˆθ 2 + E θ ˆθ θ 2 + 2E θ ( ˆθ E θ ˆθ) T (E θ ˆθ θ). Le résultat e découle, car E θ ( ˆθ E θ ˆθ) = 0 et V θ ( ˆθ) = E θ ˆθ E θ ˆθ 2. Propositio Soit ˆθ u estimateur d ordre 2. Alors, ˆθ est VUMSB si, et seulemet si, pour tout estimateur ˆϕ d ordre 2 tel que E θ ˆϕ = 0 pour chaque θ Θ, o a : K θ ( ˆϕ, ˆθ) = 0, θ Θ. Preuve Pour toute la preuve, fixos θ Θ. Supposos que ˆθ est VUMSB. Soit ˆϕ ue statistique d ordre 2 telle que E θ ˆϕ = 0. Pour tout α R, l estimateur ˆϕ α = ˆθ + α ˆϕ est sas biais. Comme ˆθ est sas biais et VUMSB, o a alors : V θ ( ˆθ) = R(θ; ˆθ) R(θ; ˆϕ α ) = V θ ( ˆϕ α ) = V θ ( ˆθ) + 2αK θ ( ˆθ, ˆϕ) + α 2 V θ ( ˆϕ). Par suite, o a pour tout α R : 2αK θ ( ˆθ, ˆϕ) + α 2 V θ ( ˆϕ) 0. Ce polyôme e α e peut garder u sige positif que si K θ ( ˆθ, ˆϕ) = 0.

21 2.2. CRITÈRES DE PERFORMANCE ASYMPTOTIQUE 21 Réciproquemet, tout estimateur sas biais ˆψ tel que ˆψ L 2 (P θ ) s écrit ˆψ = ˆθ ˆϕ, où ˆϕ = ˆθ ˆψ est ue statistique telle que E θ ˆϕ = 0 et ˆϕ L 2 (P θ ). Par hypothèse, o a alors K θ ( ˆθ, ˆϕ) = 0 et la statistique ˆψ vérifie doc : R(θ; ˆψ) = V θ ( ˆθ ˆϕ) = V θ ( ˆθ) +V θ ( ˆϕ) 2K θ ( ˆθ, ˆϕ) ce qui motre que ˆθ est VUMSB. = V θ ( ˆθ) +V θ ( ˆϕ) V θ ( ˆθ) = R(θ; ˆθ), Théorème Soiet ˆθ et ˆθ des estimateurs VUMSB. Alors, pour chaque θ Θ, ˆθ = ˆθ P θ -p.s. Preuve Fixos θ Θ. Comme la statistique ˆϕ = ˆθ ˆθ vérifie les hypothèses du théorème précédet, o a : V θ ( ˆθ ˆθ ) = E θ ( ˆθ θ ˆ ) T ( ˆθ θ ˆ ) = E θ ( ˆθ θ ˆ ) T ( ˆθ θ) E θ ( ˆθ θ ˆ ) T ( θ ˆ θ) = K θ ( ˆθ θ ˆ, ˆθ) K θ ( ˆθ θ ˆ, θ ˆ ) = 0, ce qui motre que ˆθ = ˆθ P θ -p.s., car ˆθ et ˆθ sot sas biais. 2.2 Critères de performace asymptotique A mesure que la taille de l échatillo croît, l échatillo cotiet de plus e plus d iformatios sur la vraie valeur du paramètre. O est alors ameé à s itéresser aux propriétés asymptotiques des estimateurs. Das la suite, sauf metio explicite du cotraire, toute propriété de covergece sera etedue pour ue taille d échatillo qui ted vers l ifii. Défiitio O dit que l estimateur ˆθ est cosistat lorsque pour chaque θ Θ, ˆθ P θ θ. Das l exemple de la sectio 1.1, l estimateur X costruit avec u échatillo (X 1,,X ) de loi B(p) est cosistat, car X B(p) p pour chaque p ]0, 1[. Remarque U estimateur peut être asymptotiquemet sas biais sas être cosistat. De même, u estimateur peut être cosistat sas être asymptotiquemet

22 22 CHAPITRE 2. PRINCIPES DE L INFÉRENCE STATISTIQUE sas biais. Pour se covaicre du secod poit par exemple, cosidéros le modèle statistique (R,{N(m,1) } m ]0,1[ ), et l estimateur ˆm issu de l échatillo (X 1,,X ) de la loi N(m,1), pour m ]0,1[ : ˆm = X + 1 F( ) 1 { X 0}, où F désige la foctio de répartitio de la loi N(0,1). Comme m > 0, la loi faible des grads ombres motre que ˆm P m m, si P m = N(m,1). Par ailleurs, comme X N(m,1/) : P m ( X 0) = 1 m e t2 /2 dt F( ), 2π car m 1. Doc E m ˆm m + 1, et ˆm est pas asymptotiquemet sas biais. Exercice [CAS OÙ LE PARAMÈTRE D INTÉRÊT EST UNE FONCTION DE θ] Soit le modèle statistique (R,{Q θ } θ Θ ) tel que pour chaque θ Θ, Q θ admet u momet d ordre 2. Pour u échatillo (X 1,,X ) de loi Q θ, o ote : ˆσ 2 = 1 (X i X ) 2. Motrer que ˆσ 2 est u estimateur biaisé de la variace de Q θ, mais qu il est asymptotiquemet sas biais et cosistat. Cette propriété e doit être vue que comme ue propriété miimale que doit satisfaire u estimateur raisoablemet costitué. Cepedat, elle e permet pas de préciser l erreur commise. C est précisémmet l objet de la défiitio qui suit. Défiitios Soit (v ) ue suite de réels positifs telle que v. O dit que l estimateur ˆθ est : 1. de vitesse (v ) si, pour chaque θ Θ, il existe ue loi l(θ) telle que v ( ˆθ θ) L /P θ l(θ). 2. asymptotiquemet ormal si, e outre, les lois l(θ) sot gaussiees. La performace d u estimateur est otammet évaluée sur sa vitesse car, pour ue précisio doée, plus la vitesse est rapide, mois la taille de l échatillo

23 2.3. INTERVALLES DE CONFIANCE 23 doit être importate. Néamois, il e faut pas oublier qu u estimateur performat doit aussi pouvoir être calculé via u algorithme de complexité raisoable. Comme, e pricipe, ces 2 cotraites s opposet, il est importat de savoir réaliser u compromis etre ces exigeces. Remarque U estimateur qui possède la propriété 1. de la défiitio ci-dessus est cosistat. E effet, fixos θ Θ. O suppose pour simplifier que (v ) est croissate, et que l(θ) est ue loi sas atomes (sio, il suffit de travailler sur l esemble des poits de cotiuité de la foctio de répartitio de la loi de l(θ) ; à toutes fis utiles, rappelos que l esemble des poits de discotiuité d ue v.a.r. est au plus déombrable). Pour chaque ε > 0, o a P θ ( ˆθ θ ε) P θ (v ˆθ θ v p ε), pour tout p. O e déduit que pour tout p, lim supp θ ( ˆθ θ ε) P θ ( l(θ) v p ε). E faisat fialemet tedre p vers +, o peut coclure que ˆθ P θ θ. Das l exemple de la sectio 1.1, o a vu que l estimateur X costruit avec u échatillo (X 1,,X ) de loi B(p) est asymptotiquemet ormal, de vitesse, car pour chaque p [0,1], ( X p) L /B(p) N(0, p(1 p)). Exercice Soit le modèle statistique (R,{U ([θ,θ + 1]) } θ [0,1] ). Costruire et étudier des estimateurs du paramètre θ, e utilisat les statistiques mi i X i, max i X i et X issues d u échatillo (X 1,,X ) de la loi U ([θ,θ + 1]). 2.3 Itervalles de cofiace Nous avos déjà vu, das la sectio 1.1, u exemple de costructio d itervalle de cofiace. L objectif de cette sectio est d e rappeler le pricipe, sas toutefois retrer das u formalisme excessif, qui pourrait être préjudiciable à la compréhesio de la démarche. Das cette sectio, le modèle statistique est (H,{P θ } θ Θ ), avec Θ R. L observatio (x 1,,x ) H est issue d ue loi P θ0, avec θ 0 Θ icou.

24 24 CHAPITRE 2. PRINCIPES DE L INFÉRENCE STATISTIQUE Itervalle de cofiace pour ue taille d échatillo fiie O fixe α ]0,1[. Défiitio Soit T ue foctio défiie sur H et à valeurs das les itervalles de R telle que pour chaque θ Θ : P θ (θ T (.)) = (resp. )1 α. T (x 1,,x ) s appelle itervalle de cofiace (resp. par excès) pour θ 0, au iveau de cofiace 1 α. Aisi, θ 0 T (x 1,,x ) avec ue P θ0 -probabilité (resp. au mois) 1 α. O peut remarquer d emblée qu u itervalle de cofiace est d autat plus itéressat qu il est de logueur faible, pour u iveau de cofiace élevé. Comme ces 2 exigeces s opposet, il est impératif de réaliser u compromis. Exemple Cosidéros le cas d u modèle statistique {P θ } θ Θ = {Q θ } θ Θ pour lequel H x2 Q θ (dx) 1 et θ = H xq θ (dx) pour tout θ Θ. Soit (X 1,,X ) u échatillo de la loi Q θ. D après l iégalité de Bieaymé-Tchebytchev : P θ ( X θ > t) var θ ( X ) t 2 = var θ (X 1 ) t 2 1, t > 0. t2 Si t vérifie (t 2 ) 1 α, o a doc P θ ( X θ > t) α. Pour u tel t, [ x t, x +t] est doc u itervalle de cofiace par excès pour θ 0, au iveau de cofiace 1 α. O peut trouver des itervalles de cofiace plus précis e utilisat, au lieu de l iégalité de Bieaymé-Tchebytchev, ue iégalité expoetielle (iégalité de Berstei, iégalité de Hoeffdig,...), forcémet plus précise. Souvet, l u des igrédiets de base pour costruire u itervalle de cofiace est le quatile d ue loi sur R. Défiitio-Propositio Soit F la foctio de répartitio d ue loi ν sur R. Le quatile d ordre r ]0,1[ de la loi ν est défii par q r = if{x R : F(x) r}.

25 2.3. INTERVALLES DE CONFIANCE 25 Si F est cotiue, F(q r ) = r. Si, de plus, F est strictemet croissate, alors q r est l uique solutio de l équatio F(.) = r. Preuve Il suffit de remarquer que, comme F est croissate et cotiue à droite, F(q r ) r F(q r ), si F(q r ) est la limite à gauche de F e q r. Exemple Cosidéros le modèle statistique {N(m,1) } m R. Pour (X 1,,X ) u échatillo de la loi P m = N(m,1), o a ( X m) N(0,1). Soit t 0 le quatile d ordre 1 α/2 de la loi N(0,1) : si Φ est la foctio de répartitio de la loi N(0,1), o sait que Φ(t 0 ) = 1 α/2. Comme la loi N(0,1) possède ue desité paire : P m ( X m t 0 ) = 2Φ(t0 ) 1 = 1 α. Si les observatios x 1,,x sot régies par la loi N(m 0,1), [ x t 0 /, x + t 0 / ] est u itervalle de cofiace pour m 0, au iveau 1 α. Si l obtetio d ue telle propriété est hors d atteite, ou si T est trop complexe pour pouvoir être utilisé, o se retrache sur ue propriété asymptotique Itervalle de cofiace asymptotique Soit α ]0,1[. Défiitio Soit, pour chaque, T ue foctio défiie sur H et à valeurs das les itervalles de R telle que pour chaque θ Θ : P θ (θ T (.)) 1 α. T (x 1, x ) s appelle itervalle de cofiace asymptotique pour θ 0 au iveau de cofiace 1 α. Exemple Supposos par exemple que ˆθ est u estimateur asymptotiquemet ormal, de vitesse (v ) : pour chaque θ Θ, v ( ˆθ θ) L /P θ N(0, 1). (2.3.1) Notos q 1 α/2 et q α/2 les quatiles d ordre 1 α/2 et α/2 de la loi N(0,1). Par symétrie de la loi N(0,1), q 1 α/2 = q α/2. Si q = q 1 α/2 > 0, alors : P θ ( q v ( ˆθ θ) q ) 1 α.

26 26 CHAPITRE 2. PRINCIPES DE L INFÉRENCE STATISTIQUE L itervalle de cofiace asymptotique au iveau 1 α est doc : [ ˆθ(x 1,,x ) q v ; ˆθ(x 1,,x ) + q v ]. Pour la costructio des itervalles de cofiace asymptotiques, le lemme de Slutsky (au programme du L3) est souvet utile. Lemme [SLUTSKY] Soiet (X ) et (Y ) des suites de v.a.r. sur (Ω,F,P). Si il P L /P existe ue v.a.r. Y et u réel a tels que X a et Y Y, alors (X,Y ) L /P L /P L /P (X,Y ). E particulier, X Y ay et X +Y a +Y. Exemple Supposos à ouveau que ˆθ est u estimateur asymptotiquemet ormal, de vitesse (v ) : pour chaque θ Θ, il existe σθ 2 > 0 tel que v ( ˆθ θ) L /P θ N(0,σθ 2 ). (2.3.2) Soit ˆσ u estimateur cosistat de σ θ. O a recours au lemme de Slutsky pour e déduire de (2.3.2) que pour chaque θ Θ : v ˆθ θ ˆσ L /P θ N(0,1). Par suite, avec les otatios de l exemple précédet : ( ) ˆθ θ P θ q v q 1 α, ˆσ ou bie, avec ue écriture équivalete : [ P θ (θ ˆθ ˆσq ; ˆθ + ˆσq ]) 1 α. v v Comme les quatités ˆθ et ˆσ qui itervieet das cet itervalle peuvet être calculées pour les observatios x 1,,x, cette propriété ous doe l itervalle de cofiace asymptotique recherché.

27 2.3. INTERVALLES DE CONFIANCE 27 La δ-méthode est aussi souvet utilisée pour la costructio d itervalle de cofiace asymptotiques. Lemme [δ -MÉTHODE] Soit (X ) ue suite de v.a.r. sur (Ω,F,P), g : R R ue foctio cotiûmet dérivable e x 0 et (v ) ue suite de réels tedat vers +. Si v (X x 0 ) L /P X, alors v (g(x ) g(x 0 )) L /P g (x 0 )X. Preuve D après la formule de Taylor-Lagrage, il existe ξ compris etre x 0 et X tel que g(x ) = g(x 0 ) + (X x 0 )g (ξ ). Comme g est cotiue e x 0 et (X ) coverge e probabilité vers x 0, o a doc v (g(x ) g(x 0 )) = v (X x 0 )g (ξ ) L /P g (x 0 )X, d après le lemme de Slutsky. Exemple Supposos que l o veuille costruire u itervalle de cofiace asymptotique au iveau 1 α pour le paramètre λ, das le modèle {E (λ) } λ>0. Soit (X 1,,X ) u échatillo de la loi E (λ). D après le théorème de la limite cetrale : ( X 1 ) L /E (λ) N(0,1/λ 2 ). λ O a recours à la δ-méthode pour e déduire que ( 1 X λ) L /E (λ) 1 λ 2 N(0,1/λ 2 ) = 1 λ 3 N(0,1). Fialemet, e utilisat l estimateur cosistat 1/ X, le lemme de Slutsky ous doe ( X 3 L /E (λ) λ) N(0,1). 1 X L itervalle de cofiace asymptotique s e déduit facilemet.

28 28 CHAPITRE 2. PRINCIPES DE L INFÉRENCE STATISTIQUE

29 Chapitre 3 Vraisemblace La méthode de costructio des estimateurs par maximisatio de la vraisemblace est sas doute la plus répadue. Le pricipe de la costructio est ituitivemet évidet : il s agit de choisir comme estimateur le paramètre pour lequel l observatio est la plus probable, ou la plus vraisemblable... Das tout le chapitre, l espace des observatios idividuelles est H R k, et l espace des paramètres est Θ R d. 3.1 Le cocept de vraisemblace Défiitio O appelle vraisemblace du modèle statistique (H,{P θ } θ Θ ) domié par µ toute applicatio L : H Θ R + telle que, pour chaque θ Θ, l applicatio partielle L(.;θ) : H R + soit u élémet de la classe d équivalece de la desité de P θ par rapport à µ. Remarque La vraisemblace, dot l existece est acquise grâce au théorème de Rado-Nikodym, déped doc du choix de la mesure domiate du modèle, qui est pas uique. De plus, e raiso du fait que que chaque desité dp θ /dµ est uique qu à ue équivalece près, ue vraisemblace elle-même est pas uique. Malgré cela, ous parleros de "la" vraisemblace, sachat que, das la pratique, le choix d ue vraisemblace s impose souvet par ses propriétés aalytiques. Exemples 1. Das le modèle statistique ({0,1},{B(p) } p ]0,1[ ) de la sectio 1.1, qui 29

30 30 CHAPITRE 3. VRAISEMBLANCE est domié par la mesure (δ 0 + δ 1 ), la vraisemblace L s exprime par : L(x 1,,x ; p) = B(p) ({x 1,,x }) = p x i (1 p) x i, pour p ]0,1[ et x 1,,x {0,1}. 2. Das le modèle (R,{N(m,σ 2 ) } m R,σ R + ), qui est domié par la mesure de Lebesgue sur R, la vraisemblace est : L(x 1,,x ;m,σ 2 ) = pour x i R, m R et σ R +. 1 ( 2πσ 2 ) exp ( (x i m) 2 Das le cadre de modèles statistiques issus d observatios idépedates, l expressio aturelle de la vraisemblace est simple, comme le motre la propositio ci-dessous. Propositio Soit (H,{Q θ } θ Θ ) u modèle statistique domié par la mesure µ, et de vraisemblace L. Alors, la foctio L : H Θ R (x 1,,x,θ) L(x i ;θ), est la vraisemblace du modèle (H,{Q θ } θ Θ ) pour la mesure domiate µ. Preuve Il suffit de remarquer que, pour chaque θ Θ, est ue versio de la desité de Q θ L(x i ;θ), par rapport à µ. Repreos l exemple de la sectio 1.1. Les lacers de la pièce ot fouri ue suite d observatios x 1,,x {0,1}. Il est aturel de cosidérer que la loi B(p 0 ) qui régit ces observatios est la loi qui apporte la plus forte probabilité à cette réalisatio. C est aisi que, pour doer ue valeur approchée de la vraie valeur du paramètre, o est ameé à maximiser e p la vraisemblace L(x 1,,x ; p) : l idée sous-jacete est que la valeur de p obteue est celle qui 2σ 2 ),

31 3.2. CONSISTANCE DE L EMV 31 s ajuste le mieux aux observatios. C est cette observatio qui motive le cocept de maximum de vraisemblace. Défiitio Soit (H,{P θ } θ Θ ) u modèle statistique domié, et L la vraisemblace associée. U estimateur du maximum de vraisemblace (EMV) est ue statistique g à valeurs das Θ qui vérifie : L(x;g(x)) = sup L(x;θ), x H. θ Θ Aisi, si (X 1,,X ) est u échatillo de la loi P θ, l EMV (de θ) est g(x 1,,X ). Bie etedu, i l existece, i l uicité des EMV e sot e gééral pas acquises. Das le modèle statistique issu d observatios idépedates de la propositio précédete, o préfère calculer l EMV e maximisat la "log-vraisemblace" - c est-à-dire le logarithme de la vraisemblace- plutôt que la vraisemblace, car celle-ci s exprime comme : ll (x 1,,x ;θ) = ll(x i ;θ). L itérêt pratique est clair, l étape de maximisatio état e pricipe plus facile à meer. Exemple L EMV du modèle statistique (R,{N(m,1) } m R ) est la moyee empirique. 3.2 Cosistace de l EMV L u des outils de base pour l étude des EMV est décrit ci-dessous : Défiitio-Propositio Soit (H,{P θ } θ Θ ) u modèle statistique idetifiable et domié par µ, de vraisemblace L. Pour chaque α,θ Θ, o suppose que ll(.;α) L 1 (P θ ). O ote : K(α,θ) = E θ l L(.;α) L(.;θ)

32 32 CHAPITRE 3. VRAISEMBLANCE l iformatio de Kullback etre les lois P α et P θ. Alors, K(α,θ) 0 et de plus K(α,θ) = 0 α = θ. Preuve Tout d abord, il est clair que K(θ,θ) = 0. Soiet doc α θ. Comme la foctio t lt défiie sur R + est covexe, o a avec l iégalité de Jese : K(α,θ) = l H l L(.;α) L(.;θ) dp θ H L(.;α) L(.;θ) dp θ = l H L(.;α)dµ = 0. Supposos que K(α,θ) = 0. O est alors das u cas d égalité das l iégalité de Jese. Comme t lt défiie sur R + est strictemet covexe, o e déduit qu il existe C R + tel que L(.;α) = CL(.;θ) P θ -p.s. Or, P α est absolumet cotiue par rapport à P θ, de desité L(.;α)/L(.;θ). Par suite, pour tout borélie A H, L(.;α) P α (A) = L(.;α)dµ = L(.;θ) dp θ = CP θ (A). A O e déduit tout d abord que C = 1 (predre A = H ), puis que P θ = P α, ce qui cotredit l idetifiabilité du modèle. Cette propriété de l iformatio de Kullback permet d idetifier le paramètre icou θ e tat que seule solutio de l équatio K(.,θ) = 0. C est e ce ses que l iformatio de Kullback doe des iformatios sur le modèle. A priori, il y a pas de raiso pour qu u EMV soit cosistat, comme e atteste l exemple suivat : Exemple Soit (R,{C (θ) } θ>0 ) u modèle statistique, où C (θ) désige la loi sur R, de desité θ 1 π θ 2 + x 2, x R. Notos (X 1,,X ) u échatillo de la loi C (θ), avec θ > 0. U simple calcul ous motre que l EMV ˆθ est la seule solutio de l équatio ϕ (.) = 1/2, où l o a oté ϕ (α) = 1 A (X i /α) 2, α > 0.

33 3.2. CONSISTANCE DE L EMV 33 Par ailleurs, o vérifie facilemet que pour tous α 1,α 2 > 0 : ϕ (α 1 ) ϕ (α 2 ) α 2 1 α α1 2 + X i 2 Par l absurde, supposos que ˆθ est cosistat. La loi des grads ombres et cette iégalité ous motret que pour chaque θ > 0. Par suite, ϕ ( ˆθ) C (θ) E θ (X/θ) 2 1 E θ 1 + (X/θ) 2 = 1, θ > 0, 2 ce qui est impossible car le terme de gauche ted vers 1 lorsque θ. Il est doc écessaire de doer des coditios suffisates de cosistace des EMV. Théorème Soit (H,{Q θ } θ Θ ) u modèle statistique idetifiable et domié, de vraisemblace L. O suppose que Θ est compact, et que : (i) x H, ll(x;.) est cotiu sur Θ ; (ii) θ Θ, il existe H L 1 (Q θ ) telle que sup α Θ ll(.;α) H. O ote ˆθ l EMV de θ associé à la vraisemblace L (x 1,,x ;θ) = L(x i ;θ) du modèle (H,{Q θ } θ Θ ). Alors, ˆθ est cosistat. Preuve O fixe θ Θ et o ote P θ = Q θ. Soit (X 1,,X ) u échatillo de la loi P θ et, pour chaque α Θ : U (α) = 1 ll (X 1,,X ;α) = 1 U(α) = E θ ll(.;α).. ll(x i ;α) Remarquos que U ( ˆθ) = if Θ U et, par hypothèse, que U est cotiue. D après P la loi des grads ombres, U θ U poctuellemet ; ous allos tout d abord

34 34 CHAPITRE 3. VRAISEMBLANCE motrer que cette covergece est e fait uiforme. Pour tout η > 0, o désige par g(.,η) la foctio défiie pour chaque x H par g(x,η) = sup ll(x;α) ll(x;β). α β η O fixe maiteat ε > 0. Comme g(.,η) 2H avec H L 1 (P θ ) et g(x,η) 0 si η 0 pour tout x H, o a E θ g(.,η) < ε/3 d après le théorème de Lebesgue, pour ue certaie valeur de η que ous fixos doréavat. O recouvre le compact Θ par N boules fermées de Θ de rayo η : O a das u premier temps : sup U U max Θ j=1,,n B(θ j,η) + max 1 N Θ = B(θ j,η). j=1 sup sup j=1,,n B(θ j,η) g(x i,η) + U U (θ j ) + max j=1,,n U (θ j ) U(θ j ) U(θ j ) U max U (θ j ) U(θ j ) + E θ g(.,η). j=1,,n O e déduit das u secod temps que, puisque E θ g(.,η) < ε/3 : ) ( ) 1 P θ (sup U U ε P θ Θ g(x i,η) + max U (θ j ) U(θ j ) 2ε/3 j=1,,n ( ) P θ max U (θ j ) U(θ j ) ε/3 j=1,,n ( ) 1 +P θ g(x i,η) ε/3. Or, d après la la loi des grads ombres, o a à la fois : max U (θ j ) U(θ j ) j=1,,n P θ 1 0 et g(x i,η) P θ E θ g(.,η) < ε/3. P Ces observatios ous permettet de déduire que sup Θ U U θ 0. E particulier, U ( ˆθ) = if Θ U P θ if Θ U. (3.2.1)

35 3.3. INFORMATION DE FISHER 35 Comme Θ est compact et U est cotiue, il existe t Θ tel que U(t) = if Θ U. Par suite : U ( ˆθ) U (θ) P θ U(t) U(θ) = K(t,θ). De plus, U ( ˆθ) U (θ) = if Θ U U (θ) 0. O a doc K(t,θ) 0, ce qui motre que K(t,θ) = 0 d où t = θ. D après (3.2.1), U ( ˆθ) P θ U(θ) et, puisque U coverge uiformémet vers U e probabilité, o e déduit que K( ˆθ,θ) = U( ˆθ) U(θ) P θ 0. Soit ε > 0. Il existe γ > 0 tel que si α Θ vérifie α θ ε, alors K(α,θ) γ. Par coséquet, P θ ( ˆθ θ ε ) P θ ( K( ˆθ,θ) γ ) 0, doc ˆθ ted vers θ e probabilité. 3.3 Iformatio de Fisher Das le cadre d u modèle statistique (H,{P θ } θ Θ ) de vraisemblace L telle que pour chaque x H, ll(x;.) C 1, la foctio score au poit θ défiie par x ll(x;θ), et das laquelle désige le gradiet par rapport à θ, évalue la variabilité du modèle. C est ue otio itrisèque au modèle, e ce ses qu elle e déped i de la mesure domiate, i de la vraisemblace. C est ce qui justifie la défiitio qui suit. Par covetio, dès que l o parle de gradiet (resp. hessiee), il est sousetedu que la foctio est de classe C 1 (resp. C 2 ). Défiitio Soit (H,{P θ } θ Θ ) u modèle statistique domié de vraisemblace L. O suppose que Θ est ouvert, et que pour chaque θ Θ : ll(.;θ) L 2 (P θ ).

36 36 CHAPITRE 3. VRAISEMBLANCE O appelle iformatio de Fisher la foctio ( ( )) I : θ var θ ( ll(.;θ)) = cov θ ll(.;θ), ll(.;θ). θ i θ j i, j=1,,d Lorsque ous parleros d iformatio de Fisher, il sera sous-etedu que les hypothèses imposées das cette défiitio serot satisfaites. L iformatio de Fisher est doc ue foctio à valeurs das l esemble des matrices semi-défiies positives qui évalue le pouvoir de discrimiatio du modèle etre 2 valeurs proches du paramètre d itérêt. E effet, o voit directemet das le cas d = 1 que I(θ) grad traduit ue grade variatio de la ature des probabilités du modèle au voisiage de P θ, d où ue discrimiatio de la vraie valeur du paramètre icou facilitée. A l iverse, si I(θ) est petit, la loi est très piquée : c est mauvais, car o est ameé à rechercher le maximum de la vraisemblace das ue régio très vaste. Ce sot ces propriétés de I(θ) qui fourisset ue iformatio sur le modèle. Pour illustrer ces affirmatios, repreos le modèle de la sectio 1.1, pour lequel la vraisemblace vaut, si p ]0,1[ et x 1,,x {0,1} : L(x 1,,x ; p) = p x i (1 p) x i. O a déjà vu das la relatio (2.1.1) que : I(p) = var p ( ll(.; p)) = p(1 p). Das ce modèle, l icertitude est faible pour p proche de 0 et 1 alors qu elle est grade pour p = 1/2. Ceci se traduit bie par ue iformatio I(p) maximale pour p proche de 0 et 1, et miimale pour p = 1/2. Das ue situatio d échatilloage i.i.d., l iformatio de Fisher est proportioelle à la taille de l échatillo. Cette propriété, que ous motros cidessous, légitime ecore plus ce cocept e tat que mesure d ue quatité d iformatio. Propositio Soit (H,{Q θ } θ Θ ) u modèle statistique domié d iformatio de Fisher I. Alors, l iformatio de Fisher I du modèle (H,{Q θ } θ Θ ) vaut I (θ) =

37 3.3. INFORMATION DE FISHER 37 I(θ) pour chaque θ Θ. Preuve Si L désige la vraisemblace du modèle (H,{Q θ } θ Θ ), la vraisemblace L du modèle (H,{Q θ } θ Θ ) est : L (x 1,,x ;θ) = Le score de ce derier modèle est doc : ll (x 1,,x ;θ) = L(x i ;θ). ll(x i ;θ). Si (X 1,,X ) est u échatillo de la loi P θ = Q θ, o a alors par idépedace : ) I (θ) = var θ ( ll(x i ;θ) = var θ ( ll(x i ;θ)) = I(θ). Du poit de vue des calculs, o se réfèrera souvet à la propositio qui suit, dot l objectif pricipal est de doer ue forme simplifiée pour la matrice d iformatio de Fisher. Das la suite, 2 g(θ) désige la matrice Hessiee de g : Θ R évaluée e θ Θ. Propositio Soit (H,{P θ } θ Θ ) u modèle statistique domié par µ, de vraisemblace L et d iformatio de Fisher I. Soit θ Θ. O suppose qu il existe u voisiage V Θ de θ tel que sup α V L(.;α) L 1 (µ). Alors : (i) E θ ll(.;θ) = 0. (ii) si, e outre, sup α V 2 L(.;α) L 1 (µ), o a I(θ) = E θ 2 ll(.;θ). Les coditios de cette propositio e sot pas aussi restrictives qu elle peuvet le sembler, car elle sot satisfaites par bo ombre de modèles statistiques. Comme ous allos le voir, il s agit essetiellemet de doer des coditios pour faire passer l opératio de dérivatio sous ue itégrale. Preuve O commece par remarquer que, sous la coditio sup α V L(.;α) L 1 (µ), o a d après le théorème de Lebesgue : L(x;θ)µ(dx) = L(x;θ)µ(dx) = 0. H H

38 38 CHAPITRE 3. VRAISEMBLANCE Par suite, E θ ll(.;θ) = ( ll(x;θ))l(x;θ)µ(dx) = H H L(x;θ)µ(dx) = 0, d où (i). Pour motrer (ii), o remarque das u premier temps que d après (i), ( ( )) I(θ) = cov θ ll(.;θ), ll(.;θ) θ i θ j i, j=1,,d ( = E θ ll(.;θ) ) ll(.;θ). (3.3.1) θ i θ j i, j=1,,d Soit alors i, j = 1,,d. Pour x H, o a ( ) 2 2 θ i θ j L(x;θ) ll(x;θ) = θ i θ j L(x;θ) ( )( ) θ i L(x;θ) θ j L(x;θ) L 2 (x;θ) Il est bo de remarquer que chacue des expressios qui itervieet das le membre de droite est ue foctio de x qui est das L 1 (P θ ) : c est clair pour le 1er terme car 2 L(.;θ) L 1 (µ) ; c est vrai aussi pour le 2d membre sous la coditio d existece de l iformatio de Fisher, i.e. ll(.;θ) L 2 (P θ ). Le théorème de Lebesgue motre que sous l hypothèse sup α V 2 L(.;α) L 1 (µ), o a : Par suite, L(x;θ)µ(dx) = 2 θ i θ j θ i θ j H 2 E θ 2 θ i θ j ll(.;θ) = H = H L(x;θ)µ(dx) = 0. ( 2 ) ll(x;θ) L(x; θ)µ(dx) θ i θ j ( )( ) 1 L(x;θ) L(x;θ) θ i θ j L(x;θ) µ(dx) H = E θ θ i ll(.;θ) θ j ll(.;θ). D après (3.3.1), cette derière quatité coicide avec I(θ) i j, d où (ii). Cette propositio légitime la défiitio qui suit. Défiitio O dit que le modèle statistique domié (H,{P θ } θ Θ ) domié et de vraisemblace L est régulier si pour chaque θ Θ :.

39 3.4. NORMALITÉ ASYMPTOTIQUE DE L EMV 39 (i) so iformatio de Fisher e θ existe et est iversible ; (ii) E θ ll(.;θ) = 0 et I(θ) = E θ 2 ll(.;θ). La propositio précédete ous doe doc des coditios suffisates de régularité d u modèle. A ouveau, il est etedu das cette défiitio que les coditios d existece de l iformatio de Fisher sot satisfaites. De même, o évoque l espérace d ue v.a. que lorsque celle-ci existe. 3.4 Normalité asymptotique de l EMV Théorème Soit (H,{Q θ } θ Θ ) u modèle domié régulier, de vraisemblace L et d iformatio de Fisher I tel que, pour chaque θ Θ, il existe u voisiage V Θ de θ avec sup α V 2 ll(.;α) L 1 (P θ ). O ote ˆθ l EMV de θ associé à la vraisemblace L (x 1,,x ;θ) = L(x i ;θ) du modèle (H,{Q θ } θ Θ ). Si ˆθ est cosistat, alors il est asymptotiquemet ormal, de vitesse et de variace asymptotique I(θ) 1 : ( ˆθ θ ) L /Q θ N(0,I(θ) 1 ), θ Θ. Remarque Si les coditios de régularité du modèle e sot certaiemet pas optimales pour garatir u tel résultat, il e reste pas mois qu il est écessaire d imposer ue certaie régularité. Cosidéros e effet le cas du modèle (R +,{U ([0,θ]) } θ>0 ). Sa vraisemblace L s écrit pour θ > 0 : { θ si 0 x L (x 1,,x ;θ) = 1,,x θ; 0 sio. L EMV calculé à partir d u échatillo (X 1,,X ) de loi U ([0,θ]) est doc ˆθ = max 1 i X i. Calculos maiteat sa vitesse de covergece. E adoptat la otatio P θ = U ([0,θ]), o a pour chaque 0 < t < θ : ( ( P θ θ ˆθ ) t ) ( = 1 P θ max X i < θ t ) 1 i ( = 1 1 t ). θ

40 40 CHAPITRE 3. VRAISEMBLANCE Comme la limite est 1 exp( t/θ) dès que t > 0, o a doc motré que ( θ ˆθ ) L /P θ E (1/θ). Aisi, das cet exemple de modèle o régulier, i la vitesse de l EMV, i la loi limite, e correspodet à celles du théorème. Preuve O fixe θ Θ et o pose P θ = Q θ. Das la suite, (X 1,,X ) est u échatillo de loi P θ. Pour chaque α Θ, o ote : L (α) = ll (X 1,,X ;α) = ll(x i ;α). Comme ˆθ maximise L, u développemet de Taylor avec reste itégral ous doe : ( 1 0 = L ( ˆθ) = L (θ) + 2 ( L θ +t( ˆθ θ) ) ) dt ( ˆθ θ). (3.4.1) 0 Nous examios séparémet chacu des termes qui itervieet das cette relatio. Rappelos que, puisque le modèle est régulier, E θ ll(.;θ) = 0. Par ailleurs, var θ ( ll(.;θ)) = I(θ). Doc, d après le théorème de la limite cetrale : 1 L (θ) = 1 ll(x i ;θ) L /P θ N(0,I(θ)). (3.4.2) Motros maiteat que : L ( θ +t( ˆθ θ) ) dt Notos, pour chaque x H et r > 0 : σ(x,r) = P θ I(θ) sup 2 ll(x;α) 2 ll(x;θ). α θ r Or, σ(.,r) L 1 (P θ ) pour r assez petit et de plus, ll(x;.) C 2 pour chaque x H. Fixos ε > 0. D après le théorème de Lebesgue, il existe r > 0 tel que E θ σ(.,r) < ε/2. Par ailleurs, comme L ( θ +t( ˆθ θ) ) dt = ll ( X i ;θ +t( ˆθ θ) ) dt,

41 3.4. NORMALITÉ ASYMPTOTIQUE DE L EMV 41 o obtiet : ( 1 1 P θ 2 ( L θ +t( ˆθ θ) ) ) dt + I(θ) ε 0 ( 1 1 [ P θ 2 ll ( X i ;θ +t( ˆθ θ) ) 2 ll(x i ;θ) ] ) dt 0 ε 2 ( ) 1 +P θ 2 ll(x i ;θ) + I(θ) ε 2 ( ) 1 P θ i,r) σ(x ε ( + P θ ˆθ θ r ) 2 +P θ ( 1 ) 2 ll(x i ;θ) + I(θ) ε. 2 Le passage à la derière iégalité a été obteu par ue itersectio avec l évéemet { ˆθ θ < r}. Or, E θ σ(.,r) < ε/2 et E θ 2 ll(.;θ) = I(θ) car le modèle est régulier. Comme ˆθ est cosistat, o a doc, d après la loi des grads ombres : ( L θ +t( ˆθ θ) ) dt 0 0 P θ I(θ). E particulier, I(θ) état iversible, ( 1 1 P θ 2 ( L θ +t( ˆθ θ) ) ) dt iversible 1. Or, sur ce derier évéemet, d après (3.4.1) : ( ˆθ θ) = 1 ( ( L θ +t( ˆθ θ) ) 1 dt) L (θ). E réuissat toutes les pièces, o e déduit de (3.4.2) que d où le théorème. 0 ( ˆθ θ ) L /P θ I(θ) 1 N(0,I(θ)) = N(0,I(θ) 1 ),

42 42 CHAPITRE 3. VRAISEMBLANCE

43 Chapitre 4 Classificatio des statistiques Comme das tout domaie des mathématiques, classer les objets e foctio de propriétés commues est u moye efficace pour etrepredre leurs études. 4.1 Estimateurs efficaces O suppose das cette sectio que l espace des paramètres Θ R est u ouvert, que H R k et que (H,{P θ } θ Θ ) est u modèle statistique régulier domié par µ, de vraisemblace L et d iformatio de Fisher I. Das la sectio 2.1, ous ous sommes itéressés à des bores du risque quadratique, et doc de la variace, das la famille des estimateurs sas biais. Nous poursuivos ici das cette étude. Avat tout, ous auros besoi de la défiitio suivate qui predra tout so ses avec l iégalité de Cramer-Rao. Défiitio O dit que ˆθ est u estimateur régulier si il est d ordre 2 et ˆθ(.)L(.;θ)dµ = H ˆθ(.) L(.;θ)dµ. H L itérêt de cette défiitio réside das la remarque suivate : sous les otatios de cette défiitio, si l estimateur régulier ˆθ est sas biais, alors H ˆθ(.) L(.;θ)dµ = E θ ˆθ(.) = 1. Comme le motre le résultat qui suit, le risque quadratique est uiformémet mioré das la famille des estimateurs réguliers et sas biais, ous doat aisi 43

44 44 CHAPITRE 4. CLASSIFICATION DES STATISTIQUES ue vitesse seuil qu il serait illusoire de vouloir améliorer. Théorème [CRAMER-RAO] Pour tout estimateur ˆθ régulier et sas biais, o a : R(θ, ˆθ) I(θ) 1, θ Θ. Le terme I(θ) 1 s appelle bore de Cramer-Rao. Preuve Soit θ Θ. L iégalité de Cauchy-Schwarz ous doe : ( ( )) 2 covθ ˆθ, ll(.;θ) R(θ, ˆθ) = var θ ( ˆθ). (4.1.1) var θ ( ll(.;θ)) Par défiitio de I(θ), il suffit doc de motrer que cov θ ( ˆθ, ll(.;θ) ) = 1. Comme ˆθ est régulier et sas biais, o a H ˆθ(x) L(x;θ)µ(dx) = 1. Par ailleurs, E θ ll(.;θ) = 0 car le modèle est régulier. E coséquece : d où le théorème. ( cov ) θ ˆθ, ll(.;θ) = ˆθ(x) L(x;θ) H L(x;θ) P θ (dx) = ˆθ(x) L(x;θ)µ(dx) H = 1, Repreos l exemple du modèle statistique ({0,1},{B(p) } p ]0,1[ ) de la sectio 1.1. Nous avos motré das la sectio 2.1 que l estimateur X costruit à partir d u échatillo (X 1,,X ) de la loi B(p) est VUMSB, ce qui s exprime par la propriété : var p ( ˆθ) = R(p; ˆθ) R(p; X ) = var p ( X ) = p(1 p), pour tout autre estimateur sas biais ˆθ. U simple calcul ous motre aussi que l iformatio de Fisher de ce modèle est précisémet I(p) = p(1 p).

45 4.1. ESTIMATEURS EFFICACES 45 Aisi, la bore de l iégalité de Cramer-Rao, commuémet appelée bore de Cramer-Rao, est atteite. Cette remarque doe tout so ses à la défiitio qui suit : Défiitio U estimateur sas biais d ordre 2 est dit uiformémet efficace si il atteit la bore de Cramer-Rao du modèle. Si tout estimateur uiformémet efficace est VUMSB, la réciproque est pas vraie, et ces 2 otios e sot doc pas les mêmes. La propositio suivate ous motre qu il est possible de décrire les estimateurs uiformémet efficaces. Propositio Soit ˆθ u estimateur régulier et sas biais. Alors, ˆθ est uiformémet efficace si, et seulemet si, il existe ue foctio ψ : Θ R telle que θ Θ, ˆθ = θ + ψ(θ) ll(.;θ) P θ p.s. Preuve Soit θ Θ. D après (4.1.1), ˆθ est uiformémet efficace si et seulemet si var θ ( ˆθ)var θ ( ll(.;θ)) = ( cov θ ( ˆθ, ll(.;θ) ) 2. O est doc das u cas d égalité das l iégalité de Cauchy-Schwarz, ce qui sigifie qu il existe ψ(θ) tel que ˆθ E θ ˆθ = ψ(θ)( ll(.;θ) E θ ll(.;θ)) P θ p.s. Comme ˆθ est sas biais et ll(.;θ) est P θ -cetrée, la propositio est prouvée. Bie sûr, cette propositio est u "miroir aux alouettes", das la mesure où l estimateur uiformémet efficace est alors décrit via le paramètre icou θ. E fait, l itérêt d ue telle représetatio réside das le fait que l o peut quelquefois e déduire qu u estimateur est uiformémet efficace. O peut aisi facilemet retrouver le fait que la moyee empirique est l estimateur VUMSB das le modèle statistique ({0,1},{B(p) } p ]0,1[ ). Pour chager d exemple, cosidéros plutôt le modèle statistique (R,{N(m,σ 2 ) } σ>0 ), avec m R cou. Si (X 1,,X ) est u échatillo de la loi N(m,σ 2 ), l estimateur ˆ σ 2 = 1 (X i m) 2

46 46 CHAPITRE 4. CLASSIFICATION DES STATISTIQUES est sas biais -car m est cou- et régulier. Par ailleurs, la vraisemblace L s écrit, pour σ > 0 et x 1,,x R : ( L(x 1,,x ;σ 2 1 ) = (2πσ 2 exp 1 ) /2 2σ 2 (x i m) ). 2 Par suite, sa log-vraisemblace vérifie : σ 2 ll(x 1,,x ;σ 2 ) = 2σ σ 4 = 2σ 4 ( 1 (x i m) 2 (x i m) 2 σ 2 ). O e déduit de la propositio précédete que ˆ σ 2 est uiformémet efficace. 4.2 Statistiques exhaustives Das cette partie, le modèle statistique étudié est (H,{P θ } θ Θ ), avec H R k et Θ R d. Le pricipe d exhaustivité d ue statistique est u pricipe de réductio des doées, qui est basé sur la otio de loi coditioelle. Das la suite, L Pθ (Z 1 Z 2 ) désige la loi coditioelle, sous P θ, de Z 1 sachat Z 2. Défiitio La statistique g est dite exhaustive si, pour chaque θ Θ, L Pθ (X 1,,X g(x 1,,X )) e déped pas de θ, où (X 1,,X ) est u échatillo de loi P θ. E clair, l échatillo apporte pas plus d iformatio sur la valeur du paramètre icou qu ue statistique exhaustive. Autremet dit, ue statistique exhaustive élimie toute l iformatio superflue das l échatillo, e e reteat que la partie iformative sur le paramètre icou. Repreos le cas du modèle ({0,1},{B(p) } p ]0,1[ ) itroduit das la sectio 1.1. L ordre das lequel sot observés les tirages de "pile" ou "face" apporte aucue iformatio supplémetaire sur le paramètre icou. Du coup, o

47 4.2. STATISTIQUES EXHAUSTIVES 47 peut résumer la suite des observatios x 1,,x par leur somme x x, ce qui idique que l estimateur X issu de l échatillo (X 1,,X ) de la loi B(p) est exhaustif. Faisos le calcul pour étayer cette ituitio. Pour chaque y 1,,y {0,1} et z {0,,} tels que y y = z : ( ) B(p) B(p) ( ) X 1 = y 1,,X = y X 1 = y 1,,X = y X = z = B(p) ( X = z) = pz (1 p) z Cp z z (1 p) z = 1 C z. Sous B(p), la loi de (X 1,,X ) sachat X est doc la loi uiforme sur l esemble {y {0,1} : y y = X }. Cette loi e déped pas du paramètre p, doc X est ue statistique exhaustive : toute l iformatio sur p coteue das l échatillo (X 1,,X ) est e fait coteue das X. Le théorème ci-dessous ous doe ue caractérisatio simple de l exhaustivité. Théorème [NEYMAN-FISHER] Supposos que le modèle (H,{P θ } θ Θ ) est domié par µ. Ue statistique g à valeurs das R q est exhaustive si, et seulemet si, il existe 2 applicatios boréliees ψ : R q Θ R + et γ : H R + telles que la vraisemblace L pour µ s écrit : L(x;θ) = ψ(g(x),θ)γ(x), (x,θ) H Θ. Il est alors très facile de motrer avec ce théorème qu ue statistique est exhaustive. Par exemple, la moyee empirique est ue statistique exhaustive das le modèle (R,{N(m,1) } m R ), car la vraisemblace pour la mesure de Lebesgue sur R vaut L(x;m) = { ( exp 1 )} { 2 ( x m) 2 1 exp (2π) /2 pour tout x = (x 1,,x ) T R et m R. ( 1 2 (x i x ) 2 )}, Preuve O a vu e das la sectio 1.4 qu il existe, das le covexifié de {P θ } θ Θ, ue probabilité qui domie le modèle statistique. Pour simplifier la preuve, o va

48 48 CHAPITRE 4. CLASSIFICATION DES STATISTIQUES supposer que la mesure domiate µ est cette mesure, i.e. µ = a P θ, avec (θ ) Θ et (a ) [0,1] tel que a = 1. Das ce cadre, ous allos motrer que g est exhaustive si, et seulemet si L(x;θ) = ψ(g(x),θ) (x,θ) H Θ, (4.2.1) pour ue foctio mesurable ψ : R q Θ R +. Au préalable, remarquos que la loi P θ g 1 de g est absolumet cotiue par rapport à µ g 1, et de desité ϕ(.,θ) = E µ [L(.;θ) g =.], si E µ désige l espérace sous µ. E effet, o a pour tout A B(R q ) : P θ g 1 (A) = P θ (g A) = L(.;θ)dµ = E µ [L(.;θ) g]dµ g 1 (A) g 1 (A) = E µ [L(.;θ) g = x]µ g 1 (dx). A d après le théorème de trasfert et par défiitio de l espérace coditioelle. O suppose tout d abord que L se factorise comme das (4.2.1). Soit θ Θ. Comme P θ g 1 est la loi de g, il faut motrer que pour tout A B(R q ) et tout B B(H ) : P θ ({g A} B) = K(x,B)P θ g 1 (dx), avec K u oyau idépedat de θ. Pour tout A B(R q ) et B B(H ) : P θ ({g A} B) = 1 B 1 A g(.)ψ(g(.),θ)dµ H = E µ [1 B 1 A g(.)ψ(g(.),θ) g] dµ H = µ(b g)1 H A g(.)ψ(g(.),θ)dµ = µ(b g = x)1 A(x)ψ(x,θ) µ g 1 (dx), R q A où o a oté µ(b g) = E µ [1 B g]. Pour la derière chaîe d égalités, o a utilisé successivemet la défiitio de l espérace coditioelle et l ue de ses propriétés fodametales (E µ [XY G ] = XE µ [Y G ] si X est G -mesurable, dès que XY et

49 4.2. STATISTIQUES EXHAUSTIVES 49 Y sot das L 1 (µ)), puis le théorème de trasfert. Comme E µ [L(.;θ) g =.] = ψ(.,θ) est la desité de P θ g 1 par rapport à µ g 1, o a doc obteu : P θ ({g A} B) = = A A µ(b g = x)ψ(x,θ)µ g 1 (dx) µ(b g = x)p θ g 1 (dx) Le oyau de trasitio K(x,B) = µ(b g = x) associé à la loi coditioelle sous P θ de l échatillo sachat g est idépedat de θ, c est-à-dire que g est ue statistique exhaustive. Supposos maiteat que g est exhaustive. Soit θ Θ. Comme g est exhaustive, la loi coditioelle P θ (. g =.) est idépedate de θ ; otos-là P(. g =.). Alors, pour tout B B(H ) et x R q : µ(b g = x) = a P θ (B g = x) = P(B g = x), i.e. les lois coditioelles P(. g =.) et µ(. g =.) sot les mêmes µ g 1 -p.s. Par suite, pour tous A B(R q ) et B B(H ) : P θ ({g A} B) = = A A P(B g = x)p θ g 1 (dx) µ(b g = x)ϕ(x,θ)µ g 1 (dx), car ϕ(.,θ) = E µ [L(.;θ) g =.] est la desité de P θ g 1 par rapport à µ g 1. Par ailleurs, o a aussi par défiitio de l espérace coditioelle : P θ ({g A} B) = g 1 (A) 1 B L(.;θ)dµ = A E µ [1 B L(.;θ) g = x]µ g 1 (dx). Ces égalités état vraies pour tout A B(R q ), o e déduit que µ g 1 -p.s. : E µ [1 B ϕ(g(.),θ) g =.] = µ(b g =.)ϕ(.,θ) = E µ [1 B L(.;θ) g =.]. Par suite, o a µ-p.s. : E µ [1 B (ϕ(g(.),θ) L(.;θ)) ] g = 0,

50 50 CHAPITRE 4. CLASSIFICATION DES STATISTIQUES et doc, e particulier, pour tout B B(H ) : E µ [1 B (ϕ(g(.),θ) L(.;θ))] = 0. Ceci état vrai pour tout B B(H ), o a bie L(.;θ) = ϕ(g(.),θ) µ-p.s., d où la factorisatio (4.2.1) Ue fois caractérisé par des moyes simples, o remarque -comme o pouvait s y attedre- que le cocept d exhaustivité permet d améliorer u estimateur, e terme de risque. C est l objet du théorème ci-dessous. Théorème [RAO-BLACKWELL] Soit g ue statistique, et ˆθ u estimateur d ordre 2. Si g est exhaustive, alors la statistique E θ [ ˆθ g] est u estimateur préférable à ˆθ, et de même biais que ˆθ. Preuve O fixe θ Θ. Comme g est exhaustive, E θ [ ˆθ g], qui e déped pas de θ, est doc u estimateur. Notos-le ˆη. Comme E θ ˆη = E θ E θ [ ˆθ g] = E θ ˆθ, les 2 estimateurs ot même biais. Par ailleurs, V θ ( ˆθ) = E θ ( ˆθ ˆη) + ( ˆη E θ ˆθ) 2 = E θ ˆθ ˆη 2 +V θ ( ˆη) + 2E θ ( ˆθ ˆη ) T ( ˆη Eθ ˆη), où l o a utilisé le fait que ˆθ et ˆη ot même biais. Or, [ ( E θ ˆθ ˆη ) ] T [ ( ˆη Eθ ˆη) g = E θ ˆθ ˆη g ] T ( ˆη Eθ ˆη) = ( ˆη ˆη) T ( ˆη E θ ˆη) = 0, ce qui motre que ( E θ ˆθ ˆη ) [ T ( ( ˆη Eθ ˆη) = E θ E θ ˆθ ˆη ) ] T ( ˆη Eθ ˆη) g = 0. Doc, V θ ( ˆθ) V θ ( ˆη) d où, d après la décompositio Biais-Variace : R(θ, ˆη) = E θ ˆη θ 2 +V θ ( ˆη) E θ ˆθ θ 2 +V θ ( ˆθ) = R(θ, ˆθ),

51 4.3. STATISTIQUES COMPLÈTES 51 ce qui ous doe le résultat. Repreos le cas du modèle ({0,1},{B(p) } p ]0,1[ ) itroduit das la sectio 1.1. Lorsque (X 1,,X ) est u échatillo de la loi P p = B(p), o sait que X 1 est u estimateur sas biais, et que X lui est préférable. Nous allos retrouver ce résultat e utilisat le théorème de Rao-Blackwell. O a déjà motré que X est ue statistique exhaustive. D après le théorème de Rao-Blackwell, E p [X 1 X ] est doc u estimateur préférable à X 1. Or, comme X 1,,X sot i.i.d., o a pour tout j {1,,} et A B(R) : { X A} E p [X 1 X ]dp p = = { X A} { X A} X 1 dp p = { X A} E p [X j X ]dp p. X j dp p Ceci état vrai pour chaque A B(R), o e déduit de l uicité de l espérace coditioelle que E p [X 1 X ] = E p [X j X ] P p -p.s. Par suite : E p [X 1 X ] = 1 E p [X j X ] = E p [ X X ] = X, P p p.s. j=1 L estimateur préférable costruit avec le théorème de Rao-Blackwell est autre que l iévitable moyee empirique! 4.3 Statistiques complètes Das cette partie, le modèle statistique étudié est (H,{P θ } θ Θ ), avec H R k et Θ R d. Das la suite, o ote aussi : L = { f : H R : f L 1 (P θ ) θ Θ } Défiitio O dit qu ue statistique g à valeurs das R q est complète si, pour toute foctio ξ : R q R telle que ξ g L : E θ ξ g(.) = 0, θ Θ = ξ g = 0 P θ p.s., θ Θ. De plus, lorsque g = Id, le modèle statistique est dit complet.

52 52 CHAPITRE 4. CLASSIFICATION DES STATISTIQUES Exemple Le modèle biomial ({0,,l},{B(l,θ)} θ ]0,1[ ) est complet. E effet, soit ξ ue foctio umérique d itégrale ulle sous P θ = B(l,θ), et ceci pour chaque θ ]0,1[. Alors, 0 = l k=0 ξ (k)c k l θ k (1 θ) l k = (1 θ) l l k=0 ξ (k)c k l ( ) θ k. 1 θ Comme cette égalité est valable pour tout θ ]0,1[, il e résulte que ξ = 0 sur {0,,l}, doc ξ = 0 P θ -p.s., i.e. le modèle biomial est complet. Le cocept pred tout so ses grâce au résultat suivat : Théorème [LEHMANN-SCHEFFÉ] Soit ˆθ u estimateur sas biais d ordre 2. Si g est ue statistique exhaustive complète, alors la statistique E θ [ ˆθ g] est l uique estimateur VUMSB. Preuve Soit ˆθ u autre estimateur sas biais et tel que ˆθ L 2 (P θ ) pour chaque θ Θ. O fixe θ Θ, et o ote η = E θ [ ˆθ g] et η = E θ [ ˆθ g]. Par exhaustivité de g, η et η sot des estimateurs. E outre, ils sot sas biais et das L 2 (P θ ). D après le lemme de Doob, il existe ue foctio boréliee ξ telle que η η = ξ g. Doc, comme η et η sot sas biais : 0 = E θ (η η ) = E θ ξ g, ce qui motre que η η = ξ g = 0 P θ -p.s. car g est ue statistique complète. Pour fiir, o remarque que d après l iégalité de Jese pour les espéraces coditioelles (appliquée à la foctio covexe x x 2 ) : R(θ;η) = R(θ;η ) = V θ (η ) = E θ E θ [ ˆθ g] θ 2 ce qui etraîe que η est VUMSB. E θ E θ [ ˆθ θ 2 g] = V θ ( ˆθ ) = R(θ; ˆθ ), Aisi, dès que l o dispose d ue statistique complète, tout estimateur sas biais, même déraisoable, suffit pour détermier l estimateur VUMSB. Pour illustrer cette affirmatio, repreos le modèle ({0,1},{B(p) } p ]0,1[ ) de la

53 4.3. STATISTIQUES COMPLÈTES 53 sectio 1.1. Nous allos à ouveau motrer, cette fois à l aide du théorème de Lehma-Scheffé, que l estimateur X costruit avec l échatillo (X 1,,X ) de la loi P p = B(p) est VUMSB. Comme X 1 est u estimateur sas biais, que X est ue statistique exhaustive et que E p [X 1 X ] = X, il reste à prouver que X est ue statistique complète. Sous P p, la loi de X est B(, p). Doc, pour chaque foctio ξ à valeurs réelles, E p ξ ( X ) = ξ k=0 ( ) k C k p k (1 p) k. Si E p ξ ( X ) = 0 pour chaque p ]0,1[, o a alors ξ (k/) = 0 pour chaque k {0,,} et doc ξ ( X ) = 0 P p -p.s. Par suite, X est ue statistique complète.

54 54 CHAPITRE 4. CLASSIFICATION DES STATISTIQUES

55 Chapitre 5 Test statistique Repreos la problématique de la sectio 1.1. Au iveau de cofiace 95%, l itervalle de cofiace obteu pour la valeur de p 0 (la probabilité que la pièce tombe sur pile) est [0.45,0.59]. O est doc pas e mesure de préciser si la pièce est ou o équilibrée : u itervalle de cofiace e fourit pas, e gééral, ue procédure de décisio. L objet de ce chapitre est de costruire ue procédure de décisio, le test statistique. Il faut avoir à l esprit que, outre le fait que cette procédure doit redre ue décisio, elle doit aussi garder u cotrôle sur ses propres erreurs. O cosidère das ce chapitre u modèle statistique (H,{P θ } θ Θ ). Il faut oter que i H, i Θ est spécifié. 5.1 Problème de test Pour ue raiso ou ue autre, o est ameé à peser que la vraie valeur du paramètre θ, i.e. celle qui est issue de l observatio x 1,,x, se trouve das u sousesemble Θ 0 de Θ. O formule alors ue hypothèse, appelée hypothèse ulle, et otée H 0 : θ Θ 0. Cepedat, cette hypothèse peut malgré tout être fausse, et o est ameé à itroduire l hypothèse alterative H 1 : θ Θ 1, avec Θ 1 Θ c 0. U problème de test est la cofrotatio de l hypothèse ulle H 0 cotre l hypothèse alterative H 1. A ce iveau, il coviet de formuler 2 observatios : 55

56 56 CHAPITRE 5. TEST STATISTIQUE Θ 1 est pas écessairemet égal à Θ0 c : ceci illustre le fait que, das u problème de test, il faut choisir ue hypothèse alterative qui, e cas de rejet de H 0, présete plus de pertiece que H 0 ; dissymétrie etre H 0 et H 1, car le test est costruit à partir de la présomptio que H 0 est vraie. De même que das u procès aux assises, il y a présomptio d iocece, das u problème de test, il y a présomptio de H 0. Comme das u procès où il faut alors prouver avec certitude que le déteu est coupable pour le codamer, le corollaire de ce pricipe est qu il faut motrer que H 0 est peu probable pour la rejeter. De ce poit de vue, la décisio la plus covaicate est doc de rejeter H 0! A l istar des estimateurs, toute procédure de décisio sur u problème de test est élaborée à partir d ue observatio (x 1,,x ) H. U test peut alors être représeté par ue foctio de l observatio, qui vaut 0 lorsque celle-ci coduit à accepter H 0 et qui vaut 1 das le cas cotraire. Défiitio U test pur est ue statistique T à valeurs das {0,1} : pour l observatio x H, si T (x) = 0 alors H 0 est acceptée ; si T (x) = 1 alors H 0 est rejetée. La zoe de rejet (resp. d acceptatio) du test est T 1 ({1}) (resp. T 1 ({0}). U test pur correspod doc à ue décisio biaire, qui e correspod gééralemet pas à la complexité des situatios evisagées. Cosidéros e effet le cas d u problème de test H 0 : θ = 0 cotre H 1 : θ 0 (i.e. Θ 0 = {0} et Θ 1 = R ). Pour ue observatio meat à ue valeur estimée de θ o ulle, mais proche de 0, doit-o pour autat cosidérer que H 1 est vraie? Pour assouplir la ature du test, o est ameé à utiliser ue statistique de test T preat ses valeurs das l itervalle [0,1]. Défiitio U test stochastique est ue statistique T à valeurs das [0,1] : pour l observatio x H, T (x) est la probabilité de rejeter H 0. La zoe de rejet (resp. d acceptatio) du test est T 1 ({1}) (resp. T 1 ({0}). La zoe d hésitatio du test est T 1 (]0,1[). Par défaut, u test est cosidéré comme état stochastique, et sa décisio est redue par u lacer de pièce! Plus précisémmet, examios de quelle maière redre ue décisio das le cadre d u tel test :

57 5.2. ERREURS D UN TEST 57 PROCÉDURE DE DÉCISION D UN TEST. Soit T u test stochastique. Pour l observatio x, T (x) est la probabilité de rejeter H 0. O réalise alors u tirage aléatoire das {0,1} selo ue loi B(T (x)) : si le résultat du tirage est 0, o décide que H 0 est acceptée ; sio, H 0 est rejetée. 5.2 Erreurs d u test U test doit être costruit à partir d ue erreur fixée au préalable. Le 1er type d erreur que l o peut dégager est la probabilité de rejeter H 0 à tort : Défiitio Soit T u test stochastique. So risque (ou erreur) de 1ère espèce est l applicatio qui, à chaque θ Θ 0, doe la probabilité de redre la mauvaise décisio : Θ 0 [0,1] θ E θ T. O dit que le test est de iveau (resp. de seuil) α si la probabilité maximale de rejeter H 0 à tort, i.e. l erreur de 1ère espèce maximale sup θ Θ0 E θ T, est égale (resp. iférieure) à α. Si le iveau du test est suffisammet proche de 0 (e pratique iférieur à 5%), la décisio de rejeter H 0 est doc covaicate. Exemple Cosidéros le modèle statistique (R,{N(θ,1) } θ R ). Pour u paramètre θ 0 R fixé, o veut costruire u test pur de iveau α pour le problème de test H 0 : θ θ 0 cotre H 1 : θ > θ 0. Soit θ R fixé, et (X 1,,X ) u échatillo de loi P θ = N(θ,1). O utilise la statistique de test ( X θ) dot la loi est N(0,1). Notos z(α) le quatile d ordre 1 α de la loi N(0,1), et Alors, pour chaque θ θ 0 : R = { (y 1,,y ) R : (ȳ θ 0 ) z(α) }. P θ (R) = P θ ( ( X θ) + (θ θ 0 ) z(α) ) P θ ( ( X θ) z(α) ) = α, avec égalité lorsque θ = θ 0. Par suite, le test T = 1 R est de iveau α.

58 58 CHAPITRE 5. TEST STATISTIQUE Pour u test de iveau suffisammet proche de 0, la décisio d accepter H 0 peut être sujette à cautio : le test ul, i.e. T 0, pour lequel H 0 est toujours choisie, possède u iveau ul. U tel test est pas iformatif, car il coclut toujours à accepter H 0, ceci même si elle est pas vraie. Cette observatio ous amèe à distiguer u autre type d erreur, la probabilité d accepter H 0 à tort : Défiitio Soit T u test stochastique. So risque (ou erreur) de 2ème espèce est l applicatio qui, à chaque θ Θ 1, doe la probabilité de redre la mauvaise décisio : Θ 1 [0,1] θ 1 E θ T. Comme l erreur de 1ère espèce, l erreur de 2ème espèce se doit d être faible. U autre cocept équivalet est fréquemmet utilisé, la probabilité d accepter H 1 à raiso. Défiitio Soit T u test stochastique. Sa puissace est l applicatio qui, à chaque θ Θ 1, doe la probabilité de redre la boe décisio : Θ 1 [0,1] θ E θ T. Le test ul, qui possède u iveau ul, a e revache u risque de 2ème espèce maximal (il vaut 1) et ue puissace ulle. E gééral, dimiuer l erreur de 1ère espèce se fait au détrimet de l erreur de 2ème espèce, qui a alors tedace à augmeter. Il est doc importat de s orieter vers u compromis etre ces 2 types d erreurs. De même que das u procès aux assises, où le pricipe de présomptio d iocece du préveu coduit l avocat gééral à devoir étayer ses accusatios de maière (quasi) irréfutable, le pricipe de présomptio sur H 0 coduit à miimiser e priorité le iveau du test e imposat qu il e dépasse pas ue valeur fixée. Puis, le test est costruit de telle sorte que so erreur de 2ème espèce soit miimale. Cette démarche e deux temps porte le om de pricipe de Neyma. Exemple Repreos le modèle statistique (R,{N(θ,1) } θ R ). Pour θ 0 R fixé, o a costruit u test pur de iveau α pour le problème de test H 0 : θ θ 0

59 5.2. ERREURS D UN TEST 59 cotre H 1 : θ > θ 0. Celui-ci est associé à la régio de rejet R = { (y 1,,y ) R : (ȳ θ 0 ) z(α) }, avec z(α) le quatile d ordre 1 α de la loi N(0,1). Soit θ R fixé, et (X 1,,X ) u échatillo de loi P θ = N(θ,1). Si N est ue variable aléatoire sur (Ω,F,P) de loi N(0,1), X et θ + N/ ot même loi. Par suite, ( P θ (R) = P θ ( X θ 0 ) z(α) ) ( = P (θ + 1 ) ) N θ 0 z(α) = P ( (θ θ 0 ) + N z(α) ). Si T = 1 R est le test pur, la foctio puissace θ E θ T = P θ (R) défiie sur ]θ 0, [ est doc croissate, miorée par α et ted vers 1 lorsque θ ted vers l ifii. Exemple Repreos le modèle statistique ({0,1},{B(p) } p ]0,1[ ) de la sectio 1.1. Supposos que l o veuille décider si oui ou o la pièce est équilibrée, e s appuyat sur les observatios x 1,,x telles que x = Ces observatios, qui sot régies par la loi B(p 0 ) ous idiquet que, si la pièce est pas équilibrée, l alterative raisoable est que p 0 > 1/2. O evisage doc de costruire u test pur de H 0 : p = 1/2 cotre H 1 : p > 1/2 au seuil 5%. Soit t R et ue régio de rejet du type : R = {(z 1,,z ) {0,1} : z > t}. Le test pur qui est associé à cette régio de rejet est T = 1 R. Pour u échatillo (X 1,,X ) de la loi P 1/2 = B(1/2) : E 1/2 T = P 1/2 ( X > t) = P 1/2 ( 2 ( X 1/2) > 2 (t 1/2) ) = 1 F ( 2 (t 1/2) ) + O( 1/2 ), si F est la foctio de répartitio de la loi N(0,1), e vertu de l iégalité de Berry- Essèe. Les valeurs de la foctio de répartitio de la loi N(0,1) sot tabulées : o trouve alors, pour les valeurs de t telles que 2 (t 1/2) 1.64 i.e. t 0.53 car = 1000, que 1 F ( 2 (t 1/2) ) 5%. E égligeat le terme e O( 1/2 ), o obtiet E 1/2 T 5%. Autremet dit, pour les régios de rejet : R = {(z 1,,z ) {0,1} : z > t},

60 60 CHAPITRE 5. TEST STATISTIQUE avec t 0.53, le test T = 1 R est de seuil 5%. Par ailleurs, la valeur t = 0.53 doe le test de puissace maximale. E coclusio, le test T = 1 R avec R = {(z 1,,z ) {0,1} : z > t}, est de seuil 5% et de puissace maximale. Avec la valeur de x = 0.52, l observatio (x 1,,x ) / R c est-à-dire qu o est ameé à accepter H 0 au iveau 5% : il est doc evisageable, au vu des observatios, de cosidérer que la pièce est équilibrée. 5.3 Comparaiso des tests Pour u test T, ue puissace trop faible sigifie que l o peut trouver das Θ 1 u poit θ pour lequel E θ T est faible. Lorsque cette derière valeur est plus petite que le iveau du test, o se retrouve das la situatio paradoxale où la probabilité d accepter H 1 à raiso est plus petite que la probabilité d accepter H 1 à tort! Das u tel cotexte, le test e sépare pas bie les hypothèses H 0 et H 1. La otio de test sas biais formalise cet écueil qu il coviet d éviter. Défiitio U test stochastique T de seuil α est dit sas biais si pour tout θ Θ 1, o a α E θ T. Rie e ous certifie, e gééral, qu u test sas biais existe. Nous reviedros sur ce problème crucial de la théorie des tests das la sectio suivate. Exemple Pour chaque θ R, o ote Q θ la loi de desité exp( (x θ))1 [θ, [ (x). O souhaite tester H 0 : θ 0 cotre H 1 : θ > 0 au iveau α ]0,1[, das le modèle statistique (R,{Q θ } θ R). Le test T = 1 R associé à la régio de rejet R = { (x 1,,x ) R : mi x i lα },, est u test pur pour H 0 cotre H 1, de iveau α et sas biais. Pour θ R, otos

61 5.3. COMPARAISON DES TESTS 61 P θ = Q θ et (X 1,,X ) u échatillo de loi P θ. Si θ 0 : ( E θ T = P θ mi X i lα ) =,, [ = e dt] (t θ) = α e θ α, lα/ ( [P θ X 1 lα )] avec égalité si θ = 0, i.e. le test T est de iveau α. De plus, si θ > 0, o a : E θ T = ( [P θ X 1 lα )] [ = e dt] (t θ). max(θ, lα/) Selo que θ est plus grad ou plus petit que lα/, E θ T vaut 1 ou αe θ. Comme θ > 0, E θ T > α, et T est doc u test sas biais. Défiitio Soit α [0,1]. O dit qu u test T de seuil α est uiformémet plus puissat parmis tous les tests de seuil α (UPPα) si, pour tout autre test T de seuil α, o a E θ T E θ T pour chaque θ Θ 1. La otio d optimalité evisagée est claire, u test UPP état de puissace maximale pour u iveau fixé. E revache, la questio plus délicate de la caractérisatio des tests UPP fera l objet de la sectio suivate. Examios d emblée quelques propriétés évidetes des tests UPP. Propositio Soit α [0,1]. U test T de seuil α et UPPα est sas biais. Preuve Soit T le test tel que T α. Comme T est UPPα, pour tout θ Θ 1, o a E θ T E θ T = α. Doc T est sas biais. Propositio Soiet α [0, 1], T u test et ζ ue statistique exhaustive. Alors E θ [T ζ ] est u test de même puissace et iveau que T. E particulier, E θ [T ζ ] est UPPα si T est UPPα. Preuve Il suffit de remarquer que, pour chaque θ Θ, E θ [T ζ ] est ue statistique idépedate de θ par exhaustivité de ζ et que E θ T = E θ E θ [T ζ ].

62 62 CHAPITRE 5. TEST STATISTIQUE 5.4 Optimalité das les tests simples Das toute la sectio, o suppose que le modèle statistique (H,{P θ } θ Θ ) est domié par µ, et de vraisemblace L. O fixe aussi 2 paramètres θ 0 θ 1 Θ, et o s itéresse au problème de test simple suivat : H 0 : θ = θ 0 cotre H 1 : θ = θ 1. Nous allos étudier, pour ce problème de test simple, des coditios écessaires et suffisates pour qu u test soit UPP. Du fait de leur caractère fodateur das toute la théorie des tests, et afi de faire metio de leurs auteurs, ces résultats sot regroupés sous la déomiatio de "lemme fodametal de Neyma-Pearso". O cosidère la famille des tests T suivate : T T si il existe k R + et γ : H [0,1] mesurable tels que pour chaque x H : 1 si L(x;θ 1 ) > kl(x;θ 0 ); T (x) = γ(x) si L(x;θ 1 ) = kl(x;θ 0 ); 0 si L(x;θ 1 ) < kl(x;θ 0 ), L esemble T s appelle famille des tests de Neyma-Pearso. L esemble T c est le sous-esemble de T costitué des tests pour lesquels la foctios γ est costate. Il coviet de remarquer qu u test de Neyma-Pearso associé à ue foctio γ 0 est u test pur. Il est essetiel de remarquer l aspect costructif des résultats qui suivet, tous les tests cosidérés faisat partie de la famille T. Le 1er résultat est relatif à l existece d u test UPP. Il ous motre qu il existe toujours u test de T c de iveau doé. Théorème Soit α ]0,1[. 1. Il existe u test de T c de iveau α ; 2. Si u test de T c est de iveau α, alors il est UPPα. Preuve 1. U test T T c associé aux paramètres k et γ est de iveau α si α = E θ0 T = P θ0 (L(.;θ 1 ) > kl(.;θ 0 )) + γp θ0 (L(.;θ 1 ) = kl(.;θ 0 )).

63 5.4. OPTIMALITÉ DANS LES TESTS SIMPLES 63 Il suffit doc de trouver (k,γ) R + [0,1] vérifiat l égalité précédete. Comme P θ0 (L(.;θ 0 ) 0) = 1, o peut écrire : ( ) ( ) L(.;θ1 ) P θ0 L(.;θ 0 ) > k L(.;θ1 ) + γp θ0 L(.;θ 0 ) = k = α. (5.4.1) Notos k 0 u réel qui vérifie ( ) L(.;θ1 ) P θ0 L(.;θ 0 ) > k 0 ( ) L(.;θ1 ) α P θ0 L(.;θ 0 ) k 0. U tel réel existe car t P θ0 (L(.;θ 1 )/L(.;θ 0 ) > t) est décroissate. Das le cas où P θ0 (L(.;θ 1 )/L(.;θ 0 ) = k 0 ) = 0, tout couple (k 0,γ) vérifie (5.4.1). Das le cas cotraire, le couple (k 0,γ 0 ) avec ( ) α P L(.;θ1 ) θ0 L(.;θ 0 ) > k 0 γ 0 = P θ0 ( L(.;θ1 ) L(.;θ 0 ) = k 0 vérifie (5.4.1). Aisi, il existe T T c de iveau α. ), 2. Soit T T c u test de iveau α. O ote (k,γ) les paramètres associés à T et, pour simplifier, o suppose que γ ]0,1[. Soit T u test de seuil α. O a alors les iclusios : {T T > 0} {T > 0} {L(.;θ 1 ) kl(.;θ 0 )} car γ > 0; {T T < 0} {T < 1} {L(.;θ 1 ) kl(.;θ 0 )} car γ < 1. Par suite, pour tout x H, (T (x) T (x))(l(x;θ 1 ) kl(x;θ 0 )) 0, et doc (T (x) T (x))l(x;θ 1 ) k(t (x) T (x))l(x;θ 0 ). (5.4.2) O e déduit alors que E θ1 T E θ1 T = E θ1 (T T ) = H (T T )L(.;θ 1 )dµ k H (T T )L(.;θ 0 )dµ = k ( E θ0 T E θ0 T ). Or, comme T est de iveau α et T de seuil α, E θ0 T = α E θ0 T d où E θ1 T E θ1 T, i.e. T est UPPα.

64 64 CHAPITRE 5. TEST STATISTIQUE Le 2d résultat, e ous motrat que la famille des tests de Neyma-Pearso est suffisammet riche, ous doe des coditios écessaires pour qu u test soit UPP. Théorème Soiet α ]0,1[ et T u test UPPα. Il existe T T tel que T = T µ-p.p. Preuve Soit T T c u test de iveau α et UPPα. O ote (k,γ) R + [0,1] les paramètres associés au test T T c. Pour simplifier, o suppose que γ ]0,1[ ; das ce cas, o a vu das la preuve du théorème précédet (cf iégalité 5.4.2) que R := (T T )(L(.;θ 1 ) kl(.;θ 0 )) 0. Par l absurde, supposos que µ(r > 0) > 0. Alors, Rdµ = Rdµ > 0 H {R>0} et, par suite : H (T T )L(.;θ 1 )dµ > k H (T T )L(.;θ 0 )dµ. Comme T est de iveau α et T est de seuil α, H (T T )L(.;θ 0 )dµ = E θ0 T E θ0 T 0, ce qui motre que E θ1 T E θ1 T = H (T T )L(.;θ 1 )dµ > 0. Or, puisque T et T sot UPPα, E θ1 T = E θ1 T d où la cotradictio. Il s esuit que µ(r > 0) = 0 soit, comme R 0 : R = 0 µ-p.p. Aisi, T = T µ p.p. sur {L(.;θ 1 ) kl(.;θ 0 )}. Défiissos maiteat le test T tel que pour x H : { T T (x) = (x) si L(x;θ 1 ) kl(x;θ 0 ); T (x) si L(x;θ 1 ) = kl(x;θ 0 ), Alors, T T et T = T µ-p.p., d où le théorème.

65 5.5. OPTIMALITÉ DANS LES TESTS COMPOSITES Optimalité das les tests composites Le cotexte de la sectio précédete, e e traitat que le cas d u problème de test simple, est très restrictif. Néamois, il est possible de l étedre au cas d hypothèses dites composites. Soiet Θ 0,Θ 1 Θ avec Θ 0 Θ 1 = /0. Le problème de test que ous allos étudier est : H 0 : θ Θ 0 cotre H 1 : θ Θ 1. Puisque ous allos faire appel à des résultats du type Neyma-Pearso, ous supposos aussi que le modèle statistique (H,{P θ } θ Θ ) est domié par µ, et de vraisemblace L. Théorème Soit T u test de iveau α ]0,1[ tel qu il existe θ 0 Θ 0 vérifiat E θ0 T = α. Si, pour tout θ 1 Θ 1, il existe u test T θ1 T c de H 0 : θ = θ 0 cotre H 1 : θ = θ 1 vérifiat T = T θ1, alors T est UPPα. Preuve Fixos θ 1 Θ 1. Comme E θ0 T = α, pour le problème de test simple H 0 : θ = θ 0 cotre H 1 : θ = θ 1, le test T est de iveau α. Comme T = T θ1 T c, T est UPPα das le problème de test de H 0 cotre H 1. Soit maiteat T u test de H 0 cotre H 1 de seuil α. Alors, T est de seuil α pour le problème de test de H 0 cotre H 1 car E θ0 T sup θ Θ 0 E θ T α. Or, T est UPPα das le problème de test de H 0 cotre H 1, doc E θ 1 T E θ1 T. Comme θ 1 a été choisi arbitrairemet das Θ 1, o e déduit que T est UPPα das le problème de test de H 0 cotre H 1. Exemple Repreos le modèle statistique (R,{N(θ,1) } θ R ). O a vu que, das le problème de test de H 0 : θ θ 0 cotre H 1 : θ > θ 0, le test T = 1 R de régio de rejet R = { (x 1,,x ) R : ( x θ 0 ) > z(α) },

66 66 CHAPITRE 5. TEST STATISTIQUE où z(α) est le quatile d ordre 1 α de la loi N(0,1), est u test de iveau α. Nous allos motrer que ce test est UPPα e utilisat le théorème précédet. O remarque tout d abord que E θ0 T = P θ0 (R) = α. Fixos maiteat θ 1 > θ 0. Pour tout θ R et x = (x 1,,x ) T R, o a l écriture { ( { ( L(x;θ) = exp 2 ( x θ) 2)} 1 exp 1 (x (2π) /2 i x ) )}. 2 2 O e déduit la forme suivate pour le rapport des vraisemblaces : L(x;θ 1 ) L(x;θ 0 ) Par suite, pour tout k > 0 : [ = exp ( ( x θ 1 ) 2 ( x θ 0 ) 2)] 2 )] (θ1 ( = exp[ θ 0 )( x θ 0 ) 2 (θ 1 θ 0 ). L(x;θ 1 ) L(x;θ 0 ) > k lk ( x θ 0 ) > (θ1 θ 0 ) + 2 (θ 1 θ 0 ). Choisissos maiteat k 0 > 0 tel que z(α) = lk 0 (θ1 θ 0 ) + 2 (θ 1 θ 0 ), et otos T θ1 le test de T c associé aux paramètres (k 0,0), i.e. T θ1 = 1 {L(.;θ1 )>k 0 L(.;θ 0 )}. O a alors T = T θ1. D après le théorème précédet, T est doc UPPα. 5.6 Tests asymptotiques Comme les lois à distace fiie e sot pas toujours évidetes à obteir, o est ameé, à l istar des itervalles de cofiace asymptotiques, à défiir la otio de test asymptotique. O cosidère le problème de test de H 0 : θ Θ 0 cotre H 1 : θ Θ 1, avec Θ 0,Θ 1 Θ et Θ 0 Θ 1 = /0. Le modèle statistique (H,{P θ } θ Θ ) déped de :

67 5.6. TESTS ASYMPTOTIQUES 67 das le cadre des tests asymptotiques, o fait doc apparaître la taille de l échatillo das la otatio du test. Défiitio U test asymptotique de seuil α ]0,1[ est la doée d ue suite de tests (T ) tels que sup limsupe θ T α. θ Θ 0 La procédure de décisio est alors calquée sur celle des tests à taille d échatillo fiie. La seule différece otable est qu u test asymptotique est costruit pour cotrôler l erreur de 1ère espèce, mais seulemet asymptotiquemet. Défiitio U test asymptotique (T ) est dit coverget si θ Θ 1 : lim E θ T = 1.

68 68 CHAPITRE 5. TEST STATISTIQUE

69 Chapitre 6 Statistique des échatillos gaussies L étude statistique des échatillos gaussies est basée sur 2 résultats fodametaux portat sur la ature particulière de la projectio vecteurs gaussies. Das tout ce chapitre, N d (m,σ) désige ue loi gaussiee sur R d, de moyee m R d et de matrice de variace Σ M d (R). 6.1 Projectio de vecteurs gaussies Toutes les variables aléatoires de cette sectio sot implicitemet défiies sur u espace probabilisé (Ω,F,P). Le théorème ci-dessous est essetiel das toute la théorie des modèles gaussies. O rappelle que la loi de Chi 2 à d degrés de liberté, otée χd 2, est la loi de la somme des carrés de d v.a.r.i.i.d. de lois N 1 (0,1). Par ailleurs,. désige toujours la orme euclidiee. Théorème [COCHRAN] Soit X N (0,σ 2 Id) avec σ > 0, et L 1 L p ue décompositio de R e sous-espaces orthogoaux de dimesios r 1,,r p. Les projectios orthogoales π 1,,π p de X sur L 1,,L p sot des vecteurs gaussies idépedats, et pour chaque i = 1,, p : 1 σ 2 π i 2 χ 2 r i. 69

70 70 CHAPITRE 6. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS Preuve Soit (e i j ) i, j ue base orthoormée de R telle que pour chaque i = 1,, p, (e i j ) j=1,,r i est ue base orthoormée de L i. Pour chaque i = 1,, p, o a : π i = r i j=1 (X T e i j)e i j. Les vecteurs (e i j ) i, j état orthogoaux, pour tout i k, la matrice de covariace etre π i et π k, i.e. cov(π i,π k ) = E(π i Eπ i )(π k Eπ k ) T = Eπ i π T k = 0. Comme (π 1 π p ) T est u vecteur gaussie (toute combiaiso liéaire des v.a.r. (X T e i j ) i, j est gaussiee), π 1,,π p sot doc des vecteurs gaussies idépedats, d où le premier poit. Fixos i = 1,, p, et calculos tout d abord, pour tout j = 1,,r i, la loi de la v.a.r. X T e i j. Il est clair que X T e i j est ue v.a.r. gaussiee cetrée, comme combiaiso liéaire des composates d u vecteur gaussie cetré. De plus, comme les composates du vecteur X = (X 1 X ) T sot i.i.d. de loi N 1 (0,σ 2 ), var(x T e i j) = var(x k )(e i j(k)) 2 = σ 2 e i j 2 = σ 2, k=1 où l o a oté e i j = (ei j (1) ei j ())T. Par suite, X T e i j N 1(0,σ 2 ). D autre part, comme le vecteur aléatoire (X T e i 1 X T e i r i ) T est gaussie (car toute combiaiso liéaire de ses composates est ue v.a.r. gaussiee), il suffit de motrer que pour tout j j, cov(x T e i j,x T e i j ) = 0 pour e déduire que X T e i 1,,X T e i r i sot idépedates. Or, si j j : cov(x T e i j,x T e i j ) = E(X T e i j)(x T e i j ) = = k,k =1 E(X k X k )e i j(k)e i j (k ) E(Xk 2 )ei j(k)e i j(k) = σ 2 (e i j) T e i j = 0. k=1 Nous avos doc motré que les v.a.r. (X T e i j /σ 2 ) j sot i.i.d., de même loi N 1 (0,1). Par suite, ( 1 X T σ 2 π i 2 e i ) 2 j = χr 2 σ i, r i j=1

71 6.2. TESTS SUR LES PARAMÈTRES 71 d où le théorème. La loi de Studet à degrés de liberté, otée T, est la loi du quotiet X/ Y, où X Y, X N 1 (0,1) et Y χ 2. Théorème [FISHER] Soiet X = (X 1,,X ) T N ( m,σ 2 Id) et m = (m,,m) T avec σ > 0 et m R. O ote X = 1 Alors, (i) X S ; (ii) ( 1)S 2 /σ 2 χ 2 1 ; (iii) ( X m)/s T 1. Remarques X i et S 2 = 1 1 (X i X ) 2. (a) Le résultat e (iii) est à comparer au résultat classique : ( X m)/σ N 1 (0,1). (b) D après la loi forte des grads ombres, S σ p.s. Par suite, l assertio (iii), le théorème de la limite cetrale uidimesioel et le lemme de Slutsky motret que T coverge e loi vers la loi N 1 (0,1). Preuve Pour simplifier, o cosidère le cas m = 0 et σ = 1. Soit L le s.e.v. de R egedré par e = (1,,1) T. Le projecteur orthogoal P sur L est la matrice dot tous les coefficiets valet 1/. O a alors PX = X e et (Id P)X = (X 1 X,,X X ) T. Comme (Id P)X est la projectio orthogoale de X sur l orthogoal de L, o déduit du théorème de Cochra que PX (Id P)X, et e particulier que X S 2, d où (i). De plus, ( 1)S 2 = (Id P)X 2 χ 2 1 d après le théorème de Cochra, d où (ii). Efi, (iii) est coséquece du fait que ( X m)/σ et ( 1)S 2 /σ 2 sot idépedates, et de lois respectives N 1 (0,1) et χ Tests sur les paramètres O se doe das cette partie u modèle statistique (R,{N 1 (m,σ 2 ) } m R,σ>0 ). Le but est de costruire des tests ou des itervalles de cofiace sur la valeur des paramètres m 0 et σ0 2 d u échatillo x 1,,x issu de la loi N 1 (m 0,σ0 2 ). Comme

72 72 CHAPITRE 6. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS o l a vu das les chapitres précédets, il faut alors costruire ue statistique dot la loi e déped pas des paramètres icous du modèle. Notos (X 1,,X ) u échatillo de loi P m,σ = N 1 (m,σ 2 ). O sait alors que X m σ 2 N 1 (0,1). Cepedat, cette statistique, e faisat iterveir simultaémet les 2 paramètres icous m et σ, est pas utilisable. O se toure alors vers le théorème de Fisher, qui ous doe les égalités e loi : ( 1) S2 σ 2 χ2 1 et X m S T 1. L utilisatio de ces statistiques permet de costruire facilemet des itervalles de cofiace pour les valeurs de m 0 et σ 0, à partir des valeurs observées x 1,,x. Cosidéros par exemple le problème de test H 0 : m m 1 cotre H 1 : m < m 1 au iveau α, avec m 1 u réel fixé. Si t 1 (α) est le quatile d ordre α de la loi T 1, o a sous H 0 : ( P m,σ X < m 1 +t 1 (α) S ) ( P m,σ X < m +t 1 (α) S ) Notos pour chaque y = (y 1,,y ) R, ȳ = 1 = P m,σ ( X m S y i et s 2 (y) = 1 1 (y i ȳ ) 2. ) < t 1 (α) = α. Le test de Studet est le test pur de régio de rejet { R moy = y = (y 1,,y ) R : ȳ < m 1 +t 1 (α) s (y) }. Ce test est de iveau α, et la procédure de décisio est défiie aisi : o accepte H 0 au iveau α si (x 1 x ) T / R moy.

73 6.3. COMPARAISON DE 2 ÉCHANTILLONS 73 Etudios maiteat le problème de test de H 0 : σ σ 1 cotre H 1 : σ < σ 1 au iveau α, avec σ 1 > 0 fixé. Si χ 1 (α) est le quatile d ordre α de la loi χ 2 1, o a sous H 0 : ( P m,σ S 2 < χ ) 1(α) 1 σ 1 2 ( P m,σ S 2 < χ ) 1(α) 1 σ 2 ( ) = P m,σ ( 1) S2 σ 2 < χ 1(α) = 1 α. Le test de Fisher est le test pur de régio de rejet { R var = y = (y 1,,y ) R : s 2 (y) < χ } 1(α) 1 σ 1 2. Ce test est de iveau α, et la procédure de décisio est défiie aisi : o accepte H 0 au iveau α si (x 1 x ) T / R var. 6.3 Comparaiso de 2 échatillos O suppose das cette partie que l o a 2 suites idépedates d observatios idépedates x = (x 1,,x ) et y = (y 1,,y p ), chacue issue de l ue des lois des modèles statistiques {N 1 (m,σ 2 ) } m R,σ>0 et {N 1 (m,σ 2 ) p } m R,σ>0. O suppose que ces suites d observatios ot même variace (c est l hypothèse dite d homoscédasticité), et o veut costruire u test pur portat sur l égalité des moyees des suites x et y. Si m 1 et m 2 représetet les moyees de chaqu des 2 échatillos, le problème de test s exprime doc H 0 : m 1 = m 2 cotre H 1 : m 1 m 2, dot ous allos costruire u test pur au iveau α. Notos X u échatillo (X 1,,X ) de la loi N 1 (m 1,σ 2 ) et Y u échatillo (Y 1,,Y p ) de la loi N 1 (m 1,σ 2 ) p. Compte teu des hypothèses expérimetales, o peut supposer que X et Y sot idépedates. De plus, S 2 (X) et S 2 p(y ) désiget les variaces empiriques sas biais de X et Y. Itroduisos la statistique Q = ( X Ȳ p ) (m 1 m 2 ) p

74 74 CHAPITRE 6. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS Puisque X T et Y T sot 2 vecteurs gaussies idépedats, Q est ue v.a.r. gaussiee, comme combiaiso liéaire d u vecteur gaussie. Il est clair que Q est cetrée, et o motre facilemet que la variace de Q est σ 2. E coséquece, Q N 1 (0,σ 2 ). Cepedat, σ est e gééral u paramètre icou, doc la statistique Q est pas utilisable directemet pour costruire u test statistique. Notos alors W 2 = ( 1)S 2 (X) + (p 1)S 2 p(y ). D après le théorème de Fisher, ( 1)S(X) 2 σ 2 χ 1 2 et (p 1)S2 p(y ) σ 2 χp 1 2. Comme, par ailleurs, S(X) 2 S 2 p(y ), o a doc W 2 σ 2 χ+p 2 2. De plus, W Q d après le théorème de Fisher. Par défiitio de la loi de Studet, o a doc M = + p 2 Q W T +p 2. Comme la loi de M est libre, i.e. elle e déped pas de paramètres icous, la statistique de test à utiliser est M. Désigos par t +p 2 (α) le quatile d ordre 1 α/2 de la loi T +p 2. E utilisat le fait que la loi de Studet est symétrique, o vérifie comme das la sectio précédete que, avec des otatios évidetes, l esemble (xy)t R +p : 1 x ȳ p + 1 p ( 1)s 2 (x) + (p 1)s 2 + p 2 t +p 2(α) p(y) est ue régio de rejet pour tester H 0 cotre H 1, au iveau α. Supposos maiteat que l o veuille tester l égalité des moyees das 3 échatillos gaussies idépedats. O peut bie sûr repredre la méthodologie précédete, et réaliser 2 tests d égalité de moyee. Mais alors, le iveau du test global aisi costruit est de l ordre de la somme des iveaux des 2 tests. Pour éviter cette perte de iveau, il faut adopter ue démarche radicalemet différete, comme ous allos le costater das la sectio qui suit. 6.4 Modèle liéaire gaussie Le problème et sa formulatio vectorielle O suppose das cette sectio que l o dispose de k jeux idépedats d observatios idépedates x 1,,x k. O est ecore das le cadre d u modèle gaussie,

75 6.4. MODÈLE LINÉAIRE GAUSSIEN 75 car pour tout i, x i est ue observatio du modèle statistique {N 1 (m,σ 2 ) i} m R,σ>0. Comme das la sectio précédete, o impose l hypothèse d homoscédasticité du modèle, i.e. les variaces de chacu des jeux d observatios sot les mêmes. L objectif est de costruire u test pur portat sur l égalité des moyees de ces k jeux d observatios. Sous l hypothèse d homoscédasticité, o peut itroduire les échatillos idépedats X 1 N 1 (m 1,σ 2 ) 1,,X k N 1 (m k,σ 2 ) k pour costruire la statistique de test. Le problème de test s exprime doc par H 0 : m 1 = = m k cotre H 1 : il existe i j tel que m i m j. Das cette formulatio, m 1,,m k sot des paramètres réels et σ > 0. Soit = k, 0 = 0 et, pour chaque i = 1,,k, I i = i e j, j= i 1 +1 où, pour tout j = 1,,, e j est le j-ème vecteur de la base caoique de R. Notos alors µ = k m i I i, E l espace vectoriel egedré par les vecteurs I 1,,I k, et H le sous-espace vectoriel de R egedré par le vecteur (1 1) T. Avec cette écriture, le problème de test s éoce aisi : Statistique de test H 0 : µ H cotre H 1 : µ E \ H. Das la suite, z F désige la projectio orthogoale de z R sur le sous-espace vectoriel F. Si X = (X 1 X k ) T, o a la décompositio : X = µ + ε, où ε N (0,Id). Cette formulatio porte le om de modèle liéaire gaussie. Das ce cadre, o observe que :

76 76 CHAPITRE 6. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS X E = µ + ε E car µ E. E particulier, X E µ est la projectio orthogoale de ε sur E ; X X E = ε ε E est la projectio orthogoale de ε sur l orthogoal de E. Cette quatité e cotiet pas d iformatio sur la valeur de µ, mais elle cotiet des iformatios sur la dispersio des observatios. E exploitat ces costatatios, o obtiet directemet avec le théorème de Cochra : Propositio (i) X E est u estimateur sas biais de µ ; (ii) X E X X E ; (iii) X X E 2 σ 2 χ 2 k. E particulier, X X E 2 /( k) est u estimateur sas biais de σ 2 ; (iv) X E µ 2 σ 2 χ 2 k. Sous H 0, X H = µ + ε H et doc X E X H = ε E ε H. Le théorème de Cochra appliqué au vecteur gaussie ε ous motre alors que X E X H 2 σ 2 χ 2 k 1, et X E = ε ε E X E X H. La loi de Fisher de paramètres (i, j), otée F(i, j), est défiie comme suit : F(i, j) j i U V, si U V, et U χ2 i, V χ 2 j. D après la propositio précédete et les observatios ci-dessus, sous H 0, o coaît doc la loi de la statistique F = k X E X H 2 k 1 X X E 2 F(k 1, k). Pour costruire la régio de rejet, o observe que, si P désige la loi de X, o a sous H 0, P(F f (α)) = α, si f (α) désige le quatile d ordre 1 α de la loi F(k 1, k). La régio de rejet { R = z R : k z E z H 2 } k 1 z z E 2 f (α)

77 6.4. MODÈLE LINÉAIRE GAUSSIEN 77 défii doc u test pur de H 0 cotre H 1, au iveau α. Cocatéos les jeux d observatios x 1,,x k pour obteir u vecteur x de R. Plus précisémmet, x = (x 1 x ) T est le vecteur de R tel que x = k i x i ( j)e i 1 + j, j=1 si, pour chaque i = 1,,k, x i = (x i (1),,x i ( i )) T. La procédure de décisio s éoce alors aisi : o accepte H 0 au iveau α si x / R.

Montrer encore