Deuxième partie II. Cours 4 à 6 : Construction d estimateurs, Modèle linéaire, Tests et intervalles de confiance

Transcription

1 Deuxième partie II Cours 4 à 6 : Construction d estimateurs, Modèle linéaire, Tests et intervalles de confiance (version corrigée, 4 avril 27) Construction d estimateurs 4 Construction d estimateurs Estimateur de moments Divergence de Kullback Maximum de vraisemblance L exemple de la régression logistique M-Estimateurs 5 Le modèle linéaire 6 Tests et intervalles de confiance

2 Construction d estimateurs La question à laquelle on cherche à répondre Etant donné un modèle statistique {P θ, θ Θ} comment utiliser les données au mieux pour estimer θ? Un premier critère important Estimateur consistant [Définition 5.] Une séquence d estimateurs ˆθ n (ou par abus de langage un estimateur) de θ est dit consistant si ˆθ n n θ presque sûrement (consistance forte) ou en probabilité (consistance faible), lorsque l on suppose que les observations sont de loi P θ Cet objectif n est envisageable que si le modèle est identifiable au sens où θ θ 2 P θ P θ2 Autres critères On souhaite en particulier que le risque quadratique de ˆθ n soit aussi faible que possible Construction d estimateurs Estimateur de moments Estimateur de moments Si δ(y) est une statistique telle que E θ [δ(y )] = θ, l estimateur n n δ(y i ) est Sans biais Consistant (loi des grands nombres) On peut juger de ses performances (vis à vis de la perte quadratique) en comparant V θ [δ(y )] à I F (θ) (rappel : la borne n est pas nécessairement atteignable)

3 Construction d estimateurs Estimateur de moments Il est possible d être plus précis dans certains modèles Si {P θ, θ Θ} correspond à un modèle exponentiel sous forme naturelle (l(y; θ) = C(θ)h(y) exp [θ T (y)]), l estimateur de moments basé sur la statistique T (Y ) est efficace pour ϕ = E θ [T (Y )] = log C(θ) θ Preuve Cf. critère d efficacité vu précédemment : T (y) E θ [T (Y )] = log l(y; θ) θ Ou en calculant l expression de la borne de FDCR pour vérifier que 2 log C(θ) θ θ = I F (θ) = V θ [T (Y )] Exemples Estimation de la moyenne dans le modèle gaussien (de variance connue), estimation de l espérance pour une loi exponentielle,... [Section 4.3] Construction d estimateurs Estimateur de moments On peut généraliser la construction Exemple (Modèle linéaire univarié) { Yi = β + β X i + U i avec E θ [U i X i ] = et E θ [Ui 2 X i] < E[X i ] = et E[Xi 2] < On a E θ (Y i ) = E (E θ [Y i X i ]) = β + β E[X i ] = β E θ (X i Y i ) = E (X i E θ [Y i X i ]) = β E[Xi 2 ] Donc (/n n Y i) et (/n n X iy i ) / ( /n n des estimateurs consistants de β et β X2 i ) sont Mais l évaluation des performances devient délicate (voir plus loin concernant l approche asymptotique)

4 Construction d estimateurs Estimateur de moments temperature latitude Fig.: Régression linéaire sur les données de température en fonction de la latitude (centrée) Construction d estimateurs Divergence de Kullback On recherche un critère numérique Permettant d attester la proximité de deux lois 2 Susceptible d être approché empiriquement (à partir de données) 3 Se prêtant à l optimisation 4 Garantissant de bonnes performances statistiques

5 Construction d estimateurs Divergence de Kullback Divergence de Kullback * -(Leibler) [Définition 3.4] Pour deux lois P et P 2, de densités l et l 2 par rapport à µ, on définit la divergence de Kullback par [ I(P P 2 ) = E P log l ] (Y ) = log l (y) l 2 (Y ) l 2 (y) l (y)µ(dy) La divergence de Kullback Ne dépend pas du choix de µ Est toujours bien définie (c est une quantité positive qui vaut éventuellement + ) Dans un modèle paramétrique, on note I(θ θ 2 ) plutôt que I(P θ P θ2 ) * Solomon Kullback (93 994) [Définition 3.4] Construction d estimateurs Divergence de Kullback Propriété [Proposition 3.5] I(P P 2 ) 2 I(P P 2 ) = si et seulement si P = P 2 Preuve Rappel (Inégalité de Jensen) : Si g est un fonction convexe et E Z <, E[g(Z)] g(e[z]) ; si, de plus, g est strictement convexe, E[g(Z)] = g(e[z]) implique qu il existe c R tel que P[Z = c] = [ I(P P 2 ) = E P log l ] 2(Y ) l (Y ) soit en appliquant l inégalité de Jensen à la fonction log, l2 (y) I(P P 2 ) log l (y) l (y)µ(dy) =

6 Construction d estimateurs Maximum de vraisemblance Utilisation de la divergence de Kullback en statistique La divergence de Kullback constitue une mesure permettant d attester la proximité de deux lois P et P 2 (bien qu elle ne soit pas symétrique) Critère asymptotique du maximum de vraisemblance Q(θ) def = I(P P θ ) = log l(y; θ) l(y) l(y)µ(dy) où P désigne la loi des observations et {P θ, θ Θ} est un modèle statistique paramétrique θ def = arg max θ Θ Q(θ) définit le meilleur ajustement (au sens de la divergence de Kullback) dans la famille paramétrique {P θ, θ Θ} Construction d estimateurs Maximum de vraisemblance Propriétés du critère asymptotique du maximum de vraisemblance Si P = P θ pour θ Θ et le modèle {P θ, θ Θ} est identifiable, Q(θ) admet un maximum unique en θ = θ 2 Si, de plus, le modèle est régulier (de vraisemblance l( ; θ)) 2 [ Q(θ) 2 ] log l(y ; θ) θ θ = E θ θ=θ θ θ = I F (θ ) θ=θ En particulier [Proposition 3.6] Q(θ) = 2 (θ θ ) I F (θ )(θ θ ) + o( θ θ 2 ) la matrice d information de Fisher détermine le comportement local du critère autour du maximum θ

7 Construction d estimateurs Maximum de vraisemblance Estimateur du maximum de vraisemblance On appelle critère empirique du maximum de vraisemblance Q n (θ) = n n log l(y i ; θ)= n log l n(y,..., Y n ; θ) } {{ } L n (Y,...,Y n ;θ) L estimateur du maximum de vraisemblance est défini (implicitement) par ˆθ n = arg max θ Θ Q n(θ) Remarque Q n (θ) a même optimum que Q n (θ) = n n log l(y i;θ) l(y i ;θ ) P θ p.s. Q(θ) Construction d estimateurs Maximum de vraisemblance Exemple (Modèle de régression linéaire univarié gaussien) Y i = β + β X i + U i avec U i X i N (, σ 2 ) Q n (θ) = C te 2nσ 2 n (Y i β β X i ) 2 } {{ } à minimiser en β, β En supposant n n X i = (sinon, s y ramener) on trouve ˆβ,n = n n Y i ˆβ,n = n X iy i n X2 i

8 Construction d estimateurs Maximum de vraisemblance Cas des modèles exponentiels Si {P θ, θ Θ} correspond à un modèle exponentiel sous forme naturelle (l(y; θ) = C(θ)h(y) exp [θ T (y)]) Q(θ) = log C(θ) + θ E P [T (y)] et la condition d optimalité au premier ordre est log C(θ) = E θ [T (Y )] = E P [T (y)] θ Q n (θ) = log C(θ) + θ ( n n T (Y i) ) et la condition d optimalité au premier ordre est log C(θ) θ = E θ [T (Y )] = n n T (Y i ) Si I F (θ), Q et Q n sont des fonctions strictement concaves de θ est l estimateur du maximum de vraisemblance ˆθ n est défini (implicitement) par l équation de vraisemblance [T (Y )] = n T (Y Eˆθn i ) n Construction d estimateurs Maximum de vraisemblance Equivariance du maximum de vraisemblance Si ϕ = g(θ) correspond à une reparamétrisation du modèle (g bijective) ) ˆϕ n = g (ˆθn Exemple (Estimation d une loi exponentielle) Pour l(y; θ) = θ e θy pour y R + l équation de vraisemblance s écrit n n θ Y i = donc l estimateur du maximum de vraisemblance de θ est ˆθ n = ( n n Y i) et celui de ϕ = /θ = Eθ [Y ] est n n Y i

9 Construction d estimateurs L exemple de la régression logistique On s intéresse souvent à des modèles conditionnels dans lesquels la variable de réponse Y est catégorielle (ou qualitative), c est-à-dire prend un nombre fini de valeurs (on considère ici le cas binaire) sbp tobacco ldl obesity alcohol age Fig.: Présence de la maladie coronarienne en fonction de 6 facteurs (27 individus) Construction d estimateurs L exemple de la régression logistique Régression logistique (ou modèle logit) Conditionnellement à X, Y est une variable de Bernoulli telle que log P θ(y = X) P θ (Y = X) = X θ C est un modèle de régression linéaire sur le log-rapport de probabilités De façon équivalente logit (P θ [Y = X]) = X θ avec logit : ], [ ], + [, p log P θ (Y = X) = logit (X θ) avec p p logit : ], + [ ], [, x ex + e x = ( + e x)

10 Construction d estimateurs L exemple de la régression logistique Formulation équivalente On peut voir le modèle logit comme un modèle à donnée latente où Y = X θ + U Y = {Y > } [Section 2.27] P θ (Y = X) = P θ (Y > X) = P θ (U > X θ X) = F ( X θ) où F (x) désigne la fonction de répartition de U (supposé indépendant de X), qui doit donc être égale à logit (x) (de façon équivalente, logit (U) suit une loi uniforme sur ], [) On peut imaginer d autre types de modélisation pour U (par ex. modèle probit) Construction d estimateurs L exemple de la régression logistique Estimateur du maximum de vraisemblance Log-vraisemblance (conditionnelle) log l n (Y,..., Y n X,..., X n ; θ) n = Y i log P θ (Y i = X i ) + ( Y i ) log P θ (Y i = X i ) = n Y i log P θ(y i = X i ) P θ (Y i = X i ) + log P θ(y i = X i ) Gradient (fonction de score) = n Y i (X iθ) log( + e X i θ ) log l n (Y,..., Y n X,..., X n ; θ) θ = n X i {Y i P θ (Y i = X i )}

11 Construction d estimateurs L exemple de la régression logistique Hessien 2 log l n (Y,..., Y n X,..., X n ; θ) θ θ n = X i X i P θ (Y i = X i ) { P θ (Y i = X i )} } {{ } variance conditionnelle de Y i ( avec P X -probabilité si X a une loi continue et n > p) La maximisation de la log-vraisemblance (conditionnelle) est un problème d optimisation convexe Construction d estimateurs L exemple de la régression logistique sbp tobacco ldl obesity alcohol Fig.: Présence de la maladie coronarienne en fonction de 6 facteurs age sbp.66 tobacco 6.6 ldl.74 obesity 2E-4 alcohol age 9.59 Tab.: Paramètres estimés (2 itérations de l algorithme de Newton) sur les données centrées et normalisées

12 Construction d estimateurs M-Estimateurs M-Estimateur Dans les cas où L estimateur du maximum de vraisemblance est difficile à déterminer La loi des observations n est pas entièrement déterminée par le paramètre θ (modèle semi-paramétrique) On souhaite imposer certaines propriétés aux estimateurs (voir ci-après l exemple de régression robuste) on est amené à utiliser un M-Estimateur défini (implicitement) par n ˆθ n = arg max ψ(y i ; θ) θ Θ n où ψ est une fonction à valeur réelle [Définition 5.3] Remarque : Ce cadre général est aussi intéressant car il permet d inclure d autres types d estimateurs (comme les estimateurs de moments) Construction d estimateurs M-Estimateurs Outre des conditions de régularité (cf. [Proposition 5.4]), il est raisonnable de penser (et nous le démontrerons plus loin) que ˆθ n ne peut être consistant que si E θ [ψ(y ; θ)] a un maximum unique en θ puisque c est le critère asymptotique limite lorsque Y,..., Y n sont IID de loi P θ (par la loi des grands nombres) Modèle de régression non-linéaire Dans un modèle conditionnel où E [h(x; θ )] = E [h(x; θ 2 )] implique θ = θ 2 (en notant h(x; θ) = E θ [Y X]), on peut utiliser le critère des moindres carrés (non-linéaire) : Q n (θ) = n n (Y i h(x i ; θ)) 2 } {{ } ψ(y i,x i ;θ)

13 Construction d estimateurs M-Estimateurs La régression linéaire est sensible à la présence de données aberrantes temperature latitude Fig.: Régression linéaire sur les données de température en fonction de la latitude, avec ou sans donnée aberrante Construction d estimateurs M-Estimateurs Régression linéaire robuste Plutôt que la fonction des moindres carrés : ψ(x, y; β) = γ MC (r) où γ MC (r) = r 2 avec r def = y (β + β x) On utilise une fonction de Huber { r 2 si r τ γ H (r) = 2τ r τ 2 sinon On vérifie aisément que γ H est convexe et de classe C (mais pas C 2 ) de telle façon que τ τ min (β,β ) R 2 n n γ H {Y i (β + β X i )} est un problème de minimisation convexe qui se prête bien à l optimisation numérique

14 Construction d estimateurs M-Estimateurs temperature latitude Fig.: Régression linéaire robuste sur les données de température en fonction de la latitude, avec ou sans donnée aberrante (τ = 4.9, soit environ 8% des résidus qui tombent la partie quadratique du critère) Le modèle linéaire 4 Construction d estimateurs 5 Le modèle linéaire Estimateur des moindres carrés Cas gaussien 6 Tests et intervalles de confiance

15 Le modèle linéaire Le modèle linéaire [Chapitre 9] On s intéresse ici au cas du modèle linéaire (ou modèle de régression linéaire) dans lequel Y i = X iβ + U i où U i est indépendant de X i et E[U i ] =, E[U 2 i ] = σ2 Si on suppose de plus que U i N (, σ 2 ), on parlera de modèle linéaire gaussien (ou normal) Remarque Dans le cas où les régresseurs {X i } sont aléatoires, le modèle est défini de façon conditionnelle (de même que certains des résultats qui suivent doivent être compris de façon conditionnelle) Le modèle linéaire Il est utile de réécrire le modèle de l ensemble des observations sous forme vectorielle : Y X = (X (),..., X (p)) U. =. β +. Y n } {{ } Y X n = (X n (),..., X n (p)) } {{ } X (n p) U n } {{ } U avec E θ [U] = et V θ [U] = σ 2 Id n (ou U N (, σ 2 Id n ) si le modèle est gaussien) On suppose que X est de rang p

16 Le modèle linéaire Estimateur des moindres carrés On considère le critère des moindres carrés ψ(x i, Y i ; β) = (Y i X i β)2 ˆβ MC = arg min β R p n (Y i X iβ) 2 } {{ } Y Xβ 2 Interprétation géométrique Problème de projection orthogonale du vecteur Y R n sur le sous espace de Y dimension p im(x) (engendré par les Y Ŷ colonnes de X) Ŷ Y Ŷ im(x) def où Ŷ = X ˆβ im(x) Le modèle linéaire Estimateur des moindres carrés La condition Y Ŷ im(x) est équivalente à X (Y X ˆβ) = d où L estimateur des moindres carrés ˆβ = ( X X ) X Y La décomposition ˆβ = β + (X X) X U montre que E θ [ ˆβ] = β, ˆβ est sans biais 2 V θ [ ˆβ] = σ 2 (X X) Propriété ˆβ est l estimateur linéaire sans biais de β de matrice de covariance minimale [Théorème (Gauss-Markov) 4.] Remarque : Généralisation au cas hétéroscédastique, E θ [U i ] = σ 2 i, ou au cas d une matrice de covariance quelconque (connue)

17 Relation de Pythagore Le modèle linéaire Estimateur des moindres carrés Y Ŷ 2 = Y 2 Ŷ 2 = Y 2 Y Ŷ = Y Y Y X ( X X ) X Y = Y ( Id n X ( X X ) X ) Y = U ( Id n X ( X X ) X ) U X (X X) X est la matrice de projection sur im(x) Id n X (X X) X est la matrice de projection sur le sous-espace (de dimension n p) orthogonal à im(x) Il existe M matrice unitaire (M M = Id n ) telle que Id n X ( X X ) X Id n p. = M M. Le modèle linéaire Estimateur des moindres carrés Estimation de la variance Y Ŷ 2 /(n p) est un estimateur sans biais de la variance σ 2 Preuve ( [ E θ Y Ŷ 2) = E θ {tr ( U Id n X ( X X ) ) ]} X U = tr [(Id n X ( X X ) ) ( X E θ UU )] = σ 2 (n p)

18 Le modèle linéaire Cas gaussien Dans le cas gaussien, U N (, σ 2 Id n ) } log l n (Y,..., Y n ; θ) = 2 {n log 2π + n log σ 2 Y Xβ 2 + σ 2 donc ˆβ et (n p)/nˆσ 2 sont les estimateurs du maximum de vraisemblance 2 ˆβ = β + (X X) X U implique que ˆβ N (β, σ 2 ( XX ) ) 3 (n p)ˆσ 2 /σ 2 χ 2 (n p), loi du khi-deux à n p degrés de libertés, dans la mesure où (n p)ˆσ 2 = Y Ŷ 2 = U Id n p. M M } {{ U}. N (,σ 2 Id n ) Le modèle linéaire Cas gaussien Rappel [Cours de probabilité, Tables 3 et 4] La loi du khi-deux à k degrés de liberté est la loi de k X2 i lorsque {X i } sont IID de loi N (, ) La loi de Student * à k degrés de Y liberté est la loi de q /k P k X2 i lorsque {X i } sont IID de loi N (, ) et Y est une variable normale indépendante des {X i } * William S. Gosset ( )

19 Le modèle linéaire Cas gaussien 4 ˆβ i β i ˆσ 2 x ii t(n p) où xii est le ième terme diagonal de (XX ) et t(n p) désigne la loi de Student à n p degrés de liberté Preuve ˆβ = β + (X X) X U et (n p)ˆσ 2 = (Id n X (X X) X )U 2, or [ (X Cov X ) X U, (Id n X ( X X ) ] X )U = ( X X ) X E θ [UU ](Id } {{ } n X σ 2 Id n ( X X ) X ) = (3) donc (X X) X U et (Id n X (X X) X )U sont indépendants et, par suite, ˆβ et ˆσ 2 sont indépendants Tests et intervalles de confiance 4 Construction d estimateurs 5 Le modèle linéaire 6 Tests et intervalles de confiance Tests Cas de deux hypothèses simples Cas général : Approche de Neyman-Pearson Intervalles de confiance

20 Tests et intervalles de confiance Tests La problématique des tests Test d hypothèses (binaires) [Section 6.] Soit un modèle statistique {P θ ; θ Θ} et des hypothèses H : θ Θ H : θ Θ = Θ \ Θ Un test (pur) est une statistique à valeur dans {, } dont l interprétation est { ϕ(y ) = H est vraie ϕ(y ) = H est vraie Remarque : Il existe également des tests mixtes ou aléatoires dont l importance est essentiellement théorique Tests et intervalles de confiance Tests Hypothèses simples et composites Une hypothèse H i : θ Θ i est dite Simple si Θ i = {θ i } Composite sinon Dans le cas d un modèle paramétrique et si H i est une hypothèse simple, la loi des observations est connue sous H i 2 Il est fréquent qu une seule des deux hypothèses soit simple : par exemple, Θ = R p, H : θ = θ 3 Les hypothèses peuvent aussi être définies implicitement sous la forme H i : g(θ) = où g : Θ R p est une fonction (par exemple, g(θ, θ 2 ) = θ θ 2 pour tester l égalité de deux coordonnées du paramètres)

21 Tests et intervalles de confiance Tests Comment quantifier la performance d un test? Risque de première espèce Risque de seconde espèce α ϕ (θ) def = P θ [ϕ(y ) = ] = E θ [ϕ(y )] pour θ Θ β ϕ (θ) = P θ [ϕ(y ) = ] = E θ [ϕ(y )] pour θ Θ On utilise en général plutôt la puissance ρ ϕ (θ) = E θ [ϕ(y )] pour θ Θ En se plaçant du point de vue de H, on peut interpréter α ϕ (θ) comme le taux de fausses alarmes et ρ ϕ (θ) comme la probabilité de détection Tests et intervalles de confiance Cas de deux hypothèses simples On considère un modèle statistique dominé et deux hypothèses simples { H : θ = θ l(y; θ ) = H : θ = θ l(y; θ ) { α ϕ ρ ϕ = ϕ(y)l(y; θ )µ(dy) = ϕ(y)l(y; θ )µ(dy) On présente ici deux façons classiques de choisir ϕ : l approche bayésienne et l approche de Neyman-Pearson * * Thomas Bayes (72 76), Jerzy Neyman (894 98), Egon Pearson ( )

22 Tests et intervalles de confiance Dans l approche bayésienne Cas de deux hypothèses simples On définit une fonction de perte en donnant des coûts c et c aux erreurs de première et seconde espèce 2 On probabilise les hypothèses en spécifiant des probabilités a priori π et π (π + π = ) pour H et H Le risque du test est défini par r ϕ = E {c P(ϕ(Y ) = H vraie) + c P(ϕ(Y ) = H vraie)} = c π α ϕ + c π ( ρ ϕ ) Test bayésien Le test ϕ qui minimise le risque bayésien r ϕ est donné par ϕ(y) = { si l(y;θ ) l(y;θ ) > c π c π sinon Preuve Tests et intervalles de confiance Cas de deux hypothèses simples r ϕ = c π α ϕ + c π ( ρ ϕ ) = c π ϕ(y)l(y; θ )µ(dy) ) + c π ( ϕ(y)l(y; θ )µ(dy) Le risque bayésien minimal est obtenu en arg ϕ(y) [c π l(y; θ ) c π l(y; θ )] µ(dy) min ϕ mesurable soit ϕ(y) = { si c π l(y; θ ) c π l(y; θ ) < sinon (valeur en cas d égalité indifférente)

23 Tests et intervalles de confiance Cas de deux hypothèses simples Exemple (Test de deux lois normales de même variance) { H : Y N (µ, σ) H : Y N (µ, σ) avec µ > µ l(y ; θ ) l(y ; θ ) s log l(y ; θ ) l(y ; θ ) log s [ (Y ) 2 ( ) ] µ Y 2 µ log s 2 σ σ (µ [ ] µ ) Y (µ + µ )/2 log s σ σ De même pour n observations log l n(y,..., Y n ; θ ) l n (Y,..., Y n ; θ ) = (µ µ ) σ [ n {Y ] i (µ + µ )/2} σ Tests et intervalles de confiance Cas de deux hypothèses simples Test de deux lois normales de même variance (suite) n {Y i (µ + µ )/2} a pour loi σ n { Sous H, N ( n [ µ µ ] ) 2σ, Sous H, N ( [ n µ µ ] ) 2σ, D où pour le test σ n n {Y i (µ + µ )/2} t : Risque de première espèce α (t) = Φ ( t + n [ µ µ ]) 2σ Puissance ρ (t) = Φ ( t n [ µ µ ]) 2σ La courbe ρ (t) en fonction de α (t) (lorsque t varie) est dite courbe COR (Caractéristique Opérationnelle de Réception) et nous renseigne sur le compromis entre les deux objectifs antagonistes ρ (t) et α (t)

24 Tests et intervalles de confiance Cas de deux hypothèses simples puissance risque er esp Fig.: Courbes COR pour (µ µ )/σ =.2 avec, 5 et 2 observations Tests et intervalles de confiance Dans l approche de Neyman-Pearson Cas de deux hypothèses simples On dissymétrise les deux types d erreurs : { H est l hypothèse de référence ou hypothèse nulle H est l hypothèse alternative 2 On cherche à maximiser la puissance du test sous la contrainte que le risque de première espèce α ϕ (θ) soit inférieur à une valeur α spécifiée par l utilisateur Le niveau du test est la valeur α ϕ = sup θ Θ α ϕ (θ) Test UPP (Uniformément Plus Puissant) [Définition 6.9] Un test ϕ est dit UPP dans la classe C si α ϕ α ϕ pour ϕ C implique pour θ Θ ρ ϕ (θ) ρ ϕ (θ) E θ [ ϕ(y )] E θ [ϕ(y )]

25 Tests et intervalles de confiance Cas de deux hypothèses simples Lemme de Neyman-Pearson [Proposition 6.3] Pour tout α, < α <, il existe un test de Neyman de la forme * { si l(y; θ )/l(y; θ ) > s ϕ(y) = si l(y; θ )/l(y; θ ) < s (où s R + ) qui est de niveau α ; celui-ci est UPP dans la classe des tests de niveau inférieur ou égal à α Inversement, un test qui possède ces propriétés est nécessairement un test de Neyman n o * La formulation ci-dessus suffit si on suppose que µ y : l(y;θ ) = s l(y;θ = ) s R +, sinon il faut régler plus précisément le cas d égalité (en considérant un test mixte) Tests et intervalles de confiance Cas de deux hypothèses simples Preuve La preuve complète est donnée dans le polycopié L argument principal est le fait que si ϕ est un test de Neyman associé au seuil s et ϕ est un autre test [ϕ(y) ϕ(y)] [l(y; θ ) sl(y; θ )] µ(dy) d où c est à dire E θ [ϕ(y ) ϕ(y )] s E θ [ϕ(y ) ϕ(y )] ρ ϕ ρ ϕ s (α ϕ α ϕ )

26 Tests et intervalles de confiance Cas général : Approche de Neyman-Pearson Cas général Les arguments précédents se généralisent difficilement dans le cas où les deux hypothèses ne sont pas des hypothèses simples * L approche adoptée dans la suite consiste à Choisir une statistique de test ξ(y ) dont la loi est connue sous H 2 Ajuster le seuil s de façon à ce que le test ϕ(y ) correspondant à ξ(y ) s soit de niveau α (fixé par l utilisateur, suffisamment faible pour que le test soit significatif) 3 Si possible, évaluer la puissance du test (sous H ) * Voir toutefois le cas d une hypothèse composite unilatérale [Section 6.3.2] Tests et intervalles de confiance Cas général : Approche de Neyman-Pearson (Exemple) Cas de la régression linéaire Test de Student Dans le modèle Y i = β + β X i + U i avec U i N (, σ 2 ), on sait que ξ n = ( ˆβ β )/ ˆσ 2 x = n X 2 i ( ˆβ β ) ˆσ 2 temperature suit une loi de Student à n 2 degrés de libertés (cf. cours précédent + régresseurs centrés) latitude On utilise ξ n = n X2 i ˆβ ˆσ 2 pour tester l hypothèse H : β =, c est-à-dire, les régresseurs n ont pas d influence sur la valeur des variables de réponse

27 Tests et intervalles de confiance Cas général : Approche de Neyman-Pearson En utilisant la [Table n 4] ou équivalent (fonction cdft en scilab) on détermine le seuil z α/2 tel que P(T > z α/2 ) = α/2 α pour une variable T de loi de Student à n 2 degrés de liberté, où α est le niveau de confiance (souvent pris à.5) z α/2 ξ n z α/2 H acceptée ξ n > z α/2 H refusée (au niveau de confiance α) Remarque Pour une idée plus qualitative du résultat, on calcule souvent la probabilité critique (ou p-valeur) : 2P(T > ξ n ) (interprétation : le niveau de confiance maximum pour lequel on aurait rejeté l hypothèse H ) ξ n Tests et intervalles de confiance Cas général : Approche de Neyman-Pearson temperature temperature latitude longitude températures/latitudes n H (α =.5) p-valeur 7 Acceptée.4 4 Rejetée Rejetée Rejetée. 6 températures/longitudes n H (α =.5) p-valeur 7 Acceptée.6 4 Acceptée.9 28 Acceptée Acceptée.87

28 Tests et intervalles de confiance Intervalles de confiance Les intervalles de confiances Question posée Au vu des données, quelles sont les valeurs de θ qui sont crédibles? Et comment quantifier la fiabilité de la réponse fournie à cette question? Région de confiance [Définition 8.] Une région de confiance pour θ est une fonction S(y) de y à valeur dans l ensemble des parties de Y telle que P θ (θ S(Y )) = α où α est dit probabilité de couverture ou niveau de confiance Si θ est un paramètre scalaire, on parle d intervalle de confiance Tests et intervalles de confiance Intervalles de confiance Fonction pivotale Une fonction v(y; θ) est dite pivotale si la loi de v(y ; θ) ne dépend pas de θ sous P θ Si v est un fonction pivotale à valeur réelle telle que P θ (v(y ; θ) [a, b]) = α, {θ : v(y ; θ) [a, b]} constitue une région de confiance de probabilité de couverture α Si v(y ; θ) a une loi symétrique sous P θ, on vérifie que pour une probabilité α donnée, l intervalle de longueur minimale vérifiant les conditions ci-dessus est de la forme [ a, a] ; c est celui-ci qui sera choisi

29 Tests et intervalles de confiance Intervalles de confiance (Exemple) Cas de la régression linéaire Dans le modèle Y i = β + β X i + U i avec U i N (, σ 2 ), on sait que n Xi 2 ( ˆβ β ) ˆσ 2 suit une loi de Student à n 2 degrés de libertés Si z α/2 désigne le niveau dépassé avec probabilité α/2 pour cette loi, ˆβ z α/2 ˆσ 2 n X2 i ˆσ, ˆβ 2 + z α/2 n X2 i est l intervalle de confiance de probabilité α pour β Tests et intervalles de confiance Intervalles de confiance Dans le cas précédent, l intervalle de confiance obtenu coïncide avec l ensemble des valeurs de β pour lequel le test d hypothèse H : β = β de niveau α aurait été accepté, compte tenu de la valeur estimé ˆβ Par exemple On peut tester H : β = en vérifiant si l origine se situe ou non dans l intervalle ˆσ 2 ˆσ ˆβ z α/2 n, ˆβ 2 + z α/2 n X2 i X2 i Cette équivalence entre test et intervalle de confiance constitue une remarque générale

30 Tests et intervalles de confiance Intervalles de confiance temperature 2 temperature latitude longitude températures/latitudes n Intervalle de confiance à 95% 7.76 ± ± ± ±.9 températures/longitudes n Intervalle de confiance à 95% 7.7 ± ± ± ±.3