La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur dans, 1} dont l interprétation est ϕ(y ) = 1 H 1 est vraie ϕ(y ) = H est vraie Remarque : Il existe également des tests dits mixtes ou aléatoires dont l importance est essentiellement théorique Hypothèses simples et composites Comment quantifier la performance d un test? Une hypothèse H i : θ Θ i est dite Simple si Θ i = θ i } Composite sinon 1 Dans le cas d un modèle paramétrique et si H i est une hypothèse simple, la loi des observations est connue sous H i Il est fréquent qu une seule des deux hypothèses soit simple : par exemple, Θ = R p, H : θ = θ 3 Les hypothèses peuvent aussi être définies implicitement sous la forme H i : g(θ) = où g : Θ R p est une fonction (par exemple, g(θ 1, θ ) = θ 1 θ pour tester l égalité de deux coordonnées du paramètres) Risque de première espèce Risque de seconde espèce α ϕ (θ) = P θ ϕ(y ) = 1} = E θ [ϕ(y )] pour θ Θ β ϕ (θ) = P θ ϕ(y ) = } = 1 E θ [ϕ(y )] pour θ Θ 1 On utilise en général plutôt la puissance ρ ϕ (θ) = E θ [ϕ(y )] pour θ Θ 1 En se plaçant du point de vue de H, on peut interpréter α ϕ (θ) comme la probabilité de fausse alarme ou faux positif et ρ ϕ (θ) comme la probabilité de détection

Approche de Neyman-Pearson * [Section 6..3] 1 On dissymétrise les deux types d erreurs : H est l hypothèse de référence ou hypothèse nulle H 1 est l hypothèse alternative On cherche à maximiser la puissance du test sous la contrainte que le risque de première espèce α ϕ (θ) soit inférieur à une valeur α spécifiée par l utilisateur Le niveau du test est la valeur α ϕ = sup θ Θ α ϕ (θ) * Jerzy Neyman (1894 1981), Egon Pearson (189 1986) Test UPP (Uniformément Plus Puissant) [Définition 6.9] Un test ϕ est dit UPP dans la classe C si α ϕ α ϕ pour ϕ C implique pour θ Θ 1 ρ ϕ (θ) ρ ϕ (θ) E θ [ ϕ(y )] E θ [ϕ(y )] Si le test porte sur deux hypothèses simples H : θ = θ l(y; θ ) H 1 : θ = θ 1 l(y; θ 1 ) Le niveau et la puissance du test sont donnés par α ϕ = ϕ(y)l(y; θ )µ(dy) = ϕ(y)l(y; θ 1 )µ(dy) ρ ϕ Lemme de Neyman-Pearson [Proposition 6.13] Pour tout α, < α < 1, il existe un test de Neyman de la forme * 1 si l(y; θ 1 )/l(y; θ ) > s ϕ(y) = si l(y; θ 1 )/l(y; θ ) < s (où s R + ) qui est de niveau α ; celui-ci est UPP dans la classe des tests de niveau inférieur ou égal à α Inversement, un test qui possède ces propriétés est nécessairement un test de Neyman l(y;θ 1 ) l(y;θ ) est dit statistique du rapport de vraisemblance Preuve La preuve complète est donnée dans le polycopié L argument principal est le fait que si ϕ est un test de Neyman associé au seuil s et ϕ est un autre test [ϕ(y) ϕ(y)] [l(y; θ 1 ) sl(y; θ )] µ(dy) d où c est à dire E θ1 [ϕ(y ) ϕ(y )] s E θ [ϕ(y ) ϕ(y )] ρ ϕ ρ ϕ s (α ϕ α ϕ ) n o * La formulation ci-dessus suffit si on suppose que µ y : l(y;θ 1) = s l(y;θ = ) s R +, sinon il faut régler plus précisément le cas d égalité (en considérant un test mixte)

Exemple (Test de deux lois normales de même variance) H : Y N (µ, ) H 1 : Y N (µ 1, ) avec µ 1 > µ l(y ; θ 1 ) l(y ; θ ) s log l(y ; θ 1) l(y ; θ ) log s [ (Y 1 ) µ1 (µ 1 µ ) De même pour n observations log l n(y 1,..., Y n ; θ 1 ) l n (Y 1,..., Y n ; θ ) = (µ 1 µ ) ( ) ] Y µ log s [ ] Y (µ + µ 1 )/ log s [ n i=1 Y ] i (µ + µ 1 )/} Test de deux lois normales de même variance (suite) n i=1 Y i (µ + µ 1 )/} a pour loi 1 n Sous H, N ( n [ µ 1 µ ] ), 1 Sous H 1, N ( n [ µ 1 µ ] ), 1 1 D où pour le test n n i=1 Y i (µ + µ 1 )/} t : Risque de première espèce α (t) = 1 Φ ( t + n [ µ 1 µ ]) Puissance ρ (t) = 1 Φ ( t n [ µ 1 µ ]) La courbe ρ (t) en fonction de α (t) (lorsque t varie) est dite courbe COR (Caractéristique Opérationnelle de Réception) et nous renseigne sur le compromis entre les deux objectifs antagonistes ρ (t) et α (t) puissance Cas général 1..9.8.7.6..4.3..1. risque 1er esp...1..3.4..6.7.8.9 1. Fig.: Courbes COR pour (µ 1 µ )/ =. avec 1, et observations Le résultat précédent se généralise difficilement dans le cas où les deux hypothèses ne sont pas des hypothèses simples * L approche adoptée dans la suite consiste à 1 Choisir une statistique de test ξ(y ) dont la loi est connue sous H Ajuster le seuil s de façon à ce que le test ϕ(y ) correspondant à ξ(y ) s soit de niveau α (fixé par l utilisateur, suffisamment faible pour que le test soit significatif) 3 Si possible, évaluer la puissance du test (sous H 1 ) Si le niveau α n est maintenu fixe comme dans l approche de Neyman-Pearson, la puissance ρ n tend vers 1 lorsque n augmente * Voir toutefois le cas d une hypothèse composite unilatérale [Section 6.3.]

(Exemple) Cas de la régression linéaire Test de Student Dans le modèle Y i = β + β 1 X i + U i avec U i N (, ) (et en supposant les régresseurs centrés), on sait que ξ n = ( ˆβ 1 β 1 )/ ˆ x 11 = n i=1 X i ( ˆβ 1 β 1 ) ˆ suit une loi de Student à n degrés de libertés ˆβ 1 1 1 1 1 1 1 1 n On utilise ξ n = ˆ pour tester l hypothèse H : β 1 =, c est-à-dire, les régresseurs n ont pas d influence sur la valeur des variables de réponse En utilisant la [Table n 4] ou équivalent (fonction cdft en scilab) on détermine le seuil z 1 α/ tel que P(T > z 1 α/ ) = α/ pour une variable T de loi de Student à n degrés de liberté, où α est le niveau de confiance (souvent pris à.) z 1 α/ ξ n z 1 α/ H acceptée ξ n > z 1 α/ H refusée (au niveau de confiance α) Remarque Pour une idée plus qualitative du résultat, on calcule souvent la probabilité critique (ou p-valeur) : P(T > ξ n ) (interprétation : le niveau de confiance maximum pour lequel on aurait rejeté l hypothèse H ) α ξ n Les intervalles de confiances 1 1 1 1 Question posée Au vu des données, quelles sont les valeurs de θ qui sont crédibles? Et comment quantifier la fiabilité de la réponse fournie à cette question? 1 1 1 1 1 températures/s n H (α =.) p-valeur 7 Acceptée.14 14 Rejetée 6.7 1 8 Rejetée 6. 1 1 6 Rejetée 1.1 1 16 1 1 3 1 1 3 4 températures/longitudes n H (α =.) p-valeur 7 Acceptée.6 14 Acceptée.9 8 Acceptée.78 6 Acceptée.87 longitude Région de confiance [Définition 8.1] Une région de confiance pour θ est une fonction S(y) de y à valeur dans l ensemble des parties de Y telle que P θ (θ S(Y )) = 1 α où 1 α est dit probabilité de couverture ou niveau de confiance Si θ est un paramètre scalaire, on parle d intervalle de confiance

Fonction pivotale Une fonction v(y; θ) est dite pivotale si la loi de v(y ; θ) ne dépend pas de θ sous P θ Si v est un fonction pivotale à valeur réelle telle que P θ (v(y ; θ) [a, b]) = 1 α, θ : v(y ; θ) [a, b]} constitue une région de confiance de probabilité de couverture 1 α Si v(y ; θ) a une loi symétrique sous P θ, on vérifie que pour une probabilité 1 α donnée, l intervalle de longueur minimale vérifiant les conditions ci-dessus est de la forme [ a, a] ; c est celui-ci qui sera choisi (Exemple) Cas de la régression linéaire Dans le modèle Y i = β + β 1 X i + U i avec U i N (, ), on sait que n Xi ( ˆβ 1 β 1 ) ˆ i=1 suit une loi de Student à n degrés de libertés Si z 1 α/ désigne le niveau dépassé avec probabilité α/ pour cette loi, ˆ ˆ ˆβ1 z 1 α/ n, ˆβ 1 + z 1 α/ n est l intervalle de confiance de probabilité de couverture 1 α pour β 1 Dans le cas précédent, l intervalle de confiance obtenu coïncide avec l ensemble des valeurs de β 1 pour lequel le test d hypothèse H : β 1 = β 1 de niveau α aurait été accepté, compte tenu de la valeur estimé ˆβ 1 Par exemple On peut tester H : β 1 = en vérifiant si l origine se situe ou non dans l intervalle ˆ ˆ ˆβ1 z 1 α/ n, ˆβ 1 + z 1 α/ n Cette équivalence entre test et intervalle de confiance constitue une remarque générale 1 1 1 1 1 1 1 températures/s n Intervalle de confiance à 9% 7.76 ± 1.13 14 1.1 ±.4 8 1.1 ±. 6 1.14 ±.19 1 1 1 1 3 1 1 3 4 températures/longitudes n Intervalle de confiance à 9% 7.7 ±.34 14. ±.33 8.3 ±.19 6.1 ±.13 longitude