Tests de Student-Fisher compléments Matthieu Kowalski 1 Rappels généraux sur les tests 1.1 Un exemple Un producteur d'ampoules ash, qui ne peuvent servir qu'une seule fois, arme à ses clients que la proportion p d'ampoules défectueuses est inférieure à 10%. Pour éviter que les lots vendus ne lui soient renvoyés, il veut s'assurer de ses dires. Pour cela, il prélève un échantillons de n = 1000 ampoules de sa chaîne de production. Le but est d'évaluer p à partir de cet échantillon. Il note X la variable aléatoire qui représente le nombre d'ampoules défectueuses sur 1000 ampoules testées. Pour estimer p, il considère chaque ampoule comme une variable aléatoire X i B(p) de sorte que X i = 1 si l'ampoule i est défecteuse X i = 0 sinon. Ainsi, X = n X i suit la loi B(n, p). i=1 Intuitivement, si Xn = 1 n n X i est grand, alors il y a peu de chance que p i=1 soit inférieur à 10%. Le producteur peut donc prendre comme règle de décision : Si Xn > t ( X n assez grand), alors p > 10% ; Si Xn > t ( X n assez petit), alors p 10%. où t est un nombre à xer. Le problème est donc : Comment choisir t convenablement? Un premier choix naturel est de prendre t = 10%. La règle de décision serait alors : Si Xn > 10%, alors p > 10% ; Si Xn > 10%, alors p 10%. On calcule dans la suite les probabilités de se tromper si on adopte cette règle. Une première façon de se tromper est de décider que p > 10% alors que ce n'est pas le cas : α 1 = sup P X n > 10%} = sup P p 10% p 10% X n p > p(1 p)/n 10% p p(1 p)/n }. 1
Ici, on cherche à trouver la plus grande probabilité (ie le plus gros risque) de se tromper (ie X n > 10%) quand l'hypothèse p 10% est vériée. } X On applique le TLC à Z = n p. La fonction p [0, 10%] P Z > 10% p p(1 p)/n p(1 p)/n est croissante, et donc le sup est atteint pour p = 10%. On obtient donc α 50%. Dans le pire des cas, on a donc 50% de risque de se tromper en décidant que p > 10% avec cette stratégie. L'autre erreur possible, est de décider que p 10% alors qu'en réalité p < 10% : α 2 = sup P X n 10%}. p>10% Par un raisonnement similaire, on trouve : α 2 50%. On se trompe alors ici aussi une fois sur deux en décidant que p < 10% avec cette règle de décision. La règle de décision initiale est donc très mauvaise : on se trompe une fois sur deux dans les deux cas! Pour le producteur d'ampoule, conclure que p > 10% lorsque ce n'est pas le cas aura des conséquences moins grave que de conclure p 10% si p > 10%. En eet, dans le premier cas, il ne prendra pas le risque d'envoyer le lot d'ampoules, alors que dans le second, beaucoup de lots lui seront retournés (et ses clients ne seront pas satisfaits). Si on reprent les calculs précédents de façon plus générale, en gardant un seuil t quelconque, on a : α 1 = sup P X t p n > t} sup PZ > }, Z N (0, 1), p 10% p 10% p(1 p)/n α 2 = sup P X t p n t} sup PZ }, Z N (0, 1). p>10% p>10% p(1 p)/n Ainsi, plut t est choisi grand, plus α 1 devient petit, mais plus α 2 devient grand. Les deux erreurs ne peuvent pas être (en général) petites en même temps. Il faut choisir de privilégier une hypothèse par rapport à l'autre. On notera cette hypothèse (H 0 ). La seconde sera notée (H 1 ). Dans cet exemple, on teste (H 0 ) : p 10% contre (H 1 ) : p < 10%. Par dénition de (H 0 ) et (H 1 ), l'erreur qu'on contrôle est α = P (H0)Rejeter (H 0 )}. α s'appelle le niveau du test, ou l'erreur de première espèce. La règle de décision est la suivante : 2
Si Xn < t Rejet de (H 0 ). Si Xn t Acceptation de (H 0 ). Si on prend α = 5%, le calcul de t donne : 5% = sup P( X n < t) p 10% } t p sup P Z p(1 p)/n P p 10% Z } t 0.1 0.1(0.9)/n. La table de la loi normale donne t = 0.1 1.645 0.09/n. α xe la règle de décision, et on ne peut plus contrôler l'erreur de deuxième type P (H1)accepter (H 0 )}. Ici, le calcul de cette erreur donne 95%. 1.2 Étapes de construction d'un test 1. Choix de l'hypothèse privilégiée (H 0 ) en fonction de l'erreur qu'on veut contrôler : α = P (H0)rejeter H 0 }. 2. Choix du niveau α (petit). 3. Construction d'une région de rejet de (H 0 ) de niveau α. On la construit en générale sur un estimateur ˆθ du paramètre } θ sur lequel porte le test. Cette région est du type R = ˆθ R. Dans l'exemple précédent, on a R = Xn < t }. 4. Conclusion au vu de l'échantillon selon la règle de décision : Si ˆθ R, rejet de (H 0 ) ; Si ˆθ / R, acceptation de (H 0 ) ; 5. Si on accepte (H 0 ), calcul éventuel de l'erreur de deuxième espèce. 1.3 P-valeur En pratique, plutôt que de xer un niveau α et d'en déduire la région le t associée, on peut calculer la P-valeur du test. Dans notre exemple, supposons qu'on observe X n = x n = 0.09. La P-valeur du test est donnée par P (H0) X n < x n } = P p=0.1 X n < 0.09}. 3
La P-valeur est probabilité de rejeter à tort (H 0 ) quand t est remplacé par la valeur observé sur l'échantillon. La P-valeur nous dit si ce que nous observons sur l'échantillon de données est probable sous l'hypothèse (H 0 ). Ainsi, la règle de décision nale est donnée quelque soit le niveau α choisi par 1. Si α >P-valeur, rejet de (H 0 ). 2. Si α P-valeur, acceptation de (H 0 ). 2 Test de Fisher Soit deux échantillons X et Y suivant respectivement une loi normale N (µ X, σ 2 X ) et N (µ Y, σ 2 Y ) et de taille respective n X et n Y. Le but du test de Fisher est de fournir une règle de décision vis à vis de l'égalité des deux variance σ X et σ Y. Rappel : on utilise l'estimateur de la variance convergent et asymtotiquement sans biais ˆσ 2 X = 1 n 1 La statistique du test de Fisher est n (X n X n ) 2. k=1 F = ˆσ2 X ˆσ 2 Y. Ce rapport suit une loi de Fisher, ie F F nx 1,n Y 1. Intuitivement, F doit être proche de 1 sous H 0 et largement plus petite ou plus grande sous H 1. On considère un test de région de rejet du type R = F < k 1 } F > k 2 }, ou, de manière équivalente, de région d'acceptation R = k 1 < F < k 2 }. 2.1 Test unilatéral à droite H 0 : σx 2 = σ2 Y H 1 : σx 2 > σ2 Y. Dans ce cas, on rejette H 0 lorsque le rapport des variances devient grand. On cherche la région d'acceptation sous la forme R = F < k 2 }. 4
α = P H0 F > k 2 }, k 2 = F nx 1,n Y 1;1 α. Si F > k 2, rejet de H 0 Si F < k 2, acceptation de H 0. La P-valeur du test est donnée par : P-valeur = PZ > F } = 1 PZ F }, où Z F nx 1,n Y 1. La règle de décision associée est : 1. Si α > P-valeur, rejet de H 0. 2. Si α P-valeur, rejet de H 0. 2.2 Test unilatéral à gauche H 0 : σx 2 = σ2 Y H 1 : σx 2 < σ2 Y. Dans ce cas, on rejette H 0 lorsque le rapport des variances devient petit. On cherche la région d'acceptation sous la forme R = F > k 1 }, α = P H0 F < k 1 }, k 1 = F nx 1,n Y 1;α. Si F < k 1, rejet de H 0. Si F > k 1, acceptation de H 0. La P-valeur du test est donnée par : P-valeur = PZ < F } où Z F nx 1,n Y 1. La règle de décision associée est : 1. Si α > P-valeur, rejet de H 0 2. Si α P-valeur, rejet de H 0 5
2.3 Test bilatéral H 0 : σx 2 = σ2 Y H 1 : σx 2 σ2 Y. On cherche k 1 et k 2 tels que α = P H0 F < k1} et P H0 F > k 2 }. On impose de plus P H0 F < k1} = P H0 F > k 2 }, k 1 = F nx 1,n Y 1; α 2 et k 2 = F nx 1,n Y 1;1 α 2. par Si F < k 1 ou F > k 2, rejet de H 0. Si k 1 < F < k 2, acceptation de H 0. Soit Z F nx 1,n Y 1. On dénit la P valeur dans le cas d'un test bilatéral P-valeur = Et la règle de décision associée est Si α > P-valeur, rejet de H 0. Si α P-valeur, rejet de H 0. 2PZ < F } si PZ < F } 1 2 2(1 PZ < F }) si PZ < F } 1 2 3 Test de Student On considère deux échantillons X et Y suivant respectivement une loi normale N (µ X, σ 2 X ) et N (µ Y, σ 2 Y ) et de taille respective n X et n Y. Le but du test de Student est de fournir une règle de décision vis à vis de l'égalité des deux moyennes µ X et µ Y, lorsque les variances sont inconnues mais égales, ie σ 2 X = σ2 T = σ. La statistique du test de Student est avec T = ˆµ X ˆµ Y ˆσ 1 n X + 1 n Y, ˆσ = = nx k=1 (X k ˆµ X ) 2 + n Y k=1 (Y k ˆµ Y ) 2 n X + n Y 2 n X 1 n X + n Y 2 ˆσ2 X + n Y 1 n X + n Y 2 ˆσ2 Y. T suit une loi de student-t de n X + n Y 2 degrés de liberté. 6
Intuitivement, T doit être proche de 0 sous H 0, et beaucoup plus grande ou plus petite sous H 1. On considère un test de région de rejet du type R = T > t}, ou, de manière équivalente, de région d'acceptation R = T < t}. 3.1 Test unilatéral à droite H 0 : µ X = µ Y H 1 : µ X > µ Y. Dans ce cas, on rejette H 0 lorsque T devient grand. On cherche la région d'acceptation sous la forme R = T < t}. Si T > t, rejet de H 0. Si T < t, acceptation de H 0. 3.2 Test unilatéral à gauche α = P H0 T > t}, t = t nx +n Y 2;1 α. H 0 : µ X = µ Y H 1 : µ X < µ Y. Dans ce cas, on rejette H 0 lorsque T devient très négatif. On cherche la région d'acceptation sous la forme Si T < t, rejet de H 0. Si T > t, acceptation de H 0. R = T > t}. α = P H0 T < t}, t = t nx +n Y 2;α = t nx +n Y 2;1 α. 7
3.3 Test bilatéral H 0 : µ X = µ Y H 1 : µ X µ Y Dans ce cas, on rejette H 0 lorsque T devient très négatif. On cherche la région d'acceptation sous la forme R = T < t}. α = P H0 T > t}, t = t nx +n Y 2;1 α 2. par Si T > t, rejet de H 0. Si T < t, acceptation de H 0. Soit Z t nx 1,n Y 1. On dénit la P-valeur dans le cas d'un test bilatéral P-valeur = Et la règle de décision associée est Si α > P-valeur, rejet de H 0. Si α P-valeur, rejet de H 0. 2PZ < F } si PZ < F } 1 2 2(1 PZ < F }) si PZ < F } 1 2 8