STATISTIQUE Notion de test et niveau de signification Sept.-Nov.2010 Bruno Depay
Le Figaro, lundi 18 octobre 2010
«Le téléphone sonne»émission de radio consacrée aux statistiques France Inter 20 octobre 2010
Données du problème La consommation X de boissons au cola suit habituellement une loi N(µ 0 =5, σ). Une campagne de promotion est organisée. Après la campagne, on a obtenu sur un échantillon de 40 personnes une consommation moyenne de 5.88 avec un écart-type de 2.97. On suppose qu après la campagne X N(µ, σ). La campagne de promotion est considérée comme un succès si µ > 5.
Question Au vu des résultats sur l échantillon, peut-on considérer, avec une faible probabilité d erreur, que la campagne de promotion a été un succès? Autrement dit : La moyenne µ estimée par x = 5.88 est-elle significativement supérieure à µ 0 = 5?
Rappel Nous savons comment répondre à cette question en utilisant un intervalle de confiance. [ x t ( n 1 ) s ; x ( n 1 ) α α 1 1 2 n 2 n + t s ]
Conclusion? On ne peut pas affirmer, avec un risque de 5% d erreur, que la consommation µ est significativement supérieure à µ 0.
Conclusion? On peut affirmer, avec un risque de 10% d erreur, que la consommation µ est significativement supérieure à µ 0.
Conclusion? 7% est le risque d erreur seuil que l on accepte pour affirmer que la consommation µ 0 est significativement supérieure à µ.
Niveau de signification α=5% α=10% α=7% Le niveau de signification (SIG) correspond à la valeur minimum du risque que l on peut accepter pour rejeter l hypothèse de départ. Ici l hypothèse de départ est : µ = µ 0 et on a SIG = 7%
Test d hypothèse Le test d hypothèse est une méthode qui permet de comparer une moyenne µ à un standard µ 0 Il nous donne directement le niveau de signification (SIG), que nous utiliserons lors de l étude de la régression multiple.
Test d hypothèse : démarche On pose une hypothèse de départ H 0 considérée comme vraie, et une hypothèse alternative H 1. On définit une statistique qui suit une loi de probabilité connue pour H 0. On fixe une règle de décision qui permettra ou non de rejeter H 0 au profit de H 1.
Test de comparaison bilatéral d une moyenne µ à un standard µ 0 Test : H 0 : µ = µ 0 H 1 : µ µ 0 Statistique utilisée : x µ t = 0 s / n Règle de décision : On rejette H 0 au profit de H 1, au risque α de se tromper, si t t 1-(α/2) (n-1) Niveau de signification (Sig) du t observé : Plus petite valeur de α conduisant au rejet de H 0 : Sig/2 = Prob(t(n-1) t )
Niveau de signification (Sig) La plus petite valeur de α avec laquelle on rejette H 0 Loi de Student à (n-1) ddl Sig/2 α/2 Sig/2 - t 0 t t 1-α/2 (n-1) On peut rejeter H 0 avec un risque α si t >t 1-α/2 (n-1) (soit Sig α)
Application : t =? t = x s µ 0 / n One-Sample Statistics Consommation de boisson au cola N Mean Std. Deviation Std. Error Mean 40 5,88 2,972,470 One-Sample Test Consommation de boisson au cola t df Sig. (2-tailed) Test Value = 5 95% Confidence Interval of the Mean Difference Difference Lower Upper 1,862 39,070,875 -,08 1,83
Conclusion de ce test pour Rola-Cola On ne peut pas rejeter, avec un risque α<7%, l hypothèse que µ = µ 0. Autrement dit : Si on prend un risque α<7%, on ne peut pas dire que la consommation de Rola- Cola suite à la campagne de promotion est significativement différente.
Test de comparaison unilatéral Dans notre exemple on peut utiliser un test de comparaison unilatéral si on part de l hypothèse que la moyenne de consommation ne peut qu avoir augmentée après la campagne de publicité. On ne cherche plus à savoir si µ µ 0 mais seulement si µ > µ 0
Test de comparaison unilatéral (à droite) d une moyenne µ à un standard µ 0 Test : H 0 : µ = µ 0 H 1 : µ > µ 0 Statistique utilisée : x µ t = 0 s / n Règle de décision : On rejette H 0 au profit de H 1, au risque α de se tromper, si t t 1-α (n-1) Niveau de signification (Sig) du t observé : Plus petite valeur de α conduisant au rejet de H 0 : Sig = Prob(t(n-1) t)
Niveau de signification (Sig) La plus petite valeur de α avec laquelle on rejette H 0 Loi de Student α Sig 0 t t 1-α (n-1) On peut rejeter H 0 avec un risque α si t >t 1-α (n-1) (soit Sig α)
Application t = 1,862 (inchangé) t 0,95 (39)=1,685 Donc t > t 0,95 (39) Le niveau de signification vaut : Sig = Prob(t(39)>1,862)=3,5% Donc en prenant un test de comparaison unilatéral à droite, le niveau de signification est de 3,5%
Importance de l hypothèse H 1 On peut rejeter avec un risque d erreur α=5% l hypothèse H 0 : µ = µ 0 au profit de H 1 : µ > µ 0 Ainsi dans notre exemple avec : -les mêmes données -le même risque d erreur α -la même hypothèse de départ H 0 On rejette ou non H 0 selon la nature de H 1
Importance de l hypothèse H 1 Après la campagne de publicité 1/ Je ne peux pas affirmer avec 5% d erreur que la consommation est différente 2/ Je peux affirmer avec 5% d erreur que la consommation a augmentée (= j ai 95% de chance d avoir raison qu elle a augmenté en supposant dès le départ qu elle ne peut pas diminuer)
Importance de l hypothèse H 1 Conclusion : lorsqu on utilise les tests en statistique, attention aux formulations. De la même façon que précédemment, nous pouvons faire un test de comparaison unilatéral à gauche.
Test de comparaison unilatéral (à gauche) d une moyenne µ à un standard µ 0 Test : H 0 : µ = µ 0 H 1 : µ < µ 0 Statistique utilisée : x µ t = 0 s / n Règle de décision : On rejette H 0 au profit de H 1, au risque α de se tromper, si t -t 1-α (n-1) Niveau de signification (Sig) du t observé : Plus petite valeur de α conduisant au rejet de H 0 : Sig = Prob(t(n-1) t)
Remarques importantes Tout est important dans la construction d un test statistique : la définition de l hypothèse H 0 : elle doit être solidement établie et on doit avoir une bonne raison de la rejeter La définition de l hypothèse H 1 Le niveau d erreur que l on se fixe : 5% est standard, 1% pour les cas où le rejet de H 0 a des conséquences importantes
Remarques importantes Ce niveau seuil d erreur acceptable est fixé par le décideur, et non le statisticien. La statistique est une aide à la décision, ce n est pas elle qui la prend.
Application pour la régression Cor(X,Y) est-il significatif avec α = 5%? Test : H 0 : Cor(X,Y) = 0 (= le modèle n est pas bon) H 1 : Cor (X,Y) 0 (= le modèle est bon) Règle de décision On rejette H 0 avec un risque d erreur α = 5% si Cor( X, Y ) 2 n (il faut n > 20) 28
Cor(X,Y) est-il significatif avec α choisi? Test : H 0 : Cor(X,Y) = 0 H 1 : Cor(X,Y) 0 Règle de décision On rejette H 0 avec un risque d erreur α si Cor( X, Y ) t t 1 α / 2 2 1 α / 2 ( n 2 ) ( n 2 ) + n 2 α
-1 -a 0 a 1 R: cor. négative Pas de corrélation Cor. positive (bon) (pas bon) (bon) Ici on note a = t t 1 α / 2 2 1 α / 2 ( n 2 ) ( n 2 ) + n 2 Exemple avec n= 36 et R=Cor(X,Y)=0.41 : Que peut-on dire avec = 2%? = 1%? 30
Résultats : Avec α = 2%, t 1-α/2 (34) = 2,441 et a=0,3861 donc R >a. On rejette avec α = 2% l hypothèse que le modèle est mauvais. Avec α = 1%, t 1-α/2 (34) = 2,728 et a=0,4237 donc R <a. On ne rejette pas avec α = 1% l hypothèse que le modèle est mauvais. donc 1%< SIG <2% 32
Exemple d un R non significatif Correlations PRIXM2 Pearson Correlation Sig. (2-tailed) N SURFACE.199.309 28 Prix au m Surface Rouge : droite des moindres carrés ( y= bo + b1x ) Bleu : moyenne des prix (y = y) Rsq =. On a 30.9% de chance de se tromper si on dit qu il y a une corrélation linéaire entre le prix au m² et la surface. On considère que la corrélation entre le prix au m² et la surface (0.199) n est pas significative. 33
Ex : appartements du XIX arrondissement Model 1 (Constant) Surface en m a. Dependent Variable: Prix en k Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. 28,519 17,077 1,670,105 5,390,184,983 29,342,000 SIG < 0,1%
Ce qu il faut retenir La démarche d un test : importance des hypothèses H 0 (hypothèse de prudence) et H 1. Statistique utilisée pour un test de comparaison à une moyenne : x t = s µ 0 / n
Ce qu il faut retenir Test de comparaison bilatéral d une moyenne µ à un standard µ 0 : on rejette H 0 au profit de H 1 si t t 1-(α/2) (n-1) Niveau de signification (SIG) : la plus petite valeur de α conduisant au rejet de H 0 C est le décideuret non le statisticien qui fixe les hypothèses et qui se situe par rapport au niveau de signification (ou qui fixe le seuil d erreur acceptable).
«42.7 percent of all statistics are made up on the spot.» Steven Wright
Prochain cours Mercredi 27 octobre Exercice : régression simple