CHAPITRE 1 - GÉNÉRALITÉS SUR LES TESTS - EXEMPLE DU TEST BINOMIAL - 1 Qu est ce qu un test statistique? Supposons que l on souhaite mettre en évidence une propriété concernant une population P. On procède alors de façon suivante : - on met en confrontation deux hypothèses contradictoires, l une confirmant cette propriété l autre l infirmant. - on étudie alors les probabilités que l une ou l autre soit vérifiée sur l ensemble des échantillons possibles de la population P. On modélise cela en parlant d un échantillon aléatoire de P : c est l échantillonnage. - à partir de données statistiques sur un échantillon expérimental de la population P, on est amené à prendre une décision concernant cette population : cette décision est assujettie à un risque d erreur, car on doit prendre en compte les fluctuations due à l échantillonnage. Remarques. 1. Dans beaucoup de cas, on peut quantifier ces hypothèses au moyen d un ou plusieurs paramètres (proportion, moyenne, écart-type...) ; dans ce cas, on dit que le test est paramétrique. (Il n y a pas qu une seule façon de faire en général!) 2. Les hypothèses ne sont pas toujours symétriques : en général, on connaît bien H 0 et on peut la décrire par un (ou plusieurs) paramètre(s), alors qu on ne maîtrise pas bien H 1 pour laquelle le (ou les) paramètre(s) peuvent prendre plusieurs valeurs. 2 Test binomial. Exemple : On se demande si la lune a une influence sur le nombre d accouchements : le nombre d accouchements est-il plus important pendant la période de pleine lune? Pour confirmer ou infirmer cette hypothétique influence, on a prélevé 28 dates de naissance des étudiants dans une classe de L2 de sociologie (pourquoi pas?). On prendra l habitude de décomposer un test en 5 étapes : Étape 1 : Formulation des hypothèses. On formule deux hypothèses contradictoires : - la première dite hypothèse nulle H 0 (ou hypothèse de non différence), qui suppose généralement que le phénomène est dû au hasard. Cette hypothèse sert de référence. 1
- la seconde dite hypothèse alternative H 1 qui met en évidence le phénomène dont on veut tester le bien fondé. C est cette hypothèse qu on veut soit réfuter, soit démontrer. La formulation de ces hypothèses est décisive sur le test à effectuer. Il est important de les écrire avec précision. Dans notre exemple : H 0 : la lune n a pas d influence sur les naissances H 1 : le nombre de naissances est plus important en période de pleine lune Remarques. 1. Pour H 1, si on dit la lune a une influence : dans ce cas, laquelle? Plus ou moins de naissances en période de pleine lune? Si on ne précise pas on doit alors faire un test bilatéral. Dans notre exemple, le test est orienté : il sera unilatéral. 2. On contrôle mal l hypothèse H 1 : si la lune a une influence, qu elle est la force de cette influence? On introduit un paramètre et on reformule ces hypothèses en termes statistiques. Dans notre exemple : pour simplifier, on considère qu une période lunaire est d environ quatre semaines une semaine de nouvelle lune, une semaine de premier quartier, une semaine de pleine lune et une semaine de dernier quartier. Pour la semaine de pleine lune, il faut compter le jour de pleine lune et ±3 jours autour de la pleine lune. On introduit un paramètre p : p = la proportion de naissances qui ont eu lieu en semaine de pleine lune sur des naissances. Sous H 0, la proportion p prend la valeur p 0 = 7 28 = 1 4. Sous H 1, p > p 0 = 1 4. On peut alors reformuler nos hypothèses : H 0 : p = p 0 = 1 4 et H 1 : p > p 0 = 1 4. On dit que le test est unilatéral (supérieur). Étape 2 : Choix du modèle statistique. On choisit une statistique adaptée à nos hypothèses (et aux paramètres choisis pour exprimer ces hypothèses), qui s applique à un échantillon aléatoire de taille n (où n est la taille de l échantillon expérimental sur lequel s appuie le test). Le choix de la statistique n est pas toujours unique. Dans notre exemple : le paramètre p est une proportion. On introduit la statistique : X n = le nombre de naissances durant une semaine de pleine lune sur un échantillon aléatoire de n = 28 naissances. La variable X n suit une B(n, p). On dit que le test est binomial. (Remarque : on aurait pu utiliser une proportion aléatoire mais pour de petits échantillons, on n en connaît pas la loi). Sous H 0 : X n suit une B(28, 1 4 ) et sous H 1 : X n suit une B(28, p) avec p > 1 4. 2
Étape 3 : Niveau de signification du test et région critique. Lors du test, on peut commettre deux erreurs dans la prise de décision : - ou bien accepter l hypothèse H 1 alors que c est H 0 qui est vraie : c est l erreur de première espèce α = P[Accepter H 1 / H 0 vraie] - ou bien accepter l hypothèse H 0 alors que c est H 1 qui est vraie : c est l erreur de seconde espèce β = P[Accepter H 0 / H 1 vraie] Décision État \ Accepter H 0 Accepter H 1 Somme H 0 vraie 1 α α (1 α) + α = 1 H 1 vraie β η = 1 β η + β = 1 Remarque : α et β sont contradictoires : lorsque α augmente, β diminue et vice-versa. Apparte : Un jugement doit décider de la culpabilité d un individu : H 0 : l accusé est innocent H 1 : l accusé est coupable Décision État \ Accepter H 0 : innocent Accepter H 1 : coupable Somme H 0 vraie : innocent 1 α α (1 α) + α = 1 H 1 vraie : coupable β η = 1 β η + β = 1 Il est plus facile de juger une personne présumée innocente (on amène des éléments à charge, qu il suffit d étudier) que de tenter d innocenter une personne présumée coupable (tout dépend de sa défense : il faut tenter de trouver une parade à chaque élément à charge, ce qui n est généralement pas facile). De même, il est plus facile de tester la véracité de H 1 en partant de l hypothèse H 0 (que l on connait bien) que de tester la véracité de H 0 en partant de l hypothèse H 1 (que l on connait mal : tout dépend du degré d implication du coupable). Dans la pratique, on travaille sous l hypothèse H 0. On se fixe donc un risque d erreur α de première espèce. L erreur α mesure le niveau de signification du test. On dit que le test est significatif si on accepte H 1 : plus α est petit plus le test est significatif si on accepte H 1, mais plus on a du mal à accepter H 1 (on choisit α en fonction de ce que l on souhaite prouver : en sciences humaine, on prend souvent 5% ou 10%, en médecine, ou pour évaluer des risques thermonucléaires par exemple, on prend souvent moins de risque pour des raisons évidentes). On se pose la question suivante : si on se place sous l hypothèse H 0, à partir de quelle valeur de X n considère-t-on qu on commet une erreur en gardant cette hypothèse et qu il vaut mieux opter pour H 1? Dans notre exemple : on se fixe un niveau α = 5%. Sur un échantillon de 28 dates de naissance, à partir de combien de dates en période de pleine lune peut-on estimer que la lune a une influence sur les naissances? 3
Pour répondre à cette question, on introduit la notion de région critique (ou zone critique ou encore zone/région de rejet) souvent notée K α (X n ) : c est la région d acceptation de l hypothèse H 1 au niveau α, c est à dire l ensemble des valeurs de X n pour lesquelles on accepte H 1. Dans notre exemple : on accepte H 1 si le nombre de naissances en semaine de pleine lune est assez grand, donc K α (X n ) est l ensemble valeurs de k telles que : P[X n k] 0, 05. Si la plus petite de ces valeurs est k α, la région critique est : K α (X n ) = {X n k α } = {k α, k α + 1,..., n}. On calcule les probabilités : (de 19 à 28, les probabilité sont quasiment nulles) k 18 17 16 15 14 13 12 11 10 9 P(X n = k) 0, 001% 0, 005% 0, 022% 0, 08% 0, 27% 0, 75% 1, 8% 3, 8% 7, 1% 11, 1% P(X n k) 0, 001% 0, 007% 0, 029% 0, 11% 0, 38% 1, 12% 2, 9% 6, 8% 13, 8% 25, 0% P[X n 12] = 2, 94%, P[X n 11] = 6, 79%, donc k α = 12 et la région critique est : K α (X n ) = {X n 12} = {12, 13,..., 27, 28}. Étape 4 : Décision. Si la valeur expérimentale de notre variable est dans la région critique, on l hypothèse H 0 n est plus tenable et on accepte H 1 avec un risque d erreur α. Sinon, on conserve H 0 et on rejette H 1. Remarque. Le rejet ou non de H 1 dépend du niveau de signification du test (du choix de α) et de la taille de l échantillon. Dans notre exemple : supposons que sur un échantillon expérimental de 28 dates de naissance on ait obtenu Xn exp = 9 dates en période de pleine lune, alors au niveau 5%, on rejette H 1 car Xn exp = 9 n est pas dans la région critique. Autrement dit, la proportion expérimentale p exp = 9 28 n est pas suffisamment grande devant p 0 = 1 4 pour mettre en évidence H 1 au niveau de 5%. (Par contre, si Xn exp = 13, on accepte H 1 au niveau de 5%). Remarque. Au lieu de calculer la région critique, on peut aussi calculer la p-value appelée aussi la signification : c est le risque minimum qu il aurait fallu prendre pour accepter H 1 à partir de la valeur expérimentale (c est à dire la valeur du risque lorsque la valeur expérimentale est au bord de la région critique). Cette p -value est ensuite comparée à α. p -value = P(X n X exp n ) = P(X n 9) = 25, 0% > 5% donc on rejette donc H 1. Étape 5 : Puissance du test. 4
On se demande si le test est bien adapté à notre prise de décision. On a vu que : α = P[Accepter H 1 H 0 vraie] = P[K α (X n ) H 0 vraie] et β = P[Accepter H 0 H 1 vraie]. La probabilité η = 1 β = P[Accepter H 1 H 1 vraie] = P[K α (X n ) H 1 vraie] est appelée puissance du test et mesure en quelque sorte la qualité du test (la taille d échantillon est-elle appropriée?). La puissance est en fait une fonction du paramètre p caractérisant H 1. Dans notre exemple : 1. Si on veut mettre en évidence que la proportion de naissances en période de pleine lune est de 32% (qui est approximativement la proportion expérimentale) au lieu de 25% sous H 0, on calcule la puissance pour p = 32% : sous H 1, X n suit une B(28; 0, 32) et donc η(32%) = P[K α (X n ) / p = 32%] = P[X n 12/p = 0, 32] = 15, 2%. Cette puissance est faible donc le test n est pas adapté pour mettre en évidence une proportion de 32% de naissances en période de pleine lune. Si l influence de la lune donnait une telle proportion, la taille d échantillon de n = 28 est insuffisante pour pouvoir s en convaincre. 2. Si on veut mettre en évidence une proportion de 50% d accouchements en période de pleine lune : on calcule la puissance pour p = 50% ; sous H 1, X n suit une B(28; 0, 5) et donc η(50%) = P[K α (X n ) / p = 50%] = p[x n 12/p = 0, 6] = 82%. Cette puissance est forte donc le test est adapté pour mettre en évidence cette proportion de 50% de naissances en période de pleine lune. Le rejet de H 1 prouve donc que si malgré tout la lune avait une influence, celle-ci serait faible. Quelques remarques : - On aurait pu imaginer par exemple que l hypothèse H 1 est : le nombre de naissances en semaine de nouvelle lune est plus faible. Dans ce cas p est la proportion de naissances en période de nouvelle lune, H 0 s écrit p = 1 4 et H 1 s écrit p < 1 4 : le test est unilatéral inférieur. Si X n est le nombre de naissances pendant la nouvelle lune, la région critique aurait été de la forme K 0,05 = {X n k α } où k 0,05 est la plus grande valeur de k telle que P[X n k] 0, 05. - De même, on aurait pu imaginer que l hypothèse H 1 est : la lune montante a une influence sur naissances (sans sans préciser si elle est positive ou négative). Dans ce cas p est la proportion de naissances en lune montante, H 0 s écrit p = 1 2 et H 1 s écrit p 1 2 : le test est bilatéral. Sous H 0, le nombre de naissances X n en lune montante suit une B(28, 1 2 ). La région critique serait de la forme K 0,05 = {X n k 1 } {X n k 2 } où k 1 est la plus grande valeur de k telle que p[x n k] 0,05 2 et k 2 est la plus petite valeur de k telle que p[x n k] 0,05 2. 5