Chapitre 9: Introduction aux tests statistiques 1. Approche 2. Formalisme général d un test statistique 3. P-value 4. Intervalle de confiance 5. Test bilatéral et test unilatéral 1
1. Approche Procédé qui permet de faire la part des choses entre le hasard de l échantillonnage et les vraies caractéristiques de la population observée. Dans notre exemple introductif (lancers d une pièce): Population: l ensemble (infini) de tous les lancers possibles de la pièce Caractéristique de la population: P (Pile) = p (inconnu) Echantillon: 6 lancers de la pièce, tous Pile Dans l échantillon, le pourcentage de Pile est égal à 100% La pièce est-elle déséquilibrée? Ce résultat est-il dû au hasard de l échantillonnage? 2
Eclairage de la statistique: La statistique permet de calculer la probabilité d un résultat aussi extrême ou plus extrême que le résultat observé, sous une certaine hypothèse. Dans notre exemple: Hypothèse: la pièce est équilibrée. Quelle est alors la probabilité d observer un résultat aussi extrême que 6 Pile sur 6 jets? Si la pièce est équilibrée, P (Pile) = 0.5 et la probabilité d obtenir six fois Pile est de (0.5) 6 = 0.0156. Il y a un autre événement aussi extrême: obtenir 6 fois Face (même probabilité). La probabilité d obtenir un résultat aussi extrême que le résultat observé est donc de 2 0.0156 0.03. Cette probabilité est faible. Les observations ne soutiennent donc pas l hypothèse selon laquelle la pièce est équilibrée et on décide de la rejeter. 3
2. Formalisme général d un test statistique De façon générale, un test statistique se fonde sur les quatre éléments suivants: Hypothèses On formule deux hypothèses: l hypothèse nulle, notée H 0, et l hypothèse alternative, notée H 1. L hypothèse nulle est une hypothèse précise, permettant de faire des calculs. l hypothèse alternative est en général la négation de l hypothèse nulle. Statistique de test Une fonction des observations qui mesure la distance entre les observations et l hypothèse nulle. Echantillon Echantillon d observations, permettant de calculer la valeur observée de la statistique de test. Règle de décision Suivant la valeur de la statistique de test, on rejette ou ne rejette pas l hypothèse nulle en faveur de l hypothèse alternative. 4
Dans notre exemple Hypothèses H 0 : P (pile) = 0.5 H 1 : P (pile) 0.5 Statistique de test N P = Nombre de Pile Echantillon 6 lancers de pièce Règle de décision Rejeter H 0 si N P = 6 5
Dans notre exemple Hypothèses H 0 : P (pile) = 0.5 H 1 : P (pile) 0.5 Statistique de test N P = Nombre de Pile Echantillon 6 lancers de pièce Règle de décision Rejeter H 0 si N P = 6 6
Dans notre exemple Hypothèses H 0 : P (pile) = 0.5 H 1 : P (pile) 0.5 Statistique de test: distance entre H 0 et les observations N P = Nombre de Pile Echantillon 6 lancers de pièce Règle de décision Rejeter H 0 si N P = 6 7
Dans notre exemple Hypothèses H 0 : P (pile) = 0.5 H 1 : P (pile) 0.5 Statistique de test: distance entre H 0 et les observations N P = Nombre de Pile Echantillon 6 lancers de pièce Règle de décision Rejeter H 0 si N P = 6 8
Dans notre exemple Hypothèses H 0 : P (pile) = 0.5 H 1 : P (pile) 0.5 Statistique de test: distance entre H 0 et les observations N P = Nombre de Pile Echantillon 6 lancers de pièce Règle de décision Rejeter H 0 si N P = 6 ou N P = 0 9
Ici, la règle de décision est fixée de sorte que si H 0 est vraie, elle aura une probabilité égale à 0.03 d être rejetée. De manière générale, on définit le niveau (ou seuil) d un test comme P (rejeter H 0 H 0 vraie), la probabilité de rejeter l hypothèse nulle dans le cas où elle est vraie. On utilise la notation P 0 (rejeter H 0 ). Dans notre exemple, le niveau du test est donc de 0.03. En règle générale, on fixe la règle de décision d un test de façon à ce que le niveau soit inférieur à 0.05. Le fait de rejeter une hypothèse nulle correcte s appelle une erreur de première espèce. Ainsi, le niveau d un test est égal à la probabilité de commettre une erreur de première espèce, si H 0 est vraie. 10
Plus précisément, deux types d erreurs sont possibles: Rejeter une hypothèse nulle vraie: Erreur de type I Ne pas rejeter une hypthèse nulle fausse: Erreur de type II H 0 vraie H 0 fausse Rejeter H 0 Erreur de type I OK Ne pas rejeter H 0 OK Erreur de type II Le fait de déterminer la règle de décision de façon à ce que le niveau soit inférieur à une certaine limite (souvent 0.05) permet de contrôler la probabilité de commettre une erreur de type I, i.e. assurer que P 0 (rejeter H 0 ) limite. 11
Pour ce qui est de l erreur de type II, on voudrait idéalement poser une limite sur P 1 (ne pas rejeter H 0 ), la probabilité ne pas rejeter H 0 dans le cas où H 1 est vraie. Problème: généralement H 1 n est pas précisément spécifiée. Dans notre exemple, H 1 est P (pile) 0.5. Pour pouvoir calculer P 1 (ne pas rejeter H 0 ), il faudrait spécifier précisément H 1, par exemple poser H 1 : P (pile) = 0.8. Dans la pratique, on calcule la quantité 1 P 1 (ne pas rejeter H 0 ), appelée puissance du test, pour différentes spécifications plausibles de H 1. La puissance est la probabilité de rejeter H 0 si H 1 est vraie. On souhaite donc quelle soit la plus élevée possible. 12
Autre exemple: poissons du lac On souhaite tester l hypothèse selon laquelle les poissons du lac Léman ont une taille moyenne µ de µ 0 = 5 cm. On pose donc H 0 : µ = µ 0 et H 1 : µ µ 0. On dispose d un échantillon aléatoire de 30 poissons, x 1,..., x 30, dont la moyenne est ˆµ = 7 cm. Grâce au théorème central limite, on sait que ˆµ N ( µ, σ2 n où σ 2 est la variance des tailles des poissons du lac. σ 2 est inconnu, mais on peut l estimer par la variance de l échantillon: ˆσ 2 = 1 n 30 i=1 ) (x i ˆµ) 2 = 20.3 cm 2. En standardisant ˆµ avec cette estimation, on obtient une variable qui a approximativement une distribution normale sandard: ˆµ µ ˆσ/ N (0, 1). n Ici, µ est toujours la vraie taille moyenne (inconnnue) des poissons du lac., 13
Si H 0 : µ = µ 0 = 5 cm est vraie, alors on obtient que Z = ˆµ µ 0 ˆσ/ n N (0, 1). La variable Z définie ci-dessus est la différence standardisée entre ˆµ et µ 0. C est donc une mesure de la distance entre les observations (ˆµ) et l hypothèse nulle (µ 0 ). Une grande valeur (en valeur absolue) de Z indique donc que les observations ne soutiennent pas H 0 et qu il faut la rejeter. Soit z la valeur observée de Z sur l échantillon. La règle de décision pour ce test sera donc de la forme Rejeter H 0 si z > c pour une certaine valeur critique c. Nous allons à présent fixer c pour avoir un niveau égal à 0.05, c est-à-dire de façon à ce que P 0 (rejeter H 0 ) = P 0 ( Z > c) = 0.05. Sous H 0 (i.e. si H 0 est vraie) Z a une distribution N (0, 1) et donc le but ci-dessus est atteint en fixant c = z 1 0.05/2 = z 0.975 = 1.96, où z 0.975 est le quantile d ordre 0.975 de la distribution normale standard. 14
On a la situation suivante pour la distribution de Z sous H 0 : ϕ P 0 ( Z >c) = 5 % c = 1.96 0 c = 1.96 Que vaut z, la valeur observée de Z sur l échantillon? On a z = ˆµ µ 0 ˆσ/ n = 7 5 20.3/ 30 = 2.43 Comme z > c, on rejette H 0. On dit alors que la taille moyenne des poissons du lac est significativement supérieure à 5 cm. Le domaine [, c] [c, ] est appelé le domaine de rejet de l hypothèse nulle. 15
En résumé Hypothèses H 0 : µ = µ 0 = 5 cm H 1 : µ µ 0 Statistique de test: distance entre H 0 et les observations Echantillon Z = ˆµ µ 0 ˆσ/ n 30 poissons Règle de décision Rejeter H 0 si z > z 1 α/2, où α est le niveau du test (dans notre exemple, α = 0.05). 16
3. P-value Reprenons l exemple des poissons du lac. Quelle est la probabilité, sous H 0, d obtenir un résultat aussi extrême ou plus extrême que le résultat observé? ϕ P 0 ( Z >c) = 5 % c = 1.96 0 c = 1.96 La valeur observée de la statistique de test est z = 2.43 Un résultat aussi ou plus extrême serait z 2.43. La probabilité correspondante est P ( Z 2.43) = 1.5%. Cette probabilité s appelle la P-value. 17
3. P-value Reprenons l exemple des poissons du lac. Quelle est la probabilité, sous H 0, d obtenir un résultat aussi extrême ou plus extrême que le résultat observé? ϕ P 0 ( Z >c) = 5 % z = 2.43 c = 1.96 0 c = 1.96 z = 2.43 La valeur observée de la statistique de test est z = 2.43. Un résultat aussi ou plus extrême serait z 2.43. La probabilité correspondante est P ( Z 2.43) = 1.5%. Cette probabilité s appelle la P-value. 18
3. P-value Reprenons l exemple des poissons du lac. Quelle est la probabilité, sous H 0, d obtenir un résultat aussi extrême ou plus extrême que le résultat observé? ϕ P 0 ( Z >c) = 5 % z = 2.43 c = 1.96 0 c = 1.96 z = 2.43 La valeur observée de la statistique de test est z = 2.43. Un résultat aussi ou plus extrême serait z 2.43. La probabilité correspondante est P ( Z 2.43) = 1.5%. Cette probabilité s appelle la P-value. 19
3. P-value Reprenons l exemple des poissons du lac. Quelle est la probabilité, sous H 0, d obtenir un résultat aussi extrême ou plus extrême que le résultat observé? ϕ P 0 ( Z >c) = 5 % P value = 1.5 % z = 2.43 c = 1.96 0 c = 1.96 z = 2.43 La valeur observée de la statistique de test est z = 2.43. Un résultat aussi ou plus extrême serait z 2.43. La probabilité correspondante est P ( Z 2.43) = 1.5%. Cette probabilité s appelle la P-value. 20
Définition générale de la P-value: Dans une procédure de test statistique, la P-value est la probabilité sous H 0 que la statistique de test prenne une valeur aussi extrême ou plus extrême que la valeur observée sur l échantillon. A la lumière des considérations des pages précédentes, on voit qu on peut formuler la règle de décision de façon tout à fait équivalente de la façon suivante: Rejeter H 0 si la P-value est inférieure au niveau α du test. Cette équivalence est tout à fait générale, et applicable à toute procédure de test: Soit α le niveau d un test et z la valeur observée de la statistique de test, alors P-value α z domaine de rejet de H 0. On pourrait donc mener une procédure de test sans définir de domaine de rejet de H 0, simplement en calculant la P-value. Cependant, la définition du domaine de rejet est nécessaire pour le calcul de la probabilité d erreur de deuxième espèce, et donc pour les calculs de puissance d un test. 21
De plus, il est utile d avoir en tête la valeur de z 0.975, le quantile d ordre 97.5% de la distribution normale standard, qui est la limite du domaine de rejet de H 0 dans l exemple des poissons. En effet, dans de nombreuses procédures de test la statistique de test a approximativement une distribution normale standard. Ainsi, en retenant que z 0.975 = 1.96 2, on peut avoir immédiatement une idée du résultat d un test de niveau 5% dès qu on connaît la valeur observée z de la statistique de test: si z dépasse largement 2 en valeur absolue, H 0 sera rejetée. En outre, cette valeur permet souvent de contruire facilement, de tête, des intervalles de confiance, concept que nous introduisons à la page suivante. 22
4. Intervalle de confiance Reprenons l exemple des poissons. Nous avons vu que la variable ˆµ µ ˆσ/ n, où µ est la vraie taille moyenne des poissons dans la population, avait approximativement une distribution N (0, 1) en vertu du théorème central limite. Ceci implique que P ( z 0.975 ˆµ µ ˆσ/ n z 0.975 ) 0.95. (Faire un dessin pour s en convaincre.) A partir de l équation ci-dessus, en manipulant l intérieur de la parenthèse de façon à ce que µ se retrouve au milieu, on obtient P ( ˆµ z 0.975 ˆσ n µ ˆµ + z 0.975 ˆσ n ) 0.95. 23
En effet, on a que z 0.975 ˆµ µ ˆσ/ n z 0.975 z 0.975 ˆσ n ˆµ µ z 0.975 ˆσ n ˆµ z 0.975 ˆσ n µ ˆµ + z 0.975 ˆσ n ˆµ + z 0.975 ˆσ n µ ˆµ z 0.975 ˆσ n ˆµ z 0.975 ˆσ n µ ˆµ + z 0.975 ˆσ n 24
Reprenons le résultat que P ( ˆµ z 0.975 ˆσ n µ ˆµ + z 0.975 ˆσ n ) 0.95 et considérons l intervalle IC = [ ˆµ z 0.975 ˆσ n, ˆµ + z 0.975 ˆσ n ]. Il s agit d un intervalle aléatoire: il dépend des variables aléatoires ˆµ et ˆσ. La probabilité que la vraie taille moyenne µ se trouve dans cet intervalle est de 95%. Il faut comprendre cela de la façon suivante: si on tirait un grand nombre d échantillons de la population et qu on calculait à chaque fois l intervalle IC, alors 95% en moyenne de ces intervalles contiendraient la vraie valeur µ. L intervalle IC s appelle un intervalle de confiance à 95% pour le paramètre µ. 25
Dans notre exemple des poissons, on obtient IC = = [ [ ] ˆσ ˆσ ˆµ z 0.975 n, ˆµ + z 0.975 n 7 1.96 = [5.39, 8.61] ] 20.3 20.3, 7 + 1.96 30 30 On interprète cet intervalle comme un ensemble de valeurs plausibles pour la vraie valeur de la taille moyenne des poissons dans la population. Un IC fournit donc une idée de la précision avec laquelle un échantillon permet d estimer un paramètre: plus l intervalle est étroit, plus la précision est grande. On voit que cette précision dépend de la variabilité des données, estimée par ˆσ: plus la variabilité est grande, plus la précision est faible de la taille de l échantillon n: plus n est grand, plus la précision est élvée 26
La largeur d un intervalle de confiance dépend encore du degré de confiance que l on souhaite avoir. Dans ce qui précède, nous avons défini un intervalle de confiance à 95%. En suivant la même logique, on peut définir un intervalle de confiance à 99% comme IC = [ ˆµ z 0.995 ˆσ n, ˆµ + z 0.995 ˆσ n ]. Avec un tel intervalle, on aurait la propriété suivante: si on tirait un grand nombre d échantillons de la population et qu on calculait à chaque fois l intervalle IC, alors 99% en moyenne de ces intervalles contiendraient la vraie valeur µ. Cet intervalle sera donc évidemment plus large que l intervalle de confiance à 95%. On obtient en effet, en insérant z 0.995 = 2.58 dans l équation ci-dessus, l intervalle qui est plus large que le précédent. IC = [4.88, 9.12], 27
NB: l intervalle de confiance que nous venons de définir est basé sur une approximation valable pour des tailles d échantillon suffisamment grandes (théorème central limite). La taille d échantillon à partir de laquelle l intervalle peut-être considéré comme valide, i.e. à partir laquelle la probabilité que l intervalle à 95% contienne la vraie valeur est vraiment de 95%, dépend de la distribution des données. 28
Considérons encore l intervalle de confiance à 95% IC = [ ] ˆσ ˆσ ˆµ z 0.975 n, ˆµ + z 0.975 n et remarquons (ou souvenons-nous) que sd(ˆµ), l écart-type de l estimateur ˆµ est égal à σ n, ce que l on peut estimer par ŝd(ˆµ) = ˆσ n. z 0.975 = 1.96 2. On obtient alors que l intervalle de confiance à 95% pour ˆµ est environ égal à IC = [ˆµ 2 ŝd(ˆµ), ˆµ + 2 ŝd(ˆµ) ]. Cette dernière formule est assez générale et s applique à n importe quel estimateur asymptotiquement normal, i.e. dont la distribution s approche de plus en plus d une distribution normale lorsque la taille de l échantillon devient grande, comme c est le cas pour la moyenne arithmétique ˆµ. Comme la plupart des estimateurs utilisés en statistique ont cette propriété, cette méthode peut presque toujours être utilisée. Elle s appelle la méthode de Wald, et l intervalle de confiance obtenu est appelé un intervalle de confiance de Wald. On voit donc que, comme annoncé, la connaissance de la valeur de z 0.975 permet de calculer de tête un intervalle de confiance lorsqu on connaît l écart-type d un estimateur. 29
De façon plus générale, l intervalle de confiance de Wald de niveau de couverture 1 α pour un estimateur ˆθ d un paramètre θ est donné par IC = [ ˆθ z 1 α ŝd(ˆθ), 2 ] ˆθ + z 1 α ŝd(ˆθ). 2 Ce n est pas par hasard que l on parle de niveau de couverture 1 α, en utilisant la même notation α que pour le niveau d un test. Il y a en effet une relation directe entre un intervalle de confiance et un test statistique: L intervalle de confiance au niveau de couverture 1 α pour un paramètre θ contient toutes les valeurs qui ne sont pas rejetées par un test de niveau α. 30
Pour s en convaincre, il suffit de considérer à nouveau la relation dont on est parti pour définir l intervalle de confiance: P ( z 1 α 2 ˆµ µ ˆσ/ n z 1 α 2 ) 1 α. (1) On avait défini l IC en manipulant l intérieur de la parenthèse pour trouver quelles valeurs de µ satisfont cette équation. Mais en se souvenant que Z = ˆµ µ 0 ˆσ/ n est notre statistique de test pour tester H 0 : µ = µ 0 et que la règle de décision pour un test au niveau α est de rejeter H 0 si z > z 1 α 2, on voit que les valeurs de µ qui satisfont (1) sont bien celles qui ne sont pas rejetées par le test. Ce lien renforce l idée qu un intervalle de confiance contient un ensmble de valeurs plausibles pour un paramètre, étant donné un échantillon. 31
Le lien entre intervalle de confiance et test statistique implique qu un intervalle de confiance donne le résultat du test statistique correspondant pour n importe quelle valeur µ 0 du paramètre sous H 0. En effet, si µ 0 est à l intérieur de l IC, H 0 : µ = µ 0 n est pas rejetée; si µ 0 est à l extérieur de l IC, H 0 : µ = µ 0 est rejetée. Dans ce qui précède, nous avons calculé les IC à 95% et à 99% pour la taille moyenne des poissons du lac. Nous avons obtenu IC à 95%: [5.39, 8.61] IC à 99%: [4.88, 9.12] Le premier résultat est en accord avec le fait qu au début de cet exemple nous avions rejeté l hypothèse H 0 : µ = 5 avec un test au niveau 5% (p. 15). Le deuxième résultat implique qu un test au niveau 1% ne rejetterait pas H 0 : µ = 5, puisque 5 est à l intérieur de l IC à 99%. En fait, nous le savions déjà, puisque nous avons calculé la P-value de ce test et avons trouvé la valeur de 1.5% (p. 20). Comme 1.5% > 1%, le test au niveau 1% ne rejette pas H 0. 32
Commentaire à propos de l intervalle de confiance de et de la P-value: En règle générale un intervalle de confiance est plus informatif qu une P-value. En effet, un intervalle de confiance donne une idée de la valeur du paramètre d intérêt ce que ne fournit pas la P-value. De plus, la P-value dépend beaucoup de la taille de l échantillon. On peut rejeter à peu près n importe quelle hypothèse nulle en prenant un échatillon suffisammenent grand, mais l importance du résultat peut-être très faible au niveau pratique. Pour reprendre l exemple des poissons, imaginons qu on ait tiré un échantillon de 1 000 000 de poissons et trouvé l estimation ˆµ = 5.01 cm, avec la même variabilité que précédemment, i.e. ˆσ 2 = 20.3 cm 2. La P-value correspondante pour tester H 0 : µ = 5 cm est P ( Z ˆµ 5 ˆσ/ n ) = P ( Z 2.22) = 0.03 et on en déduit que la taille moyenne des poissons du lac est significativement supérieure à 5 cm. Va-t-on pour autant changer de filet? 33
L intervalle de confiance à 95% est ici de IC = [ ˆµ 1.96 ˆσ n, ˆµ + 1.96 ˆσ n ] = [5.001, 5.02]. On voit donc que la différence avec 5 cm, quoique significative, est infime, et ne justifie aucune action en conséquence. Dans la recherche biomédicale, on a parfois tendance à accorder trop d importance à la P-value, sans considérer l importance pratique du résultat. 34
5. Test bilatéral et test unilatéral Nous avons vu que classiquement on définit les hypothèses d un test statistique sur la valeur d un paramètre de population θ comme H 0 : θ = θ 0 et H 1 : θ θ 0. On remarque qu on peut formuler H 1 comme Le test correspondant est dit bilatéral. H 1 : [ θ < θ 0 ou θ > θ 0 ]. Parfois, il peut arriver que l une des deux parties de l hypothèse alternative ci-dessus soit impossible, ou ne nous intéresse absolument pas. On pourra alors mener une procédure de test unilatéral en posant par exemple H 1 : θ > θ 0. Le test est mené de façon similaire à un test bilatéral. La statistique de test est la même, mais la règle de décision sera différente: dans le cas ci-dessus, on ne rejettera H 0 que pour des grandes valeurs positives de la statistique de test. Pour un test au niveau α, la règle sera donc: Rejeter H 0 si z > z 1 α. De façon analogue, dans un test de H 0 contre H 1 : θ < θ 0, on rejettera H 0 si z < z 1 α. 35
L avantage de faire un test unilatéral est qu on augmente la probabilité de détecter l hypothèse alternative si elle est vraie, i.e. on augmente la puissance du test. Dans l exemple des poissons, si par exemple seule la situation où la taille moyenne µ est supérieure à 5 cm est intéressante (par exemple, il ne faut changer de filet que si les poissons ont grandi, pas s ils sont devenus plus petits), on peut mener le test unilatéral H 0 : µ = 5 cm contre H 1 : µ > 5 cm. Au niveau 1%, on rejettera H 0 si z > z 0.99 = 2.33. On a vu plus haut que z, la valeur observée de la statistique de test est ici égale à 2.43 (p. 15), et le test au niveau 1% rejette donc H 0. Rappelons-nous que le test bilatéral à 1% ne rejette pas H 0. En renonçant à détecter une moyenne inférieure à 5 cm, on a donc augmenté la puissance de notre test et on a pu montrer que la taille moyenne des poissons est significativement supérieure à 5 cm au niveau 1%. 36
La situation est la suivante: ϕ P 0 (Z>cu) = 1 % P value = 0.75 % 0 cu=2.33 cb=2.58 z=2.43 Dans ce graphique apparaissent cu = z 0.99 = 2.33, la valeur critique pour le test unilatéral à 1% cb = z 0.995 = 2.58, la valeur critique pour le test bilatéral à 1% z = 2.43, la valeur observée de la statistique de test N.B.: Dans un test unilatéral, la P-value est divisée par deux par rapport à un test bilatéral, car on ne considère qu un seul côté. 37
Nous avons vu que le test unilatéral se distingue du test bilatéral par le fait qu on ne considère qu un côté pour l hypothèse alternative. Cela se traduit par un changement au niveau du domaine de rejet de l hypothèse nulle: Test bilatéral (H 1 : µ µ 0 ): Rejeter H 0 si z < z 1 α 2 ou z > z 1 α 2 Test unilatéral à gauche (H 1 : µ < µ 0 ): Rejeter H 0 si z < z 1 α Test unilatéral à droite (H 1 : µ > µ 0 ): Rejeter H 0 si z > z 1 α Par contre, les intervalles de confiance que nous avons vus sont tous de type bilatéral. On peut définir des intervalles de confiance unilatéraux; ils sont caractérisés par le fait qu une des bornes est égale à ou. En particulier, on n obtient pas un IC unilatéral en remplaçant z 1 α 2 par z 1 α dans la formule correspondante. (On obtient alors un IC bilatéral de niveau de couverture 1 2α). Les IC unilatéraux sont plus rares dans la pratique et ne seront pas abordés dans ce cours. 38