Tests statistiques M1 IMSV Etienne Birmelé
I. TESTS STATISTIQUES :PRINCIPE
Test Definition Un test statistique est une procédure de décision entre deux hypothèses concernant un ou plusieurs échantillons. Exemple : On considère deux séries de personnes soumises les unes à un médicament, les autres à un placebo. On mesure les tensions artérielles dans les deux groupes. Au vu des résultats, le médicament a-t-il un effet sur la tension?
Hypothèses Définition L hypothèse nulle notée H 0 est celle que l on considère vraie à priori. Le but du test est de décider si cet à priori est crédible. L hypothèse alternative notée H 1 est l hypothèse complémentaire de H 0. Exemple : Sous H 0, le médicament n a pas d influence, sous H 1 il en a une.
Hypothèses Définition L hypothèse nulle notée H 0 est celle que l on considère vraie à priori. Le but du test est de décider si cet à priori est crédible. L hypothèse alternative notée H 1 est l hypothèse complémentaire de H 0. Exemple : Sous H 0, le médicament n a pas d influence, sous H 1 il en a une. Attention Les deux hypothèses ne sont pas symétriques. H 1 est choisie uniquement par défaut si H 0 n est pas considérée comme crédible. Le choix de H 0 et de H 1 est en général imposé par le test qu on utilise et ne relève donc pas de l utilisateur.
Ecriture des hypothèses Soit µ 1 et µ 2 les moyennes de tension des deux populations correspondant à la prise de médicament ou de placebo. Une manière de démontrer que le médicament modifie la tension est de montrer que µ 2 est différent de µ 1. Les hypothèses deviennent alors { H 0 : les moyennes des deux populations sont égales } et { H 0 : les moyennes des deux populations sont différentes }. On l écrit succintement sous la forme : H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2
Ecriture des hypothèses Question 1 La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de la tension dans le second groupe est de 12,8. Le médicament est-il efficace?
Ecriture des hypothèses Question 1 La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de la tension dans le second groupe est de 12,8. Le médicament est-il efficace? Question 2 (pour ceux qui ont répondu oui) Je lance six fois un dé, puis fais 50 pompes, puis relance six fois un dé. Ma première série de lancers vaut en moyenne 3,1. La seconde série vaut en moyenne 3,7. Les pompes m ont-elles rendues meilleur au lancer de dé?
Ecriture des hypothèses Question 1 La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de la tension dans le second groupe est de 12,8. Le médicament est-il efficace? Question 2 (pour ceux qui ont répondu oui) Je lance six fois un dé, puis fais 50 pompes, puis relance six fois un dé. Ma première série de lancers vaut en moyenne 3,1. La seconde série vaut en moyenne 3,7. Les pompes m ont-elles rendues meilleur au lancer de dé? Réponse On n en sait rien à ce stade!
Ecriture des hypothèses Attention Les moyennes x 1 et x 2 des échantillons résultent d échantillonnages, et ne sont donc que des estimations de µ 1 et µ 2. Ce n est pas parce qu elles sont différentes que µ 1 et µ 2 le sont (et vice-versa, mais c est rare!). Comparer les moyennes des échantillons ne peut en aucun cas suffire!
Ecriture des hypothèses Attention Les moyennes x 1 et x 2 des échantillons résultent d échantillonnages, et ne sont donc que des estimations de µ 1 et µ 2. Ce n est pas parce qu elles sont différentes que µ 1 et µ 2 le sont (et vice-versa, mais c est rare!). Comparer les moyennes des échantillons ne peut en aucun cas suffire! Les signes =,, > et dans l écriture succinte des hypothèses ne correspondent pas à l égalité ou aux inégalités au sens mathématique du terme. Il s agit d une façon d écrire : H 0 : Il est crédible de penser que µ 1 = µ 2 H 1 : µ 1 est significativement différent de µ 2
Statistique La statistique de test S est une fonction qui résume l information sur l échantillon qu on veut tester. On la choisit de façon à pouvoir calculer sa loi sous H 0. S est une variable aléatoire, définie indépendemment des données observées. La valeur que prend cette variable aléatoire pour les données observées sera appelée statistique observée et notée S obs dans la suite. Suivant le type de statistique choisi, le test sera paramétrique ou non-paramétrique.
Région de rejet - Latéralité Définition La région de rejet est le sous-ensemble I de R tel qu on rejette H 0 si S obs appartient à I. Définir une procédure de test peut donc se faire en définissant 1. une statistique 2. une région de rejet pour cette statistique Exemple : Les test médicaux figurant sur une prise de sang, comme le taux de fer. H 0 : H 1 : La ferritine est entre 20 et 300µg/L La ferritine est trop haute ou trop basse
Région de rejet - Latéralité Définition La région de rejet est le sous-ensemble I de R tel qu on rejette H 0 si S obs appartient à I. La forme de la région de rejet définit la latéralité du test : test multilatéral : On veut rejetter H 0 si S obs est trop grand ou trop petit, sans à priori. La région de rejet est alors de la forme ], a] [b, + [. test unilatéral à droite : On veut rejetter H 0 seulement si S obs est trop grand. La région de rejet est alors de la forme [a, + [. test unilatéral à gauche : On veut rejetter H 0 seulement si S obs est trop petit. La région de rejet est alors de la forme ], b].
Exemples On considère toujours des médicaments réduisant la tension artérielle. Quelles sont les hypothèses pour répondre aux questions suivantes? Comparaison entre deux médicaments en vente Intérêt d un nouveau médicament plus cher que l existant. Intérêt d un nouveau médicament moins cher que l existant.
Exemples On considère toujours des médicaments réduisant la tension artérielle. Comparaison entre deux médicaments en vente H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 Intérêt d un nouveau médicament plus cher que l existant. H 0 : H 1 : µ new µ old µ new < µ old Intérêt d un nouveau médicament moins cher que l existant. H 0 : H 1 : µ new µ old µ new > µ old
Probabilité critique Définition La probabilité critique (ou p-valeur) est la probabilité, sous H 0, que la statistique soit au moins aussi éloignée de son espérance que la valeur observée. En d autres termes, c est la probabilité d observer quelque chose d au moins aussi surprenant que ce que l on observe. Si le test est unilatéral à droite, la probabilité critique est P(S > S obs ). S obs
Probabilité critique Définition La probabilité critique (ou p-valeur) est la probabilité, sous H 0, que la statistique soit au moins aussi éloignée de son espérance que la valeur observée. En d autres termes, c est la probabilité d observer quelque chose d au moins aussi surprenant que ce que l on observe. Si le test est unilatéral à gauche, la probabilité critique est P(S < S obs ). S obs
Probabilité critique Définition La probabilité critique (ou p-valeur) est la probabilité, sous H 0, que la statistique soit au moins aussi éloignée de son espérance que la valeur observée. En d autres termes, c est la probabilité d observer quelque chose d au moins aussi surprenant que ce que l on observe. Si le test est bilatéral et que la loi de la statistique est symétrique par rapport à 0, la probabilité critique est P( S > S obs ). S obs
Risque de première espèce ou confiance Définition Le risque de première espèce α est la probabilité sous H 0 de la région de rejet. En d autres termes, il s agit de la proabilité avec laquelle on accepte de décider H 1 si la vérité est H 0. α = P H0 (H 1) La quantité 1 α est la confiance du test. En d autres termes, une proportion α des situations dans lesquelles la vérité est H 0 verront une décision en faveur de H 1. α est la probabilité avec laquelle on accepte de se tromper quand la vérité est H 0
Autre manière de mener le test On peut comparer la p-valeur à α plutôt que S obs et la région de rejet. si la p-valeur est supérieure à α, il n est pas exceptionnel sous H 0 d observer la valeur effectivement observée. Par conséquent, H 0 est acceptée. si la p-valeur est inférieure à α, la valeur observée est jugée exceptionnelle sous H 0. On décide alors de rejeter H 0 et de valider H 1. Acceptation 5% S obs Seuil
Autre manière de mener le test On peut comparer la p-valeur à α plutôt que S obs et la région de rejet. si la p-valeur est supérieure à α, il n est pas exceptionnel sous H 0 d observer la valeur effectivement observée. Par conséquent, H 0 est acceptée. si la p-valeur est inférieure à α, la valeur observée est jugée exceptionnelle sous H 0. On décide alors de rejeter H 0 et de valider H 1. Rejet 5% Seuil S obs
Autre manière de mener le test On peut comparer la p-valeur à α plutôt que S obs et la région de rejet. si la p-valeur est supérieure à α, il n est pas exceptionnel sous H 0 d observer la valeur effectivement observée. Par conséquent, H 0 est acceptée. si la p-valeur est inférieure à α, la valeur observée est jugée exceptionnelle sous H 0. On décide alors de rejeter H 0 et de valider H 1. Avantage Cette méthode permet de se rendre compte à quel point on est sur de sa décision : la position de la p-valeur par rapport à α ne dépend pas de l échelle des données, contrairement à S obs et au(x) seuil(s) de la région de rejet. Exemple : Si on a fixé α = 0.05, une p-valeur de 3.10 4 est clairement un rejet, alors qu une p-valeur de 0.03 est un rejet de peu qu il faudra nuancer au moment de l interprétation.
Risque de première espèce ou confiance Hormis dans des cas de tests multiples non abordés dans ce cours, α varie généralement entre 0, 01 et 0, 05. Dans le cas de variables continues, on peut choisir une valeur arbitraire de α et obtenir une région de rejet présentant exactement le risque α. Dans le cas de variables discrètes, le nombre de régions de rejet, et donc de risques, possibles est fini ou dénombrable. Dans ce cas, on fixe un risque, dit risque nominal, par exemple de 5%. On cherche alors la plus grande région ne dépassant pas ce risque, qui devient la région de rejet. Le véritable risque, dit risque réel, peut alors être recalculé.
Risque de deuxième espèce ou puissance Définition Le risque de deuxième espèce β est la probabilité d accepter H 0 alors que la vérité est H 1. β = P H1 (H 0) La quantité 1 β est la puissance du test. Décision Vérité H 0 H 1 H 0 1-α β H 1 α 1-β
Choix de α et β H 0 H 1 β α S
Choix de α et β H 0 H 1 β α S Si l échantillon reste inchangé, une diminution de α entraîne une augmentation de β et inversement. Autrement dit, si on décide de réduire le nombre de faux positifs, on augmente forcément le nombre de faux négatifs. La seule manière d améliorer les deux critères est d augmenter la taille de l échantillon.
Courbe de puissance Pour déterminer la puissance, il faut connaître la lois de S sous H 1, ce qui n est généralement pas le cas. On recourt alors à des courbes de puissance qui sont des courbes pour laquelle la puissance est calculée pour des valeurs données des paramètres du problème ou de la taille de l échantillon. On ne sait pas où se situe la situation réelle sur cette courbe mais on y lit la probabilité de détecter H 1 en fonction de son éloignement de H 0. Exemple : Courbe de puissance d un test de Student bilatéral sur 100 individus en fonction de mu[2] mu[1] (en supposant que σ 1 = σ 2 = 1). 0.0 1.0 0.0 0.5 1.0 1.5
Principe du test Les étapes d un test sont toujours réalisées dans l ordre suivant : 1) Choix du risque α 2) Choix du type de test et de sa latéralité si besoin 3) Calcul de la statistique de test 4) Calcul de la p-valeur 5) Conclusion En pratique, l utilisation d un logiciel type R permet de ne pas se soucier des partie 3) et 4). Par contre, les choix liées aux étapes 1) et 2) ainsi que l interprétation finale ne peuvent être faits par le logiciel.
Remarques sur les tests Le résultat d un test comprend toujours une dose d incertitude : ON NE SAIT JAMAIS SI ON A BIEN PRIS LA BONNE DECISION! La probabilité critique permet d avoir une vision plus fine que sa simple comparaison avec α. En effet, plus elle est petite, plus l évènement observé est surprenant sous H 0. Ainsi, pour α = 0.5, des probabilités critiques de 10 6 et de 0.35 impliquent le rejet de H 0 mais avec des degrés de certitude différent concernant la décision.
Tests paramétriques et non paramétriques Définition : test paramétrique Un test paramétrique est un test pour lequel on fait une hypothèse sur la forme des données sous H 0 (normale, Poisson,...). Les hypothèses du test concernant alors les paramètres gouvernant cette loi. Exemple : On suppose que la tension sous médicament suit une loi N (µ 1, σ 1) et celle sous placebo suit une loi N (µ 2, σ 2). S = σ x1 x2 1 n + 1 m H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 où σ = La loi de S sous H 0 est connue (loi de Student) (n 1) ˆσ 1 2 + (m 1) ˆσ 2 2 n + m 2
Tests paramétriques et non paramétriques Définition : test non-paramétrique Un test non paramétrique est un test ne nécessitant pas d hypothèse sur la forme des données. Les données sont alors remplacées par des statistiques ne dépendant pas des moyennes/variances des données initiales (tables de contingence, statistique d ordre...). Exemple : on classe les tensions de tous les individus par ordre croissant et on regarde comment sont classés les personnes sont médicaments. On obtient par exemple M M P M M P M P P M P P S est alors la somme des rangs des individus sous médicaments. On peut déterminer sa loi sous H 0.
Tests paramétriques et non paramétriques Lequel choisir? Les tests paramétriques, quand leur utilisation est justifiée, sont en général plus puissants que les tests non-paramétriques. Les tests paramétriques reposent cependant sur l hypothèse forte que l échantillon considéré est tiré suivant une distribution appartenant à une famille donnée. Il est possible de s en affranchir pour des échantillons suffisament grands en utilisant des théorèmes asymptotiques tels le TCL. Lese tests non-paramétriques sont cependant à préférer dans de nombreux cas pratiques pour lesquels les tests paramétriques ne peuvent être utilisés sans violer les postulats dont ils dépendent (notamment les échantillons trop petits). Les données sont parfois récupérés sous forme de rangs et non de données brutes. Seuls les tests non-paramétriques sont alors applicables.
Tests paramétriques et non paramétriques Efficacité relative asymptotique On fixe une confiance 1 α, une puissance 1 β. Soit H k une suite d hyptohèses alternatives (se rapprochant de H 0) et n 1k et n 2k les tailles d échantillons nécessaires pour que T 1 et T 2 aient la puissance β sous l hypothèse H. Sous certaines conditions de régularité, le quotient n 2k n 1k tend vers une constante, l ARE, quand k tend vers l infini. Un ARE de 2 signifie que pour détecter la même différence, il faut asymptotiquement des échantillons deux fois plus grands pour T 2 que pour T 1 pour obtenir la même puissance, impliquant que T 1 est plus efficace. Cette mesure est asymptotique mais en pratique, l efficacité pour des petits échantillons se révèle souvent proche de l efficacité asymptotique. Considérons l exemple où T 1 est le test du signe pour H 0 : m = 0 et T 2 le test t pour H 0 : µ = 0, dans le cas de distributions symétriques. On peut montrer que l ARE est inférieure est de 2 < 1 pour des distributions normales mais π supérieure à 1 pour d autres ditributions comme les double exponentielle ou les distributions de Laplace. Même en cas de validité des tests paramétriques, les tests non-paramétriques peuvent donc être concurrentiels, d autant plus que la puissance de calcul des ordianteurs actuels permet maintenant leur utilisation sur de grands échantillons.
II. TESTS DE COMPARAISON DE MEDIANES
I.1 Un échantillon : Test de Student
Test paramétrique d égalité de la moyenne avec une valeur prédéfinie : Test de Student Données Un échantillon x = (x 1,..., x n), une valeur µ 0 Question La moyenne µ de la population dont x est issu est-elle significativement différente de µ 0. Postulat La loi de la population est une loi normale ou x est suffisamment grand pour appliquer le TCL.
Test paramétrique d égalité de la moyenne : Test de Student Formulation H 0 : µ = µ 0 H 1 : µ µ 0 Ce test peut être mené de manière unilatérale. Statistique La statistique de Student est définie par t = ˆµ µ0 ˆσ/ n Sous H 0, t suit une loi de Student à n 1 degrés de liberté. Sous R t.test en utilisant les paramètres de µ 0. x pour l échantillon et mu pour la valeur
I.2 Un échantillon : Test du signe
Test non-paramétrique d égalité de la médiane avec une valeur prédéfinie : Test du signe Données Un échantillon x = (x 1,..., x n), une valeur m 0 Question La médiane m de la population dont x est issu est-elle significativement différente de m 0. Postulat Aucun
Test du signe Formulation H 0 : m = m 0 H 1 : m m 0 Ce test peut être mené de manière unilatérale. Statistique On associe un signe + aux valeurs supérieures à m 0 et un signe aux valeurs inférieures à m 0, et on note N + le nombre de +. Sous H 0, chaque valeur de l échantillon a une probabilité 1 d être supérieure à 2 m 0. N + suit donc une loi binimiale B(n, 1 ). 2
Test du signe Cas d égalité Il est possible que certaines valeurs de l échantillon soient égales à m 0. Plusieurs stratégies sont possibles, les principales étant a) d ignorer ces valeurs ; b) de les affecter par tirage au sort équiprobable ; c) de leur affecter le signe minoritaire afin d obtenir un test conservatif. Approximation normale Pour les grands échantillons (n>30), on peut utiliser la statistique Z = N + 1 2 n 1 2 n qui suit une loi normale centrée réduite. Une correction de continuité peut s avérer nécessaire dans ce cas.
Exemple Le nombre d observations de sanglier par an et par poste d observation a une médiane de 50 lorsque la population est normale. L échantillon suivant représente les observations de l année. A-t-il une médiane significativement différente de 50? > betes <- c(29,12,62,64,43,21,35,89,8,32,47,61) On applique un test du signe bilatéral à un niveau de 5% : > Npos <- sum(betes>50) > Nneg <- sum(betes<50) H 0 : m = 50 H 1 : m 50 Sous H 0, N + B(12, 0.5) et cette loi est symétrique. La p-valeur vaut donc 2P(N + 4) > 2* pbinom(4,12,.5,lower.tail=true) [1] 0.3876953 On accepte H 0 : il n y pas de raison de penser que la population a un niveau anormal.
Exemple, suite On suppose maintenant que les données de cinquante postes d observations sont collectées et que 15 d entre eux ont donnée lieu à 50 observations ou plus. On applique toujours un test du signe bilatéral à un niveau de 5% : H 0 : m = 50 H 1 : m 50 Le nombre d observation nous permet de faire une approximation normale. > Zobs <- (15-25)/(sqrt(50)/2) > 2*pnorm(Zobs,0,1) [1] 0.004677735 Cette fois, on rejette H 0 à un niveau de 5% : la population souffre d une anomalie.
Variantes Test d équiprobabilité de deux évènements La procédure est exactement la même, un des évènements correspondant au signe, l autre au signe +.
Variantes Test d équiprobabilité de deux évènements La procédure est exactement la même, un des évènements correspondant au signe, l autre au signe +. Test d un quantile Soit q α le quantile d ordre α de l échantillon et q une valeur fixée. On peut généraliser le test du signe au problème H 0 : H 1 : q α = q q α q Il suffit pour cela d assigner un signe aux valeurs inférieures à q, un signe + aux valeurs supérieures à q et de considérer le nombre de signe qui suit sous H 0 une loi binomiale B(n, q).
Variantes Test du signe pour une tendance : test de Cox et Stuart Tendance à la hausse ou à la baisse dans un échantillon d observations indépendantes ordonnées? H 0 : H 1 : Pas de tendance Tendance significative Dans le cas d un échantillon pair n = 2m, les différences (x m+1 x 1,..., x 2m x m) sont calculées et leur signe est gardé en mémoire. Pour n = 2m + 1, on procède de même en éliminant la valeur x m+1. Sous H 0, le nombre de signes suit une loi B(m, 1 2. Test unilatéral : hausse (ou baisse) uniquement. Moins puissant que les tests liés au modèle linéaire, mais sans postulat d évolution linéaire.
I.3 Un échantillon : Test des rangs signés de Wilcoxon
Statistique du rang Definition : rang Soit X un vecteur aléatoire. Le rang R i de la variable X i est l ordre de cette dernière quand on réordonne X par ordre croissant. Exemple : X = (15, 6, 23, 17, 8), R = (3, 1, 5, 4, 2) sous R La fonction rank donne l échantillon des rangs La fonction order donne la place dans l échantillon du minimum, puis de la deuxième plus petite valeur,... > x <- c(15,6,23,17,8) > rank(x) [1] 3 1 5 4 2 > order(x) [1] 2 5 1 4 3 > x[order(x)] [1] 6 8 15 17 23
Cas absolument continu Si la loi des X i est absolument continue, la probabilité d avoir des ex-aequos est nulle. Proposition Pour tout k, 1 i 1 <... < i k n et 1 j 1 <... < j k = n), P ( (R i1,..., R ik ) = (j 1,..., j k ) ) = (n k)! n! Proposition E(R i) = n+1 et VarR 2 i = n2 1 12
Cas des ex-aequo Definition : rang avec ex-aequos Soit X un vecteur aléatoire dont les coordonnées sont iid. Soit t le nombre de variables prenant la même valeur que X i. L ordre R i de X i est la moyenne arithmétique des ordres des t variables concernées quand on réordonne X par ordre croissant. Exemple : Pour X = (9, 7, 5, 7, 4, 5, 5), R = (7, 5.5, 3, 5.5, 1, 3, 3).
Cas des ex-aequo Definition : rang avec ex-aequos Soit X un vecteur aléatoire dont les coordonnées sont iid. Soit t le nombre de variables prenant la même valeur que X i. L ordre R i de X i est la moyenne arithmétique des ordres des t variables concernées quand on réordonne X par ordre croissant. Exemple : Pour X = (9, 7, 5, 7, 4, 5, 5), R = (7, 5.5, 3, 5.5, 1, 3, 3). Soit t l le nombre de valeurs ayant le l ime rang (dans l exemple, t 1 = 1, t 2 = 3, t 3 = 2, t 4 = 1) et T = l t 2 l (t l 1). Proposition E(R i) = n+1 et VarR 2 i = n2 1 E(T ) 12 12n
Test des rangs signés de Wilcoxon Données Un échantillon x = (x 1,..., x n), une valeur m 0 Question La médiane m de la population dont x est issu est-elle significativement différente de m 0? Postulat Le test nécessite de faire l hypothèse d une distribution symétrique. Ce postulat implique que médiane et moyenne sont confondues.
Test des rangs signés de Wilcoxon Formulation H 0 : m = m 0 H 1 : m m 0 Ce test peut être mené de manière unilatérale. Sous R Fonction wilcox.test
Test des rangs signés de Wilcoxon Statistique On pose D = X m 0 puis on calcule les rangs R du vecteurs D = ( D 1,..., D n. Les statistiques d interêt sont alors S + = i,d i >0 S = i,d i <0 Ri. Ri et Exemple : Si X t = (1, 5, 10, 12, 0, 8) et m 0 = 7, D t = ( 6, 2, 3, 5, 7, 1) et R t = (5, 2, 3, 4, 6, 1). Une autre manière de l écrire est de réordonner D suivant les valeurs absolues croissantes, c est-à-dire 1, 2, 3, 5, 6, 7. On obtient donc S + = 1 + 3 + 4 = 8 et S = 2 + 5 + 6 = 13.
Test des rangs signés de Wilcoxon On a toujours S + + S = n(n+1) 2, s intéresser à l une des variables suffit donc. Le test s écrit alors (dans le cas bilatéral) Proposition H 0 : ES + = ES n(n + 1) = 4 H 1 : ES + n(n + 1) 4 Sous l hypothèse H 0 et en supposant que de X est absolument continue (pas d ex-aequos), VarS + = n(n + 1)(2n + 1) 24 où c kn est le coefficient de t k dans n k=1 (1 + t k ). et P(S + = k = c kn 2 n )
Approximation pour les grands échantillons Dans le cas de grands échantillons (n > 20), l utilisation du TCL permet d utiliser la statistique Z = S + n(n+1) 4 n(n+1)(2n+1) 24 dont la loi peut être approchée par une loi normale centrée réduite.
Cas des ex-aequos d le nombre de valeurs égales à m 0 t l introduits précédemment Pour des grands échantillons, l approximation normale peut alors être utilisée en remplaçant la variance par n(n + 1)(2n + 1) 24 d(d + 1)(2d + 1) 24 l t 3 l t l 48
Exemple (P. Sprent) Reprenons l exemple du nombre d animaux observés, un total de 35 postes ayant été pris en compte 21 17 43 81 32 102 7 43 39 11 67 23 142 117 44 39 82 93 28 145 0 17 77 53 50 60 9 14 40 19 101 104 33 2 22
Exemple (P. Sprent) L échantillon modifié devient 0 3 6 7 7 10 10 11 11 17 17 18 22 27 27 28 29 31 31 32 33 33 36 39 41 43 43 48 50 51 52 54 67 92 95 La statistique S + vaut alors 293, d = 1 et il y 7 paires d ex-aequo donc l tl 3 t l = 7 8 2. 48 48 La p-valeur est de 0.61. H 0 est accepté.
I.4 Tests paramétriques pour deux échantillons : Fisher-Snedecor et Student
Test d égalité des variances : test de Fisher Hypothèses On dispose de deux échantillons d écart-types respectifs ˆσ 1 et ˆσ 2. On se demande s il est raisonnable de penser que les deux échantillons ont été tirés suivant des lois de même écart-type ou si ils sont significativement différents. H 0 : σ 1 = σ 2 H 1 : σ 1 σ 2 Statistique σ 1 2 F = ˆ σˆ 2 2 suit une loi de Fisher F n1,n 2 sous H 0. Latéralité - Région de rejet Les trois options énoncées au chapitre précédent sont possibles : rejet unilatéral à droite, à gauche ou bilatéral. Sous R var.test
Comparaison de la moyenne de deux échantillons : t-test ou test de Student Hypothèses On dispose de deux échantillons de moyennes respectives µ 1 et µ 2 et d écart-type respectifs σ 1 et σ 2. On se demande s il est raisonnable de penser que les deux échantillons ont été tirés suivant des lois de même espérance ou si leurs moyennes sont significativement différentes. H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2
Comparaison de la moyenne de deux échantillons : t-test ou test de Student Statistique La valeur de la statistique peut prendre quatre expressions différentes suivants les critères suivants : appariement les échantillons sont appariés ou non. égalité des variances les variances sont significativement différentes (hétéroscédasticité) ou pas (homoscédasticité). Toutes ces statistiques reposent en fait sur le même principe qui est de dépendre essentiellement de la différence µ 1 µ 2, normalisée par une quantité permettant d obtenir une variable de loi de Student sous H 0. Par exemple, dans le cas d échantillons non appariés, de variance non significativement différentes, et de taille respectives n et m, t = σ µ1 µ2 1 n + 1 m où σ = (n 1) ˆσ 1 2 + (m 1) ˆσ 2 2 n + m 2
Comparaison de la moyenne de deux échantillons : t-test ou test de Student Latéralité - Région de rejet Les trois options énoncées au chapitre précédent sont possibles : rejet unilatéral à droite, à gauche ou bilatéral. Sous R t.test en utilisant les paramètres x et y pour les deux échantillons, alternative pour le latéralité, paired pour l appariement ou non des échantillons et var.equal pour l égalité des variances.
Exemple Pour n grand et p petit, la loi binômiale B(n, p) peut etre approximée par la loi de Poisson P(np). > x <- rbinom(100,100,.05) > y <- rpois(100,5) > var.test(x,y) F test to compare two variances data: x and y F = 1.1054, num df = 99, denom df = 99, p-value = 0.6192 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.7437349 1.6428291 sample estimates: ratio of variances 1.105364 >
Exemple Pour n grand et p petit, la loi binômiale B(n, p) peut etre approximée par la loi de Poisson P(np). > x <- rbinom(100,100,.05) > y <- rpois(100,5) > t.test(x,y,alternative="two.sided",paired=false,var.equal=true) Two Sample t-test data: x and y t = -0.51623, df = 198, p-value = 0.6063 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.7230104 0.4230104 sample estimates: mean of x mean of y 4.93 5.08
I.5 Test non-paramétrique pour deux échantillons : Test de Wilcoxon-Mann-Whitney
Appariement Deux échantillons x = (x 1,..., x n) et y = (y 1,..., y n) sont appariés si ils correspondent à des mesures prises sur les mêmes individus dans des conditions différentes. Tester l égalité de leurs médianes revient alors à considérer l échantillon des différences x y et à tester si la médiane de cet échantillon est bien nulle test du signe ou des rangs signés de Wilcoxon. On suppose par la suite que les deux échantillons sont non appariés.
Test de Wilcoxon-Mann-Whitney Données Deux échantillons x = (x 1,..., x n1 ) et y = (y 1,..., y n2 ). Question La médiane m 1 de la population dont x est issu est-elle significativement différente de la médiane m 2 de la population dont y est issu? Postulat Le test nécessite de faire l hypothèse que les distributions sont identiques à une translation près.
Test de Wilcoxon-Mann-Whitney Formulation H 0 : m 1 = m 2 H 1 : m 1 m 2 Ce test peut être mené de manière unilatérale. Sous R Fonction wilcox.test
Test de Wilcoxon-Mann-Whitney Statistique On ordonne l échantillon obtenu en concaténant les deux échantillons d interêt. On note S i la somme des rangs de l échantillon i. L idée est que sous H 0, S 1 et S 2 devraient être proche l un de l autre et de (n 1+n 2 )(n 1 +n 2 +1) 2. L approche de Wilcoxon considère S 1 ou S 2 comme statistique. Celle de Mann-Whitney considère l une des statistiques U i = S i n i (n i +1) 2. Les lois des S i et U i peuvent être calculées explicitement pour des n i petits et sont tabulées dans les logiciels de statistique.
Test de Wilcoxon-Mann-Whitney Exemple : x = (4, 6, 2), y = (1, 3, 8, 9) L appartenance aux échantillons dans l échantillon concaténé ordonné est (y, x, y, x, x, y, y). On a alors S x = 2 + 4 + 5 = 11 et U x = 11 3 4 2 = 5 U 1 peut être calculé en prenant chacune des valeurs de l échantillon 2 et en regardant combien de valeurs de l échantillon 1 lui sont supérieures, puis en sommant les résultats obtenus.
Approximation pour les grands échantillons Soit U = min(u 1, U 2). Pour n 1 et n 2 tous deux supérieurs à 20, il est raisonnable de considérer que Z = suit une loi normale centrée réduite. Cas d ex-aequos U + 1 2 1 2 n1n2 (n1 + n 2)(n 1 + n 2 + 1)/12 Les rangs des ex-aequos sont remplacés par leurs rangs moyens comme dans le chapitre précédent. Si le nombre d ex-aequos est très faible, ils peuvent être négligés. Sinon, il faut modifier l approximation pour les grands échantillons en retranchant au terme sous la racine du dénominateur la quantité (t 3 n 1n 2 l t l ) 12(n 1 + n 2)(n 1 + n 2 1)
Autre possibilité : généralisation du test du signe Soit m 0 la médiane de l échantillon concaténé. On dresse le tableau de variation Echantillon 1 Echantillon 2 > m 0 a 1 a 2 < m 0 n 1 a 1 n 2 a 2 et on applique un test d indépendance entre les variables Echantillon et Etre inférieur à m 0 (cf chapitres suivants). Avantage : pas de postulat Inconvénient : manque de puissance
I.6 Comparaison paramétrique de trois échantillons non appariés ou plus : ANOVA
ANOVA à un facteur Données k échantillons x 1 = (x 1,1,..., x 1,n1 ) et x k = (x k,1,..., x k,nk ). Question Les médianes µ 1,..., µ k des populations dont sont issues les échantillons sont-elles toutes égales? Postulat Les distributions sont normales de variances identiques.
ANOVA à un facteur Formulation H 0 : H 1 : µ 1 = µ 2 =... = µ k Au moins une moyenne diffère Sous R Fonction aov
ANOVA à un facteur Décomposition de la variance n p j (x ij x) 2 = j =1 i=1 p (x j x) 2 + j =1 n p j (x ij x j ) 2 (1) j =1 i=1 SCT = SCE + SCR (2) Carrés moyens : CMT = SCT SCE SCR, CME =, CMR =. n 1 p 1 n p Statistique F = CME. Souc H0, F suit une loi Fisher(p 1, n p). CMR
I.7 Comparaison non-paramétrique de trois échantillons non appariés ou plus : Test de Kruskal-Wallis
Test de Kruskal-Wallis Données k échantillons x 1 = (x 1,1,..., x 1,n1 ) et x k = (x k,1,..., x k,nk ). Question Les médianes m 1,..., m k des populations dont sont issues les échantillons sont-elles toutes égales? Postulat Les distributions sont identiques à des translations près.
Test de Kruskal-Wallis Formulation H 0 : H 1 : m 1 = m 2 =... = m k Au moins une médiane diffère Sous R Fonction kruskal.test
Test de Kruskal-Wallis Statistique x ij la j eme observation de l échantillon i et R ij son rang dans l union de tous les échantillons. n i la taille de l échantillon i et R i. = 1 i n i R ij. La statistique est F KW = = 12 n(n + 1) k i=1 12 n(n + 1) n i(r i. n + 1 ) 2 2 k i=1 R 2 i. n i 3(n + 1) F KW a une loi qui peut être calculée exactement pour les petits échantillons et qui suit asymptotiquement une loi du χ 2 à k 1 ddl pour de grands échantillons.
I.8 Comparaison de trois échantillons appariés ou plus : Test de Friedman
Test de Friedman Données k échantillons appariés x 1 = (x 1,1,..., x 1,n) et x k = (x k,1,..., x k,n ). Question Les médianes m 1,..., m k des populations dont sont issues les échantillons sont-elles toutes égales? Postulat Les distributions sont identiques à des translations près.
Test de Friedman Formulation H 0 : H 1 : m 1 = m 2 =... = m k Au moins une médiane diffère Sous R Fonction friedman.test
Test de Friedman Statistique X = ((x ij )) une matrice de taille k n contenant les observations. R ij le rang de x ij dans sa colonne, c est-à-dire parmi toutes les j eme observations. La statistique est S F = = 12n k(k + 1) 12 nk(k + 1) k (R i. k + 1 2 i=1 ) 2 k Ri. 2 3n(k + 1) i=1 S F a une loi qui peut être calculée exactement pour les petits échantillons et qui suit asymptotiquement une loi du χ 2 à k 1 ddl pour de grands échantillons.
III. COMPARER PLUSIEURS VARIABLES
Question On considère un couple de variables (X, Y ). Que peut-on dire de la façon dont X évolue suivant les valeurs de Y? Variable quantitative vs variable qualitative Cela revient à comparer les échantillons de valeurs de X correspondant aux différentes valeurs de Y. On utilise donc les tests du chapitre précédent pour comparer les moyennes/médianes.
III.3 Deux variables quantitatives : Tests de corrélation
Indépendance de deux variables qualitatives : test des coefficients de corrélation Corrélation de Pearson > x corr(x, y) = cov(x, y) s xs y [1] 0.78567941 0.05432453 0.89717001 0.91937463 0.22518722 0.73888938 [7] 0.76829641 0.36158277 0.31026795 0.40520112 > y [1] 0.079708449 0.726701520 0.006416492 0.704536224 0.227744839 0.32082 [7] 0.339496034 0.671403866 0.079917410 0.682257054 > z [1] 0.2384315 0.8917615 0.2553335 0.7994183 0.3156023 0.5391647 0.62856 [8] 0.7197179 0.2830458 0.9801462 > cor(x,y) [1] -0.3106941 > cor(y,z) [1] 0.9549087
Indépendance de deux variables qualitatives : test des coefficients de corrélation Corrélation des rangs de Spearman ρ = corr(r(x), r(y)) où r(x) désigne l échantillon des rangs tiré de x. > rank(x) [1] 8 1 9 10 2 6 7 4 3 5 > rank(y) [1] 2 10 1 9 4 5 6 7 3 8 > rank(z) [1] 1 9 2 8 4 5 6 7 3 10 > cor(x,y,method="spearman") [1] -0.2484848 > cor(y,z,method="spearman") [1] 0.9515152
> rank(x) [1] 8 1 9 10 2 6 7 4 3 5 > rank(y) [1] 2 10 1 9 4 5 6 7 3 8 > rank(z) [1] 1 9 2 8 4 5 6 7 3 10 > cor(x,y,method="kendall") [1] -0.2 > cor(y,z,method="kendall") [1] 0.8666667 Indépendance de deux variables qualitatives : test des coefficients de corrélation Corrélation des rangs de Kendall Soit n c le nombre de concordances, c est-à-dire de paires (x i, y i) et (x j, y j ) telles que x i < x j et y i < y j ; Soit n d le nombre de discordances, c est-à-dire de paires (x i, y i) et (x j, y j ) telles que x i < x j et y i > y j ; Le coefficient de Kendall est alors τ = nc n d n(n 1)/2
Indépendance de deux variables qualitatives : test des coefficients de corrélation Interprétation Ces trois coefficients sont compris entre 1 et 1 et valent 0 pour des variables indépendantes. Une valeur significativement positive indique une corrélation positive (Y augmente quand X augmente). Une valeur significativement négative indique une corrélation négative (Y augmente quand X augmente).
Indépendance de deux variables qualitatives : test des coefficients de corrélation Formulation H 0 : corr(x, y) = 0 ou ρ = 0 ou τ = 0 H 1 : corr(x, y) 0 ou ρ 0 ou τ 0 Latéralité Le test peut être mené de façon unilatérale pour ne détecter qu une corrélation positive ou qu une corrélation négative. Sous R cor.test
Principe des tests Test de Pearson Sous H 0, à condition que le couple (X, Y ) suive une loi normale bivariée ou que l effectif soit suffisamment important, suit une loi du χ 2 à n 2 ddl, S = corr(x, y) 1 corr(x,y) 2 n 2 Tests non paramtrique Les lois correspondantes sont tabulées.
Exemple 1 (P. Sprent) 7 déclinaisons d un même produit ont été évalués par des panels de consommateurs français et allemands. Les rangs obtenus pour les 7 produits sont les suivants. On se demande s il y a une concardance entre les classements. F 1 2 3 4 5 6 7 D 3 4 1 5 2 7 6 Spearman : ρ = 0.57, p-valeur de 0.2. Kendall : 15 concardances, 6 discordances, τ = 0.48, p-valeur de 0.43.
Exemple 2 Le tableau suivant donne le taux d ensoleillement (en heures/an) et de pluviométrie (en mm/an) en dix villes situés sur un axe nord-sud. Peut-on parler d une tendance monotone de croissance de l ensoleillement le long de cet axe? De diminution de la pluviométrie? Lille Amiens Paris Auxerre Dijon Lyon Orange Marseille Bastia A 1617 1608 1630 1710 1789 1932 2596 2851 2533 686 675 641 637 744 843 722 555 835 Les tests de corrélation peuvent être une alternative plus puissante au test de Cox-Stuart pour la détection de tendance. On peut par exemple caractériser chaque ville par sa latitude.
Plus de deux variables Kendall a introduit un coefficient de concordance si il y a plus de deux variables. Il n est cependant plus possible de faire la différence entre concordance et discordance, mais seulement entre homogénéité et hétérogénéité. Pour k variables et des échantillons de taille n avec R ij désignant le rang de l individu i pour la variable j, ce coefficient vaut W = avec R i = sum j R ij. 12 k 2 n(n 2 1) n (R i i=1 k(n + 1) ) 2 2 k(n 1)W correspond à la statistique de Friedman et suit donc une loi du χ 2 à n 1 degrés de liberté.
Plus de deux variables Tester l indépendance de plus de trois variables revient en fait à faire un test de Friedman en changeant les hypothèses : H 0 : H 1 : Les variables sont indépendantes = les rangs sont distribuées au hasard Les variables ne sont pas indépendantes = il y a concordance entre les rangs
Exemple X 1 X 2 X 3 X 4 2 13 1 12 4 9 3 8 7 6 4 4 8 6 6 5 12 2 9 1 La p-valeur de Friedman est de 0.97. H 0 est donc très claiement accepté : en effet, les sommes des rangs par ligne sont très proches. Pourtant, on peut voir que X 1, X 3 et X 2, X 4 sont concordantes et de rangs respectifs inverses (ou presque). Cette situation est indétectable par un test de concordance.
III.2 Deux variables qualitatives : Tests de Fisher et du χ 2 d indépendance
Table de contingence X et Y sont qualitatives : pas de coefficient de corrélation possible Leur valeurs sont regroupées en respectivement r et s ensembles. Le tableau à r lignes et s colonnes contenant les effectifs est appelé table de contingence. Les sommes par lignes et colonnes donnent les effectifs marginaux. La somme globale donne l effectif total. Exemple : Guérison Non-guérison Traitement 7 3 Placebo 3 6
Sommes marginales fixées : le test exact de Fisher Formulation H 0 : H 1 : X et Y sont indépendantes X et Y ne sont pas indépendantes Postulats Les sommes marginales sont fixées.
Sommes marginales fixées : le test exact de Fisher Procédure Considérons l exemple d une table 2 2 avec une répartition a b c d. Fisher a établi des formules d énumération du nombre de répartition possible des a + b + c + d éléments de façon à ce que les sommes par ligne valent bien a + b et c + d et les sommes par colonnes a + c et b + d. Sous une hypothèse d équiprobabilité de ces répartitions, la probabilité de la table de contingence précédente est (a + b)!(a + c)!(b + c)!(b + d)! (a + b + c + d)!a!b!c!d! Ces formules peuvent être étendues à des tailles de tables plus grandes et sont calculables de manière efficace algorithmiquement.
Sommes marginales libres : le test du χ 2 d indépendance ou χ 2 de Pearson Dans le cas de grands échantillons, il n est plus nécessaire de supposer les sommes marginales fixées. Formulation H 0 : H 1 : X et Y sont indépendantes X et Y ne sont pas indépendantes Postulats L échantillon est grand.
Sommes marginales libres : le test du χ 2 d indépendance ou χ 2 de Pearson Procédure On note n ij l entrée de la table dans la cellule i j, n i la somme des effectifs de la ligne i et n j la somme des efectifs de lacolonne j. Sous hypothèse d indépendance, P(X I i, Y J j ) = P(X I i)p(y J j ) ce qui se traduit, si on remplace les probabilités par leurs estimateurs, par une égalité attendue entre n ij et e ij = n i n j, où N est l effectif total. N La statistique T = i,j (n ij e ij ) 2 = e ij i,j n 2 ij e ij N suit une loi du χ 2 à (r 1)(s 1) degrés de liberté sous H 0.
Exemple Des cultures cellulaires de souches différentes sont soumises à des rayonnements radioactifs et la proportion de cellules mortes est relevée. A B C D ray. α 23 34 17 78 ray. β 58 64 56 86 ray. γ 45 37 43 79 temoin 04 06 02 03 valeur de la statistique de 23.6 nombre de degrés de liberté de 9 p-valeur de 4.9 10 3. Les souches réagissent différemment aux rayonnements.
Fisher ou χ 2? Asymptotiquement, ils sont équivalents en terme de puissance. Le test de Fisher est beaucoup plus couteux algorithmiquement : le test du χ 2 lui est généralement préféré, hormis dans le cas des tables 2 2 avec des effectifs assez réduits. Avoir des sommes marginales fixes (Fisher) est en général non conforme à l expérience. Dans un test médical Cas/Contrôles par exemple, le nombre de cas et de contrôles est fixé mais le nombre de patients répondant favorablement ne l est pas. Attention : la loi du χ 2 est une approximation, elle est donc d une validité douteuse quand les effectifs sont faibles.
IV. AUTRES TESTS
IV.1. Adéquation à une loi
Test du chi-deux d adéquation Formulation Soit (X 1,..., X n) un échantillon et F 0 une distribution donnée. On cherche à déterminer si l échantillon est tiré suivant F 0. Pour cela, on considère la fonction de répartition F n(t) = 1 n I Xi <t n i=1 H 0 : F n = F 0 H 1 : F n F 0 Postulats Pas de postulat particulier.
Test du chi-deux d adéquation Partition de l ensemble des valeurs possibles de X en un nombre fini d intervalles I 1,..., I k, I k = [a k 1, a k ]. Pour tout 1 i k : π i = F 0(a i) F 0(a i 1. Soit U i le nombre de mesures parmi n faisant partie de l intervale I i. U suit une loi multinomiale P(U 1 = m 1,..., U k = m k ) = n! m 1!... m k! πm 1 1... π m k k Pris séparément, chaque U i suit une loi binomiale B(n, π i). Pour n suffisamment grand, le TCL implique que U i nπ i nπi suit une loi normale centrée réduite.
Test du chi-deux d adéquation Statistique X 2 n = k (U i nπ i) 2 i=1 Sous H 0, pour n assez grand, Xn 2 suit une loi du chi-deux à (k 1) degrés de liberté, notée χ 2 (k 1). Si X n est proche de 0, les effectifs observés (U i) sont proches des effectifs attendus (nπ i) et H 0 est accepté. Si X n est élevé, il existe des intervalles pour lequel la différence entre l observation et l attendu est grande, et H 0 est rejetée. La p-valeur du test est pv = 1 F χ 2 (Xn 2 ). (k 1) Remarque ; Cette loi est définie comme celle suivie par la somme des carrés de k 1 lois normales centrées réduites. Le passage à k 1 alors qu il y a k termes dans la sommation vient du fait que les U i ne sont pas indépendants puisque U i = n. nπ i
Exemple On a mesuré le poids de 25 barils de lessive censés faire 1kg, on se demande si ils suivent une loi normale d écart-type 25g comme prévu. Les poids en grammes sont les suivants : X = (947, 965, 970, 976, 978, 980, 986, 989, 996, 996, 997, 999, 1000, 1002, 1003, 1006, 1008, 1008, 1010, 1013, 1018, 1023, 1025, 1027, 1030) On découpe R en intervalle I 1 =], 980], I 2 =]980, 1000], I 3 =]1000, 1020], I 4 =]1020, + [. Les probabilités associées sous H 0 sont π 1 = 0.21, π 2 = 0.28, π 3 = 0.21, π 4 = 0.28. Intervalle I 1 I 2 I 3 I 4 Attendu 5.3 7.2 7.2 5.3 Observe 6 7 8 4 La statistique associée vaut 4 et la p-valeur associée vaut 0.26 : H 0 est acceptée.
Remarques Si les intervalles sont choisis trop petits, les U i sont la plupart du temps égaux à 0 ou 1 et même pour n grand, l approximation asymptotique se révèle fausse. En pratique, on recommande de choisir les intervalles tels que nπ i 5. En fait, le test du chi-deux d adéquation teste la véracité de l hypothèse H 0 : π X i = π i, i où πi X est la probabilité sous la loi de X de tomber dans I i. C est donc une hypothèse moins forte que H 0 : il est possible que H 0 soit fausse mais que H 0 soit vraie. En décidant de rejeter H 0 si H 0 est fausse, on fait donc un choix conservatif. Dans le cas d une variable X qualitative, il est possible de mener ce test en ordonnant de façon arbitraire les valeurs possibles.
Autre exemple L équilibre de Hardy-Weinberg régit la répartition des allèles non-sexuels dans une population homogène avec union aléatoires et non-consanguines : si il est vérifié, P(AA) = p 2 A, P(Aa) = 2p A (1 p A ) et P(aa) = (1 p A ) 2 où p A est la fréquence de l allèle A dans la population. On veut tester si équilibre vrai avec p A = 0.2 et une population de taille n = 100. Genotype AA Aa aa Attendu 4 32 64 Observe 7 19 74 On obtient une statistique de χ 2 = (7 4)2 4 + (32 19)2 19 + (74 64)2 64 = 9.09 et une p-valeur de 0.01. L hypothèse H 0 est rejetée. Soit la fréquence de l allèle n est pas de 0.2, soit l équilibre de Hardy-Weinberg n est pas respecté.
Test de Kolmogorov-Smirnov Formulation Soit (X 1,..., X n) un échantillon et F 0 une distribution continue donnée. On cherche à déterminer si l échantillon est tiré suivant F 0. Pour cela, on considère la fonction de répartition n F n(t) = 1 n i=1 I Xi <t H 0 : F n = F 0 H 1 : F n F 0 Postulat La distribution candidate est continue.
Test de Kolmogorov-Smirnov Le principe est de choisir comme statistique une distance entre fonctions que l on applique à F n et F 0. Les choix possibles sont Kolmogorov-Smirnov Cramer-Von Mises Andersen-Darling ω 2 D n = sup t R F n(t) F 0(t) C n = (F n(t) F 0(t)) 2 df 0(t) A n = R R (F n(t) F 0(t)) 2 F 0(t)(1 F 0(t)) df0(t) Généralisation des 2 précédents. ωn 2 = (F n(t) F 0(t)) 2 ξ(f 0(t))dF 0(t) R avec ξ une fonction positive sur ]0, 1[. Les trois autres tests sont similaires à celui de Kolmogorov-Smirnov d un point de vue de l utilisation et de l interprétation mais techniquement plus compliqués.
Test de Kolmogorov-Smirnov Le maximum de la fonction F n F 0 est forcément pris sur l un des sauts de F n. Si X (i) correspond à la ieme valeur de l échantillon rangé par ordre croissant, déterminer la statistique D n revient donc à calculer i X n (i) et i 1 n X (i) pour tout i et à prendre le maximum de ces 2n valeurs. La loi sous H 0 de D n est calculée : exactement par des algorithmes pour n petit. par approximation asymptotique pour n grand : P( + nd n x) K (x) = 2 ( 1) k 1 e 2k 2 x 2 k=1 La p-valeur du test est donc obtenue par pv = 1 K ( nd n).
Test de Kolmogorov-Smirnov Les test de type Kolmogorov-Smirnov peut être rendu unilatéral : on teste si la distribution de l échantillon est globalement plus basse que la distribution de référence, auquel cas on s intéresse au fait que F n F 0 est positive et on choisit comme statistique max(f n(t) F 0(t)) ; ou à l inverse on teste si la distribution de l échantillon est globalement plus basse que la distribution de référence, auquel cas on s intéresse au fait que F n F 0 est négative et on choisit comme statistique max(f 0(t) F n(t)). Dans ce cas, K est remplacé par K définie par K (x) = 1 e x 2 l approximation asymptotique. dans
Exemple On a mesuré le poids de 20 barils de lessive censés faire 1kg, on se demande si suivent une loi normale d écart-type 25g comme prévu. Les poids en grammes sonts le suivants : X = (947, 965, 970, 976, 978, 986, 989, 996, 997, 1000, 1002, 1008, 1010, 1013, 1018, 1023, 1025, 1030) (3) On calcule D n, qui vaut 0.111. La p-valeur asymptotique est 1 K ( 200.111) = 0.97.
IV.2 Test d appartenance à une famille de lois
Test d appartenance à une famille de lois Le principe du test du χ 2 peut être généralisée pour tester l appartenance à une famille de loi, autrement dit savoir si F n appartient à une famille de fonctions de répartition F 0 = {F (x, θ) : θ Θ}. Le principe reste la même, y compris la statistique X 2 n (θ) = k i=1 (U i nπ i(θ)) 2 nπ i(θ) La seule différence étant qu il faut donner une valeur au paramètre θ à travers l utilisation d un estimateur ˆθ. Il y a plusieurs possibilités : 1. ˆθ = argminθ Θ X 2 n (θ) 2. ˆθ = k argminθ Θ i=1 dans ce cas. (U i nπ i (θ)) 2 U i. On parle de statistique du χ 2 modifié 3. ˆθ est l estimateur du maximum de vraisemblance pour la distribution multinomiale, c est-à-dire la valeur maximisant la log-vraisemblance l(θ) = k i=1 Ui ln πi(θ) + C.
Test d appartenance à une famille de lois Proposition Sous les conditions 1. 0 < π i(θ) < 1 pour tout i et tout θ ; 2. les π i(θ) sont de classe C 2 ; 3. la matrice des dérivées partielles [ dπ i (θ) θ j est de rang s ; ]1 i k,1 j s et pour chacun des estimateurs précédents, X 2 n (ˆθ) suit asymptotiquement une loi du χ 2 à k s 1 degrés de liberté. On peut donc appliquer le test du χ 2 comme précédemment, en otant autant de degrés de liberté que de dimensions dans Θ et en calculant la statistique à l aide d un des estimateurs cités plus haut.
Test de normalité : le test de Shapiro-Wilk On considère un vecteurx dont on se demande s il a été tiré suivant une loi normale. Droite de Henry Soit Φ la fonction de répartition de la loi normale centrée réduite. Si X N (µ, σ 2 ), P(X < x i) = Φ( xi µ ) σ En définissant t i = Φ 1 (P(X < x i), les points (x i, t i) devraient sont donc alignés si la loi est normale. Remarque : Cette méthode permet d estimer la moyenne et la variance de la loi si elle est bien normale.
Test de normalité : le test de Shapiro-Wilk Formulation H 0 : H 1 : La loi de l echantillon est normale La loi n est pas normale Principe Le test de Shapiro-Wilk consiste à considérer le rapport entre l estimation de la variance suivant la droite d Henry et l estimation de la variance par l estimateur habituel. W = ( n i=1 aixi)2 n i=1 (xi x)2 où les a i sont des constantes tabulées. Si la distribution est bien normale, ce rapport doit être proche de 1.
IV.3 Test du rapport de vraisemblance
Modèles emboîtés On considère deux modèles M 1 et M 2 pour décrire le même processus. M 1 est emboîté dans M 2 s il correspond à un cas particulier de M 2. Exemple : M 1 M 2 Y = α + βx + ɛ Y = α + βx + γz + δw + ɛ La question qui se pose est de savoir si la modèle M 2 décrit mieux les données que le modèle M 1
Test du rapport de vraisemblance Formulation H 0 : M 2 n apporte pas une meilleure description que M 1 H 1 : M 2 est significativement meilleur Principe On calcule les maximum des vraisemblances L 1 et L 2 correspondant aux deux modèles. Le second est forcément le plus grand car les modèles sont emboîtés. Soit p le nombre de paramètres introduits en plus dans le modèle M 2 (p = 2 dans l exemple). La statistique X = 2 log( L1 L 2 ) suit alors une loi du χ 2 à p degrés de liberté. Remarque : Ce test peut aussi s appliquer sur des modèles non emboîtés mais la loi de la statistique doit alors être déterminée en fonction des modèles en question.
V. BOOTSTRAP
V.1. Principe du bootstrap
Principe Problème On dispose d un échantillon qu on veut utiliser pour estimer un paramètre ou faire un test mais la loi sous-jacente n est pas connue. Exemple : L échantillon est trop petit pour utiliser un test paramétrique basé sur le TCL. Idée On va créer un ensemble d échantillons semblables à l échantillon de base, et qui vont servir de population de référence considérée comme représentative de la loi inconnue.
Distribution empirique Considérons une loi de distribution P et un échantillon X = (X 1,..., X n) de valeurs indépendantes tirées suivant cette loi. La distribution empirique liée à l échantillon est ˆP(x) = n I Xi (x) i=1 ˆP es la meilleur approximation de P en-dehors de toute hypothèse sur la forme de P Pour tout intervalle I, ˆP(I ) tend vers P(I ) quand n tend vers l infini, en raison de la loi des grands nombres appliquée à I A. Idée du bootstrap : approximer P par ˆP.
Echantillons bootstrap Définition Un échantillon bootstrap X (b) est un n-échantillon tiré suivant la distribution ˆP. En d autres termes, X (b) est obtenu en tirant n fois uniformément avec remise dans l échantillon X. Exemple : X = (2, 5, 6, 9, 3, 5) X (1) = (9, 5, 5, 6, 9, 2) X (2) = (5, 3, 5, 5, 2, 6)...
Vue d ensemble Monde réel Monde du bootstrap loi P échantillon X = (X 1,..., X n) statistique d intérêt ˆθ = s(x) loi ˆP échantillon X = (X 1,..., X n ) statistique d intérêt ˆθ = s(x )
Méthode de Monte-Carlo pour la probabilité d un évènement on approche P(ˆθ A) par P(ˆθ A) la loi de P(ˆθ n est pas forcément accessible on utilise la méthode de Monte-Carlo pour estimer P(ˆθ A) : 1. on tire B échantillons bootstrap et on détermine les statistiques θ (1),..., θ (B). 2. ˆP(ˆθ A) = 1 B n b=1 I A(θ (b) )
V.2 Application à la qualité d un estimateur
Application 1 : Estimation de l erreur standard Une estimation de l écart-type de la statistique d intérêt est (s(x b ) s ) 2 B 1 où B est le nombre d échantillons bootstrap, X b est le b eme échantillon et s = i s(x b ) B. Pas besoin d hypothèse de forme de loi Applicable à tout estimateur, par exemple à la médiane
> library(boot) > x <- c(52, 10, 40, 104, 50, 27, 146, 31, 46) > mean(x) [1] 56.22222 > bb <- boot(data = x, statistic = function(x, index) mean(x[index]), + R = 1000) > bb ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = x, statistic = function(x, index) mean(x[index]), R = 1000) Bootstrap Statistics : original bias std. error t1* 56.22222-0.3728889 13.03125
> plot(bb) Histogram of t Density 0.00 0.02 t* 40 80 20 60 3 0 3 t* Quantiles of Standard Nor
Application 2 : Estimation du biais On peut estimer le biais de l estimateur par s s(x) Une estimation corrigée du biais est donc 2s(X) s Attention : la variance de l estimateur corrigé du biais est plus grande. Si le biais est faible par rapport à l erreur standard, il n est pas nécessaire de le corriger. Si le biais est trop grand, l estimateur choisi n est peut-être pas pertinent.
Application 3 : Intervalle de confiance L échantillon (s(x 1 ),..., s(x B ) est un échantillon tiré suivant la loi empirique de X. On peut donc l utiliser pour construire un intervalle de confiance de niveau 1 α de l estimateur. Pour cela, on pose I = [a, b], avec a quantile d ordre α et b quantile d ordre 1 α dans l échantillon 2 2 bootstrap. a et b déterminés par la méthode BCa (convergence plus rapide vers le véritable intervalle de confiance mais temps de calcul plus long).
V.3 Application aux tests
Principe Considérons un test (paramétrique ou non paramétrique) de statistique s dont la loi sous H 0 ne peut être déterminée. Un test paramétrique pour lequel l échantillon n est pas assez grand en est un exemple. Le bootstrap peut être utilisé pour simuler la loi de s sous H 0 la p-valeur est alors la proportion de valeurs bootstrap de la statistique qui sont plus extrêmes que la valeur observée. Exemple : Pour un test unilatéral à droite, la p-valeur est #{b,s(x b )>s(x)} B. La difficulté est de bien choisir la manière d effectuer le bootstrap pour échantillonner suivant H 0.
Exemple : Indépendance de deux variables On considère deux variables X et Y testées sur les mêmes individus et on veut tester leur indépendance. On veut simuler des échantillons semblables sous H 0, c est-à-cire avec des échantillons indépendants : chaque couple d échantillons bootstrap est composé d un échantillon bootstrap X b et d un échantillon bootstrap Y b tirés indépedemment l un de l autre. On applique la statistique adaptée (chi-deux, corrélation,...) et on en déduit une p-valeur associée.
Exemple : Egalité de deux distributions On considère deux échantillons X et Y de tailles n X et n Y dont on veut tester l égalité des distributions. On définit l échantillon concaténé Z = (X, Y) dans lequel on tire des échantillons bootstrap Z b. On définit X b comme les n X premiers éléments de Z b et Y b comme les n Y derniers. On applique un test basé sur toute statistique de comparaison de deux vecteurs (égalité de moyenne, de variance,...).
Exemple : Comparaison de deux moyennes On considère deux échantillons X et Y et veut tester si leurs moyennes µ X et µ Y sont égales. On ne peut pas échantillonner X b dans X et Y b dans Y car on cherche à simuler sous H 0 et X et Y ont des moyennes différentes. On définit l échantillon concaténé Z = (X, Y), X = X X + Z et Y = Y Y + Z. On échantillonne (X b ) 1 i B à partir de X et (Y b ) 1 i B à partir de Y On calcule la statistique de Student pour les couples (X b, Y b ) et pour la statistique de Student observé et on en déduit une p-valeur.