UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire MATHS/STATS. 1 Généralités sur les tests statistiques 2

Transcription

1 UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire Master d économie Cours de M. Desgraupes MATHS/STATS Document 4 : Les tests statistiques 1 Généralités sur les tests statistiques 2 2 Conformité à une loi de probabilité Le test du χ Le test de Kolmogorov-Smirnov Tests à un échantillon Comparaison d une fréquence Comparaison d une moyenne Comparaison d une variance Tests à plusieurs échantillons Comparaison entre deux fréquences Comparaison entre deux moyennes Distribution normale Distribution quelconque Comparaison entre deux variances Comparaison entre deux coefficients de corrélation Annexe Table de Kolmogorov-Smirnov Table de Mann-Whitney

2 1 Généralités sur les tests statistiques La formulation d hypothèses et l évaluation de leur validité sont une branche importante des statistiques inférentielles. Afin de pouvoir décider entre plusieurs hypothèses possibles, on met en avant une hypothèse particulière que l on appelle l hypothèse nulle (notée H 0 ). L hypothèse alternative est notée H 1. En général H 1 est le contraire de H 0 mais il arrive que l hypothèse H 1 soit plus restrictive. Par exemple, si l hypothèse H 0 est l hypothèse H 1 pourrait être H 0 : a = b H 1 : a b H 1 : a < b H 1 : a > b Le résultat d un test est «rejeter H 0 (en faveur de H 1 )» ou bien «ne pas rejeter H 0». On ne conclut jamais par «rejeter H 1» et encore moins par «accepter H 1». Risques d erreur On dispose d une information insuffisante et la prise de décision implique un double risque d erreur : on peut décider que H 0 est fausse alors qu elle est vraie. C est le risque de première espèce, noté α. on peut décider que H 0 est vraie alors qu elle est fausse. C est le risque de deuxième espèce, noté β. Le risque α intéresse l utilisateur du test : pour lui H 0 est acceptée ou rejetée au risque α. Il est courant de fixer α = 0.05, parfois on descend à α = Le risque β intéresse le concepteur du test : pour lui, 1 β représente la puissance du test. Méthode Certains tests sont dits paramétriques : ce sont ceux qui supposent que les variables de décision utilisées ont une loi connue et qui ont besoin de connaître ou d estimer les paramètres de cette loi. Les autres tests sont dits non-paramétriques : ils s appliquent même si on ne connaît pas la loi de distribution des valeurs observées. En effet, ces tests n utilisent pas les valeurs elles-mêmes mais leur rang parmi toutes les valeurs ordonnées. Les tests de Mann-Whitney, de Kruskal-Wallis ou de Kolmogorov-Smirnov sont des exemples de tests non-paramétriques. Les tests paramétriques procèdent tous de la même manière : on dispose d une variable de décision X qui suit une loi théorique P connue lorsque l hypothèse H 0 est vraie. On détermine, grâce à cette loi théorique, une zone de rejet de probabilité α qui délimite les valeurs acceptables que peut prendre X. Si la valeur calculée pour la variable X se trouve dans la zone de rejet, on rejettera l hypothèse H 0 (avec un risque α de le faire à tort). 2

3 Cette zone est en deux parties pour un test bilatéral ou en une seule pour un test unilatéral. Tout dépend de la manière dont on a formulé l hypothèse alternative H 1. Par exemple, si on teste les effets d un vaccin avec l hypothèse H 0 : le vaccin n a pas d effet, on ne se contente pas en général d une hypothèse H 1 qui dirait le vaccin a de l effet car on souhaitera, en plus, que cet effet ne soit pas négatif et donc on exigera que la zone de rejet soit en un seul morceau. Échantillons On distingue deux types de tests : comparaison d une valeur observée et d une valeur théorique C est un test de conformité : l hypothèse H 0 suppose que les différences observées sont faibles et s expliquent par les hasards du tirage au sort. comparaison entre deux échantillons C est un test d homogénéïté : l hypothèse H 0 suppose que les échantillons proviennent d une même population et que les différences observées s expliquent par les fluctuations résultant de l échantillonage. Notion de p-valeur Les logiciels de calcul statistique expriment souvent le résultat d un test en fournissant une grandeur appelée p-valeur (en anglais p-value). Prenons l exemple d un test unilatéral. La zone de rejet est délimitée par la valeur u α telle que α = P (X u α ) Si on appelle x c la valeur calculée à partir des données de l échantillon du test pour la variable de décision X, on définit la p-valeur comme étant la probabilité que X x c, autrement dit p-value = P (X x c ) Si x c > u α, on voit à partir des deux définitions précédentes que p-value < α. Autrement dit, la règle de décision, en termes de p-valeur, stipule qu on rejette l hypothèse nulle H 0 dès que la p-valeur est inférieure au risque α choisi. On remarque que la p-valeur dépend des données de l échantillon testé (puisqu elle dépend de x c ) : exprimer le résultat du test au moyen de cette valeur permet de fournir une réponse indépendante du risque α et de conclure simplement en comparant ce risque à la p-valeur obtenue. La même p-valeur permet de conclure pour diverses valeurs de risques. 3

4 2 Conformité à une loi de probabilité 2.1 Le test du χ 2 C est un test permettant de comparer une loi de probabilité théorique avec une distribution expérimentale. L hypothèse nulle est : H 0 : il y a conformité de la distribution observée avec la distribution théorique Les données sont partitionnées en k classes. On appelle O i les effectifs observés pour chaque classe d événements, et C i les effectifs calculés. Sous cette hypothèse H 0, on montre que la variable aléatoire Y définie par Y = k (O i C i ) 2 i=1 suit une loi du χ 2 à ν = k 1 p degrés de liberté où p est le nombre de paramètres qu il faut estimer pour connaître la loi théorique. Pour que ce test soit valide, il faut que C i 5 pour tout i. On cherche, dans la table du χ 2, la valeur u α telle que P (Y u α ) = α, autrement dit P (Y u α ) = 1 α, c est-à-dire F (u α ) = 1 α si F est la fonction de répartition. Avec le logiciel R, on déterminerait u α au moyen de la fonction qchisq (qui est la fonction réciproque de la fonction de répartition), comme ceci (où n désigne le nombre de degrés de liberté) : > qchisq(0.95,n) La fonction chisq.test de R implémente le test du χ 2. L exemple qui suit en donne une illustration. Exemple On lance un dé 60 fois et on obtient les résultats suivants : C i Faces Effectifs Peut-on rejeter l hypothèse que le dé est truqué? Avec R, on exécute les deux instructions suivantes : > obs<-c(14, 7, 5, 11, 7, 16) > chisq.test(obs) Chi-squared test for given probabilities data: obs X-squared = 11.6, df = 5, p-value = Le problème a 5 degrés de liberté (df, degrees of freedom). La valeur calculée x c de la variable de décision est La p-valeur renvoyée par le test est On peut retrouver cette valeur directement à partir de la valeur calculée x c au moyen de la fonction de répartition pchisq : > 1-pchisq(11.6,5) 4

5 [1] On rejette l hypothèse H 0 (avec un risque 0.05 de le faire à tort) car < Une autre manière de le voir est de calculer la borne u α de la zone de rejet au moyen de la fonction quantile qchisq (réciproque de la fonction de répartition) : > qchisq(0.95,5) [1] On rejette l hypothèse H 0 car 11.6 > Le test de Kolmogorov-Smirnov Le test de Kolmogorov-Smirnov est aussi un test d ajustement mais il est fondé sur les fonctions de répartition. L hypothèse nulle est : H 0 : la loi P a la même fonction de répartition F qu une loi continue donnée L idée est que si l hypothèse nulle H 0 est correcte, la fonction de répartition empirique F de l échantillon doit être proche de F. La fonction de répartition empirique est définie par : F = 0 pour x < X 1 i n pour X i x < X i+1 1 pour x X n où les X i représentent les valeurs de l échantillon classées par ordre croissant (appellées traditionnellement des statistiques d ordre). F s interprète comme la proportion d éléments de l échantillon qui sont inférieurs ou égaux à x. On mesure l adéquation de la fonction F à la fonction F au moyen d une distance particulière dite de Kolmogorov-Smirnov, qui est la distance de la norme uniforme entre fonctions de répartition. Graphiquement, c est le plus grand écart vertical en valeur absolue entre la valeur empirique et la valeur théorique. Pour obtenir cette distance, on calcule la différence entre F et F aux points X i et on cherche le maximum selon la formule : D KS (F, F ) = max i=1,...,n { F (Xi ) i n, F (X i ) i 1 n } Sous l hypothèse H 0, la loi de la variable de décision D KS (F, F ) ne dépend pas de F. On compare la valeur obtenue à une valeur critique D α (n) fournie par les tables de Kolmogorov-Smirnov (voir table 1 p. 15). Le test est unilatéral. Si D KS > D α (n), on rejette l hypothèse H 0 avec un risque α de se tromper. 5

6 3 Tests à un échantillon Cette section passe en revue les tests usuels appliqués lorsqu on compare une valeur observée dans un échantillon avec une valeur théorique. On verra successivement les cas d une fréquence, d une moyenne et d une variance. 3.1 Comparaison d une fréquence On étudie un caractère statistique dans une population : on appelle p la fréquence de ce caractère dans la population et f la fréquence observée dans un échantillon de taille n. Appelons F la variable aléatoire qui prend la valeur f pour chaque échantillon de taille n testé. En principe F suit une loi binômiale B(n, p). L hypothèse nulle est : H 0 : la fréquence observée f est conforme à la fréquence théorique p Sous l hypothèse H 0, on montre que la variable de décision U définie par U = F p p(1 p) suit approximativement une loi normale centrée réduite N (0, 1). Dans le cas d un test bilatéral, on détermine les bornes u α et u α délimitant les deux morceaux de la zone de rejet, avec l équation : n P (U u α ) = 1 α 2 autrement dit, avec la fonction quantile Q : u α = Q(1 α 2 ) Si α est fixé à 0.05, on trouve avec R la valeur suivante pour u α : > qnorm(0.975) [1] C est une valeur qui est couramment arrondie à Dans le cas d un test unilatéral, il y a une borne u α seulement, définie par : c est-à-dire P (U u α ) = 1 α u α = Q(1 α) Si α est fixé à 0.05, on trouve cette fois la valeur suivante pour u α : > qnorm(0.95) [1]

7 3.2 Comparaison d une moyenne On considère une variable aléatoire quantitative X définie sur une population. Elle a pour moyenne E(X) = µ et pour variance V (X) = σ 2. Si on observe un échantillon de taille n, on se demande si la moyenne x de l échantillon est en accord avec l espérance µ. L hypothèse nulle est : H 0 : la moyenne x de l échantillon est conforme à l espérance µ Cas d un grand échantillon C est le cas où n > 30. Sous l hypothèse H 0, on montre que la variable de décision U définie par U = X µ s/ n suit approximativement une loi normale centrée réduite N (0, 1). Le calcul des bornes de la zone de rejet se fait donc comme au paragraphe précédent. Cas d un petit échantillon On suppose que ce petit échantillon fait partie d une population qui est gaussienne dans son ensemble. On doit distinguer deux cas : si l écart-type σ est connu, on montre que la variable de décision U définie par U = X µ σ/ n suit approximativement une loi normale centrée réduite N (0, 1). On utilise alors la même méthode qu avec un grand échantillon. si l écart-type σ n est pas connu, on doit utiliser l écart estimé s de l échantillon. Sous l hypothèse H 0, on montre que la variable de décision T définie par T = X µ s/ n suit une loi de Student à n 1 degrés de liberté (n étant la taille de l échantillon). Dans ce dernier cas, la valeur de u α, pour un test bilatéral, est toujours définie par la relation u α = Q(1 α 2 ) mais il faut cette fois lire dans une table de la loi de Student. Si α est fixé à 0.05, on trouvera cette valeur avec R au moyen de l instruction suivante (où df désigne le nombre de degrés de liberté) : > qt(0.975,df) Par exemple : > qt(0.975,7) [1] La lettre t est le nom de la loi de Student dans R : la fonction qt est donc la fonction quantile de cette loi. 7

8 3.3 Comparaison d une variance La situation est la même qu au paragraphe précédent mais c est la dispersion des données, mesurée par la variance, que l on cherche à tester. La variance estimée de l échantillon est s 2 et on appelle S la variable aléatoire qui prend la valeur s pour chaque échantillon observé de taille n. Rappel : la variance estimée s 2 d un échantillon de taille k est calculée par l estimateur sans biais s 2 = 1 n 1 k n i (x i x) 2 = i=1 n n 1 σ2 L hypothèse nulle est : H 0 : la variance estimée s 2 est conforme à la variance σ 2 de la population Sous l hypothèse H 0, on montre que la variable de décision Y définie par Y = n 1 σ 2 S 2 suit une loi du χ 2 à n 1 degrés de liberté. Le calcul des bornes a et b de la zone de rejet se fait au moyen des relations suivantes : P (Y a) = α et P (Y b) = α 2 2 Si la valeur calculée y de la variable de décision Y est dans l intervalle ]a, b[, on ne peut pas rejeter l hypothèse nulle H 0. Si y / ]a, b[, on rejette H 0 au risque α de se tromper. Par exemple, avec un risque de 0.05 et 9 degrés de liberté, R permet de déterminer les valeurs de a et b comme ceci : > a=qchisq(0.025,9) > a [1] > b=qchisq(0.975,9) > b [1] Le nom de la loi du χ 2 dans R est chisq : la fonction qchisq est donc la fonction quantile de cette loi. 4 Tests à plusieurs échantillons Dans deux populations P 1 et P 2, on étudie un caractère ou une grandeur quantitative. Si on extrait des échantillons E 1 et E 2 de tailles respectives n 1 et n 2, on se pose la question de savoir si les différences entre les valeurs estimées sur ces deux échantillons sont significatives ou, au contraire, explicables par les hasards du tirage au sort. Les sections qui suivent passent en revue successivement le cas des fréquences, des moyennes, des variances et des coefficients de corrélation. 8

9 4.1 Comparaison entre deux fréquences Un caractère à deux modalités (de type vrai/faux par exemple) est étudié dans les deux populations. Si le caractère apparaît respectivement k 1 et k 2 fois, les fréquences observées sont f 1 = k 1 n 1 et f 2 = k 2 n 2. On note F 1 et F 2 les variables aléatoires qui prennent les valeurs f 1 et f 2 sur chaque échantillon de taille n 1 et n 2. Ces variables F 1 et F 2 suivent en principe des lois binômiales. L hypothèse nulle est : H 0 : la différence entre f 1 et f 2 n est pas significative. On va supposer que les deux échantillons ont des caractéristiques qui permettent d approximer les lois binômiales par des lois normales. On suppose donc que : n 1 30, n 1 f 1 5, n 1 (1 f 1 ) 5 (1) n 2 30, n 2 f 2 5, n 2 (2 f 2 ) 5 (2) Dans ces conditions, sous l hypothèse H 0, on montre que la variable de décision Y définie par F 1 F 2 U = p1 (1 p 1 ) + p 2(1 p 2 ) n 1 n 2 suit une loi normale centrée réduite N (0, 1). Sous l hypothèse H 0, on réunit les deux échantillons et on estime p par la fréquence observée sur la réunion : ˆp = k 1 + k 2 n 1 + n 2 = n 1f 1 + n 2 f 2 n 1 + n 2 et on remplace p 1 et p 2 par ˆp dans le calcul de la variable U, autrement dit : f 1 f 2 U = ( 1 ˆp(1 ˆp) + 1 ) n 1 n Comparaison entre deux moyennes On étudie une variable aléatoire X dans deux populations P 1 et P 2. La moyenne et la variance de X sont µ 1 et σ 2 1 dans P 1, µ 2 et σ 2 2 dans P 2. Dans tout ce qui suit, on fait l hypothèse que les échantillons sont indépendants (il existe des tests pour les échantillons appariés mais on ne les traitera pas ici) Distribution normale On suppose dans ce paragraphe que la variable étudiée est distribuée selon une loi normale dans la population. L hypothèse nulle est : H 0 : µ 1 = µ 2, ou la différence entre x 1 et x 2 n est pas significative 9

10 Cas d un grand échantillon C est le cas où n 1 > 30 et n 2 > 30. Sous l hypothèse H 0, on montre que la variable de décision U définie par U = X 1 X 2 σ1 2 + σ2 2 n 1 n 2 suit approximativement une loi normale centrée réduite N (0, 1). Les échantillons étant de grande taille, le même résultat reste valable si σ 2 1 et σ 2 2 ne sont pas connues et qu on les remplace par les variances estimées s 2 1 et s 2 2. Cas d un petit échantillon Si les échantillons sont extraits de populations gaussiennes et si σ1 2 et σ2 2 ont une même valeur σ 2 alors, sous l hypothèse H 0, on montre que la variable de décision T définie par T = X 1 X 2 σ 2 ( 1n1 + 1n2 ) suit une loi de Student à n 1 + n 2 2 degrés de liberté. Si σ 2 n est pas connu, on l estime au moyen de la formule : Distribution quelconque S 2 = (n 1 1)s (n 2 1)s 2 2 n 1 + n 2 2 Lorsque la variable étudiée n est pas distribuée normalement dans la population, on doit utiliser un test non paramétrique : dans le cas de 2 échantillons, on applique le test de Mann-Whitney et dans le cas de k échantillons ((k > 2) le test de Kruskal-Wallis. Ces deux tests ne font pas d estimation de la moyenne ou de la variance et ne prennent en compte que le rang des valeurs observées et non pas les valeurs ellesmêmes. Test de Mann-Whitney On considère deux échantillons, E 1 et E 2, d observations de la variable étudiée, de tailles respectives n 1 et n 2. On forme la réunion de ces deux échantillons et on l ordonne par ordre croissant. Pour chaque valeur x i de l échantillon E 1, on compte le nombre n xi de valeurs provenant de l échantillon E 2 qui sont supérieures à x i. On note u 1 la somme des n xi. On fait ensuite le même calcul à partir de l échantillon E 2 : pour chaque valeur y j de l échantillon E 2, n yj est le nombre de valeurs provenant de l échantillon E 1 qui sont supérieures à y j. On note u 2 la somme des n yj. La variable de décision est u = min(u 1, u 2 ) Si les échantillons sont petits, on lit la valeur critique c α correspondant au seuil α choisi dans des tables de Mann-Whitney (voir la table 2 p. 16). Si u est inférieure à c α, on rejette l hypothèse H 0 au risque α de se tromper. 10

11 Si les échantillons sont de taille supérieure à 20, la variable u suit approximativement une loi normale de moyenne et d écart-type µ = n 1n 2 n1 n 2 (n 1 + n 2 + 1) σ = 2 12 On cherche dans ce cas les valeurs critiques pour la loi N (µ, σ). Remarque : lorsque des valeurs sont identiques (ex-aequos), leur rang est remplacé par la moyenne des rangs correspondants : par exemple, si la 6ème et la 7ème valeur sont identiques, on considère que cette valeur correspond au rang 6,5. Test de Kruskal-Wallis La démarche est analogue à celle du test de Mann-Whitney. On considère k échantillons E 1,..., E k, d observations de la variable étudiée, de tailles respectives n 1,..., n k. On forme la réunion des k échantillons et on l ordonne par ordre croissant. Pour chaque échantillon E i, on calcule la somme r i des rangs occupés par les observations qui proviennent de lui. La variable de décision est : h = ( k ) 12 ri 2 3(N + 1) N(N + 1) n i=1 i avec N = k i=1 n i. Si les tailles n i sont supérieures à 5, la variable h suit (sous l hypothèse H 0 ) une loi du χ 2 à k 1 degrés de liberté. Sinon, il faut lire la valeur critique dans des tables de Kruskal-Wallis. Lorsque h h α, on rejette l hypothèse H 0. Remarque : lorsque k = 2, on retrouve le test de Mann-Whitney. Les quantités u 1 et u 2 de Mann-Whitney et les quantités r 1 et r 2 de Kruskal-Wallis sont reliées par les relations : r i = u i + n i(n i + 1) i = 1, Comparaison entre deux variances Avec les mêmes notations que dans le paragraphe précédent, on estime la variance des échantillons au moyen de s 2 1 et s 2 2. La question est de savoir si la différence entre s 2 1 et s 2 2 est significative ou simplement due aux fluctuations d échantillonnage. On note S 1 et S 2 les variables aléatoires qui prennent les valeurs s 1 et s 2 sur tous les échantillons de taille n 1 et n 2 respectivement. L hypothèse nulle est : H 0 : σ 2 1 = σ 2 2 Sous l hypothèse H 0 et si les deux populations P 1 et P 2 sont gaussiennes, on montre que la variable de décision F définie par F = S2 1 S 2 2 suit une loi de Fisher-Snedecor de paramètres (n 1 1, n 2 1). 11

12 Une loi de Fisher-Snedecor (appelée aussi loi du F ) possède deux paramètres ν 1 et ν 2 dits degrés de liberté. Les tables donnant les valeurs de ces lois sont à double entrée. Chaque table correspond à une valeur particulière du risque α. L ordre des paramètres ν 1 et ν 2 est important : les tables ne sont pas symétriques. On a la propriété suivante : si une variable aléatoire F suit une loi de Fisher-Snedecor à ν 1 et ν 2 degrés de liberté, alors 1 F suit une loi de Fisher-Snedecor à ν 2 et ν 1 degrés de liberté. Le calcul des bornes de la zone de rejet consiste à trouver deux nombres a et b tels que : P (F a) = α et P (F b) = α 2 2 Les tables pour une valeur r du risque donnent habituellement la borne u telle que P (F u) = r. On a donc besoin en principe des tables pour et si on veut α = Souvent, seule la valeur de b est calculée : en effet, les valeurs données dans les tables sont toujours supérieures à 1. Il suffit donc de s arranger pour ordonner les deux échantillons de telle sorte que s 2 1 > s 2 2 et la règle de décision est simplement : si s2 1 s 2 < b, on ne peut pas rejeter l hypothèse nulle H 0 ; 2 si s2 1 s 2 b, on rejette l hypothèse nulle H 0 avec un risque α de se tromper. 2 Mais il faut comprendre que cela signifie qu on opte pour un test unilatéral, autrement dit qu on postule que l hypothèse alternative est : H 1 : σ1 2 > σ2 2 Plutôt que de dépendre de l existence de tables appropriées, il est préférable d utiliser R pour calculer les bornes a et b. Dans R, la loi de Fisher-Snedecor est désignée par la lettre f. La fonction quantile se note donc qf et la fonction de répartition pf. Ces deux fonctions prennent en argument les deux degrés de liberté. Par exemple, au risque α = 0.05 avec des degrés de liberté ν 1 = 8 et ν 2 = 5 on trouve : > a=qf(0.025,8,5) > a [1] > b=qf(0.975,8,5) > b [1] Il existe aussi dans R une fonction var.test qui exécute directement le test de comparaison des variances de deux échantillons. Cette fonction possède un paramètre optionnel alternative qui permet de spécifier si on veut un test bilatéral ou unilatéral. Les valeurs possibles pour cette option sont : "two.sided", "less", "greater". Par défaut, c est un test bilatéral (two.sided) qui est exécuté. Exemple Un chimiste a effectué des dosages. Deux prélèvements ont été effectués et des mesures de concentration ont donné les résultats suivants : 12

13 Prélèvement 1 5,9 5,7 5,4 6,2 Prélèvement 2 5,7 5,9 4,5 6,1 4,6 Comparer la variabilité des erreurs entre les deux échantillons. On peut faire le calcul direct avec R comme ceci : > p1 <- c(5.9, 5.7, 5.4, 6.2) > p2 <- c(5.7, 5.9, 4.5, 6.1, 4.6) > var1 <- var(p1) [1] > var2 <- var(p2) [1] > F <- var1/var2 [1] La valeur critique à 5% est : > qf(0.95,3,4) [1] Puisque < , on accepte l hypothèse H 0. En faisant exécuter le test au moyen de la fonction var.test, on obtient : > var.test(p1,p2) F test to compare two variances data: p1 and p2 F = , num df = 3, denom df = 4, p-value = alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: sample estimates: ratio of variances La p-valeur est supérieure au risque 0.05, ce qui conduit bien à accepter l hypothèse H 0. On retrouve directement la p-valeur comme ceci : > pf(f,3,4)*2 [1]

14 4.4 Comparaison entre deux coefficients de corrélation Le contexte est celui de deux populations P 1 et P 2 sur lesquelles on considère des couples de variables aléatoires (X 1, Y 1 ) et (X 2, Y 2 ) qui suivent une loi normale à deux dimensions. La liaison entre les variables X 1 et Y 1 dans la population P 1 est mesurée par un coefficient de corrélation (inconnu) ρ 1. De même, dans la population P 2, la corrélation est mesurée par ρ 2. On obtient des estimations r 1 et r 2 de ρ 1 et ρ 2 à partir d échantillons de tailles n 1 et n 2 respectivement. L hypothèse nulle est : H 0 : ρ 1 = ρ 2 autrement dit la différence entre r 1 et r 2 n est pas significative. Pour formuler plus facilement le test, on introduit les notations suivantes : z 1 = 1 ( log r1 ) et z 2 = 1 ( r 1 2 log r2 ) 1 r 2 et on note Z 1 et Z 2 les variables aléatoires associées. Sous l hypothèse H 0, on montre que la variable de décision U définie par U = Z 1 Z 2 1 n n 2 3 suit approximativement une loi normale centrée réduite N (0, 1) dès que n 1 et n 2 sont suffisamment grands ( 20). 14

15 5 Annexe 5.1 Table de Kolmogorov-Smirnov Seuils critiques D α (n) n α = 0.20 α = 0.15 α = 0.10 α = 0.05 α = > / n 1.14/ n 1.22/ n 1.36/ n 1.63/ n TABLE 1 Table de Kolmogorov-Smirnov 15

16 5.2 Table de Mann-Whitney TABLE 2 Table de Mann-Whitney au seuil 5% 16