Master 1 de Santé Publique UE de biostatistique : cours 11 Comparaison de plusieurs distributions Test de tendance entre plusieurs pourcentages M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 1
Comparaison d une distribution à une distribution théorique Les sujets de la population se répartissent en k classes Exemple : groupe sanguin, catégorie socio-professionnelle Dans la population, les pourcentages vrais dans chacune des classes sont : P 1,..., P k (avec : k P i = 1. i=1 On veut comparer ces pourcentages à une distribution de référence (ou théorique : Π 1,, Π k (avec toujours : k Π i = 1. i=1 M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 2
Hypothèses nulle et alternative : H 0 : P 1 =Π 1 P 2 =Π 2... P k =Π k c est-à-dire : la distribution dans la population est identique à la distribution de référence H 1 : une, au moins, des égalités n est pas vraie Il n y a pas lieu de parler de test unilatéral ou bilatéral. M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 3
Valeurs attendues si H 0 est vraie : Echantillon de n sujets représentatif de la population Classes A 1 A 2 A K Effectifs observés Effectifs calculés O 1 O 2 O k n C 1 C 2 C k n C 1 = nπ 1, C 2 = nπ 2,, C k = nπ k On montre que, si n est assez grand : χ 2 = (O 1 C 1 2 C 1 + (O 2 C 2 2 C 2 +...+ (O k C k 2 suit une loi de χ 2 à (k-1 ddl C k M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 4
Test : On calcule la quantité observée sur l échantillon : χ 0 2 = (O 1 C 1 2 C 1 + (O 2 C 2 2 C 2 +...+ (O k C k 2 C k Rejet de H 0, au risque α, si χ 2 2 0 χ k 1,α 2 Degré de signification : p = P(χ k 1 χ 0 2 Conditions d application : C i 5 Si un des C i est trop petit, on regroupe la classe correspondante avec une autre. M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 5
Exemple Comparaison entre la répartition des groupes sanguins d une population et la répartition de référence : O : 45% A : 44% B : 8% AB : 3% Echantillon : 1000 sujets tirés au sort dans la population H 0 : P 1 = 0,45 ; P 2 = 0,44 ; P 3 = 0,08 ; P 4 = 0,03 H 1 : il y a au moins une différence Groupe sanguin O A B AB Effectifs observés 487 390 84 39 1000 Effectifs calculés 450 440 80 30 1000 C i 5 χ 0 2 = (487 4502 450 + (390 4402 440 + (84 802 80 + (39 302 30 = 11,62 avec ddl = k-1 = 3 M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 6
Groupe sanguin O A B AB Effectifs observés 487 390 84 39 1000 Effectifs calculés 450 440 80 30 1000 C i 5 χ 0 2 = 11,62 avec ddl = k-1 = 3 α d.d.l. 0,975 0,95 0,90 0,50 0,30 0,20 0,10 0,05 0,025 0,01 0,001 1 0,00 0,00 0,02 0,46 1,07 1,64 2,71 3,84 5,02 6,63 10,83 2 0,05 0,10 0,21 1,39 2,41 3,22 4,61 5,99 7,38 9,21 13,82 3 0,22 0,35 0,58 2,37 3,66 4,64 6,25 7,81 9,35 11,34 16,27 Valeur seuil au risque 5% du χ 2 à 3 ddl : 7,81 => Rejet de H 0 (avec p < 1% Conclusion : Dans la population, la répartition des groupes sanguins n est pas : 45%, 44%, 8%, 3% (au risque α = 5%. M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 7
Application : test de la normalité d une distribution Durée en jours X de la phase hypothermique du cycle menstruel de 281 femmes. X 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Effectif 8 18 23 29 31 25 27 24 16 18 8 10 7 5 8 X 24 25 26 27 28 29 30 31 32 35 38 39 42 44 Effectif 5 3 3 1 1 1 1 3 1 1 1 1 1 1 35 Nombre de femmes 30 25 20 15 10 5 0 0 2 4 6 8 101214161820222426283032343638404244 Durée en jours M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 8
I. µ et σ 2 connus 30 Nombre de femmes Exemple : µ = 14 et σ 2 = 20 20 10 0 0 10 20 30 40 Durée en jours Effectif théorique pour X =10 <=> 9,5 <X< 10,5 Si H 0 est vraie, X = loi normale (µ=14 ; σ 2 =20 9,5 14 10,5 14 P(9,5 < X < 10,5 = P < Z < 20 20 = P(-1,006 < Z < -0,783 = P(Z > -1,006 - P(Z > -0,783 = 0,845-0,785 = 0,06 => effectif théorique : C i = 281 0,06 = 16,9 Tableau de χ 2 : Classe de x <9 9 10 11 12 13 14 15 16 17 Eff. observé (O i 0 8 18 23 29 31 25 27 24 16 Eff. théorique (Ci 30,9 12,6 16,9 21,1 22,5 23,9 25,3 23,9 22,5 21,1 Classe de x 18 19 20 21 22 23 24 25 26 Total Eff. observé (O i 18 8 10 7 5 8 5 3 16 281 Eff. théorique (C i 16,9 12,6 9,8 8,4 4,2 4,2 1,4 1,4 1,4 281 M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 9
Tableau de χ 2 : a. initial Classe de x <9 9 10 11 12 13 14 15 16 17 Eff. observé (O i 0 8 18 23 29 31 25 27 24 16 Eff. théorique (Ci 30,9 12,6 16,9 21,1 22,5 23,9 25,3 23,9 22,5 21,1 Classe de x 18 19 20 21 22 23 24 25 26 Total Eff. observé (O i 18 8 10 7 5 8 5 3 16 281 Eff. théorique (C i 16,9 12,6 9,8 8,4 4,2 4,2 1,4 1,4 1,4 281 b. après regroupement Classe de x <9 9 10 11 12 13 14 15 16 17 Eff. observé (O i 0 8 18 23 29 31 25 27 24 16 Eff. théorique (Ci 30,9 12,6 16,9 21,1 22,5 23,9 25,3 23,9 22,5 21,1 Classe de x 18 19 20 21 22 23 24 25 26 Total Eff. observé (O i 18 8 10 7 37 281 Eff. théorique (C i 16,9 12,6 9,8 8,4 12,6 281 χ 0 2 = 87,6 avec 14 ddl Valeur seuil à 5% de χ 2 à 14 ddl : 23,69 Conclusion : On rejette l hypothèse d une distribution normale de moyenne 14 et de variance 20. M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 10
II. µ et σ 2 inconnus Même chose en remplaçant µ et σ 2 par m et s 2 et en enlevant 2 ddl supplémentaires au χ 2. m = 15,99 s 2 = 31,46 Tableau de χ 2 : Classe de x <9 9 10 11 12 13 14 15 16 17 18 Eff. observé (O i 0 8 18 23 29 31 25 27 24 16 18 Eff. théorique (Ci 25,3 9,8 11,2 12,6 15,5 18,3 18,3 19,7 19,7 19,7 19,7 Classe de x 19 20 21 22 23 24 25 26 27 28 Total Eff. observé (O i 8 10 7 5 8 5 3 3 1 12 281 Eff. théorique (C i 16,9 15,5 12,6 11,2 9,8 7,0 5,6 4,2 2,8 4,2 281 χ 0 2 = 82,7 avec 19-1-2=16 ddl Valeur seuil à 5% de χ 2 à 16 ddl : 26,30 Conclusion : On rejette l hypothèse que la distribution de X est normale M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 11
Comparaison de plusieurs répartitions observées k classes de sujets : A1,, Ak p populations : B 1,, B p P ij = pourcentage vrai de sujets dans la classe j de la population i A 1 A 2 A j A k B 1 P 11 P 12 P 1k 1(=100% B 2 P 21 P 22 P 2k 1 1 B i P ij 1 1 B p P p1 P p2 P pk 1 M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 12
A 1 A 2 A j A k B 1 P 11 P 12 P 1k 1 B 2 P 21 P 22 P 2k 1 1 B p P p1 P p2 P pk 1 Hypothèses testées H 0 : P 11 =P 21 =...=P p1 P 12 =P 22 =...=P p2... P 1k =P 2k =...=P pk la répartition des classes A j est identique dans les p les populations H 1 : une, au moins, des égalités n est pas vraie. Il n y a pas lieu de parler de test unilatéral ou bilatéral. M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 13
Valeurs attendues si H 0 est vraie Dans chacune des populations, on tire au sort un échantillon de n i sujets. A 1 A 2 A j A k B 1 O 11 (C 11 O 12 (C 12 O 1k (C 1k n 1 B 2 O 21 (C 21 O 22 (C 22 O 2k (C 2k n 2 B i O ij (C ij n i B p O p1 O p2 O pk (C p1 (C p2 (C pk m 1 m 2 m j m k n n p Le même raisonnement que pour le tableau de χ 2 à 4 cases conduit à : C ij = n i m j n M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 14
B 1 O 11 (C 11 B 2 O 21 (C 21 A 1 A 2 A k O 12 (C 12 O 22 (C 22 O 1k (C 1k O 2k (C 2k n 1 n 2 B p O p1 O p2 O pk (C p1 (C p2 (C pk m 1 m 2 m k n n p Test On montre que, si H o est vraie (et si n est assez grand : χ 2 = ( O ij C ij 2 = i,j C ij ( O C 2 C suit une loi de χ 2 avec (p-1 (k-1 ddl M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 15
On calcule la quantité observée sur l échantillon : ( O C 2 χ 2 0 = C Rejet de H o, au risque α, si χ 2 2 0 χ (p 1(k 1;α 2 Degré de signification : p = P(χ (p 1(k 1;α χ 0 2 Condition d application : C ij 5 Si un des C ij est inférieur à 5, on regroupe deux lignes ou deux colonnes (ou plus de deux si nécessaire à condition que cela ait un sens M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 16
Exemple 1 1. Artisan 15 (11,7 2. Cadre 12 (12,3 3. Ouvrier 45 (46,3 4. Autre 28 (29,7 Ville A B C 12 (11,7 6 (12,3 59 (46,3 23 (29,7 8 (11,7 19 (12,3 35 (46,3 38 (29,7 35 37 139 89 Total 100 100 100 300 Hypothèses testées : H o : P 1A = P 1B = P 1C P 2A = P 2B = P 2C P 3A = P 3B = P 3C P 4A = P 4B = P 4C H 1 : il y a au moins une différence M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 17
Artisan 15 (11,7 Cadre 12 (12,3 Ouvrier 45 (46,3 Autre 28 (29,7 Ville A B C 12 (11,7 6 (12,3 59 (46,3 23 (29,7 8 (11,7 19 (12,3 35 (46,3 38 (29,7 35 37 139 89 Total 100 100 100 300 C ij 5 χ 0 2 = (15 11,72 11,7 +...+ (38 29,72 29,7 = 19,2 ddl = (3-1(4-1 = 6 -> valeur seuil de χ2 = 12,59 p < 1% Conclusion : la répartition des CSP est significativement différente entre les villes. Mais : interprétation plus détaillée difficile. M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 18
Exemple 2 Préma 89 (73,50 Non préma 1411 (1426,50 Année 1979 1980 1981 1982 1983 81 (74,73 1444 (1450,27 78 (76,59 1485 (1486,41 70 (78,31 1528 (1519,69 65 (79,87 1565 (1550,13 383 7433 Total 1500 1525 1563 1598 1630 7816 % préma. 5,9% 5,3% 5,0% 4,4% 4,0% La répartition préma / non préma varie-t-il entre les années? H o : H 1 : P 11 = = P 15 P 1i = % préma année i P 21 = = P 25 P 2i = % non préma année i il y a au moins une différence Comme P 2i = 1-P 1i, cela équivaut à : Le taux de prématurité varie-t-il entre les années? H o : H 1 : P 1 = = P 5 P i = % préma année i il y a au moins une différence M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 19
Préma 89 (73,50 Non préma 1411 (1426,50 Année 1979 1980 1981 1982 1983 81 (74,73 1444 (1450,27 78 (76,59 1485 (1486,41 70 (78,31 1528 (1519,69 65 (79,87 1565 (1550,13 383 7433 Total 1500 1525 1563 1598 1630 7816 % préma. 5,9% 5,3% 5,0% 4,4% 4,0% H o : P 1 = = P 5 H 1 : il y a au moins une différence C ij 5 χ 0 2 = (89 73,502 73,50 +...+ (1565 1550,132 1550,13 ddl = (5-1(2-1 = 4 (=> valeur seuil = 9,49 = 7,85 La différence est non significative : on ne met pas en évidence de différence entre les taux de prématurité des 5 années. M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 20
M+ 2 (4,5 M- 7 (4,5 Exemple 3 Petits échantillons Age 20-29 30-39 40-49 50-59 5 9 (7 (7 17 (16,5 16 (16,5 26 (22 18 (22 50 50 9 14 33 44 100 En regroupant les deux premières colonnes : M+ 7 (11,5 M- 16 (11,5 Age 20-39 40-49 50-59 17 (16,5 16 (16,5 26 (22 18 (22 50 50 23 33 44 100 Les C ij sont tous 5 χ 0 2 = (7 11,52 11,5 +...+ (18 222 22 = 5,01 à 2 ddl non significatif M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 21
Si les colonnes avaient été des catégories socioprofessionnelles, le regroupement n aurait pas eu de sens. Par exemple : CSP Artisan Cadre Ouvrier Autre 5 M+ 2 (4,5 M- 7 (4,5 9 (7 (7 17 (16,5 16 (16,5 26 (22 18 (22 50 50 9 14 33 44 100 Il n y a pas alors de solution simple M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 22
Test de tendance entre plusieurs pourcentages Préma 89 (73,50 Non préma 1411 (1426,50 Année 1979 1980 1981 1982 1983 81 (74,73 1444 (1450,27 78 (76,59 1485 (1486,41 70 (78,31 1528 (1519,69 65 (79,87 1565 (1550,13 383 7433 Total 1500 1525 1563 1598 1630 7816 % préma. 5,9% 5,3% 5,0% 4,4% 4,0% Hypothèses testées H o : P 1 = = P k H 1 : les pourcentages de préma varient linéairement avec les valeurs de l'année X Le χ 2 habituel ne permet pas de répondre correctement à la question. Il faudrait une sorte de régression du pourcentage de malades en fonction de l'année X. M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 23
Valeurs de X x 1 x 2 x j x k Total M+ O 11 O 12 O 1j O 1k m 1 M- O 21 O 22 O 2j O 2k m 2 Total n 1 n 2 n j n k n H o : P 1 = = P k H 1 : les pourcentages de malades varient linéairement avec les valeurs de X Les valeurs attendues si H o est vraie sont les mêmes que pour le χ2 ordinaire (car H o est identique : C ij = n im j n On montre que, si H o est vraie, χ 0 2 = ( n 3 x i O 1i C 1i m 1 m 2 n n i x 2 i n i x i 2 ( 2 suit une loi de χ 2 à 1 ddl. Conditions d application : C ij 5 On montre que ce test est exactement celui de la pente de la régression de Y (0 / 1 (M - / M + en fonction de X. M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 24
Exemple Année 1979 1980 1981 1982 1983 X 0 1 2 3 4 Préma 89 (73,50 Non préma 1411 (1426,50 81 (74,73 1444 (1450,27 78 (76,59 1485 (1486,41 70 (78,31 1528 (1519,69 65 (79,87 1565 (1550,13 383 7433 Total 1500 1525 1563 1598 1630 7816 % préma. 5,9% 5,3% 5,0% 4,4% 4,0% C ij 5 χ 0 2 = x i ( n 3 x i O 1i C 1i m 1 m 2 n n i x 2 i n i x i ( O 1i C 1i 2 ( 2 2 0 (89 73,5 +... = +4 (65 79,87 n i x 2 i = 1500 0 2 +...+ 1630 4 2 = 48239 2 = ( 75,32 2 M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 25
Année 1979 1980 1981 1982 1983 X 0 1 2 3 4 Préma 89 (73,50 Non préma 1411 (1426,50 81 (74,73 1444 (1450,27 78 (76,59 1485 (1486,41 70 (78,31 1528 (1519,69 65 (79,87 1565 (1550,13 383 7433 Total 1500 1525 1563 1598 1630 7816 % préma. 5,9% 5,3% 5,0% 4,4% 4,0% C ij 5 χ 0 2 = 7816 3 ( 75,32 2 383 7433 7816 48239 15965 2 = 2,71 10+15 = 7,79 avec 1 ddl +15 0,348 10 Il y a donc une tendance significative (p < 1%. Les données permettent de préciser que la tendance est dans le sens d une diminution du pourcentage de prématurés avec le temps. M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 26
Attention : le choix des valeurs de X peut parfois contenir une part d arbitraire. NF 1-9 cig/j 10-19 cig/j 20 cig/j x............ M+ 35 22 14 18 M- 1436 857 446 328 1471 879 460 346 % M + 2,4% 2,5% 3,0% 5,2% X 2 χ 0 0, 1, 2, 3 6,40 0, 5, 15, 30 7,84 0, 1, 10, 20 7,94 0,100,101,102 2,03 M1 de Santé Publique Biostatistique - Cours 10 - Comparaison de plusieurs distributions 27