Test(s) du χ 2 A. Latouche 1 / 22
Contexte Les données sont des effectifs Le nombre de patients avec une certaine caractéristique Le nombre d étudiants qui ont réussi un examen Le nombre de souris qui sont en vie Le test du Chi-2 (χ 2 ) utilise un tableau de contingence et compare effectifs observés aux effectifs théorique 2 / 22
Principe du χ 2 On dispose d un échantillon avec ces 2 variables qualitatives Couleurs des yeux : bleu ou brun ET couleur des cheveux : clair ou foncée Bleu brun Clair 38 11 Foncée 14 51 On complète les marges du tableau Bleu Brun Total Clair 38 11 49 Foncée 14 51 65 Total 52 62 114 3 / 22
Calcul des effectifs attendus On calcule d abord les effectifs attendus pour le couple (clair, bleu) Si on suppose qu avoir les cheveux clair et les yeux bleus sont des événement indépendants alors cette probabilité se calcule comme le produit de chaque événement P(yeux bleu) = 52/114 = 0.456 et P(cheveux clairs) = 49/114 = 0.430. L effectif attendu est donc (52/114) (49/114) 114 = 22.35. On obtient donc Bleu Brun Total Clair 22.35 26.65 49 Foncée 29.65 35.35 65 Total 52 62 114 4 / 22
Calculer la statistique du χ 2 d indépendance La statistique de test s écrit χ 2 = (O E) 2 E où O est l effectif observé et E l effectif attendu (ou théorique) O E (O E) 2 (O E) 2 E Clair/bleu 38 22.35 244.92 10.96 Clair/Brun 11 26.65 244.92 9.19 Foncée/bleu 14 29.65 244.92 8.26 Foncée/Brun 51 35.35 244.92 6.93 On calcule le χ 2 comme 10.96 + 9.19 + 8.26 + 6.93 = 35.34. Condition de validité : Si E 5 5 / 22
Degrés de liberté du χ 2 Pour un table de contingence, les ddl sont df = (l 1)(c 1) = (2 1)(2 1) = 1 A partir ddl = 1 on calculs la valeur (critique) du χ 2 au risque α = 0.05 > qchisq(0.95,1) [1] 3.841459 6 / 22
Pourquoi (l 1)(c 1) Soit le table de contingence suivant: 5 10 50 20 40 7 60 100 20 30 150 4 cases sont suffisantes pour reconstruire tout le tableau et ici 4 = (3 1)(3 1) 7 / 22
Rejeter ou ne pas rejeter H 0 Comme χ 2 calc = 35.33 > χ2 crit = 3.84 on rejete H 0 1 Syntaxe du test en R : > haireye<-data.frame(eyes=rep(c("blue", "brown"), + c(52,62)), hair=rep(c("fair", "dark", "fair", "dark"), + c(38,14,11,51))) > table(haireye) hair eyes dark fair blue 14 38 brown 51 11 1 H 0 :couleur des yeux et couleur des cheveux sont indépendantes 8 / 22
χ 2 avec R > chisq.test(table(haireye), correct=f) Pearson's Chi-squared test data: table(haireye) X-squared = 35.3338, df = 1, p-value = 2.778e-09 > chisq.test(table(haireye), correct=f)$expected hair eyes dark fair blue 29.64912 22.35088 brown 35.35088 26.64912 > table(haireye) hair eyes dark fair blue 14 38 brown 51 11 On a mis en évidence une association entre les 2 variables 9 / 22
Analyse des résidus du χ 2 Quand un test du χ 2 est significatif (rejet de H 0 Permet de déterminer les catégories qui contribue le plus au rejet de l hypothèse H 0 R = O E E O E (O E) R Fair/blue 38 22.35 15.65 3.31 Fair/brown 11 26.65-15.65-3.03 Dark/blue 14 29.65-15.65-2.87 Dark/brown 51 35.35 15.65 2.63 > chisq.test(table(haireye), correct=f)$resid hair eyes dark fair blue -2.873982 3.310112 brown 2.632024-3.031437 Si R est plus grand que 2 10 / 22
Test du χ 2 d adéquation (de conformité) Contexte Comparer une répartition en classe par rapport à une répartition théorique On observe pour les catégories 1, 2 et 3 respectivement 25, 9 et 3 cas. Les proportions théoriques sont 0.4, 0.3 et 0.3. Peut-on considérer que l échantillon observé provient de la loi théorique 11 / 22
Test du χ 2 d adéquation Catégorie 1 Catégorie 2 Catégorie 3 Total 25 9 3 37 Calcul des effectifs théorique Catégorie 1: 37 0.4 = 14.8 Catégorie 2: 37 0.3 = 11.1 Catégorie 3 : 37 0.3 = 11.1 Catégorie 1 Catégorie 2 Catégorie 3 25 (14.8) 9 (11.1) 3 (11.1) 37 Le χ 2 obs calculé vaut ici 13.3 ddl=(c-1)=2 Or > qchisq(0.95,2)=5.991465 On rejette H 0 car χ 2 obs > 5.99 12 / 22
Applications Quel est l impact de l exposition aux poussières de ciment sur la capacité respiratoire? Pb respiratoire Pas de Pb Faible 6 96 Modérée 22 39 Elevée 4 50 H 0 : l exposition et les difficultés respiratoires sont indépendants 13 / 22
Calculs ddl =2 χ 2 calc = 30.71 χ 2 theo = 5.99 au risque α = 0.05 χ 2 obs >> χ2 theo Rejet de H 0 14 / 22
Exercice Test du χ 2 Dans un échantillon de 100 patients vous trouvez 20% de patients dont la protéine P est de type A, 30% de type B et 50% de type C. Dans un échantillon de 50 patients ayant une autre maladie vous trouvez 20%, 40% et 40%. Vous vous intéressez au lien entre le type d anomalie et le type de maladie. Quel test effectuer? 15 / 22
Correction Etude du lien entre 2 variables qualitatives: type d anomalie et type de maladie. On effectue un test du χ 2 d indépendance. ddl=(3-1)(2-1)=2 Echantillon 1 Echantillon 2 A 20 (20) 10 (10) 30 B 30 (33.3) 20 (16.7) 50 C 50 (46.7) 20 (23.3) 70 Total 100 50 150 On obtient χ 2 obs = 1.7143, df = 2, p-value = 0.4244 Conclusion : on ne rejette pas l hypothèse d indépendance entre type d anomalie et type de maladie Code R : chisq.test(matrix(c(20,10,30,20,50,20),3,2, byrow=true) 16 / 22
Test du χ 2 d adéquation Dans un centre de transfusion sanguine, on observe la répartition suivante entre les 4 groupes sanguins chez 525 donneurs bénévoles : O : 251 A : 219 B : 29 AB : 26 Sachant que la répartition des groupes sanguins dans la population française est la suivante : O : 44.5%, A : 44%, B : 8%, AB : 3.5%. Testez si la répartition des groupes sanguins au sein du centre est comparable à celle de la population française. 17 / 22
Test du χ 2 d adéquation Dans un centre de transfusion sanguine, on observe la répartition suivante entre les 4 groupes sanguins chez 525 donneurs bénévoles : O : 251 A : 219 B : 29 AB : 26 Sachant que la répartition des groupes sanguins dans la population française est la suivante : O : 44.5%, A : 44%, B : 8%, AB : 3.5%. Testez si la répartition des groupes sanguins au sein du centre est comparable à celle de la population française. ABO<-as.table(cbind(251,219,29,26)); prob<-c(0.445,0.44,0.08,0.035); chisq.test(abo,p=prob) Rejet de H 0 17 / 22
Test Exact de Fisher Quand l approximation d une loi binomiale par une loi normale n est pas possible Quand les conditions d applications du χ 2 ne sont pas vérifiées Effectifs Attendus plus petit que 5 Utilisé en essai pré-clinique (n petit) Exemple 2 groupes randomisé de 4 souris Actif Inactif Guérison 4 0 Mort 0 4 On rejette H 0 au risque α = 5% http://marne.u707.jussieu.fr/biostatgv/ 18 / 22
Exemple (2) Actif Inactif Guérison 3 0 Mort 0 3 On ne rejette pas H 0 au risque α = 5% http://marne.u707.jussieu.fr/biostatgv/ 19 / 22
Conditions de validité du χ 2 Une étude rétrospective a pour but d étudier les facteurs associés à la survenue de complications à la suite d une opération chirurgicale chez 360 malades. La fréquence des complications selon la durée de l opération est donnée dans le tableau suivant : < 1h 1h-1h30 1h30-2h > 2h Complication+ 7 19 26 8 Complication- 113 100 66 21 Effectuer au risque α = 5% le test permettant d étudier le lien éventuel entre la durée de l opération et le nombre de complication. 20 / 22
Effectifs Attendu < 1h 1h-1h30 1h30-2h > 2h Complication+ 7 19 26 8 Complication- 113 100 66 21 Effectifs théorique 1 2 3 4 Complication+ 20.00 19.83 15.33 4.83 Complication- 100.00 99.17 76.67 24.17 On réunit les 2 dernières classes car les effectifs théoriques sont inférieurs à 5. 21 / 22
Test avec 3 durées d opération < 1h 1h-1h30 > 1h30 Complication+ 7 19 34 Complication- 113 100 87 chisq.test(matrix(c(7,19,34,113,100,87),2,3, byrow=true), correct=false) Statistique observée 21.57, p-value = 2 10 5, ddl=2 On rejette H 0 au risque 5%. 22 / 22