Cours 9 Les tableaux croisés et le test d indépendance du Chi-deux 1 Retour sur TP1 et Cours 8 Les tableaux croisés et le test du Chi-deux Utilité, postulats d utilisation et logique Exemple de calcul dans SPSS Exemple d interprétation Tableau croisé avec SPSS 2 Étudient la relation entre deux variables (variable dépendante et indépendante) Permettent non seulement de déterminer si deux variables sont associées (signification), mais également de déterminer le sens et la force de cette relation. 1
Le type de test utilisé dépend du type de variables utilisées. Trois possibilités avec deux familles de variables : Une variable de type QUALITATIVE QUALITATIVE QUANTITATIVE En lien avec une variable On utilise : avec en lien QUALITATIVE = Tableau croisé en lien avec en lien avec QUANTITATIVE = (ou ordinale) QUANTITATIVE = (ou ordinale) Test de moyennes Corrélation Des postulats d utilisation sont associés à chaque type de test. Les postulats sont un ensemble de règles à respecter dans l utilisation des statistiques pour assurer la validité des résultats. Quand les postulats d utilisation ne sont pas respectés, cela mène à une fausse sensibilité du test. Vérification des postulats avant de réaliser les tests et d analyser les résultats. Permet de tester le lien d indépendance entre 2 variables qualitatives. Tableau croisé (ou de contingence): montre la distribution des effectifs des deux variables. Chi-deux ou Chi-carré (Χ 2 ) : statistique utilisée pour vérifier si la relation entre les deux variables est significative. 6 2
Avoir deux variables qualitatives (nominales ou ordinales) Avoir un minimum de cinq observations dans chaque case (intersection)(n 5). 7 1. Existe-t-il un lien entre mes variables? La question de la Signification 2. Ce lien est-il important? La question de la Force 3. Que veut dire ce lien en termes concrets? La question du Sens (ou de la nature) de la relation Le test d indépendance du Chi-deux sert à répondre à la question suivante : Existe-t-il un lien entre deux variables qualitatives? Il sert donc à tester des hypothèses. Le test de d indépendance du Chi-deux est utile pour savoir si oui ou non il existe un lien entre deux variable : il nous indique la signification de la relation. Lorsque c est significatif à p<0.05, nous rejetons H 0. Lorsque c est supérieur, nous ne pouvons rejeter l hypothèse nulle. 3
La formule est la suivante ( Fréquence observée Fréquence espérée - [0,5]) 2 = 2 Fréquence espérée Toutes les cellules Calculer le test d indépendance du Chi-deux revient à comparer les résultats obtenus dans notre étude (fréquences observées) aux résultats théoriquement obtenus à l aide du hasard (fréquences espérées ou théoriques) Plus la différence entre les deux ensembles de résultats est élevée, plus la valeur du Chi-deux est élevée. Plus la valeur du Chi-deux est élevée, plus y a de probabilités que la relation entre les 2 variables soit significative. La logique : Nous nous intéressons aux opinions des étudiants en ce qui concerne la peine de mort. Nous voulons savoir si le sexe de l étudiant a une influence sur son opinion de la peine de mort (pour/contre). Notre hypothèse est que les hommes seront significativement plus nombreux à se positionner pour la peine de mort que les femmes. Nous passons un questionnaire (d une question!) à 100 étudiants (50 femmes et 50 hommes) d une classe de baccalauréat. Sur les 100 étudiants, 60 disent être contre la peine de mort et 40 pour. Tableau 1. Répartition de l opinion face à la peine de mort selon le sexe de l étudiant Sexe de l étudiant Opinion face à la peine de mort Contre Pour Total Femme 50 Homme 50 Total 60 40 100 Données fictives 12 4
1. À quoi devrait-on s attendre s il n y a pas de relation entre les 2 variables? ( les fréquences espérées(fe) Tableau 1. Répartition de l opinion Opinion face face à la peine à la peine de mort de selon mort le sexe de l étudiant Sexe de l étudiant Total Contre Pour Femme FE 30 (50%) 20 (50%) 50 (100%) Homme FE 30 (50%) 20 (50%) 50 (100%) Total 60 40 100 FE = (Nombre total de sujets de la rangée X Nombre total de sujet en colonne) / Nombre total de sujets 13 Maintenant, qu est-ce qu on obtient dans nos résultats?(fréquences observées FO) Opinion face à la peine de mort Sexe de l étudiant Contre Pour FE 30 (50%) 20 (50%) Femme FO 30 (50 %) 20 (50%) FE 30 (50%) 20 (50%) Homme FO 30 (50%) 20 (50%) Total 50 (100%) 50 (100%) Total 60 40 100 Aucun lien entre le sexe et l opinion face à la peine de mort, les étudiants sont autant pour la peine de mort que les 14 étudiantes. Sexe de l étudiant Opinion face à la peine de mort Contre Pour Total Femme Homme FT 30 (50%) 20 (50%) FO 36 (72%) 14 (28%) FT 30 (50%) 20 (50%) FO 24 (48%) 26 (52%) 50 (100%) 50 (100%) Total 60 40 100 Chi-deux : 6 Significatif à 0,01 52 % des étudiants de sexe masculin sont pour la peine de mort comparativement à 28 % des étudiants de sexe féminin. 15 5
Le chi-deux donne la signification mais pas la force de la relation. Il serait peut-être possible de connaître la relation entre deux variables en s inspirant du niveau de signification. Par exemple, on pourrait croire qu une relation significative à p<0.001 est plus forte qu une relation significative à p<0.05. Pas vraiment Tableau X. Lien entre le sexe des répondants et l attitude face à la peine de mort Hommes Femmes Total Pour 30 20 50 Contre 20 30 50 50 50 100 La valeur du Chi carré est de 4,0, p<0,05 Tableau X. Lien entre le sexe des répondants et l attitude face à la peine de mort Hommes Femmes Total Pour 60 40 100 Contre 40 60 100 100 100 200 La valeur du Chi carré est de 8,0, p<0,01, soit exactement le double. Déterminer la force de la relation (si significatif) Dans le cadre du cours, nous utiliserons 2 indicateurs de force pour ce type de test. Les 2 varient de 0 à 1 (plus ça tend vers 1 plus le lien est fort entre les 2 variables) V. de Cramer Phi Valeur Force du lien statistique 0 Absence de relation Entre 0,05 et 0,10 Entre 0,10 et 0,20 Entre 0,20 et 0,40 Entre 0,40 et 0,80 Entre 0.80 et 1 Très faible Faible Modérée Forte Louche (Colinéarité) 17 Le choix des mesures d association (force) pour les tableaux de contingence: Arbre décisionnel Tableaux de contingence Deux variables NOMINALES Choix de l indicateur de force dépend du nombre de cellules du tableau croisé (ou de contingence) Nombre de cellules du tableau Ex: Mineurs/Adultes et Consomme/ Ne consomme pas 2x2 2xk ou kxk Ex: Mineurs/Adultes et Criminalité Faible/Criminalité Moyenne/Criminalité Forte Phi V de Cramer 6
Le Phi : Mesure dérivé du Chi-deux. On se rappelle que la valeur du Chi est directement influencée par le nombre de sujets et la force de la relation. Le phi élimine l effet de la taille de l échantillon en divisant le Chi carré par n, et en extrayant la racine carrée. Phi aussi appelé Pearson's coefficient of mean-square contingency. Il est utilisable dans le cas de tableaux 2x2. Pour un tableau de plus de 2x2, la valeur du phi dépasse 1, et le rend moins intéressant. Le V de Cramer : Le V de Cramer est la mesure d association la plus populaire basée sur une variation du Chi deux. Il varie de 0 à 1, et est donc facile à utiliser et à interpréter. Il est utilisable dans le cas de tableaux de plus de 2x2 (donc 2xK ou KxK). Dans les tableaux croisés, le sens est plus difficile à interpréter (particulièrement dans des tableaux de plus de 2 X 2). Nous devons regarder les pourcentages indiqués dans le tableau 7
Existe-t-il une relation entre le sexe de la victime d une violence conjugale et la gravité des blessures subies lors de l événement? H0: Les deux variables sont indépendantes Il n y a pas de relation entre le sexe de la victime de violence conjugale et la gravité des blessures subies. H1: Les deux variables sont dépendantes Il y a une relation entre le sexe de la victime et la gravité des blessures : Les femmes victimes de violence conjugale sont plus nombreuses que les hommes à subir des blessures graves. Les hommes victimes de violence conjugale sont plus nombreuses que les femmes à subir des blessures graves. 22 1. Aller dans Analyse/Statistiques descriptives/tableaux croisés 3. Appuyer sur Statistiques 2. Glisser la VI dans la section Ligne et la VD dans la section Colonne. 4. Sélectionner Chideux (signification) et l indice de force qui s applique. Cliquer sur Poursuivre 23 5. Cliquer sur Cellules 6. Sous Effectifs, cliquer sur Observé pour obtenir les fréquences observées 7. Sous Pourcentages, cliquer sur Ligne pour avoir le % de chacune des rangées. Permet d obtenir le sens de la relation) 8. Cliquer sur Poursuivre 24 8
SPSS produit 4 tableaux. Sommaire des cas Sens Signification Force 25 On vérifie si on a un minimum de 5 observations dans chaque case (postulat d utilisation) Si oui, on regarde si le test du chicarré est significatif. Si non, on recode pour avoir moins de catégories et on recommence. 26 Est-ce que la relation est significative? Le fameux Chi-2 Seuil de signification p<0,05 Relation significative entre sexe des victimes et blessures 27 9
Quel serait le sens de la relation? Décrire les faits saillants 24,5% des hommes victimes subissent des blessures graves vs. 10,1 % des femmes victimes. Plus ces pourcentages sont différents, plus il y a de chances que ce soit significatif! 28 Quelle est la force de la relation? S applique uniquement lorsque la relation est significative Dans notre cas, le coefficient de force à utiliser est le V de Cramer, puisque c est du 2 (H-F) par 3 (Aucune blessures, blessures légères, blessures graves) 0,15 = relation faible 29 Tableau 1. Relation entre le sexe de la victime de violence conjugale et les blessures subies lors de l événement (n=840). Blessures subies lors d un événement de violence conjugale Sexe de la victime de Aucune blessure Blessures légères Blessures Total violence graves conjugale Femme 240 (32,9%) 416 (57%) 74 (10,1%) 730 (100%) Homme 26 (23,6%) 57 (51,8%) 27 (24,5%) 110 (100%) Valeur V de Cramer 0,15 (p =0,009) 30 10
Interprétation Les résultats du tableau 1 montrent qu il existe une relation statistiquement significative (p<0,001) entre le sexe de la victime de violence conjugale et les blessures subies lors de l événement. En effet, il est possible de constater que 24 % des hommes victimes de violence conjugale subissent des blessures graves comparativement à une proportion de 10 % pour les femmes victimes de violence conjugale. Cette relation est toutefois assez faible comme en témoigne un V de Cramer de 0,15. 31 Quelle est la relation entre les deux variables? Significatif ou non? sens, force si c est significatif. Si non-significatif, quels sont les facteurs qui peuvent expliquer que non-relation? Retour sur l hypothèse de départ les résultats vont-ils dans le même sens dans le sens contraire? Est-ce un résultat surprenant en fonction des recherches existantes ou du sens commun? Expliquer pourquoi on observe ou non une relation significative. Qu est-ce que ce résultat implique par rapport à votre question de recherche, aux recherches futures? 32 11