Enquête.sba Procédure Tableaux croisés
Tris croisés p. 27 «Cette procédure est conçue pour le calcul et l édition massive de tableaux croisés. On obtient à partir de cette procédure des tableaux de contingence, des tableaux de moyenne ou encore des tableaux de fréquence.»
Tri croisé : définition Un tri croisé est une statistique bidimensionnelle qui donne le nombre d individus, en volume ou en %, qui ont simultanément répondu à la modalité i (i=1,i) de la variable X k (k=1,k) et à la modalité j (j=1,j) de la variable X -k (k=1,k) Exemple 1: 72% des personnes interrogées sont des femmes qui fument Exemple 2: on compte 54 femmes qui fument parmi les personnes interrogées
Le test d indépendance 1. L inférence statistique: quelle confiance aux résultats? 2. Test d indépendance et khi-2 3. Choisir la méthode (insertion du contenu) La relation statistique existe toujours La relation statistique n est pas toujours fiable 4. Principe de la valeur-test (v-test)
Exemple L ieu d achat/sexe P harm acie A illeurs N R T otal M asculin 30 90 0 120 F ém inin 60 40 20 120 T otal 90 130 20 240 Ce tri croisé révèle-t-il une différence significativede comportements de lieu d achat des préservatifs selon le sexe?
Exemple P harm acie A illeurs N R Σ M 30 90 0 120 F 60 40 20 120 Σ 90 130 20 240 Tableau théorique d indépendance Tableau empirique P harm acie A illeurs N R Σ M 45 65 10 120 F 45 65 10 120 Σ 90 130 20 240
Exemple Sous l hypothèse H 0 d indépendance, on a : χ 2 où υ = ( l 1)( c 1) = (2 1)(3 1) = 2. υ Dans la table, on lit la valeur critique du Khi-deux ainsi : υ = 2, α = 5%, χ = 5,99. 2 critique La valeur calculée est supérieure à la valeur critique, on rejette H 0 et le comportement de lieu d achat ne peut être considéré comme totalement indépendant du sexe o t 2 ( n n ) ( 30 45) ( 90 65) ( 0 10) ( 60 45) ( 40 65) ( 20 10) n i i d1 = = + + + + + i= 1 t n i 45 65 10 45 65 10 = 5 + 9, 62 + 10 + 5 + 9, 62 + 10 = 49, 24 2 2 2 2 2 2
La table du Khi-deux
Le critère de la valeur-test Spad utilise le critère de la valeur-test (ou v-test) pour faciliter l interprétation des résultats. Spad nous évite de regarder dans une table de probabilité (Poisson, Chi-deux ) pour comparer la statistique calculée à la statistique théorique. L interprétation est simple : plus la valeur-test est importante et moins il y a de chances pour que le comportement observé soit le fruit du hasard. On peut même avancer que dès que la valeur-test est supérieure à 2, en valeur absolue, on peut considérer que des facteurs autres que le hasard (il reste évidemment à les rechercher) interviennent dans les différences de comportements observées. Mais, la v-test ne reste qu un outil d aide à l interprétation et le test sous-jacent (chideux, Student, Fisher, Wald, etc.) doit être présenté:«pour étudier la significativité de cette statistique, un test de Student a été effectué. Spad a donné, pour ce test, une valeur-test égale à-4,35, révélant ainsi la significativité de la statistique et nous permettant d aller plus loin dans nos investigations.» Pour chaque méthode, vous devrez rappeler ceci.
Valeur-test et test du Chi-deux Si valeur-test >2 : il y a dépendance Khi-deux # Valeur-Test Si valeur-test <2 : il y a indépendance
tape 1 : choix de la Étape 1 : choix de la variable ligne
Nous avons choisi la variable La Nous avons choisi la variable La famille est le seul endroit où l on se sente bien
tape 2 : choix de la Étape 2 : choix de la variable colonne
Nous avons choisi la Nous avons choisi la variable Avez-vous eu des enfants?
On valide ce tri croisé. On peut On valide ce tri croisé. On peut faire plusieurs tris en renouvelant l opération et les mettre dans la liste des commandes.
Le tri est validé et Le tri est validé et on peut lancer l exécution
La procédure a bien fonctionné Les résultats sont là ils vous attendent!
Commençons avec les résultats graphiques
Fermer cette fenêtre
Cliquer sur cet Cliquer sur cet item
La partie rouge représente l excès de ceux qui ont eu des enfants parmi ceux qui pensent que la famille est le seul endroit où l on se sent bien, par rapport à une situation d indépendance entre les deux modalités (sur-représentation des individus ayant répondu oui à la question Avez-vous eu des enfants parmi ceux qui pensent que la famille est le seul endroit où l on se sent bien).
La partie bleue mesure l insuffisance de ceux qui n ont pas eu des enfants parmi ceux qui pensent que la famille est le seul endroit où l on se sent bien, par rapport à une situation d indépendance entre les deux modalités (sous-représentation des individus ayant répondu non à la question Avez-vous eu des enfants parmi ceux qui pensent que la famille est le seul endroit où l on se sent bien).
Passons aux résultats chiffrés
Cliquons ici pour développer ce dossier 1 2 Puis, cliquons ici pour développer ce dossier 3 Enfin, cliquons ici pour afficher le tableau
Chaque cellule contient 3 tris croisés (un en volume et les deux autres en %) La valeur-test associée au tests du Chi-deux est supérieure à 2, en valeur absolue. Les deux variables sont donc significativement liées et nous pouvons interpréter ce tableau. Le khi carré est une mesure qui n'indique que l'existence d'un lien, mais non la force du lien entre les variables. Cela nous limite considérablement. Pour étudier la relation entre deux variables, il faut prendre les coefficients de contingence, le T de Tschuprow, le V de Cramer ou le phi.
187personnes ont eu des enfants ET considèrent que la famille est le seul endroit où l on se sent bien.
Parmi les personnes qui ont eu des enfants, 76,95% considèrent que la famille est le seul endroit où l on se sent bien.
Parmi les personnes qui considèrent que la famille est le seul endroit où l on se sent bien, 82,38%ont eu des enfants.
Passons aux résultats sous Excel
Même tableau qu avec l éditeur de Spad (un peu plus présentable)
On a prélevé d une base de données d une grande entreprise de service, un échantillon aléatoire d une quarantaine d employés de niveau «cadres intermédiaires». Les employés ont été regroupés selon le sexe ; les données obtenues sont présentées dans la feuille Excel présentée ci-contre.
Suite à une discussion avec un cadre du département des ressources humaines affirmant que les cadres de sexe féminin sont moins bien rémunérés que ceux du sexe masculin, on veut comparer le salaire annuel moyen selon le sexe de l employé. L affirmation du cadre du département des ressources humaines est-elle fondée? Nous allons utiliser un seuil de signification de 5%. On suppose que les données obtenues pour chaque groupe d employés sont distribués normalement avec variances inconnues mais supposées égales à une valeur communeσ 2
Table de Student (tronquée) Degrés de liberté Seuil de confiance
Programmation de ce test paramétrique sous Spad Base utilisée : Salaires par sexe.xlsx
Double-cliquez ici
On a deux échantillons indépendants Doublecliquez ici
Double-cliquez ici pour le paramétrage
Cliquez ici pour sélectionner les variables puis ok
Cliquez ici pour paramétrer le test
Il faut changer ce paramètre (car on veut un test unilatéral à droite) Seuil de significativité (5% ok) Variances égales supposées (oui)
Cliquez ici et Spadva faire les calculs
Allons consulter les résultats en doublecliquant ici (donnés sous forme de PDF)