Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : T.P. 8 - Exercice 1 Khi-Carré d ajustement Distribution de fréquences, proportions. Test χ d ajustement. Table de distribution des χ. Les vacances de Pâques approchent c est l occasion de revoir tous les TP en travaillant en parallèle avec votre cours théorique. Attention : les exercices supplémentaires font partie de la matière d examen. Voir cours théorique, chapitre 5. Rappel : Un test couramment utilisé en inférence statistique est le test khi-carré ( χ ). Il est utilisé lorsqu on s intéresse à des données qui se mesurent sur des échelles nominales (variables catégorielles). À ce TP, nous allons examiner deux tests χ distincts : le test χ d ajustement et le test χ d indépendance. Le test χ d ajustement compare la distribution de fréquences d un échantillon (fréquences relatives ou fréquences absolues) par rapport à la distribution de fréquences attendues (théoriques). Il permet donc d évaluer dans quelle mesure les données que vous obtenez dans votre échantillon lors d une expérience sont bien ajustées aux données théoriques attendues. Il est utilisé lorsque la procédure de mesure (par exemple un test de personnalité) permet de classer les individus (ou tout autre éléments) en plusieurs catégories (personnalité dépressive, schizophrène ). La proportion d individus que vous obtenez dans chaque catégorie de votre échantillon (vos fréquences observées) est ensuite comparée à la proportion d individus dans chaque catégorie qu on s attend à observer dans la population toute entière (fréquences attendues). Soit : J ( Oj - E j) c calculé = j= 1 E j avec : O j = fréquence observée E j = fréquence attendue (expected) En pratique, la première étape consiste à poser une hypothèse nulle ( H 0 ) avant de récolter ses données. Pour un test khi-carré d ajustement, cette H 0 est soit une répartition des sujets au hasard dans chaque catégorie soit une répartition des sujets conforme à une distribution connue. La seconde étape consiste à calculer la valeur du khi carré sur base de l échantillon (khi carré calculé) et d observer si elle est située dans une zone de rejet ou de non rejet de l hypothèse nulle. Les valeurs que peut prendre la distribution du khi carré dépendent du nombre de degrés de liberté. Pour le trouver, la formule suivante est utilisée : D.L. = J-1 où J = le nombre de catégories de la variable Une fois qu on a les degrés de liberté et la valeur calculée du khi carré calculé, on cherche dans la table de distribution khi-carré, une valeur de khi carré théorique à laquelle on la compare. TTP 8-006-007 1/3
Si χ < il y a non rejet de l hypothèse nulle. calculé χ théorique Si χ il y a rejet de l hypothèse nulle. calculé χ théorique Dans ce dernier cas, on considère que la différence est significative avec maximum 5% de risque de se tromper..05 est le seuil habituellement utilisé en psychologie mais il existe d autres tables plus conservatrices qui utilisent un risque d erreur accepté inférieur, comme par exemple.01. À titre d exemple, voici une courbe de χ pour 3 degrés de liberté, laissant, sur la droite une zone de rejet de l hypothèse nulle (avec une marge d erreur de 5%) avec comme χ théorique une valeur de 7,81 (au-delà de laquelle nous sommes de la zone de rejet de l hypothèse nulle). Zone de non rejet de l hypothèse nulle (NRH 0 ) Zone de rejet de l hypothèse nulle (RH 0 ) N.B. : Dans la légende des graphiques que nous vous proposons dans ce T.P. : Area = Taille de la zone de rejet (en termes de probabilité d erreur) Low = valeur critique qui délimité la zone de rejet et la zone de non rejet de H 0. Df = degrees of freedom (degrés de liberté) Un chercheur s intéresse aux boissons préférées dans une population. Il pose la question suivante à un échantillon de 30 participants : «Préférez-vous boire du thé ou du café?» Il ne s attend pas à observer de préférence pour une de ces boissons. 1. Quelle est l hypothèse nulle? Dans son groupe, 11 personnes préfèrent le thé et 19 le café.. Représentez ces données sous la forme d un tableau indiquant les fréquences absolues observées et attendues. 1 E pour expected, qui signifie attendue en anglais. TTP 8-006-007 /3
La question est de savoir si la différence entre les fréquences observées dans l échantillon et les fréquences attendues (sous l hypothèse nulle) sont dues au hasard ou reflètent une véritable préférence pour le café dans la population. 3. Quelle est la valeur de χ? 4. Combien y a-t-il de degrés de liberté (D.L.)? 5. Au niveau de signification minimum de.05 et au niveau de D.L. approprié, quelle est la valeur théorique de χ? Schématisez votre réponse à l aide d un graphique. 6. Que pouvez-vous conclure par rapport aux préférences thé-café? TTP 8-006-007 3/3
T.P. 8 - Exercice Khi-Carré d ajustement Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : Distribution de fréquences, proportions. Test χ d ajustement. Table de distribution des χ. Un chercheur s intéresse aux facteurs qui déterminent le choix des cours des étudiants. Il pose la question suivante à un échantillon de 50 étudiants : «Parmi les 4 facteurs suivants, lequel est le plus important lorsque vous sélectionnez un cours?». Les étudiants doivent choisir 1 des 4 propositions suivantes : - l intérêt pour le contenu du cours ; - le degré de complexité de l examen ; - le professeur ; - l heure à laquelle le cours se donne. Voici les résultats que le chercheur obtient : O (fréquences absolues observées) Contenu cours Examen Professeur Horaire 18 17 7 8 Sur base de ces données, le chercheur peut-il conclure qu un facteur (ou plusieurs facteurs) est (sont) plus important(s) que les autres? Il teste à un niveau de signification.05. 1. Quelle est l hypothèse nulle?. Représentez ces données sous la forme d un tableau indiquant les fréquences absolues observées et attendues. TTP 8-006-007 4/3
3. Quelle est la valeur calculée de χ? 4. Quel est le nombre de degrés de liberté? 5. Au niveau de signification.05, quelle est la valeur théorique de χ? 6. L hypothèse nulle est-elle rejetée? Que concluez-vous? Schématisez votre réponse à l aide d un graphique. TTP 8-006-007 5/3
T.P. 8 - Exercice 3 Khi-Carré d ajustement Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : Distribution de fréquences, proportions. Test χ d ajustement. Table de distribution des χ. En 1908, en France, Binet publie une étude concernant la mesure de l intelligence des enfants. Son échelle d intelligence se base sur un certain nombre d épreuves classées dans un ordre croissant de difficulté. Un niveau d âge est attribué à chaque épreuve qui correspond au plus jeune âge auquel un enfant d intelligence normale réussit l épreuve. L enfant commence le test de Binet par les épreuves de l âge le plus jeune et poursuit la série d épreuves jusqu à ce qu il échoue. L âge associé à ces dernières épreuves devient son âge mental et son niveau intellectuel général est calculé en soustrayant son âge chronologique à son âge mental. On peut donc «classer» l enfant dans une des 5 catégories suivantes : retardé de ans, retardé d 1 an, régulier, avancé de 1 an et avancé de ans. Voici les données, en fréquences relatives, que Binet obtient sur un échantillon de 19 enfants : - -1 0 +1 + 0,06 0,3 0,48 0, 0,01 Des chercheurs, un américain (Goddard) et un allemand (Bobertag) font passer le test de Binet (traduit en anglais/allemand et adapté culturellement) à un échantillon de 1547 enfants américains (Goddard) et 8 enfants allemands (Bobertag). Ils obtiennent les données suivantes, en fréquences absolues : - -1 0 +1 + Goddard 94 309 557 35 6 Bobertag 6 40 119 57 6 Les données obtenues par le chercheur américain et l allemand reflètent-elles la distribution obtenue chez les enfants français (niveau de signification.05)? 1. Enfants américains (données de Goddard) a) Quelle est l hypothèse nulle dans cette recherche? TTP 8-006-007 6/3
b) Complétez le tableau suivant. O j - -1 0 +1 + E j c) Déterminez les valeurs de χ calculé, χ théorique et les degrés de liberté. Tracez le graphique qui vous aidera à visualiser l idée de rejet et de non rejet de l hypothèse nulle. d) Que pouvez-vous tirer comme conclusion?. Enfants allemands (données de Bobertag) a) Quelle est l hypothèse nulle dans cette recherche? b) Complétez le tableau suivant. - -1 0 +1 + O j 6 40 119 57 6 E j 13,68 5,44 109,44 50,16,8 TTP 8-006-007 7/3
c) Déterminez les valeurs de χ calculé, χ théorique et les degrés de liberté. d) Que pouvez-vous tirer comme conclusion? TTP 8-006-007 8/3
T.P. 8 - Exercice 4 Khi-Carré d indépendance Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : Distribution de fréquences, proportions. Test χ d indépendance. Table de distribution des χ. Le test χ d indépendance porte sur variables catégorielles et a pour but d évaluer si ces variables sont indépendantes. L hypothèse nulle est qu il y a une parfaite indépendance entre les variables. La logique de ce test est la même que pour le test χ d ajustement. On prélève un échantillon et chaque individu de l échantillon est évalué sur variables séparées. L échantillon de données servira pour tester une hypothèse par rapport à l indépendance des variables dans la population. Par exemple, un groupe d étudiants est classé en termes de personnalité (introvertie, extravertie) et de groupe sanguin (A, B, AB, 0). Ces données se notent dans un tableau de contingence des fréquences absolues observées. Par exemple, pour un échantillon de 47 étudiants, on pourrait avoir le tableau suivant : A B AB 0 total introverti 6 7 6 6 5 extraverti 6 6 8 Total 1 9 1 14 N=47 Ces fréquences observées sont comparées aux fréquences attendues sous l hypothèse nulle. Ensuite, on calcule la valeur du χ pour déterminer dans quelle mesure les valeurs observées s accordent avec les valeurs attendues et on se sert de la table de distribution de conclure à propos de l indépendance des variables examinées. Le test χ d indépendance utilise exactement la même formule que le test χ = J K j= 1 k= 1 ( O - E ) jk E jk jk χ pour χ d ajustement : Les fréquences attendues (E jk ) se calculent sur base des fréquences marginales et de N. ( fréq. colonne fréq. ligne) = N E jk Les degrés de liberté s obtiennent par le calcul suivant pour le χ d indépendance : avec : D. L. = ( J 1)( K 1) J= nombre de catégories de la variable A (en ligne) K = nombre de catégories de la variable B (en colonne) TTP 8-006-007 9/3
Les conditions d application du test χ sont : N = 30 : c est bien le cas dans notre exemple N = 40 ; tous les E jk > 0 (c est aussi le cas) ; 80% des E jk = 5 : 7 cellules sur 8 (soit 87,5 %) possèdent une valeur attendue supérieure à 5. Une étude porte sur l occurrence d un comportement d aide à personne en danger en fonction du nombre d observateurs. Les sujets sont confrontés à un individu (la victime) qui simule une crise d épilepsie. Les expérimentateurs observent si le sujet manifeste un comportement d aide à la personne en danger ou pas. La taille du groupe varie : (sujet + «victime»), 3 ou 6 personnes). Voici les fréquences observées : pers 3 pers 6 pers Total Aide 11 16 4 Non aide 10 9 Total 1. Complétez le tableau ci-dessus avec les fréquences marginales absolues.. Quelle est l hypothèse nulle? 3. Calculez les fréquences attendues. TTP 8-006-007 10/3
4. Calculez les degrés de liberté et localisez la région critique pour un seuil de.05. Représentez la valeur de χ trouvée sur un graphique et indiquez-y les zones de rejet et de non rejet de l hypothèse nulle. 5. Calculez la valeur du χ calculé. 6. Que pouvez-vous conclure? TTP 8-006-007 11/3
T.P. 8 - Exercice supplémentaire 1 Khi-Carré Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : Distribution de fréquences, proportions. Tests χ ; choix du test. Table de distribution des χ. Un chercheur prétend que la répartition de la population sur les 4 classes de groupe sanguin est uniforme, en d autres termes la population se répartit sur les 4 classes de manière identique. Sur base des données de la variable «groupe sanguin», pouvez-vous confirmer ou infirmer cette affirmation? Groupe Effectif sanguin 1. A 73 Effectif relatif Probabilité attendue Effectif attendu (O j -E j )²/E j. B 3. AB 9 4. O 77 Total 1. Complétez le tableau ci-dessus.. Déterminez les 3 dernières colonnes du tableau. Nous souhaitons vérifier si la distribution de la variable groupe sanguin est uniforme, ce qui revient à dire que les 4 groupes sont équiprobables. 3. Quel test allons-nous utiliser pour vérifier cela? 4. Quelle est l hypothèse nulle? TTP 8-006-007 1/3
5. Que vaut la statistique de test χ calculé? 6. Combien de degrés de liberté compte la loi Khi-carré pour ce test? 7. Si nous fixons le niveau d erreurs à 5 %, à partir de quelle valeur pourrons-nous rejeter l hypothèse que la distribution du groupe sanguin sur la population est uniforme? Que faut-il faire pour répondre à cette question? Représentez graphiquement la zone de rejet et la zone de non rejet de l hypothèse nulle. 8. Que pouvez-vous conclure? TTP 8-006-007 13/3
T.P. 8 - Exercice supplémentaire Khi-Carré Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : Distribution de fréquences, proportions. Tests χ ; choix du test. Table de distribution des χ. Nous souhaitons vérifier si la répartition du groupe sanguin entre les 4 classes dépend du sexe des individus. À cet effet, considérons les 181 données de notre échantillon. 1. Quel test devrons-nous utiliser pour répondre à cette question sur base de notre échantillon ci-dessous.. Le tableau ci-dessous est le tableau de contingence des deux variables SANG et SEXE (O jk ). Déterminez les fréquences marginales et indiquez-les dans le tableau. SEXE SANG Masculin Féminin Total A 1 61 B 6 16 AB 1 8 O 5 5 Total TTP 8-006-007 14/3
3. Déterminez le tableau des effectifs attendus (E jk ) s il y a indépendance entre les deux variables : SEXE SANG Masculin Féminin Total A B AB O Total 4. Déterminez le tableau des carrés des écarts entre les effectifs observés et attendus divisés par les effectifs attendus ((O jk E jk )²/ E jk ) : SEXE SANG Masculin Féminin A B AB O 5. Que vaut la statistique de test χ calculé (mesure de l écart entre les deux tableaux) : 6. Combien de degrés de liberté compte la loi Khi-carré que nous utilisons ici? TTP 8-006-007 15/3
7. Si nous fixons le niveau d erreurs à 5 %, à partir de quelle valeur de χ théorique pourrons-nous rejeter l hypothèse que les distributions du groupe sanguin et du sexe sont indépendantes? Représentez graphiquement la zone de rejet et la zone de non rejet de l hypothèse nulle. 8. Que pouvez-vous conclure? 9. Les conditions d application du test Khi-carré sont-elles bien remplies? TTP 8-006-007 16/3
T.P. 8 - Exercice supplémentaire 3 Khi-Carré Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : Distribution de fréquences, proportions. Tests χ ; choix du test. Table de distribution des χ. Nous avons vu au TP 7 que, lors de lancers d un dé bien équilibré, le nombre de fois que le 6 sortait au cours de 5 lancers successifs suivait une loi binomiale Bi(5;1/6). Pour vérifier que cette séquence est bien distribuée suivant une loi Bi(5; 1/6), un joueur incrédule décide de faire 30 séries de 5 lancers successifs et dénombre pour chaque série le nombre de fois que le 6 est sorti. Il obtient le tableau suivant reprenant le résultat des 30 séries : 1 1 1 1 1 0 1 0 1 0 0 0 1 0 1 0 0 0 1 1 0 1 1 0 0 Nombre de sorties Effectif du 6 0 1 Effectif relatif Probabilité attendue Bi(5;1/6) Effectif attendu [O j -E j ]²/E j 1 13 5 3 0 4 0 5 0 Total 30 1. Complétez le tableau ci-dessus.. Que vaut la statistique de test χ calculé? TTP 8-006-007 17/3
3. Combien de degrés de liberté compte la loi Khi-carré dans ce cas-ci? 4. Si nous fixons le niveau d erreurs à 5 %, à partir de quelle valeur de χ théorique pourrons-nous rejeter l hypothèse que la distribution de la variable «Nombre de sorties du 6 au cours de 5 lancers successifs» suit une loi binomiale Bi(5;1/6)? Représentez la distribution χ en indiquant les zones de rejet et de non rejet ainsi qu en y plaçant (approximativement) les χ et χ. théorique calculé 6. Que pouvez-vous conclure? 7. Les conditions d application du test Khi-carré sont-elles bien remplies? TTP 8-006-007 18/3
T.P. 8 - Exercice supplémentaire 4 Khi-Carré Trente sept étudiants d une promotion ont été répartis, en début d année académique, de manière strictement aléatoire dans trois séries de travaux pratiques de statistique dirigés par trois assistants différents A1, A et A3. Les résultats obtenus par les étudiants de chaque série sont notés sur 10 et regroupés dans le tableau suivant. Assistant Note des étudiants (sur 10) A1 9 5,5 6 3 3 7 5 0 8 4,5 7 A 4 3 6 8 3 5 7 7 4,5 3,5 0 A3 8 6 4 8 10 4 4,5 5 7 8 10 9 6 Afin d étudier l indépendance des résultats par rapport à la série d appartenance de l étudiant, un chercheur fait un décompte en termes de nombre de réussites et d échecs par série de travaux pratiques. 1. Quel test devons-nous utiliser?. Quelle est l hypothèse nulle de notre chercheur? 3. Complétez le tableau ci-dessous par les effectifs observés (à partir de 5/10 le résultat est considéré comme une réussite) : Echec Réussite Total Série A1 Série A Série A3 Total 4. Complétez le tableau de contingence ci-dessous avec les effectifs théoriques attendus sous l hypothèse d indépendance. Echec Réussite Total Série A1 Série A Série A3 Total TTP 8-006-007 19/3
5. Complétez le tableau de mesure des écarts entre le tableau de contingence observé et le tableau de contingence attendu sous l hypothèse d indépendance. Echec Réussite Série A1 Série A Série A3 6. Que vaut la statistique de test χ calculé? 7. Combien de degrés de liberté comporte la distribution Khi-carré de notre exercice? 8. Si le niveau d erreur auquel nous souhaitons travailler est fixé à 5 %, déterminez la limite séparant la zone d acceptation et la zone de rejet de l hypothèse d indépendance. Placez cette valeur sur un graphique ainsi que le χ. calculé 9. Que pouvez-vous conclure? TTP 8-006-007 0/3
T.P. 8 - Exercice supplémentaire 5 Khi-Carré Supposons qu un sondage d opinion réalisé dans les années 70 donne les résultats suivants : 15% des sujets sont en faveur de la régularisation de la marijuana, 79% sont contres et 6% sont sans opinion. Admettons qu aujourd hui, nous prenions un échantillon de 0 personnes et que 38 des personnes interrogées soient pour, 165 contre et que 17 soient sans opinion. En acceptant une marge d erreur de 5%, pourrions-nous dire qu il y a une différence significative entre les résultats obtenus dans notre échantillon et celui des années 70? N.B. : Pour cet exercice, nous ne vous posons pas de questions intermédiaires. Il faut cependant que votre réponse soit complète. TTP 8-006-007 1/3
. Un scientifique veut savoir s il y a un lien entre la dominance manuelle et la dominance oculaire. Un échantillon aléatoire de 150 sujets est sélectionné. Pour chaque sujet, le chercheur détermine deux choses : - Si la personne est droitière ou gauchère ; - Quel est l œil que la personne préfère utiliser pour regarder à travers le viseur d un appareil photo. Le tableau des fréquences observées est le suivant : Préférence oculaire Préférence manuelle Gauche Droite Gauche 0 40 Droite 10 80 Y a-t-il une relation entre les deux variables? Choisissez un seuil de.05. TTP 8-006-007 /3
. Un chercheur pense que les personnes avec une faible estime d eux-mêmes auront tendance à éviter les situations qui attireront l attention sur elles. Un échantillon aléatoire de 7 personnes est sélectionné. Chaque personne est soumise à un test standardisé qui mesure l estime de soi en la définissant comme haute, moyenne ou faible. Les sujets sont ensuite placés dans une situation dans laquelle ils doivent choisir entre une tâche qui devra être effectuée devant les autres et une tâche qui devra être effectuée par la personne seule. Le chercheur note le choix de ses sujets et dresse le tableau de fréquences suivant : Estime de soi Tâche En public Sans public Faible 4 16 Moyenne 14 14 Haute 18 6 Y a-t-il un lien entre estime de soi et le choix de la tâche à un seuil de.05. TTP 8-006-007 3/3