STT-1920 Méthodes statistiques Solutions des exercices du chapitre 7 Numéro 1. Voici les pourcentages pour chacun des 4 groupes sanguins au Canada : Groupe O A B AB Proportion 0.46 0.39 0.11 0.04 On a déterminé le groupe sanguin de 200 personnes choisies au hasard parmi la population de Chicoutimi. Voici les résultats : Groupe O A B AB Fréquence observée 85 75 27 13 (a) Au seuil 5%, est-ce qu on accepte ou est-ce qu on rejette l hypothèse nulle selon laquelle la distribution des groupes sanguin à Chicoutimi est la même qu au Canada en général? Énoncez vos hypothèses. Énoncez votre règle de décision au seuil 5%. Avec les données présentées ci-dessus, quelle est votre décision au seuil 5%? Quel est votre p-value? (b) Si votre H 0 était vraie, quelle serait la distribution de votre statistique de test? (c) Si votre H 0 était vraie, quelle serait la distribution du nombre de personnes de type sanguin AB dans un échantillon de 200 personnes? Solution. (a) Les hypothèses : H 0 : (p 1, p 2, p 3, p 4 ) (0.46, 0.39, 0.11, 0.04) H 1 : (p 1, p 2, p 3, p 4 ) (0.46, 0.39, 0.11, 0.04) La règle de décision au seuil 5% : 4 (O j E j ) 2 E j χ 2 3,0.05 E 1 np 1 200 0.46 92 E 2 np 2 200 0.39 78 E 3 np 3 200 0.11 22 E 4 np 4 200 0.04 8 1
O i E i (O i E i ) 2 /E i O 85 92 0.533 A 75 78 0.115 B 27 22 1.136 AB 13 8 3.125 Total 200 200 4.909 La table nous donne χ 2 3,0.05 7.81. Au seuil 5%, il n y a pas lieu de rejeter H 0. Le p-value est la surface à droite de 4.909 sous la densité de la loi du khi-deux avec 3 degrés de liberté. D après la table, ce p-value est quelque part entre 0.1 et 0.5. D après le logiciel R, ce p-value est 0.178. (b) Sous H 0, on a (c) Sous H 0, on a 4 (O j E j ) 2 E j χ 2 3 O 4 binomiale(200, 0.04). Numéro 2. Les fleurs d une certaine espèce sont ou bien rouges, ou bien blanches, ou bien roses. D un point de vue génétique, les deux premiers types sont purs alors que les fleurs roses sont des hybrides obtenues en croisant une rouge et une blanche. Selon Mendel, si on croise deux fleurs roses, on obtient des rouges 25% du temps, des roses 50% du temps et des blanches 25% du temps. On a fait une expérience. Parmi 564 fleurs obtenues en croisant deux fleurs roses, on a observé 141 fleurs rouges, 291 fleurs roses et 132 fleurs blanches. Est-ce que ces observations sont cohérentes avec la théorie de Mendel? Expliquez. Solution. On procède comme au numéro 1. Les hypothèses : La règle de décision au seuil α : H 0 : (p 1, p 2, p 3 ) (0.25, 0.50, 0.25) H 1 : (p 1, p 2, p 3 ) (0.25, 0.50, 0.25) 3 (O j E j ) 2 E j χ 2 2,α E 1 np 1 564 0.25 141 E 2 np 2 564 0.50 282 E 3 np 3 564 0.25 141 2
O i E i (O i E i ) 2 /E i Rouge 141 141 0.000 Rose 291 282 0.287 Blanche 132 141 0.574 Total 564 564 0.861 Sous H 0, notre statistique de test suit la loi du khi-deux avec 2 degrés de liberté. Donc, sous H 0 on s attend à ce que notre statistique de test soit environ 2, plus ou moins environ 2. On a obtenu la valeur 0.861. C est cohérent avec ce à quoi on s attend sous H 0. Bref, il n y a pas lieu de rejeter H 0. Le p-value est la surface à droite de 0.861 sous la densité de la loi du khi-deux avec 2 degrés de liberté. D après la table, ce p-value est quelque part entre 0.5 et 0.9. D après le logiciel R, ce p-value est 0.650. Numéro 3. Une expérience a été réalisée afin de comparer 4 insecticides, disons les insecticides A, B, C et D. Chaque insecticide a été utilisé sur un groupe de mouches. Dans chaque cas, on a noté combien de mouches sont mortes et combien de mouches ont survécu. Voici les résultats : Insecticide Mouches mortes Mouches vivantes Nombre de mouches A 58 57 115 B 43 77 120 C 56 42 98 D 45 75 120 Y a-t-il une différence significative entre les taux de succès de ces différents insecticides? Expliquez. Solution. On fait un test d homogénéité de 4 populations dichotomiques. Voir section 7.2, avec I 4 et J 2. On veut donc tester H 0 : (p A1, p A2 ) (p B1, p B2 ) (p C1, p C2 ) (p D1, p D2 ) H 1 : Ces 4 distribution ne sont pas identiques. Notez que puisque J 2, ces hypothèses peuvent aussi être écrites de la façon suivante : H 0 : p A1 p B1 p C1 p D1 H 1 : Ces 4 proportions ne sont pas toutes égales. Ici p A1, p B1, p C1 et p D1 dénotent les taux de succès des différents insecticides. Voici la règle de décision : 4 2 (O ij ) 2 χ 2 E 3,0.05. ij 3
Le nombre de degrés de liberté a été obtenu avec la formule (I 1)(J 1) (4 1)(2 1) 3 1 3. Avec R ou avec la table, j obtiens χ 2 3,0.05 7.815. Pour calculer mes fréquences espérées, j utilise la règle du produit croisé. Voici les résultats : Insecticide Mouches mortes Mouches vivantes Somme ligne A 58 57 115 (51.28) (63.72) B 43 77 120 (53.51) (66.49) C 56 42 98 (43.70) (54.30) D 45 75 120 (53.51) (66.49) Somme colonne 202 251 453 On calcule la valeur observée de notre statistique de test. Il y a 8 termes dans cette double somme. On obtient 4 2 (O ij ) 2 14.01. Cette valeur est supérieure à la valeur χ 2 3,0.05 7.815. Conclusion : au seuil 5% on rejette H 0. En fait, le p-value est 0.0029 (surface à droite de 14.01 sous la densité de la loi du khi-deux avec 3 degrés de liberté, obtenu avec R-Commander). On conclut que les insecticides n ont pas tous le même taux de succès. En regardant les fréquences relatives (proportions de mouches tuées) pour chaque insecticide, on voit que le C a sensiblement plus de succès que les autres. Numéro 4. On considèe deux traitements pour le mal de mer, disons le traitement A et le traitement B. On réalise une étude avec 90 volontaires. Parmi eux, 45 recoivent le traitement A et 45 recoivent le traitement B. Les 90 volontaires font ensuite un voyage en mer d une durée de 4 heures dans des conditions difficiles. Voici les résultats : Type de nausée Aucune Faible Moyenne Forte Total Traitement A 18 17 6 4 45 Traitement B 11 14 14 6 45 Y a-t-il lieu de conclure que ces deux traitements sont différents? Solution. On veut vérifier si les distributions sont homogènes pour les deux traitements. Il s agit d un test d homogénéité de deux distributions avec 4 valeurs possibles Voir section 7.2, avec I 2 et J 4. 4
Les hypothèses : H 0 : (p A1, p A2, p A3, p A4 ) (p B1, p B2, p B3, p B4 ) H 1 : La règle de décision au seuil 5% : Ces distributions ne sont pas égales 2 4 (O ij ) 2 χ 2 3,0.05 On calcule les fréquences espérées avec la règle du produit croisé. Voici les fréquences observées et les fréquences espérées : Type de nausée Aucune Faible Moyenne Forte Somme ligne Traitement A 18 17 6 4 45 (14.5) (15.5) (10.0) (5.0) Traitement B 11 14 14 6 45 (14.5) (15.5) (10.0) (5.0) Somme colonne 29 31 20 10 90 2 4 (O ij ) 2 (18 14.5)2 14.5 5.58 (17 15.5)2 15.5 (6 10.0)2 10.0... La table nous donne χ 2 3,0.05 7.81. Au seuil 5%, il n y a pas lieu de rejeter H 0. Le p-value est la surface à droite de 5.58 sous la densité de la loi du khi-deux avec 3 degrés de liberté. D après la table, ce p-value est compris entre 0.1 et 0.5. D après le logiciel R, ce p-value est 0.1339. On ne peut donc pas conclure que les traitements A et B contre le mal de mer sont significativement différents. Numéro 5. Deux cents plants ont été classés selon l apparence du plant au moment de la floraison (inférier, moyen, supérieur) et selon la qualité du fruit au moment de la récolte (inférieur, moyen, supérieur). Voici les résultats : Apparence du plant Qualité du fruit Inférieur Moyen Supérieur Total Inférieur 18 16 10 44 Moyen 27 61 17 105 Supérier 12 16 23 51 Total 57 93 50 200 5
Y a-t-il lieu de conclure que les variables X Apparence du plant et Y Qualité du fruit sont dépendantes? Solution. Les hypothèses : H 0 : H 1 : L apparence du plant et la qualité du fruit sont indépendantes L apparence du plant et la qualité du fruit ne sont pas indépendantes La règle de décision au seuil 5% : 3 3 (O ij ) 2 χ 2 4,0.05 Calcul des fréquences espérées : O i O j n E 11 O 1 O 1 n E 23 O 2 O 3 n 44 57 200 105 50 200 12.54 26.25 Apparence du plant Qualité du fruit Inférieur Moyen Supérieur Total Inférieur 18 16 10 44 (12.54) (20.46) (11.00) Moyen 27 61 17 105 (29.93) (48.83) (26.25) Supérieur 12 16 23 51 (14.54) (23.72) (12.75) Total 57 93 50 200 3 3 (O ij ) 2 (18 12.54)2 12.54 (16 20.46)2 20.46 (10 11.00)2 11.00... 21.21 La table nous donne χ 2 4,0.05 9.94. Au seuil 5%, il y a lieu de rejeter H 0. 6
Le p-value est la surface à droite de 21.21 sous la densité de la loi du khi-deux avec 4 degrés de liberté. D après la table, ce p-value est inférieur à 0.005. D après le logiciel R, ce p-value est 0.00029. On peut donc conclure que ces deux variables ne sont pas indépendantes. Toutes proportions gardées, on voit que lorsqu un plant a une apparence plus belle, ses fruits tendent à être de meilleure qualité. 7