L1 Psycho Statistiques descriptives STATISTIQUES DESCRIPTIVES BIVARIÉES Exercice 1. Un site internet reçoit 113 457 visiteurs durant un mois. On désigne par X le navigateur internet utilisé et Y le système d exploitation utilisé. X \ Y Windows Mac Linux Chrome 14103 116 427 Firefox 3053 4392 3234 Internet Explorer 4739 23 0 Safari 66 6416 0 Autres 2974 40 1752 (a) Identifier la population, sa taille ainsi que les variables étudiées en précisant leur type. (b) Quelle est la proportion de visiteurs sous Windows? (c) Quelle proportion de visiteurs utilisent le navigateur Safari? (d) Parmi les utilisateurs de Mac, quelle proportion utilise Chrome? (e) Parmi les utilisateurs de Safari, quelle proportion est sous Windows? ( f) Représenter graphiquement la distribution des proportions par avigateur pour chaque système d exploitation. Les variables X et Y sont-elles indépendantes? Corrigé de l exercice 1. (a) Population : visiteurs du site internet étudié. Individu : un visiteur du site internet. Taille : 113 457. Variables étudiées : on étudie deux variables, à savoir X et Y. La variable X est le navigateur utilisé par le visiteur ; c est une variable qualitative nominale. La variable Y est le système d exploitation utilisé par le visiteur ; c est une variable qualitatif nominale. 1
(b) On recherche la proportion marginale P(Y Windows). Pour cela, on détermine les effecteurs marginaux dans le tableau de contingence : X \ Y Windows Mac Linux TOTAL Chrome 14103 116 427 15716 Firefox 3053 4392 3234 3479 Internet Explorer 4739 23 0 47412 Safari 66 6416 0 704 Autres 2974 40 1752 4766 TOTAL 9597 12057 5413 113457 L effectif marginal de la modalité «Windows» pour Y est donc 95 97. On a donc : P(Y Windows) 95 97 113 457 4,60 %. (c) L effectif marginal de la modalité Safari pour X est 704 donc P(X Safari) 704 113 457 6,24 %. (d) On est sous la condition Y Mac donc on extrait du tableau de contingence la colonne Mac et on calcule les proportions correspondantes : On a donc : X Y Mac Effectif Proportion (%) Chrome 116 9,4 Firefox 4392 36,43 Internet Explorer 23 0,19 Safari 6416 53,21 Autres 40 0,33 TOTAL 12057 100 P(X Chrome Y Mac) 9,4 %. (e) On est sous la condition X Safari, donc on extrait du tableau de contingence la ligne correspondant à Safari : On a donc : Y X Safari Windows Mac Linux TOTAL Effectif 66 6416 0 704 Proportion (%) 9,43 90,57 0 100 P(Y Windows X Safari) 9,43 %. ( f) Puisque l on demande la répartition des proportions, on met les proportions en ordonnée. Puisque l on demande la répartition par avigateur, on met la variable X en abscisse. Finalement, puisque l on demande la répartition pour chaque système d exploitation, on doit 2
déterminer les proportions conditionnelles de X sachant les modalités de Y, c est-à-dire X Y Windows, X Y Mac et X Y Linux. À la question (d), on a déjà déterminer X Y Mac donc il nous reste X Y Windows et X Y Linux : X Y Windows Effectif Proportion (%) Chrome 14103 14,69 Firefox 3053 32,14 Internet Explorer 4739 49,37 Safari 66 0,7 Autres 2974 3,1 TOTAL 9597 100 X Y Linux Effectif Proportion (%) Chrome 427 7,9 Firefox 3234 59,75 Internet Explorer 0 0 Safari 0 0 Autres 1752 32,37 TOTAL 5413 100,01 On est maintenant en mesure de tracer le diagramme en tuyaux d orgues : Proportion (%) 60 50 Windows Mac Linux 40 30 20 10 Chrome Firefox IE Safari Autres avigateur Pour chaque modalité de X, les tuyaux ne sont pas du tout de la même hauteur ; cela signifie que le système d exploitation influe fortement sur le navigateur utilisé. Autrement dit, il n y a pas indépendance entre système d exploitation et navigateur utilisé. Exercice 2. En 15, Francis Galton publie un tableau de données comparant la taille Y des enfants avec la taille X de leurs parents (la taille des parents est égale à la moyenne de la taille 3
du père et de la mère). Pour compenser les différences de tailles entre sexes, toutes les tailles des personnes de sexe féminin ont été multiplié par 1,0. Les tailles sont exprimées en pouces (1 pouce 2,54 cm). X \ Y ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75] ]62 ; 64] 1 2 5 4 2 0 0 0 ]64 ; 66] 2 14 17 32 16 7 1 0 ]66 ; 6] 0 14 36 10 93 34 4 0 ]6 ; 70] 1 47 100 135 4 22 5 ]70 ; 72] 1 1 2 11 3 35 1 5 ]72 ; 74] 0 0 0 0 3 3 13 4 Les bornes des classes extrêmes ont été fixées arbitrairement pour les besoins de l exercice. (a) Préciser la population, les individus, la taille de la population ainsi que les variables étudiées. (b) Quelle est la proportion d enfants dont la taille est comprise entre 65,7 et 67,7? (c) Parmi les enfants dont la taille est comprise entre 71,7 et 73,7, quelle proportion a des parents dont la taille est entre 70 et 72? (d) Quelle est la taille moyenne des enfants dont les parents ont une taille comprise entre 6 et 70? Convertir le résultat en centimètres. (e) Même question pour la taille médiane. ( f) Même question pour l écart-type. Corrigé de l exercice 2. (a) Population : les enfants étudiés par Galton (en notant qu à chaque enfant, on associe ses deux parents). Individu : un enfant (et ses parents). Taille de la population : 93 (c est la somme de tous les éléments du tableau). Variables étudiées : la variable X «taille de l enfant» (quantitative continue) et la variable Y «taille des parents» (quantitative continue). (b) On cherche la proportion marginale P(65,7 X 67,7) : P(65,7 X 67,7) 4 + 32 + 10 + 100 + 11 93 255 93 27,19 %. (c) On cherche la proportion conditionnelle P(X ]70 ; 72] Y ]71,7 ; 73,7]). Pour la calculer, on extrait la colonne Y ]71,7 ; 73,7] du tableau et on calcule les proportions : X Y ]71,7 ; 73,7] Effectifs Proportions (%) ]62 ; 64] 0 0 ]64 ; 66] 1 1,72 ]66 ; 6] 4 6,9 ]6 ; 70] 22 37,93 ]70 ; 72] 1 31,03 ]72 ; 74] 13 22,41 TOTAL 5 4
On a donc P(X ]70 ; 72] Y ]71,7 ; 73,7]) 31,03 %. (d) On regarde la distribution conditionnelle de Y sachant que X ]6 ; 70]. On extrait donc du tableau la ligne correspondante (on met les proportions cumulées pour les questions suivantes) : Y X ]6 ; 70] ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75] TOTAL Effectifs 1 47 100 135 4 22 5 402 Proportions (%) 0,25 1,99 11,69 24, 33,5 20,9 5,47 1,24 Prop. cumul. (%) 0,25 2,24 13,93 3,1 72,39 93,29 9,76 100 Centre 60,5 62,7 64,7 66,7 6,7 70,7 72,7 74,35 La moyenne est donc : µ Y X ]6;70] 1 60,5 + 62,7 + 47 64,7 + 100 66,7 + 135 6,7 + 4 70,7 + 22 72,7 + 5 74,35 27 457,0 402 6,30. 402 Pour convertir en centimètres, on utilise la formule 1 pouce 2,54 cm : µ Y X ]6;70] 6,30 2,54 173,4. (e) La médiane de Y X ]6 ; 70] se calcule à partir des proportions cumulées données dans le tableau précédent. La classe correspondant à la proportion cumulée 50 % est ]a ; b] ]67,7 ; 69,7] donc la médiane est donnée par la formule [ ] 50 P(X a) médiane a + (b a) P(X b) P(X a) [ ] 50 3,1 67,7 + (69,7 67,7) 72,39 3,1 [ 67,7 + 2 11,19 ] 33,5 67,7 + [2 0,3332] 67,7 + 0,67 6,37. Pour convertir en centimètres, on utilise la formule 1 pouce 2,54 cm : médiane 6,37 2,54 173,66. 5
( f) Calculons l écart-type : 1 60,5 2 + 62,7 2 + 47 64,7 2 + 100 66,7 2 + 135 6,7 2 + 4 70,7 2 + 22 72,7 2 + 5 74,35 2 σ Y X ]6;70] 402 1 77 735,57 4664,9 402 4670,9 4664,9 6,09 2,47. µ 2 Y X ]6;70] Pour convertir en centimètres, on utilise la formule 1 pouce 2,54 cm : σ Y X ]6;70] 2,47 2,54 6,27. Exercice 3. Les mesure du nombre X de jours de pluie et de la hauteur Y (en mm) de pluie à Paris tous les 5 ans entre 1960 et 1995 sont récapitulées dans le tableau suivant. année 1960 1965 1970 1975 190 195 1990 1995 X 19 196 199 164 170 163 149 162 Y 739 0 631 65 690 501 501 670 (a) Représenter graphiquement le nuage de points. (b) Calculer le coefficient de corrélation. (c) Y a-t-il une relation de liaison entre les variables X et Y? Corrigé de l exercice 3. (a) Pour tracer un nuage de points, on place chaque donnée individuelle sur un graphique avec X en abscisse et Y en ordonnée : Y (hauteur de pluie) 900 00 700 600 500 400 100 150 200 X (jours de pluie) 6
(b) Pour calculer le coefficient de corrélation, on doit calculer la covariance et les deux écarttypes. Pour calculer la covariance, on a besoin des deux moyennes. Rappelons les différentes formules lorsqu on dispose des données individuelles : µ X x(i) x(i), σ 2 X µ X, Cov(X, Y) x(i)y(i) µ X µ Y Moyenne de X. On a x(i) µ X 175,125. Moyenne de Y. On a 19 + 196 + 199 + 164 + 170 + 163 + 149 + 162 1401 y(i) 739 + 0 + 631 + 65 + 690 + 501 + 501 + 670 µ Y 65,750. 5270 Écart-type de X. On a x(i) 2 σ X µ 2 X 192 + 196 2 + 199 2 + 164 2 + 170 2 + 163 2 + 149 2 + 162 2 24031 30 66,766 31 003,75 30 66,766 335,109 1,306. 175,125 2 Écart-type de Y. On a y(i) 2 σ Y µ 2 Y 7392 + 0 2 + 631 2 + 65 2 + 690 2 + 501 2 + 501 2 + 670 2 35764 433 951,562 447 331,000 433 951,562 13 379,43 115,670. 65,750 2 7
Covariance de X et Y. On a x(i)y(i) Cov(X, Y) µ X µ Y 19 739 + 196 0 + + 162 670 175,125 65,750 934435 115 363,594 116 04,375 115 363,594 1440,71. Coefficient de corrélation de X et Y. On a Cov(X, Y) r(x, Y) σ X σ Y 1440,71 1,306 115,670 1440,71 2117,455 0,60. (c) Le coefficient de corrélation est proche de 0,7 donc on peut considérer que les variables sont assez fortement liées. On peut représenter la droite de régression qui illustre cette dépendance : Y (hauteur de pluie) 900 00 700 600 500 400 100 150 200 X (jours de pluie) Le fait que les points sont relativement proches de la droite illustre la corrélation relativement forte.