Corrigé de l exercice 25 Question. La Population est celle des actifs ayant une activité à temps complet en 994 en France. La taille de la population est N = 5 84.La variable Salaire est de type quantitatif continu. Question 2. Salaire ];4] ]4;8] ]8;2] ]2;2] ]2;3] ]3;] Proportion (en %) 6,4 29,6 33,6 2,6 5,7 3, Amplitude 4 4 4 8 7 Densité de proportion*,6 7,4 8,4 2,7,57,4 La représentation graphique de la variable est l histogramme. Pour le tracer, il faut au préalable calculer les densités de proportion pour les différentes classes. Par exemple, la densité de proportion de la classe ]4;8] est la proportion de cette classe, divisée par son amplitude, soit,296 4 =, 74. De plus, pour faciliter la représentation graphique, on va prendre une échelle où on multiplie toutes les densités de proportion par. Pour cette classe, on tracera donc un rectangle de base ]4;8] et de hauteur, 74 = 7, 4. De même pour les autres classes. Distribution des salaires annuels nets (en francs) pour 5 84 actifs en France en 994 Densité de proportion x 8 7 6 5 4 3 2 2 4 8 2 2 3 4 5 6 7 8 9 Remarque : la distribution n est pas du tout symétrique ; elle s étale vers la droite. La moyenne est supérieure àlamédiane. Proportion de salariés gagnant plus de F net par an? est le milieu de ]8;2] ; l hypothèse de base est que les observations sont réparties uniformément dans chaque classe. Par conséquent, s il y a 33,6% d observations entre les valeurs 8 et 2, la moitié sont entre 8 et, et l autre moitié entre et 2. On en déduit donc qu il y a une proportion de 33,6/2=6,8 % d observations comprises entre et 2. On ajoute ensuite les proportions des observations des classes suivantes. Finalement, la proportion des observations supérieures à est 6,8 + 2,6 + 5,7 + 3, = 47,2%. La proportion de salariés gagnant plus de F est de 47,2%. Question 3. La classe modale est la classe ]8;2] car c est la classe qui a la plus grande densité de proportion. Graphiquement, c est celle qui correspond au rectangle de plus grande hauteur dans l histogramme.
Question 4. P Calcul de la moyenne : µ = k p i x i Salaire ];4] ]4;8] ]8;2] ]2;2] ]2;3] ]3;] Proportion p i,64,296,336,26,57,3 Centre x i 2 6 6 25 65 µ =, 64 2 +, 296 6 +, 336 +, 26 6 +, 57 25 +, 3 65 µ = 2, 6 soit le salaire annuel net moyen est de 2 6 F. s kp Calcul de l écart type. σ = p i (x i µ) 2 On calcule d abord la variance σ 2 aveclaformulepratiquedecalculσ 2 P = k p i x 2 i µ2 σ 2 =, 64 2 2 +, 296 6 2 +, 336 2 +, 26 6 2 +, 57 25 2 +, 3 65 2 2, 6 2 σ 2 = 854, 24 soit une variance de 854 24 F 2. L écarttypeestlaracinecarréedelavariance:σ = 854, 24 = 8, 877 soit un écart type de 8 877 F. Ces valeurs (moyenne, écart type) sont des valeurs approchées, l approximation étant due au découpage en classes des observations. Chaque donnée d une classe est approximée dans ce calcul par le centre de sa classe. Les valeurs exactes seraient obtenues à partir des 5 84 données individuelles. Question 5. Salaire (bornes sup) 4 8 2 2 3 Proportions cumulées,64,36,696,92,969 Chaque proportion cumulée correspond à la borne supérieure de la classe. Pour le graphique, ne pas oublier de prolonger en à gauche et en à droite. Fonction de distribution cumulative des salaires annuels nets (en francs) pour 5 84 actifs en France en 994,9,8,7,6,5,4,3,2, 2 4 8 2 2 3 4 5 6 7 8 9 2
Question 6. Fonction de distribution cumulative des salaires annuels nets (en francs) pour 5 84 actifs en France en 994,9,8,7,6,5,4,3,2, 2 4 8 2 2 3 4 5 6 7 8 9 Q Q3 Mediane Question 7. Détermination des trois quartiles. Le premier quartile Q est la valeur telle que 25% des observations lui sont inférieures (et 75% supérieures). C est le quantile d ordre 25%. Q est dans la classe [4;8] puisque 6,4% des observations sont inférieures à 4 et 36% sont inférieures à 8. On applique la formule donnée dans le cours avec ici a =4, b =8, F(a) =F (4) =, 64 et F (b) = F (8) =, 36. Q =4+(8 4),25,64,36,64 Q =65, 35 soit 65 35 F. La médiane Q 2 est la valeur telle que 5% des observations lui sont inférieures (et 5% supérieures). C est le quantile d ordre 5%. Ou aussi le second quartile. Q 2 est dans la classe [8;2] puisque 36% des observations sont inférieures à 8 et presque 7% sont inférieures à 2. On applique la formule donnée dans le cours avec ici a =8, b = 2, F(a) =F (8) =, 36 et F (b) = F (2) =, 696. Q 2 = 8 + (2 8),5,36,696,36 Q 2 =96, 667 soit 96 667 F. Le troisième quartile Q 3 est la valeur telle que 75% des observations lui sont inférieures (et 25% supérieures). C est le quantile d ordre 75%. Q 3 est dans la classe [2;2] puisque 69,6% des observations sont inférieures à 2 et 9,2% sont inférieures à 2. On applique la formule donnée dans le cours avec ici a = 2, b = 2, F(a) = F (2) =, 696 et F (b) =F (2) =, 92. Q 3 = 2 + (2 2),75,696,92,696 Q 3 = 4 soit 4 F. Pour représenter la boîte à moustaches, on trace une boîte avec les valeurs des trois quartiles ; on rajoute les moustaches qui vont aux valeurs extrémales des classes. On peut rajouter la moyenne si on le souhaite. 3
Boîte à moustaches de la distribution des salaires annuels nets (en francs) pour 5 84 actifs en France en 994 µ 2 4 8 2 2 3 4 5 6 7 8 9 Q Q2 Q3 On voit ici aussi, comme sur l histogramme que la distribution n est pas symétrique. Question 8. L intervalle de variation à 9% est donnée par les deux quantiles d ordre 5% et 95%. Il contient 9% des observations. 5% des observations sont plus petites, et 5% sont plus grandes. Le quantile d ordre 5% est dans l intervalle ];4]. a =,b=4,f() = et F (4) =, 64. q,5 =+4,5,64 =3, 25 On applique la formule de calcul d un quantile avec Le quantile d ordre 95% est dans l intervalle ]2;3]. On applique la formule de calcul d un quantile avec a = 2, b= 3, F(2) =, 92 et F (3) =, 969. q,5 = 2 + (3 2),95,92,969,92 = 266, 67 L intervalle de variation à 9% est donc [3, 25; 266, 67]. 9% des salaires sont compris entre 325 F et 266 67 F. 5% des salaires sont inférieurs à 325 F et 5% des salaires sont supérieurs à 266 67F. Question 9. On découpe la classe ]8,2] en deux classes ]8,] et ],2]. a) On sait que l effectif de la classe ]8;] est de 2 3 individus. L effectif total est N = 5 84. 2 3 5 84 On en déduit une proportion pour la classe ]8;] égale à =, 345 soit 3,45%. On en déduit la proportion de la classe ];2]= proportion de la classe originale ]8;2] - proportion de la classe ]8;] soit la proportion de la classe ];2 est égale à,336-,345=,25 ou encore 2,5%. Les proportions des autres classes restent inchangées. La nouvelle distribution des proportions est : Salaire ];4] ]4;8] ]8;] ];2] ]2;2] ]2;3] ]3;] Proportion p i,64,296,345,25,26,57,3 b) La proportion des actifs gagant moins de F est obtenue en additionnant les proportions des trois premières classes :,64+,296+,345=, 494 5 Elle est de 49,45%. Elle est donc supérieure à ce qu on pensait (47,2%) avant l affinement du découpage (question 2). P c) Calcul de la moyenne associé : µ = k p i x i Salaire ];4] ]4;8] ]8;] ];2] ]2;2] ]2;3] ]3;] Proportion p i,64,296,345,25,26,57,3 Centre x i 2 6 9 6 25 65 µ =, 64 2 +, 296 6 +, 345 9 +, 25 +, 26 6 +, 57 25 +, 3 65 µ = 22, 27 soit le salaire annuel net moyen est de 22 27 F. Il est un peu supérieur au calcul précédent. d) Calcul de la médiane associée au nouveau découpage ; on calcule d abord les nouvelles fréquences cumulées. 4
Salaire 4 8 2 2 3 Proportions cumulées.64.36.4945.696.92.969 La médiane est dans l intervalle ];2], elle est très proche de puisque la proportion cumulée de est presque de 5%. Médiane = + (2 ).5.4945.696.4945 =, 55 La médiane est de 55 F. Là aussi, la médiane est un peu supérieure à la valeur calculée auparavant. e) Intervalle de variation à 9% associé au nouveau découpage. Il est déterminé par les quantiles d ordre 5% et 95%. Le calcul de ces quantiles ne fait pas intervenir les nouevaux intervalles ]8;] et ];2]. L intervalle de variation est donc le même que précédemment. On peut encore remarquer que c est la même chose pour les premier et troisième quartiles. Ils restent inchangés. Si on représentait le box plot pour cette nouvelle distribution, on aurait presque le même graphique : seule la médiane a changé. Conclusion : Le nouveau découpage donne des valeurs de la moyenne et de la médiane un supérieures à celles obtenues dans le premier calcul. Cependant, les variations de ces valeurs sont faibles par rapport à leur ordre de grandeur. La moyenne passe de 2,6 à 22,7 soit moins de % d augmentation : le découpage est donc très stable pour la moyenne. La médiane passe de 96,667 à,55 soit augmente de 4%. C est encore assez stable. Question. Reprenons les valeurs de la moyenne, médiane et écart type du premier découpage. Leur conversion en euros s obtient de la même façon, en multipliant leur valeur en F par le taux de change donné soit /6.56. On obtient : µ = 26/6.56 = 8536.6 σ = 6597. médiane = 4735.82 5