U.F.R. S.P.S.E. UIVERSITE PARIS X ATERRE licence de psychologie L3 PLPSTA Bases de la statistique inférentielle -6 CORRIGE DES EXERCICES : Statistique descriptive univariée Exercice P{patients hospitalisés pour un état dépressif majeur} de taille (effectif total) ) a. X efficacité du traitement, variable qualitative dichotomique (deux modalités) définie sur l'échelle descriptive E{x, x }{efficace, inefficace} {oui, non} ou par les deux modalités : x efficace, x inefficace b. tableau des distributions d'effectifs (n i, i,) et de s (p i, i,) efficacité effectif n i p i x efficace 9 9/,77% x inefficace 3 3/,% total,% n n p p on note : p p et p p la d'efficacité du traitement (notée p) est égale à 7% dans la population des patients hospitalisés pour un état dépressif majeur, et la d'inefficacité du traitement est donc égale à % ( p) dans la population étudiée. c. Le mode est la modalité d'effectif (ou de ) maximum : le mode est donc x efficace (pour 7% des individus de la population). d. Plusieurs types de représentations graphiques possibles : diagramme en tuyaux d'orgue, diagramme circulaire (en secteurs, camembert), diagramme rectangulaire, soit des effectifs (car l'effectif total est faible) soit des s. diagramme en tuyaux d'orgue de l'efficacité effectif 8 6 7% oui efficacité % non diagramme circulaire de l'efficacité ) a. X score à l'inventaire psychiatrique standardisé (PSE), variable quantitative discrète définie sur l'échelle descriptive E{x, x, x 3, x }{,,6,7} : x, x, x 3 6 et x 7 ( valeurs numériques (entières) représentant des points de score). b. Tableau de la distribution d'effectifs (n i, i, ) score PSE effectif n i x x x 3 6 x 7 total Σn i c. Le mode est la modalité d'effectif maximum : le mode est donc x 3 6 points de score (pour individus de la population). d. On représente par un diagramme en bâtons, soit la distribution d'effectifs (car l'effectif total est faible) soit celle des s. tableau des distributions d'effectifs (n i, i, ) et de s (p i, i, ) score PSE effectif n i p i x /,838,3% x /,33333,3% x 3 6 /,7,7% x 7 /,676,7% total Σp i,% non % oui 7% diagramme en bâtons du score PSE diagramme en bâtons du score PSE effectif 6 3 8,3% 33,3%,7% 6,7%,,,3,, 6 7 score PSE, 6 7 score PSE
e. La de patients ayant un score PSE au plus égal à (bâtons hachurés sur le diagramme des s) s'écrit :,7 P( X ) P( X ) P( X ) (c'est aussi la cumulée F ).,83,333,6 En utilisant la fonction de répartition F de la variable X, on note cette P(X )F(). La de patients ayant un score PSE au plus égal à 6 (bâtons noirs sur le diagramme des s) s'écrit,833 P( X 6 ) P( X ) P( X ) P( X 6) (c'est aussi la cumulée F 3 ).,83,333,7,833 En utilisant la fonction de répartition F de la variable X, on note cette P(X 6)F(6). f. La de patients ayant un score PSE au moins égal à 6 s'écrit : 7,83 P( X 6) P( X 6) P( X 7),7,67,8 En utilisant la fonction de répartition F de la variable X, on note cette P(X 6) P(X<6) P(X ) F(). g. Moyenne de X dans P moyenne du score PSE dans P score PSE moyen dans P µ variance de X dans P variance du score PSE dans P σ écart-type de X dans P écart-type du score PSE dans P σ score PSE effectif n i n i x i x i n i x i x 6 6 x x 3 6 3 36 8 x 7 9 98 total Σn i x i 68 Σn i x i 39 ni x i donc µ i 68,667,7 σ n x i i i µ 39,7 3,833 3,,7,7 et σ σ,7,898, 8 dans la population des patients hospitalisés pour un état dépressif majeur : le score PSE moyen est de,7 points, la variance du score PSE est de,7 et l'écart-type du score PSE est de,8 point. Exercice ) P{sujets} de taille (effectif total) 936 ) X nombre de mots mémorisés, définie sur l'échelle descriptive E{x, x, x 3, x, x }{,,, 3, } : x, x, x 3, x 3 et x ( valeurs numériques (entières)), c'est donc une variable quantitative discrète. 3) Tableau de la distribution de s (p i, i, ) nombre de mots effectif n i p i x /,% x 9 9/,3838% x 3 /% x 3 3 3/,66% x 6 3/,% total Σn i Σp i,% ) Le mode est la modalité d'effectif (ou de ) maximum : le mode est donc x mots mémorisés (pour 9 individus de la population, soit 38%). ) On représente par un diagramme en bâtons, soit la distribution d'effectifs (car l'effectif total est faible) soit celle des s. effectif diagramme en bâtons du nombre de mots mémorisés 38% % % 6% % 3 nombre de mots,,3,,, diagramme en bâtons du nombre de mots mémorisés 9 3 3 nombre de mots 6
6) La de patients ayant mémorisé au plus mots (bâtons hachurés sur le diagramme des s) s'écrit : 9 3,6 P( X ) P( X ) P( X ) (c'est aussi la cumulée F ).,,38,6 En utilisant la fonction de répartition F de la variable X, on note cette P(X )F(). La de patients ayant mémorisé au moins mots (bâtons noirs sur le diagramme des s) s'écrit : 3 6 9,38 P( X ) P( X ) P( X 3) P( X ),6,,38 En utilisant la fonction de répartition F de la variable X, on note cette P(X ) P(X<) P(X ) F(). 7) Moyenne de X dans P nombre moyen de mots mémorisés dans P µ variance de X dans P variance du nombre de mots mémorisés dans P σ écart-type de X dans P écart-type du nombre de mots mémorisés dans P σ nombre de mots effectif n i n i x i x i n i x i x x 9 9 99 x 3 x 3 3 69 69 97 x 6 8 96 76 total Σn i x i 8 Σn i x i 687 donc 8 µ,6, 6 σ 687,6 37, 3,9,9, 9 et σ,9,3966, les sujets mémorisent en moyenne,6 mots, la variance du nombre de mots mémorisés est de,9 et l'écart-type du nombre de mots mémorisés est de, mot. Exercice 3 P{adolescents habitant l'état de Caroline du Sud un an après l'ouragan Hugo} de taille (effectif total) 6 ) a. X sexe, variable qualitative dichotomique définie sur l'échelle descriptive E{x, x }{fille, garçon} ou deux modalités : x fille, x garçon tableau des distributions d'effectifs (n i, i,) et de s (p i, i,) car le nombre de garçons n n sexe effectif n i p i x fille n 66 66/6,,% x garçon n 6 666 6/6,77,% total 6,% n n p p on note : p p et p p dans la population des 6 adolescents étudiée, la de filles (notée p) est égale à,% et donc la de garçons est égale à 7,% ( p). b. Plusieurs types de représentations graphiques possibles de la distribution de s (car l'effectif total est élevé) : diagramme en tuyaux d'orgue, diagramme circulaire (en secteurs, camembert), diagramme rectangulaire. diagramme en tuyaux d'orgue du sexe diagramme circulaire du sexe,, 66 6 garçon 7,% fille,%, fille garçon ) a. X revivre l'événement, variable qualitative dichotomique définie sur l'échelle descriptive E{x, x }{oui, non} ou deux modalités : x revivre l'événement, x ne pas revivre l'événement tableau des distributions d'effectifs (n i, i,) et de s (p i, i,) car : le nombre d'adolescents qui revivent l'événement : n 68 3 le nombre d'adolescents qui ne revivent pas l'événement : n n 6 3 revivre l'événement effectif n i p i n n x oui 3 3/6,99,% p p d'où : p p et p p x non 6 3 /6,888,8% total 6,% le mode est la modalité x ne pas revivre l'événement dans la population des 6 adolescents étudiée, la d'adolescents qui revivent l'événement (notée p) est égale à 9,% et la de ceux qui ne revivent pas l'événement est donc égale à 8,8% (-p). 3
b. P{adolescentes (filles) habitant l'état de Caroline du Sud un an après l'ouragan Hugo} de taille 66 X revivre l'événement, variable qualitative dichotomique définie sur l'échelle descriptive E{x, x }{oui, non} tableau des distributions d'effectifs (n i, i,) et de s (p i, i,) car : le nombre d'adolescentes qui revivent l'événement : n 6 le nombre d'adolescentes qui ne revivent pas l'événement : n n 66 63 revivre l'événement effectif n i p i x oui 6 6/66,,% x non 66 63 3/66,787,8% total 66,% c. P{adolescents (garçons) habitant l'état de Caroline du Sud un an après l'ouragan Hugo} de taille 6 X revivre l'événement, variable qualitative dichotomique définie sur l'échelle descriptive E{x, x }{oui, non} tableau des distributions d'effectifs (n i, i,) et de s (p i, i,) car : le nombre d'adolescentes qui revivent l'événement : n 8 le nombre d'adolescentes qui ne revivent pas l'événement : n n 6 88 revivre l'événement effectif n i p i x oui 8 8/6,373,7% x non 6 88 8/6,86386,3% total 6,% Dans les deux sous-populations filles ou garçons, le mode est le même : "ne pas revivre l'événement", mais la correspondante est plus élevée chez les garçons (86,3%) que chez les filles (7,8%) : les filles revivent plus souvent l'événement (,%) que les garçons (3,7%). La de filles qui revivent l'événement est égale à,%, celle des garçons est égale à 3,7%. 3) a. X âge, définie sur l'échelle descriptive E]3; 8] (valeurs numériques continues), c'est donc une variable quantitative continue. b. Tableau de la distribution de s de l'âge associée au découpage en intervalles (p i, i, ) i âge effectif n i p i ]3; ] 9,393,9% ]; ] 79,37937,9% 3 ]; 6] 9,8,8% ]6; 7] 69,33,% ]7; 8] 38,33% total 6,% c. La densité de pour chaque intervalle est égale à : f(x) p i /l i où l i est la longueur du i ème intervalle. Ici tous les intervalles sont de longueur an donc f(x) p i. La représentation graphique de la densité de est donnée par l'histogramme associé à ce découpage. densité de f(x),,,3,,, ~% axe horizontal :, cm ans axe vertical : cm, Histogramme de l'âge âge ~93% 3 6 7 8 ans d. L'intervalle modal est l'intervalle de densité maximale : c'est donc le 3 ème intervalle ]; 6]. e. La d'adolescents de moins de ans (aire hachurée sur l'histogramme) s'écrit : 9 79 8,8, P( X ) P( 3 < X ) P( < X ) 6 6 6,39,379,8, f. La d'adolescents de plus de ans s'écrit : 9 69 38 736,8,8 P( < X 6) P( 6 < X 7) P( 7 < X 8) 6 6 6 6 P( X > ),8,3,3,8,8 P( X ),8,8 g. La d'adolescents âgés de à 7 ans (aire hachurée sur l'histogramme) s'écrit :
79 9 69 77,93,93 P( < X 7) P( < X ) P( < X 6) P( 6 < X 7) 6 6 6 6,379,8,3,93,93 h. Tableau de la distribution de s cumulées de l'âge, associée au découpage en intervalles (F i, i, ) : pour chaque intervalle la cumulée correspondante F i i / où i est l'effectif cumulé i n n n i ou F i p p p i i âge effectif n i p i effectif cumulé i cumulée F i ]3; ] 9,393,9% n 9 F p,39 ]; ] 79,37937,9% n n 9798 F p p,39,379,8 3 ]; 6] 9,8,8% 3 n n n 3 n 3 897 F 3 p p p 3,8,8,836 ]6; 7] 69,33,% n n n 3 n 3 n 7696 F p p p 3 p,836,3,97 ]7; 8] 38,33% n n n 3 n n 6 F p p p 3 p p total 6,% i. La fonction de répartition de l'âge associée au découpage en intervalles, est définie par F(x) P(X x) donc : F(x) pour tout x 3 F() P(X )F,39 F() P(3<X )P(<X )p p F,8 F(6) P(3<X )P(<X )P(<X 6)p p p 3 F 3,836 F(7) P(3<X )P(<X )P(<X 6)P(6<X 7)p p p 3 p F,97 F(8) P(3<X )P(<X )P(<X 6)P(6<X 7)P(7<X 8)p p p 3 p p F F(x) pour tout x > 8 F(x) Fonction de répartition de l'âge,9,8,7,6,,,3,, 3 6 7 8 9 axe horizontal :, cm ans axe vertical : 3 cm j. La d'adolescents de moins de ans s'exprime comme la cumulée F. En utilisant la fonction de répartition F de la variable X, on note cette P(X )F(),8 La d'adolescents de plus de ans s'écrit en utilisant la fonction de répartition F de la variable X : P(X>) P(X ) F(),8,8 La d'adolescents âgés de à 7 ans s'écrit en utilisant la fonction de répartition F de la variable X : P( < X 7) P( X 7) P( X ) F( 7) F( ). On calcule séparément F(7) puis F() : F( 7) P( X 7) P( 3 < X ) P( < X ) P( < X 6) P( 6 < X 7) F, 9699 P X P 3 < X F, F( ) ( ) ( ) 39 donc P( < X 7) F( 7) F( ),9699,388,93, 93 k. Les trois quartiles de l'âge sont représentés en abscisse sur le graphique de la fonction de répartition : la médiane (second quartile) notée Q, est telle que F(Q, ), donc graphiquement on déduit que Q,, ans le premier quartile noté Q, est tel que F(Q, ), donc graphiquement on déduit que Q,, ans le troisième quartile noté Q,7 est tel que F(Q,7 ),7 donc graphiquement on déduit que Q,7,8 ans % des adolescents de la population ont moins de, ans (% ont plus de, ans), % des adolescents ont moins de, ans (7% ont plus de, ans) et 7% des adolescents ont moins de,8 ans (% ont plus de,8 ans). l. Moyenne de X dans P moyenne de l'âge dans P âge moyen dans P µ variance de X dans P variance du nombre de mots mémorisés dans P σ écart-type de X dans P écart-type du nombre de mots mémorisés dans P σ i âge effectif n i milieu x i n i x i x i n i x i ]3; ] 9 3, 66, 8, 893, ]; ] 79, 69,, 79,7 3 ]; 6] 9, 899,, 79, ]6; 7] 69 6, 788, 7, 6, ]7; 8] 38 7, 66, 36, 637, total 6 Σn i x i 96, Σn i x i 938, âge
donc 96 µ,, σ 938, 3,896 3,77,79, 7 et 6 6 σ,7,879,8 les 6 adolescents ont en moyenne, ans, la variance de l'âge est de,7 et l'écart-type de l'âge est de,8 an. Exercice P{sujets fumeurs} de taille (effectif total) 6 ) Le diagramme est appelé diagramme tige et feuille (stem and leaf). La valeur minimale est 3, la valeur maximale 9. ) X durée de tabagisme, définie sur l'échelle descriptive E]; 6] (valeurs numériques continues), c'est donc une variable quantitative continue. 3) Moyenne de X dans P moyenne de la durée de tabagisme dans P durée moyenne de tabagisme dans P µ variance de X dans P variance de la durée de tabagisme dans P σ écart-type de X dans P écart-type de la durée de tabagisme dans P σ x i i x i i 38 d'où µ x i i 38 3,3 3 6 x i i 8 d'où σ µ 8 3 69,3 3,3 6,6 et σ σ 6,6, 7 6 les 6 fumeurs fument en moyenne depuis 3 ans, la variance de la durée de tabagisme est de 6,6 et l'écart-type de la durée de tabagisme est de,7 ans. ) a. Tableau des distributions d'effectifs (n i, i, 6) et de s (p i, i, 6) de la durée de tabagisme, associées au découpage en 6 intervalles de longueur ans. i durée de tabagisme effectif n i p i ]; ] 9,% ]; ],33% 3 ]; 3],% ]3; ] 8,333,3% ]; ],676,7% 6 ]; 6] 3,% total 6,% b. La densité de pour x appartenant au i ème l'intervalle est égale à : f(x) p i /l i où l i est la longueur du i ème intervalle. Ici tous les intervalles sont de longueur ans donc f(x) p i /. La représentation graphique de la densité de est donnée par l'histogramme associé à ce découpage. densité de f(x),,3,, Histogramme de la durée de tabagisme %, 3 6 ans axe horizontal :, cm ans durée axe vertical :,9 cm, c. L'intervalle modal est l'intervalle de densité maximale : c'est donc le ème intervalle ]; ]. ) a. La de sujets ayant fumé pendant moins de ans (aire hachurée sur l'histogramme) s'écrit : 9 3, P( X ) P( < X ) P( < X ) 6 6 6 (c'est aussi la cumulée F ).,,3, En utilisant la fonction de répartition F de la variable X, on note cette P(X )F(). b. La de sujets ayant fumé pendant plus de ans s'écrit : 8 3 3, P( < X 3) P( 3 < X ) P( < X ) P( < X 6) 6 6 6 6 6 P( X > ),,33,67,, P( X ),, 6 % % %
En utilisant la fonction de répartition F de la variable X, on note cette P(X>) P(X ) F(). c. La de sujets ayant fumé pendant plus de 3 ans (aire hachurée sur l'histogramme) s'écrit : 8 3, P( X > 3) P( 3 < X ) P( < X ) P( < X 6) 6 6 6 6,33,67,, En utilisant la fonction de répartition F de la variable X, on note cette P(X>3) P(X 3) F(3). La de sujets ayant fumé pendant plus de ans (aire hachurée sur l'histogramme) s'écrit : P( X > ) P( < X 6) 3, 6 En utilisant la fonction de répartition F de la variable X, on note cette P(X>) P(X ) F(). d. La de sujets ayant fumé pendant plus de ans mais moins de ans s'écrit : 8 7, P( < X 3) P( 3 < X ) P( < X ) 6 6 6 6 P( < X ),,33,67, P( X ) P( X ) F( ) F( ) où F est la fonction de répartition de la variable X. 6) a. La fonction de répartition de la durée de tabagisme est définie par F(x) P(X x) donc : F(x) pour tout x F(x) pour tout x > 6 et à partir de la distribution des s cumulées associé au découpage en 6 intervalles (F i, i, 6) : F(x)F i si x est la borne supérieure du i ème intervalle i durée effectif n i p i effectif cumulé i cumulée F i ]; ] 9,% n 9 F p,f() ]; ],33% n n 93 F 3/6,F() 3 ]; 3],% 3 n n n 3 n 3 3 F 3 /6,7F(3) ]3; ] 8,333,3% n n n 3 n 3 n 83 F 3/6,883F() ]; ],676,7% n n n 3 n n n 37 F 7/6,9F() 6 ]; 6] 3,% 6 n n n 3 n n n 6 6 F 6 6/6F(6) total 6,% F(x) Fonction de répartition de la durée de tabagisme,9,8,7,6,,,3,, 3 6 7 axe horizontal :, cm ans durée axe vertical : 3 cm b. Puisque F(), : % des sujets ont fumé pendant moins de ans, la médiane de la durée de tabagisme est de ans, Q, puisque F(3),7 : 7% des sujets ont fumé pendant moins de 3 ans, le troisième quartile de la durée de tabagisme est de 3 ans, Q,7 3 puisque F(),9 : 9% des sujets ont fumé pendant moins de ans, le quantile d'ordre,9 (9%) ou 9 ème percentile de la durée de tabagisme est de ans, Q,9 c. Les trois quartiles de l'âge sont représentés en abscisse sur le graphique de la fonction de répartition : la médiane (second quartile) Q, ans, le troisième quartile Q,7 3 ans le premier quartile noté Q, est telle que F(Q, ), donc graphiquement on déduit que Q, 3 ans % des sujets ont fumé pendant moins de ans (% pendant plus de ans), % des sujets ont fumé pendant moins de, ans (7% pendant plus de, ans) et 7% des sujets ont fumé pendant moins de 3 ans (% pendant plus de 3 ans). 7) Sur le diagramme tige et feuille, un quantile est déterminé en comptant (à partir de la valeur minimale) le nombre de valeurs correspondant à son ordre. a. La médiane, quantile d'ordre, (%) correspond donc à la moitié de la taille de la population c'est à dire /3 : elle est donc égale à n'importe quelle valeur comprise entre la 3 ème et la 3 ème valeur c'est à dire entre et ; par convention on prendra le milieu, donc Q,, ans. 7
le premier quartile, quantile d'ordre, (%) correspond au quart de la taille de la population c'est à dire / : il est donc égal à n'importe quelle valeur comprise entre la ème et la 6 ème valeur c'est à dire ; donc Q, ans. le troisième quartile, quantile d'ordre,7 (7%) correspond aux trois quarts de la taille de la population c'est à dire 3/ : il est donc égal à n'importe quelle valeur comprise entre la ème et la 6 ème valeur c'est à dire entre 9 et 3; par convention on prendra le milieu, donc Q,7 3 ans. On retrouve des quartiles très similaires à ceux déduits à la question 6. b. Le er décile, quantile d'ordre, (%) correspond au dixième de la taille de la population c'est à dire /6 : il est donc égal à n'importe quelle valeur comprise entre la 6 ème et la 7 ème valeur c'est à dire entre 9 et ; par convention on prendra le milieu, donc Q, 9, ans. le 9 ème décile, quantile d'ordre,9 (9%) correspond aux neuf dixièmes de la taille de la population c'est à dire,96 9 : il est donc égal à n'importe quelle valeur comprise entre la ème et la ème valeur c'est à dire entre et ; par convention on prendra le milieu, donc Q,9 3, ans. L'intervalle de variation à 8% (au risque %) de la durée de tabagisme est défini par les deux quantiles d'ordre, et,9 : I 8% [Q, ; Q,9 ] puisque P(X I 8% ) P(Q, X Q,9 )8% et P(X I 8% ) % donc I 8% [Q, ; Q,9 ] [9, ; 3,] % des sujets ont fumé pendant moins de 9, ans (9% pendant plus de 9, ans), 9% des sujets ont fumé pendant moins de 3, ans (% pendant plus de 3, ans) et 8% des sujets ont fumé pendant une durée comprise entre 9, et 3, ans. c. Le ème percentile, quantile d'ordre, (%) correspond à % de la taille de la population c'est à dire,3 : il est donc égal à n'importe quelle valeur comprise entre la 3 ème et la ème valeur c'est à dire ; donc Q, ans. le 9 ème percentile, quantile d'ordre,9 (9%) correspond à 9% de la taille de la population c'est à dire,96,97 : il est donc égal à n'importe quelle valeur comprise entre la 7 ème et la 8 ème valeur c'est à dire entre 7 et ; par convention on prendra le milieu, donc Q,9 9 ans. L'intervalle de variation à 9% (au risque %) de la durée de tabagisme est défini par les deux quantiles d'ordre, et,9 : I 9% [Q, ; Q,9 ] puisque P(X I 9% ) P(Q, X Q,9 ) 9% et P(X I 9% ) % donc I 9% [Q, ; Q,9 ] [ ; 9] % des sujets ont fumé pendant moins de ans (9% pendant plus de ans), 9% des sujets ont fumé pendant moins de 9 ans (% pendant plus de 9 ans) et 9% des sujets ont fumé pendant une durée comprise entre et 9 ans. 8) Moyenne et variance de X sont calculées en faisant l'approximation que les n i individus du i ème intervalle ont pour valeur le milieu de l'intervalle noté x i : durée de tabagisme milieu x i effectif n i n i x i x i n i x i ]; ] 9 ]; ] 3 7 ]; 3] 37 6 937 ]3; ] 3 8 8 98 ]; ] 8 8 ]; 6] 3 6 3 97 total 6 Σn i x i 36 Σn i x i 3 a. Moyenne de X dans P moyenne de la durée de tabagisme dans P durée moyenne de tabagisme dans P µ donc µ 36,667, 7 6 les 6 fumeurs ont fumé en moyenne pendant,7 ans. b. Variance de X dans P variance de la durée de tabagisme dans P σ écart-type de X dans P écart-type de la durée de tabagisme dans P σ donc σ 3,7 688,33 3,78 7, 6 et σ 7,6 3,9 3, 6 l'écart-type de la durée de tabagisme dans la population étudiée des 6 sujets fumeurs est de 3, ans. c. Les résultats obtenus avec l'approximation précédente sur des données regroupées sont proches de ceux trouvés à la question 3 calculés sur les données individuelles. 9) Cinq ans plus tard tous les sujets auront fumé ans de plus donc : a. la moyenne sera de 38 ans b. les écarts à la moyenne restant inchangés, la variance et l'écart-type ne seront pas modifiés c. la médiane sera de ans ) Les 3 sujets supplémentaires fument depuis 6 ans donc : a. les 3 sujets supplémentaires fument en moyenne depuis 6 ans : la moyenne sera de 6 3 3 6 38 8 38 3,333 3,3 ans 6 3 9 9 b. pour une population de taille 9, la médiane se trouve entre la ème et la 6 ème valeur soit entre 9 et 3 ; par convention on prendra le milieu, donc la durée médiane sera de 3 ans. 8
Exercice ) P{enfants de 8 mois} de taille (effectif total) 939398 ) X score sur l'échelle de Bayley, définie sur l'échelle descriptive E]6; 6] (valeurs numériques), c'est donc une variable quantitative. a. Tableau des distributions d'effectifs (n i, i, ) et de s (p i, i, ) du score, associées au découpage en intervalles de longueur points. i score effectif n i p i ]6; 7],,% ]7; 8],,% 3 ]8; 9] 9,393,9% ]9; ] 3,363,6% ]; ],,% 6 ]; ] 9,9,9% 7 ]; 3] 3,363,6% 8 ]3; ],99,% 9 ]; ] 9,393,9% ]; 6],9,9% total 8,% b. L'histogramme est la représentation graphique de la densité de f de la variable X associée à ce découpage. Pour x appartenant au i ème intervalle la densité est égale à : f(x) p i /l i où l i est la longueur du i ème intervalle. Ici tous les intervalles sont de longueur ans donc f(x) p i /. f(x) Histogramme du score,3 ~% densité de,, ~%, 6 7 8 9 3 6 score axe horizontal :,9 cm points axe vertical : cm, c. L'intervalle modal est l'intervalle de densité maximale : c'est donc le 6 ème intervalle ]; ]. d. La d'enfants ayant un score inférieur à (aire hachurée sur l'histogramme) s'écrit : P( X ) P( 6 < X 7) P( 7 < X 8) P( 8 < X 9) P( 9 < X ) 9 3, 8 8 8 8 8,,,39,36, (c'est aussi la cumulée F ). La d'enfants ayant un score inférieur à s'écrit : P( X ) P( 6 < X 7) P( 7 < X 8) P( 8 < X 9) P( 9 < X ) P( < X ) P( < X ) 9 3 9 6,7 8 8 8 8 8 8 8,,,39,36,,9,7 (c'est aussi la cumulée F 6 ). La d'enfants ayant un score compris entre et (aire hachurée sur l'histogramme) s'écrit : 9,8 P( < X ) P( < X ) 8 8 8 P( < X ),,9,83 P( X ) P( X ),7,,83 La d'enfants ayant un score supérieur à (aire hachurée sur l'histogramme) s'écrit : 9,8 P( < X ) P( < X 6) 8 8 8 P( X > ),39,9,8 P( X ) F8 9 ~%
3) a. Tableau de la distribution de s cumulées du score associée au découpage en intervalles (F i, i, ) : pour chaque intervalle la cumulée correspondante : F i i / où i est l'effectif cumulé i n n n i ou F i p p p i i score effectif n i p i effectif cumulé i cumulée F i ]6; 7],,% n F p, ]7; 8],,% F,66 3 ]8; 9] 9,393,9% 3 9 F 3, ]9; ] 3,363,6% 3 F, ]; ],,% 6 F,6 6 ]; ] 9,9,9% 6 696 F 6,7 7 ]; 3] 3,363,6% 7 6396 F 7,86 8 ]3; ],99,% 8 967 F 8,9 9 ]; ] 9,393,9% 9 796 F 9,99 ]; 6],9,9% 68 F total 8,% b. La fonction de répartition du score est définie par F(x) P(X x) donc : F(x) pour tout x 6 F(x) pour tout x > 6 et à partir de la distribution des s cumulées associé au découpage en intervalles (F i, i, ) : si x est la borne supérieure du i ème intervalle F(x) F i F(x) Fonction de répartition du score,9,8,7,6,,,3,, 6 7 8 9 3 6 7 axe horizontal :,9 cm points score axe vertical : cm,3 c. La d'enfants ayant un score inférieur à s'exprime en fonction de la fonction de répartition F de la variable X : P(X )F() F, La d'enfants ayant un score inférieur à s'écrit : P(X )F() F 6,7 La d'enfants ayant un score compris entre et s'écrit : P( < X ) P( X ) P( X ) F( ) F( ),7,, 83 La d'enfants ayant un score supérieur à s'écrit : P( X > ) P( X ) F( ) F8,9, 8 ) a. Les trois quartiles de l'âge sont représentés en abscisse sur le graphique de la fonction de répartition : la médiane (second quartile) notée Q, est telle que F(Q, ), donc graphiquement on déduit que Q,, le premier quartile noté Q, est tel que F(Q, ), donc graphiquement on déduit que Q, le troisième quartile noté Q,7 est tel que F(Q,7 ),7 donc graphiquement on déduit que Q,7 % des enfants ont un score inférieur à points (% ont un score supérieur à points), % des enfants ont un score inférieur à points (7% ont un score supérieur à points) et 7% des enfants ont un score inférieur à points (% ont un score supérieur à points). b. Puisque F(),9 : environ 9% des enfants ont un score inférieur à points, le quantile d'ordre,9 (9%) ou 9 ème percentile du score est de points, Q,9 c. L'intervalle de variation à 9% (au risque %) du score est défini par les deux quantiles d'ordre, et,9 : I 9% [Q, ; Q,9 ] puisque P(X I 9% ) P(Q, X Q,9 ) 9% et P(X I 9% ) % en abscisse sur le graphique de la fonction de répartition, le ème percentile noté Q, est tel que F(Q, ), donc graphiquement on déduit que Q, 76, donc I 9% [Q, ; Q,9 ] [76 ; ] % des enfants ont un score inférieur à 76 points (9% ont un score supérieur à 76 points), 9% des enfants ont un score inférieur à points (% ont un score supérieur à points) et 9% des enfants ont un score compris entre 76 et points. l'intervalle de variation au risque % (à 8%) du score est défini par les deux quantiles d'ordre, et,9 : I 8% [Q, ; Q,9 ] puisque P(X I 8% ) P(Q, X Q,9 ) 8% et P(X I 8% ) % en abscisse sur le graphique de la fonction de répartition, le er décile noté Q, est tel que F(Q, ), donc graphiquement on déduit que Q, 89, et le 9 ème décile noté Q,9 est tel que F(Q,9 ),9 donc graphiquement on déduit que Q,9 3,donc I 8% [Q, ; Q,9 ] [89 ; 3]
% des enfants ont un score inférieur à 9 points (9% ont un score supérieur à 9 points), 9% des enfants ont un score inférieur à 3 points (% ont un score supérieur à 3 points) et 8% des enfants ont un score compris entre 9 et 3 points. ) Moyenne et variance de X sont calculées en faisant l'approximation que les n i individus du i ème intervalle du découpage du score ont pour valeur x i le milieu de l'intervalle : i score milieu x i effectif n i n i x i x i n i x i ]6; 7] 6 3 ]7; 8] 7 7 6 6 3 ]8; 9] 8 9 76 7 6 ]9; ] 9 3 9 9 79 77 ]; ] 3 6 7 6 ]; ] 9 6 78 3 78 7 7 ]; 3] 3 3 87 6 8 37 8 ]3; ] 3 83 8 38 7 9 ]; ] 9 3 89 ]; 6] 3 8 total 8 Σn i x i Σn i x i 869 moyenne de X dans P moyenne du score dans P score moyen dans P µ variance de X dans P variance du score dans P σ écart-type de X dans P écart-type du score dans P σ donc µ,76, 7 σ 869,7 83,77 6,9 39,8 39, et 8 8 σ 39, 7,866 7,9 les 8 enfant de 8 mois ont un score moyen de,7 points, la variance du score dans cette population est de 39, et l'écart-type du score est de 7,9 points. 6) Les 6 enfants supplémentaires fument depuis 6 ans : a. les 6 enfants supplémentaires ont un score moyen de 3 : la moyenne pour la population des 86 enfants 8,76 6 3 sera de 8 73,, points 8 6 b. en rajoutant 6 aux effectifs cumulés calculés à la question 3.a, 66 correspond à l'effectif cumulé pour la valeur : F()/, donc la médiane est de points pour la population des enfants de 8 mois.