CORRIGE DES EXERCICES : Statistique descriptive univariée

Documents pareils
Statistique : Résumé de cours et méthodes

Représentation d une distribution

Logiciel XLSTAT version rue Damrémont PARIS

Statistiques Descriptives à une dimension

Séries Statistiques Simples

Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistiques 0,14 0,11

1. Vocabulaire : Introduction au tableau élémentaire

Statistiques avec la graph 35+

3. Caractéristiques et fonctions d une v.a.

Statistique Descriptive Élémentaire

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Introduction à la statistique descriptive

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Calculs de probabilités avec la loi normale

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Lire ; Compter ; Tester... avec R

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

TSTI 2D CH X : Exemples de lois à densité 1

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Projet de Traitement du Signal Segmentation d images SAR

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

23. Interprétation clinique des mesures de l effet traitement

Statistiques à une variable

QUESTIONNAIRE DE DIAGNOSTIC RAPIDE DES NIVEAUX DE CPO ET TMS EN ETABLISSEMENTS DE SOIN

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

STATISTIQUES DESCRIPTIVES

Travaux dirigés d introduction aux Probabilités

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

- Ressources pour les classes

Remboursement des frais de transports par l'assurance maladie

Continuité et dérivabilité d une fonction

Résolution d équations non linéaires

Probabilités et Statistique

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

NOTES DE COURS STT1700. Introduction à la statistique. David Haziza

OUTILS STATISTIQUES ET NUMÉRIQUES

Statistiques descriptives sous Excel. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Feuille d exercices 2 : Espaces probabilisés

EPFL TP n 3 Essai oedomètrique. Moncef Radi Sehaqui Hamza - Nguyen Ha-Phong - Ilias Nafaï Weil Florian

Introduction à la Statistique Inférentielle

Statistiques descriptives

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

IBM SPSS Statistics Base 20

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Bulletin d information statistique

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Les domaines et les thèmes du SIG Grand Sud

Orientation professionnelle Charpentier bois

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Élément 424b Introduction à la statistique descriptive

ETUDE DES PERFORMANCES D UN SYSTEME EOLIEN. APPLICATION POUR DES SITES ALGERIENS

Comment tracer une droite représentative d'une fonction et méthode de calcul de l'équation d'une droite.

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Introduction aux Statistiques et à l utilisation du logiciel R

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

Nom : Groupe : Date : 1. Quels sont les deux types de dessins les plus utilisés en technologie?

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Probabilités conditionnelles Loi binomiale

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Observatoire Economique et Statistique d Afrique Subsaharienne

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Cours de Tests paramétriques

Mise à jour des paramètres relatifs à l estimation des Besoins énergétiques minimums

Introduction au Data-Mining

SERIE 1 Statistique descriptive - Graphiques

KIT D AIDE A LA MISE EN ACCESSIBILITE DES ETABLISSEMENTS DE TOURISME ET DE COMMERCE Édition Janvier 2015 FICHE N 2B RENDRE MON RESTAURANT ACCESSIBLE

Moments des variables aléatoires réelles

4. Martingales à temps discret

KIT D AIDE A LA MISE EN ACCESSIBILITE DES ETABLISSEMENTS DE TOURISME ET DE COMMERCE Édition Janvier 2015 FICHE N 2D RENDRE MON COMMERCE ACCESSIBLE

Elec II Le courant alternatif et la tension alternative

Économetrie non paramétrique I. Estimation d une densité

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Programmation Visual Basic. Visite guidée d'un programme Visual Basic 6.0

Evolution des risques sur les crédits à l habitat

Infos. Indicateurs analogiques encastrables pour installation à courants forts. Série M W/P/ LSP BWQ BGQ TP TG WQ /0S WQ /2S FQ /2 W BI BIW DFQ

Discours introductif du directeur du département. Mesdames Messieurs les professeurs, Mesdames Messieurs, Cher collègues, cher étudiants

Extraction d informations stratégiques par Analyse en Composantes Principales

La simulation probabiliste avec Excel

FORMULAIRE DE STATISTIQUES

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

BACCALAURÉAT PROFESSIONNEL SUJET

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Probabilités conditionnelles Loi binomiale

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Les devoirs en Première STMG

Loi pour l Égalité des Droits et des Chances, la Participation et la Citoyenneté des Personnes Handicapées (EDCPCPH)

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

TP N 57. Déploiement et renouvellement d une constellation de satellites

CM2B Ste Marthe NOMBRES CROISES

Transcription:

U.F.R. S.P.S.E. UIVERSITE PARIS X ATERRE licence de psychologie L3 PLPSTA Bases de la statistique inférentielle -6 CORRIGE DES EXERCICES : Statistique descriptive univariée Exercice P{patients hospitalisés pour un état dépressif majeur} de taille (effectif total) ) a. X efficacité du traitement, variable qualitative dichotomique (deux modalités) définie sur l'échelle descriptive E{x, x }{efficace, inefficace} {oui, non} ou par les deux modalités : x efficace, x inefficace b. tableau des distributions d'effectifs (n i, i,) et de s (p i, i,) efficacité effectif n i p i x efficace 9 9/,77% x inefficace 3 3/,% total,% n n p p on note : p p et p p la d'efficacité du traitement (notée p) est égale à 7% dans la population des patients hospitalisés pour un état dépressif majeur, et la d'inefficacité du traitement est donc égale à % ( p) dans la population étudiée. c. Le mode est la modalité d'effectif (ou de ) maximum : le mode est donc x efficace (pour 7% des individus de la population). d. Plusieurs types de représentations graphiques possibles : diagramme en tuyaux d'orgue, diagramme circulaire (en secteurs, camembert), diagramme rectangulaire, soit des effectifs (car l'effectif total est faible) soit des s. diagramme en tuyaux d'orgue de l'efficacité effectif 8 6 7% oui efficacité % non diagramme circulaire de l'efficacité ) a. X score à l'inventaire psychiatrique standardisé (PSE), variable quantitative discrète définie sur l'échelle descriptive E{x, x, x 3, x }{,,6,7} : x, x, x 3 6 et x 7 ( valeurs numériques (entières) représentant des points de score). b. Tableau de la distribution d'effectifs (n i, i, ) score PSE effectif n i x x x 3 6 x 7 total Σn i c. Le mode est la modalité d'effectif maximum : le mode est donc x 3 6 points de score (pour individus de la population). d. On représente par un diagramme en bâtons, soit la distribution d'effectifs (car l'effectif total est faible) soit celle des s. tableau des distributions d'effectifs (n i, i, ) et de s (p i, i, ) score PSE effectif n i p i x /,838,3% x /,33333,3% x 3 6 /,7,7% x 7 /,676,7% total Σp i,% non % oui 7% diagramme en bâtons du score PSE diagramme en bâtons du score PSE effectif 6 3 8,3% 33,3%,7% 6,7%,,,3,, 6 7 score PSE, 6 7 score PSE

e. La de patients ayant un score PSE au plus égal à (bâtons hachurés sur le diagramme des s) s'écrit :,7 P( X ) P( X ) P( X ) (c'est aussi la cumulée F ).,83,333,6 En utilisant la fonction de répartition F de la variable X, on note cette P(X )F(). La de patients ayant un score PSE au plus égal à 6 (bâtons noirs sur le diagramme des s) s'écrit,833 P( X 6 ) P( X ) P( X ) P( X 6) (c'est aussi la cumulée F 3 ).,83,333,7,833 En utilisant la fonction de répartition F de la variable X, on note cette P(X 6)F(6). f. La de patients ayant un score PSE au moins égal à 6 s'écrit : 7,83 P( X 6) P( X 6) P( X 7),7,67,8 En utilisant la fonction de répartition F de la variable X, on note cette P(X 6) P(X<6) P(X ) F(). g. Moyenne de X dans P moyenne du score PSE dans P score PSE moyen dans P µ variance de X dans P variance du score PSE dans P σ écart-type de X dans P écart-type du score PSE dans P σ score PSE effectif n i n i x i x i n i x i x 6 6 x x 3 6 3 36 8 x 7 9 98 total Σn i x i 68 Σn i x i 39 ni x i donc µ i 68,667,7 σ n x i i i µ 39,7 3,833 3,,7,7 et σ σ,7,898, 8 dans la population des patients hospitalisés pour un état dépressif majeur : le score PSE moyen est de,7 points, la variance du score PSE est de,7 et l'écart-type du score PSE est de,8 point. Exercice ) P{sujets} de taille (effectif total) 936 ) X nombre de mots mémorisés, définie sur l'échelle descriptive E{x, x, x 3, x, x }{,,, 3, } : x, x, x 3, x 3 et x ( valeurs numériques (entières)), c'est donc une variable quantitative discrète. 3) Tableau de la distribution de s (p i, i, ) nombre de mots effectif n i p i x /,% x 9 9/,3838% x 3 /% x 3 3 3/,66% x 6 3/,% total Σn i Σp i,% ) Le mode est la modalité d'effectif (ou de ) maximum : le mode est donc x mots mémorisés (pour 9 individus de la population, soit 38%). ) On représente par un diagramme en bâtons, soit la distribution d'effectifs (car l'effectif total est faible) soit celle des s. effectif diagramme en bâtons du nombre de mots mémorisés 38% % % 6% % 3 nombre de mots,,3,,, diagramme en bâtons du nombre de mots mémorisés 9 3 3 nombre de mots 6

6) La de patients ayant mémorisé au plus mots (bâtons hachurés sur le diagramme des s) s'écrit : 9 3,6 P( X ) P( X ) P( X ) (c'est aussi la cumulée F ).,,38,6 En utilisant la fonction de répartition F de la variable X, on note cette P(X )F(). La de patients ayant mémorisé au moins mots (bâtons noirs sur le diagramme des s) s'écrit : 3 6 9,38 P( X ) P( X ) P( X 3) P( X ),6,,38 En utilisant la fonction de répartition F de la variable X, on note cette P(X ) P(X<) P(X ) F(). 7) Moyenne de X dans P nombre moyen de mots mémorisés dans P µ variance de X dans P variance du nombre de mots mémorisés dans P σ écart-type de X dans P écart-type du nombre de mots mémorisés dans P σ nombre de mots effectif n i n i x i x i n i x i x x 9 9 99 x 3 x 3 3 69 69 97 x 6 8 96 76 total Σn i x i 8 Σn i x i 687 donc 8 µ,6, 6 σ 687,6 37, 3,9,9, 9 et σ,9,3966, les sujets mémorisent en moyenne,6 mots, la variance du nombre de mots mémorisés est de,9 et l'écart-type du nombre de mots mémorisés est de, mot. Exercice 3 P{adolescents habitant l'état de Caroline du Sud un an après l'ouragan Hugo} de taille (effectif total) 6 ) a. X sexe, variable qualitative dichotomique définie sur l'échelle descriptive E{x, x }{fille, garçon} ou deux modalités : x fille, x garçon tableau des distributions d'effectifs (n i, i,) et de s (p i, i,) car le nombre de garçons n n sexe effectif n i p i x fille n 66 66/6,,% x garçon n 6 666 6/6,77,% total 6,% n n p p on note : p p et p p dans la population des 6 adolescents étudiée, la de filles (notée p) est égale à,% et donc la de garçons est égale à 7,% ( p). b. Plusieurs types de représentations graphiques possibles de la distribution de s (car l'effectif total est élevé) : diagramme en tuyaux d'orgue, diagramme circulaire (en secteurs, camembert), diagramme rectangulaire. diagramme en tuyaux d'orgue du sexe diagramme circulaire du sexe,, 66 6 garçon 7,% fille,%, fille garçon ) a. X revivre l'événement, variable qualitative dichotomique définie sur l'échelle descriptive E{x, x }{oui, non} ou deux modalités : x revivre l'événement, x ne pas revivre l'événement tableau des distributions d'effectifs (n i, i,) et de s (p i, i,) car : le nombre d'adolescents qui revivent l'événement : n 68 3 le nombre d'adolescents qui ne revivent pas l'événement : n n 6 3 revivre l'événement effectif n i p i n n x oui 3 3/6,99,% p p d'où : p p et p p x non 6 3 /6,888,8% total 6,% le mode est la modalité x ne pas revivre l'événement dans la population des 6 adolescents étudiée, la d'adolescents qui revivent l'événement (notée p) est égale à 9,% et la de ceux qui ne revivent pas l'événement est donc égale à 8,8% (-p). 3

b. P{adolescentes (filles) habitant l'état de Caroline du Sud un an après l'ouragan Hugo} de taille 66 X revivre l'événement, variable qualitative dichotomique définie sur l'échelle descriptive E{x, x }{oui, non} tableau des distributions d'effectifs (n i, i,) et de s (p i, i,) car : le nombre d'adolescentes qui revivent l'événement : n 6 le nombre d'adolescentes qui ne revivent pas l'événement : n n 66 63 revivre l'événement effectif n i p i x oui 6 6/66,,% x non 66 63 3/66,787,8% total 66,% c. P{adolescents (garçons) habitant l'état de Caroline du Sud un an après l'ouragan Hugo} de taille 6 X revivre l'événement, variable qualitative dichotomique définie sur l'échelle descriptive E{x, x }{oui, non} tableau des distributions d'effectifs (n i, i,) et de s (p i, i,) car : le nombre d'adolescentes qui revivent l'événement : n 8 le nombre d'adolescentes qui ne revivent pas l'événement : n n 6 88 revivre l'événement effectif n i p i x oui 8 8/6,373,7% x non 6 88 8/6,86386,3% total 6,% Dans les deux sous-populations filles ou garçons, le mode est le même : "ne pas revivre l'événement", mais la correspondante est plus élevée chez les garçons (86,3%) que chez les filles (7,8%) : les filles revivent plus souvent l'événement (,%) que les garçons (3,7%). La de filles qui revivent l'événement est égale à,%, celle des garçons est égale à 3,7%. 3) a. X âge, définie sur l'échelle descriptive E]3; 8] (valeurs numériques continues), c'est donc une variable quantitative continue. b. Tableau de la distribution de s de l'âge associée au découpage en intervalles (p i, i, ) i âge effectif n i p i ]3; ] 9,393,9% ]; ] 79,37937,9% 3 ]; 6] 9,8,8% ]6; 7] 69,33,% ]7; 8] 38,33% total 6,% c. La densité de pour chaque intervalle est égale à : f(x) p i /l i où l i est la longueur du i ème intervalle. Ici tous les intervalles sont de longueur an donc f(x) p i. La représentation graphique de la densité de est donnée par l'histogramme associé à ce découpage. densité de f(x),,,3,,, ~% axe horizontal :, cm ans axe vertical : cm, Histogramme de l'âge âge ~93% 3 6 7 8 ans d. L'intervalle modal est l'intervalle de densité maximale : c'est donc le 3 ème intervalle ]; 6]. e. La d'adolescents de moins de ans (aire hachurée sur l'histogramme) s'écrit : 9 79 8,8, P( X ) P( 3 < X ) P( < X ) 6 6 6,39,379,8, f. La d'adolescents de plus de ans s'écrit : 9 69 38 736,8,8 P( < X 6) P( 6 < X 7) P( 7 < X 8) 6 6 6 6 P( X > ),8,3,3,8,8 P( X ),8,8 g. La d'adolescents âgés de à 7 ans (aire hachurée sur l'histogramme) s'écrit :

79 9 69 77,93,93 P( < X 7) P( < X ) P( < X 6) P( 6 < X 7) 6 6 6 6,379,8,3,93,93 h. Tableau de la distribution de s cumulées de l'âge, associée au découpage en intervalles (F i, i, ) : pour chaque intervalle la cumulée correspondante F i i / où i est l'effectif cumulé i n n n i ou F i p p p i i âge effectif n i p i effectif cumulé i cumulée F i ]3; ] 9,393,9% n 9 F p,39 ]; ] 79,37937,9% n n 9798 F p p,39,379,8 3 ]; 6] 9,8,8% 3 n n n 3 n 3 897 F 3 p p p 3,8,8,836 ]6; 7] 69,33,% n n n 3 n 3 n 7696 F p p p 3 p,836,3,97 ]7; 8] 38,33% n n n 3 n n 6 F p p p 3 p p total 6,% i. La fonction de répartition de l'âge associée au découpage en intervalles, est définie par F(x) P(X x) donc : F(x) pour tout x 3 F() P(X )F,39 F() P(3<X )P(<X )p p F,8 F(6) P(3<X )P(<X )P(<X 6)p p p 3 F 3,836 F(7) P(3<X )P(<X )P(<X 6)P(6<X 7)p p p 3 p F,97 F(8) P(3<X )P(<X )P(<X 6)P(6<X 7)P(7<X 8)p p p 3 p p F F(x) pour tout x > 8 F(x) Fonction de répartition de l'âge,9,8,7,6,,,3,, 3 6 7 8 9 axe horizontal :, cm ans axe vertical : 3 cm j. La d'adolescents de moins de ans s'exprime comme la cumulée F. En utilisant la fonction de répartition F de la variable X, on note cette P(X )F(),8 La d'adolescents de plus de ans s'écrit en utilisant la fonction de répartition F de la variable X : P(X>) P(X ) F(),8,8 La d'adolescents âgés de à 7 ans s'écrit en utilisant la fonction de répartition F de la variable X : P( < X 7) P( X 7) P( X ) F( 7) F( ). On calcule séparément F(7) puis F() : F( 7) P( X 7) P( 3 < X ) P( < X ) P( < X 6) P( 6 < X 7) F, 9699 P X P 3 < X F, F( ) ( ) ( ) 39 donc P( < X 7) F( 7) F( ),9699,388,93, 93 k. Les trois quartiles de l'âge sont représentés en abscisse sur le graphique de la fonction de répartition : la médiane (second quartile) notée Q, est telle que F(Q, ), donc graphiquement on déduit que Q,, ans le premier quartile noté Q, est tel que F(Q, ), donc graphiquement on déduit que Q,, ans le troisième quartile noté Q,7 est tel que F(Q,7 ),7 donc graphiquement on déduit que Q,7,8 ans % des adolescents de la population ont moins de, ans (% ont plus de, ans), % des adolescents ont moins de, ans (7% ont plus de, ans) et 7% des adolescents ont moins de,8 ans (% ont plus de,8 ans). l. Moyenne de X dans P moyenne de l'âge dans P âge moyen dans P µ variance de X dans P variance du nombre de mots mémorisés dans P σ écart-type de X dans P écart-type du nombre de mots mémorisés dans P σ i âge effectif n i milieu x i n i x i x i n i x i ]3; ] 9 3, 66, 8, 893, ]; ] 79, 69,, 79,7 3 ]; 6] 9, 899,, 79, ]6; 7] 69 6, 788, 7, 6, ]7; 8] 38 7, 66, 36, 637, total 6 Σn i x i 96, Σn i x i 938, âge

donc 96 µ,, σ 938, 3,896 3,77,79, 7 et 6 6 σ,7,879,8 les 6 adolescents ont en moyenne, ans, la variance de l'âge est de,7 et l'écart-type de l'âge est de,8 an. Exercice P{sujets fumeurs} de taille (effectif total) 6 ) Le diagramme est appelé diagramme tige et feuille (stem and leaf). La valeur minimale est 3, la valeur maximale 9. ) X durée de tabagisme, définie sur l'échelle descriptive E]; 6] (valeurs numériques continues), c'est donc une variable quantitative continue. 3) Moyenne de X dans P moyenne de la durée de tabagisme dans P durée moyenne de tabagisme dans P µ variance de X dans P variance de la durée de tabagisme dans P σ écart-type de X dans P écart-type de la durée de tabagisme dans P σ x i i x i i 38 d'où µ x i i 38 3,3 3 6 x i i 8 d'où σ µ 8 3 69,3 3,3 6,6 et σ σ 6,6, 7 6 les 6 fumeurs fument en moyenne depuis 3 ans, la variance de la durée de tabagisme est de 6,6 et l'écart-type de la durée de tabagisme est de,7 ans. ) a. Tableau des distributions d'effectifs (n i, i, 6) et de s (p i, i, 6) de la durée de tabagisme, associées au découpage en 6 intervalles de longueur ans. i durée de tabagisme effectif n i p i ]; ] 9,% ]; ],33% 3 ]; 3],% ]3; ] 8,333,3% ]; ],676,7% 6 ]; 6] 3,% total 6,% b. La densité de pour x appartenant au i ème l'intervalle est égale à : f(x) p i /l i où l i est la longueur du i ème intervalle. Ici tous les intervalles sont de longueur ans donc f(x) p i /. La représentation graphique de la densité de est donnée par l'histogramme associé à ce découpage. densité de f(x),,3,, Histogramme de la durée de tabagisme %, 3 6 ans axe horizontal :, cm ans durée axe vertical :,9 cm, c. L'intervalle modal est l'intervalle de densité maximale : c'est donc le ème intervalle ]; ]. ) a. La de sujets ayant fumé pendant moins de ans (aire hachurée sur l'histogramme) s'écrit : 9 3, P( X ) P( < X ) P( < X ) 6 6 6 (c'est aussi la cumulée F ).,,3, En utilisant la fonction de répartition F de la variable X, on note cette P(X )F(). b. La de sujets ayant fumé pendant plus de ans s'écrit : 8 3 3, P( < X 3) P( 3 < X ) P( < X ) P( < X 6) 6 6 6 6 6 P( X > ),,33,67,, P( X ),, 6 % % %

En utilisant la fonction de répartition F de la variable X, on note cette P(X>) P(X ) F(). c. La de sujets ayant fumé pendant plus de 3 ans (aire hachurée sur l'histogramme) s'écrit : 8 3, P( X > 3) P( 3 < X ) P( < X ) P( < X 6) 6 6 6 6,33,67,, En utilisant la fonction de répartition F de la variable X, on note cette P(X>3) P(X 3) F(3). La de sujets ayant fumé pendant plus de ans (aire hachurée sur l'histogramme) s'écrit : P( X > ) P( < X 6) 3, 6 En utilisant la fonction de répartition F de la variable X, on note cette P(X>) P(X ) F(). d. La de sujets ayant fumé pendant plus de ans mais moins de ans s'écrit : 8 7, P( < X 3) P( 3 < X ) P( < X ) 6 6 6 6 P( < X ),,33,67, P( X ) P( X ) F( ) F( ) où F est la fonction de répartition de la variable X. 6) a. La fonction de répartition de la durée de tabagisme est définie par F(x) P(X x) donc : F(x) pour tout x F(x) pour tout x > 6 et à partir de la distribution des s cumulées associé au découpage en 6 intervalles (F i, i, 6) : F(x)F i si x est la borne supérieure du i ème intervalle i durée effectif n i p i effectif cumulé i cumulée F i ]; ] 9,% n 9 F p,f() ]; ],33% n n 93 F 3/6,F() 3 ]; 3],% 3 n n n 3 n 3 3 F 3 /6,7F(3) ]3; ] 8,333,3% n n n 3 n 3 n 83 F 3/6,883F() ]; ],676,7% n n n 3 n n n 37 F 7/6,9F() 6 ]; 6] 3,% 6 n n n 3 n n n 6 6 F 6 6/6F(6) total 6,% F(x) Fonction de répartition de la durée de tabagisme,9,8,7,6,,,3,, 3 6 7 axe horizontal :, cm ans durée axe vertical : 3 cm b. Puisque F(), : % des sujets ont fumé pendant moins de ans, la médiane de la durée de tabagisme est de ans, Q, puisque F(3),7 : 7% des sujets ont fumé pendant moins de 3 ans, le troisième quartile de la durée de tabagisme est de 3 ans, Q,7 3 puisque F(),9 : 9% des sujets ont fumé pendant moins de ans, le quantile d'ordre,9 (9%) ou 9 ème percentile de la durée de tabagisme est de ans, Q,9 c. Les trois quartiles de l'âge sont représentés en abscisse sur le graphique de la fonction de répartition : la médiane (second quartile) Q, ans, le troisième quartile Q,7 3 ans le premier quartile noté Q, est telle que F(Q, ), donc graphiquement on déduit que Q, 3 ans % des sujets ont fumé pendant moins de ans (% pendant plus de ans), % des sujets ont fumé pendant moins de, ans (7% pendant plus de, ans) et 7% des sujets ont fumé pendant moins de 3 ans (% pendant plus de 3 ans). 7) Sur le diagramme tige et feuille, un quantile est déterminé en comptant (à partir de la valeur minimale) le nombre de valeurs correspondant à son ordre. a. La médiane, quantile d'ordre, (%) correspond donc à la moitié de la taille de la population c'est à dire /3 : elle est donc égale à n'importe quelle valeur comprise entre la 3 ème et la 3 ème valeur c'est à dire entre et ; par convention on prendra le milieu, donc Q,, ans. 7

le premier quartile, quantile d'ordre, (%) correspond au quart de la taille de la population c'est à dire / : il est donc égal à n'importe quelle valeur comprise entre la ème et la 6 ème valeur c'est à dire ; donc Q, ans. le troisième quartile, quantile d'ordre,7 (7%) correspond aux trois quarts de la taille de la population c'est à dire 3/ : il est donc égal à n'importe quelle valeur comprise entre la ème et la 6 ème valeur c'est à dire entre 9 et 3; par convention on prendra le milieu, donc Q,7 3 ans. On retrouve des quartiles très similaires à ceux déduits à la question 6. b. Le er décile, quantile d'ordre, (%) correspond au dixième de la taille de la population c'est à dire /6 : il est donc égal à n'importe quelle valeur comprise entre la 6 ème et la 7 ème valeur c'est à dire entre 9 et ; par convention on prendra le milieu, donc Q, 9, ans. le 9 ème décile, quantile d'ordre,9 (9%) correspond aux neuf dixièmes de la taille de la population c'est à dire,96 9 : il est donc égal à n'importe quelle valeur comprise entre la ème et la ème valeur c'est à dire entre et ; par convention on prendra le milieu, donc Q,9 3, ans. L'intervalle de variation à 8% (au risque %) de la durée de tabagisme est défini par les deux quantiles d'ordre, et,9 : I 8% [Q, ; Q,9 ] puisque P(X I 8% ) P(Q, X Q,9 )8% et P(X I 8% ) % donc I 8% [Q, ; Q,9 ] [9, ; 3,] % des sujets ont fumé pendant moins de 9, ans (9% pendant plus de 9, ans), 9% des sujets ont fumé pendant moins de 3, ans (% pendant plus de 3, ans) et 8% des sujets ont fumé pendant une durée comprise entre 9, et 3, ans. c. Le ème percentile, quantile d'ordre, (%) correspond à % de la taille de la population c'est à dire,3 : il est donc égal à n'importe quelle valeur comprise entre la 3 ème et la ème valeur c'est à dire ; donc Q, ans. le 9 ème percentile, quantile d'ordre,9 (9%) correspond à 9% de la taille de la population c'est à dire,96,97 : il est donc égal à n'importe quelle valeur comprise entre la 7 ème et la 8 ème valeur c'est à dire entre 7 et ; par convention on prendra le milieu, donc Q,9 9 ans. L'intervalle de variation à 9% (au risque %) de la durée de tabagisme est défini par les deux quantiles d'ordre, et,9 : I 9% [Q, ; Q,9 ] puisque P(X I 9% ) P(Q, X Q,9 ) 9% et P(X I 9% ) % donc I 9% [Q, ; Q,9 ] [ ; 9] % des sujets ont fumé pendant moins de ans (9% pendant plus de ans), 9% des sujets ont fumé pendant moins de 9 ans (% pendant plus de 9 ans) et 9% des sujets ont fumé pendant une durée comprise entre et 9 ans. 8) Moyenne et variance de X sont calculées en faisant l'approximation que les n i individus du i ème intervalle ont pour valeur le milieu de l'intervalle noté x i : durée de tabagisme milieu x i effectif n i n i x i x i n i x i ]; ] 9 ]; ] 3 7 ]; 3] 37 6 937 ]3; ] 3 8 8 98 ]; ] 8 8 ]; 6] 3 6 3 97 total 6 Σn i x i 36 Σn i x i 3 a. Moyenne de X dans P moyenne de la durée de tabagisme dans P durée moyenne de tabagisme dans P µ donc µ 36,667, 7 6 les 6 fumeurs ont fumé en moyenne pendant,7 ans. b. Variance de X dans P variance de la durée de tabagisme dans P σ écart-type de X dans P écart-type de la durée de tabagisme dans P σ donc σ 3,7 688,33 3,78 7, 6 et σ 7,6 3,9 3, 6 l'écart-type de la durée de tabagisme dans la population étudiée des 6 sujets fumeurs est de 3, ans. c. Les résultats obtenus avec l'approximation précédente sur des données regroupées sont proches de ceux trouvés à la question 3 calculés sur les données individuelles. 9) Cinq ans plus tard tous les sujets auront fumé ans de plus donc : a. la moyenne sera de 38 ans b. les écarts à la moyenne restant inchangés, la variance et l'écart-type ne seront pas modifiés c. la médiane sera de ans ) Les 3 sujets supplémentaires fument depuis 6 ans donc : a. les 3 sujets supplémentaires fument en moyenne depuis 6 ans : la moyenne sera de 6 3 3 6 38 8 38 3,333 3,3 ans 6 3 9 9 b. pour une population de taille 9, la médiane se trouve entre la ème et la 6 ème valeur soit entre 9 et 3 ; par convention on prendra le milieu, donc la durée médiane sera de 3 ans. 8

Exercice ) P{enfants de 8 mois} de taille (effectif total) 939398 ) X score sur l'échelle de Bayley, définie sur l'échelle descriptive E]6; 6] (valeurs numériques), c'est donc une variable quantitative. a. Tableau des distributions d'effectifs (n i, i, ) et de s (p i, i, ) du score, associées au découpage en intervalles de longueur points. i score effectif n i p i ]6; 7],,% ]7; 8],,% 3 ]8; 9] 9,393,9% ]9; ] 3,363,6% ]; ],,% 6 ]; ] 9,9,9% 7 ]; 3] 3,363,6% 8 ]3; ],99,% 9 ]; ] 9,393,9% ]; 6],9,9% total 8,% b. L'histogramme est la représentation graphique de la densité de f de la variable X associée à ce découpage. Pour x appartenant au i ème intervalle la densité est égale à : f(x) p i /l i où l i est la longueur du i ème intervalle. Ici tous les intervalles sont de longueur ans donc f(x) p i /. f(x) Histogramme du score,3 ~% densité de,, ~%, 6 7 8 9 3 6 score axe horizontal :,9 cm points axe vertical : cm, c. L'intervalle modal est l'intervalle de densité maximale : c'est donc le 6 ème intervalle ]; ]. d. La d'enfants ayant un score inférieur à (aire hachurée sur l'histogramme) s'écrit : P( X ) P( 6 < X 7) P( 7 < X 8) P( 8 < X 9) P( 9 < X ) 9 3, 8 8 8 8 8,,,39,36, (c'est aussi la cumulée F ). La d'enfants ayant un score inférieur à s'écrit : P( X ) P( 6 < X 7) P( 7 < X 8) P( 8 < X 9) P( 9 < X ) P( < X ) P( < X ) 9 3 9 6,7 8 8 8 8 8 8 8,,,39,36,,9,7 (c'est aussi la cumulée F 6 ). La d'enfants ayant un score compris entre et (aire hachurée sur l'histogramme) s'écrit : 9,8 P( < X ) P( < X ) 8 8 8 P( < X ),,9,83 P( X ) P( X ),7,,83 La d'enfants ayant un score supérieur à (aire hachurée sur l'histogramme) s'écrit : 9,8 P( < X ) P( < X 6) 8 8 8 P( X > ),39,9,8 P( X ) F8 9 ~%

3) a. Tableau de la distribution de s cumulées du score associée au découpage en intervalles (F i, i, ) : pour chaque intervalle la cumulée correspondante : F i i / où i est l'effectif cumulé i n n n i ou F i p p p i i score effectif n i p i effectif cumulé i cumulée F i ]6; 7],,% n F p, ]7; 8],,% F,66 3 ]8; 9] 9,393,9% 3 9 F 3, ]9; ] 3,363,6% 3 F, ]; ],,% 6 F,6 6 ]; ] 9,9,9% 6 696 F 6,7 7 ]; 3] 3,363,6% 7 6396 F 7,86 8 ]3; ],99,% 8 967 F 8,9 9 ]; ] 9,393,9% 9 796 F 9,99 ]; 6],9,9% 68 F total 8,% b. La fonction de répartition du score est définie par F(x) P(X x) donc : F(x) pour tout x 6 F(x) pour tout x > 6 et à partir de la distribution des s cumulées associé au découpage en intervalles (F i, i, ) : si x est la borne supérieure du i ème intervalle F(x) F i F(x) Fonction de répartition du score,9,8,7,6,,,3,, 6 7 8 9 3 6 7 axe horizontal :,9 cm points score axe vertical : cm,3 c. La d'enfants ayant un score inférieur à s'exprime en fonction de la fonction de répartition F de la variable X : P(X )F() F, La d'enfants ayant un score inférieur à s'écrit : P(X )F() F 6,7 La d'enfants ayant un score compris entre et s'écrit : P( < X ) P( X ) P( X ) F( ) F( ),7,, 83 La d'enfants ayant un score supérieur à s'écrit : P( X > ) P( X ) F( ) F8,9, 8 ) a. Les trois quartiles de l'âge sont représentés en abscisse sur le graphique de la fonction de répartition : la médiane (second quartile) notée Q, est telle que F(Q, ), donc graphiquement on déduit que Q,, le premier quartile noté Q, est tel que F(Q, ), donc graphiquement on déduit que Q, le troisième quartile noté Q,7 est tel que F(Q,7 ),7 donc graphiquement on déduit que Q,7 % des enfants ont un score inférieur à points (% ont un score supérieur à points), % des enfants ont un score inférieur à points (7% ont un score supérieur à points) et 7% des enfants ont un score inférieur à points (% ont un score supérieur à points). b. Puisque F(),9 : environ 9% des enfants ont un score inférieur à points, le quantile d'ordre,9 (9%) ou 9 ème percentile du score est de points, Q,9 c. L'intervalle de variation à 9% (au risque %) du score est défini par les deux quantiles d'ordre, et,9 : I 9% [Q, ; Q,9 ] puisque P(X I 9% ) P(Q, X Q,9 ) 9% et P(X I 9% ) % en abscisse sur le graphique de la fonction de répartition, le ème percentile noté Q, est tel que F(Q, ), donc graphiquement on déduit que Q, 76, donc I 9% [Q, ; Q,9 ] [76 ; ] % des enfants ont un score inférieur à 76 points (9% ont un score supérieur à 76 points), 9% des enfants ont un score inférieur à points (% ont un score supérieur à points) et 9% des enfants ont un score compris entre 76 et points. l'intervalle de variation au risque % (à 8%) du score est défini par les deux quantiles d'ordre, et,9 : I 8% [Q, ; Q,9 ] puisque P(X I 8% ) P(Q, X Q,9 ) 8% et P(X I 8% ) % en abscisse sur le graphique de la fonction de répartition, le er décile noté Q, est tel que F(Q, ), donc graphiquement on déduit que Q, 89, et le 9 ème décile noté Q,9 est tel que F(Q,9 ),9 donc graphiquement on déduit que Q,9 3,donc I 8% [Q, ; Q,9 ] [89 ; 3]

% des enfants ont un score inférieur à 9 points (9% ont un score supérieur à 9 points), 9% des enfants ont un score inférieur à 3 points (% ont un score supérieur à 3 points) et 8% des enfants ont un score compris entre 9 et 3 points. ) Moyenne et variance de X sont calculées en faisant l'approximation que les n i individus du i ème intervalle du découpage du score ont pour valeur x i le milieu de l'intervalle : i score milieu x i effectif n i n i x i x i n i x i ]6; 7] 6 3 ]7; 8] 7 7 6 6 3 ]8; 9] 8 9 76 7 6 ]9; ] 9 3 9 9 79 77 ]; ] 3 6 7 6 ]; ] 9 6 78 3 78 7 7 ]; 3] 3 3 87 6 8 37 8 ]3; ] 3 83 8 38 7 9 ]; ] 9 3 89 ]; 6] 3 8 total 8 Σn i x i Σn i x i 869 moyenne de X dans P moyenne du score dans P score moyen dans P µ variance de X dans P variance du score dans P σ écart-type de X dans P écart-type du score dans P σ donc µ,76, 7 σ 869,7 83,77 6,9 39,8 39, et 8 8 σ 39, 7,866 7,9 les 8 enfant de 8 mois ont un score moyen de,7 points, la variance du score dans cette population est de 39, et l'écart-type du score est de 7,9 points. 6) Les 6 enfants supplémentaires fument depuis 6 ans : a. les 6 enfants supplémentaires ont un score moyen de 3 : la moyenne pour la population des 86 enfants 8,76 6 3 sera de 8 73,, points 8 6 b. en rajoutant 6 aux effectifs cumulés calculés à la question 3.a, 66 correspond à l'effectif cumulé pour la valeur : F()/, donc la médiane est de points pour la population des enfants de 8 mois.