Statistique descriptive univariée Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michael.genin@univ-lille2.fr
Plan 1 Introduction 2 Variables qualitatives nominales 3 Variables qualitatives ordinales 4 Variables quantitatives discrètes 5 Variables quantitatives continues 6 Cas particulier Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 1 / 52
Plan 1 Introduction 2 Variables qualitatives nominales 3 Variables qualitatives ordinales 4 Variables quantitatives discrètes 5 Variables quantitatives continues 6 Cas particulier Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 1 / 52
Plan 1 Introduction 2 Variables qualitatives nominales 3 Variables qualitatives ordinales 4 Variables quantitatives discrètes 5 Variables quantitatives continues 6 Cas particulier Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 1 / 52
Plan 1 Introduction 2 Variables qualitatives nominales 3 Variables qualitatives ordinales 4 Variables quantitatives discrètes 5 Variables quantitatives continues 6 Cas particulier Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 1 / 52
Plan 1 Introduction 2 Variables qualitatives nominales 3 Variables qualitatives ordinales 4 Variables quantitatives discrètes 5 Variables quantitatives continues 6 Cas particulier Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 1 / 52
Plan 1 Introduction 2 Variables qualitatives nominales 3 Variables qualitatives ordinales 4 Variables quantitatives discrètes 5 Variables quantitatives continues 6 Cas particulier Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 1 / 52
Introduction Point étudié 1 Introduction 2 Variables qualitatives nominales 3 Variables qualitatives ordinales 4 Variables quantitatives discrètes 5 Variables quantitatives continues 6 Cas particulier Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 2 / 52
Introduction Objectif de la séance : analyse statistique univariée d un échantillon statistique : caractérisation des variables par des paramètres statistiques qui dépendent de leur type (qualitatif ou quantitatif) représentations graphiques (qui dépendent également du type) Rappel : plan classique d une étude 1 Recueil et mise en forme des données étudié pendant le CM1 2 Analyse Description univariée dans l échantillon estimation intervalle de confiance aujourd hui Analyse statistique inférentielle Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 3 / 52
CM2 : Analyse statistique descriptive I. Introduction Introduction Rappels Rappel : population / échantillon Population Population : ensemble :ensemble de deréférence Individu Individu : chaque :chaque élément élément de cet decet ensemble ensemble Echantillon Echantillon : ensemble : ensemble d individus d individus représentatifs représentatifs d une d une population population 4/ 44 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 4 / 52
Introduction Chaque individu est décrit par un ou plusieurs caractères, appelés aussi variables. Modalités - différentes situations possibles de la variable - à la fois incompatibles et exhaustives Chaque individu présente une et une seule modalité de la variable Différents types de variables : - variables qualitatives nominale (modalités non ordonnées) ordinale (modalités ordonnées) - variables quantitatives discrète continue - variables binaires - dates Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 5 / 52
Introduction Variable qualitative = variable non mesurable Ex 1 : la couleur des yeux (qualitative nominale) les différentes couleurs sont les modalités de cette variable qualitative Ex 2 : le niveau de scolarité "maternelle", "élémentaire", "collège" et "lycée" (qualitative ordinale) Variable quantitative = variable mesurable possibilité de sommer, de calculer une moyenne, etc. Ex 1 : la taille (quantitatif continu) Ex 2 : le nombre d enfants (quantitatif discret) cas particulier du résultat obtenu avec une EVA réelle Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 6 / 52
Introduction Pour chaque type de variables : a. définition b. présentation des données c. représentation graphique d. calcul de paramètres sur l échantillon à analyser Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 7 / 52
Variables qualitatives nominales Point étudié 1 Introduction 2 Variables qualitatives nominales 3 Variables qualitatives ordinales 4 Variables quantitatives discrètes 5 Variables quantitatives continues 6 Cas particulier Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 8 / 52
II. Variables qualitatives non ordonnées Variables qualitatives nominales Définition II. Variables qualitatives non ordonnées a. définition variable non quantifiable décrivant une qualité d un individu à l aide de k modalités mutuellement variable non quantifiable exclusives décrivant une qualité d un individu à l aide de k modalités mutuellement exclusives on parle aussi de variable qualitative non-ordonnée on parle aussi de variable nominale Ex : la couleur des cheveux Ex : la couleur des cheveux Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 9 / 52 8/ 44
Variables qualitatives nominales Présentation des données Tableau statistique une ligne pour chacune des k modalités (i de 1 à k) Modalité Effectif Fréquence x i n i f i = n i /N Σ = N Σ = 1 Exemple : Dresser le tableau statistique correspondant à la couleur des cheveux Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 10 / 52
Variables qualitatives nominales Présentation des données Tableau statistique une ligne pour chacune des k modalités (i de 1 à k) Modalité Effectif Fréquence x i n i f i = n i /N Σ = N Σ = 1 Exemple : Dresser le tableau statistique correspondant à la couleur des cheveux Modalité Effectif Fréquence Bruns 25 0.50 Blonds 18 0.36 Blancs 7 0.14 Σ = 50 Σ = 1 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 11 / 52
CM2 : Analyse statistique descriptive Variables qualitatives nominales II. Variables qualitatives non ordonnées Représentation graphique II. c. représentation graphique - Diagramme en secteur (= camembert) - Diagramme en secteur (= camembert) Modalité Modalité portion Ñ portion d aire d aire proportionnelle à à sa fréqence sa fréqence f i f i son son effectif e ectif n i n i l angle l angle au centre au centre (en (en degrés degrés : α = : 360 360 f i) ˆ f i ) la surface la surface du secteur du secteur - Diagramme - Diagramme en barres en barres des des effectifs e ectifs (= à(= batons) à batons) (détails (détails à la àsection la section suivante) suivante) 11 / 44 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 12 / 52
Variables qualitatives nominales Calcul de paramètres Un seul paramètre : le mode Mode = modalité ayant le plus grand effectif la fréquence relative la plus élevée Modalité Effectif Fréquence Bruns 25 0.50 Blonds 18 0.36 Blancs 7 0.14 Σ = 50 Σ = 1 Sur notre exemple, le mode est "Bruns". Remarques : le mode est simple à calculer signification concrète défini pour tous les types de variables MAIS il n est pas nécessairement unique. Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 13 / 52
Variables qualitatives ordinales Point étudié 1 Introduction 2 Variables qualitatives nominales 3 Variables qualitatives ordinales 4 Variables quantitatives discrètes 5 Variables quantitatives continues 6 Cas particulier Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 14 / 52
Variables qualitatives ordinales Définition = variables qualitatives ordonnées les modalités ont un ordre Ex Variable Diplôme Modalités Brevet Bac Licence Master Doctorat Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 15 / 52
Variables qualitatives ordinales Présentation des données Tableau statistique similaire à celui des variables nominales MAIS trier les lignes par x i croissants ajouter les effectifs cumulés et fréquences cumulées Exercice : On interroge 50 personnes sur leur dernier diplôme obtenu (Sans diplôme, Primaire, Secondaire, Supérieur non universitaire, Universitaire). On a obtenu la série statistique suivante Y Sd Sd Sd Sd P P P P P P P P P P P Se Se Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su Su Su Su Su U U U U U U U U U U U U Consigne : construire le tableau statistique correspondant à cette série. Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 16 / 52
Variables qualitatives ordinales Présentation des données EX : Le tableau statistique complet correspondant est Modalité Effectif Effectif cumulé Fréquence Fréquence cumulée Sd 4 4 0.08 0.08 P 11 15 0.22 0.30 Se 14 29 0.28 0.58 Su 9 38 0.18 0.76 U 12 50 0.24 1.00 Σ = 50 Σ = 1 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 17 / 52
III. Variables qualitatives ordonnées III. Variables qualitatives ordonnées Variables qualitatives ordinales Représentation graphique c. représentation graphique - Diagramme en secteur (voir section précédente) - Diagramme en secteur (voir section précédente) - Diagramme en barres des effectifs (ou fréquence) - Diagramme en barres des e ectifs (ou fréquence) - - Diagramme en en barres barres des des effectifs e ectifs cumulés cumulés (ou (ou fréquence cumulée) cumulée) 16 44 16 / 44 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 18 / 52
Variables qualitatives ordinales Calcul de paramètres Médiane valeur de la variable qui partage en deux effectifs égaux les individus de la pop. supposés rangés par valeur croissante des modalités. s applique aux variables admettant une relation d ordre Quelle est la médiane de l exemple? Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 19 / 52
III. Variables qualitatives ordonnées Variables qualitatives ordinales Calcul de paramètres d. calcul de paramètres Médiane Médiane valeur valeur de de la variable la variable qui qui partage partage en en deux deux effectifs e ectifs égaux égaux les les individus individus de de la pop. la pop. supposés supposés rangés rangés par par valeur valeur croissante croissante des des modalités. modalités. s applique aux aux variables admettant une une relation relation d ordre d ordre Sur Sur notre notre exemple, médiane = Se = Se si on si on dispose dispose du du diag. diag. des des freq. freq. cum., cum., la la médiane correspond à laà la première barre barre traversée par l horizontale par l horizontale tracée àtracée 50% à 50% 18 / 44 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 20 / 52
Variables qualitatives ordinales Calcul de paramètres Mode (voir section précédente) Sur notre exemple, mode =? Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 21 / 52
Variables qualitatives ordinales Calcul de paramètres Mode (voir section précédente) Sur notre exemple, mode = Se Modalité Effectif Effectif cumulé Fréquence Fréquence cumulée Sd 4 4 0.08 0.08 P 11 15 0.22 0.30 Se 14 29 0.28 0.58 Su 9 38 0.18 0.76 U 12 50 0.24 1.00 Σ = 50 Σ = 1 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 22 / 52
Variables quantitatives discrètes Point étudié 1 Introduction 2 Variables qualitatives nominales 3 Variables qualitatives ordinales 4 Variables quantitatives discrètes 5 Variables quantitatives continues 6 Cas particulier Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 23 / 52
Variables quantitatives discrètes Définition variable numérique ne pouvant prendre qu un nombre fini de valeurs relation d ordre souvent issues d un décompte en pratique : nombreux ex-aequo Ex 1 : nombre d enfants d une famille Ex 2 : nombre de rechutes d une maladie Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 24 / 52
Variables quantitatives discrètes Présentation des données Tableau statistique une ligne pour chacune de k valeurs différentes triées de X (i de 1 à k) Valeur Effectif Effectif cumulé Fréquence Fréquence cumulée i x i n i N i = j=1 n i j f i = n i /N F i = j=1 f j x k n k N f k 1 Σ = N Σ = 1 Ex : Série du nombre de personnes formant le ménage : 1-6 - 2-3 - 3-1 - 4-1 - 2-4 - 2-3 - 1-1 - 3-2 - 4-1 - 4-1 Série triée du nombre de personnes formant le ménage : 1-1 - 1-1 - 1-1 - 1-1 - 2-2 - 2-3 - 3-3 - 3-4 - 4-4 - 4-6 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 25 / 52
Variables quantitatives discrètes Présentation des données Tableau statistique correspondant à la composition du ménage : Valeur Effectif Effectif cumulé Fréquence Fréquence cumulée Σ = Σ = Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 26 / 52
Variables quantitatives discrètes Présentation des données Tableau statistique correspondant à la composition du ménage : Modalité Effectif Effectif cumulé Fréquence Fréquence cumulée 1 8 8 0.40 0.40 2 3 11 0.15 0.55 3 4 15 0.20 0.75 4 4 19 0.20 0.95 6 1 20 0.05 1.00 Σ = 20 Σ = 1 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 27 / 52
IV. Variables quantitatives discrètes IV. Variables quantitatives discrètes Variables quantitatives discrètes Représentation graphique c. représentation graphique - - Diagramme en barres en en barres des des effectifs e ectifs (ou (ou fréquence) - - Diagramme en barres en en barres des des effectifs e ectifs cumulés cumulés (ou (ou fréquence fréquence cumulée) cumulée) 25 44 25 / 44 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 28 / 52
Variables quantitatives discrètes Calcul de paramètres Minimum : valeur la moins élevée de la série Sur notre exemple, min =?? Maximum : valeur la plus élevée de la série Sur notre exemple, max =?? Etendue : différence entre maximum et minimum Sur notre exemple, Etendue =?? Mode (vu précédemment) Sur notre exemple, Mode =?? Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 29 / 52
Variables quantitatives discrètes Calcul de paramètres Minimum : valeur la moins élevée de la série Sur notre exemple, min = 1 Maximum : valeur la plus élevée de la série Sur notre exemple, max = 6 Etendue : différence entre maximum et minimum Sur notre exemple, Etendue = 6-1 = 5 Mode (vu précédemment) Sur notre exemple, Mode = 1 Mediane, quantiles (cf. ci-après) Moyenne (cf. ci-après) Variance et écart-type (cf. ci-après) Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 30 / 52
Variables quantitatives discrètes Calcul de paramètres - Médiane valeur seuil qui partage l échantillon en 2 sous-groupes d effectif identique Si N impair : soit N=2p +1, médiane = x p+1 Si N pair : soit N=2p, médiane = (x p + x p+1 )/2 robuste aux valeurs extrêmes Déterminer la médiane de l exemple précédent. Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 31 / 52
Variables quantitatives discrètes Calcul de paramètres - Médiane valeur seuil qui partage l échantillon en 2 sous-groupes d effectif identique Si N impair : soit N=2p +1, médiane = x p+1 Si N pair : soit N=2p, médiane = (x p + x p+1 )/2 robuste aux valeurs extrêmes Exemple : x i : 1-1 - 1-1 - 1-1 - 1-1 - 2-2 - 2-3 - 3-3 - 3-4 - 4-4 - 4-6 N = 20 série paire. On a N = 2 10, donc médiane = (x 10 + x 11)/2 x 10 = 2 et x 11 = 2, d o médiane = (2 + 2)/2 = 2 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 32 / 52
ariables quantitatives discrètes Variables quantitatives discrètes Calcul de paramètres - Médiane Graphiquement : : Interprétations : : au au moins moinslala moitié des ménages interrogés sont sont composés composés de 2 personnes de 2 personnes ou moins ou moins au moins la moitié des ménages interrogés sont composés de 2 personnes ou plus au moins la moitié des ménages interrogés sont composés de 2 personnes ou plus Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 33 / 52
Variables quantitatives discrètes Calcul de paramètres - Quantiles Quantiles = valeurs qui divisent une série statistique ordonnée en plusieurs groupes comprenant la même proportion d individus. Les quantiles les plus connus sont les : quartiles (Q 1, Q 2, Q 3) - 3 valeurs qui partagent l échantillon en 4 sous-groupes d effectif identique - chaque sous-groupe comprend 25% des données de la série - Distance inter-quartile = Q 3 Q 1 - Interprétation : 75% des données sont inférieures à Q 3 déciles (D 1,..., D 9 ) - 9 valeurs qui partagent l échantillon en 10 sous-groupes d effectif identique centiles ou percentiles (C 1,..., C 99) - 99 valeurs qui partagent l échantillon en 100 sous-groupes d effectif identique Remarque : médiane = Q 2 = D 5 = C 50 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 34 / 52
Variables quantitatives discrètes Calcul de paramètres - Moyenne La moyenne arithmétique k x = x i f i i=1 x = 1 n n x i i=1 Contrairement à la médiane, la moyenne est sensible aux valeurs extrêmes Exemple : x = 1 0.40 + 2 0.15 + 3 0.20 + 4 0.20 + 6 0.05 x = 2.4 1 20 (1 + 6 + 2 + 3 + 3 + 1 + 4 + 1 + 2 + 4 + 2 + 3 + 1 + 1 + 3 + 2 + 4 + 1 + 4 + 1) x = 2.45 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 35 / 52
Variables quantitatives discrètes Calcul de paramètres : variance et écart-type Variance sur un échantillon (estimateur biaisé) ou s 2 ech = s 2 ech = k (x i x) 2 f i i=1 k i=1 (x 2 i f i ) x 2 Variance sur un échantillon (estimateur NON biaisé) Ecart-type (biaisé et non biaisé) s ech = s 2 ech S 2 = sech 2 N N 1 Déterminer la variance et l écart-type de notre exemple N s = s ech N 1 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 36 / 52
Variables quantitatives discrètes Calcul de paramètres - Variance et écart-type Variance sur un échantillon (estimateur biaisé) s 2 ech = k (x i x) 2 f i i=1 (1 2.4) 2 0.40 + + (6 2.4) 2 0.05 = 2.04 ou k sech 2 = (xi 2 f i ) x 2 i=1 ( (1 2 0.40) + + (6 2 0.05) ) 2.4 2 = 2.04 Variance sur un échantillon (estimateur NON biaisé) S 2 = sech 2 N N 1 Ecart-type (biaisé et non biaisé) s ech = s 2 ech 2.04 1.43 2.04 20 19 2.15 N s = sech N 1 1.43 20 19 1.46 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 37 / 52
Variables quantitatives continues Point étudié 1 Introduction 2 Variables qualitatives nominales 3 Variables qualitatives ordinales 4 Variables quantitatives discrètes 5 Variables quantitatives continues 6 Cas particulier Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 38 / 52
Variables quantitatives continues Définition variable numérique pouvant prendre un nombre infini de valeurs en théorie, aucun ex-aequo (sauf arrondi) Ex : taille d un individu, poids d un individu Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 39 / 52
Variables quantitatives continues Présentation des données Discrétisation : constructions de classes jointives et mutuellement exclusives on regroupe les valeurs des modalités en classes et on définit de la même manière que précédemment les effectifs et fréquences relatives Tableau statistique une ligne pour chacune des k classes triées de X (i de 1 à k) Z = valeurs des débuts de classes i = numéro de la classe Classe de X Centre de classe n i N i f i F i [Z i ; Z i+1 [ C i = (Z i + Z i+1 )/2 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 40 / 52
Variables quantitatives continues Présentation des données Ex : Voici les 20 réponses qui contiennent la taille des individus 1.47-1.48-1.53-1.54-1.54-1.55-1.56-1.57-1.58-1.59-1.60-1.64-1.65-1.67-1.67-1.67-1.73-1.78-1.79-1.86 Classe de X Centre n i N i f i F i [1.40; 1.50[ [1.50; 1.60[ [1.60; 1.70[ [1.70; 1.80[ [1.80; 1.90[ Remarque : la largeur des classes peut être différente que celle affichée et les résultats pourront donc varier Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 41 / 52
Variables quantitatives continues Présentation des données Ex : Voici les 20 réponses qui contiennent la taille des individus 1.47-1.48-1.53-1.54-1.54-1.55-1.56-1.57-1.58-1.59-1.60-1.64-1.65-1.67-1.67-1.67-1.73-1.78-1.79-1.86 Classe de X Centre n i N i f i F i [1.40; 1.50[ 1.45 2 2 0.10 0.10 [1.50; 1.60[ 1.55 8 10 0.40 0.50 [1.60; 1.70[ 1.65 6 16 0.30 0.80 [1.70; 1.80[ 1.75 3 19 0.15 0.95 [1.80; 1.90[ 1.85 1 20 0.05 1.00 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 42 / 52
Variables quantitatives continues Présentation des données L intervalle de classe, également appelé amplitude, est la différence entre la borne supérieure et la borne inférieure. En règle générale, on choisit des classes de même amplitude. Si l amplitude n est pas constante, il faut calculer la densité de fréquence : f i d i = amplitude i La densité de fréquence permet de comparer les fréquences d une classe à l autre. Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 43 / 52
Variables quantitatives continues Exemple Tailles des individus en cm : Compléter le tableau Classe Centre ni fi di Ni Fi [140 160[ 10 [160 165[ 20 [165 170[ 30 [170 175[ 172.5 45 0,225 0,045 105 0,525 [175 180[ 40 145 0,725 [180 185[ 35 180 0,9 [185 190[ 15 0,075 0,015 [190 200[ 5 0,025 0,0025 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 44 / 52
Variables quantitatives continues Exemple Tailles des individus en cm : Classe Centre ni fi di Ni Fi [140 160[ 150 10 0,05 0,0025 10 0,05 [160 165[ 162,5 20 0,1 0,02 30 0,15 [165 170[ 167,5 30 0,15 0,03 60 0,3 [170 175[ 172,5 45 0,225 0,045 105 0,525 [175 180[ 177,5 40 0,2 0,04 145 0,725 [180 185[ 182,5 35 0,175 0,035 180 0,9 [185 190[ 187,5 15 0,075 0,015 195 0,975 [190 200[ 195 5 0,025 0,0025 200 1 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 45 / 52
Variables quantitatives continues Représentation graphique ique Histogramme en fréquence ence Principe : Histogramme en effectif tif Diagramme des fréquences cumulées nces cumulées Découpage de la variable quantitative en classes L aire de chaque rectangle est proportionnelle à l effectif de la classe Si amplitudes égales : hauteur du rectangle égale à l effectif (ou fréquence) de la classe Si amplitudes non égales : hauteur du rectangle égale à la densité d effectif (ou de fréquence) Représentation sous forme d histogramme pour avoir une idée de la distribution des données Michaël Genin (Université de Lille 2) Statistique descriptive univariée 40 / 44 Version - 18 mai 2016 46 / 52
Variables quantitatives continues Représentation graphique Boîte à moustache (boxplot) Données détaillées Répartition de la taille des individus Taille (m) 1.5 1.6 1.7 1.8 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 47 / 52
Variables quantitatives continues Représentation graphique Boîte à moustache (boxplot) Données détaillées Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 48 / 52
Variables quantitatives continues Calcul de paramètres En pratique, sur un échantillon, mêmes paramètres calculables que pour les variables discrètes MAIS en pratique le mode n est pas calculable on identifiera plutôt une classe modale Si données détaillées (tableau statistique sans ex-aequo = un individu par ligne) on utilise les mêmes formules MAIS f i = 1 pour tout i N Si données agrégées par classe on utilise les centres des classes C i au lieu des x i on utilise les mêmes formules mais le calcul est approximatif Exercice : Déterminer les paramètres de l exemple. Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 49 / 52
Variables quantitatives continues Calcul de paramètres Ex : Classe modale : [1.50, 1.60[ Médiane : (1.59 + 1.60)/2 = 1.595 Moyenne : x = 1.45 0.10 + 1.55 0.40 + + 1.85 0.05 = 1.615 ou (1.47 + 1.48 + 1.53 + + 1.79 + 1.86)/20 1.62 Variance : (1.45 2 0.10 + 1.55 2 0.40 + + 1.85 2 0.05) 1.615 2 = 0.01 Ecart type : 0.01 = 0.10 Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 50 / 52
Cas particulier Point étudié 1 Introduction 2 Variables qualitatives nominales 3 Variables qualitatives ordinales 4 Variables quantitatives discrètes 5 Variables quantitatives continues 6 Cas particulier Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 51 / 52
Les variables binaires : Cas particulier cas particulier de variables qualitatives à 2 modalités Exemple : Sexe {F, H} est identique à : "est masculin?" {0 ;1} on parle d expérience de Bernouilli = expérience aléatoire comportant deux issues possibles "succès" et "échec" selon les cas, utilisables comme des quantitatives ou comme des qualitatives Id_patient Malade 1 1 2 0 3 1 4 1 5 0 6 1 7 0 8 0 Variable qualitative calcul de la fréquence de maladie : f 1 = 4/8 = 0.5 Variable quantitative calcul de la moyenne (1 + 1 + 1 + 1 +0 + 0 + 0 + 0)/8 = 0.5 }{{} Nb malades Variables binaires 0/1 Fréquence = Moyenne Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 52 / 52