Statistiques I Alexandre Caboussat alexandre.caboussat@hesge.ch Classe : Mercredi 8h15-10h00 Salle: C114 http://campus.hesge.ch/caboussata A. Caboussat, HEG STAT I, 2010 1 / 45
Exemple de quantiles Données: α = 27 1, 5, 7, 12 A. Caboussat, HEG STAT I, 2010 2 / 45
Exercice 4.7 Le nombre d abonnés au haut débit en Suisse a évolué de la manière suivante: Année [mois=décembre] xdsl Câble 2000 4416 52000 2001 42935 114329 2002 199144 260000 2003 487497 350000 2004 802000 480000 Calculer pour les deux séries de données xdsl et Câble, la moyenne, la médiane, l étendue, les quartiles Construire le Boxplot (boîte à moustaches) pour chacune des deux séries de données Commenter les Boxplot obtenus (Les distributions sont-elles de même dispersion?, Y a-t-il de l asymétrie?) A. Caboussat, HEG STAT I, 2010 3 / 45
Exercice 4.7 Le nombre d abonnés au haut débit en Suisse a évolué de la manière suivante: Année [mois=décembre] xdsl Câble 2000 4416 52000 2001 42935 114329 2002 199144 260000 2003 487497 350000 2004 802000 480000 A. Caboussat, HEG STAT I, 2010 3 / 45
Exercice 4.7 Le nombre d abonnés au haut débit en Suisse a évolué de la manière suivante: Année [mois=décembre] xdsl Câble 2000 4416 52000 2001 42935 114329 2002 199144 260000 2003 487497 350000 2004 802000 480000 DSL Cable 0e+00 2e+05 4e+05 6e+05 8e+05 1e+05 2e+05 3e+05 4e+05 A. Caboussat, HEG STAT I, 2010 3 / 45
Exercice 4.8 N Valide 15 Manquant 0 Moyenne 1999 Médiane 2000 Mode 2002 Ecart-type 3.742 Variance 14 Minimum 1994 Maximum 2005 Percentiles 25 1995 50 2000 75 2002 A. Caboussat, HEG STAT I, 2010 4 / 45
Définitions La variance d une population, notée σ 2, est la moyenne des carrés des écarts à la moyenne σ 2 = 1 N N (x i µ) 2, i=1 où N est le nombre d individus et µ la moyenne de la variable x. L écart-type d une population, noté σ, est défini par la racine carrée de la variance: σ = σ 2 = 1 N (x i µ) N 2 = 1 N N ( xi 2 Nµ 2 ) i=1 i=1 A. Caboussat, HEG STAT I, 2010 5 / 45
Définitions La variance d un échantillon, de taille n, notée s 2, est s 2 = 1 n 1 n (x i x) 2, L écart-type d un échantillon de taille n, noté s, est σ = σ 2 = 1 n (x i x) n 1 2 = 1 n n 1 ( xi 2 n x 2 ) i=1 i=1 i=1 A. Caboussat, HEG STAT I, 2010 6 / 45
Attention! La variance d un échantillon n est pas définie de la même manière que la variance d une population. En effet, la formule utilise la moyenne de l échantillon au lieu de la moyenne de la population (qui est inconnue puisque l on a recours à un échantillon!). Or la moyenne de l échantillon est (par définition) parfaitement centrée au milieu de l échantillon, ce qui n est en général pas tout à fait le cas avec la moyenne de la population. Par conséquent, le résultat obtenu aura tendance à être légèrement inférieur à celui que l on aurait obtenu en utilisant la moyenne de la population. Le calcul de la variance d un échantillon utilise donc n 1 comme diviseur et non pas n pour corriger ceci. A. Caboussat, HEG STAT I, 2010 7 / 45
Exemple Population: {3, 5, 5, 7, 10}. µ = 6, σ 2 = 28 5 = 5.6, σ 2.37. A. Caboussat, HEG STAT I, 2010 8 / 45
Exemple Echantillon: {3, 5, 7} {3, 5, 5, 7, 10}. Si on divise par n: x = 5, s 2 = 8 3 2.67. Si on divise par n 1: x = 5, s 2 = 8 2 = 4. A. Caboussat, HEG STAT I, 2010 9 / 45
Remarque Calculatrices: le plus souvent écart-type associé à un échantillon Attention de bien contrôler sur votre machine quelle formule est utilisée! A. Caboussat, HEG STAT I, 2010 10 / 45
Coefficient de variation Définition Le coefficient de variation (CV) est le ratio entre l écart-type et la moyenne, exprimé en pourcent. Population Echantillon 100 σ µ 100 s x Le coefficient de variation permet d obtenir un indice général, indépendant des unités de mesure employées, contrairement à l écart-type qui dépend de la moyenne et de l unité de mesure utilisée. A. Caboussat, HEG STAT I, 2010 11 / 45
Coefficient de variation : Exemple En finance, le CV mesure le risque relatif d un portefeuille. Supposons que le portefeuille A contient un ensemble d actions et d obligations donnant un rendement moyen de 12%, avec un écart-type de 3% (risque); un portefeuille B a un rendement moyen de 6% avec un écart-type de 2%. Le coefficient de variation associé à chaque portefeuille est : CV (A) = 100 3 12 = 25% CV (B) = 1002 6 = 33% A. Caboussat, HEG STAT I, 2010 12 / 45
Indicateurs de Dispersion Mesures d asymétrie et d aplatissement A. Caboussat, HEG STAT I, 2010 13 / 45
Objectif Connaître et savoir interpréter: la mesure d asymétrie: Skewness la mesure d aplatissement: Kurtosis A. Caboussat, HEG STAT I, 2010 14 / 45
Mesure d asymétrie : Skewness Définition Le coefficient d asymétrie skew est calculé ainsi skew = n (n 1)(n 2) n (x i µ) 3 i=1 où σ est l écart-type de la population, et µ la moyenne. σ 3 A. Caboussat, HEG STAT I, 2010 15 / 45
Valeurs d asymétrie skew < 0 skew > 0 Étalement à gauche Étalement à droite Commandes Informatiques skewness (package fbasics) (R) coefficient.asymetrie (Excel FR) skew (Excel AN) A. Caboussat, HEG STAT I, 2010 16 / 45
Mesure d asymétrie : Exemple Les pointures de chaussures d un groupe de personnes sont résumées dans le diagramme en bâtons suivant: A. Caboussat, HEG STAT I, 2010 17 / 45
Mesure d asymétrie : Exemple Les pointures de chaussures d un groupe de personnes sont résumées dans le diagramme en bâtons suivant: La moyenne de ces 25 observations est de 36.8, l écart-type de 5.55,et le skew est de 486, ce qui correspond bien à un étalement à droite. A. Caboussat, HEG STAT I, 2010 17 / 45
Mesures d aplatissement : Kurtosis Définition Le coefficient d aplatissment kurtosis est calculé ainsi n (x i µ) 4 kurt = A i=1 σ 4 3B où σ est l écart-type de la population, µ la moyenne, et A = n(n + 1) (n 1)(n 2)(n 3) B = (n 1) 2 (n 2)(n 3) sont des constantes d ajustement. Commandes Informatiques kurtosis (R) kurtosis (Excel FR) kurt (Excel AN) A. Caboussat, HEG STAT I, 2010 18 / 45
Valeurs d aplatissement kurt > 0 kurt < 0 Pic et Aplatissement et queues épaisses queues minces A. Caboussat, HEG STAT I, 2010 19 / 45
Exemple La distribution du nombre de tasses de café bues en une journée à la terrasse d un bistro est : 11, 13, 18, 20, 21, 23, 25, 25, 27, 28, 31, 34, 35, 41, 42, 43, 44, 46, 54, 93 A. Caboussat, HEG STAT I, 2010 20 / 45
Exemple La distribution du nombre de tasses de café bues en une journée à la terrasse d un bistro est : 11, 13, 18, 20, 21, 23, 25, 25, 27, 28, 31, 34, 35, 41, 42, 43, 44, 46, 54, 93 On voit que cette distribution a une queue épaisse, à cause de la valeur à 93. Pour cette distribution kurt=6.1. Si on remplace la valeur 93 par 33, on obtient kurt=-0.38. A. Caboussat, HEG STAT I, 2010 20 / 45
Résumé Les mesures d asymétrie Skewness et d aplatissement Kurtosis sont utiles pour déterminer la forme de la distribution. Ces mesures utilisent dans leur calcul l écart-type. A. Caboussat, HEG STAT I, 2010 21 / 45
Synthèses numériques : Résumé Mesures de tendance centrale (positionnement) Mode : valeur la plus fréquente (tous types de variables). Moyenne arithmétique, moyenne tronquée (variables quantitatives). Médiane : 50% au dessous, 50% au dessus (variables quantitatives et qualitatives ordinales). Mesures de dispersion (variables quantitatives uniquement) : l étendue. les quartiles et l écart interquartile. le boxplot. l écart-type et la variance d une population vs dun échantillon. Le coefficient de variation. A. Caboussat, HEG STAT I, 2010 22 / 45
Synthèses numériques : Résumé Les mesures d asymétrie Skewness et d aplatissement Kurtosis permettent de connaître des caract eristiques supplémentaires de la distribution. Leurs calculs utilisent la moyenne et l écart-type. skew < 0 skew > 0 Étalement à gauche Étalement à droite kurt > 0 kurt < 0 Pic et Aplatissement et queues épaisses queues minces A. Caboussat, HEG STAT I, 2010 23 / 45
Données numériques groupées A. Caboussat, HEG STAT I, 2010 24 / 45
Exemple Délai d expédition de l entreprise Sun4all en février classe fréquence i n i 1 [0-3[ 1 2 [3-6[ 0 3 [6-7.5[ 6 4 [7.5-9[ 7 5 [9-12] 5 A. Caboussat, HEG STAT I, 2010 25 / 45
Objectifs Avec des données numériques groupées, savoir déterminer la classe modale la moyenne la médiane et les quartiles l écart type (et la variance) A. Caboussat, HEG STAT I, 2010 26 / 45
Classe modale Définition La classe modale est la classe ayant la plus grande fréquence. A. Caboussat, HEG STAT I, 2010 27 / 45
Exemple: classe modale Délai d expédition de l entreprise Sun4all en février classe fréquence i n i 1 [0-3[ 1 2 [3-6[ 0 3 [6-7.5[ 6 4 [7.5-9[ 7 5 [9-12] 5 La classe modale est la classe [7.5-9[ A. Caboussat, HEG STAT I, 2010 28 / 45
Médiane Définition La classe médiane est la classe contenant la médiane. Parmi les classes ordonnées, c est la première dont la fréquence relative cumulée dépasse 0.5. La médiane des données groupées est ensuite approchée par interpolation linéaire. A. Caboussat, HEG STAT I, 2010 29 / 45
Exemple: Médiane Délai d expédition de l entreprise Sun4all en février classe fréq. fréq. relative fréq. rel. x i n i f i = n i /n cumulée 1 [0-3[ 1 0.0526 0.0526 2 [3-6[ 0 0 0.0526 3 [6-7.5[ 6 0.3158 0.3684 4 [7.5-9[ 7 0.3684 0.7368 5 [9-12] 5 0.2632 1.0000 n=19 5 f i = 1 i=1 La classe médiane est donc [7.5-9[ A. Caboussat, HEG STAT I, 2010 30 / 45
Exemple (suite) B H G H A? K K A I #! $ % # ' med(delai) = 7.5 + 0.5 0.3684 1.5 = 8.04 0.7368 0.3684 La vraie médiane est 8 (cf. chapitre précédent). A. Caboussat, HEG STAT I, 2010 31 / 45
Cas particulier L une des classes a une fréquence relative cumulée égale à 0.5, alors la médiane est égale à la borne supérieure de cette classe. B H G H A? K K A I # " $ % & ' La médiane vaut 170 A. Caboussat, HEG STAT I, 2010 32 / 45
Exemple (fictif) classe fréq. fréq. relative fréq. rel. x i n i f i = n i /n cumulée 1 [0-3[ 1 0.1 0.1 2 [3-6[ 0 0 0.1 3 [6-7.5[ 4 0.4 0.5 4 [7.5-9[ 2 0.2 0.7 5 [9-12] 3 0.3 1.0 n=10 5 f i = 1 La classe médiane est donc [6 7.5[. La médiane est 7.5. i=1 A. Caboussat, HEG STAT I, 2010 33 / 45
Moyenne Convention: chaque observation d une classe est égale à la valeur centrale de cette classe. x = c n i x i i=1 c : nombre de classes n i : fréquence de la i-ième classe x i : valeur centrale de la i-ième classe n : nombre total de données. n A. Caboussat, HEG STAT I, 2010 34 / 45
Exemple: Moyenne Délai d expédition de l entreprise Sun4all en février. classe fréq. val. centrale x i n i x i 1 [0-3[ 1 1.5 2 [3-6[ 0 4.5 3 [6-7.5[ 6 6.75 4 [7.5-9[ 7 8.25 5 [9-12] 5 10.5 n=19 delai = 152.25 19 = 8.01 A. Caboussat, HEG STAT I, 2010 35 / 45