Chapitre 2. Caractéristiques des distributions à une variable quantitative Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Caractéristiques de tendance centrale Mode Médiane Quantiles d ordre quelconque Moyenne Synthèse : quelles caractéristiques pour résumer une série? Complément : méthode du shift and share 2 Caractéristiques de dispersion Etendue (intervalle de variation) Ecarts interquantiles Ecart absolu Ecart-type et variance Comparaison de séries statistiques et synthèse 3 Caractéristiques de concentration Courbe de Lorentz Indice de Gini Médiale
Mode Mode d une variable statistique Définition Le mode (ou classe modale) est la valeur (ou la classe) Calcul du mode : variable discrète : modalité présentant le plus grand variable continue : on cherche d abord la classe ayant la plus Le mode peut ensuite être défini (par exemple comme le centre de cette classe). Remarques : pour une var. continue, en général on ne donne que la classe modale. Une série peut avoir plusieurs modes (en présence de maxima locaux de fréquence ou densité selon le type de variable) ; on parle de série Mode Application numérique sur deux exemples Exemple Nbre pers./voiture x i f i 1 10% 2 25% 3 40% 4 25% Total 100% 1.0 fréquence 0.10 0.15 0.20 0.25 0.30 0.35 0.40 1.5 2.0 2.5 3.0 3.5 4.0 nombre de personnes/voiture 0 Revenu des ménages français x i f i d i (en euros) (/tr. de 800e) [0, 1600[ 45% 22.5% [1600, 2400[ 35% 35% [2400, 3200[ 20% 20% Total 100% % par tranche de 800 euros 0 10 20 30 40 500 1000 1500 2000 2500 3000 3500 Revenu en euros
Médiane Médiane - définition Définition La médiane est la valeur de la série (i.e. une modalité) qui Il faut distinguer deux cas : 1 les données sont observés de manière brute. [le plus souvent une variable discrète] 2 les données sont regroupées en classes. [le plus souvent une variable continue] Médiane Médiane (2) - données brutes Deux cas possibles en fonction du caractère pair ou impair de la taille de l échantillon n : 1 n est impair : la médiane de la série de n = 5 âges : 17, 9, 19, 25, 21 est. 2 n est pair : la médiane de la série de n = 4 âges : 17, 9, 19, 25 est entre 17 et 19 Formule générale : Soient x 1,..., x n les valeurs de la série et soient x (1), x (2),..., x (n) les versions ordonnées, i.e. x (1) x (2)... x (n) alors
Médiane Médiane - données brutes (2) Quelle est la médiane de la série statistique suivante? Exemple nb personnes/voiture x i n i f i F i 1 40 10% 10% 2 100 25% 35% 3 160 40% 75% 4 100 25% 100% Total 400 100% n = 400 est pair il faut donc repérer la -ème observation dans la liste des observations ordonnées. et Médiane Médiane (3) - données regroupées Exemple du revenu ménages x i (en e) n i ( 10 6 ) f i F i [0, 1600[ 9 45% 45% [1600, 2400[ 7 35% 80% [2400, 3200[ 4 20% 100% Total 20 100% Dans le cas où les données sont regroupées en classes, il faut suivre deux étapes : 1 repérer la, i.e. la classe contenant la médiane. Ici, 45% des ménage ont un revenu < 1600eet 80% des ménages ont un revenu < 2400e Me ]1600, 2400[ 2 estimer la médiane par
Médiane Médiane (5) - interpolation linéaire Fi 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 3000 revenu Graphiquement : la médiane correspond à l abscisse du point d intersection entre la courbe des (x i, F i ) et la Formule générale : soit ]x i, x i+1 [ la classe médiane et soient F i et F i+1 les fréquences cumulées évaluées en x i et x i+1, alors Quantiles d ordre quelconque Quantile Définition Un quantile d ordre α (pour α (0, 1)) notée en toute généralité Q α est la valeur qui partage la série en deux sous-ensembles ; une proportion α se situe en dessous de Q α et une proportion 1 α au-dessus strictement de Q α. Remarques : Me = Q 50%. Quartiles (notés Q 1, Q 2, Q 3 ) : quantiles qui séparent la série en 4 sous-ensembles de même effectif/fréquence. Plus précisément Q 1 = Q 25%, Q 2 = Me, Q 3 = Q 75%. Déciles (notés D 1, D 2,..., D 9 ) : quantiles qui séparent la série en 10 sous-ensembes de même fréquence. Plus précisément D 1 = Q 10%, D 2 = Q 20%,..., D 9 = Q 90%.
Quantiles d ordre quelconque Quantile (2) Les quantiles se calculent de manière similaire à la médiane. Ainsi pour des données regroupées on a : si Q α ]x i, x i+1 [ Calculez le premier quartile de la série suivante Exemple du revenu ménages x i (en e) n i ( 10 6 ) f i F i [0, 1600[ 9 45% 45% [1600, 2400[ 7 35% 80% [2400, 3200[ 4 20% 100% Total 20 100% Moyenne Moyenne arithmétique (pondérée) Définition Soit x i (i = 1,..., p) les modalités d une série brute, d effectifs n i (i = 1,..., p) et fréquence f i, la moyenne arithmétique pondérée notée x est donnée par Si les données sont regroupées en classes, les x i ne sont en général pas observées. Ces valeurs sont alors remplacées par les centres de classes, notés c i pour i = 1,..., p. lorsque le nombre de modalités (ou nombre de classes) est grand, il devient intéressant d utiliser la calculatrice (rentrer les données sous forme d un tableau, configurer de manière appropriée et demander des résultats univariés).
Moyenne Moyenne arithmétique : exemple covoiturage Calculez la moyenne de la série Application : Exemple nb personnes/voiture x i n i f i F i 1 40 10% 10% 2 100 25% 35% 3 160 40% 75% 4 100 25% 100% Total 400 100% Moyenne Moyenne arithmétique : exemple revenu des ménages Calculez la moyenne de la série Application : Exemple du revenu ménages x i (en e) c i n i ( 10 6 ) f i F i [0, 1600[ 800 9 45% 45% [1600, 2400[ 2000 7 35% 80% [2400, 3200[ 2800 4 20% 100% Total 20 100%
Moyenne Propriétés de la moyenne arithmétique 1 La somme des écarts (pondérés) à la moyenne est nulle, c-a-d p n i (x i x) = 0 i=1 2 Considérons une population P d effectif total n composée de k sous-populations P 1,..., P k d effectifs n 1,..., n k (donc n = n 1 +... + n k ). Notons x 1,..., x k les moyennes arithmétiques des sous-populations P 1,..., P k alors x = n 1x 1 +... + n k x k. n Moyenne Moyenne globale = moyenne pondérée des moyennes Ex : salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez la moyenne de la série Ensemble de deux façons différentes : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Méthode 1 (méthode directe) : x E = 1 (750 130 + 2250 170) = 1600e. 300 Méthode 2 (en utilisant la propriété précédente) : x H = x F = x E =
Moyenne Moyenne géométrique Une action en bourse a évolué à la hausse de 10% l année 1, puis a diminué de 5% l année 2 et de 5% l année 3. Question : Quel est le taux moyen (noté t moy ) d évolution de cette action sur les trois années? t moy 0!!! La moyenne géométrique est le taux qui, appliqué durant les trois années donnera le même capital final selon l évolution décrite précédemment. Moyenne Moyenne géométrique (2) Soit C 0 le capital initial et soient C 1, C 2, C 3 les capitaux après 1,2 ou 3 années. On a selon l énoncé C 1 = (1 + 10%)C 0, C 2 = (1 5%)C 1 et C 3 = (1 5%)C 2, c-a-d C 3 = (1 + 10%)(1 5%)(1 5%)C 0. selon la définition du taux moyen : C 1 = (1 + t moy )C 0, C 2 = (1 + t moy )C 1 et C 3 = (1 + t moy )C 2, c-a-d C 3 = (1 + t moy ) 3 C 0. Par identification des deux identités, il vient que pour tout capital initial C 0
Moyenne Moyenne géométrique (3) Définition Soit la série statistique x 1,..., x p d effectif n 1,..., n p alors la moyenne géométrique notée en général x G est définie par où n = n 1 +... + n p. Moyenne Moyenne harmonique Elle permet de calculer des moyennes de ratios. Exemple : Un coureur monte une côte de 1km à la vitesse de 10km/h et descend cette même côte à la vitesse de 30km/h. Question : Quelle est la vitesse moyenne du coureur? v moy 20 km/h!! car il a passé plus de temps à 10km/h qu à 30km/h. On cherche v moy telle que la somme des temps passés à la montée et la descente soit égal au temps passé à la vitesse v moy :
Moyenne Moyenne harmonique (2) Définition Soit la série statistique x 1,..., x p d effectif n 1,..., n p alors la moyenne harmonique notée en général x H est définie par où n = n 1 +... + n p. Synthèse : quelles caractéristiques pour résumer une série? Afin de résumer cette série...... quel est l indicateur pertinent? Salaires x i c i n i a i en e (1 u.a. 4000e) [0, 4000[ 2000 45 1 [4000, 8000[ 16000 10 6 [28000, 32000[ 30000 45 1 x = 16000e, Me = 16000e. 2 classes modales : [0, 4000[,[28000, 32000[.
Synthèse : quelles caractéristiques pour résumer une série? Afin de résumer cette série...... quel est l indicateur pertinent? Salaires x i c i n i a i en e (1 u.a. 1000e) [0, 1000[ 500 5 1 [1000, 2000[ 1500 90 1 [2000, 3000[ 2500 5 1 x = 1500e, Me = 1500e. classes modales : [1000, 2000[. Synthèse : quelles caractéristiques pour résumer une série? Afin de résumer cette série...... quel est l indicateur pertinent? Salaires x i c i n i a i en e (1 u.a. 2000e) [0, 2000[ 1000 90 1 [2000, 38000[ 18000 10 18 x = 2900e, Me = 1100e.
Complément : méthode du shift and share Complément : méthode shift and share méthode utilisée pour comparer plusieurs moyennes pondérées lorsque les coefficients de pondération sont très, par exemple lorsqu ils évoluent au cours du temps. permet de lisser l effet structure. Exemples : salaires de 2 CSP en 2010 et 2011. Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900 x 2010 = 1100 e, x 2011 = 1100 e. peut-on conclure qu il n y a pas d évolution de salaires de 2010 à 2011? Complément : méthode du shift and share Complément : méthode shift and share (2) Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900 Pour éliminer l effet du changement des effectifs, on calcule les moyennes en fixant les effectifs de 2010 : pour éliminer l effet du changement de salaires, on calcule la moyenne en 2011 en fixant les salaires en 2010
Etendue (intervalle de variation) Etendue (intervalle de variation) Définition L étendue est la différence entre la plus grande et la plus petite observation de la série. Notion très peu utilisée en pratique car elle est très sensible aux fluctuations de l échantillon. Exemple : on relève l âge de 10 individus : 24, 16, 18, 22, 16, 26, 35, 25, 15, 76. étendue est de phantom 76-16 = 50 ans. Si on remplace 76 par un âge 35 l étendue devient Ecarts interquantiles Ecarts-interquantiles Définition On définit l écart-interquartile et l écart-interdécile comme suit Ecart interquartile = Ecart interdécile = Plus ces écarts sont et plus la série est Du fait que l on ne tient pas compte des observations faibles ou élevées, ces caractéristiques sont moins sensibles aux fluctuations de l échantillon que l étendue.
Ecart absolu Ecarts absolus x : statistique, x i : modalités, n i : effectifs, p nbre de modalités. 1 Ecart absolu moyen : 2 Ecart absolu médian : Remarques e x = 1 n e Me = 1 n p n i x i x. i=1 p n i x i Me. Plus les écarts absolus sont grands, plus la série est dispersée. i=1 Avantage : facile à calculer, écart absolu médian moins sensible aux valeurs extrêmes. Inconvénient : ne se prête pas aux calculs algébriques. Ecart-type et variance Ecart-type et variance Définition La variance est la moyenne arithmétique pondérée des L écart-type est la racine carrée de la variance. Variance : Ecart-type : Interprétation Plus l écart-type (ou variance) est observée est et plus la série
Ecart-type et variance Ecart-type et variance (2) Autre expression de la variance : Var(x) = 1 n = 1 n p n i (x i x) 2 i=1 p n i xi 2 (x) 2 i=1 = x 2 (x) 2 = moyenne des carrés carré de la moyenne. Tout comme la moyenne, pour calculer une variance (ou écart-type) pour une variable continue (dont les données sont regroupées en classes) on remplace les x i par c i les centres de classe. Ecart-type et variance Ecart-type et variance (3) Calculez les variance et écart-type de la série suivante : x i (en e) c i n i ( 10 6 ) f i [0, 1600[ 800 9 45% [1600, 2400[ 2000 7 35% [2400, 3200[ 2800 4 20% Total 20 100% Méthode 1 : on rappelle que x = 1620e. Var(x) = = 631600 e 2. Méthode 2 : x 2 = Var(x) = x 2 (x) 2 = = 631600 e 2 Ecart-type : σ x = 631600 794.7 e.
Ecart-type et variance Variance intra et interpopulation Théorème Considérons une population P de taille n composée de k sous-populations P 1,..., P k d effectifs respectifs n 1,..., n k. Notons, x 1,..., x k et Var(x 1 ),..., Var(x k ) les moyennes et variances des k sous-populations. Alors, la variance de la population P est Var(x) = n 1Var(x 1 ) +... + n k Var(x k ) + n 1(x x 1 ) 2 +... + n k (x x k ) 2 n n = 1 k n i Var(x i ) + 1 p n i (x i x) 2 n n = = i=1 i=1 Ecart-type et variance Variance intra et interpopulation (2) Vérifions le résultat précédent sur l exemple suivant : on étudie le salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez les variances inter-, intra- et totale de la série : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Pour simplifier (un peu) les calculs : x H = 1725 e Var(x H ) = 511875 e 2 x F = 1350 e Var(x F ) = 540000 e 2 x = 1600 e Var(x) = 552500 e 2. Moyenne des variances : Var. Intra = = = 521250e 2.
Ecart-type et variance Variance intra et interpopulation (2) Vérifions le résultat précédent sur l exemple suivant : on étudie le salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez les variances inter-, intra- et totale de la série : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Pour simplifier (un peu) les calculs : x H = 1725 e Var(x H ) = 511875 e 2 x F = 1350 e Var(x F ) = 540000 e 2 x = 1600 e Var(x) = 552500 e 2. Variance des moyennes : Var. Inter = = = 31250e 2. Ecart-type et variance Variance intra et interpopulation (3) Résumons un peu ces calculs : Var(x) = 552500e 2. Var. Intra + Var. Inter = Moy. des variances + Var. des moyennes = 521250 + 31250 = 552500e 2. Peut-on dire que la caractéristique H/F influence le salaire? Si tel est le cas, la variance des moyennes est forte relativelement à la variance totale des salaires. Or, Var. Inter Var(x) = 31250 552500 %.
Comparaison de séries statistiques et synthèse Complement I : Comparaison de séries (1) soit x la série statistique de 4 produits en Francs : 100F, 200F, 300F et 400F. soit y la série statistique des 4 produits en e :15e, 30e,45e,60e. Intuitivement, ces deux séries sont dispersées de la même manière. Or, σ x = 111.8F et σ y = 16.8e. Conclusion : pour comparer les deux séries qui ne sont pas dans la même unité, il faut transformer les caractéristiques de dispersion. Coefficient de variation : rapport à la moyenne, sans unité. = c est le % de variation par Comparaison de séries statistiques et synthèse Complement I : comparaison de séries (2) D autres indicateurs de comparaison de séries statistiques : Coefficient de dispersion : Q 3 Q 1 D 9 D 1 ou. Me Me Rapport interquartile ou rapport interdécile : Q 3 Q 1 ou D 9 D 1
Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (1) aussi appelée box plot ou diagramme de Tukey. moyen rapide de visualiser des caractéristiques centrale et de dispersion d une principalement utilisée pour comparer un D 9 Q 3 Me Q 1 D 1 basée sur le calcul de D 1, Q 1, Me, Q 3 et D 9. Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (2) Etude sur le niveau de vie des ménages en euros par CSP (personne de référence) en 2010. Application : complétez le graphique suivant avec les revenus des agriculteurs... sachant que pour les agriculteurs D 1 = 6040 Q 1 =11135 Me = 18010 Q 3 = 27140 D 9 = 39010 10000 20000 30000 40000 50000 agriculteurs cadres profint employes ouvriers
Introduction Elles sont utilisées pour mesurer (essentiellement) la répartition de la masse salariale. La répartition de la masse salariale se situe entre les deux cas extrêmes suivants Répartition des salaires parfaitement équitables : un certain pourcentage de salariés reçoit le même pourcentage de la masse salariale. On dit que la concentration est nulle. Un seul salarié reçoit toute la masse salariale (et les autres rien). On dit que la concentration est maximale. Trois indicateurs pour quantifier la concentration 1 courbe de Lorentz 2 Indice de Gini 3 Médiale. Courbe de Lorentz Courbe de Lorentz On étudie les salaires de 50 employés d une entreprise. x i (en e) c i n i f i F i n i c i g i G i [600, 1200[ 900 15 30% 30 % [1200, 1800[ 1500 25 50% 80% [1800, 2100[ 1950 10 20% 100% Total 50 100% 1 on calcule la masse salariale =. 2 on calcule le % de la masse salariale g i, ainsi que les fréquences cumulées G i. Définition La courbe de Lorentz est obtenue en faisant correspondre à la fréquence cumulée à la fréquence cumulée.
Courbe de Lorentz Courbe de Lorentz (2) Gi (en %) 0 20 40 60 80 100 0 20 40 60 80 100 Fi (en %) droite rouge = répartition Plus la courbe de Lorentz est de la droite rouge et plus la concentration est Indice de Gini Indice de Gini Gi (en %) 0 20 40 60 80 100 Soit S la surface orange. 0 20 40 60 80 100 Fi (en %) Plus I Gini est, plus la concentration est (proche de équirépartition). Dans notre cas, % (on ne cherchera pas à calculer l indice)
Médiale Médiale La médiale est exemple Dans notre 50% 19.1% Médiale = 1200 + (1800 1200) 1548e. 72.3% 19.1% Les salariés recevant moins de Mesure de concentration : Médiale Me = 0. Etendue petit = faible concentration, grand= grande concentration. Ici, on peut vérifier que (1548 1440)/(2100 600) 7.2%.