Chapitre 2. Caractéristiques des distributions à une variable quantitative Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University
Objectif général de ce chapitre Objectif : calculer des caractéristiques permettant de résumer les tableaux et graphiques. Trois catégories de caractéristiques : 1 Tendance centrale 2 Dispersion 3 Concentration
1 Caractéristiques de tendance centrale Mode Médiane Quantiles d ordre quelconque Moyenne Synthèse : quelles caractéristiques pour résumer une série? Complément : méthode du shift and share 2 Caractéristiques de dispersion Etendue (intervalle de variation) Ecarts interquantiles Ecart absolu Ecart-type et variance Comparaison de séries statistiques et synthèse 3 Caractéristiques de concentration Courbe de Lorentz Indice de Gini Médiale
Mode Mode d une variable statistique Définition Le mode (ou classe modale) est la valeur (ou la classe) pour laquelle les individus sont le plus représentés.
Mode Mode d une variable statistique Définition Le mode (ou classe modale) est la valeur (ou la classe) pour laquelle les individus sont le plus représentés. Calcul du mode : variable discrète : modalité présentant le plus grand effectif (ou plus grande fréquence). variable continue : on cherche d abord la classe ayant la plus grande densité : c est la classe modale. Le mode peut ensuite être défini (par exemple comme le centre de cette classe).
Mode Mode d une variable statistique Définition Le mode (ou classe modale) est la valeur (ou la classe) pour laquelle les individus sont le plus représentés. Calcul du mode : variable discrète : modalité présentant le plus grand effectif (ou plus grande fréquence). variable continue : on cherche d abord la classe ayant la plus grande densité : c est la classe modale. Le mode peut ensuite être défini (par exemple comme le centre de cette classe). Remarques : pour une var. continue, en général on ne donne que la classe modale. Une série peut avoir plusieurs modes (en présence de maxima locaux de fréquence ou densité selon le type de variable) ; on parle de série plurimodale.
Mode Application numérique sur deux exemples Exemple Nbre pers./voiture x i f i 1 10% 2 25% 3 40% 4 25% Total 100% 1.0 fréquence 0.10 0.15 0.20 0.25 0.30 0.35 0.40 1.5 2.0 2.5 3.0 3.5 4.0 nombre de personnes/voiture 0 Revenu des ménages français x i f i d i (en euros) (/tr. de 800e) [0, 1600[ 45% 22.5% [1600, 2400[ 35% 35% [2400, 3200[ 20% 20% Total 100% % par tranche de 800 euros 0 10 20 30 40 500 1000 1500 2000 2500 3000 3500 Revenu en euros
Médiane Médiane - définition Définition La médiane est la valeur de la série (i.e. une modalité) qui partage la série en deux sous-ensembles de même effectif (ou de même fréquence). Il faut distinguer deux cas : 1 les données sont observés de manière brute. [le plus souvent une variable discrète] 2 les données sont regroupées en classes. [le plus souvent une variable continue]
Médiane Médiane (2) - données brutes Deux cas possibles en fonction du caractère pair ou impair de la taille de l échantillon n :
Médiane Médiane (2) - données brutes Deux cas possibles en fonction du caractère pair ou impair de la taille de l échantillon n : 1 n est impair : la médiane de la série de n = 5 âges : 17, 9, 19, 25, 21 est
Médiane Médiane (2) - données brutes Deux cas possibles en fonction du caractère pair ou impair de la taille de l échantillon n : 1 n est impair : la médiane de la série de n = 5 âges : 17, 9, 19, 25, 21 est Me = 19 (ans).
Médiane Médiane (2) - données brutes Deux cas possibles en fonction du caractère pair ou impair de la taille de l échantillon n : 1 n est impair : la médiane de la série de n = 5 âges : 17, 9, 19, 25, 21 est Me = 19 (ans). 2 n est pair : la médiane de la série de n = 4 âges : 17, 9, 19, 25 est entre 17 et 19
Médiane Médiane (2) - données brutes Deux cas possibles en fonction du caractère pair ou impair de la taille de l échantillon n : 1 n est impair : la médiane de la série de n = 5 âges : 17, 9, 19, 25, 21 est Me = 19 (ans). 2 n est pair : la médiane de la série de n = 4 âges : 17, 9, 19, 25 est entre 17 et 19 Me = (17 + 19)/2 = 18 (ans)
Médiane Médiane (2) - données brutes Deux cas possibles en fonction du caractère pair ou impair de la taille de l échantillon n : 1 n est impair : la médiane de la série de n = 5 âges : 17, 9, 19, 25, 21 est Me = 19 (ans). 2 n est pair : la médiane de la série de n = 4 âges : 17, 9, 19, 25 est entre 17 et 19 Me = (17 + 19)/2 = 18 (ans) Formule générale : Soient x 1,..., x n les valeurs de la série et soient x (1), x (2),..., x (n) les versions ordonnées, i.e. x (1) x (2)... x (n) alors { x((n+1)/2) si n est impair, Me = x (n/2) +x (n/2+1) 2 si n est pair.
Médiane Médiane - données brutes (2) Quelle est la médiane de la série statistique suivante? Exemple nb personnes/voiture x i n i f i F i 1 40 10% 10% 2 100 25% 35% 3 160 40% 75% 4 100 25% 100% Total 400 100%
Médiane Médiane - données brutes (2) Quelle est la médiane de la série statistique suivante? Exemple nb personnes/voiture x i n i f i F i 1 40 10% 10% 2 100 25% 35% 3 160 40% 75% 4 100 25% 100% Total 400 100% n = 400 est pair il faut donc repérer la 200 -ème et 201 -ème observation dans la liste des observations ordonnées.
Médiane Médiane - données brutes (2) Quelle est la médiane de la série statistique suivante? Exemple nb personnes/voiture x i n i f i F i 1 40 10% 10% 2 100 25% 35% 3 160 40% 75% 4 100 25% 100% Total 400 100% n = 400 est pair il faut donc repérer la 200 -ème et 201 -ème observation dans la liste des observations ordonnées. x (200) = 3, x (201) = 3 Me = 3+3 2 = 3 (pers./voiture)
Médiane Médiane (3) - données regroupées Exemple du revenu ménages x i (en e) n i ( 10 6 ) f i F i [0, 1600[ 9 45% 45% [1600, 2400[ 7 35% 80% [2400, 3200[ 4 20% 100% Total 20 100% Dans le cas où les données sont regroupées en classes, il faut suivre deux étapes : 1 repérer la classe médiane, i.e. la classe contenant la médiane.
Médiane Médiane (3) - données regroupées Exemple du revenu ménages x i (en e) n i ( 10 6 ) f i F i [0, 1600[ 9 45% 45% [1600, 2400[ 7 35% 80% [2400, 3200[ 4 20% 100% Total 20 100% Dans le cas où les données sont regroupées en classes, il faut suivre deux étapes : 1 repérer la classe médiane, i.e. la classe contenant la médiane. Ici, 45% des ménage ont un revenu < 1600eet 80% des ménages ont un revenu < 2400e
Médiane Médiane (3) - données regroupées Exemple du revenu ménages x i (en e) n i ( 10 6 ) f i F i [0, 1600[ 9 45% 45% [1600, 2400[ 7 35% 80% [2400, 3200[ 4 20% 100% Total 20 100% Dans le cas où les données sont regroupées en classes, il faut suivre deux étapes : 1 repérer la classe médiane, i.e. la classe contenant la médiane. Ici, 45% des ménage ont un revenu < 1600eet 80% des ménages ont un revenu < 2400e Me ]1600, 2400[ 2 estimer la médiane par interpolation linéaire.
Médiane Médiane (4) - interpolation linéaire 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 3000 revenu FiAquoi correspond la médiane sur ce graphique?
Médiane Médiane (5) - interpolation linéaire Fi 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 3000 revenu (Me,50%) Graphiquement : la médiane correspond à l abscisse du point d intersection entre la courbe des (x i, F i ) et la droite horizontale d équation y = 50%. Formule générale : soit ]x i, x i+1 [ la classe médiane et soient F i et F i+1 les fréquences cumulées évaluées en x i et x i+1, alors Me = x i + 50% F i F i+1 F i (x i+1 x i )
Médiane Médiane (5) - interpolation linéaire Fi 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 3000 revenu (Me,50%) Application numérique : Graphiquement : la médiane correspond à l abscisse du point d intersection entre la courbe des (x i, F i ) et la droite horizontale d équation y = 50%.
Médiane Médiane (5) - interpolation linéaire Fi 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 3000 revenu (Me,50%) Application numérique : x i = 1600, x i+1 = 2400, F i = 45%, F i+1 = 80%. Graphiquement : la médiane correspond à l abscisse du point d intersection entre la courbe des (x i, F i ) et la droite horizontale d équation y = 50%.
Médiane Médiane (5) - interpolation linéaire Fi 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 3000 revenu (Me,50%) Application numérique : Graphiquement : la médiane correspond à l abscisse du point d intersection entre la courbe des (x i, F i ) et la droite horizontale d équation y = 50%. x i = 1600, x i+1 = 2400, F i = 45%, F i+1 = 80%. Me = 1600 + 50% 45% 80% 45% (2400 1600) 1714.28 e.
Quantiles d ordre quelconque Quantile Définition Un quantile d ordre α (pour α (0, 1)) notée en toute généralité Q α est la valeur qui partage la série en deux sous-ensembles ; une proportion α se situe en dessous de Q α et une proportion 1 α au-dessus strictement de Q α. Remarques : Me = Q 50%. Quartiles (notés Q 1, Q 2, Q 3 ) : quantiles qui séparent la série en 4 sous-ensembles de même effectif/fréquence. Plus précisément Q 1 = Q 25%, Q 2 = Me, Q 3 = Q 75%. Déciles (notés D 1, D 2,..., D 9 ) : quantiles qui séparent la série en 10 sous-ensembes de même fréquence. Plus précisément D 1 = Q 10%, D 2 = Q 20%,..., D 9 = Q 90%.
Quantiles d ordre quelconque Quantile (2) Les quantiles se calculent de manière similaire à la médiane. Ainsi pour des données regroupées on a : si Q α ]x i, x i+1 [ Q α = x i + α F i F i+1 F i (x i+1 x i )
Quantiles d ordre quelconque Quantile (2) Les quantiles se calculent de manière similaire à la médiane. Ainsi pour des données regroupées on a : si Q α ]x i, x i+1 [ Q α = x i + α F i F i+1 F i (x i+1 x i ) Calculez le premier quartile de la série suivante Exemple du revenu ménages x i (en e) n i ( 10 6 ) f i F i [0, 1600[ 9 45% 45% [1600, 2400[ 7 35% 80% [2400, 3200[ 4 20% 100% Total 20 100%
Quantiles d ordre quelconque Quantile (2) Les quantiles se calculent de manière similaire à la médiane. Ainsi pour des données regroupées on a : si Q α ]x i, x i+1 [ Q α = x i + α F i F i+1 F i (x i+1 x i ) Calculez le premier quartile de la série suivante Exemple du revenu ménages x i (en e) n i ( 10 6 ) f i F i [0, 1600[ 9 45% 45% [1600, 2400[ 7 35% 80% [2400, 3200[ 4 20% 100% Total 20 100% Q 1 ]0, 1600[ Q 1 = 0 + 25% 0 45% 0 (1600 0) 888.89e.
Moyenne Moyenne - introduction Il y a plusieurs types de moyenne dépendant essentiellement du problème considéré 1 Moyenne arithmétique [la plus connue et la plus standard] 2 Moyenne géométrique [utilisée par exemple pour calculer des taux moyens] 3 Moyenne harmonique [utilisée pour calculer des moyennes de ratios] 4 Moyenne quadratique [moyenne de carrés, notion moins utilisée]
Moyenne Moyenne arithmétique (pondérée) Définition Soit x i (i = 1,..., p) les modalités d une série brute, d effectifs n i (i = 1,..., p) et fréquence f i, la moyenne arithmétique pondérée notée x est donnée par x = 1 n p n i x i = i=1 p i=1 f i x i car f i = n i n. Si les données sont regroupées en classes, les x i ne sont en général pas observées. Ces valeurs sont alors remplacées par les centres de classes, notés c i pour i = 1,..., p. lorsque le nombre de modalités (ou nombre de classes) est grand, il devient intéressant d utiliser la calculatrice (rentrer les données sous forme d un tableau, configurer de manière appropriée et demander des résultats univariés).
Moyenne Moyenne arithmétique : exemple covoiturage Calculez la moyenne de la série Application : Exemple nb personnes/voiture x i n i f i F i 1 40 10% 10% 2 100 25% 35% 3 160 40% 75% 4 100 25% 100% Total 400 100%
Moyenne Moyenne arithmétique : exemple covoiturage Calculez la moyenne de la série Application : x = Exemple nb personnes/voiture x i n i f i F i 1 40 10% 10% 2 100 25% 35% 3 160 40% 75% 4 100 25% 100% Total 400 100% 40 1 + 100 2 + 160 3 + 100 4 400 = 2.8 pers./voiture. (Remarque : 10% 1 + 25% 2 + 40%3 + 25% 4 = 2.8)
Moyenne Moyenne arithmétique : exemple revenu des ménages Calculez la moyenne de la série Application : Exemple du revenu ménages x i (en e) c i n i ( 10 6 ) f i F i [0, 1600[ 800 9 45% 45% [1600, 2400[ 2000 7 35% 80% [2400, 3200[ 2800 4 20% 100% Total 20 100%
Moyenne Moyenne arithmétique : exemple revenu des ménages Calculez la moyenne de la série Application : Exemple du revenu ménages x i (en e) c i n i ( 10 6 ) f i F i [0, 1600[ 800 9 45% 45% [1600, 2400[ 2000 7 35% 80% [2400, 3200[ 2800 4 20% 100% Total 20 100% x = 9 800 + 7 2000 + 4 2800 20 = 1620 e.
Moyenne Propriétés de la moyenne arithmétique 1 La somme des écarts (pondérés) à la moyenne est nulle, c-a-d Preuve : p n i (x i x) = i=1 p n i (x i x) = 0 i=1 p p n i x i i=1 i=1 n i x = nx nx = 0.
Moyenne Propriétés de la moyenne arithmétique 1 La somme des écarts (pondérés) à la moyenne est nulle, c-a-d p n i (x i x) = 0 i=1 2 Considérons une population P d effectif total n composée de k sous-populations P 1,..., P k d effectifs n 1,..., n k (donc n = n 1 +... + n k ). Notons x 1,..., x k les moyennes arithmétiques des sous-populations P 1,..., P k alors x = n 1x 1 +... + n k x k n la moyenne globale est égale à la moyenne pondérée des moyennes.
Moyenne Moyenne globale = moyenne pondérée des moyennes Ex : salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez la moyenne de la série Ensemble de deux façons différentes : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Méthode 1 (méthode directe) :
Moyenne Moyenne globale = moyenne pondérée des moyennes Ex : salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez la moyenne de la série Ensemble de deux façons différentes : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Méthode 1 (méthode directe) : x E = 1 (750 130 + 2250 170) = 1600e. 300
Moyenne Moyenne globale = moyenne pondérée des moyennes Ex : salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez la moyenne de la série Ensemble de deux façons différentes : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Méthode 1 (méthode directe) : x E = 1 (750 130 + 2250 170) = 1600e. 300 Méthode 2 (en utilisant la propriété précédente) : x H = 1 (750 70 + 2250 130) = 1725e. 200 x F = 1 (750 60 + 2250 40) = 1350e. 100 x E = 1 300 (200 x H + 100 x F ) = 1 (200 1725 + 100 1350) = 1600e. 300
Moyenne Moyenne géométrique Une action en bourse a évolué à la hausse de 10% l année 1, puis a diminué de 5% l année 2 et de 5% l année 3. Question : Quel est le taux moyen (noté t moy ) d évolution de cette action sur les trois années?
Moyenne Moyenne géométrique Une action en bourse a évolué à la hausse de 10% l année 1, puis a diminué de 5% l année 2 et de 5% l année 3. Question : Quel est le taux moyen (noté t moy ) d évolution de cette action sur les trois années? t moy 0!!! La moyenne géométrique est le taux qui, appliqué durant les trois années donnera le même capital final selon l évolution décrite précédemment.
Moyenne Moyenne géométrique (2) Soit C 0 le capital initial et soient C 1, C 2, C 3 les capitaux après 1,2 ou 3 années. On a selon l énoncé C 1 = (1 + 10%)C 0, C 2 = (1 5%)C 1 et C 3 = (1 5%)C 2, c-a-d C 3 = (1 + 10%)(1 5%)(1 5%)C 0. selon la définition du taux moyen : C 1 = (1 + t moy )C 0, C 2 = (1 + t moy )C 1 et C 3 = (1 + t moy )C 2, c-a-d C 3 = (1 + t moy ) 3 C 0. Par identification des deux identités, il vient que pour tout capital initial C 0 (1 + 10%)(1 5%)(1 5%) = (1 + t moy ) 3 t moy = ( (1 + 10%)(1 5%)(1 5%) ) 1/3 1.
Moyenne Moyenne géométrique (3) Définition Soit la série statistique x 1,..., x p d effectif n 1,..., n p alors la moyenne géométrique notée en général x G est définie par x G = où n = n 1 +... + n p. ( ) 1/n x n 1 1 x n 2 2... x n p p
Moyenne Moyenne harmonique Elle permet de calculer des moyennes de ratios. Exemple : Un coureur monte une côte de 1km à la vitesse de 10km/h et descend cette même côte à la vitesse de 30km/h. Question : Quelle est la vitesse moyenne du coureur?
Moyenne Moyenne harmonique Elle permet de calculer des moyennes de ratios. Exemple : Un coureur monte une côte de 1km à la vitesse de 10km/h et descend cette même côte à la vitesse de 30km/h. Question : Quelle est la vitesse moyenne du coureur? v moy 20 km/h!! car il a passé plus de temps à 10km/h qu à 30km/h.
Moyenne Moyenne harmonique Elle permet de calculer des moyennes de ratios. Exemple : Un coureur monte une côte de 1km à la vitesse de 10km/h et descend cette même côte à la vitesse de 30km/h. Question : Quelle est la vitesse moyenne du coureur? v moy 20 km/h!! car il a passé plus de temps à 10km/h qu à 30km/h. On cherche v moy telle que la somme des temps passés à la montée et la descente soit égal au temps passé à la vitesse v moy : t montée = 1 10, t desc. = 1 30, t v moy = 2 v moy 2 v moy = 1 10 + 1 30 v 2 moy = 1 = 15 km/h. 10 + 30 1
Moyenne Moyenne harmonique (2) Définition Soit la série statistique x 1,..., x p d effectif n 1,..., n p alors la moyenne harmonique notée en général x H est définie par où n = n 1 +... + n p. x H = n 1 x 1 n +... + n p x p
Synthèse : quelles caractéristiques pour résumer une série? Synthèse Mode(s), médiane, moyenne(s) : quel(s) indicateur(s) utiliser pour résumer une série et en donner des tendances centrales? Cela dépend de la forme générale de la série statistique étudiée selon qu elle soit : plurimodale, symétrique, asymétrique.
Synthèse : quelles caractéristiques pour résumer une série? Afin de résumer cette série...... quel est l indicateur pertinent? Salaires x i c i n i a i en e (1 u.a. 4000e) [0, 4000[ 2000 45 1 [4000, 8000[ 16000 10 6 [28000, 32000[ 30000 45 1 série pluri-modale x = 16000e, Me = 16000e. 2 classes modales : [0, 4000[,[28000, 32000[. Moyenne et médiane non représentatives de la série. Modes informatifs.
Synthèse : quelles caractéristiques pour résumer une série? Afin de résumer cette série...... quel est l indicateur pertinent? série symétrique Salaires x i c i n i a i en e (1 u.a. 1000e) [0, 1000[ 500 5 1 [1000, 2000[ 1500 90 1 [2000, 3000[ 2500 5 1 x = 1500e, Me = 1500e. classes modales : [1000, 2000[. les trois indicateurs peuvent être utilisés. on préfèrera la moyenne qui possède des propriétés intéressant (calcul algébrique)
Synthèse : quelles caractéristiques pour résumer une série? Afin de résumer cette série...... quel est l indicateur pertinent? Salaires x i c i n i a i en e (1 u.a. 2000e) [0, 2000[ 1000 90 1 [2000, 38000[ 18000 10 18 x = 2900e, Me = 1100e. La moyenne n est pas représentative car trop influencée par les gros salaires. la médiane est plus adaptée. série asymétrique
Complément : méthode du shift and share Complément : méthode shift and share méthode utilisée pour comparer plusieurs moyennes pondérées lorsque les coefficients de pondération sont très, par exemple lorsqu ils évoluent au cours du temps. permet de lisser l effet structure. Exemples : salaires de 2 CSP en 2010 et 2011. Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900
Complément : méthode du shift and share Complément : méthode shift and share méthode utilisée pour comparer plusieurs moyennes pondérées lorsque les coefficients de pondération sont très, par exemple lorsqu ils évoluent au cours du temps. permet de lisser l effet structure. Exemples : salaires de 2 CSP en 2010 et 2011. Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900 x 2010 = 1100 e, x 2011 = 1100 e. peut-on conclure qu il n y a pas d évolution de salaires de 2010 à 2011?
Complément : méthode du shift and share Complément : méthode shift and share (2) Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900 Pour éliminer l effet du changement des effectifs, on calcule les moyennes en fixant les effectifs de 2010 :
Complément : méthode du shift and share Complément : méthode shift and share (2) Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900 Pour éliminer l effet du changement des effectifs, on calcule les moyennes en fixant les effectifs de 2010 : x 2011 = 10% 1300 + 90% 900 = 940 e evolution de 940 1100 1100 14.54%.
Complément : méthode du shift and share Complément : méthode shift and share (2) Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900 Pour éliminer l effet du changement des effectifs, on calcule les moyennes en fixant les effectifs de 2010 : x 2011 = 10% 1300 + 90% 900 = 940 e evolution de 940 1100 1100 14.54%. pour éliminer l effet du changement de salaires, on calcule la moyenne en 2011 en fixant les salaires en 2010
Complément : méthode du shift and share Complément : méthode shift and share (2) Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900 Pour éliminer l effet du changement des effectifs, on calcule les moyennes en fixant les effectifs de 2010 : x 2011 = 10% 1300 + 90% 900 = 940 e evolution de 940 1100 1100 14.54%. pour éliminer l effet du changement de salaires, on calcule la moyenne en 2011 en fixant les salaires en 2010 x 2011 = 50% 2000 + 50% 1000 = 1500 e évolution de 1500 1100 1100 36.36%.
Caractéristiques de dispersion Objectif : définir des indicateurs permettant d évaluer le caractère dispersé ou variable d une série statistique. En particulier, nous étudierons 1 l étendue 2 les écarts interquantiles 3 les écarts absolus (moyen et médian) 4 l écart-type (ou variance)
Etendue (intervalle de variation) Etendue (intervalle de variation) Définition L étendue est la différence entre la plus grande et la plus petite observation de la série. Etendue = x (n) x (1). Notion très peu utilisée en pratique car elle est très sensible aux fluctuations de l échantillon. Exemple : on relève l âge de 10 individus : 24, 16, 18, 22, 16, 26, 35, 25, 15, 76. étendue est de tp76-16 = 50 ans. Si on remplace 76 par un âge 35 l étendue devient 19 ans.
Ecarts interquantiles Ecarts-interquantiles Définition On définit l écart-interquartile et l écart-interdécile comme suit Ecart interquartile = Q 3 Q 1 Ecart interdécile = D 9 D 1. Plus ces écarts sont grands et plus la série est dispersée. Du fait que l on ne tient pas compte des observations faibles ou élevées, ces caractéristiques sont moins sensibles aux fluctuations de l échantillon que l étendue.
Ecart absolu Ecarts absolus x : statistique, x i : modalités, n i : effectifs, p nbre de modalités. 1 Ecart absolu moyen : 2 Ecart absolu médian : Remarques e x = 1 n e Me = 1 n p n i x i x. i=1 p n i x i Me. i=1 Plus les écarts absolus sont grands, plus la série est dispersée. Avantage : facile à calculer, écart absolu médian moins sensible aux valeurs extrêmes. Inconvénient : ne se prête pas aux calculs algébriques.
Ecart-type et variance Ecart-type et variance Définition La variance est la moyenne arithmétique pondérée des écarts à la moyenne au carré. L écart-type est la racine carrée de la variance.
Ecart-type et variance Ecart-type et variance Définition La variance est la moyenne arithmétique pondérée des écarts à la moyenne au carré. L écart-type est la racine carrée de la variance. Variance : Ecart-type : Var(x) = 1 n p p n i (x i x) 2 = f i (x i x) 2 i=1 i=1 σ x = Var(x) Interprétation Plus l écart-type (ou variance) est grand(e) et plus la série observée est dispersée.
Ecart-type et variance Ecart-type et variance (2) Autre expression de la variance : Var(x) = 1 n = 1 n p n i (x i x) 2 i=1 p n i xi 2 (x) 2 i=1 = x 2 (x) 2 = moyenne des carrés carré de la moyenne. Tout comme la moyenne, pour calculer une variance (ou écart-type) pour une variable continue (dont les données sont regroupées en classes) on remplace les x i par c i les centres de classe.
Ecart-type et variance Ecart-type et variance (3) Calculez les variance et écart-type de la série suivante : x i (en e) c i n i ( 10 6 ) f i [0, 1600[ 800 9 45% [1600, 2400[ 2000 7 35% [2400, 3200[ 2800 4 20% Total 20 100%
Ecart-type et variance Ecart-type et variance (3) Calculez les variance et écart-type de la série suivante : x i (en e) c i n i ( 10 6 ) f i [0, 1600[ 800 9 45% [1600, 2400[ 2000 7 35% [2400, 3200[ 2800 4 20% Total 20 100% Méthode 1 : on rappelle que x = 1620e. Var(x) = 1 ( 9 (800 1620) 2 + 7 (2000 1620) 2 + 4 (2800 1620) 2) 20 = 631600 e 2.
Ecart-type et variance Ecart-type et variance (3) Calculez les variance et écart-type de la série suivante : x i (en e) c i n i ( 10 6 ) f i [0, 1600[ 800 9 45% [1600, 2400[ 2000 7 35% [2400, 3200[ 2800 4 20% Total 20 100% Méthode 1 : on rappelle que x = 1620e. Var(x) = 1 ( 9 (800 1620) 2 + 7 (2000 1620) 2 + 4 (2800 1620) 2) 20 = 631600 e 2. Méthode 2 : x 2 = 1 ( 9 800 2 + 7 2000 2 + 4 2800 2) = 3256000 e 2 20 Var(x) = x 2 (x) 2 = 3256000 1620 2 = 631600 e 2 Ecart-type : σ x = 631600 794.7 e.
Ecart-type et variance Variance intra et interpopulation Théorème Considérons une population P de taille n composée de k sous-populations P 1,..., P k d effectifs respectifs n 1,..., n k. Notons, x 1,..., x k et Var(x 1 ),..., Var(x k ) les moyennes et variances des k sous-populations. Alors, la variance de la population P est Var(x) = n 1Var(x 1 ) +... + n k Var(x k ) + n 1(x x 1 ) 2 +... + n k (x x k ) 2 n n = 1 k n i Var(x i ) + 1 p n i (x i x) 2 n n i=1 i=1 = moyenne des variances + variance des moyennes = Variance intra-population + Variance inter-population.
Ecart-type et variance Variance intra et interpopulation (2) Vérifions le résultat précédent sur l exemple suivant : on étudie le salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez les variances inter-, intra- et totale de la série : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Pour simplifier (un peu) les calculs : x H = 1725 e Var(x H ) = 511875 e 2 x F = 1350 e Var(x F ) = 540000 e 2 x = 1600 e Var(x) = 552500 e 2.
Ecart-type et variance Variance intra et interpopulation (2) Vérifions le résultat précédent sur l exemple suivant : on étudie le salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez les variances inter-, intra- et totale de la série : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Pour simplifier (un peu) les calculs : x H = 1725 e Var(x H ) = 511875 e 2 x F = 1350 e Var(x F ) = 540000 e 2 x = 1600 e Var(x) = 552500 e 2. Moyenne des variances : Var. Intra = 1 300 (200 Var(x H) + 100 Var(x F )) = 1 300 (200 511875 + 100 540000) = 521250e2.
Ecart-type et variance Variance intra et interpopulation (2) Vérifions le résultat précédent sur l exemple suivant : on étudie le salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez les variances inter-, intra- et totale de la série : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Pour simplifier (un peu) les calculs : x H = 1725 e Var(x H ) = 511875 e 2 x F = 1350 e Var(x F ) = 540000 e 2 x = 1600 e Var(x) = 552500 e 2. Variance des moyennes : Var. Inter = 1 ( 200 (xh x) 2 + 100 (x F x) 2) 300 = 1 ( 200 (1725 1600) 2 + 100 (1350 1600) 2) = 31250e 2. 300
Ecart-type et variance Variance intra et interpopulation (3) Résumons un peu ces calculs : Var(x) = 552500e 2. Var. Intra + Var. Inter = Moy. des variances + Var. des moyennes = 521250 + 31250 = 552500e 2. Peut-on dire que la caractéristique H/F influence le salaire?
Ecart-type et variance Variance intra et interpopulation (3) Résumons un peu ces calculs : Var(x) = 552500e 2. Var. Intra + Var. Inter = Moy. des variances + Var. des moyennes = 521250 + 31250 = 552500e 2. Peut-on dire que la caractéristique H/F influence le salaire? Si tel est le cas, la variance des moyennes est forte relativelement à la variance totale des salaires. Or, Var. Inter Var(x) = 31250 552500 5.66%. 5.66% de la variance est expliquée par l hétérogénéité des moyennes (H/F) ce qui est relativement faible. Par conséquent, les salaires de cette entreprise ne sont que peu influencés par le sexe.
Comparaison de séries statistiques et synthèse Complement I : Comparaison de séries (1) soit x la série statistique de 4 produits en Francs : 100F, 200F, 300F et 400F. soit y la série statistique des 4 produits en e :15e, 30e,45e,60e. Intuitivement, ces deux séries sont dispersées de la même manière. Or, σ x = 111.8F et σ y = 16.8e. Conclusion : pour comparer les deux séries qui ne sont pas dans la même unité, il faut transformer les caractéristiques de dispersion. σ x Coefficient de variation : x rapport à la moyenne, sans unité. = c est le % de variation par σ x x 111.8 250 0.45 et σ y y 16.8 37.5 0.45.
Comparaison de séries statistiques et synthèse Complement I : comparaison de séries (2) D autres indicateurs de comparaison de séries statistiques : Coefficient de dispersion : Q 3 Q 1 D 9 D 1 ou. Me Me Rapport interquartile ou rapport interdécile : Q 3 Q 1 ou D 9 D 1
Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (1) aussi appelée box plot ou diagramme de Tukey. moyen rapide de visualiser des caractéristiques centrale et de dispersion d une série quantitative.
Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (1) aussi appelée box plot ou diagramme de Tukey. moyen rapide de visualiser des caractéristiques centrale et de dispersion d une série quantitative. principalement utilisée pour comparer un même caractère pour plusieurs populations.
Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (1) aussi appelée box plot ou diagramme de Tukey. moyen rapide de visualiser des caractéristiques centrale et de dispersion d une série quantitative. principalement utilisée pour comparer un même caractère pour plusieurs populations. basée sur le calcul de D 1, Q 1, Me, Q 3 et D 9.
Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (1) aussi appelée box plot ou diagramme de Tukey. moyen rapide de visualiser des caractéristiques centrale et de dispersion d une série quantitative. principalement utilisée pour comparer un même caractère pour plusieurs populations. basée sur le calcul de D 1, Q 1, Me, Q 3 et D 9. D 9 Q 3 Me Q 1 D 1
Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (2) Etude sur le niveau de vie des ménages en euros par CSP (personne de référence) en 2010. Application : complétez le graphique suivant avec les revenus des agriculteurs... sachant que pour les agriculteurs D 1 = 6040 Q 1 =11135 Me = 18010 Q 3 = 27140 D 9 = 39010 10000 20000 30000 40000 50000 agriculteurs cadres profint employes ouvriers
Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (2) Etude sur le niveau de vie des ménages en euros par CSP (personne de référence) en 2010. Application : complétez le graphique suivant avec les revenus des agriculteurs... sachant que pour les agriculteurs D 1 = 6040 Q 1 =11135 Me = 18010 Q 3 = 27140 D 9 = 39010 10000 20000 30000 40000 50000 agriculteurs cadres profint employes ouvriers
Introduction Elles sont utilisées pour mesurer (essentiellement) la répartition de la masse salariale. La répartition de la masse salariale se situe entre les deux cas extrêmes suivants Répartition des salaires parfaitement équitables : un certain pourcentage de salariés reçoit le même pourcentage de la masse salariale. On dit que la concentration est nulle. Un seul salarié reçoit toute la masse salariale (et les autres rien). On dit que la concentration est maximale. Trois indicateurs pour quantifier la concentration 1 courbe de Lorentz 2 Indice de Gini 3 Médiale.
Courbe de Lorentz Courbe de Lorentz On étudie les salaires de 50 employés d une entreprise. x i (en e) c i n i f i F i [600, 1200[ 900 15 30% 30 % [1200, 1800[ 1500 25 50% 80% [1800, 2100[ 1950 10 20% 100% Total 50 100% 1 2
Courbe de Lorentz Courbe de Lorentz On étudie les salaires de 50 employés d une entreprise. x i (en e) c i n i f i F i n i c i [600, 1200[ 900 15 30% 30 % 13500 [1200, 1800[ 1500 25 50% 80% 37500 [1800, 2100[ 1950 10 20% 100% 19500 Total 50 100% 70500 1 on calcule la masse salariale = n i c i. 2
Courbe de Lorentz Courbe de Lorentz On étudie les salaires de 50 employés d une entreprise. x i (en e) c i n i f i F i n i c i g i G i [600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1% [1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3% [1800, 2100[ 1950 10 20% 100% 19500 27.7% 100% Total 50 100% 70500 100% 1 on calcule la masse salariale = n i c i. 2 on calcule le % de la masse salariale g i, ainsi que les fréquences cumulées G i.
Courbe de Lorentz Courbe de Lorentz On étudie les salaires de 50 employés d une entreprise. x i (en e) c i n i f i F i n i c i g i G i [600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1% [1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3% [1800, 2100[ 1950 10 20% 100% 19500 27.7% 100% Total 50 100% 70500 100% Définition La courbe de Lorentz est obtenue en faisant correspondre à la fréquence cumulée F i à la fréquence cumulée G i de la masse salariale.
Courbe de Lorentz Courbe de Lorentz (2) Gi (en %) 0 20 40 60 80 100 0 20 40 60 80 100 Fi (en %) droite rouge = répartition parfaitement équitable. Plus la courbe de Lorentz est éloignée de la droite rouge et plus la concentration est forte (répartition de moins en moins équitable).
Indice de Gini Indice de Gini Gi (en %) 0 20 40 60 80 100 Soit S la surface orange. I Gini = S Surf. Demi-carré = 2S [0, 1] 0 20 40 60 80 100 Fi (en %) Plus I Gini est proche de 0, plus la concentration est faible (proche de équirépartition). Dans notre cas, I Gini 14% (on ne cherchera pas à calculer l indice)
Médiale Médiale x i (en e) c i n i f i F i n i c i g i G i [600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1% [1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3% [1800, 2100[ 1950 10 20% 100% 19500 27.7% 100% Total 50 100% 70500 100% La médiale est la médiane de la série masse associée. Dans notre exemple
Médiale Médiale x i (en e) c i n i f i F i n i c i g i G i [600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1% [1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3% [1800, 2100[ 1950 10 20% 100% 19500 27.7% 100% Total 50 100% 70500 100% La médiale est la médiane de la série masse associée. Dans notre exemple 50% 19.1% Médiale = 1200 + (1800 1200) 1548e. 72.3% 19.1% Les salariés recevant moins de 1548 ereprésentent 50% de la masse salariale.
Médiale Médiale x i (en e) c i n i f i F i n i c i g i G i [600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1% [1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3% [1800, 2100[ 1950 10 20% 100% 19500 27.7% 100% Total 50 100% 70500 100% La médiale est la médiane de la série masse associée. Dans notre exemple 50% 19.1% Médiale = 1200 + (1800 1200) 1548e. 72.3% 19.1% Les salariés recevant moins de 1548 ereprésentent 50% de la masse salariale. Mesure de concentration : Médiale Me = 0. Etendue petit = faible concentration, grand= grande concentration. Ici, on peut vérifier que (1548 1440)/(2100 600) 7.2%.