S.3 La dispersion statistique Thérèse SaintJulien
Dispersion statistique : définition On appelle dispersion statistique, la tendance qu'ont les valeurs de la distribution d'un caractère à s'étaler, à se disperser, de part et d'autre d'une valeur centrale. On distingue la dispersion absolue (mesurée dans l'unité de mesure du caractère), et la dispersion relative (mesurée par un nombre sans dimension).
. Les mesures de la dispersion absolue Arrondiss ements Nombre d'habitants en 999 (en milliers) Part des cadres dans le total de la population active résidente (%) Paris er 7 5 Paris e 39 Paris 3e 3 Paris e 3 6 Paris 5e 59 5 Paris 6e 5 53 Paris 7e 57 9 Paris 8e 39 3 Paris 9e 56 3 Paris e 9 33 Paris e 9 35 Paris e 37 37 Paris 3e 7 3 Paris e 33 3 Paris 5e 5 6 Paris 6e 6 5 Paris 7e 6 Paris 8e 85 8 Paris 9e 73 5 Paris e 83 6 Les paramètres de dispersion absolue indiquent de combien les valeurs d'une distribution s'écartent en général de la valeur centrale de référence. Un paramètre de dispersion absolue s'exprime toujours dans l'unité de mesure. Les mesures de la dispersion absolue s expriment dans l unité de mesure de la variable considérée. Exemples: Pour le nombre d'habitants en 999, il s agira de milliers d'habitants Pour la part des cadres dans le total de la population active résidente, il s agira de % de personnes actives occupant un emploi de cadre Les trois paramètres de dispersion absolue les plus courants sont l'étendue, l'intervalle inter quantile, et l'écart type
Pluviosité Année du mois de septembre (en mm) 896 9 897 7 898 3 899 35 9 583 9 9 7 93 5 9 53 95 33 96 7 97 76 98 9 99 9 7 9 9 9 5 93 3 9 95 58 96 38 97 86 98 5 99 63 9 9 6 9 8 93 98 9 95 6 Minimum 7 mm Maximum 76 mm Etendue 733 mm er quartile 9 mm Médiane 3ème quartile 5 mm Intervalle interquartile 6 mm Moyenne Variance 36 Ecarttype 79,6 mm La dispersion inter annuelle des précipitations de septembre au Mont Aigoual entre 896 à 95 nombre de mois de septembre 9 8 7 6 5 3 3 5 6 7 8 Total des précipitations en mm
Pluviosité du Année mois de septembre (en mm) 896 9 897 7 898 3 899 35 9 583 9 9 7 93 5 9 53 95 33 96 7 97 76 98 9 99 9 7 9 9 9 5 93 3 9 95 58 96 38 97 86 98 5 99 63 9 9 6 9 8 93 98 9. L étendue ou amplitude l'étendue ou amplitude d'une distribution est égale à la différence entre la plus grande et la plus petite valeur de la distribution : Etendue de = max min nombre de mois de septembre 9 8 7 6 5 3 3 5 6 7 8 Total des précipitations en mm médiane= 6 moyenne=
. La mesure de la dispersion statistique et les valeurs centrales 3,,3 6 Nombre d'habitants en 999 (en milliers) Moyenne Médiane Arrondissements Part des cadres dans la population active % nombre d'arrondissements 3 < 6 6 8 8 6 6 8 8 nombre d'arrondissements 5 3 < 3 3 3 5 3 5 5 5 5 5 5 5 Part des emplois de cadres dans la population active résidente Nombre d'habitants intervalle interquantile par rapport à la médiane variance et écarttype par rapport à la moyenne la mesure de l'étendue exceptée, chacun des paramètres de dispersion statistique caractérise le degré de dispersion des valeurs de la distribution statistique de part et d'autre d'une valeur centrale de référence
. Mesures de la dispersion autour de la médiane
Année Pluviosité du mois de septembr e (en mm) Nombre de mois de septembre 9 7 96 7 898 3 899 35 98 9 9 7 9 9 er quartile=9 mm 93 98 9 896 9 95 33 98 5 9 53 95 58 9 6 médiane=59 mm 897 7 9 8 97 86 9 99 9 9 5 3e quartile=5 mm 93 5 93 3 96 38 9 9 583 99 63 97 76 Intervalle interquartile 6 mm Quantiles. Quantiles : les quantiles sont les valeurs du caractère qui définissent les bornes d'une partition en classes d'effectifs égaux. Ces particuliers Les quartiles sont les trois valeurs qui permettent de découper la distribution en quatre classes d'effectifs égaux. On les note q, q et q3. Partition du caractère min q q q3 max fréquence des éléments: 5% 5% 5% 5% Remarque : q est égal à la médiane.
Quantiles Précipitations en mm (déciles) 33 er décile 65,5 e décile 5 3e décile,5 e décile 59 5e décile 8 6e décile 6 7e décile 77 8e décile 5,5 9e décile. DécilesLes déciles sont les neufs valeurs de qui permettent de découper la distribution en dix classes d'effectifs égaux. n les note d... d9. Etc..
Intervalle interquantile L'intervalle interquartile est l'étendue de la distribution sur laquelle se trouvent concentrée la moitié des éléments dont les valeurs de sont les plus proches de la médiane. On exclut alors de la distribution les 5% des valeurs les plus faibles et les 5 % des valeurs les plus fortes de. Cet intervalle se note:( q3 q ). L'intervalle interdécile est l'étendue de la distribution sur laquelle se trouvent concentrés 8% des éléments dont les valeurs de sont les moins différentes de la médiane. On exclut alors de la distribution les % des valeurs les plus faibles et les % des valeurs les plus fortes. Il se note ( d9 d ). Le rapport interquantile : Q3 / Q; ou interdéciles : D / D9
Revenus fiscaux déclarées au titre de l'année revenu er décile 9e décile médian rapport interdécile Paris 7 86 596,5 Hauts de Seine 95 638 576 7, SeineSaintDenis 355 3658 77 7,6 Val de Marne 78 58 369 6, Ile de France 798 558 389 7, Province 3 56 7637 5, Application du rapport inter déciles aux revenus des ménages en Ilede France source DGI: revenus fiscaux localisés rapport interdécile 9 8 7 6 SeineSaint Denis Ile de France Val de Marne Paris Hauts de Seine La position de chaque point est définie en fonction de la valaur prise par le revenu médian (abscisse) et par le rapport inter déciles (ordonnée). 5 Province 6 8 revenu médian
. Mesures de la dispersion autour de la moyenne
. Variance, écarttype et moyenne σ = ( ) i σ N n i= n = N i i= ( ) La variance de, notée σ² x est une mesure globale de la variation d'un caractère de part et d'autre de la moyenne arithmétique (quantité d'information). Elle exprime la dispersion dans une unité de l ordre du carré de l unité de mesure du caractère. Pour obtenir un paramètre de dispersion absolue, on calcule la racine carrée de la variance L'écart type, noté σ x est la racine carré de la moyenne des carrés des écarts à la moyenne, c'est à dire la racine carrée de la variance.
Exemple de calcul de la variance et de l écarttype nombre d'élèves Elèves Notes du Professeur / écarts algébrique s à la moyenne carré des écarts algébriques Notes du Professeur Y / écarts algébrique s à la moyenne carré des écarts algébriques nombre d'élèves Notes du professeur 3 D E A B C F G H I J 3 5 6 7 8 9 3 6 7 8 9 ( ) ( i ) ( ) i ( i i ) A 7 3 9 B 8 5 5 5 C 9 9 D E F G H 5 5 5 I 3 3 9 moyenne somme 8 5 écarttype,8,8 5,3 5,3 Notes du professeur Y 3 D E A B C F G H I 3 5 6 7 8 9 3 6 7 8 9
Valeurs centrales et paramètres de dispersion pour quelques indicateurs décrivant les arrondissements de Paris Paramères de la distribution revenu moyen communal par unité de consommation en milliers d'euros Part chômeurs dans la population active % Part des cadres dans la population active % Part des ouvriers dans la population active % Part des étrangers dans la population % Nombre d'habitants en milliers en 999 Nbr. de valeurs utilisées Minimum 87 8 5 7 Maximum 56 7 53 8 5 Etendue 365 9 8 7 8 er quartile 5 9 35 5 Médiane 33 3 7 7 3ème quartile 5398 5 67 Intervalle interquartile 56 6 8 5 intervalle interquartile relatif,5,,5,78,8, Moyenne 77 8 8 6 Variance 9869 7 63 37 Ecarttype 9737 3 8 3 5 66 Ecart absolu moyen 7687 7 3 6 CV (écarttype/moyenne),,,,,9,6
Caractéristiques de la distribution normale Caractéristiques de la courbe Normale :. La variable x varie de à +. La fonction est toujours > 3. L aire sous la courbe vaut. Elle est symétrique 5. Elle atteint son maximum au point (moyenne arithmétique) 6. Elle a une forme en «cloche» : plus on s écarte à gauche et à droite de la moyenne arithmétique, plus la hauteur de la courbe diminue avec l axe des abscisses comme asymptote.
La signification probabiliste de l écarttype Distribution normale 68,3% 95,5% 99,7% L écarttype a l'avantage d'avoir une signification probabiliste. La théorie des probabilités permet en effet d'estimer la chance qu'a une valeur d'être éloignée de la moyenne de plus d'un certain nombre d'écarttypes. Lorsqu'une distribution est gaussienne (on dit aussi "normale") les probabilités de trouver les valeurs a une distance donnée de la moyenne sont les suivantes : 68,3% des valeurs sont entre σ et +σ 95,5% des valeurs sont entre et + σ 99,7 % des valeurs sont entre et + 3σ σ 3σ
. Les mesures de la dispersion relative IIQR = IIQ méd. Eliminer l effet de l unité de mesure du caractère pour pouvoir comparer les degrés de dispersion de deux caractères Deux mesures usuelles de la dispersion relative à partir de: Q3 Q l intervalle interquantile: l intervalle interquantile relatif (IIQR) D9 D On peut aussi utiliser le rapport interquantile, par exemple: CV = σ l écarttype: le coefficient de variation (CV)
La dispersion statistique des revenus des ménages à Paris et dans les départements de la petite couronne REVENUS FISCAU DES MENAGES: MEDIANES ET DECILES Par is 6 5 Paris Pr ovince 3 Hauts de Sei ne rapport interdécile 9 8 7 6 SeineSaint Denis Ile de France Val de Marne Hauts de Seine Il e de Fr ance Sei nesai ntdeni s 5 Province Val de Mar ne er décile revenu médian 9e décile 6 8 revenu médian Revenus fiscaux (en euros) déclarées au titre de l'année Zones géographiques revenu médian er décile 9e décile rapport interdécile Paris 7 86 596,5 Hauts de Seine 95 638 576 7, SeineSaintDenis 355 3658 77 7,6 Val de Marne 78 58 369 6, Ile de France 798 558 389 7, Province 3 56 7637 5,
Evolution des salaires annuels des hommes et des femmes en IledeFrance: moyennes, médianes et déciles
Mesures absolues et relatives de la dispersion statistique Arrondissements Part des ouvriers dans la population active % Part des cadres dans la population active % Minimum 3,9,7 Maximum,3 53, Etendue 8 8,3 er quartile 5,5 3,5 Médiane 7, 3, 3ème quartile, 5, intervalle interquartile 5,6 intervalle interquartile relatif,78,5 Moyenne 8,,3 Ecarttype 3, 7,9 CV (écarttype/moyenne),, Pour comparer les degré de dispersion de deux distributions on a recours aux mesures de dispersion relative, et non pas les mesures de dispersion absolue. Dans l exemple cicontre la comparaison directe des écarttypes (ou des intervalles interquartiles) pourrait, à tort, laisser croire, qu en moyenne, les disparités introduites entre les arrondissements par le caractère «Part des cadres dans la population active» sont supérieures à celles liées au caractère «Part des ouvriers dans la population active». Il n en est rien. Comme l indique la comparaison des coefficients de variation les arrondissements parisiens sont, en moyenne, beaucoup plus différents les uns des autres du fait de la part des ouvriers (cv=,) que de la part des cadres(cv= contre,).
3. Distribution statistique et répartition géographique
Montant moyen de l impôt et nombre de contribuables dans les aires urbaines: distribution statistique et distribution géographique montant de l'impôt par contribuable nombre de contribuables imposés Nbre d'aires urbaines 36 36 Minimum 969 656 er quartile 3386 83 Médiane 6 898 3ème quartile 5755 35 Int. interquartile 369 75 Int. interquartile relatif,6,95 Maximum 587 7558 Etendue 639 7 Moyenne 78 379 CV (écarttype/moyenne),5,89 Ecart type 93 995
Forme de la distribution, dispersion et distribution géographique (dépt des Yvelines) Densité de population part des prof. Paramètres des distributions Intermédiaire densité en s dans la 999(habitan population ts/km²) active résidente en 999 (%) Nbr. de valeurs utilisées 9 9 Minimum 9 7 er quartile 99 5 Médiane 33 7 3ème quartile 89 3 Maximum 679 39 Etendue 67 3 Moyenne 93 8 CV (écarttype/moyenne),5,5 Ecarttype d'échantillon 355 Ecart absolu moyen 993 3 Histogramme Résidents ayant un emploi de profession intermédiaire pour emplois Hist o g ramme,,8,6,,, 9 369 79 9 5389 679,,35,3,5,,5,,5, 6 8 3 36
Montant moyen de l impôt et nombre de contribuables dans les aires urbaines: distribution statistique et distribution géographique: synthèse Caractéristiques des distributions géographiques montant de l'impôt par contribuable nombre de contribuables imposés Disparités entre les aires urbaines Très faibles: les aires urbaines ont, en moyenne, tendance à se ressembler. Les valeurs des mesures de dispersion relative voisines de. Très fortes: les aires urbaines sont en moyenne très dissemblables les unes des autres. Les mesures de dispersion relative très éloignées de Forme de la distribution symét rique: méd.=moy. Les aires urbaines les plus nombreuses se concentrent autour de la moyenne très dissymétrique: méd.< moy. Les aires urbaines les plus nombreuses se concentrent autour des valeurs les plus faibles
Dispersion statistique et répartition géographique
Dispersion statistique et répartition géographique intensité de la Distribution dispersion statistique statistique de Distribution géographique de concentration avec un ordre géographique forte grandes différences des valeurs de hétérogénéité des unités spatiales dispersion sans ordre géographique de la répartition faible grandes ressemblances des valeurs de homogénéité des unités spatiales
Les densités de population à Paris de 86 à 999 La répartition en 86 Forte dispersion statistique des valeurs= forte hétérogénéité spatiale Dans ce cas, l hétérogénéité est assortie d un ordre spatial fort : les fortes densités concernent les quartiers des arrondissements centraux; les plus faibles concernent les quartiers les plus périphériques des arrondissements périphériques. La répartition en 999 La dispersion statistique est plus faible mais un ordre spatial demeure. Les fortes valeurs sont le fait des quartiers nord et est.
Dispersion statistique et répartition géographique dans l exemple des arrondissements parisiens