S1.3 La dispersion statistique. Thérèse Saint-Julien

Documents pareils
Séries Statistiques Simples

1. Vocabulaire : Introduction au tableau élémentaire

Statistiques Descriptives à une dimension

Représentation d une distribution

Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistiques 0,14 0,11

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Statistique Descriptive Élémentaire

CAPTEURS - CHAINES DE MESURES

3. Caractéristiques et fonctions d une v.a.

Statistique : Résumé de cours et méthodes

Marché de l occasion et exigences de rénovation énergétique. Rencontre de l Observatoire 21 mai 2015

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Inégalités de salaires et de revenus, la stabilité dans l hétérogénéité

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

Statistiques à une variable

Étude comparative sur les salaires et les échelles salariales des professeurs d université. Version finale. Présentée au

Bulletin d information statistique

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

La rémunération des concepteurs. en théâtre au Québec. de 2004 à 2006

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Logiciel XLSTAT version rue Damrémont PARIS

LES SALAIRES DES CADRES EN POSTE

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Chapitre 8. Estimation de la valeur d un bien immobilier

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Dares Analyses. Les bas salaires en France entre 1995 et 2011

Comparaison de fonctions Développements limités. Chapitre 10

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

La nouvelle planification de l échantillonnage

Garder et faire garder son enfant

Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures?

glossaire Appellation commerciale Voir nom de marque.

Chapitre 3. Les distributions à deux variables

Analyse et interprétation des données

L état de la pauvreté en France

L endettement privé des ménages début 2010

Les parcs de logements et leur occupation. dans l Aire Urbaine de Lille et sa zone d influence. Situation 2005 et évolution

- Ressources pour les classes

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

STATISTIQUES DESCRIPTIVES

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

Lire ; Compter ; Tester... avec R

Le patrimoine des ménages retraités : résultats actualisés. Secrétariat général du Conseil d orientation des retraites

Evolution des risques sur les crédits à l habitat

Services bancaires postaux : tendances et perspectives Cartographie des bureaux de poste, des banques et des prêteurs sur salaire de la région du

Lambotte J.-M. Géographe-Urbaniste. Chercheur au Lepur ULg. Semaine Universitaire Luxembourgeoise de l'environnement - Libramont

Revenu national avant impôts: (100%) Revenu disponible: (74%) Revenu après impôts: (51%)

Principe d un test statistique

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

UFR Etudes Interculturelles de Langues Appliquées. Evolution professionnelle des anciens du DESS/Master 2 ILTS

Combien coûtent vos soins dentaires?

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Evaluation de la variabilité d'un système de mesure

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Brock. Rapport supérieur

Base de données sociales sur Paris

Dépendance et rayonnement. des établissements franciliens

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

TSTI 2D CH X : Exemples de lois à densité 1

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

AFFAIBLISSEMENT DÛ AUX NUAGES ET AU BROUILLARD

Etat des lieux de l immobilier d entreprises en Guadeloupe

Résumé du Cours de Statistique Descriptive. Yves Tillé

2x 9 =5 c) 4 2 x 5 1= x 1 x = 1 9

démographie des masseurs-kinésithérapeutes

Les pôles commerciaux et leurs magasins

RAPPORT TECHNIQUE CCE

REGARDS SUR L ÉDUCATION 2013 : POINTS SAILLANTS POUR LE CANADA

Le calcul du barème d impôt à Genève

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Observation des modalités et performances d'accès à Internet

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

1. Introduction Création d'une requête...2

Quelles ressources pour vivre seul, en 2014, dans une commune du Doubs? Essai d évaluation

La prise en compte des revenus du patrimoine dans la mesure des inégalités

Classe de première L

Table des matières. I Mise à niveau 11. Préface

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

jçíçêáë~íáçå=éí=ãçäáäáí =W=ÇÉë= ÅçãéçêíÉãÉåíë=éäìë=ê~íáçååÉäë=\==

Introduction aux Statistiques et à l utilisation du logiciel R

Héritages, donations et aides aux ascendants et descendants

Traitement des données avec Microsoft EXCEL 2010

FONCTION DE DEMANDE : REVENU ET PRIX

note d Temps de travail des enseignants du second degré public : pour une heure de cours, une heure de travail en dehors 13.13

Le niveau de revenus des ménages est associé à la couverture vaccinale par le vaccin pneumocoque conjugué chez les enfants d'ile-de-france

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Directeur de la publication : André-Michel ventre, Directeur de l INHESJ Rédacteur en chef : Christophe Soullez, chef du département de l ONDRP

Effets de quartier, discrimination territoriale et accès à l emploi

Degré de confiance pour les indicateurs de performance : degré de fiabilité du processus de production et écart significatif 1

DOSSIER DE CREATION D'ENTREPRISE

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

Conseil économique et social

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Fiches thématiques. Revenus

Etude salariale. Pour le domaine des ressources humaines 2013/2014

EXERCICES - ANALYSE GÉNÉRALE

Transcription:

S.3 La dispersion statistique Thérèse SaintJulien

Dispersion statistique : définition On appelle dispersion statistique, la tendance qu'ont les valeurs de la distribution d'un caractère à s'étaler, à se disperser, de part et d'autre d'une valeur centrale. On distingue la dispersion absolue (mesurée dans l'unité de mesure du caractère), et la dispersion relative (mesurée par un nombre sans dimension).

. Les mesures de la dispersion absolue Arrondiss ements Nombre d'habitants en 999 (en milliers) Part des cadres dans le total de la population active résidente (%) Paris er 7 5 Paris e 39 Paris 3e 3 Paris e 3 6 Paris 5e 59 5 Paris 6e 5 53 Paris 7e 57 9 Paris 8e 39 3 Paris 9e 56 3 Paris e 9 33 Paris e 9 35 Paris e 37 37 Paris 3e 7 3 Paris e 33 3 Paris 5e 5 6 Paris 6e 6 5 Paris 7e 6 Paris 8e 85 8 Paris 9e 73 5 Paris e 83 6 Les paramètres de dispersion absolue indiquent de combien les valeurs d'une distribution s'écartent en général de la valeur centrale de référence. Un paramètre de dispersion absolue s'exprime toujours dans l'unité de mesure. Les mesures de la dispersion absolue s expriment dans l unité de mesure de la variable considérée. Exemples: Pour le nombre d'habitants en 999, il s agira de milliers d'habitants Pour la part des cadres dans le total de la population active résidente, il s agira de % de personnes actives occupant un emploi de cadre Les trois paramètres de dispersion absolue les plus courants sont l'étendue, l'intervalle inter quantile, et l'écart type

Pluviosité Année du mois de septembre (en mm) 896 9 897 7 898 3 899 35 9 583 9 9 7 93 5 9 53 95 33 96 7 97 76 98 9 99 9 7 9 9 9 5 93 3 9 95 58 96 38 97 86 98 5 99 63 9 9 6 9 8 93 98 9 95 6 Minimum 7 mm Maximum 76 mm Etendue 733 mm er quartile 9 mm Médiane 3ème quartile 5 mm Intervalle interquartile 6 mm Moyenne Variance 36 Ecarttype 79,6 mm La dispersion inter annuelle des précipitations de septembre au Mont Aigoual entre 896 à 95 nombre de mois de septembre 9 8 7 6 5 3 3 5 6 7 8 Total des précipitations en mm

Pluviosité du Année mois de septembre (en mm) 896 9 897 7 898 3 899 35 9 583 9 9 7 93 5 9 53 95 33 96 7 97 76 98 9 99 9 7 9 9 9 5 93 3 9 95 58 96 38 97 86 98 5 99 63 9 9 6 9 8 93 98 9. L étendue ou amplitude l'étendue ou amplitude d'une distribution est égale à la différence entre la plus grande et la plus petite valeur de la distribution : Etendue de = max min nombre de mois de septembre 9 8 7 6 5 3 3 5 6 7 8 Total des précipitations en mm médiane= 6 moyenne=

. La mesure de la dispersion statistique et les valeurs centrales 3,,3 6 Nombre d'habitants en 999 (en milliers) Moyenne Médiane Arrondissements Part des cadres dans la population active % nombre d'arrondissements 3 < 6 6 8 8 6 6 8 8 nombre d'arrondissements 5 3 < 3 3 3 5 3 5 5 5 5 5 5 5 Part des emplois de cadres dans la population active résidente Nombre d'habitants intervalle interquantile par rapport à la médiane variance et écarttype par rapport à la moyenne la mesure de l'étendue exceptée, chacun des paramètres de dispersion statistique caractérise le degré de dispersion des valeurs de la distribution statistique de part et d'autre d'une valeur centrale de référence

. Mesures de la dispersion autour de la médiane

Année Pluviosité du mois de septembr e (en mm) Nombre de mois de septembre 9 7 96 7 898 3 899 35 98 9 9 7 9 9 er quartile=9 mm 93 98 9 896 9 95 33 98 5 9 53 95 58 9 6 médiane=59 mm 897 7 9 8 97 86 9 99 9 9 5 3e quartile=5 mm 93 5 93 3 96 38 9 9 583 99 63 97 76 Intervalle interquartile 6 mm Quantiles. Quantiles : les quantiles sont les valeurs du caractère qui définissent les bornes d'une partition en classes d'effectifs égaux. Ces particuliers Les quartiles sont les trois valeurs qui permettent de découper la distribution en quatre classes d'effectifs égaux. On les note q, q et q3. Partition du caractère min q q q3 max fréquence des éléments: 5% 5% 5% 5% Remarque : q est égal à la médiane.

Quantiles Précipitations en mm (déciles) 33 er décile 65,5 e décile 5 3e décile,5 e décile 59 5e décile 8 6e décile 6 7e décile 77 8e décile 5,5 9e décile. DécilesLes déciles sont les neufs valeurs de qui permettent de découper la distribution en dix classes d'effectifs égaux. n les note d... d9. Etc..

Intervalle interquantile L'intervalle interquartile est l'étendue de la distribution sur laquelle se trouvent concentrée la moitié des éléments dont les valeurs de sont les plus proches de la médiane. On exclut alors de la distribution les 5% des valeurs les plus faibles et les 5 % des valeurs les plus fortes de. Cet intervalle se note:( q3 q ). L'intervalle interdécile est l'étendue de la distribution sur laquelle se trouvent concentrés 8% des éléments dont les valeurs de sont les moins différentes de la médiane. On exclut alors de la distribution les % des valeurs les plus faibles et les % des valeurs les plus fortes. Il se note ( d9 d ). Le rapport interquantile : Q3 / Q; ou interdéciles : D / D9

Revenus fiscaux déclarées au titre de l'année revenu er décile 9e décile médian rapport interdécile Paris 7 86 596,5 Hauts de Seine 95 638 576 7, SeineSaintDenis 355 3658 77 7,6 Val de Marne 78 58 369 6, Ile de France 798 558 389 7, Province 3 56 7637 5, Application du rapport inter déciles aux revenus des ménages en Ilede France source DGI: revenus fiscaux localisés rapport interdécile 9 8 7 6 SeineSaint Denis Ile de France Val de Marne Paris Hauts de Seine La position de chaque point est définie en fonction de la valaur prise par le revenu médian (abscisse) et par le rapport inter déciles (ordonnée). 5 Province 6 8 revenu médian

. Mesures de la dispersion autour de la moyenne

. Variance, écarttype et moyenne σ = ( ) i σ N n i= n = N i i= ( ) La variance de, notée σ² x est une mesure globale de la variation d'un caractère de part et d'autre de la moyenne arithmétique (quantité d'information). Elle exprime la dispersion dans une unité de l ordre du carré de l unité de mesure du caractère. Pour obtenir un paramètre de dispersion absolue, on calcule la racine carrée de la variance L'écart type, noté σ x est la racine carré de la moyenne des carrés des écarts à la moyenne, c'est à dire la racine carrée de la variance.

Exemple de calcul de la variance et de l écarttype nombre d'élèves Elèves Notes du Professeur / écarts algébrique s à la moyenne carré des écarts algébriques Notes du Professeur Y / écarts algébrique s à la moyenne carré des écarts algébriques nombre d'élèves Notes du professeur 3 D E A B C F G H I J 3 5 6 7 8 9 3 6 7 8 9 ( ) ( i ) ( ) i ( i i ) A 7 3 9 B 8 5 5 5 C 9 9 D E F G H 5 5 5 I 3 3 9 moyenne somme 8 5 écarttype,8,8 5,3 5,3 Notes du professeur Y 3 D E A B C F G H I 3 5 6 7 8 9 3 6 7 8 9

Valeurs centrales et paramètres de dispersion pour quelques indicateurs décrivant les arrondissements de Paris Paramères de la distribution revenu moyen communal par unité de consommation en milliers d'euros Part chômeurs dans la population active % Part des cadres dans la population active % Part des ouvriers dans la population active % Part des étrangers dans la population % Nombre d'habitants en milliers en 999 Nbr. de valeurs utilisées Minimum 87 8 5 7 Maximum 56 7 53 8 5 Etendue 365 9 8 7 8 er quartile 5 9 35 5 Médiane 33 3 7 7 3ème quartile 5398 5 67 Intervalle interquartile 56 6 8 5 intervalle interquartile relatif,5,,5,78,8, Moyenne 77 8 8 6 Variance 9869 7 63 37 Ecarttype 9737 3 8 3 5 66 Ecart absolu moyen 7687 7 3 6 CV (écarttype/moyenne),,,,,9,6

Caractéristiques de la distribution normale Caractéristiques de la courbe Normale :. La variable x varie de à +. La fonction est toujours > 3. L aire sous la courbe vaut. Elle est symétrique 5. Elle atteint son maximum au point (moyenne arithmétique) 6. Elle a une forme en «cloche» : plus on s écarte à gauche et à droite de la moyenne arithmétique, plus la hauteur de la courbe diminue avec l axe des abscisses comme asymptote.

La signification probabiliste de l écarttype Distribution normale 68,3% 95,5% 99,7% L écarttype a l'avantage d'avoir une signification probabiliste. La théorie des probabilités permet en effet d'estimer la chance qu'a une valeur d'être éloignée de la moyenne de plus d'un certain nombre d'écarttypes. Lorsqu'une distribution est gaussienne (on dit aussi "normale") les probabilités de trouver les valeurs a une distance donnée de la moyenne sont les suivantes : 68,3% des valeurs sont entre σ et +σ 95,5% des valeurs sont entre et + σ 99,7 % des valeurs sont entre et + 3σ σ 3σ

. Les mesures de la dispersion relative IIQR = IIQ méd. Eliminer l effet de l unité de mesure du caractère pour pouvoir comparer les degrés de dispersion de deux caractères Deux mesures usuelles de la dispersion relative à partir de: Q3 Q l intervalle interquantile: l intervalle interquantile relatif (IIQR) D9 D On peut aussi utiliser le rapport interquantile, par exemple: CV = σ l écarttype: le coefficient de variation (CV)

La dispersion statistique des revenus des ménages à Paris et dans les départements de la petite couronne REVENUS FISCAU DES MENAGES: MEDIANES ET DECILES Par is 6 5 Paris Pr ovince 3 Hauts de Sei ne rapport interdécile 9 8 7 6 SeineSaint Denis Ile de France Val de Marne Hauts de Seine Il e de Fr ance Sei nesai ntdeni s 5 Province Val de Mar ne er décile revenu médian 9e décile 6 8 revenu médian Revenus fiscaux (en euros) déclarées au titre de l'année Zones géographiques revenu médian er décile 9e décile rapport interdécile Paris 7 86 596,5 Hauts de Seine 95 638 576 7, SeineSaintDenis 355 3658 77 7,6 Val de Marne 78 58 369 6, Ile de France 798 558 389 7, Province 3 56 7637 5,

Evolution des salaires annuels des hommes et des femmes en IledeFrance: moyennes, médianes et déciles

Mesures absolues et relatives de la dispersion statistique Arrondissements Part des ouvriers dans la population active % Part des cadres dans la population active % Minimum 3,9,7 Maximum,3 53, Etendue 8 8,3 er quartile 5,5 3,5 Médiane 7, 3, 3ème quartile, 5, intervalle interquartile 5,6 intervalle interquartile relatif,78,5 Moyenne 8,,3 Ecarttype 3, 7,9 CV (écarttype/moyenne),, Pour comparer les degré de dispersion de deux distributions on a recours aux mesures de dispersion relative, et non pas les mesures de dispersion absolue. Dans l exemple cicontre la comparaison directe des écarttypes (ou des intervalles interquartiles) pourrait, à tort, laisser croire, qu en moyenne, les disparités introduites entre les arrondissements par le caractère «Part des cadres dans la population active» sont supérieures à celles liées au caractère «Part des ouvriers dans la population active». Il n en est rien. Comme l indique la comparaison des coefficients de variation les arrondissements parisiens sont, en moyenne, beaucoup plus différents les uns des autres du fait de la part des ouvriers (cv=,) que de la part des cadres(cv= contre,).

3. Distribution statistique et répartition géographique

Montant moyen de l impôt et nombre de contribuables dans les aires urbaines: distribution statistique et distribution géographique montant de l'impôt par contribuable nombre de contribuables imposés Nbre d'aires urbaines 36 36 Minimum 969 656 er quartile 3386 83 Médiane 6 898 3ème quartile 5755 35 Int. interquartile 369 75 Int. interquartile relatif,6,95 Maximum 587 7558 Etendue 639 7 Moyenne 78 379 CV (écarttype/moyenne),5,89 Ecart type 93 995

Forme de la distribution, dispersion et distribution géographique (dépt des Yvelines) Densité de population part des prof. Paramètres des distributions Intermédiaire densité en s dans la 999(habitan population ts/km²) active résidente en 999 (%) Nbr. de valeurs utilisées 9 9 Minimum 9 7 er quartile 99 5 Médiane 33 7 3ème quartile 89 3 Maximum 679 39 Etendue 67 3 Moyenne 93 8 CV (écarttype/moyenne),5,5 Ecarttype d'échantillon 355 Ecart absolu moyen 993 3 Histogramme Résidents ayant un emploi de profession intermédiaire pour emplois Hist o g ramme,,8,6,,, 9 369 79 9 5389 679,,35,3,5,,5,,5, 6 8 3 36

Montant moyen de l impôt et nombre de contribuables dans les aires urbaines: distribution statistique et distribution géographique: synthèse Caractéristiques des distributions géographiques montant de l'impôt par contribuable nombre de contribuables imposés Disparités entre les aires urbaines Très faibles: les aires urbaines ont, en moyenne, tendance à se ressembler. Les valeurs des mesures de dispersion relative voisines de. Très fortes: les aires urbaines sont en moyenne très dissemblables les unes des autres. Les mesures de dispersion relative très éloignées de Forme de la distribution symét rique: méd.=moy. Les aires urbaines les plus nombreuses se concentrent autour de la moyenne très dissymétrique: méd.< moy. Les aires urbaines les plus nombreuses se concentrent autour des valeurs les plus faibles

Dispersion statistique et répartition géographique

Dispersion statistique et répartition géographique intensité de la Distribution dispersion statistique statistique de Distribution géographique de concentration avec un ordre géographique forte grandes différences des valeurs de hétérogénéité des unités spatiales dispersion sans ordre géographique de la répartition faible grandes ressemblances des valeurs de homogénéité des unités spatiales

Les densités de population à Paris de 86 à 999 La répartition en 86 Forte dispersion statistique des valeurs= forte hétérogénéité spatiale Dans ce cas, l hétérogénéité est assortie d un ordre spatial fort : les fortes densités concernent les quartiers des arrondissements centraux; les plus faibles concernent les quartiers les plus périphériques des arrondissements périphériques. La répartition en 999 La dispersion statistique est plus faible mais un ordre spatial demeure. Les fortes valeurs sont le fait des quartiers nord et est.

Dispersion statistique et répartition géographique dans l exemple des arrondissements parisiens