Cours 5 Les mesures de dispersion
Retour sur cours 4 Les mesures de dispersion Étendue Variance et écart-type Coefficient de variation Mesures de dispersion La fonction «compute» ou «calculer» 2
Tableaux et graphiques Mesures de tendance centrale Mesures de position Mesures de dispersion Utilité Les tableaux présentent l information relative aux données individuelles. Les graphiques donnent un profil général de la distribution. Permettent de résumer en un seul nombre, la valeur la plus représentative d une série statistique. Renseignent sur la position d une donnée par rapport aux autres données d une distribution ordonnée. Mesurent le niveau de variation ou de dispersion des variables. Types Tableau de fréquences Diagrammes à rectangles, circulaire, à bâtons Histogramme Polygone de fréquence Moyenne Mode et classe modale Médiane Quartiles Quintiles Déciles Centiles Étendue Variance et Écart-type Coefficient de variation Outils et mesures permettant de faire l analyse descriptive détaillée des données et des distributions. 3
Les mesures de tendance centrale ne peuvent pas décrire pleinement une distribution de scores. Les mesures de dispersion sont des indices qui caractérisent l'étalement des valeurs d'une distribution d'une variable autour d'une valeur centrale. Les indices de dispersion permettent de savoir si les scores individuels se rapprochent ou s éloignent beaucoup des mesures de tendance centrale. 4 indices principalement utilisés : Étendue, variance, écart-type et coefficient de variation
Renseignent sur : L étalement des données Étendue La variabilité des données Variance et écart-type L homogénéité des données Coefficient de variation Ne s appliquent qu aux variables quantitatives 5
Étendue (E) Renseigne sur l étalement des données Différence entre la valeur observée la plus élevée et la valeur observée la moins élevée d une distribution de variables. Par exemple, sur un nombre de crimes commis E = Vmax Vmin Étendue = Max Min Étendue = 18 2 Étendue = 16 2 18 Nombre de crimes commis durant le dernier mois
Avantages Simplicité du calcul Désavantages Basée seulement sur les valeurs extrêmes Information sommaire 7
Renseignent sur la variabilité des données Variance Mesure la distance de chaque observation par rapport à la moyenne. σ 2 = S (xi - m) 2 N Où S = somme de... xi = observations m = moyenne N = nombre de cas 8
L écart-type Mesure la distance de chaque observation par rapport à la moyenne. Il s interprète mieux que la variance, car il donne les unités utilisées dans l'échelle originale et non dans leur forme au carré. C est tout simplement la racine carré de la variance! S ( - u) xi 2 N On utilise l écart-type corrigé en présence d un échantillon (n-1). 9
Règle empirique pour une distribution normale Environ 68% des observations se situent à ± 1σ de la moyenne. Environ 95% des observations se situent à ± 2 σ de la moyenne. Environ 99,7 % des observations se situent à ± 3 σ de la moyenne. 10
$ par transaction pour 1 gr. d héroïne Moyenne : 305/8= 40$ Médiane=40$ et mode = 40$ Étendue: 60$-20$ = 40$ 40$ 20$ 60$ 50$ 40$ 35$ 35$ 40$ Variance et écart-type 1. Moyenne = 40$ 2. Déviations : (40-40= 0); (20-40=-20); (60-40=20); (50-40=10); (40-40= 0); (35-40= -5); (40-40= 0) 3. Carré des déviations: 0; 400; 400; 100; 0; 25; 0; 25; 0 4. Somme des carrés des déviations= 950 5. Moyenne des carrés des déviations (variance): 950/8=118,75$ 6. Racine carrée de la variance (écart-type) =10,90$ 11
Interprétation de l écart-type 68% des transactions d héroïne se situent entre ± 10,90$ de la moyenne (40$) donc entre 29,10$ et 50,90$ 95% des transactions d héroïne se situent entre ± 21,80$ de la moyenne (40$) donc entre 18,20$ et 61,80$ 99,7% des transactions d héroïne se situent entre ± 32,70$ de la moyenne (40$) donc entre 7,30$ et 72,70$ 12
Avantages Mesures particulièrement représentatives de la réalité lorsque la distribution est normale Tiennent compte de toutes les valeurs de la distribution donc représentent bien sa dispersion Utiles pour comparer la dispersion d une variable d une même population à des temps différents ou de populations semblables. Désavantages Mesures affectées par les valeurs extrêmes Difficultés d interprétation liées au fait que la valeur de l écart-type varie selon les valeur de la variable. 13
L écart-type est toujours à 0 parce que les déviations sont au carré. L écart-type = 0 quand toutes les valeurs observées sont égales. Un grand écart-type ne signifie pas nécessairement une grande dispersion. 14
Renseigne sur l homogénéité des données Permet d évaluer l importance relative de la dispersion donc de comparer des distributions entre elles. Le CV divise l écart-type par la moyenne. CV= σ/µ ou CV= s/x 15
Transaction d héroïne ($/gr) Moyenne = 40$ Écart-type =10,90$ CV= 0,27 ou 27% Transaction de cocaïne ($/gr) Moyenne =121$ Écart-type = 64,21$ CV= 0,53 ou 53% Interprétation Plus le CV est grand, plus la dispersion des données est grande. Plus le CV est faible (près de 0), plus les données sont homogènes donc plus la moyenne est représentative. 16
Avantages C est une mesure neutre, donc on peut comparer l homogénéité de plusieurs distributions entre elles, même si leurs données ne sont pas exprimées avec les mêmes unités de mesure. Prend en considération toutes les données. Désavantage Ne s applique qu aux variables quantitatives. 17
La symétrie des distributions Normale La symétrie Mode = médiane = moyenne Symétrie des distributions Moyenne Médiane et Mode Asymétrique négative Médiane Moyenne Mode Asymétrique positive L asymétrie Négative: mode > médiane > moyenne Concentration de fortes valeurs Mode Médiane Moyenne Positive: mode < médiane < moyenne Concentration de faibles valeurs
Normale Mésokurtique: courbe normale (cloche) Kurtose des distributions Moyenne Médiane et Mode Leptokurtique Moyenne Médiane et Mode Platikurtique Moyenne Médiane et Mode Leptokurtique: courbe élancée haute concentration de cas qui prennent les valeurs égales ou proches de la moyenne peu de variation : distribution relativement homogène Platikurtique: courbe plate les cas s éloignent de la moyenne forte variation : distribution relativement hétérogène
Asymétrie (skewness) Coefficient d asymétrie utilisé pour vérifier si la distribution est normale On utilise le rapport entre le coefficient sur son erreur type (standard error) On rejet la normalité si le ratio est inférieur à -2 ou supérieur à +2 Distribution normale = skew=0 Applatissement (kurtosis) Coefficient d applatissement utilisé pour vérifier si la distribution est normale On utilise le rapport entre le coefficient sur son erreur type (standard error) On rejet la normalité si le ratio est inférieur à -2 ou supérieur à +2 Distribution normale = kurtosis =0
Pour obtenir les mesures de tendance centrale et de dispersion Analyse Statistiques descriptives - Effectifs Option Statistiques
Banque de données homicides Banque de données DUC Vols qualifiés 22
Banque de données homicides Banque de données DUC Vols qualifiés 23
Ratio: Exprime le poids relatif des effectifs d une catégorie sur le nombre total de données. On compte 1 trafiquant sur 8 détenus Taux : Rapport entre deux quantités (Nb d observation/nb total) Par exemple sur un nombre d habitants :1000, 10 000, 100 000 Taux d homicide à Mtl en 1996 71 homicides Population 1996 = 3 365 200 individus Taux : (71/ 3 365 200 )* 100 000 habitants = 2,11 homicides par 100 000 habitants en 1996 (Mtl) Comparativement à 2,07 homicides par 100 000 habitants (PQ) n=153 24