STATISTIQUES Faire des statistiques, c est recueillir, organiser, synthétiser, représenter et exploiter des données numériques ou non, dans un but de comparaison, de prévision, de constat... Les plus gros «consommateurs» de statistiques sont les assureurs (risques d accidents, de maladie des assurés), les médecins (épidémiologie), les démographes (pour l étude des populations et de leur dynamique), les sociologues (étude des phénomènes sociaux humains), les économistes (emploi, conjoncture économique), les météorologues... 1. Définitions, vocabulaire et notations Définition 1 : i. On appelle population un ensemble de personnes ou d objets étudiés. Un individu est un élément de la population. ii. La particularité de la population étudiée en statistique est appelée caractère ou variable. iii. Le caractère étudié peut être : - quantitatif discret quand il prend un nombre fini de valeurs numériques ; - quantitatif continu quand il prend une infinité de valeurs numériques. Les valeurs sont alors regroupées dans des intervalles appelés classes ; - qualitatif quand il ne prend pas que des valeurs numériques. Exemple : Etude Population Caractère Valeurs prises par le caractère Type de caractère Couleur des yeux des habitants du Turkménistan Tous les Turkmènes La couleur des yeux Bleu, vert, marron, etc. Qualitatif Répartition des salaires chez Orange Les salariés d Orange Le salaire Tous les nombres possibles! Quantitatif continu Notes de math au Bac S Les candidats du Bac S La note obtenue en math 0 à 20 en points entiers Quantitatif discret (21 valeurs) Définition 2 : i. On appelle effectif d une valeur (ou classe) du caractère le nombre de fois où cette valeur apparaît dans la série. ii. A chaque valeur (ou classe), on associe une fréquence : c est la proportion d individus associés à cette valeur. La fréquence est un nombre compris entre 0 et 1 que l on peut aussi exprimer en pourcentage. iii. Si N est l effectif total et n l effectif associé à une valeur alors la fréquence de celle-ci est égale à f = n N (ou f = n N 100 si l on exprime la fréquence en pourcentage). 2 nde - Statistiques 1/7 H. Kerneïs
Propriété 1 : La somme de toutes les fréquences est égale à 1. (ou 100 si l on travaille en pourcentages.) Exemple : Après le recensement du nombre d enfants dans chacun des foyers d un village, on a : Nombre d enfants x i 0 1 2 3 4 5 6 7 Effectif n i 290 170 155 95 43 27 20 10 La fréquence de «2 enfants» est : 155 0,19 et la fréquence en pourcentage de «aucun enfant» est : 810 290 100 35,8 %. 810 Définition 3 : La fréquence cumulée croissante (resp. décroissante) d une valeur est égale à la somme des fréquences des valeurs qui lui sont inférieures (resp. supérieures) ou égales. Remarque : On a de la même manière la définition des effectifs cumulés croissants et décroissants. Exemple : Répartition des différentes tailles des élèves d une classe de Seconde. On déterminera les effectifs cumulés croissants et les fréquences cumulées croissantes. On donnera en pourcentage la proportion des élèves qui mesurent moins de 1,65 m. Taille Effectif ECC 135;145 145;155 155;165 165;175 175;185 3 5 6 4 3 3 3 + 5 = 8 8 + 6 = 14 14 + 4 = 18 18 + 3 = 21 FCC 3 21 = 1 7 8 21 14 21 = 2 3 18 21 = 6 7 21 21 = 1 La proportion des élèves qui mesurent moins de 1,65 m est de 2 100 66,7 % à 0,1 près. 3 2. Représentations graphiques d une série statistique Il existe différentes représentations graphiques en fonction du type de caractère étudié. Pour un caractère qualitatif, on peut représenter la série par un diagramme circulaire ou semi-circulaire («camemberts») : la mesure de chaque secteur angulaire est proportionnelle à l effectif (ou à la fréquence) associé. Par exemple, voici un diagramme circulaire représentant la répartition des adhérents à un club sportif : 2 nde - Statistiques 2/7 H. Kerneïs
Tennis 25 % Football 58 % Handball 17 % Pour un caractère quantitatif discret, on peut utiliser un diagramme en bâtons ou un nuage de points : la hauteur de chaque bâton (ou l ordonnée de chaque point du nuage) est alors proportionnelle à l effectif (ou la fréquence) associé à chaque valeur. Par exemple, voici le diagramme en bâtons représentant la série des notes obtenues par une classe à un DST : 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Pour un caractère quantitatif continu, et lorsque les valeurs sont regroupées en classes, on peut utiliser un histogramme. L aire de chaque rectangle est alors proportionnelle à l effectif (ou à la fréquence) associée à chaque classe. Lorsque les classes ont la même amplitude, c est la hauteur qui est proportionnelle à l effectif. Par exemple, voici un histogramme représentant la répartition des salaires dans une entreprise : 35 30 25 = 5 salariés 20 15 10 5 0 800 1000 1200 1400 1600 1800 2000 2200 2500 2 nde - Statistiques 3/7 H. Kerneïs
On complétera le tableau suivant : Salaires 900;1200 1200;1400 1400;1600 1600;1800 1800;1900 1900; 2100 2100; 2400 Effectif Fréquence (%) 30 30 60 40 10 10 15... La représentation graphique des fréquences cumulées croissantes s appelle le polygone des fréquences cumulées croissantes (idem pour les effectifs cumulés croissants ou décroissants et les fréquences cumulées décroissantes). Par exemple, une enquête sur le temps de travail personnel quotidien des élèves en classe de Seconde a donné les résultats suivants : Temps de travail (en heures) Effectif Fréquence Fréquences cumulées croissantes 0;1 40 0,16 0,16 1; 2 95 0,38 0,54 2;3 86 0,344 0,884 3; 4 24 0,096 0,98 4;5 5 0,02 1 On en déduit le polygone des fréquences cumulées croissantes : 1 Fréquences cumulées croissantes 0,75 0,5 0,25 0 0 1 2 3 4 5 Temps de travail en heures 2 nde - Statistiques 4/7 H. Kerneïs
3. Paramètres d une série statistiques Aussi appelés indicateurs, ils permettent de résumer les très nombreuses données d une série statistique. On distingue les paramètres de position et ceux de dispersion. 3.1. Paramètres de position Le plus courant est celui de la moyenne. Par exemple, on se compare aux autres élèves d une classe à l aide de la moyenne... Notation : La valeur du caractère étudié se note x i. L effectif correspondant à cette valeur se note n i. L effectif total se note N. Et l on a : n i = n 1 + n 2 +... + n p = N. p i =1 Attention : Lorsque les caractères sont définis sous forme d intervalles (ie sous forme de classes), les calculs sont réalisés avec le centre des intervalles. Définition 4 : La moyenne d une série statistique se note x et vaut x = n 1 x 1 + n 2 x 2 +... + n p x p N On l appelle moyenne pondérée. p = 1 N n x. i i i =1 Théorème 1 : p Si on note f i la fréquence de la valeur x i alors x = f 1 x 1 + f 2 x 2 +... + f p x p = f i x i. i =1 Pour comparer deux séries statistiques ayant la même moyenne, on utilise souvent la médiane qui permet de partager la série en deux parties (presque) égales. Définition 5 : La médiane d une série statistique est le nombre, noté Me, tel que : - 50 % au moins des individus ont une valeur du caractère inférieure ou égale à Me ; - 50 % au moins des individus ont une valeur du caractère supérieure ou égale à Me. On a parfois besoin d affiner un peu plus ce paramètre de position, on utilise alors les quartiles. Définition 6 : Les quartiles sont les trois valeurs du caractère qui partagent les valeurs ordonnées du caractère en quatre sous-ensembles de même effectif. Le premier quartile, noté Q 1, est la plus petite valeur de la série statistique telle qu au moins 25 % des valeurs de celle-ci lui sont inférieures ou égales ; le deuxième est la médiane M et le troisième, noté Q 3, est la plus petite valeur de la série statistique telle qu au moins 75 % des valeurs de celle-ci lui sont inférieures ou égales. On peut représenter cette disposition de la manière suivante : Min Q 1 N Q 3 Max environ 25 % des données environ 50 % des données environ 25 % des données 2 nde - Statistiques 5/7 H. Kerneïs
Exemples pratiques : i. Dans le cas d une série discrète, si N 4 est un entier, le premier quartile Q 1 est la valeur qui dans cette liste occupe le rang N 4 et le troisième quartile Q 3 est la valeur qui dans cette liste occupe le rang 3N 4. Si N 4 n est pas un entier, le premier quartile Q 1 est la valeur qui dans cette liste occupe le rang immédiatement supérieur à N 4 et le troisième quartile Q 3 est la valeur qui dans cette liste occupe le rang immédiatement supérieur à 3N 4. Par exemple : Le tableau suivant donne la répartition des notes de 31 élèves. Notes 5 8 9 10 11 12 14 16 18 Effectif 1 2 6 7 5 4 3 2 1 ECC 1 3 9 16 21 25 28 30 31 N = 31 ; N 4 = 7,75 donc Q 1 = 9 ; N 2 = 15,5 donc Me = 10 et 3N 4 = 23,25 donc Q 3 = 12. La médiane est 10 et la moyenne vaut x = 1 5 + 2 8 +... + 1 18 31 = 340 31 11. ii. Dans le cas d une série continue (valeurs regroupées par classe), le premier quartile Q 1 est la valeur correspondant à la fréquence cumulée croissante égale à 0,25. De la même manière, Q 3 correspond à la fréquence cumulée croissante égale à 0,75. Par exemple : Une enquête est effectuée pour étudier le temps (en minutes) consacré au sport, chaque semaine, par les 1312 employés d une usine. Les résultats, regroupés en classes, sont indiqués dans le tableau suivant : Temps (min) Effectifs Fréquence (%) FCC (%) [0 ; 30[ 175 13 13 [30 ; 60[ 392 30 43 [60 ; 90[ 267 21 64 [90 ; 120[ 127 9 73 [120 ; 150[ 168 13 86 [150 ; 180[ 120 9 95 [180 ; 240[ 63 5 100 On place, dans le repère orthogonal d échelle 1 cm pour 30 minutes en abscisses et 1 cm pour 10 % en ordonnées, les points de coordonnées (0 ; 0), (30 ; 13),, (240, 100), puis on les relie. On trace les droites d équations y = 50 pour trouver Me 70, y = 25 pour trouver Q 1 40 et y = 75 pour trouver Q 3 120. 2 nde - Statistiques 6/7 H. Kerneïs
3.2. Paramètres de dispersion Ces paramètres permettent de mesurer l étalement (ie la dispersion) de la série statistique autour de sa tendance centrale. Définition 7 : L intervalle [Q 1 ; Q 3 ] est appelé intervalle interquartile. Définition 8 : Le réel Q 3 Q 1 est appelé écart interquartile. Définition 9 : On appelle étendue la différence entre les deux valeurs extrêmes prises par le caractère étudié. Remarques : i. L écart interquartile mesure la dispersion des valeurs autour de la médiane ; plus l écart est petit, plus les valeurs de la série appartenant à l intervalle interquartile sont concentrées autour de la médiane. ii. Contrairement à l étendue qui mesure l écart entre la plus grande et la plus petite valeur, l écart interquartile élimine les valeurs extrêmes qui peuvent être douteuses, cependant il ne tient compte que de 50 % de l effectif. iii. On peut correctement résumer une série statistique par le couple (médiane ; intervalle interquartile) car il est peu sensible aux variations des valeurs extrêmes de la série, contrairement au couple (moyenne ; écart type) vu plus tard Exemple : Suite du i. précédent L intervalle interquartile est [9 ; 12] ; l écart interquartile est 12 9 = 3. 3.3. Résumé Définition 10 : Le diagramme en boîtes (ou à pattes ou boîte à moustaches ou diagramme de Tukey) permet de visualiser l étendue, la médiane et les quartiles d une série statistique. Méthode : Pour l obtenir, on trace un axe horizontal (ou vertical) sur lequel on place les valeurs de Q 1, Me et Q 3. L un des côtés du rectangle a pour longueur l écart interquartile, l autre est quelconque. On complète ce diagramme en traçant deux traits horizontaux (ou verticaux) : l un joignant Q 1 au minimum de la série et l autre joignant Q 3 au maximum de la série. Exemple : Suite de l exemple i. de paragraphe 3.1. Min Q 1 M Q 3 Max 5 9 10 12 18 2 nde - Statistiques 7/7 H. Kerneïs