Chapitre 1. Introduction à la statistique descriptive nicolas.chenavier@lmpa.univ-littoral.fr
Exemple introductif On considère un nombre n d individus (en pratique, n est grand) faisant intervenir diverses données et diverses variables. Individus Sexe Tranche d âge Profession Salaire mensuel 1 masculin [25, 30[ profession intermédiaire 3100 2 masculin [25, 30[ ouvrier 1800 3 féminin [35, 40[ cadre 4500 4 féminin [20, 25[ profession intermédiaire 2500 5 masculin [20, 25[ ouvrier 1650 6 masculin [55, 60[ cadre 7800 7 féminin [20, 25[ ouvrier 1500 8 masculin [40, 45[ ouvrier 2400 Table: salaire des personnels d une entreprise (fictive) en euros. Ici : le nombre est n = 8 : nombre d individus dans une entreprise ; les variables sont : le sexe, la tranche d âge, la profession et le salaire. 2 / 24
Problème considéré Deux questions se posent : quelles sont les sources de variabilité? comment peut-on décrire et étudier les données? Les deux questions ci-dessus sont reliées aux deux domaines suivants : 1 domaine spécifique au modèle considéré : en économie, les différences des salaires peuvent s expliquer par le sexe, l âge et la profession ; en biologie, le rythme cardiaque d une personne peut dépendre de son poids, de son âge, du fait qu elle soit sportive ou non ; 2 statistique descriptive. Ici, il s agit de décrire et représenter les données à partir de : graphiques, tableaux ; indicateurs (résumés numériques). 3 / 24
Sommaire 1 Terminologie statistique Population et individus Variables statistiques Modalités 2 Présentation des données Tableaux Représentations graphiques 4 / 24
Population et individus Population et individus Définition La population est l ensemble concerné par une étude statistique. Un individu est un élément de la population. Le nombre d individus s appelle la taille de la population. Un sous-ensemble de la population s appelle un échantillon. Mois Nombre de naissances en France Janvier 66911 Février 66250 Mars 61219 Avril 64405 Mai 65943 Juin 68582 Juillet 65352 Août 70282 Septembre 67926 Octobre 67820 Novembre 67489 Décembre 63865 Table: Nombre de naissances en France 5 / 24
Variables statistiques Définition d une variable statistique Définition On appelle variable statistique une caractérisation observée chez tous les individus de la population. Dans l exemple précédent, la variable statistique est le nombre de naissances en France par mois. Si l on s intéresse à l ensemble des personnes issues d une population, on peut prendre, par exemple, comme variable statistique le sexe, l âge, le nombre d enfants d une personne, le fait qu elle soit fumeuse ou non, ou encore sportive ou non. 6 / 24
Variables statistiques Types de variables statistiques On distingue deux types de variables statistiques : 1 les variables qualitatives, liées à des observations ne faisant pas l objet d une mesure (par ex : sexe, fumeur, sportif) ; 2 les variables quantitatives, liées à des observations faisant l objet d une mesure. On distingue deux sous-types : les variables quantitatives discrètes, lorsque les observations sont isolées (par ex : nombre d enfants, nombre de salariés d une entreprise) ; les variables quantitatives continues, lorsque les observations peuvent prendre toute valeur d un intervalle réel (par ex : longueur d une pièce de fabrication, poids, âge). 7 / 24
Modalités Modalités Définition 1 On appelle modalités d une variable statistique l ensemble des différents états (dans le cas qualitatif) ou des différentes valeurs (dans le cas quantitatif) que prend la variable. 2 On appelle effectif d une modalité c i, le nombre d individus n i présentant la modalité c i. 3 On appelle fréquence f i d une modalité c i, la proportion d individus présentant la modalité c i. En d autres termes, en désignant par n la taille de la population, on a : Remarque f i = n i n. L ensemble des modalités et de leurs effectifs issus d une observation : (c 1, n 1 ),..., (c k, n k ) s appelle une série statistique. 8 / 24
Modalités Exemples de modalités Reprenons l exemple introductif : Individus Sexe Tranche d âge Profession Salaire mensuel 1 masculin [25, 30[ profession intermédiaire 3100 2 masculin [25, 30[ ouvrier 1800 3 féminin [35, 40[ profession intermédiaire 4500 4 féminin [20, 25[ profession intermédiaire 2500 5 masculin [20, 25[ ouvrier 1650 6 masculin [55, 60[ cadre 7800 7 féminin [20, 25[ ouvrier 1500 8 masculin [40, 45[ ouvrier 2400 Table: salaire des personnels d une entreprise (fictive) en euros. Ici, les modalités sont : pour le sexe : féminin,masculin ; pour l âge : des valeurs comprises entre 20 et 60 ; pour la profession : cadre, ouvrier, profession intermédiaire ; pour les salaires : l ensemble de tous les salaires possibles. 9 / 24
Modalités Exemples d effectifs et de fréquences Reprenons, à nouveau, l exemple introductif : l effectif des femmes est de 3 (et la fréquence : 3/8) ; l effectif des personnes ayant un âge entre 25 et 30 ans est : 2 (et la fréquence : 2/8) ; l effectif des ouvriers est : 4 (et la fréquence : 4/8) ; l effectif des personnes ayant un salaire de 3100 euros est : 1 (et la fréquence : 1/8). 10 / 24
1 Terminologie statistique 2 Présentation des données Tableaux Représentations graphiques 11 / 24
Tableaux Tableau des effectifs et fréquences pour une variable qualitative ou quantitative discrète En pratique, on présente rarement l ensemble des résultats d une variable sous la forme d un tableau : "numéro de l individu, modalités" (comme on l a fait dans l exemple précédent). La raison est que : le nombre d individus n est grand (par ex : il n est pas envisageable de collecter, en un seul tableau, toutes les données de toute la population d un pays pour chaque individu) ; un tableau présenté sous cette forme est peu exploitable (il est difficile de dégager une information). On préfère en extraire des données groupées de la façon suivante : Modalités Effectifs Fréquences c i n i f i = n i n Table: Tableau des effectifs et fréquences 12 / 24
Tableaux Exemple de tableau des effectifs On continue avec l exemple introductif. Profession Effectifs Fréquences ouvrier 4 50% profession intermédiaire 3 37.5% cadre 1 12.5% Table: Tableau des effectifs et fréquences de la profession des individus Remarque Pour toute série statistique, 1 la somme des effectifs est égale à la taille de la population, c est-à-dire : n 1 + + n k = n ; 2 la somme des fréquences est égale à 100%, c est-à-dire : f 1 + + f k = 100%. 13 / 24
Tableaux Tableau des effectifs et fréquences cumulés pour une variable quantitative discrète Etant donnée une variable quantitative discrète, on ordonne par ordre croissant les modalités : c 1 < c 2 < c k. On définit alors : les effectifs cumulés croissants (E.C.C) : N i = n 1 + + n i (nombre d individus dont la modalité est inférieure ou égale à c i ) ; les fréquences cumulées croissantes (F.C.C) : F i = f 1 + + f i (proportion d individus dont la modalité est inférieure ou égale à c i ) ; les effectifs cumulés décroissants (E.C.D) : N i = n i + + n k (nombre d individus dont la modalité est supérieure ou égale à c i ) ; les fréquences cumulées décroissantes (F.C.D) : F i = f i + + f k (proportion d individus dont la modalité est supérieure ou égale à c i ). On présente alors les données de la façon suivante : Modalités Effectifs E.C.C E.C.D Fréquences F.C.C F.C.D c i n i N i N i f i = n i n F i = N i n F i = N i n Table: Tableau des effectifs et fréquences cumulés 14 / 24
Tableaux Exemple de tableau des effectifs et fréquences cumulés Age Effectifs E.C.C E.C.D Fréquences F.C.C F.C.D 18 10 10 167 6% 6% 100% 19 38 48 157 22.8% 28.7% 94.0% 20 70 118 119 41.9% 70.7% 71.3% 21 28 146 49 16.8% 87.4% 29.3% 22 11 157 21 6.6% 94% 12.6% 23 7 164 10 4.2% 98.2% 5.9% 24 2 166 3 1.2% 99.4% 1.8% 25 1 167 1 0.6% 100% 0.6% Table: Tableau des effectifs et fréquences cumulés de l âge des étudiants en pour un groupe en 2ème année Remarque Pour toute série statistique, et pour chaque ligne du tableau, la somme des fréquences cumulées croissantes et décroissantes est supérieure ou égale à 100%. 15 / 24
Tableaux Regroupement en classes pour une variable quantitative continue Pour les variables quantitatives continues (et quantitatives discrètes avec beaucoup de valeurs), on procède comme suit : 1 D abord, on fait un regroupement des données en partitionnant l intervalle des valeurs I en des intervalles I i = [e i 1, e i [, appelés classes. On définit alors : C i = 1 (ei 1 + ei) : le centre de la classe Ii ; 2 a i = e i e i 1 : l amplitude de la classe I i. n i : l effectif de la classe I i ; f i = n i : la fréquence de la classe Ii ; n d i = f i a i : la densité de fréquence de la classe I i ; l effectif et la fréquence cumulés de la classe I i. 2 Ensuite, on présente les données comme pour les variables quantitatives discrètes en remplaçant les modalités par des classes. 16 / 24
Tableaux Exemple de tableau des effectifs et fréquences cumulés Classes Effectifs E.C.C E.C.D Fréquences F.C.C F.C.D [44, 54[ 2 2 164 1.2% 1.2% 100% [54, 59[ 5 7 162 3.0% 4.3% 98.8% [59, 64[ 7 14 157 4.3% 8.5% 95.7% [64, 69[ 9 23 150 5.5% 14.0% 91.5% [69, 74[ 17 40 141 10.4% 24.4% 86.0% [74, 79[ 25 65 124 15.2% 39.7% 75.6% [79, 84[ 29 94 99 17.7% 57.3% 60.4% [84, 89[ 19 113 70 11.6% 69.0% 42.7% [89, 94[ 10 123 51 6.1% 75.0% 31.1% [94, 99[ 18 141 41 11.0% 86.0% 25.0% [99, 104[ 9 150 23 5.5% 91.5% 14.0% [104, 109[ 10 160 14 6.1% 97.6% 8.5% [109, 124[ 4 164 4 2.4% 100% 2.4% Table: Tableau des effectifs et fréquences cumulés de la fréquence cardiaque 17 / 24
Représentations graphiques Graphiques associés à une variable qualitative Rappel : les données d une variable qualitative peuvent être synthétisées sous la forme d un tableau : Modalités Effectifs Fréquences c i n i f i = n i n Table: Tableau des effectifs et fréquences De telles données peuvent être représentées graphiquement de deux façons : 1 un diagramme circulaire (ou par secteur), valable pour un petit nombre de valeurs, représentant des angles proportionnels à ces valeurs ; 2 un diagramme à bandes (ou en bâtons), comportant en abscisse les observations de la variable considérée et en ordonnée les effectifs (ou fréquences). 18 / 24
Représentations graphiques Exemple de diagramme à bandes pour une variable qualitative Figure: Diagramme circulaire des effectifs des personnes de l entreprise en fonction de leurs professions (exemple introductif), réalisé avec Numbers 19 / 24
Représentations graphiques Graphiques associés à une variable quantitative discrète Rappel : les données d une variable quantitative discrète peuvent être synthétisées sous la forme d un tableau : Modalités Effectifs E.C.C E.C.D Fréquences F.C.C F.C.D c i n i N i N i f i = n i n F i = N i n F i = N i n Table: Tableau des effectifs et fréquences cumulés De telles données peuvent être représentées graphiquement de deux façons : 1 un diagramme à bandes (ou en bâtons), dans le même esprit que pour les variables qualitatives ; 2 un diagramme cumulatif (ou fonction de répartition empirique), représentant en abscisse les observations de la variable considérée et en ordonnée les effectifs (ou fréquences) cumulé(e)s. 20 / 24
Représentations graphiques Exemple de diagramme à bandes pour une variable quantitative discrète Figure: Diagramme à bandes des effectifs des étudiants en fonction de leurs âges, réalisé avec Numbers Remarque 1 Les largeurs des bandes sont identiques. 2 Les bandes doivent être espacées. 21 / 24
Représentations graphiques Graphiques associés à une variable quantitative continue Rappel : les données d une variable quantitative discrète peuvent être synthétisées sous la forme d un tableau : Classes Effectifs E.C.C E.C.D Fréquences F.C.C F.C.D c i n i N i N i f i = n i n F i = N i n F i = N i n Table: Tableau des effectifs et fréquences cumulés De telles données peuvent être représentées graphiquement de deux façons : 1 un histogramme ; 2 un diagramme cumulatif (ou fonction de répartition empirique), représentant en abscisse les observations de la variable considérée et en ordonnée les effectifs (ou fréquences) cumulé(e)s. En particulier, pour toute classe c i = [e i 1, e i ], on associe en la borne supérieure e i la fréquence cumulée croissante F i. 22 / 24
Représentations graphiques Exemple d histogramme pour une variable quantitative continue Figure: Histogramme des fréquences de la fréquence cardiaque, réalisé avec Scilab Remarque 1 La largeur d une bande est proportionnelle à l amplitude de la classe. 2 Si l on prend, en ordonnées, la densité de fréquence, alors : l aire de chaque bande est égale à la fréquence de la classe ; l aire totale de l histogramme est égale à 1. 23 / 24
L essentiel Reconnaître la nature d une variable statistique. Calculer les effectifs et fréquences (et, dans le cas quantitatif, effectifs et fréquences cumulés) d une variable statistique. Présenter les données d une variable statistique sous la forme d un tableau et d un graphique. 24 / 24