1 Quartiles Exemple : Quels sont les pays de l ex-europe des 15 ayant la population la plus jeune? Dans le tableau ci-dessous, on a rangé ces pays dans l ordre croissant du pourcentage P de jeunes de moins de 15 ans dans la population pour les classer en quatre quarts, délimités par les quartiles. Pays Pourcentage P des moins de 15 ans Part des pays dans l'intervalle [0;P] Italie 14,6% 1/15 soit 6,7% Espagne 15,3% 2/15 soit 13,3% Grèce 15,4% 3/15 soit 20,0% Allemagne 15,8% (Q1) 4/15 soit 26,7% Autriche 17,0% 5/15 soit 33,3% Portugal 17,0% 6/15 soit 40,0% Belgique 17,7% 7/15 soit 46,7% Danemark 18,2% (Med) 8/15 soit 53,3% Finlande 18,4% 9/15 soit 60,0% Hollande 18,5% 10/15 soit 66,7% Suède 18,7% 11/15 soit 73,3% Luxembourg 18,8% (Q3) 12/15 soit 80,0% France 19,0% 13/15 soit 86,7% Grande-Bretagne 19,2% 14/15 soit 93,3% Irlande 22,2% 15/15 soit 100,0% Dans la dernière colonne on a indiqué les fréquences cumulées croissantes en pourcentage. Le premier quartile, noté Q1, est la plus petite valeur de la variable telle que pour au moins 25% des individus, cette variable est inférieure ou égale à Q1. Ici Q1 = 15,8%. Le troisième quartile, noté Q3, est la plus petite valeur de la variable telle que pour au moins 75% des individus, cette variable est inférieure ou égale à Q3. Ici Q3 = 18,8%. La médiane, notée Med, est la valeur de la variable pour le ou les individus centraux (ici le Danemark). Ici Med = 18,2%. Si l on note Min et Max les valeurs extrêmes de la série, les cinq paramètres : Min, Q1, Med, Q3 et Max permettent de partager la série en quatre groupes d effectifs voisins. 1
2 Diagrammes utilisant les quartiles 2.1 Histogramme On utilise les quatre classes [Min ;Q1[, [Q1,Med[, [Med,Q3[ et [Q3, Max[ Dans un histogramme chaque rectangle représente une classe. Sa base est définie sur l axe des valeurs par les bornes de la classe, sa hauteur par le fait que l aire du rectangle est proportionnelle à l effectif de la classe. Calcul des hauteurs des autres rectangles : h 2 (18,2-15,8)=4 h 1,7 h 3 (18,8-18,2)=4 h 6,7 h 4 (22,2-18,8)=4 h 1,2 2.2 Diagramme en boîte (ou boîte à moustaches) On trace : un rectangle dont les côtés verticaux sont définis par Q1 et Q3 (la hauteur du rectangle est arbitraire). Un segment interne vertical qui marque la médiane de la série Deux segments horizontaux dont des extrémités sont définies par Min et Q1 pour l un, par Q3 et Max pour l autre. Ces 2 diagrammes (histogramme et boîte à moustaches) mettent en évidence des aspects différents de la série. Dans l histogramme, on lit surtout l effectif de chaque classe. Dans le diagramme à moustaches, on lit la répartition des valeurs. 2
3 Utilisation des quartiles et des diagrammes en boîte Quartiles et diagrammes en boîte permettent une vision rapide de la répartition des valeurs. Ils permettent aussi de situer dans une série un ou plusieurs individus. Exemple 1 : La part des moins de 15 ans est-elle importante, en France, comparée aux autres pays d Europe? La position de la France dans le diagramme en boîte conduit à nuancer l impression produite par la troisième place de la France. Elle est «talonnée» par les suivants. Exemple 2 : Quelle est la position des pays du Sud (Espagne, Grèce, Italie et Portugal)? La mise en évidence de deux éléments communs à ces pays (situation géographique et faible natalité) apparaît clairement. Exemple 3 : Comparaison de plusieurs diagrammes en boîtes. 3
On a étudié les fréquences cardiaques au repos d un groupe de sportifs amateurs et d un groupe de non sportifs. La comparaison à l aide des diagrammes en boîtes est très parlante. 4 Paramètres de valeur centrale d une série numérique Un paramètre de valeur centrale est un nombre qui «résume» les différentes valeurs de la variable. On utilise souvent la moyenne arithmétique, mais la médiane est aussi un paramètre intéressant. Exemple : Débits mensuels de l Hérault et de la Somme. Mois Débit (m 3 /s) Débits ordonnés L'Héraul t La Somme H S Janvier 39 42 5 38 Février 38 44 8 38 Mars 79 46 16 39 Avril 53 43 27 39 Mai 33 39 33 39 Juin 16 41 37 41 Juillet 8 38 38 41 Août 5 39 39 42 Septembre 27 42 53 42 Octobre 37 38 72 43 Novembre 72 39 79 44 Décembre 85 41 85 46 4
La moyenne des débits mensuels de la somme s obtient par la formule : somme des valeurs 42 + 44 +... + 41 x = = = 41 m 3 /s effectif total 12 On peut également calculer la moyenne à partir du tableau des effectifs. Somme débit 38 39 41 42 43 44 46 effecti f 2 3 2 2 1 1 1 x = 38x2 + 39x3 + 41x2 + 42x2 + 43x1 + 44x1 + 46x1 12 = 41 m 3 /s La médiane est ici la moyenne des 6 ème et 7 ème valeurs ordonnées. On peut calculer les valeurs suivantes pour les deux fleuves. L'Héraul t La Somme moyenne 41 41 médiane 37,5 41 Interprétation : Si l on s intéresse au volume d eau annuel fourni par le fleuve, la moyenne est le meilleur paramètre. Si le débit maximum pour faire fournir un moulin est de 38 m 3 /s, seule la médiane permet de savoir que le moulin peut fonctionner plus de la moitié du temps. La médiane n est pas sensible aux valeurs extrêmes au contraire de la moyenne. 5
5 Paramètres de dispersion d une série numérique On nomme ainsi un nombre dont la valeur indique si les valeurs de la variable sont proches les une des autres ou, au contraire, dispersées. On utilise : L étendue de la série, qui est la différence (Max Min) des valeurs extrêmes. L écart interquartiles, qui est la différence (Q 3 Q 1 ) des quartiles. L écart-type (vu dans un prochain chapitre) Exemple : Calculons les paramètres de dispersion pour les séries des débits mensuels de l Hérault et de la Somme. L'Hérault La Somme Min 5 38 Q1 16 39 Q3 53 42 Max 85 46 Etendue 80 8 Ecart interquartiles 37 3 Les deux indicateurs montrent une dispersion nettement supérieure pour la série des débits mensuels de l Hérault. 6 Utilisation d une calculatrice Reprendre l exemple des débits mensuels de l Hérault avec une calculatrice TI82 ou CASIO GRAPH 25. Entrer les données. Faire afficher les paramètres de la série (min, max, Q1, Q3) Représenter graphiquement la série sous forme d histogramme et de diagramme en boîte. 6