Statistiques Christophe ROSSIGNOL Année scolaire 2008/2009 Table des matières 1 Médiane, Quartiles, Déciles 3 1.1 Médiane.............................................. 3 1.2 Quartiles, Déciles......................................... 3 1.3 Une mesure de dispersion : l écart interquartile........................ 4 2 Moyenne Écart-type 6 2.1 Quelques rappels sur la moyenne................................ 6 2.2 Une mesure de dispersion : l écart-type............................. 6 2.3 Effet de structure......................................... 7 3 Représentations graphiques Compléments 8 3.1 Séries chronologiques....................................... 8 3.2 Histogramme........................................... 9 4 Un exemple de série statistique double 11 4.1 Définition Rappel........................................ 11 4.2 Fréquences par rapport à l effectif total............................. 11 4.3 Fréquences par rapport aux lignes, aux colonnes....................... 12 4.3.1 Fréquences par rapport aux lignes........................... 12 4.3.2 Fréquences par rapport aux colonnes.......................... 13 Ce cours est placé sous licence Creative Commons BY-SA http://creativecommons.org/licenses/by-sa/2.0/fr/ 1
Table des figures 1 Diagramme en Boîte n 1...................................... 5 2 Diagramme en Boîte n 2..................................... 5 3 Diagramme en Boîte à Moustaches................................ 5 4 Diagrammes en Boîte sur une TI 89 Titanium.......................... 5 5 Relevé de température (exemple de nuage de points)....................... 8 6 Histogramme classes de même amplitude............................ 9 7 Histogramme Cas général.................................... 10 8 Arbre Fréquences par rapport aux lignes............................ 12 9 Arbre Fréquences par rapport aux lignes............................ 13 Liste des tableaux 1 Effet de structure......................................... 7 2 Série statistique double Tableau des effectifs........................... 11 3 Série statistique double Fréquences par rapport à l effectif total................. 11 4 Série statistique double Fréquences par rapport aux lignes................... 12 5 Série statistique double Fréquences par rapport aux lignes................... 13 2
En préliminaire au cours : Test A page 104 [Déclic] : Caractères qualitatifs, quantitatifs discrets et quantitatifs continus Test D page 104 [Déclic] : Rappels sur la moyenne et la médiane 1 Médiane, Quartiles, Déciles 1.1 Médiane Définition : On considère une série statistique dont les valeurs du caractère étudié ont été rangés dans l ordre croissant : a 1 a 2 a 3 a n On appelle médiane la valeur centrale de cette série, c est-à-dire celle qui la sépare en deux parties de même effectif. On la note : Me. Exemple 1 : On considère la série statistique suivante : valeur du caractère 50 45 30 60 61 effectif 2 3 2 2 2 On range les valeurs par ordre croissant, chacune figurant en nombre de fois égal à son effectif : Ici, la médiane est Me = 50. 30 30 45 45 45 {{ série inférieure Exemple 2 : On considère la série statistique suivante : Par la même méthode, on obtient : {{ 50 Me 50 60 60 61 6 {{ série supérieure valeur du caractère 2 9 7 8 6 effectif 3 2 1 3 3 2 2 2 6 6 6 {{ série inférieure {{ Me 7 8 8 8 9 9 {{ série supérieure On pourrait choisir comme médiane tout nombre de l intervalle [6 ; 7]. On choisit en général le milieu de cet intervalle, soit ici : Me = 6, 5. Exercices : 14, 15 page 122 1 16, 18 page 122 2 [Déclic] 1.2 Quartiles, Déciles Définition : On reprend les notations du 1.1. On appelle premier quartile (noté Q 1 ) la médiane de la série inférieure et troisième quartile (noté Q 3 ) la médiane de la série supérieure. Exemple 1 : On reprend l exemple 1 du 1.1 : On a donc : Q 1 = 45, Me = 50 et Q 3 = 60. 1 Détermination de médianes. 2 Médiane, étendue et moyenne. 30 30 45 45 45 50 50 60 60 61 61 Q 1 Me Q 3 3
Exemple 2 : On reprend l exemple 2 du 1.1 : 2 2 2 6 6 6 7 8 8 8 9 9 Q 1 Me Q 3 Avec la même convention que précédemment, on obtient : Q 1 = 2+6 2 = 4, Me = 6, 5 et Q 3 = 8. 1. On a donc partagé la série en quatre parties de même effectif, comme indiqué sur le schéma suivant : a min {{ Q 1 {{ Me {{ 25 %de l effectif 25 %de l effectif 25 %de l effectif Q 3 {{ 50 %de l effectif 25 % de l effectif a une valeur du caractère comprise entre a 1 et Q 1 ; 50 % de l effectif a une valeur du caractère comprise entre Q 1 et Q 3 ; 25 % de l effectif a une valeur du caractère comprise entre Q 3 et a n. {{ 25 %de l effectif a max 2. On peut de même définir les déciles d une série statistique en partageant la série en dix parties de même effectif. Dans la pratique, seul le premier décile (noté D 1 ) et le neuvième décile (noté D 9 ) sont utilisés. 3. Les calculatrices graphiques étant dotées d un mode «statistiques», elles sont capables de donner directement la médiane et les quartiles d une série statistique. Après avoir entré les données, il faut : Pour les T.I. : CALC 1 :1-Var Stats #ENTER# 1-Var-Stats L1 (ou L1,L2 si L2 contient les effectifs) #ENTER# Pour les Casio : Régler dans SET : 1VAR Xlist : List1 1VAR Freq : List2 MENU Stat CALC 1VAR Ces manipulations permettent d afficher les paramètres de la série entrée et, notamment, médiane, quartiles, moyenne et écart-type (voir section 2). Exercices : 19 page 123 3 23, 24, 25, 28 page 123 4 [Déclic] 1.3 Une mesure de dispersion : l écart interquartile Définition : On appelle intervalle interquartile l intervalle [Q 1 ; Q 3 ]. On appelle écart interquartile la quantité : (Q 3 Q 1 ). 1. L intervalle interquartile contient donc les 50 % de l effectif dont les valeurs sont «les plus proches» de la médiane. L écart interquartile, qui est une mesure de la longueur de cet intervalle, est donc une mesure de la dispersion des données autour de la médiane : plus il est grand, plus les données sont dispersées autour de la médiane ; plus il est petit, plus les données sont proches de la médiane. 2. On peut résumer ces caractéristiques par un diagramme en boîte (voir figures 1 et2). Exemple 1 : On reprend l exemple 1 du 1.1. Le diagramme en boîte est représenté sur la figure 1. 4
Fig. 1 Diagramme en Boîte n 1 Fig. 2 Diagramme en Boîte n 2 Exemple 2 : On reprend l exemple 2 du 1.1. Le diagramme en boîte est représenté sur la figure 2. 1. On peut aussi représenter ces diagrammes verticalement. 2. On peut aussi faire figurer les déciles (D 1 et D 9 ) sur ce diagramme (voir figure 3). On parle alors de diagramme en boîte à moustaches. Fig. 3 Diagramme en Boîte à Moustaches 3. Il est possible d obtenir des diagrammes en boîte sur les calculatrices graphiques (voir figure 4, capture d écran d une T.I. 89 Titanium). Fig. 4 Diagrammes en Boîte sur une TI 89 Titanium 4. Représenter sur un même graphique plusieurs diagrammes en boîte peut permettre de comparer plusieurs séries statistiques (voir figure 4). 3 Vrai ou faux. 4 Détermination de quartiles utilisation de la calculatrice. 5
Exercices : 22 page 123 29, 30, 31 page 124 5 35, 37 page 125 6 [Déclic] 2 Moyenne Écart-type 2.1 Quelques rappels sur la moyenne Définition : On considère la série statistique suivante : valeur du caractère x 1 x 2 x 3 x p effectif n 1 n 2 n 3 n p L effectif total est : N = n 1 + n 2 + n 3 +... + n p = La moyenne de la série est : p n i. i=1 Exemple 1 : On reprend l exemple 1 du 1.1 : x = n 1x 1 + n 2 x 2 +... + n p x p N = 1 N p n i x i i=1 x = Exemple 2 : On reprend l exemple 2 du 1.1 : 2 50 + 3 45 + 2 30 + 2 60 + 2 61 11 x = 3 2 + 2 9 + 1 7 + 3 8 + 3 6 12 48, 8 6, 1 1. Pour une série statistique simple (non regroupée suivant les effectifs) x 1, x 2,...,x n la formule de la moyenne est plus simplement : x = x1+x2+...+xn n = 1 n n i=1 x i. 2. Pour une série dont les valeurs sont regroupées en classes, on utilise le centre de chaque classe comme valeur de x i dans le calcul de la moyenne. 2.2 Une mesure de dispersion : l écart-type Définition : On reprend les notations du 2.1. La variance V est donné par : V = n 1 (x 1 x) 2 + n 2 (x 2 x) 2 +... + n p (x p x) 2 N L écart-type σ est : σ = V. L écart-type est une mesure de dispersion autour de la moyenne. Exemple 1 : On reprend l exemple 1 du 1.1 : = 1 N p n i (x i x) 2 i=1 V = 2 (50 48, 8)2 + 3 (45 48, 8) 2 + 2 (30 48, 8) 2 + 2 (60 48, 8) 2 + 2 (61 48, 8) 2 11 118, 13 Donc, l écart-type est : σ = V 10, 9. 5 Diagrammes en boîtes. 6 Dispersion et diagramme en boîte. 6
Exemple 2 : On reprend l exemple 2 du 1.1 : V = 3 (2 6, 1)2 + 2 (9 6, 1) 2 + 1 (7 6, 1) 2 + 3 (8 6, 1) 2 + 3 (6 6, 1) 2 12 6, 6 Donc, l écart-type est : σ = V 2, 6. 1. Pour une série statistique simple (non regroupée suivant les effectifs) x 1, x 2,...,x n la formule de la variance est plus simplement : V = (x1 x)2 +(x 2 x) 2 +...+(x n x) 2 n = 1 n n i=1 (x i x) 2. 2. Pour une série dont les valeurs sont regroupées en classes, on utilisele centre de chaque classe comme valeur de x i dans le calcul de la variance. Exercices : 41, 42 page 126 7 45 page 127 8 46 page 127 9 49 page 127 10 et 75 page 133 11 [Déclic] Modules : 1 page 72 12 et 2 page 74 13 [Modulo] 2.3 Effet de structure Exercice résolu : Dans deux entreprises A et B, les salariés sont classés en deux catégories : employés et cadres. Le tableau suivant donne la répartition des salariés des deux entreprise suivant leur catégorie professionnelle et de leur salaire annuel S en milliers d euros. (voir tableau 1) Entreprise A Entreprise B Salaire 10 S < 20 20 S < 30 30 S < 40 10 S < 20 20 S < 30 30 S < 40 Employés 170 100 0 280 140 0 Cadres 0 10 20 0 40 40 Total 170 110 20 280 180 40 Tab. 1 Effet de structure 1. (a) Calculer les moyennes des salaires x A et x B respectivement dans les entreprises A et B. (b) Calculer les moyennes des salaires des employés x A et x B respectivement dans les entreprises A et B. (c) Calculer les moyennes des salaires des cadres x A et x B respectivement dans les entreprises A et B. 2. Le PDG de l entreprise B dit à celui de l entreprise A : «Mes salariés sont mieux payés que les vôtres.» Ce dernier répond : «Faux, mes employés sont mieux payés et mes cadres également.» Expliquer ce paradoxe apparent. Solution : 7 Calculs de moyennes, d écart-types. 8 Comparaison entre [x σ ; x + σ] et l intervalle interquartile. 9 Autre formule de la variance. 10 Application économique. 11 QCM. 12 Fonctions statistiques d une calculatrice. 13 Tableur et calculs statistiques. 7
170 15 + 110 25 + 20 35 1. (a) x A = 170 + 110 + 20 x B = (b) x A x B (c) x A x B 280 15 + 180 25 + 40 35 280 + 180 + 40 = 170 15 + 100 25 170 + 100 = 280 15 + 140 25 280 + 140 10 25 + 20 35 = 10 + 20 40 25 + 40 35 = = 5050 270 = 7700 420 = 950 30 = 2400 80 = 6000 300 = 10100 500 = 20 milliers d e 18, 7 milliers d e = 18, 3 milliers d e = 31, 7 milliers d e = 30 milliers d e = 20, 2 milliers d e 40 + 40 2. Les deux PDG ont raison! Ce n est pas un paradoxe. Il est simplement insuffisant, pour comparer deux séries statistiques, d uniquement comparer leurs moyennes. Il faut aussi tenir compte des répartitions suivant les catégories (ici les employés et les cadres). L entreprise B propose un salaire moyen global plus important, mais il est plus avantageux de travailler dans l entreprise A, car les salaires moyens par catégorie y sont plus important. Les cadres sont simplement proportionnellement moins nombreux dans cette entreprise. Exercices : 61, 62 page 130 14 [Déclic] 3 Représentations graphiques Compléments 3.1 Séries chronologiques Activité : Activité 3 page 105 15 [Déclic] Définition : On appelle série chronologique une série statistiques où les valeurs de la série sont observés à des intervalles de temps égaux (minutes, heures, jours, mois, années...). Exemple : Relevé de température Temps (en h) 6 8 10 12 14 16 18 20 22 Température (en C) 2 3 0 3 6 8 5 0 1 1. Ces séries sont généralement représentées graphiquement par un nuage de points. On place les dates en abscisses et les valeurs du caractère étudié en ordonnée. On peut éventuellement relier les points par des segments (qui n ont pas de réelle signification). Pour un exemple, voir la figure 5. Fig. 5 Relevé de température (exemple de nuage de points) 14 Effet de structure. 15 Série chronologique. 8
2. Pour étudier la tendance d une série chronologique dont les variations sont très irrégulières, on peut utiliser le lissage par moyennes mobiles (voir module) qui permet de «lisser» la série initiale. Module : Lissage par moyennes mobiles (sur feuille polycopiée) Exercices : 64 page 131 16 66 page 131 et 68, 70 page 132 17 [Déclic] 3.2 Histogramme Activité : Activité 2 page 105 18 [Déclic] Cette représentation est utilisée pour des séries continues, c est-à-dire dont le caractère étudié peut prendre un nombre infini de valeurs, et dont les valeurs du caractère ont été regroupés en classes. L aire des rectangles est proportionnel à l effectif et la longueur de leur base est proportionnelle à l amplitude de la classe. Exemple 1 : un cas particulier classes de même amplitude Classe [0 ; 10[ [10 ; 20[ [20 ; 30[ [30 ; 40[ Effectif 2 4 3 1 Dans ce cas, tous les rectangles ont même base. Pour que l aire soit proportionnelle à l effectif, il suffit que la hauteur du rectangle le soit (voir figure 6). Fig. 6 Histogramme classes de même amplitude Remarque : On peut utiliser la calculatrice pour représenter des histogrammes, mais uniquement si les classes ont toutes même amplitude (voir page 113 [Déclic]) Exemple 2 : cas général classes d amplitude quelconque Classe [0 ; 100[ [100 ; 150[ [150 ; 250[ [250 ; 400[ [400 ; 700[ Effectif 100 80 120 90 60 Il faut que l aire des rectangles soit proportionnelle à l effectif, et non leur hauteur. Pour cela : on commence par choisir une unité pour l axe des abscisses (valeurs du caractère) et une unité d aire (pour les effectifs) on détermine la hauteur de chaque rectangle connaissant son aire et la longueur de sa base. Unités : 1 cm pour 100 en abscisse. 1 cm 2 pour un effectif de 20. Calculs : Sur [0 ; 100[ : 16 Représentation de série chronologique. 17 Utilisation des moyennes mobiles. 18 Histogramme. base : 1 cm aire : 5 cm 2 hauteur : aire base = 5 1 = 5 cm 9
base : 0, 5 cm aire Sur [100 ; 150[ : aire : 4 cm 2 hauteur : base = 4 0, 5 = 8 cm base : 1 cm aire Sur [150 ; 250[ : aire : 6 cm 2 hauteur : base = 6 1 = 6 cm base : 1, 5 cm aire Sur [250 ; 400[ : aire : 4, 5 cm 2 hauteur : base = 4, 5 1, 5 = 3 cm base : 3 cm aire Sur [400 ; 700[ : aire : 3 cm 2 hauteur : base = 3 3 = 1 cm Histogramme : Voir la figure 7. L unité d aire choisie est précisée par un petit rectangle situé à côté de l histogramme. Les graduations de l axe des ordonnées n ont ici aucun sens. Fig. 7 Histogramme Cas général Définitions : On appelle densité de l effectif d une classe le quotient : La classe modale est la classe de plus grande densité. effectif de la classe amplitude de la classe. 1. Le calcul de densités permet de comparer les effectifs de classes n ayant pas la même amplitude. 2. La densité est proportionnelle à la hauteur du rectangle représentant la classe. La classe modale correspond donc au rectangle le plus haut. Exercices : 50, 51 page 128 19 55, 56 page 129 20 53 page 128 21 et 58 page 129 22 [Déclic] 19 QCM. 20 Histogrammes à pas constant utilisation de la calculatrice. 21 Histogramme : construction dans le cas général. 22 Utilisation d un histogramme. 10
4 Un exemple de série statistique double 4.1 Définition Rappel Définition : On appelle série statistique double (ou série statistique à deux variables) une série statistique où deux caractères sont étudiés simultanément. On présente généralement les résultats dans un tableau à double entrée. Exemple : Le tableau 2 résume les réponses à la question «Regardez-vous les matches de football à la télévision?» suivant le sexe. Il s agit d une série statistique double. Réponse Sexe oui non Total Masculin 20 4 24 Féminin 10 6 16 Total 30 10 40 Tab. 2 Série statistique double Tableau des effectifs Un tel tableau est appelé tableau de contingence. La ligne et la colonne «Total» sont appelées marges du tableau. Elles correspondent à l étude d un des deux caractères indépendamment de l autre. Définition : Soit E une population et A une sous-population de E. On appelle fréquence de A dans E le nombre f donné par la formule : f = effectif de A effectif de E 1. La fréquence est un nombre compris entre zéro et 1. 2. On peut l exprimer sous la forme d une fraction, sous forme décimale, sous forme d un pourcentage, etc. 3. Pour une série statistique double, il y a différentes façons de calculer des fréquences. 4.2 Fréquences par rapport à l effectif total Il s agit d un tableau de contingence ne contenant plus les effectifs mais les fréquences par rapport à l effectif total (situé à l intersection de la ligne et la colonne «Total»). Pour un exemple, voir le tableau 3. Réponse Sexe oui non Total Masculin 0,5 0,1 0,6 a Féminin 0,25 b 0,15 0,4 Total 0,75 c 0,25 1 a 60 % des personnes interrogées sont des hommes. b 25 % des personnes interrogées sont des femmes dont la réponse est «oui». c 75 % des personnes interrogées ont répondu «oui». Tab. 3 Série statistique double Fréquences par rapport à l effectif total Définitions : Les fréquences situées dans les marges de ce tableau sont appelées fréquences marginales. Elles correspondent à l étude d un des deux caractères indépendamment de l autre. Les autres cases de ce tableau contiennent les fréquences conjointes. 11
4.3 Fréquences par rapport aux lignes, aux colonnes 4.3.1 Fréquences par rapport aux lignes Méthode : Il s agit d étudier les fréquences par rapport au dernier résultat de chaque ligne (celui de la colonne «Total»). Dans l exemple précédent, il s agit donc d étudier, pour chaque sexe, la répartition des réponses (voir tableau 4). Réponse Sexe oui non Total Masculin 0,83 0,17 a 1 Féminin 0,625 b 0,375 1 Ensemble 0,75 c 0,25 1 a 17 % des hommes ont répondu «non». b 62,5 % des femmes ont répondu «oui». c 75 % des personnes interrogées ont répondu «oui». Tab. 4 Série statistique double Fréquences par rapport aux lignes Remarque : Le tableau obtenu n est plus un tableau de contingence. La dernière ligne n est plus une ligne «Total», mais résume les fréquences des réponses données indépendamment du sexe. Définition : A et B sont deux caractères étudiés sur une population E. On appelle fréquence de A sachant B la fréquence de la sous population (A et B) par rapport à B. On a donc : effectif de (A et B) f B (A) = effectif de B Exemples : f Masculin (non) = 4 24 0, 17. On retrouve le résultat correspondant du tableau 4. f Féminin (oui) = 10 16 = 0, 625. On retrouve le résultat correspondant du tableau 4. 1. Le tableau 4 résume donc les fréquences sachant le sexe. 2. La proportion de «oui» chez les hommes est de 83 % contre 75 % pour la population totale. On dit que le «oui» est sur-représenté chez les hommes. Par un raisonnement analogue, le «oui» est sous-représenté chez les femmes. 3. On peut résumer ces résultats par un arbre (voir figure 8). Fig. 8 Arbre Fréquences par rapport aux lignes On peut alors retrouver les fréquences conjointes par un calcul de pourcentage de pourcentage. Par exemple : fréquence par rapport à l effectif total des hommes qui ont répondu «oui» : 0, 60 0, 83 0, 5. 12
4.3.2 Fréquences par rapport aux colonnes Méthode : Il s agit d étudier les fréquences par rapport au dernier résultat de chaque colonne (celui de la ligne «Total»). Dans l exemple précédent, il s agit donc d étudier, pour chaque réponse, la répartition des sexe (voir tableau 5). Réponse Sexe oui non Ensemble Masculin 0,67 0,4 a 0,6 Féminin 0,33 b 0,6 0,4 Total 1 1 1 a 40 % des réponses négatives ont été données par des hommes. b 33 % des réponses positives ont été données par des femmes. Tab. 5 Série statistique double Fréquences par rapport aux lignes 1. Le tableau obtenu n est plus un tableau de contingence. La dernière colonne n est plus une colonne «Total», mais résume les fréquences du sexe des personnes interrogées indépendamment de leur réponse. 2. Le tableau 5 résume donc les fréquences sachant la réponse. 3. On peut résumer ces résultats par un arbre (voir figure 9). Fig. 9 Arbre Fréquences par rapport aux lignes On peut alors retrouver les fréquences conjointes par un calcul de pourcentage de pourcentage. Par exemple : fréquence par rapport à l effectif total des hommes qui ont répondu «oui» : 0, 75 0, 67 0, 5. Exercices : 71, 72 page 133 23 73, 74 page 133 24 [Déclic] Références [Déclic] Déclic 1re ES, Hachette éducation (édition 2005) 3, 4, 6, 7, 8, 9, 10, 13 [Modulo] Modulo 1re ES, Didier (édition 2005) 7 23 Tableaux à double entrée. 24 Application aux arbres. 13