STATISTIQUES I Rappels : moyenne - médiane Exercice 01 Le service de contrôle d'une usine de meubles mesure la longueur en cm d'un élément. On a obtenu les mesures suivantes : 101 99 102 101 99 101 100 100 101 101 99 100 99 100 101 100 101 101 98 101 100 100 101 101 98 100 100 102 101 100 99 97 102 101 100 100 99 101 100 100 99 99 99 99 100 101 101 100 100 100 101 99 100 100 101 101 102 100 101 99 100 100 101 101 99 101 99 99 102 98 100 100 101 101 100 100 99 100 101 101 99 100 100 101 102 101 101 100 100 100 99 100 99 102 101 99 101 100 99 100 Ces mesures constituent une série statistique. La longueur de l'élément est le caractère de la série. (Il s'agit d'un caractère quantitatif puisqu'il est mesuré par un nombre) L'ensemble des mesures effectuées est appelé la "population". Organiser ces données dans le tableau suivant : Valeur 97 98 99 100 101 102 Effectif Effectif cumulé Calculer la valeur moyenne de la série. On considère la série statistique donnée par le tableau : Valeur x 1 x 2 x p Effectif n 1 n 2 n p ni x La moyenne de cette série, notée n x est le nombre réel : x = 1 x 1 + n 2 x 2 + +n p x i p = n 1 + n 2 + + n p n i Si on appelle f i la fréquence de x i, on a : x = f1 x 1 + f 2 x 2 +... f p x p = f i x i Exercice 02 Lors d'un test, noté sur 10, on a obtenu un tableau de fréquence de chacune des notes : Note 0 1 2 3 4 5 6 7 8 9 10 Fréquence 0,05 0,02 0,04 0,12 0,13 0,2 0,23 0,1 0,05 0,03 0,03 Calculer la moyenne à ce test. Remarque Lorsque les valeurs du caractère sont réparties en classes (intervalles), on calculera la moyenne en utilisant le centre de chaque classe. Exercice 03 Valeurs [0 ; 40[ [40 ; 60[ [60 ; 80[ [80 ; 120[ Effectif 5 80 30 2 Calculer la moyenne de la série ci-dessus http://xmaths.free.fr 1èreS Statistiques page 1
Propriété (voir démonstration 01) Soit une série statistique d'effectif N, partagée en deux groupes : un groupe d'effectif p et de moyenne m 1 un groupe d'effectif q = N - p et de moyenne m 2 Alors la moyenne m de la série est m = p x m 1 + q x m 2 N Exercice 04 Dans une classe de 34 élèves il y a 22 filles. À un devoir de mathématiques la moyenne des filles est de 11,5 et la moyenne des garçons de 10,25. Calculer la moyenne de la classe. On considère une série dont les valeurs sont rangées dans l'ordre croissant. On appelle médiane de la série la valeur partageant la population en deux groupes de même effectif. Exemples Si la série comporte un nombre impair de termes la médiane corespond à une valeur de la série. 110 ; 110 ; 113 ; 113 ; 113 ; 115 ; 115 ; 116 ; 117 ; 120 ; 120 ; 121 ; 121. Cette série a pour médiane 115 Si la série comporte un nombre pair de termes on prend comme médiane la demi-somme de deux valeurs. 20 ; 20 ; 21 ; 21 ; 23 ; 23 ; 24 ; 24 ; 25 ; 26 ; 26 ; 30. Cette série a pour médiane 23,5 Exercice 05 Calculer les médianes des séries définies dans les exercices 1, 2 et 3. Remarques La moyenne est sensible aux valeurs extrêmes, alors que la médiane l'est assez peu. Si les données statistiques font apparaître une ou plusieurs valeurs aberrantes, on peut calculer la moyenne élaguée, c'est-à-dire la moyenne de la série dans laquelle on a supprimé la ou les valeurs aberrantes. Propriété (voir démonstration 02) Si on augmente (ou si on diminue) d'un même nombre r chacune des valeurs du caractère d'une série statistique, la moyenne augmente (ou diminue) de r, la médiane augmente (ou diminue) de r. Si on multiplie (ou si on divise) par un même nombre non nul k chacune des valeurs du caractère d'une série statistique, la moyenne est multipliée (ou divisée) par k, la médiane est multipliée (ou divisée) par k. Exercice 06 Un professeur a une moyenne de classe de 9 sur 20, il veut relever les notes des élèves pour obtenir une moyenne de classe de 10. Donner trois méthodes différentes (et qui ne sembleront pas trop injustes à l'ensemble des élèves) permettant d'obtenir une moyenne de 10. Quelles sont les conditions dans lesquelles ces méthodes peuvent s'appliquer? On appelle mode d'une série statistique, la valeur du caractère correspondant au plus grand effectif. Lorsque les données sont regroupées en classe, on appelle classe modale, la classe correspondant au plus grand effectif. On appelle étendue d'une série statistique, la différence entre la plus grande et la plus petite valeur du caractère de la série. http://xmaths.free.fr 1èreS Statistiques page 2
II Quartiles - Déciles - Diagramme en boîte On considère une série, dont les valeurs sont ordonnées (rangées dans l'ordre croissant). On appelle premier quartile de la série la plus petite valeur q des termes de la série pour laquelle au moins un quart (25%) des données sont inférieures ou égales à q. On appelle troisième quartile de la série la plus petite valeur q' des termes de la série pour laquelle au moins trois quarts (75%) des données sont inférieures ou égales à q'. On appelle intervalle interquartile l'intervalle [q ; q']. On appelle écart interquartile l'amplitude de l'intervalle [q ; q'], c'est-à-dire le nombre q' - q. Exemple La série 11, 12, 12, 13, 15, 16, 16, 17, 17, 18, 19, 20, 22, 23 a 14 termes. Un quart (25%) des données correspond à : 14 x 0,25 = 3,5. Le premier quartile est alors, par définition, la plus petite valeur q pour laquelle 4 termes de la série ont une valeur inférieure ou égale à q. Le premier quartile est donc la valeur du 4 ème terme de la série c'est-à-dire 13. Trois quarts (75%) des données correspondent à : 14 x 0,75 = 10,5. Le troisième quartile est alors, par définition, la plus petite valeur q' pour laquelle 11 termes de la série ont une valeur inférieure ou égale à q'. Le troisième quartile est donc la valeur du 11 ème terme de la série c'est-à-dire 19. L'intervalle interquartile est l'intervalle [13 ; 19]. L'écart interquartile est 19-13 = 6. Remarque La médiane d'une série est une mesure de tendance centrale. (Elle indique un centre, comme la moyenne) L'écart interquartile est une mesure de dispersion. (Il mesure l'écartement des valeurs autour de la médiane) On considère une série, dont les valeurs sont ordonnées (rangées dans l'ordre croissant). On appelle premier décile de la série la plus petite valeur d des termes de la série pour laquelle au moins un dixième (10%) des données sont inférieures ou égales à d. On appelle neuvième décile de la série la plus petite valeur d' des termes de la série pour laquelle au moins neuf dixièmes (90%) des données sont inférieures ou égales à d'. On appelle intervalle interdécile l'intervalle [d ; d']. On appelle écart interdécile l'amplitude de l'intervalle [d ; d'], c'est-à-dire le nombre d' - d. Exemple La série 4, 5, 5, 5, 6, 6, 7, 8, 8, 9, 9, 9, 9, 10, 10, 11, 11, 11, 12, 13, 13, 13, 14, 14, 15, 15, 17 a 27 termes. Un dixième (10%) des données correspond à : 27 x 0,10 = 2,7. Le premier décile est alors, par définition, la plus petite valeur d pour laquelle 3 termes de la série ont une valeur inférieure ou égale à d. Le premier décile est donc la valeur du 3 ème terme de la série c'est-à-dire 5. Neuf dixièmes (90%) des données correspondent à : 27 x 0,9 = 24,3. Le neuvième décile est alors, par définition, la plus petite valeur d' pour laquelle 25 termes de la série ont une valeur inférieure ou égale à d'. Le neuvième décile est donc la valeur du 25 ème terme c'est-à-dire 15. L'intervalle interdécile est l'intervalle [5 ; 15]. L'écart interdécile est 15-5 = 10. Exercice 07 On considère la série statistique suivante (masse en grammes des œufs de poule d'un élevage) Poids : x i 40 45 50 55 60 65 70 75 80 85 90 Effectif : n i 16 20 75 141 270 210 165 63 21 12 7 Effectif cumulé Compléter la ligne des effectifs cumulés. Déterminer la médiane, le premier et le troisième quartile, l'écart interquartile, le premier et le neuvième décile, l'écart interdécile. http://xmaths.free.fr 1èreS Statistiques page 3
Construction d'un diagramme en boîte Ce type de diagramme est aussi appelé diagramme de Tuckey, boîte à moustaches ou boîte à pattes. Il utilise la médiane, le 1 er et le 3 ème quartile, le 1 er et le 9 ème décile ou les valeurs extrêmes d'une série. La construction ci-contre est faite pour une série caractérisée par : médiane : 113 1 er quartile : 110 3 ème quartile : 117 1 er décile : 108 9 ème décile : 119 On choisit une graduation verticale permettant de représenter les différentes paramètres de la série. On pourra par exemple graduer entre 90 et 130. Le "corps" du diagramme, c'est-à-dire la "boîte" est formée d'un rectangle ayant pour côté inférieur le 1 er quartile et pour côté supérieur le 3 ème quartile. À l'intérieur de ce rectangle on tracera un segment représentant la médiane. La largeur du rectangle n'est pas fixée, elle sera choisie de façon à obtenir un graphique "harmonieux". Ce rectangle représente les données contenues dans l'intervalle interquartile. 1 er quartile 9 ème décile 3 ème quartile médiane On repère ensuite les hauteurs correspondant au 1 er et au 9 ème décile, et on trace deux "pattes" représentant les données contenues dans l'intervalle interdécile. (la largeur des pattes n'a pas d'importance). 1 er décile Facultatif On peut ensuite terminer le graphique, en faisant figurer par des points les données qui sont en dehors de l'intervalle interdécile. Si certaines données, sont manifestement très éloignées, on ne les représentera pas, mais on pourra écrire leurs valeurs au dessous du diagramme. Remarques Le graphique est parfois fait en dessinant des pattes correspondant non pas au 1 er et au 9 ème décile, mais aux valeurs extrêmes (ou au 1 er et au 99 ème centile). Une boîte et des "pattes" courtes indiquent que la série est assez concentrée autour de sa médiane. Au contraire une boîte et des "pattes" longues indiquent que la série est assez dispersée. Un des avantages de cette représentation, est qu'elle nécessite très peu de calculs. La représentation peut aussi se faire horizontalement, d'où l'appellation de "boîte à moustaches". La graduation se trouve alors sur l'axe horizontal, Exercice 08 Construire le diagramme en boîte correspondant à la série de l'exercice 07. http://xmaths.free.fr 1èreS Statistiques page 4
III Variance - Écart-type s On considère une série statistique, de moyenne x, donnée par le tableau suivant : Valeur : x i x 1 x 2 x 3 x p Effectif : n i n 1 n 2 n 3 n p La variance de cette série est : V = n 1 x (x 1 - x ) 2 + n 2 x (x 2 - x ) 2 + n 3 x (x 3 - x ) 2 + + n p x (x p - x ) 2 = n 1 + n 2 + n 3 + + n p Si on appelle f i la fréquence de x i, on a : V = f 1 x (x 1 - x ) 2 + f 2 x (x 2 - x ) 2 + f 3 x (x 3 - x ) 2 + + f p x (x p - x ) 2 = L'écart-type de cette série est : s = V Remarques ni x (x i - x ) 2 ni fi x (x i - x ) 2 L'écart-type permet d'avoir une idée de la façon dont les valeurs de la série s'écartent par rapport à la moyenne. C'est une mesure de dispersion (comme l'écart interquartile). Un écart-type faible correspond à une série concentrée autour de sa moyenne. Les calculs de moyenne, de variance et d'écart-type sont, pour des séries prenant un grand nombre de valeurs, des calculs compliqués. Mais ils sont facilement réalisés par les calculatrices utilisées en mode statistique et les ordinateurs. Propriété (voir démonstration 03) La moyenne d'une série est le réel x pour lequel Exercice 09 On considère la série x i -10-5 0 5 10 Effectif : n i 15 10 9 4 2 Calculer sa moyenne et son écart-type Exercice 10 ni x (x i - x ) 2 est minimum. On considère la série statistique suivante (masse en grammes des œufs de poule d'un élevage) Masse : x i 40 45 50 55 60 65 70 75 80 85 90 Effectif : n i 16 20 75 141 270 210 165 63 21 12 7 Déterminer la moyenne x de cette série. À quoi correspond cette moyenne? Compléter le tableau suivant et en déduire la variance et l'écart-type de la série. Masse : x i 40 45 50 55 60 65 70 75 80 85 90 Effectif : n i 16 20 75 141 270 210 165 63 21 12 7 (x i - x) n i (x i - x) 2 On suppose qu'à la suite d'une erreur de transmission, l'une des données de la série est erronée : un œuf d'une masse de 60g a été noté comme ayant une masse de 600g. Quelle influence a cette erreur sur la moyenne, sur l'écart-type? Quelle influence a cette erreur sur la médiane, sur l'écart interquartile? (Voir exercice 07) http://xmaths.free.fr 1èreS Statistiques page 5
IV Transformation affine des données Propriété (admise) Si on applique aux données d'une série statistique une transformation affine : x ax + b, alors la moyenne et la médiane de la nouvelle série sont obtenus à partir de la moyenne et la médiane de la série d'origine en appliquant cette même transformation affine : x ax + b. l'écart-type et l'écart interquartile de la nouvelle série sont obtenus à partir de l'écart-type et l'écart interquartile de la série d'origine en appliquant la transformation : x a x. Exercice 11 Vérifier que les points de coordonnées (-3 ; 41) ; (-2 ; 35) ; (-1 ; 29) ; (0 ; 23) ; (1 ; 17) ; (2 ; 11) ; (3 ; 5) sont alignés. En déduire la moyenne de la série 41 ; 35 ; 29 ; 23 ; 17 ; 11 ; 5 Exercice 12 Calculer mentalement la moyenne des nombres 999 999,305 ; 999 999,312 ; 999 999,302 ; 999 999,315 ; 999 999,308 ; 999 999,318 Exercice 13 On simule un lancer de dé en utilisant une calculatrice ou un ordinateur. Avec une calculatrice TI 82, l'expression int(rand*6)+1 donne de façon aléatoire un entier entre 1 et 6 : la fonction rand renvoie un nombre au hasard dans l'intervalle [0 ; 1[, en multipliant par 6 on obtient un nombre dans [0 ; 6[, la fonction int (partie entière) donne alors un nombre entier compris entre 0 et 5 et en rajoutant 1 on obtient un nombre entier compris entre 1 et 6. Avec une calculatrice TI 89, il suffira d'utiliser l'expression rand(6) (en français nbraléat(6) ). Avec un tableur sur ordinateur on pourra utiliser =ENT(ALEA()*6)+1 En programmant la calculatrice, ou en recopiant la formule sur un grand nombre de cellules avec le tableur, on peut obtenir la simulation de 1000 lancers d'un dé supposé équilibré. Pour une TI 82, vous pourrez utiliser le programme ci-contre. Les résultats seront obtenus dans les listes L1 et L2. Vous ferez l'exercice avec le tableau des données que vous aurez obtenu par cette simulation ou avec le tableau suivant : face 1 2 3 4 5 6 effectif 155 164 175 169 176 161 :Input "NBRE LANCERS ",N :For(I,1,6,1) :I L1(I) :0 L2(I) :End :0 I :While I<N :int (rand*6)+1 D :L2(D)+1 L2(D) :I+1 I :End 1 ) Déterminer la moyenne et l'écart-type, la médiane et l'écart interquartile de cette série. 2 ) A chaque lancer du dé on associe un gain de 5 ; 8 ; 11 ; 14 ; 17 ; 20 euros suivant que l'on tire respectivement le numéro 1 ; 2 ; 3 ; 4 ; 5 ; 6. On obtient ainsi une série statistique correspondant aux 1000 gains obtenus. Déterminer la moyenne et l'écart-type, la médiane et l'écart interquartile de cette série des gains. 3 ) On suppose qu'à chaque lancer de dé le joueur mise 12 euros. Le jeu est-il favorable au joueur? Exercice 14 Lors d'un contrôle de qualité une fabrique de boulons mesure la longueur d'une série de 500 boulons dont la longueur "théorique" est 119,4mm. On obtient les résultats suivants : Longueur : l i 119,35 119,36 119,37 119,38 119,39 119,40 119,41 119,42 119,43 119,44 119,45 Effectif : n i 9 21 37 51 68 80 88 74 32 22 18 Calculer la moyenne et l'écart-type de cette série après avoir effectué la transformation L = 100(l - 119,4) http://xmaths.free.fr 1èreS Statistiques page 6
Exercice 15 Déterminer la médiane de la série : 14 ; 23 ; 17 ; 12 ; 15 ; 45 ; 12 ; 5 ; 28 ; 13 Exercice 16 Une usine produit des sachets de sucre en poudre. La masse d'un échantillon de 1000 sachets de sucre en poudre a été vérifiée a la sortie de l'usine et les résultats sont donnés dans le tableau suivant : Masse 980 990 1000 1010 1020 Effectif 80 220 300 220 180 Déterminer la médiane de cette série. Calculer la moyenne de cette série. (On proposera une méthode pour laquelle ce calcul peut se faire mentalement) Exercice 17 On a relevé les taux de cholestérol de 200 employés des hôpitaux de Los Angeles victimes de maladie cardiaque. 270 320 310 250 250 300 250 270 270 190 200 260 260 330 280 280 250 240 330 250 250 230 270 230 240 200 210 240 210 270 210 130 220 290 220 200 220 330 270 260 300 150 350 230 210 250 230 250 220 310 180 280 300 290 190 220 250 230 220 220 200 230 230 220 360 290 270 240 170 190 280 250 270 280 300 240 210 260 190 250 260 240 290 230 270 250 360 190 180 260 350 180 250 280 270 240 220 230 220 220 240 300 280 220 240 230 300 280 220 240 190 170 320 150 320 200 210 270 230 270 270 250 230 290 220 220 310 260 260 230 250 300 200 160 230 270 280 180 300 270 270 270 250 250 240 250 280 210 350 200 230 210 240 200 210 330 200 260 310 160 290 300 320 340 350 170 290 200 140 310 260 260 240 220 180 320 220 300 310 250 240 300 330 240 300 330 200 190 300 240 210 240 200 260 170 270 250 250 270 190 1 ) Organiser ces données dans un tableau faisant apparaître les effectifs. 2 ) Déterminer la médiane, le 1 er quartile, le 3 ème quartile, le 1 er décile et le 9 ème décile de la série. 3 ) Construire un diagramme en boîte pour représenter la série. 4 ) Donner, en utilisant une calculatrice, la moyenne et l'écart-type de la série. Exercice 18 A un jeu on peut gagner 0, 5, 10 ou 100 euros. On a observé un certain nombre de parties, et on a noté les résultats suivants : 212 parties ont donné un gain nul 528 parties ont donné un gain de 5 euros 17 parties ont donné un gain de 100 euros. On sait que la moyenne de gain est de 6,6 euros. Calculer le nombre de parties ayant donné un gain de 10 euros. Déterminer la médiane de la série. On suppose que le gain maximum n'est plus de 100 euros, mais de 1000 euros (les effectifs restant inchangés) La médiane et la moyenne ont-elles changé? Donner éventuellement les nouvelles valeurs. Exercice 19 Lors d'une course le temps moyen dans la catégorie "filles" est de 4 minutes et 12 secondes, le temps moyen dans la catégorie "garçons" de 3 minutes et 21 secondes. Sachant que 60% des coureurs sont des garçons, calculer le temps moyen pour l'ensemble des coureurs. Exercice 20 On donne sur le dessin ci-contre les diagrammes en boîte de deux séries. Ces séries sont les séries des notes de mathématiques de deux classes de Première S notées A et B. Les "pattes" correspondent aux valeurs extrêmes. Comparer ces deux séries. Que peut-on en conclure? http://xmaths.free.fr 1èreS Statistiques page 7