Séquence 4. Statistique descriptive Notion de probabilité. Sommaire



Documents pareils
Statistique : Résumé de cours et méthodes

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Statistiques Descriptives à une dimension

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Statistiques 0,14 0,11

Séries Statistiques Simples

Introduction à la statistique descriptive

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Taux de risque de pauvreté ou d exclusion sociale le plus élevé en Bulgarie, le plus faible en République tchèque

Représentation d une distribution

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Leçon N 4 : Statistiques à deux variables

Bienvenue à la Banque nationale de Belgique!

12. Le système monétaire

Vous avez eu ou élevé des enfants Vos droits

TSTI 2D CH X : Exemples de lois à densité 1

Annexe commune aux séries ES, L et S : boîtes et quantiles

PNEUS HIVER EN EUROPE

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Pension AOW pour les assurés hors des Pays-Bas

Mobilité de l enseignement supérieur

STATISTIQUES DESCRIPTIVES

Statistiques à une variable

Logiciel XLSTAT version rue Damrémont PARIS

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

PROGRAMME ERASMUS+ Toute mobilité Erasmus+, financée ou non par la bourse, doit faire l objet de justification sur la base des documents suivants

Probabilités conditionnelles Loi binomiale

Couverture maladie universelle complémentaire

EXCEL TUTORIEL 2012/2013

Fluctuation d une fréquence selon les échantillons - Probabilités

Prix de l énergie dans l Union européenne en 2010

Fiche signalétique d un service de téléphonie mobile version du 24/08/2012

1. Vocabulaire : Introduction au tableau élémentaire

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

SERIE 1 Statistique descriptive - Graphiques

REGARDS SUR L ÉDUCATION 2013 : POINTS SAILLANTS POUR LE CANADA

Facilitez vos démarches, Étudiants étrangers. renseignez-vous avant de vous déplacer DÉMARCHES ADMINISTRATIVES.

Prendre sa retraite en France Droits, conditions et formalités de résidence. Natasha Lavy-Upsdale Service des Relations avec les Pays-hôtes

Prix du gaz et de l électricité dans l Union européenne en 2011

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Aide pour une complémentaire santé

Les probabilités. Chapitre 18. Tester ses connaissances

COMMENT PAYEZ-VOUS? COMMENT VOUDRIEZ-VOUS PAYER?

Préparez-vous au virement SEPA

Electricité : caractéristiques et point de fonctionnement d un circuit

CONTRAT DE MOBILITE POUR LES MOBILITES D ETUDES DU PROGRAMME ERASMUS+ dans les pays participant au programme (mobilités européennes)

Quel est le temps de travail des enseignants?

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Préparez-vous au virement

Principaux partenaires commerciaux de l UE, (Part dans le total des échanges de biens extra-ue, sur la base de la valeur commerciale)

Créer un tableau avec LibreOffice / Calc

Cours pratique Excel. Dans chacune des feuilles, les donnés sont déjà entrées afin de gagner du temps.

Mobilem auto & moto. Roulez!

OBSERVATION ET STATISTIQUES

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Heureusement ce n est pas une banque! Guide utilisateur. Guide utilisateur v3.3 page nobanco. All Rights Reserved.

Interface PC Vivago Ultra. Pro. Guide d'utilisation

Guide SEPA Paramétrage Experts Solutions SAGE depuis 24 ans

Le coût du rachat de trimestres pour carrière à l étranger multiplié par 4 au plus tard le 1 er janvier 2011

La recherche d assurance maladie à l étranger Procédure à l usage des CPAS

L IMMIGRATION AU SEIN DE L UE

Premières estimations pour 2014 Le revenu agricole réel par actif en baisse de 1,7% dans l UE28

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

Flotte Automobile (-3,5t)

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Le commerce de détail en Europe : la diversité des tissus commerciaux

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

FORMALITES DOUANIERES

Les suites numériques

BMW i MOBILE CARE. LA GARANTIE DE MOBILITÉ PANEUROPÉENNE DE BMW. BMW i Service

Vous avez du talent, nous protégeons votre indépendance. Demande de pension d invalidité Notice explicative

Les prestations servies dans la zone UE-EEE-Suisse entre 2004 et 2013

La fiscalité européenne de l épargne. Ce qui va changer pour vous

Âge effectif de sortie du marché du travail

Statistiques avec la graph 35+

Guide d'utilisation. OpenOffice Calc. AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Traitement des données avec Microsoft EXCEL 2010

Kit Demande de Bourse Etude Erasmus

DISPOSITIF D INTERVENTION REGIONALE AIDE À LA MOBILITE ETUDIANTE A L'ETRANGER Année universitaire 2015/2016

La stabilité des prix : pourquoi est-elle importante pour vous? Brochure d information destinée aux élèves

Quelle part de leur richesse nationale les pays consacrent-ils à l éducation?

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Notes explicatives concernant le formulaire d opposition

La retraite pour pénibilité

Retraité d un régime français d assurance vieillesse

LES PNEUS HIVER SONT-ILS OBLIGATOIRES DANS TOUTE L EUROPE?

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Délégation Côte d Azur Formation Geslab 203 module dépenses 1

Carte Familles nombreuses

Améliorer la gouvernance des Services Publics d'emploi pour de meilleurs résultats sur l'emploi

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

La fonction exponentielle

La coordination des soins de santé en Europe

Note de cours. Introduction à Excel 2007

Transcription:

Séquence 4 Statistique descriptive Notion de probabilité Sommaire 1. Prérequis 2. Statistique descriptive 3. Notion de probabilité 4. Algorithmique 5. Synthèse de la séquence 6. Exercices d approfondissement 1

1 Prérequis A Statistiques Vocabulaire, représentation graphique À savoir Une série statistique porte sur un caractère (âge, poids, couleur, etc.) dont on a relevé certaines modalités (10 ans, 15 ans, 20 ans, etc.). Les données sont présentées dans un tableau dans lequel on indique, pour chaque modalité du caractère, le nombre de fois où on a relevé cette valeur. Ce «nombre de fois» s appelle l effectif. On peut, en plus de ces effectifs, ou à leur place, indiquer la proportion de chaque modalité dans l ensemble des données. Cette proportion s appelle la fréquence de la modalité. Exemple Un sauteur à la perche a relevé ses performances au cours des six derniers mois : Hauteur 5,40 5,50 5,55 5,60 5,65 5,70 5,75 5,80 5,90 Nb de sauts 1 1 1 4 8 6 2 1 1 Fréquences 4 % 4 % 4 % 16 % 32 % 24 % 8 % 4 % 4 % Le caractère étudié est la hauteur du saut. Ses modalités sont 5,40 ; 5,50 ; 5,55 ; ; 5,90. Les effectifs sont 1 ; 1 ; 1 ; 4 ; ; 1. L effectif de la modalité 5,65 est 8. Les fréquences sont 4 % ; 4 % ; 4 % ; 16 % ; ; 4 %. La fréquence de la modalité 5,65 est 32 %. Exemple On a relevé la couleur des 5000 véhicules passés à un péage d autoroute. Couleur Blanc Gris Noir Rouge Bleu Jaune Autre Nb de véhicules 1425 1550 1350 200 400 20 55 Fréquences 28,5 % 31 % 27 % 4 % 8 % 0,4 % 1,1 % 3

Le caractère étudié est la couleur du véhicule. Ses modalités sont Blanc ; Gris ; Noir ; ; Autre. Les effectifs sont 1425 ; 1550 ; ; 55. L effectif de la modalité Rouge est 200. Les fréquences sont 28,5 % ; 31 % ; ; 1,1 %. La fréquence de la modalité Bleu est 8 %. À savoir Pour représenter ces séries statistiques on utilise habituellement des diagrammes en barres (ou bâtons) ou des diagrammes circulaires, les hauteurs des barres ou les angles des secteurs angulaires étant proportionnels aux effectifs ou aux fréquences. Pour représenter les caractères quantitatifs continus où les modalités sont regroupées par classe, on utilise aussi des histogrammes (diagrammes en rectangles), où les valeurs du caractère sont représentées en abscisse sur un axe gradué ; la base de chaque rectangle correspond à l intervalle de chaque classe, l aire des rectangles étant proportionnelle aux effectifs ou aux fréquences (voir dans la suite du cours). Exemple Représentons la série des performances du sauteur à la perche par un diagramme en bâtons. Effectifs 8 Fréquences 32% 6 24% 4 16% 2 8% 1 4% 5,40 5,50 5,60 5,70 5,80 5,90 Hauteur 4

Exemple Représentons la série des couleurs des 5000 véhicules, par un diagramme circulaire. Gris Blanc Autre Bleu Jaune Noir Rouge Calcul des caractéristiques À savoir Pour résumer une série statistique portant sur un caractère quantitatif, on peut calculer son étendue, sa moyenne, sa médiane. Exemple Exemple Résumons la série des performances du sauteur à la perche par son étendue, sa moyenne, sa médiane. Son étendue est 0,50 m ( 590, 540, = 050, ). Sa moyenne est : 54, + 55, + 555, + 56, 4+ 565, 8+ 57, 6+ 575, 2+ 58, +59, = 5658,. 25 Sa médiane est 5,75 m (il y a autant de sauts inférieurs à cette hauteur que de sauts supérieurs). Résumons la série des couleurs des 5000 véhicules par son étendue, sa moyenne, sa médiane. La couleur n étant pas un caractère quantitatif, il n y a ni étendue, ni moyenne, ni médiane. 5

B Probabilités Notion de probabilité Se souvenir Ce que veut dire : «la probabilité d obtenir PILE en lançant une pièce non truquée est 1 2» ; à savoir : si on lance une pièce non truquée, on a 1 chance sur 2 qu elle tombe sur PILE. Ce que veut dire : «la probabilité d obtenir un DEUX en lançant un dé non truqué est 1 6» ; à savoir : si on lance un dé non truqué, on a 1 chance sur 6 qu il tombe sur un DEUX. 6

2 Statistique descriptive A Activités Introduction Dans de nombreuses disciplines scientifiques, biologie, physique, psychologie, économie, archéologie, etc. on a recours désormais aux statistiques pour établir certains résultats. Il en est de même de plus en plus dans l environnement professionnel. Les ordinateurs et les calculs statistiques ont depuis longtemps envahi la finance, les cabinets d assurance, de gestion, les laboratoires d analyses médicales, et même l industrie, à travers, par exemple, le contrôle qualité. Au quotidien, nos médias sont remplis de statistiques, visibles ou non, que ce soit à propos de l économie, de la politique, des faits de société ou de la météo. Il est donc indispensable au citoyen d aujourd hui de comprendre ce que sont les statistiques pour comprendre ce que veulent réellement dire les informations qu il reçoit. De même il est indispensable à qui exercera une activité dans les domaines de la gestion, de la santé ou du social, non seulement de comprendre, mais aussi de savoir utiliser les notions de base des statistiques. Vous devriez avoir vu en collège une bonne partie de ce chapitre. Pour vous remettre dans le bain, nous commencerons par des activités simples vous permettant de réviser vos connaissances.. Faites les consciencieusement, si possible sans aide. 7

Étude d un caractère qualitatif Dans un lycée, on a fait remplir en début d année aux 250 élèves de seconde une fiche de renseignements. On en a extrait deux. a) Souhaits d orientation en fin de seconde. Le graphique ci-contre indique les souhaits d orientation des 250 élèves. Complétez le tableau correspondant. Effectifs 70 60 50 40 Orientation Effectif Fréquence ES L S STG Autres Ne sait pas Total 30 20 10 ES L S STG Autres NSP Quelle est l orientation souhaitée la plus fréquente (on l appelle le mode)? b) Code postal du domicile. Le tableau ci-dessous indique les différents codes postaux du domicile des 250 élèves. Représentez ces données par un diagramme circulaire. Code Postal Effectif 35330 9 35380 72 56140 24 56200 9 56380 90 56430 28 56803 6 56910 12 Total 250 Quel est le code postal le plus fréquent (on l appelle le mode)? 8

Commentaire Dans ces deux exemples, nous avons rencontré l étude de deux caractères l orientation et le code postal qui sont des caractères qualitatifs. Cela signifie qu ils ne représentent pas des quantités et qu on ne peut donc pas faire d autre traitement que de les représenter (par exemple calculer une orientation moyenne n a pas de sens). Un caractère qualitatif peut néanmoins s exprimer par des nombres, comme le code postal, mais ces nombres ne représentent pas des quantités, ce ne sont que des «codages» Pour représenter ces caractères on utilise habituellement des diagrammes en barres (ou bâtons, ou tuyaux d orgue), des diagrammes en bande, ou des diagrammes circulaires, les hauteurs des barres ou les angles des secteurs angulaires étant proportionnels aux effectifs ou aux fréquences. L ordre de présentation des modalités n a pas d importance. Dans différents médias, on trouve des formes plus ou moins imagées des barres ou des disques ; il est alors prudent de vérifier ce qui est (ou devrait être) proportionnel aux effectifs avant d interpréter le graphique. Rappel Exemple Nous rappelons aussi que l ensemble des personnes ou objets étudiés ici les élèves de seconde d un lycée s appelle la population étudiée, chaque personne ou chaque objet étant un individu. Ce que l on étudie s appelle le caractère, et les différentes valeurs de ce caractère les modalités : «STG» est une modalité du caractère «orientation», «56380» une modalité du caractère «code postal». Le nombre d individus ayant une modalité précise du caractère est l effectif de cette modalité. La somme de tous les effectifs, appelé effectif total, donne la taille de la population. Souvent, en particulier pour comparer des populations de taille différente, on donne les fréquences de chaque modalité plutôt que les effectifs. La fréquence d une modalité est la proportion que représente l effectif de cette modalité par rapport à l effectif total. Elle s exprime aussi bien sous forme de fraction, d écriture décimale que de pourcentage (qui est lui même une fraction). Pour l orientation, la modalité «STG» a pour effectif 55 sur un effectif total de 250. Sa fréquence est : 55 que l on peut écrire 11 250 50 ou 0,22 ou 22 ou enfin 22%. 100 9

Étude d un caractère quantitatif Revenons à nos 250 élèves de seconde. On extrait de la fiche de renseignements deux autres caractères. a) Taille de la famille dans laquelle vit chaque élève. Le graphique ci-dessous indique la taille de la famille (enfants plus adultes) de chacun des 250 élèves. Complétez le tableau correspondant, cicontre. Calculez le nombre moyen de personnes par famille. Quel écart de taille y a-t-il entre les familles les moins nombreuses et les familles les plus nombreuses (on l appelle l étendue)? Taille de la famille Effectif Fréquence 3 personnes 4 personnes 5 personnes 6 personnes 18 7 personnes 21 8 personnes 9 personnes 10 personnes 2 12 personnes 4 Total Effectifs 90 80 70 60 50 40 30 20 10 3 5 7 9 11 12 Taille de la famille b) Temps de parcours du domicile au lycée. Le tableau ci-dessous indique les différents temps de parcours (en minutes) du domicile au lycée pour les 250 élèves. Temps de parcours (en minutes) 0 1 2 3 4 5 6 7 8 9 10 11 12 Effectif 2 4 5 4 6 1 9 2 8 20 10 1 5 10

Temps de parcours (en minutes) 13 14 15 16 17 18 19 20 21 22 23 24 25 Effectif 4 2 3 1 10 14 40 20 6 10 3 4 8 Temps de parcours (en minutes) 26 27 28 29 30 35 38 40 45 50 55 60 90 Effectif 10 10 2 11 1 3 1 4 1 1 1 1 2 Quel est le temps de parcours moyen? Quel écart y a-t-il entre le temps de parcours le plus long et le plus court (on l appelle l étendue)? Regroupez ces données par tranches (on dit aussi classes) de 10 min (attention aux bornes des intervalles). Temps [0 ; 10[ [10 ; 20[ [20 ; 30[ [30 ; 40[ [40 ; 50[ [50 ; 60[ [60 ; 70[ [70 ; 80[ [80 ; 90] Effectif Quel temps de parcours moyen obtient-on avec les données ainsi groupées? Représentez ces données sur le graphique ci-dessous. Surface pour un effectif de 10 10 2 0 30 40 50 60 70 80 90 Temps de parcours Commentaire Dans ces deux exemples, nous avons rencontré l étude de deux caractères la taille des familles et le temps de parcours qui sont des caractères quantitatifs. Cela signifie qu ils représentent des quantités. On pourra, en plus de représentations, faire un certains nombre de calculs significatifs (par exemple la taille moyenne, l écart entre le temps le plus long et le temps le plus court). 11

On distingue deux types de caractères quantitatifs : les caractères quantitatifs discrets (ou à valeurs discontinues), où les modalités ne prennent que quelques valeurs numériques précises (comme pour la taille des familles), les caractères quantitatifs continus, où les modalités peuvent prendre, en théorie, toutes les valeurs numériques d un intervalle (comme pour le temps de parcours). Pour représenter les caractères quantitatifs discrets on utilise habituellement des diagrammes en bâtons, où les valeurs du caractère sont représentées en abscisse sur un axe gradué, la hauteur des bâtons étant proportionnelle aux effectifs ou aux fréquences. Pour représenter les caractères quantitatifs continus on utilise habituellement des histogrammes (diagrammes en rectangles), où les valeurs du caractère sont représentées en abscisse sur un axe gradué ; la base de chaque rectangle correspond à l intervalle de chaque classe, l aire des rectangles étant proportionnelle aux effectifs ou aux fréquences. Lorsque les classes ont même amplitude (c était le cas dans l exercice ci-dessus) les rectangles de l histogramme ont tous la même largeur. Leurs aires étant proportionnelles aux effectifs, leurs hauteurs le sont aussi. On peut alors «lire» les effectifs sur un «axe vertical virtuel». Mais lorsque les classes sont d amplitudes différentes, les rectangles ont des largeurs différentes. Leurs aires étant toujours proportionnelles aux effectifs, leurs hauteurs ne représentent plus rien. On ne peut plus lire les effectifs sur un axe vertical. Exemple Regroupez différemment les données de l exercice précédent dans le tableau cidessous. Temps de parcours (en minutes) [0 ; 5[ [5 ; 10[ [10 ; 20[ [20 ; 50[ [50 ; 90] Effectif Représentez ces données par l histogramme ci-dessous. 12

Surface pour un effectif de 10 10 2 0 30 40 50 60 70 80 90 Temps de parcours c) Temps de parcours du domicile au lycée : effectifs cumulés croissants. Reprenons les données sur les temps de parcours, une fois regroupées par classes de 10 min. Soit : Temps [0 ; 10[ [10 ; 20[ [20 ; 30[ [30 ; 40[ [40 ; 50[ [50 ; 60[ [60 ; 70[ [70 ; 80[ [80 ; 90] Effectif 61 90 84 5 5 2 1 0 2 Construisons maintenant le tableau des effectifs cumulés croissants. On obtient : Temps < 0 < 10 < 20 < 30 < 40 Effectif 0 61 61 + 90 = 151 151 + 84 = 235 235 + 5 = 240 Temps < 50 < 60 < 70 < 80 90 Effectif 240 + 5 = 245 245 + 2 = 247 247 + 1= 248 248 + 0 = 248 248 + 2 = 250 Pour chaque temps correspondant à une borne de l une des tranches, on indique le nombre d élèves dont le temps de parcours est inférieur (ou strictement inférieur, ça dépend des intervalles choisis) à ce temps. Pour t = 10 : il y a 61 élèves dans la classe [0 ; 10[, donc 61 élèves dont le temps de parcours est inférieur à 10 minutes. Pour t = 20 : il y a 61 élèves dans la classe [0 ; 10[ et 90 élèves dans la classe [10 ; 20[, donc 151 élèves dont le temps de parcours est inférieur à 20 minutes. Pour t = 30 : il y a 151 élèves dont le temps de parcours est inférieur à 20 minutes et 84 élèves dans la classe [20 ; 30[, donc 235 élèves dont le temps de parcours est inférieur à 30 minutes. 13

et ainsi de suite. L effectif cumulé de la dernière valeur (ici 90 minutes) est nécessairement l effectif total, c est-à-dire 250. Pour des raisons de représentation graphique (voir ci-après), on peut mettre une première colonne correspondant à la toute première valeur de la première classe. L effectif cumulé correspondant est nécessairement 0 (aucun élève n a un temps de parcours inférieur au plus petit temps relevé! ). Faisons maintenons une représentation graphique de ce tableau des effectifs cumulés croissants. Pour ce faire, on place sur un graphique les points dont les coordonnées sont les deux valeurs de chaque colonne : les modalités du caractère (ici les temps) en abscisse, les effectifs cumulés en ordonnée. On relie alors chaque point par un segment de droite (voir graphique ci-dessous). Effectifs cumulés 250 200 150 100 50 40 20 Temps de parcours 10 20 26 30 40 50 60 70 80 90 14

Exemple Ce choix (de relier les points par des segments de droite) revient à considérer que les valeurs du caractère sont régulièrement distribuées à l intérieur de chaque classe. ( ) ( ) Par exemple, on a représenté les points de coordonnées 30 ; 235 et 40 ; 240, ce qui signifie qu il y a 5 ( 240-235 ) temps de parcours dans la classe [30 ; 40[ (ici on la savait déjà, mais parfois on peut avoir un tableau d effectifs cumulés sans avoir le tableau des effectifs). Relier ces deux points par un segment de droite revient à faire comme si ces 5 temps étaient répartis régulièrement dans l intervalle [30 ; 40[ : par exemple comme si on avait 30, 32, 34, 36, 38. Ce n est évidemment pas forcément vrai (ici on sait que c est faux car on connait le tableau détaillé des temps de parcours, mais souvent on ne le sait pas si l on a directement les regroupements par classe sans avoir le tableau détaillé). Cette idée de régularité entre chaque point connu permet de faire des extrapolations (c est-à-dire des sortes de déductions à partir de données partielles) sur les valeurs du caractère, bien sûr si l on n a pas le tableau détaillé de ces valeurs. Par exemple on a extrapolé, sur le graphique, le 200 ème temps de parcours. On a trouvé qu il était d environ 26 minutes. Bien sûr, avec le tableau détaillé des valeurs, on sait que ce 200 ème temps est de 25 minutes, mais si l on n avait que le tableau des regroupements par classe, on n en saurait rien. Ce type de graphique est appelé polygone des effectifs cumulés croissants. A partir du deuxième regroupement par classes d amplitudes inégales (voir exemple du b) ), construire le tableau des effectifs cumulés croissants, puis le graphique correspondant (polygone des effectifs cumulés croissants). A l aide de ce graphique, extrapoler le 200 ème temps de parcours. Comparer avec la valeur extrapolée ci-dessus. B Cours Une caractéristique de position, la moyenne a) Calcul de la moyenne Pour caractériser une série statistique, on peut la «résumer» par une (ou des) caractéristique(s). La plus simple, et qui «positionne» la série, est la moyenne. Supposons donnée une série statistique à caractère quantitatif discret. On note x i les valeurs du caractère, n les effectifs et f les fréquences correspondants. i i 15

Valeurs du caractère x 1 x 2...... Effectif n 1 n 2...... Fréquence f 1 f 2...... x p n p f p Définition La moyenne de la série est la valeur du caractère calculée par : nx 11+ n2x2+... + npxp x = = fx + f x + n1+ n2+ + n 11 2 2... +f.... pxp p n Chaque fréquence se calcule par : fi = i ce qui justifie l égalité ci-dessus. n1+ n2 +... + np La notation «x», qui se lit «x barre», est une notation habituelle pour une moyenne. On reprend la lettre générique utilisée pour noter les valeurs du caractère (ici «x») et on met une «barre» au-dessus. Avec le signe de sommation (la lettre grecque Σ, qui se lit «sigma», signifie que p nx i i p l on veut calculer une somme) la moyenne s écrit : x = i = 1 = fx p i i. i = 1 ni i = 1 On note souvent, car on l utilise souvent, l effectif total par une lettre. p Par exemple : N = n i. On peut alors écrire la moyenne : p i = 1 nx i i p x = i = 1 1 = nx N N i i. i = 1 Important Vous devez bien comprendre toutes ces façons différentes d écrire la même chose. Propriété Il est important de comprendre que N x, c est à dire la moyenne, multipliée par l effectif total, donne la somme de toutes les valeurs de la série. 16

Commentaire p 1 Cela provient directement du calcul : x = nx N i i, et nous servira souvent. i = 1 En effet, en multipliant par N les deux termes de l égalité précédente, on obtient : p 1 N x = N nx N i i i = 1 valeurs de la série. p soit N x = n i x i i = 1 qui est bien la somme de toutes les Exemple Dans l activité, le temps total de trajet des 250 élèves pour venir au lycée est : 250 18, 4 = 4600 min. On peut vérifier que l on trouverait la même chose en ajoutant tous les temps de trajet des 250 élèves : 0 1+ 1 4 + 2 5 + 3 4 +... + 90 1= 4600 min. A vérifier vous-même, par exemple en regardant le calcul du temps de parcours moyen fait dans l activité 2. Remarque Dans le cas d un caractère quantitatif continu, donné sous forme de classes, on prend le centre de chaque classe comme valeur du caractère pour calculer la moyenne. Commentaire Exemple Le choix des classes pour le regroupement aura donc une influence sur la valeur calculée de la moyenne. Si nous prenons les temps de parcours de l activité, nous avons vu que la moyenne calculée après regroupement par classes de 10 minutes est différente de celle calculée avec les données brutes : 18 minutes au lieu de 18,4 minutes. Nous avons fait un deuxième regroupement : calculons la moyenne obtenue après ce regroupement. Ce regroupement donne : Temps de parcours (en minutes) [0 ; 5[ [5 ; 10[ [10 ; 20[ [20 ; 30[ [30 ; 90] Effectif 21 40 90 84 15 Pour calculer le temps de parcours moyen avec les données groupées ainsi, on calcule le temps de parcours total des 250 élèves en prenant pour chaque classe la valeur centrale, et on divise ce total par 250 : Total = 2, 5 21+ 7, 5 40 + 15 90 + 25 84 + 60 15 = 4702, 5. 4702, 5 Moyenne = = 18, 81minutes. 250 Enfin, faisons un regroupement par classes de 30 minutes et calculons la moyenne. 17

Ce regroupement donne : Temps de parcours (en minutes) [0 ; 30[ [30 ; 60[ [60 ; 90] Effectif 235 12 3 Pour calculer le temps de parcours moyen avec les données groupées ainsi, on calcule le temps de parcours total des 250 élèves en prenant pour chaque classe la valeur centrale, et on divise ce total par 250 : Total = 15 235 + 45 12+ 75 3 = 4290. 4290 Moyenne = = 17, 16 minutes. 250 Vous pouvez constater que ces moyennes sont toutes différentes. b) Propriétés de la moyenne Supposons donnée une série statistique à caractère quantitatif. On note x i les valeurs du caractère (ou les centres des classes), x la moyenne. Théorème Si toutes les valeurs du caractère sont multipliées (ou divisées) par une constante a, sans changer les effectifs, la moyenne est ellemême multipliée (ou divisée) par a. Si on ajoute (ou retranche) une même constante b à toutes les valeurs du caractère, sans changer les effectifs, la moyenne est elle-même augmentée (ou diminuée) de b. Commentaire Cela est assez naturel et résulte simplement du calcul d une moyenne. Si l on a multiplié les valeurs par a la nouvelle moyenne, que l on notera m vaut : m n 1a x 1+ n 2a x 2+... + n pa x p a( n 11 x + n 2 x 2 +... + npxp) = = n1+ n2+... + np n1+ n2+... + np ( nx 11+ n2x2+... + npxp) m = a = a x. n1+ n2+... + np Si l on a ajouté b à toutes les valeurs, la nouvelle moyenne, que l on notera M vaut : M n 1( x 1+ b) + n 2( x 2+ b) +... + n p( x p + b) = n1+ n2+... + np ( M nx 11+ n 2 x 2+... + n p x p) + ( n 1b+ n 2b+... + n pb) = n1 + n 2 +... + n p 18

Exemple ( M nx 11+ n 2 x 2+... + n p x p) ( n1+ n2+... + np ) b = + = x + b. n1+ n2+... + np n1+ n2+... + np Si nous prenons les temps de parcours de l activité, et si nous supposons que tous les élèves font l aller et le retour chaque jour, nous pouvons calculer leur temps de trajet quotidien, en multipliant les temps par 2, et même hebdomadaire (en comptant 5 jours de classe par semaine) en les multipliant par 10. Temps de parcours (en min) 0 1 2 3 4 5 6 7 Durée trajet quotidien 0 2 4 6 8 10 12 14 Durée trajet hebdomadaire 0 10 20 30 40 50 60 70 Effectif (inchangé) 2 4 5 4 6 1 9 2 Le temps de trajet quotidien moyen sera obtenu directement en multipliant par 2 la moyenne trouvée à l activité : durée moyenne du trajet quotidien = 2 18, 4= 36, 8 min. Le temps de trajet hebdomadaire moyen sera obtenu directement en multipliant par 10 la moyenne trouvée à l activité : durée moyenne du trajet hebdomadaire = 10 18, 4 = 184 min. De même, on peut calculer le temps scolaire journalier (trajet aller retour et temps de présence au lycée) de chaque élève. Pour cela il faut multiplier par 2 les temps donnés dans l activité, et ajouter 9 heures (de 8h à 17h) de présence, soit 540 minutes. Temps de parcours (en min) 0 1 2 3 4 5 6 7 Temps scolaire quotidien 540 542 544 546 548 550 552 554 Effectif (inchangé) 2 4 5 4 6 1 9 2 Le temps scolaire quotidien moyen sera obtenu directement en multipliant par 2 la moyenne trouvée à l activité et en ajoutant 540 : temps scolaire journalier moyen = 2 18, 4 + 540 = 576, 8 min. Supposons que l on s intéresse à un caractère quantitatif pour une population d effectif total N. N Supposons que cette population soit partagée en deux groupes, l un d effectif p pour lequel la moyenne du caractère est m 1, et l autre d effectif q (avec p+ q = N ) pour lequel la moyenne du caractère est m 2. On note x la moyenne du caractère pour la population entière. Théorème Si une population d effectif total N est partagée en deux groupes, l un d effectif p de moyenne m 1, l autre d effectif q (avec p+ q = N ) et de moyenne m 2, la moyenne de la population pm qm entière est : x = 1 + 2. N 19

Commentaire Exemple Cela résulte du fait que pm 1 est la somme de toutes les valeurs du caractère pour le premier groupe, et que q m2 est la somme de toutes les valeurs du caractère pour le deuxième groupe. pm 1+ qm 2est donc la somme de toutes les valeurs du caractère pour la population totale. La moyenne s obtient en divisant cette somme par l effectif total N. Revenons à nos 250 élèves de seconde, dont 138 sont des filles et 112 des garçons. La fiche de renseignements nous a donné la taille de chaque élève et nous avons calculé que la taille moyenne des filles est 1,66 m, et la taille moyenne des garçons 1,72 m. Calculons la taille moyenne des 250 élèves. Le total des tailles des filles est : 1, 66 138 = 229, 08. Le total des tailles des garçons est : 1, 72 112 = 192, 64. Le total des tailles des 250 élèves est : 1, 66 138 + 1, 72 112 = 229, 08 + 192, 64 = 421, 72. La taille moyenne des 250 élèves est donc : 1, 66 138 + 1, 72 112 421, 72 = = 1, 68688 soit environ 1,69 m. 250 250 Moyenne «élaguée». Lorsqu une des modalités d une série statistique paraît non significative, ou erronée, on ne tient pas compte de cette valeur pour calculer la moyenne. On dit alors que l on calcule une moyenne élaguée. Définition On appelle moyenne élaguée d une série statistique, une moyenne calculée sans tenir compte des valeurs aberrantes de cette série. Exemple On a relevé les tailles de 80 élèves de seconde. On a obtenu le tableau suivant : Taille en m 1,60 1,63 1,68 1,70 1,72 1,75 1,78 1,85 3,86 Effectif 1 6 8 17 10 14 12 9 3 Calculer la moyenne de cette série, ou une moyenne élaguée si nécessaire. On a relevé les salaires mensuels de 80 salariés d une entreprise. On a obtenu le tableau suivant : Salaire en 1600 1630 1680 1700 1720 1750 1780 1850 3860 Effectif 1 6 8 17 10 14 12 9 3 20

Calculer la moyenne de cette série, ou une moyenne élaguée si nécessaire. Réponses. Dans cette série, on voit tout de suite que la dernière modalité est incohérente. En effet elle ne peut en aucun cas correspondre à une taille d élève. On va donc ici la négliger, et calculer une moyenne élaguée. On aura donc une taille moyenne de : 160, 1+ 163, 6+... + 185, 9 133, 43 = 173, m. 1+ 6+... + 9 77 Dans cette série, par contre, la dernière modalité n est pas du tout incohérente. En effet elle peut tout à fait correspondre à un salaire mensuel, et le fait que ce salaire soit le double du précédent n est pas du tout aberrant dans une échelle de rémunérations. On aura donc un salaire mensuel moyen de : 1600 1+ 1630 6 +... + 1850 9 + 3860 3 145010 = 1812, 63. 1+ 6+... + 9+ 3 80 Saisie Effacement c) Utilisation d une calculatrice ou d un logiciel (tableur) Les calculs faits dans le cours sont développés pour vous permettre de comprendre les notions. Mais dans la pratique, y compris dans les exercices et les devoirs (sauf avis contraire), vous effectuerez ces calculs à l aide de votre calculatrice ou d un ordinateur. Calculer une moyenne, une médiane, représenter une série à l aide d une calculatrice TI 82 Stats.fr (les procédures sont identiques ou très voisines pour les autres modèles de TI). Il faut d abord saisir les données (ici, celles de l activité sur la taille des familles des 250 élèves de seconde). Appuyer sur la touche stats, puis choisir le menu EDIT, suivi de entrer. Sur l écran apparaît alors l éditeur de listes, dans lequel on se déplace avec les touches. On tape chaque valeur du caractère ( x i ) dans une colonne (par exemple L1 ), et chaque effectif ou fréquence ( n i ) dans une autre colonne (par exemple L2 ). Pour effacer une liste complète, on place le curseur sur le haut de la colonne (par exemple L1 ), on tape sur la touche annul, suivie de entrer. 21

Calcul Graphiques Appuyer de nouveau sur la touche stats, puis choisir le menu CALC, suivi de entrer. Sur l écran apparaît alors l indication Stats 1-Var et le curseur clignote. Taper alors L1, L2 pour indiquer, dans l ordre, la liste des valeurs et celle des effectifs. (touches 2nde des touches 1 et 2, et touche située au-dessus de la touche 7 ). Appuyer sur entrer, et apparaît à l écran la liste des paramètres de la série statistique : moyenne ( x ), somme de toutes les valeurs (Σx), effectif total (n), médiane (Med), quartiles (Q1, Q3), etc. On peut représenter une série statistique par un histogramme ou par un diagramme en boîte après avoir saisi les données. Appuyer sur la touche graph stats (touche 2nde de la touche f(x) ), puis sur entrer (ce qui sélectionne le dessin n 1 : Graph1). On place le curseur sur ON que l on valide par entrer, puis sur le type de graphique ou que l on valide par entrer. On renseigne alors la ligne ListeX avec L1, pour indiquer la liste des valeurs, et la ligne Effectifs avec L2, pour indiquer la liste des effectifs. On affiche alors le (ou les) graphique(s) en appuyant sur la touche graphe. Saisie Calculer une moyenne, une médiane, représenter une série à l aide d une calculatrice Casio GRAPH 25 (les procédures sont identiques ou très voisines pour les autres modèles de Casio). Il faut d abord saisir les données. Dans le menu général, sélectionner l icône STAT (ou LIST ), et appuyer sur ENTER. Sur l écran apparaît alors l éditeur de listes, dans lequel on se déplace avec les touches. 22

On tape chaque valeur du caractère ( x i ), suivi de ENTER, dans une colonne (par exemple List 1 ), et chaque effectif ou fréquence ( n i ), suivi de ENTER, dans une autre colonne (par exemple List 2 ). Effacement Calculs Pour effacer une liste complète, on place le curseur sur un élément de la liste, on sélectionne DEL-A (touche F4 ), suivie de YES. En bas de l éditeur de listes se trouve un menu déroulant horizontal. On active le sous-menu CALC en appuyant sur la touche F2, puis le menu SET. On renseigne alors la ligne 1Var Xlist avec List 1, pour indiquer la liste des valeurs, et la ligne 1Var Freq avec List 2, pour indiquer la liste des effectifs. Taper alors EXIT. Sélectionner enfin le menu 1VAR en appuyant sur la touche F1. Apparaît à l écran la liste des paramètres de la série statistique : moyenne ( x ), somme de toutes les valeurs (Σx), effectif total (n), médiane (Med), etc. Graphiques On peut représenter une série statistique par un histogramme ou par un diagramme en boîte après avoir saisi les données. Dans l éditeur de listes on active le sous-menu GRPH en appuyant sur la touche F1, puis le menu SET. On renseigne alors la ligne Graph Type avec le type de graphique souhaité, en validant une des options du menu horizontal du bas de l écran, puis la ligne XList avec List 1, pour indiquer la liste des valeurs, et la ligne Frequency avec List 2, pour indiquer la liste des effectifs. On valide l écran (ou on QUIT ). On affiche alors le graphique en validant GRPH, puis GPH1. Saisie Calculs Calculer une moyenne, une médiane, représenter une série à l aide d un tableur. Il faut d abord saisir les données, que l on met dans deux colonnes, une pour les valeurs du caractère (par exemple la colonne A), une pour les effectifs (ou fréquences) correspondants (par exemple la colonne B). Ici il y a 10 valeurs. Pour les calculs, on utilise les fonctions statistiques présentes dans la plupart des tableurs, c est à dire : 23

Moyenne Graphiques MOYENNE, MEDIANE, QUARTILE, FREQUENCE, SOMME, MIN, MAX, lorsque les valeurs de la série sont toutes énumérées dans une colonne (c est à dire que les effectifs sont tous égaux à 1). Sinon, dans le cas où les valeurs sont regroupées avec leur effectif (ou fréquence) dans une deuxième colonne, il faut faire les calculs intermédiaires avec le tableur. On calcule dans la colonne C les produits des valeurs (colonne A) par leur effectif (colonne B) en écrivant dans la cellule C2 : =A2*B2, et en «étirant» la formule vers le bas jusqu à la dernière valeur. Dans deux cellules libres (par exemple B12 et C12) on calcule les sommes des colonnes B et C (effectif total et somme de toutes les valeurs) en écrivant : =SOMME(B2 :B11) et =SOMME(C2 : C11). La moyenne s obtient alors en divisant la somme des valeurs par l effectif total, en écrivant dans une cellule libre (par exemple C13) : =C12/B12. On peut représenter une série statistique par un histogramme ou par un diagramme en boîte après avoir saisi les données, lorsque les valeurs de la série sont toutes énumérées dans une colonne (c est à dire que les effectifs sont tous égaux à 1). On utilise alors l assistant graphique. Sinon, dans le cas où les valeurs sont regroupées avec leur effectif (ou fréquence) c est plus difficile. D autres caractéristiques de position, la médiane, les quartiles a) Médiane d une série statistique. Supposons donnée une série statistique à caractère quantitatif, les valeurs du caractère étant rangées par ordre croissant (ou décroissant). Définition La médiane de la série est une valeur du caractère qui partage la série en deux groupes (l un des valeurs inférieures à la médiane, l autre des valeurs supérieures) de même effectif. Commentaire Cela signifie que 50 % de la population a une valeur du caractère inférieure à la médiane, et que 50 % de la population a une valeur du caractère supérieure à cette médiane. 24

Exemple Dans l une des classes de seconde précédemment évoquées, on a relevé la taille des élèves, et obtenu : cm 150 155 160 162 163 165 166 167 168 170 173 174 176 178 179 Effectif 1 1 2 1 2 3 1 2 1 1 2 1 1 3 1 Déterminez la médiane de cette série. Dans une autre classe de seconde, on a aussi relevé la taille des élèves, et obtenu : cm 157 159 162 163 164 165 166 167 169 171 173 176 177 178 180 Effectif 1 2 2 1 3 3 1 3 1 2 2 4 5 1 3 Déterminez la médiane de cette série. Réponses. Dans cette série, nous avons 23 données classées par ordre croissant. Si nous prenons la 12 ème valeur, c est-à-dire ici 167, nous aurons bien partagé la série en deux parties de même effectif. La médiane de cette série est donc 167 cm. Dans cette série, nous avons 34 données classées par ordre croissant. Si nous prenons une valeur comprise entre la 17 ème et la 18 ème valeur, c est-à-dire ici entre 169 et 171, nous aurons bien partagé la série en deux parties de même effectif. On peut prendre la valeur située au milieu, 170. La médiane de cette série sera donc 170 cm. Remarque Quand le caractère est quantitatif discret, et que l effectif est impair, la médiane est une valeur de la série. C est la valeur centrale, pour laquelle il y a exactement N 1 valeurs inférieures et N 1 valeurs supérieures. 2 2 Quand le caractère est quantitatif discret, et que l effectif est pair, la médiane n est pas une valeur de la série. On peut prendre pour médiane n importe quelle valeur entre les deux valeurs centrales. On prend souvent la demisomme de ces deux valeurs. b) Quartiles d une série statistique. Supposons donnée une série statistique à caractère quantitatif, les valeurs du caractère étant rangées par ordre croissant (ou décroissant). 25

Définition Les quartiles de la série sont trois valeurs du caractère qui partagent la série en quatre groupes de même effectif. On les note souvent Q 1, Q 2 et Q 3 par ordre croissant, et Q 2 est la médiane. Commentaire Exemple Cela signifie que 25% de la population a une valeur du caractère inférieure à Q 1, 25% de la population une valeur du caractère comprise entre Q 1 et la médiane, 25% une valeur comprise entre la médiane et Q 3, et 25% une valeur supérieure à Q 3. Reprenons les deux exemples ci-dessus. Pour la première série les quartiles sont : Q 1 = 163 Q 2 = 167 = Médiane Q 3 = 174 Pour la deuxième série les quartiles sont : Q 1 = 164 Q 2 = 170 = Médiane Q 3 = 177 Remarque Comme pour la médiane, la détermination des quartiles est parfois sujette à discussion quant au choix de la valeur à choisir. En réalité, la précision n est pas fondamentale : ce qui compte c est de découper la population en deux ou quatre parties de même effectif, environ. Commentaire Lorsque l effectif total est très grand (plusieurs centaines de données), la précision n a pas d importance (par exemple pour les 250 élèves, on peut découper la population en quatre groupes de 62, 63, 63 et 62 personnes, ou 63, 62, 62 et 63 personnes, sans que cela change grand-chose. Par contre, lorsque l effectif total est faible, cette précision semble plus importante ; en réalité, il faut comprendre que faire des statistiques sur un petit nombre de valeurs n est pas très intéressant, en particulier découper un petit effectif en quatre groupes «représentatifs» n a pas beaucoup de sens. C est le cas de nos deux exemples ci-dessus. c) Détermination graphique de la médiane ou des quartiles d une série statistique. Supposons donnée une série statistique à caractère quantitatif continu, les valeurs du caractère étant rangées en classes par ordre croissant (ou décroissant). On peut déterminer facilement dans quelle classes se trouve la médiane (ou un quartile), mais si l effectif de cette classe est important, on ne saura pas bien comment déterminer plus précisément cette médiane. 26

On peut alors utiliser une méthode graphique pour donner une valeur plus significative. Pour cela on utilise le polygone des effectifs cumulés (croissants ou décroissants), défini à l activité, et on détermine, par extrapolation, la valeur du caractère correspondant à la moitié (ou un quart, ou trois quarts) de l effectif total. On considère que cette valeur est une bonne approximation de la médiane (ou du premier quartile, ou du troisième quartile). Exemple Reprenons les temps de parcours de l activité, après regroupement par classes de 10 minutes. Construisons le polygone des effectifs cumulés croissants, correspondant au tableau ci-dessous. minutes) Effectif Effectif cumulé croissant C est à dire nombre d élèves dont le temps de parcours est : 0 inférieur à 0 min [0 ; 10[ 61 61 inférieur à 10 min [10 ; 20[ 90 151 inférieur à 20 min [20 ; 30[ 84 235 inférieur à 30 min [30 ; 40[ 5 240 inférieur à 40 min [40 ; 50[ 5 245 inférieur à 50 min [50 ; 60[ 2 247 inférieur à 60 min [60 ; 70[ 1 248 inférieur à 70 min [70 ; 80[ 0 248 inférieur à 80 min [80 ; 90] 2 250 inférieur à 90 min On commence le graphique (voir page suivante) par un effectif de 0 pour une abscisse de 0 min car il n y a aucun élève dont le temps de parcours soit inférieur à 0 minutes. On poursuit par un effectif de 61 pour 10 minutes. Puis un effectif de 151 pour 20 minutes, et ainsi de suite. On relie ensuite ces points pour construire le polygone. On repère, en ordonnées, le quart et la moitié de l effectif, et on lit, en abscisses, les valeurs approximatives du premier quartile et de la médiane : 27

250 Effectifs cumulés 200 150 50% 100 25% 50 40 20 Temps de parcours Q 1 Mé 30 40 50 60 70 80 90 28 On trouve par exemple : Q 1 10, 1 ; Médiane 17. Un quart des élèves a un temps de parcours inférieur à 10,1 min, la moitié un temps de parcours inférieur à 17 min. Remarque On voit sur cet exemple que Q 1, correspondant à 25% de la population, correspond à un effectif «virtuel» de 62,5 élèves. On lit Q 1 10, 1. Si l on avait pris la 62 ème valeur on aurait eu : Q 1 = 10, si l on avait pris la 63 ème valeur on aurait eu : Q 1 = 10 également. La différence est sans signification pour ce type de renseignement. De même la médiane «réelle», c est à dire la valeur entre les 125 ème et 126 ème données, est 19 minutes alors que sur le graphique, on a lu une valeur médiane de 17 minutes. Cela est dû au regroupement par classes.

Des caractéristiques de dispersion, l étendue, l écart interquartile Les caractéristiques vues précédemment (moyenne, médiane, quartiles) permettent de «positionner» la série statistique. On va voir maintenant comment caractériser sa dispersion. a) L étendue d une série statistique. Pour mesurer la dispersion d une série, la première caractéristique, extrêmement simple, que l on utilise est l étendue (que vous avez déjà rencontrée en collège). Supposons donnée une série statistique à caractère quantitatif. On note x max et x min les valeurs maximale et minimale du caractère. Définition L étendue d une série statistique est égale à : x max x min. Commentaire La signification de l étendue est évidente : c est l écart entre la plus petite et la plus grande valeur du caractère. On peut le visualiser ainsi : X min Médiane X max Étendue 50% 50% Exemple Prenons les temps de parcours de l activité. Vous avez déjà calculé l étendue qui est de : 90 0 = 90 min. b) L écart interquartile d une série statistique. La deuxième caractéristique que l on définit est l intervalle interquartile. Supposons donnée une série statistique à caractère quantitatif. On note Q 1 et Q 3 les premier et troisième quartiles. Définition L intervalle interquartile est l intervalle : Q 1;Q 3. L écart interquartile est égal à : Q3 Q 1. Commentaire La signification de l intervalle interquartile est que les 50% «centraux» des valeurs de la série se trouvent dans cet intervalle. On peut le visualiser ainsi : 29

X min Q 1 Médiane Q 3 Écart interquartile X max 25% 50% 25% Exemple Exemple Prenons les temps de parcours de l activité. Quel est l intervalle interquartile? On peut vérifier que Q 1 = 10, et Q 3 = 23. L intervalle interquartile est donc l intervalle 10 ; 23. c) Résumé d une série statistique par un indicateur de position et un de dispersion On résume souvent les séries statistiques en donnant un indicateur de position et un de dispersion. Les couples choisis sont en général : la moyenne et l étendue ou la médiane et l intervalle interquartile (vous verrez en classe de première un autre couple possible : moyenne et écart type). Moyenne et étendue On peut résumer une série statistique par le couple moyenne étendue. Prenons les temps de parcours de l activité. On peut résumer cette série en disant que le temps de parcours moyen est de 18,4 min, et que l étendue est de 90 min. Remarque Ce couple moyenne étendue a l inconvénient d être sensible aux valeurs extrêmes, lesquelles peuvent parfois «masquer» les caractéristiques principales des autres valeurs de la série. C est particulièrement gênant lorsque quelques valeurs ne sont en fait que des valeurs «parasites» : erreurs de mesure, défaillances d un appareil de mesure, erreurs de report ou cas atypiques par exemple. Exemple Prenons encore les temps de parcours de l activité. On peut penser que les temps de parcours supérieurs à 45 minutes ne sont pas significatifs de la situation du lycée, et plutôt dus à des cas très particuliers. De même aussi pour le temps de 0 minute (le fils et la fille du proviseur! ). Si on enlève ces 7 personnes (deux à 0 min, une à 50 min, une à 55, une à 60 et deux à 90 min), on obtient une série où le temps moyen de parcours est de 17,5 min environ (au lieu de 18,4) et l étendue de 44 min seulement (au lieu de 90). La différence est assez sensible, surtout sur l étendue. Médiane et intervalle interquartile. On peut résumer une série statistique par le couple médiane intervalle interquartile. 30

Commentaire Ce couple médiane intervalle interquartile est souvent représenté graphiquement par un diagramme en boîte, appelé parfois «boîte à moustaches» ou «boîte à pattes». correspondant à : X min Q 1 Médiane Q 3 Écart interquartile X max Exemple Prenons toujours les temps de parcours de l activité. On peut résumer cette série en disant que le temps de parcours médian est de 19 min, et que l écart interquartile est de 13 min, puisque Q 1 = 10, et Q 3 = 23. Remarque Ce couple médiane intervalle interquartile a l avantage d être peu sensible aux valeurs extrêmes. On dit qu il est «robuste» par rapport aux valeurs extrêmes. Exemple Prenons encore les temps de parcours de l activité. Si l on prend les 250 élèves de seconde, on a vu ci-dessus que le temps de parcours médian était de 19 min, et que l écart interquartile était de 13 min ( Q 1 = 10, et Q 3 = 23). Si l on «élague» les sept valeurs extrêmes définies ci-dessus au et si l on prend les 243 autres élèves de seconde, on a un temps de parcours médian de 19 min encore, et un écart interquartile de 13 min encore (mais avec Q 1 = 9, et Q 3 = 22 ). C Synthèse du cours Moyenne d une série statistique Définition La moyenne d une série est la valeur du caractère calculée par : nx 11+ n2x2+... + npxp x = = fx + f x + n1+ n2+ + n 11 2 2... +f.... pxp p 31

Théorème Si toutes les valeurs du caractère sont multipliées (ou divisées) par une constante a, sans changer les effectifs, la moyenne est elle-même multipliée (ou divisée) par a. Si on ajoute (ou retranche) une même constante b à toutes les valeurs du caractère, sans changer les effectifs, la moyenne est elle-même augmentée (ou diminuée) de b. Théorème Si une population d effectif total N est partagée en deux groupes, l un d effectif p de moyenne m 1, l autre d effectif q (avec p + q = N ) et de moyenne m 2, la moyenne de la population entière est : pm qm x = 1 + 2. N Médiane, quartiles d une série statistique Définition La médiane d une série est une valeur du caractère qui partage la série en deux groupes (l un des valeurs inférieures à la médiane, l autre des valeurs supérieures) de même effectif. Définition Les quartiles d une série sont trois valeurs du caractère qui partagent la série en quatre groupes de même effectif. On les note Q 1, Q 2 et Q 3 par ordre croissant, et Q 2 est la médiane. D Exercice 1 Exercices d apprentissage On donne la série statistique : Caractère x i 12 15 19 20 25 26 27 Effectif n i 35 5 5 6 1 21 30 32

Cochez la ou les bonnes réponses. La médiane de cette série est : o a. 20 o b. 25 o c. 6 o d. 1 Le 3 ème quartile de cette série, Q 3, est : o a. 26 o b. 21 o c. 30 o d. 27 Exercice 2 0n donne la série statistique suivante, où il manque deux effectifs, mais dont on sait que la moyenne est x = 12 : Caractère x 7 10 11 12 13 14 17 i Effectif n 1 4? 6? 4 1 i Les effectifs manquant peuvent être : o a. égaux à 5 o b. non-égaux o c. égaux o d. on ne sait pas Exercice 3 La moyenne des salaires mensuels d une entreprise est 1200. On ajoute un salaire de 1250. La nouvelle moyenne x est : o a. x = 1200 o b. x = 1250 o c.1200 < x < 1250 o d. on ne sait pas Exercice 4 Dans une classe où il y a plus de filles que de garçons, la moyenne des filles à un devoir est 15 et celle des garçons 13. 1. La moyenne x de la classe à ce devoir est : o a. x > 13 o b. x > 15 o c. 13 < x < 15 o d. x = 14 Exercice 5 Les questions 1, 2 et 3 sont indépendantes Donner une série statistique, d effectif total 15, d étendue 10, et de médiane 12. a. Un élève a obtenu la note 13 au 5 ème devoir en classe. Avant ce devoir, sa moyenne était de 11. Quelle est sa nouvelle moyenne? b. Après le 6 ème devoir, sa moyenne est de 12. Quelle note a-t-il eue à ce 6 ème devoir? Dans un groupe de 60 personnes, dont 35 femmes, l âge moyen des femmes est de 22 ans et celui des hommes de 28 ans. Quel est l âge moyen du groupe? 33

Exercice 6 Le traité de Nice attribuait en 2003 aux 25 pays de l Union Européenne un nombre de votes au Conseil de l U. E. suivant le tableau ci-dessous : Pays Votes Pays Votes Pays Votes Pays Votes Pays Votes Allemagne 29 Espagne 27 Hongrie 12 Luxembourg 4 Royaume-Uni 29 Autriche 10 Estonie 4 Irlande 7 Malte 3 Slovaquie 7 Belgique 12 Finlande 7 Italie 29 Pays-Bas 13 Slovénie 4 Chypre 4 France 29 Lettonie 4 Pologne 27 Suède 10 Danemark 7 Grèce 12 Lituanie 7 Portugal 12 Tchéquie 12 On s intéresse au caractère «nombre de votes». Faites un tableau indiquant pour chaque modalité de ce caractère le nombre de pays concernés (effectif), puis un graphique en bâtons. Calculer le nombre moyen de votes par pays, ainsi que l étendue de cette série. Exercice 7 On sait que les 19 pays les moins peuplés d Europe ont une population moyenne (en 2003) de 2,19 millions d habitants par pays, et que les 23 pays les plus peuplés d Europe (sauf Russie) ont une population moyenne (en 2003) de 23,70 millions d habitants par pays. Calculer, avec ces données, la population moyenne de l ensemble des 42 pays. Une autre source d information nous donne le tableau suivant qui regroupe par tranche de population (en 2003) les 42 pays d Europe (Russie non comprise). Population (en millions) [0 ; 5[ [5 ; 10[ [10 ; 20[ [20 ; 30[ [30 ; 50[ [50 ; 90] Nombre de pays 19 8 7 1 3 4 Représenter ces données par un histogramme. Calculer la population moyenne d un pays. Comparer avec celle que l on a calculée à la question précédente. En déduire une estimation de la population totale de ces 42 pays. Construire l histogramme des effectifs cumulés croissants et en déduire, graphiquement, une estimation de la médiane de cette série. Exercice 8 Le tableau suivant regroupe par superficie les 31 pays les plus étendus du monde. Superficie (en millions de km²) 0,9 1 1,1 1,2 1,3 1,6 1,8 1,9 2 2,1 2,3 Nombre de pays 2 2 3 3 3 2 1 1 1 1 1 Superficie (en millions de km²) 2,4 2,5 2,7 2,8 3,3 7,7 8,5 9,6 10 17,1 Nombre de pays 1 1 1 1 1 1 1 2 1 1 Déterminer la médiane, l intervalle interquartile. Représenter cette série par un diagramme en boîte. Déterminer la superficie moyenne de ces 31 pays. Comparer avec la médiane. 34

3 Notion de probabilité A Activités Introduction En physique, en chimie, en biologie ou dans d autres domaines, lorsque l on réalise une expérience connue dans des conditions bien précises, en général, on sait par avance le résultat que l on va obtenir : si l on suspend une masse connue à un ressort connu, on peut prévoir l allongement de ce ressort ; si l on verse de l acide sur du calcaire, on obtient une effervescence etc. On dit que ces expériences sont déterministes. Mais, dans certains cas, même si l on connaît parfaitement les éléments de l expérience, on ne peut néanmoins pas en prévoir le résultat : si on lance en l air une pièce de monnaie parfaitement connue, on ne sait pas si elle va tomber sur pile ou sur face ; si on fait rouler sur la table un dé parfaitement connu et équilibré, on ne peut savoir sur quel numéro il va s arrêter etc. On parle alors d expériences aléatoires. Dans ce cas nous pourrons quand même prévoir quels sont les résultats possibles (Pile ou Face pour la pièce, 1, 2, 3, 4, 5 ou 6 pour le dé), et essayer de prévoir quelle «chance» (ou risque) on a que ce soit un résultat plutôt qu un autre qui se produise. Voyons sur deux activités comment on peut procéder, puis nous passerons au cours pour formaliser et approfondir. Un dé classique, parfaitement équilibré On s apprête à lancer un dé classique, cubique, parfaitement équilibré, où les six faces sont numérotées de 1 à 6. Quels résultats peut-on avoir de ce lancer? Peut-on prévoir avec quelle «chance» chacun d entre eux pourrait arriver? Réponses Bien entendu, les résultats possibles de ce lancer sont les numéros 1, 2, 3, 4, 5 ou 6. On pourrait aussi imaginer comme résultat le fait que le dé s arrête en équilibre sur une de ses arêtes : on dit alors qu il est «cassé». Pour simplifier l exemple, nous supposerons qu il est rigoureusement impossible que le dé s arrête autrement que sur l une de ses faces. 35