Statistique descriptive univariée

Documents pareils
Séries Statistiques Simples

Statistiques Descriptives à une dimension

Statistique : Résumé de cours et méthodes

Annexe commune aux séries ES, L et S : boîtes et quantiles

Représentation d une distribution

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Introduction à la statistique descriptive

Statistique Descriptive Élémentaire

1. Vocabulaire : Introduction au tableau élémentaire

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

3. Caractéristiques et fonctions d une v.a.

C f tracée ci- contre est la représentation graphique d une

STATISTIQUES DESCRIPTIVES

Analyse et interprétation des données

Logiciel XLSTAT version rue Damrémont PARIS

TSTI 2D CH X : Exemples de lois à densité 1

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Collecter des informations statistiques

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Chapitre 1 : Évolution COURS

Complément d information concernant la fiche de concordance

Le patrimoine des ménages retraités : résultats actualisés. Secrétariat général du Conseil d orientation des retraites

Formats d images. 1 Introduction

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Le chiffre est le signe, le nombre est la valeur.

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Comparaison de fonctions Développements limités. Chapitre 10

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Image d un intervalle par une fonction continue

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

CHAPITRE 2. Les variables

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Lire ; Compter ; Tester... avec R

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Leçon N 4 : Statistiques à deux variables

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Chapitre 6. Fonction réelle d une variable réelle

Résumé du Cours de Statistique Descriptive. Yves Tillé

Statistiques 0,14 0,11

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Projet de Traitement du Signal Segmentation d images SAR

Statistiques avec la graph 35+

TD d économétrie appliquée : Introduction à STATA

Chapitre 3. Les distributions à deux variables

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Feuille d exercices 2 : Espaces probabilisés

chapitre 4 Nombres de Catalan

Limites finies en un point

Famille multirésidence : recensement et sources alternatives

Statistiques à une variable

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

O, i, ) ln x. (ln x)2

Continuité et dérivabilité d une fonction

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

La classification automatique de données quantitatives

- Ressources pour les classes

URBAIN-RURAL : DE QUOI PARLE-T-ON?

Introduction au Data-Mining

ELEC2753 Electrotechnique examen du 11/06/2012

Probabilités conditionnelles Loi binomiale

Continuité en un point

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

CCP PSI Mathématiques 1 : un corrigé

Les Français et le chauffage. Résultats de l étude menée

Définitions. Numéro à préciser. (Durée : )

Relation entre deux variables : estimation de la corrélation linéaire

IV- Equations, inéquations dans R, Systèmes d équations

données en connaissance et en actions?

La médiatrice d un segment

Les devoirs en Première STMG

Observatoire Economique et Statistique d Afrique Subsaharienne

Initiation à l algorithmique

DIVISION DE CAEN Hérouville-Saint-Clair, le 15 octobre 2013

SYNTHÈSE DOSSIER 1 Introduction à la prospection

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE

Fluctuation d une fréquence selon les échantillons - Probabilités

Classe de première L

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Élément 424b Introduction à la statistique descriptive

Chp. 4. Minimisation d une fonction d une variable

MATHÉMATIQUES. Mat-4104

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Cours d initiation à la programmation en C++ Johann Cuenin

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Sondage de référence 2005 sur la satisfaction des clients du CRSH

Indications pour une progression au CM1 et au CM2

Brock. Rapport supérieur

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Formules et Approches Utilisées dans le Calcul du Coût Réel

Transcription:

Thème 1 Statistique descriptive univariée 1.1 Introduction La statistique descriptive remonte aux années 1660, époque à laquelle John Graunt effectue des travaux démographiques sur la mortalité des habitants de Londres. Elle consiste à décrire numériquement des ensembles nombreux. La statistique descriptive s oppose aux méthodes de description qualitative, qui sont plus nuancées dans le détail, mais aussi limitées par leur caractère imprécis et subjectif, qui utilisent comme moyen d expression le langage littéraire. Il faut toutefois prendre se garder d accorder aux données statistiques une valeur ou une précision qu elles ne possèdent pas. La statistique doit nécessairement simplifier : lorsqu on décrit une population suivant un certain caractère (par exemple lorsqu on étudie la couleur des yeux d une population), on considère que tous les individus présentant la même modalité du caractère (par exemple ayant les yeux bleus) sont considérés comme équivalents. On peut prendre en compte un nombre élevé de critères de différentiation entre les individus, mais le coût de rassemblement de l information s en trouve rapidement alourdi et l analyse compliquée. D autre part, il faut prendre garde au fait que les données statistiques, étant des mesures, comportent des erreurs (par exemple, à l époque où le recensement de la population était en théorie exhaustif, il ne couvrait que 98.4% de la population). Les unités sur lesquelles portent l analyse statistique doivent appartenir à un ensemble homogène, bien délimité, faute de quoi les mesures quantitatives perdent leur valeur d information (à quelle nuance de couleur d yeux considère-t-on que l œil est bleu ou vert?). D autre part, la statistique ne s intéresse pas au cas rares : les permanences statistiques n apparaissant que dans des ensembles nombreux : la démographie ne peut ainsi pas étudier la mortalité des groupes de faible importance numérique car le nombre de décès y est soumis à de fortes perturbations accidentelles, qui empêchent toute analyse et toute comparaison. Pour étudier ce thème, nous utiliserons un extrait de table de l INSEE comportant un grand nombre de données pour chaque localité française. La table complète peut être trouvée sur la page http://www.insee.fr/fr/themes/detail.asp?reg_id=99&ref_id=base-cc-resume-stat Précisément, ce fichier étant trop grand, nous utiliserons l extrait disponible sur ma page web, qui comporte uniquement les données concernant le Bas-Rhin. Pour plus de facilité, le fichier Bas-Rhin-Utile.csv comporte deux colonnes. La première comporte la population, en 2009 de chacune des 527 localités du Bas-Rhin. La seconde comporte les superficies correspondantes. Nous nous servirons, essentiellement de la première colonne. 1

1.2 Définitions 1.2.1 Population, individus Définitions 1.2.1 : La statistique consiste à étudier un ensemble, appelé population, dont les éléments sont appelés unités statistiques ou encore individus. Exemples 1.2.2 : On peut ainsi étudier un ensemble de personnes : personnel d une entreprise, population française, mais aussi la production d un atelier, un ensemble d accidents... Mais cette population doit être définie avec précision. Exercice 1 : Quelle peut être la population dans notre exemple? Donnez quelques exemples d individus. 1.2.2 Caractères Définitions 1.2.3 : Chaque individu de la population peut être décrit relativement à un ou plusieurs caractères. Chacun de ces caractères peut présenter deux ou plusieurs modalités, qui sont les différentes situations possibles du caractère. Un caractère est dit qualitatif si ses diverses modalités ne sont pas mesurables, et quantitatif dans le cas contraire, c est-à-dire lorsque chacune de ses modalités est attachée à un nombre. Exemple 1.2.4 : Lorsque la population étudiée est le personnel d une entreprise, on peut par exemple étudier les caractères suivants : sexe, âge, salaire,... Les modalités du caractère sexe sont alors masculin, féminin, et le caractère est qualitatif. Celles du caractère âge varient de 16 à 70 ans, le caractère est quantitatif. Exercice 2 : Quels sont les deux caractères que nous nous proposons d étudier? Quelle est leur nature? Donner une ou deux modalités de chacun d entre-eux. Remarque 1.2.5 : Les modalités d un même caractère doivent être incompatibles et exhaustives : chaque individu présente une et une seule des modalités du caractère 1.2.3 Les caractères quantitatifs discrets Définitions 1.2.6 : On considère un caractère quantitatif. À chacune de ses modalités on associe un nombre. Ce nombre, variable avec la modalité mais spécifique de chaque modalité est appelé variable statistique. Une variable statistique est dite discrète si ses seules valeurs possibles sont des valeurs isolées. Elle est dite continue si ses valeurs possibles sont en nombre infini et a priori quelconques dans un intervalle de valeurs. 2/10

On confond caractère et variable lorsque cela est possible. Exemple 1.2.7 : Le nombre d enfants d un ménage est une variable discrète, la température d un corps est une variable continue. L âge d un individu est également une variable continue. Cependant, la distinction entre les deux types de variables est souvent arbitraire, en effet, toute mesure est discrète à cause de la précision qui est limitée. On convient alors qu une mesure représente un intervalle de valeurs. Dans un premier temps, on va s intéresser à la variable nombre d habitants et considérer que celle-ci est discrète. 1.2.4 Échantillon, Distribution statistique Définition 1.2.8 : Un n-échantillon d une variable, notée X est constitué d une suite de valeurs x 1,..., x n qui sont le résultat de l observation de X sur n unités extraites (en général au hasard) de la population de référence. Le nombre x i désigne l observation réalisée sur l unité d ordre i. n est la taille ou l effectif de l échantillon. Exercice 3 : Définir le bon chemin de fichiers. Charger le fichier, en tapant A=csvRead("Bas-Rhin-Utile.csv",";",","). Définir un vecteur Population et un vecteur Superficie contenant respectivement la population de chaque localité et sa superficie. Combien y a-t-il de localités? Quelle est la population totale? Définition 1.2.9 : On appelle distribution statistique d un n-échantillon d observations ou série statistique la donnée d un regroupement {(c 1, n 1 ),..., (c k, n k )} où les c k sont les modalités et les n k les effectifs correspondants, c est-à-dire le nombre de fois où chacune des modalités est comptée. Exercice 4 : Pour construire la distribution statistique de notre échantillon formé des localités du Bas-Rhin, on peut utiliser la commande tabul, qui construit une matrice de 2 colonnes, la première contenant les modalités par ordre décroissant (par défaut ; pour les obtenir par ordre croissant, utiliser l option "i"), la seconde contenant l effectif de chaque modalité. Définir la matrice Population_modalites comprenant la distribution statistique de la population, les modalités étant classées par ordre croissant. Quel est l effectif dans notre exemple? Combien y a-t-il de modalités différentes dans notre exemple? 1.2.5 Fréquences Définition 1.2.10 : On considère une distribution statistique {(c 1, n 1 ),..., (c k, n k )}. On appelle fréquence de la modalité c i le quotient de l effectif n i par l effectif total n : f i := n i n. 3/10

Exercice 5 : Construire le vecteur Frequences comportant les fréquences de chaque modalité. Proposition 1.2.11 : Les effectifs et les fréquences vérifient les égalités k n i = n et k f i = 1. Cela découle immédiatement de ce que les modalités sont incompatibles et exhaustives. Remarque 1.2.12 : Si on veut obtenir la répartition en pourcentage plutôt qu en fréquence, il suffit de multiplier les fréquences par 100. Définitions 1.2.13 : Considérons à présent un caractère X quantitatif discret, ayant pour modalités c 1,..., c k, classées par ordre croissant, et des effectifs correspondants n 1,..., n k. On appelle effectif cumulé croissant correspondant à la condition X x le nombre n i (c est-à-dire la somme des effectifs correspondant i c i x aux modalités vérifiant c i x). On obtient les fréquences cumulées croissantes correspondantes soit en divisant les effectifs cumulés par l effectif total, soit en additionnant les fréquences cumulées. On appelle fonction de répartition empirique la fonction F : x F (x) où F (x) désigne la fréquence cumulée correspondant à X x. On peut bien sûr définir les effectifs cumulés décroissants et les fréquences cumulées décroissantes. Exercice 6 : À l aide de la commande cumsum, définir le vecteur comportant les fréquences cumulées croissantes de chaque modalité. 1.3 Représentations graphiques Exercice 7 : La commande bar permet de dessiner des diagrammes en bâtons. Utiliser cette commande pour représenter la population de chaque commune. Que pensez-vous du dessin obtenu? Lorsqu on veut comparer les effectifs des modalités du caractère, on utilise les fréquences, ou les fréquences cumulées. 1.3.1 Diagramme des fréquences, histogrammes Définition 1.3.1 : Supposons que les k modalités c j aient pour effectifs respectifs n i. On reporte alors sur l axe des abscisses les modalités c j, et au dessus de chacune d elle on trace un segment de longueur proportionnelle à la fréquence associée. Un tel diagramme est appelé diagramme des fréquences ou diagramme en bâtons. On peut également utiliser les effectifs au lieu des fréquences. 4/10

Exercice 8 : À l aide de la commande bar mais avec deux paramètres, tracer un tel diagramme pour la population, d une part en utilisant les fréquences et d autre part en utilisant les effectifs. 1.3.2 Polygone des fréquences cumulées On représente en abscisse les différentes modalités possibles, ou, en cas de regroupements en classes, les bornes de droite des intervalles (pour les fréquences cumulées croissantes, ou gauche pour les fréquences cumulées décroissantes). En ordonnée, on représente alors la valeur des fréquences cumulées croissantes. On peut bien sûr également dessiner des polygones des effectifs cumulés... Exercice 9 : Effectuer cette représentation graphique. 1.4 Paramètres de position On s intéresse ici uniquement à des variables quantitatives X. On note (c i )..k les modalités (supposées distinctes), (n i )..k les effectifs correspondants et (f i )..k les fréquences correspondantes. Les paramètres de position sont des nombres autour desquels se répartissent les valeurs observées de la variable. 1.4.1 Mode Définition 1.4.1 : On appelle mode, ou parfois dominante d une distribution statistique (resp. classe modale d une distribution statistique) toute valeur (modalité ou classe) correspondant à l effectif maximal (resp. densité maximale dans le cas des classes). (Autrement dit, le mode est la modalité la plus fréquente.) Remarque 1.4.2 : Il n y a pas nécessairement unicité du mode. Exercice 10 : À l aide de la commande find, déterminer quelle taille de population réalise le mode. En utilisant le fichier Excel, déterminer les communes correspondantes. Exercice 11 : Retrouver le résultat à l aide de l une des représentations graphiques précédentes. 1.4.2 Moyenne Définition 1.4.3 : On appelle moyenne de la série statistique le nombre, noté x défini par x := 1 n k n i c i = k f i c i. 5/10

Définition 1.4.4 : Soit (x 1,..., x n ) un échantillon de la variable X. On appelle moyenne de l échantillon le nombre x := 1 n n x i. Exercice 12 : À l aide de la commande mean, calculer la moyenne de notre série. Comment l interpréter? Sans utiliser de commande particulière à Scilab, proposer un algorithme permettant de calculer la moyenne. Définition 1.4.5 : Dans le cas où X admet une moyenne dans la population de référence, inconnue en général, cette moyenne est appelée moyenne théorique de X ou encore, plus fréquemment, espérance de X. On la note généralement µ, µ(x) ou EX. Remarque 1.4.6 : x est alors une estimation de l espérance, et, sous certaines conditions, x µ. Une telle propriété n + est connue sous le nom de loi forte des grands nombres (LFGN). Remarque 1.4.7 : Pour des réels λ et µ donnés, on peut regarder la distribution statistique {(u i, n i )} avec i, u i := λc i +µ. µ correspond à un changement d origine, λ a un changement d échelle. Alors u = λx + µ. 1.4.3 Médiane Définition 1.4.8 : On appelle médiane toute valeur µ vérifiant les deux conditions suivantes : La moitié au plus de l effectif total de la série a un caractère de valeur inférieur à µ. La moitié au plus de l effectif total de la série a un caractère de valeur supérieur à µ. S il y a un nombre impair d observations, la médiane est l observation qui se trouve au milieu (si on les classe par ordre croissant). Dans le cas contraire, on retient en général le milieu des deux observations centrales. On définit de façon analogue les quartiles, qui, moralement, permettent de séparer une population en quatre parties de même effectif. La définition précise change selon les sources! Exercice 13 : Déterminer, en utilisant la commande median (inutile en fait) et la commande quart la médiane et les quartiles de la distribution. Interpréter. Proposer un algorithme permettant de les déterminer à la main. Utiliser le polygone des fréquences cumulées pour les retrouver. 1.5 Paramètres de dispersion On s intéresse ici uniquement à des variables quantitatives X. On note (c i )..k les modalités (supposées distinctes) (resp. les centres des classes), (n i )..k les effectifs correspondants et (f i )..k les fréquences cor- 6/10

respondantes. Les paramètres de dispersionsont des nombres indiquant le degré de dispersion des observations, autrement dit l homogénéité de l échantillon. 1.5.1 Étendue Définition 1.5.1 : On appelle étendue d une série statistique la différence entre la plus grande et la plus petite observation. Remarque 1.5.2 : Ce paramètre est très sensible aux valeurs extrêmes. Il n est utilisé que rarement. Exercice 14 : Déterminer l étendue dans notre exemple. 1.5.2 Variance Définition 1.5.3 : La variance d une série statistique, notée V (X) ou V, est la moyenne des carrés des écarts des valeurs observées à la moyenne de la série statistique : V (X) := 1 n k n i (c i x) 2 = 1 n n (x i x) 2. Proposition 1.5.4 : On a aussi V (X) = 1 n n x 2 i x2 = 1 n k n j c 2 j x2. j=1 Définition 1.5.5 : : Si la variable X admet une variance dans la population de référence, inconnue en général, et notée σ 2 ou σ 2 (X), alors V (X) est une estimation de la variance. σ 2 (X) est appelée variance théorique. Définition 1.5.6 : On appelle variance corrigée de la série statistique V c (X) := n n 1 V (X). Remarque 1.5.7 : La variance corrigée est introduite car on verra à la fin de l année qu elle donne une estimation sans biais de σ 2. Remarque 1.5.8 : Sous certaines conditions, V (X) σ 2 (X) quand n. Il s agit encore d une propriété type loi des grands nombres. De plus, pour n grand, la correction est insignifiante. 7/10

1.5.3 Écart-type La variance étant une somme de carrés, elle ne s exprime pas dans la même unité dans laquelle s expriment les observations. On règle ce problème en prenant la racine carrée de la variance : Définition 1.5.9 : On appelle écart-type d une variable la racine carrée de sa variance. On la note souvent σ. σ := V (X). Exercice 15 : À l aide de la commande st_deviation, déterminer l écart-type de notre série. 1.5.4 Coefficient de variation Exercice 16 : Selon vous (et en utilisant Scilab), les localités du Bas-Rhin sont-elles plus homogènes du point de vue de leur nombre d habitant, ou de leur superficie? Définition 1.5.10 : On appelle coefficient de variation d une variable le rapport entre l écart-type et la moyenne de cette variable : CV = σ x. Remarque 1.5.11 : L analyse de ce coefficient est la suivante : si le coefficient de variation est faible (on considère en général < 20%), la population est homogène ; si le coefficient de variation est élevé (on considère en général > 80%), la population est hétérogène. Exercice 17 : Reprendre à présent la question précédente! 1.5.5 Quartiles, quantiles Définition 1.5.12 : On appelle premier quartile le nombre noté q 0.25 qui partage la série ordonnée des résultats en deux parties dont la partie inférieure contient 1/4 des effectifs. Le troisième quartile, noté q 0.75 est tel que la partie supérieure contienne 1/4 des effectifs. (Le second quartile est la médiane.) L étendue interquartile ou simplement l interquartile, noté IRQ, est l écart entre le premier et le troisième quartile. Définition 1.5.13 : On peut également regrouper les observations en dixièmes (déciles) (ce qui donne l interdécile) ou centièmes (centiles ou percentiles) (ce qui donne l interpercentile) Exercice 18 : Déterminer l écart interquartile de notre série. 8/10

1.6 Comparaison entre les différents paramètres Exercice 19 : Définir une nouvelle série Population_sans_Stras dans laquelle vous listerez les effectifs des localités du Bas-Rhin en ôtant juste Strasbourg. Comparer les différents paramètres de position et de dispersion des deux séries. Quels avantages et inconvénients voyez-vous à chacun des paramètres? 1.7 Regroupements en classes, variables continues Vous l aurez remarqué, le nombre de modalités différentes est dans notre cas très important. On a envie de les réduire. Définition 1.7.1 : Pour étudier une variable statistique continue, on définit généralement des classes de valeurs possibles. Ces classes peuvent avoir une amplitude constante ou variable. Exemple 1.7.2 : On peut regrouper les salaires mensuels en plusieurs classes, par exemple moins de 800 euros, de 800 à moins de 900 euros, de 900 euros à moins de 950 euros, de 950 euros à moins de 1025 euros, etc. L amplitude de la première classe est indéterminée. Celles des classes suivantes sont respectivement 100, 50, 125 euros. Les extrémités des classes sont, en dehors de la première classe, 800, 900, 950, 1025 euros. Les centres des classes sont alors 850, 925, 987.5 euros. Remarque 1.7.3 : Le nombre de classes à adopter dépend de la précision des mesures, ainsi que de l effectif de la population à étudier. Un découpage en un nombre trop important de classes peut faire apparaître des irrégularités du fait du faible nombre d individus par classe. Au contraire, un nombre trop restreint de classes conduit à une perte d informations. Il s agit donc de trouver un juste milieu entre les deux. Exercice 20 : Définir des classes, c est-à-dire un vecteur C contenant une suite strictement croissante. On pourra utiliser soit la syntaxe 1:eps:n qui permet de faire des classes de même amplitude eps, soit la commande linspace(1,n,k) qui permet de définir k 1 classes. Si le temps le permet, appliquer l instruction [ind,occ,info]=dsearch(x,c), qui crée un vecteur ind dont la i-ième composante est le numéro de la classe à laquelle appartient le i-ième individu de X (classes de la forme ], ] sauf la première) et un vecteur occ qui compte l effectif associé à chaque classe (et nombre info qui indique combien d éléments ne sont dans aucune classe), Toujours si le temps le permet, en déduire une valeur approchée de la moyenne de la variable observée (on prendra les effectifs de chaque classe en considérant que la population correspondante est à chaque fois égale à celle du centre de la classe). 9/10

Définitions 1.7.4 : Dans le cas de variables continues, on a vu qu on définit généralement des classes. Soit donc ]a i, a i+1 ] une telle classe. On appelle amplitude de cette classe le réel a i+1 a i. On appelle centre de cette classe le réel ai+ai+1 2. On appelle densité de la classe le quotient de son effectif par son amplitude, c est-à-dire d i := n i a i+1 a i. Définition 1.7.5 : Supposons que les modalités soient regroupées en k classes ]a j 1, a j ] d effectifs respectifs n i. On reporte les classes sur l axe des abscisses, et, au-dessus de chacune d entre-elles, on trace un rectangle de hauteur proportionnelle à la densité de la classe, de telle sorte que l aire du rectangle soit proportionnelle à la fréquence de la classe. Un tel diagramme est appelé histogramme. Remarque 1.7.6 : Dans le cas particulier où les classes sont toutes de même amplitude, on peut tracer l histogramme en prenant une hauteur proportionnelle à la fréquence ou même directement à l effectif associé. L aire est alors bien proportionnelle aux fréquences respectives, le coefficient de proportionnalité étant égal à l amplitude commune (resp. à l effectif total multiplié par l amplitude commune). ATTENTION : cette méthode ne peut pas s appliquer dans le cas où les amplitudes sont différentes. Exercice 21 : À l aide de la commande histplot(c,population_sans_stras), tracer l histogramme correspondant à la distribution. La règle de Sturges affirme qu on obtient un bon dessin en prenant pour nombre de classes idéal 1 + ln(n) ln(2). Essayer cette règle. 10/10