- C - Caractéristiques de dispersion et de forme d une distribution statistique. Introduction. I. Caractéristiques de dispersion



Documents pareils
Annexe commune aux séries ES, L et S : boîtes et quantiles

1. Vocabulaire : Introduction au tableau élémentaire

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Représentation d une distribution

Séries Statistiques Simples

Fonctions de deux variables. Mai 2011

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Rappel sur les bases de données

Statistiques Descriptives à une dimension

INF6304 Interfaces Intelligentes

Exercice : la frontière des portefeuilles optimaux sans actif certain

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

FONCTION DE DEMANDE : REVENU ET PRIX

Statistiques 0,14 0,11

REGARDS SUR L ÉDUCATION 2013 : POINTS SAILLANTS POUR LE CANADA

Statistiques à une variable

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

LE PROCESSUS ( la machine) la fonction f. ( On lit : «fonction f qui à x associe f (x)» )

Logiciel XLSTAT version rue Damrémont PARIS

Chp. 4. Minimisation d une fonction d une variable

Consultation

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Chapitre 6: Moment cinétique

Statistique : Résumé de cours et méthodes

Introduction aux Statistiques et à l utilisation du logiciel R

8 Certifications Minergie

Chapitre 3. Les distributions à deux variables

LES CONDITIONS D ACCÈS AUX SERVICES BANCAIRES DES MÉNAGES VIVANT SOUS LE SEUIL DE PAUVRETÉ

P R E S E N T A T I O N E T E V A L U A T I O N P R O G R A M M E D E P R E V E N T I O N «P A R L E R»

Statistique Descriptive Élémentaire

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>

LE PROBLEME DU PLUS COURT CHEMIN

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Théorie des sondages : cours 5

1. Les comptes de dépôt et d épargne

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Suivant les langages de programmation, modules plus avancés : modules imbriqués modules paramétrés par des modules (foncteurs)

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Évaluation de la régression bornée

23. Interprétation clinique des mesures de l effet traitement

PROGRAMME INTERNATIONAL POUR LE SUIVI DES ACQUIS DES ÉLÈVES QUESTIONS ET RÉPONSES DE L ÉVALUATION PISA 2012 DE LA CULTURE FINANCIÈRE

Calculs de probabilités avec la loi normale

PLAFONNEMENT DES EFFETS DU QUOTIENT FAMILIAL

Bulletin d information statistique

*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*

Evaluation de la variabilité d'un système de mesure

Lire ; Compter ; Tester... avec R

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

: seul le dossier dossier sera cherché, tous les sousdomaines

Plus courts chemins, programmation dynamique

CONDITIONS DE REUSSITE, DISPENSES, REPORTS ET CREDITS DANS L ENSEIGNEMENT SUPERIEUR

Chapitre 4: Dérivée d'une fonction et règles de calcul

Étude EcoVadis - Médiation Inter-Entreprises COMPARATIF DE LA PERFORMANCE RSE DES ENTREPRISES FRANCAISES AVEC CELLE DES PAYS DE L OCDE ET DES BRICS

Statistiques à deux variables

Enquête publique sur les changements climatiques Compléments aux graphiques

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

Chapitre 7. Circuits Magnétiques et Inductance. 7.1 Introduction Production d un champ magnétique

3. Caractéristiques et fonctions d une v.a.

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, Paris

CAPTEURS - CHAINES DE MESURES

Démographie des masseurs-kinésithérapeutes

Continuité et dérivabilité d une fonction

Mesures et incertitudes

Listes de fournitures du secondaire pour la rentrée

L analyse boursière avec Scilab

Table des matières. I Mise à niveau 11. Préface

Analyse de la variance Comparaison de plusieurs moyennes

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Variations du modèle de base

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

MIS 102 Initiation à l Informatique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

LES FRANÇAIS, L ÉPARGNE & LA RETRAITE

1. L'été le plus chaud que la France ait connu ces cinquante dernières années.

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Baromètre de l innovation Janvier 2015

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Etude Afci Andrh Inergie sur la communication managériale (3 ème édition)

Comparaison de fonctions Développements limités. Chapitre 10

FM N Contact Ifop : Frédéric Micheau Tél : frederic.micheau@ifop.com. pour

NOTE D INFORMATION n 01 Janvier 2014

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Résultats enquête en ligne auprès Génération Y 07/2013

démographie des masseurs-kinésithérapeutes

Cours d algorithmique pour la classe de 2nde

LEXOS, logiciel d'étude lexicale et de conjugaison

Le travail est-il le meilleur antidote contre la pauvreté?

Evolution de la fréquence des sinistres en assurance RC automobile

Correction du baccalauréat ES/L Métropole 20 juin 2014

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Le calcul du barème d impôt à Genève

Transcription:

Introduction - C - Caractéristiques de dispersion et de forme d une distribution statistique Les caractéristiques de tendance centrale donnent des informations sur les valeurs importantes de la distribution : - celles qui concentrent au maximum les individus (modes), - celles qui partagent la population en groupes de même effectif (médiane et quantiles) - celle qui pourrait remplacer toutes les valeurs si celles-ci se compensaient (moyenne). Les caractéristiques de dispersion et de forme ont pour objectif de rendre compte de la diversité des valeurs et de leur répartition entre les valeurs extrêmes. 1. Étendue, intervalle interquartile, écart interquartile L étendue est la différence entre la plus grande et la plus petite des modalités. Comme cette caractéristique est très sensibles aux valeurs aberrantes, on lui préfère les écarts interquantiles : - l intervalle interquantile est délimité par le premier et le dernier quantile ; - l écart interquantile est la longueur de cet intervalle. L intervalle interquartile comporte 50% de la population, l intervalle interdécile 80% et l intervalle intercentile 98%. Ces paramètres indiquent entre quelles valeurs sont fréquemment réparties les modalités, mais n indiquent pas si les modalités sont fréquemment éloignées ou proches des valeurs centrales. a) Comment exprimer la dispersion? On cherche à mesurer l écart des modalités à une valeur centrale. À chaque fois qu une valeur est différente de cette valeur centrale, elle contribue à la dispersion des modalités. On cherche à calculer cette dispersion, en moyenne. Exemple : Considérons le caractère «nombre d élèves» d une population de cinq collèges. Les modalités de la variable sont : 270, 290, 300, 370, 520. La moyenne est (270+290+300+370+520) / 5 = 350. On obtient le tableau des écarts : Modalité 270 290 300 370 520 Total Écarts à la moyenne -80-60 -50 +20 +170 0 Ce qui donne un total attendu... mais pas très intéressant!

Ce qui crée la compensation globale, c est qu il y a des différences positives et négatives. Deux possibilités sont envisageables : soit supprimer purement et simplement les signes moins, soit calculer le carré de chaque différence. b) Écart absolu moyen Commençons par la première possibilité, on obtient le tableau : Modalité 270 290 300 370 520 Total Écarts absolus 80 60 50 20 170 380 Le total des écarts absolu n a pas la même signification suivant la taille de la population (ici le nombre de collèges). Il faut donc rapporter ce total au nombre de collèges c est-à-dire calculer la moyenne des écarts absolus. On obtient 76. L effectif des collèges varie entre 270 et 520 élèves, l effectif moyen est de 350 avec un écart absolu moyen de 76. c) Écart quadratique moyen Avec la seconde possibilité, on obtient le tableau : Modalité 270 290 300 370 520 Total Écarts quadratiques 6400 3600 2500 400 28900 41800 Pour la même raison, il faut rapporter ce total (SCE) au nombre de collèges c est-à-dire calculer la moyenne des carrés des écarts. On obtient 8 360. L unité n est pas adaptée à l interprétation, on calcule donc la racine carrée de cette moyenne qui est égale à 91. L effectif des collèges varie entre 270 et 520 élèves, l effectif moyen est de 350 avec un écart quadratique moyen de 91. Le même travail pourrait être fait pour la médiane ou le mode. Comment choisir entre écarts absolus et écarts quadratiques? d) Variance et écart type? Premier argument Si on avait calculé les différences par rapport à la médiane, on aurait obtenu : - un écart absolu moyen de 66 élèves - un écart quadratique moyen de 104 élèves. Si l on choisit l écart absolu moyen pour exprimer la dispersion, alors la valeur obtenue avec la moyenne comme référence est supérieure à la valeur obtenue avec la médiane comme référence (76 contre 66), en revanche si l on choisit l écart quadratique moyen pour exprimer la dispersion, alors la valeur obtenue avec la moyenne comme référence est inférieure à la valeur obtenue avec la médiane comme référence (91 contre 104). Les statisticiens ont démontré que, de façon générale : -la médiane rend minimal l écart absolu moyen ; -la moyenne rend minimal l écart quadratique moyen. d) Variance et écart type? Deuxième argument Considérons deux élèves A et B dont les notes sur 20 sont : A : 08, 08, 08, 08, 12, 12, 12, 12 B : 02, 10, 10, 10, 10, 10, 10, 18 Pour A et B, la moyenne est 10 et l écart absolu moyen est 2. L écart quadratique moyen met en valeur la présence de modalités extrêmes, en effet, pour A il est 2 alors que pour B il est de 4. Troisième argument Dans les calculs mathématiques, l écart quadratique est plus facile à manipuler que l écart absolu.

Pour indiquer la dispersion des modalités d une distribution statistique, on choisira donc : - l écart absolu moyen par rapport à la médiane ; ou - l écart quadratique moyen par rapport à la moyenne. Exemple : Comme on se réfère souvent à la moyenne, on a simplifié le vocabulaire : - l écart quadratique moyen par rapport à la moyenne est appelé écart type (sigma). - le carré de l écart type, qui est la moyenne des carrés des écarts à la moyenne, est appelé variance. La moyenne est 11 712 ppa$ et l écart type est 3 477 ppa$. Remarque : l écart type représente 30% environ de la moyenne. Exemple (suite) : Dans l intervalle [8 235 ; 15 189] des valeurs comprises entre la moyenne plus ou moins un écart type, on trouve 14 pays sur les 19 c est-à-dire près de 75% d entre eux. Ainsi les pays contribuent d une façon analogue (la dépense moyenne à 30% près) pour les trois quarts d entre eux. L Espagne, l Islande et l Italie contribuent sensiblement moins, alors que les États-Unis et la Suisse contribuent sensiblement plus. L écart-type a permis de dégager trois groupes d individus : les individus typiques, les individus atypiques forts et les individus atypiques faibles. 3. Coefficient de variation Exemple (suite et fin) : L usage, quand on décrit une variable, est de donner son écarttype après avoir donné sa moyenne. L écart-type de la série des dépenses d éducation est 3 500 ppa$. Cet écart ne décrit pas la même dispersion lorsque la moyenne 12 000, 120 000 ou 1 200. Le rapport entre écart-type et moyenne est le coefficient de variation, il s exprime généralement en %. Il est aussi très utile lorsqu on compare deux distributions statistiques : il n y a qu à imaginer qu on étudie la taille en mm des fourmis et celle des girafes pour s en convaincre! L écart type indique donc de manière absolue la dispersion des modalités, son unité est celle des modalités de la variable. Le coefficient de variation indique la grandeur relative (en pourcentage) de cette dispersion.

L habitude de lire des histogrammes ou plus généralement des courbes de distribution de fréquence (représentation graphique de la densité de fréquence) rend sensible à la «forme» de la courbe. Les statisticiens ont explicité deux critères pour décrire la forme d une telle courbe : sa symétrie et son aplatissement. Par abus de langage, ces termes qui s appliquent à la courbe sont généralement employés pour qualifier la distribution elle-même. Si la courbe d une distribution de fréquence qui représente une variable unimodale est symétrique, alors les valeurs sont réparties dans les mêmes proportions autour du mode, et donc la moyenne et la médiane seront égales au mode. Exemple 1 : C est approximativement le cas des performances en saut. Exemple 2 : La distribution des notes au DNB des élèves de 3e générale admis en 2nde GT est symétrique. Les valeurs centrales sont approximativement égales à 11,5. Exemple 3 : La courbe de tous les élèves de 3e générale n est pas symétrique, elle est plus «étalée» à droite. Le mode est 9,5 mais la médiane et la moyenne sont supérieures à 9,5.

2. Aplatissement d une distribution Généralisation : la moyenne est plus sensibles aux valeurs extrêmes que la médiane donc la moyenne est plus éloignée du mode que la médiane La moyenne et la médiane sont du même côté par rapport au mode : celui de l étalement. La médiane est en position intermédiaire. Dans le cas d une variable unimodale, - plus les valeurs sont dispersées, plus la courbe de distribution apparaît aplatie - plus les valeurs sont concentrées autour du mode, moins la courbe de distribution apparaît aplatie. Une définition rigoureuse de l aplatissement est hors de portée de ce cours. Une évaluation est proposée à des élèves. Pour chaque question, un élève quelconque a une chance sur deux de répondre correctement! Cette évaluation est notée par le pourcentage de réussite au questionnaire de l évaluation. Si l évaluation comporte une question, le plus probable est que 50% des élèves aient la note 100% et que 50% obtiennent la note 0%. Si l évaluation comporte deux questions, il y aura quatre possibilités pour chaque élève : réussite et réussite, réussite et échec, échec et réussite, et enfin échec et échec. Donc 3 notes. Le plus probable est que 25% des élèves obtiennent la note 100%, 50% élèves obtiennent la note 50% et 25% élèves obtiennent la note 0%.

Avec trois questions, il y a huit possibilités : RRR, RRE, RER, ERR, REE, ERE, EER, et EEE. Donc quatre notes. Le plus probable est que 12,5% des élèves obtiennent 100%, 37,5% obtiennent 67%, 37,5% obtiennent 33% et 12,5% obtiennent 0%. Lorsque le nombre de questions augmente, le diagramme ressemble de plus en plus à une courbe. Cette «courbe» est symétrique autour du mode 50%. On s aperçoit aussi que plus le nombre de questions est important, plus la «courbe» se resserre autour de la valeur modale. Autrement dit l écart-type diminue. Pour une évaluation comportant 10 questions, l écart-type est de 16% environ. Pour une évaluation comportant 100 questions, l écart-type descend à 5%. Dès que le nombre de questions dépasse 10, la fonction sous jacente à chaque histogramme est une densité de fréquence définie par une loi mathématique appelée loi normale. Il y a en fait une infinité de lois normales, elles sont définies par le couple (moyenne ; l écart-type). La plus utilisée des lois normales dans la théorie des probabilités et des statistiques est la loi normale centrée réduite dont la moyenne est zéro et dont l écart-type est 1.

2. Propriétés de la loi normale L aire sous la courbe se répartit de façon telle que : dans une distribution normale, plus des 2/3 des individus sont situés à moins d un écart-type de la moyenne. Plus de 95% sont situés à moins de deux écarts-types de la moyenne et la quasi-totalité des individu sont situés à moins de trois écarts-types de la moyenne. 3. Pourquoi la loi normale est-elle importante? La loi normale est très connue car elle est utilisée pour décrire de nombreuses situations dans beaucoup de disciplines. Elle l est d ailleurs si souvent qu on peut s interroger parfois sur le bien fondé de la référence à cette loi pour décrire une situation attendue : la répartition des notes des étudiants à un examen par exemple. Son utilisation est fondamentale en statistique inférentielle car elle constitue un des outils qu on met en œuvre pour comparer des groupes d individus. En statistique descriptive, elle est souvent utilisée comme référence pour constituer des groupes d individus au sein de la population étudiée. IV. Moyenne et écart-type, un outil pour comparer 1. Comparaison d un individu à une référence Situation Le score des réussites de Maud à l évaluation en mathématiques passée en début de sixième est 72 sur 94 items. Maud est-elle bonne en mathématiques? Traitement On compare le score de Maud au score national : 68. Le score de Maud est supérieur à la moyenne. Mais la dispersion des scores est un élément à prendre en compte car : -si 70% des élèves ont des scores compris entre 58 et 78, le score de Maud ne semblera pas exceptionnel ; -si 70% des élèves ont des scores compris entre 64 et 72 le score de Maud pourra être considéré comme un bon score. Sachant que l écart-type est 4, on pourra considérer que Maud est bonne en mathématiques. IV. Moyenne et écart-type, un outil pour comparer 2. Comparaison de deux valeurs numériques Situation Le score des réussites de Lucie en mathématiques est 75 sur 94 items. Son score en français est 74 sur 87 items. Lucie est-elle meilleure en mathématiques ou en français? Traitement On utilise les informations concernant les scores nationaux : -Mathématiques : moyenne = 68 et écart-type = 4 ; -Français : moyenne = 70 et écart-type = 3. On remarque que les scores de Lucie sont bons en mathématiques comme en français, mais quel est le meilleur? On calcule les valeurs «centrées et réduites» (les québécois disent les «cotes standards») : (valeur moyenne) / écart-type -Mathématiques : (75 68) / 4 = +1,75 -Français: (74 70) / 3 ~ +1,3 Les résultats de Lucie sont meilleurs en mathématique.