MESURES DE TENDANCE CENTRALE ET DE DISPERSION



Documents pareils
Statistiques Descriptives à une dimension

Séries Statistiques Simples

3. Caractéristiques et fonctions d une v.a.

Représentation d une distribution

Statistique : Résumé de cours et méthodes

Statistique Descriptive Élémentaire

Annexe commune aux séries ES, L et S : boîtes et quantiles

Résumé du Cours de Statistique Descriptive. Yves Tillé

Table des matières. I Mise à niveau 11. Préface

Lois de probabilité. Anita Burgun

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Texte Agrégation limitée par diffusion interne

Probabilités sur un univers fini

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Chp. 4. Minimisation d une fonction d une variable

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

3 Approximation de solutions d équations

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Coefficients binomiaux

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Groupe symétrique. Chapitre II. 1 Définitions et généralités

TD1 Signaux, énergie et puissance, signaux aléatoires

Résolution d équations non linéaires

1. Vocabulaire : Introduction au tableau élémentaire

Chapitre 3. Les distributions à deux variables

DUT Techniques de commercialisation Mathématiques et statistiques appliquées

Attitude des ménages face au risque. M1 - Arnold Chassagnon, Université de Tours, PSE - Automne 2014

Quantification Scalaire et Prédictive

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Commun à tous les candidats

Quelques tests de primalité

Chapitre 1 : Évolution COURS

Simulation de variables aléatoires

Polynômes à plusieurs variables. Résultant

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Lire ; Compter ; Tester... avec R

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Dérivation : cours. Dérivation dans R

où «p» représente le nombre de paramètres estimés de la loi de distribution testée sous H 0.

Biostatistiques : Petits effectifs

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Feuille TD n 1 Exercices d algorithmique éléments de correction

Moments des variables aléatoires réelles

Suites numériques 3. 1 Convergence et limite d une suite

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Optimisation Discrète

Programmes des classes préparatoires aux Grandes Ecoles

Limites finies en un point

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Statistiques à une variable

Statistiques 0,14 0,11

FIMA, 7 juillet 2005

La simulation probabiliste avec Excel

Licence Sciences et Technologies Examen janvier 2010

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

Continuité et dérivabilité d une fonction

Correction de l examen de la première session

Programmation linéaire

I. Polynômes de Tchebychev

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Comparaison de fonctions Développements limités. Chapitre 10

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Exercice : la frontière des portefeuilles optimaux sans actif certain

Logiciel XLSTAT version rue Damrémont PARIS

Cours 02 : Problème général de la programmation linéaire

1.1 Codage de source et test d hypothèse

23. Interprétation clinique des mesures de l effet traitement

Dérivation : Résumé de cours et méthodes

Économetrie non paramétrique I. Estimation d une densité

CAPTEURS - CHAINES DE MESURES

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

DOMAIN NAME SYSTEM. CAILLET Mélanie. Tutoriel sur le DNS. Session Option SISR

Compter à Babylone. L écriture des nombres

Développements limités usuels en 0

EXERCICES - ANALYSE GÉNÉRALE

Chapitre 4: Dérivée d'une fonction et règles de calcul

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Fonctions de plusieurs variables

Processus aléatoires avec application en finance

Fibonacci et les paquerettes

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Cours de Tests paramétriques

CCP PSI Mathématiques 1 : un corrigé

Probabilités sur un univers fini

Programmation linéaire

IBM SPSS Statistics Base 20

Capes Première épreuve

Résolution de systèmes linéaires par des méthodes directes

Sur certaines séries entières particulières

Rappels sur les suites - Algorithme

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

8 Certifications Minergie

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Structures algébriques

Transcription:

MESURES DE TEDACE CETRALE ET DE DISPERSIO On considère sur un échantillon de individus la variable statistique X = (X, X 2,..., X ).. IDICATEURS DE TEDACE CETRALE Les mesures de tendance centrale permettent de résumer un ensemble de données relatives à une variable quantitative. Elles permettent de déterminer une valeur «typique» ou centrale autour de laquelle des données ont tendance à se rassembler... Moyennes. L indicateur le plus couramment utilisé est la moyenne empirique ou moyenne arithmétique. Définition (Moyenne arithmétique). On appelle moyenne arithmétique de X la quantité X = X + X 2 +... + X = X n. Elle possède, entre autre, la propriété importante suivante : Proposition. La somme des écarts à la moyenne empirique est nulle. Démonstration. (X n X) = X n X = 0. L inconvénient principal de la moyenne empirique comme indicateur de tendance centrale est d être assez sensible à la présence de valeurs «abérantes». Un indicateur de tendance centrale plus robuste est donné par la moyenne tronquée d ordre k : Définition 2 (Moyenne tronquée d ordre k). On appelle moyenne tronquée d ordre k de X la quantité X k = 2 k k n=k+ X k. Cette moyenne s obtient en fait en supprimant les k plus petites valeurs et les k plus grandes valeurs d une observations. Il existe d autres moyennes, dont on donne la définition pour les plus courantes. Définition 3 (Moyenne géométrique). On appelle moyenne géométrique de X la quantité M g (X) = X.X 2....X = X n.

L2 Maths-Info Statistique descriptive L utilisation de la moyenne géométrique fait sens si les valeurs ont un caractère multiplicatif. Définition 4 (Moyenne harmonique). On appelle moyenne harmonique de X la quantité M h (X) = X +... + =. X X n On utilise la moyenne harmonique lorsqu on veut déterminer un rapport moyen dans des domaines ou ils existent des liens de porportionnalité inverse. Définition 5 (Moyenne quadratique). On appelle moyenne quadratique de X la quantité X 2 M q (X) = + X2 2 +... + X2 = Xn 2. Définition 6 (Généralisation de la moyenne). On peut généraliser la notion de moyenne de X de la façon suivante, pour m R M m (X) = m Xn m. Remarque. On retrouve les moyennes définies précédemment avec cette définition très générale : Pour m =, M (X) est la moyenne arithmétique ; Pour m =, M (X) est la moyenne harmonique ; Pour m = 2, M 2 (X) est la moyenne quadratique ; Lorsque m 0 M m (X) tend vers la moyenne géométrique. Théorème (Inégalité des moyennes). Soit a R et b R. Soit une variable statistique X sur individus. On note M 0 (X) la moyenne géométrique. Si a < b, alors M a (X) < M b (X)..2. Quantiles. Les quantiles permettent de donner des indications du type «personne sur 0 a moins de tel âge». La médiane est un indicateur de tendance centrale (plus robuste que la moyenne empirique) qui divise la population en deux parties, qui ont le même nombre d individus. Autrement dit, elle sépare l échantillon en deux parties égales. Définition 7 (Médiane). M = { X /2 X /2 + si est pair si est impair Plus généralement, on peut définir une valeur qui sépare l échantillon en deux parties de tailles approximativement égale à α, où α ]0, [. Une telle valeur est appelée quantile ou fractile empirique d ordre α. Plusieurs définitions existent, et l on donne la suivante : 2

Statistique descriptive L2 Maths-Info Définition 8 (Quantile d ordre α). Soit α ]0, [. { X α si α Q α = X α + sinon. Les quantiles les plus utilisés sont les quartiles et les déciles. Les quartiles divisent les observations en 4 parties (Q 25%,Q 50%,Q 75% ). Les déciles divisent l ensemble des observations en 0 parties : Q 0%,Q 20%,... ). Enfin, un indicateur de position souvent utilisé dans le cas d un caractère discret est le mode, défini comme la valeur la plus fréquente dans la série d observation (cette valeur n est pas nécessairement unique). Dans le cas d un caractère continu, cette notion ne s applique pas directement, mais on peut définir une classe modale, lorsque les données ont été préalablement catégorisées. Les mesures données ci-dessus possèdent les deux propriétés suivantes, qui permettent de savoir comment les données se comportent si elles subissent une translation ou un changement d échelle. Intuitivement, le «centre» d une distribution doit «suivre» la transformation car celle-ci ne pertube pas la position relative des points observés. Proposition 2 (Translation). Soit a R et la variable statistique Y définie comme Y = X + a. Alors on a µ Y = µ X + b, où µ désigne une mesure de tendance centrale (par exemple, la moyenne ou la médiane). Proposition 3 (Changement d échelle). Soit a R et Y = ax. On a alors µ Y = aµ X. Enfin, on peut se demander quels relations il existent entre la moyenne et la médianne. De manière générale, il n existe pas de lien entre la moyenne et la médianne. Cependant, on comparera souvent la moyenne et la médianne pour caractériser la distribution d une série statistique : Si la moyenne est supérieure à la médianne, on dit que la distribution des valeurs observées présente une dissymétrie positive. Si la moyenne est inférieure à la médianne, on dit que la distribution des valeurs observées présente une dissymétrie négative. Si la moyenne est égale à la médianne, on dit que la distribution des valeurs observées est symétrique. 2. IDICATEURS DE DISPERTIO Comme le nom l indique, les indicateurs de dispertions permettent de mesurer comment les données se «répartissent». On peut définir deux types de mesure de dispertions : Les mesures définies par la distance entre deux valeurs représentatives de la distribution. Les mesures calculées en fonction de la déviation par rapport à une valeur centrale. Définition 9 (Étendue). L étendu d une série statistique est l écart entre sa plus grande valeur et sa plus petite. e = max X min X. 3

L2 Maths-Info Statistique descriptive Ce dernier indicateur est très peu robuste. On lui préferera souvent l intervalle interquartile : Définition 0 (Intervalle inter-quartile). L intervalle inter-quartile est la différence entre le troisième et le premier quartile. On peut remarquer que cet intervalle contient 50% des données. Un premier moyen de mesurer la dispertion des données autour de la moyenne est l écart moyen absolu. Définition (Écart moyen absolu). L écart moyen absolu est définie par la quantité X n X. Cette mesure à l inconvénient mathématique de ne pas être dérivable partour (la valeur absolue n est pas dérivable en 0). On corrige ce problème en mesurant la moyenne des écarts élevés au carré. On obtient alors définition de la variance empirique : Définition 2 (Variance empirique). On appelle variance empirique de la série statistique X la quantité σ 2 = (X n X) 2 Un moyen pratique de calculer la variance empirique est donné par la proposition suivante Proposition 4. Démonstration. σ 2 = = = σ 2 = Xn 2 X 2 (X n X) 2 = Xn 2 2 X Xn 2 X 2 (Xn 2 2 X n X + X2 ) X n + X Cet estimateur pose un autre problème : il est biaisé. On utilise alors en pratique une version corrigée Définition 3 (Variance empirique corrigée). σ 2 = (X n X) 2 4

Statistique descriptive L2 Maths-Info Proposition 5. σ 2 = σ2. Enfin, pour avoir une quantité qui s exprime dans la même unité que la moyenne (l unité de la variance est l unité de la moyenne élevée au carré), on utilise l écarttype. Définition 4 (Écart-type). On définit l écart type empirique comme la racine de la variance empirique : σ = σ 2 = (X n X) 2. Les mesures de dispertions possèdent notamment les propriétés suivantes : Proposition 6 (Invariance par translation). Les quantités de mesure de dispertion définies ci-dessus sont invariantes par translation. Proposition 7 (Changement d échelle). Soit a R et Y = ax. On note σ 2 Y (resp. σ2 ) la variance de Y (resp. de X). On a σ 2 Y = a2 σ 2 X et σ Y = aσ X. 5