Chapitre 2. Caractéristiques des distributions à une variable quantitative

Documents pareils
Séries Statistiques Simples

Annexe commune aux séries ES, L et S : boîtes et quantiles

Chapitre 3. Les distributions à deux variables

Statistiques Descriptives à une dimension

Statistique : Résumé de cours et méthodes

1. Vocabulaire : Introduction au tableau élémentaire

Représentation d une distribution

Statistique Descriptive Élémentaire

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Logiciel XLSTAT version rue Damrémont PARIS

Statistiques 0,14 0,11

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

3. Caractéristiques et fonctions d une v.a.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

EXERCICES - ANALYSE GÉNÉRALE

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Projet de Traitement du Signal Segmentation d images SAR

Leçon N 4 : Statistiques à deux variables

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

Classe de première L

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Table des matières. I Mise à niveau 11. Préface

Collecter des informations statistiques

La nouvelle planification de l échantillonnage

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Le patrimoine des ménages retraités : résultats actualisés. Secrétariat général du Conseil d orientation des retraites

Principe d un test statistique

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Rappels sur les suites - Algorithme

Résumé du Cours de Statistique Descriptive. Yves Tillé

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Statistiques avec la graph 35+

: seul le dossier dossier sera cherché, tous les sousdomaines

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Étude comparative sur les salaires et les échelles salariales des professeurs d université. Version finale. Présentée au

Lire ; Compter ; Tester... avec R

3 Approximation de solutions d équations

STATISTIQUES DESCRIPTIVES

LISTE D EXERCICES 2 (à la maison)

Brock. Rapport supérieur

PRINCIPES DE LA CONSOLIDATION. CHAPITRE 4 : Méthodes de consolidation. Maître de conférences en Sciences de Gestion Diplômé d expertise comptable

Validation probabiliste d un Système de Prévision d Ensemble

Les devoirs en Première STMG

LE PROCESSUS ( la machine) la fonction f. ( On lit : «fonction f qui à x associe f (x)» )

Pierre Marchand Consultant

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 2 Le problème de l unicité des solutions

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

données en connaissance et en actions?

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

CAPTEURS - CHAINES DE MESURES

Problèmes de crédit et coûts de financement

IBM SPSS Statistics Base 20

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

PRÉSENTATION DE L OFFRE

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

MATHÉMATIQUES. Mat-4104

1 Complément sur la projection du nuage des individus

Introduction aux Statistiques et à l utilisation du logiciel R

Aide-mémoire de statistique appliquée à la biologie

T2- COMMENT PASSER DE LA VITESSE DES ROUES A CELLE DE LA VOITURE? L E T U N I N G

Faire un semi variograme et une carte krigée avec surfer

Statistiques descriptives

PROGRAMME INTERNATIONAL POUR LE SUIVI DES ACQUIS DES ÉLÈVES QUESTIONS ET RÉPONSES DE L ÉVALUATION PISA 2012 DE LA CULTURE FINANCIÈRE

Démographie des masseurs-kinésithérapeutes

T de Student Khi-deux Corrélation

Inégalités de salaires et de revenus, la stabilité dans l hétérogénéité

Les produits de Bourse UniCredit sur le CAC Ext (Étendu).

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

COTE LAVAL. Cette méthode de calcul de la cote Laval est utilisée pour fin d admission depuis la session d automne 2010.

23. Interprétation clinique des mesures de l effet traitement

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Tableau de bord des communautés de l Estrie DEUXIÈME ÉDITION INDICATEURS DÉMOGRAPHIQUES ET SOCIOÉCONOMIQUES

La classification automatique de données quantitatives

Les mutuelles de prévention

Extraction d informations stratégiques par Analyse en Composantes Principales

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

PREVISION DU BESOIN EN FONDS DE ROULEMENT - PRINCIPES

démographie des masseurs-kinésithérapeutes

Moments des variables aléatoires réelles

FONCTION DE DEMANDE : REVENU ET PRIX

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

TSTT ACC OUTILS DE GESTION COMMERCIALE FICHE 1 : LES MARGES

La rémunération des concepteurs. en théâtre au Québec. de 2004 à 2006

RAPPORT TECHNIQUE CCE

Chapitre 2 : Caractéristiques du mouvement d un solide

DUT Techniques de commercialisation Mathématiques et statistiques appliquées

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Imputation du salaire d ego dans TeO

Régime social et fiscal des primes d intéressement

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures?

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Transcription:

Chapitre 2. Caractéristiques des distributions à une variable quantitative Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University

Objectif général de ce chapitre Objectif : calculer des caractéristiques permettant de résumer les tableaux et graphiques. Trois catégories de caractéristiques : 1 Tendance centrale 2 Dispersion 3 Concentration

1 Caractéristiques de tendance centrale Mode Médiane Quantiles d ordre quelconque Moyenne Synthèse : quelles caractéristiques pour résumer une série? Complément : méthode du shift and share 2 Caractéristiques de dispersion Etendue (intervalle de variation) Ecarts interquantiles Ecart absolu Ecart-type et variance Comparaison de séries statistiques et synthèse 3 Caractéristiques de concentration Courbe de Lorentz Indice de Gini Médiale

Mode Mode d une variable statistique Définition Le mode (ou classe modale) est la valeur (ou la classe) pour laquelle les individus sont le plus représentés.

Mode Mode d une variable statistique Définition Le mode (ou classe modale) est la valeur (ou la classe) pour laquelle les individus sont le plus représentés. Calcul du mode : variable discrète : modalité présentant le plus grand effectif (ou plus grande fréquence). variable continue : on cherche d abord la classe ayant la plus grande densité : c est la classe modale. Le mode peut ensuite être défini (par exemple comme le centre de cette classe).

Mode Mode d une variable statistique Définition Le mode (ou classe modale) est la valeur (ou la classe) pour laquelle les individus sont le plus représentés. Calcul du mode : variable discrète : modalité présentant le plus grand effectif (ou plus grande fréquence). variable continue : on cherche d abord la classe ayant la plus grande densité : c est la classe modale. Le mode peut ensuite être défini (par exemple comme le centre de cette classe). Remarques : pour une var. continue, en général on ne donne que la classe modale. Une série peut avoir plusieurs modes (en présence de maxima locaux de fréquence ou densité selon le type de variable) ; on parle de série plurimodale.

Mode Application numérique sur deux exemples Exemple Nbre pers./voiture x i f i 1 10% 2 25% 3 40% 4 25% Total 100% 1.0 fréquence 0.10 0.15 0.20 0.25 0.30 0.35 0.40 1.5 2.0 2.5 3.0 3.5 4.0 nombre de personnes/voiture 0 Revenu des ménages français x i f i d i (en euros) (/tr. de 800e) [0, 1600[ 45% 22.5% [1600, 2400[ 35% 35% [2400, 3200[ 20% 20% Total 100% % par tranche de 800 euros 0 10 20 30 40 500 1000 1500 2000 2500 3000 3500 Revenu en euros

Médiane Médiane - définition Définition La médiane est la valeur de la série (i.e. une modalité) qui partage la série en deux sous-ensembles de même effectif (ou de même fréquence). Il faut distinguer deux cas : 1 les données sont observés de manière brute. [le plus souvent une variable discrète] 2 les données sont regroupées en classes. [le plus souvent une variable continue]

Médiane Médiane (2) - données brutes Deux cas possibles en fonction du caractère pair ou impair de la taille de l échantillon n :

Médiane Médiane (2) - données brutes Deux cas possibles en fonction du caractère pair ou impair de la taille de l échantillon n : 1 n est impair : la médiane de la série de n = 5 âges : 17, 9, 19, 25, 21 est

Médiane Médiane (2) - données brutes Deux cas possibles en fonction du caractère pair ou impair de la taille de l échantillon n : 1 n est impair : la médiane de la série de n = 5 âges : 17, 9, 19, 25, 21 est Me = 19 (ans).

Médiane Médiane (2) - données brutes Deux cas possibles en fonction du caractère pair ou impair de la taille de l échantillon n : 1 n est impair : la médiane de la série de n = 5 âges : 17, 9, 19, 25, 21 est Me = 19 (ans). 2 n est pair : la médiane de la série de n = 4 âges : 17, 9, 19, 25 est entre 17 et 19

Médiane Médiane (2) - données brutes Deux cas possibles en fonction du caractère pair ou impair de la taille de l échantillon n : 1 n est impair : la médiane de la série de n = 5 âges : 17, 9, 19, 25, 21 est Me = 19 (ans). 2 n est pair : la médiane de la série de n = 4 âges : 17, 9, 19, 25 est entre 17 et 19 Me = (17 + 19)/2 = 18 (ans)

Médiane Médiane (2) - données brutes Deux cas possibles en fonction du caractère pair ou impair de la taille de l échantillon n : 1 n est impair : la médiane de la série de n = 5 âges : 17, 9, 19, 25, 21 est Me = 19 (ans). 2 n est pair : la médiane de la série de n = 4 âges : 17, 9, 19, 25 est entre 17 et 19 Me = (17 + 19)/2 = 18 (ans) Formule générale : Soient x 1,..., x n les valeurs de la série et soient x (1), x (2),..., x (n) les versions ordonnées, i.e. x (1) x (2)... x (n) alors { x((n+1)/2) si n est impair, Me = x (n/2) +x (n/2+1) 2 si n est pair.

Médiane Médiane - données brutes (2) Quelle est la médiane de la série statistique suivante? Exemple nb personnes/voiture x i n i f i F i 1 40 10% 10% 2 100 25% 35% 3 160 40% 75% 4 100 25% 100% Total 400 100%

Médiane Médiane - données brutes (2) Quelle est la médiane de la série statistique suivante? Exemple nb personnes/voiture x i n i f i F i 1 40 10% 10% 2 100 25% 35% 3 160 40% 75% 4 100 25% 100% Total 400 100% n = 400 est pair il faut donc repérer la 200 -ème et 201 -ème observation dans la liste des observations ordonnées.

Médiane Médiane - données brutes (2) Quelle est la médiane de la série statistique suivante? Exemple nb personnes/voiture x i n i f i F i 1 40 10% 10% 2 100 25% 35% 3 160 40% 75% 4 100 25% 100% Total 400 100% n = 400 est pair il faut donc repérer la 200 -ème et 201 -ème observation dans la liste des observations ordonnées. x (200) = 3, x (201) = 3 Me = 3+3 2 = 3 (pers./voiture)

Médiane Médiane (3) - données regroupées Exemple du revenu ménages x i (en e) n i ( 10 6 ) f i F i [0, 1600[ 9 45% 45% [1600, 2400[ 7 35% 80% [2400, 3200[ 4 20% 100% Total 20 100% Dans le cas où les données sont regroupées en classes, il faut suivre deux étapes : 1 repérer la classe médiane, i.e. la classe contenant la médiane.

Médiane Médiane (3) - données regroupées Exemple du revenu ménages x i (en e) n i ( 10 6 ) f i F i [0, 1600[ 9 45% 45% [1600, 2400[ 7 35% 80% [2400, 3200[ 4 20% 100% Total 20 100% Dans le cas où les données sont regroupées en classes, il faut suivre deux étapes : 1 repérer la classe médiane, i.e. la classe contenant la médiane. Ici, 45% des ménage ont un revenu < 1600eet 80% des ménages ont un revenu < 2400e

Médiane Médiane (3) - données regroupées Exemple du revenu ménages x i (en e) n i ( 10 6 ) f i F i [0, 1600[ 9 45% 45% [1600, 2400[ 7 35% 80% [2400, 3200[ 4 20% 100% Total 20 100% Dans le cas où les données sont regroupées en classes, il faut suivre deux étapes : 1 repérer la classe médiane, i.e. la classe contenant la médiane. Ici, 45% des ménage ont un revenu < 1600eet 80% des ménages ont un revenu < 2400e Me ]1600, 2400[ 2 estimer la médiane par interpolation linéaire.

Médiane Médiane (4) - interpolation linéaire 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 3000 revenu FiAquoi correspond la médiane sur ce graphique?

Médiane Médiane (5) - interpolation linéaire Fi 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 3000 revenu (Me,50%) Graphiquement : la médiane correspond à l abscisse du point d intersection entre la courbe des (x i, F i ) et la droite horizontale d équation y = 50%. Formule générale : soit ]x i, x i+1 [ la classe médiane et soient F i et F i+1 les fréquences cumulées évaluées en x i et x i+1, alors Me = x i + 50% F i F i+1 F i (x i+1 x i )

Médiane Médiane (5) - interpolation linéaire Fi 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 3000 revenu (Me,50%) Application numérique : Graphiquement : la médiane correspond à l abscisse du point d intersection entre la courbe des (x i, F i ) et la droite horizontale d équation y = 50%.

Médiane Médiane (5) - interpolation linéaire Fi 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 3000 revenu (Me,50%) Application numérique : x i = 1600, x i+1 = 2400, F i = 45%, F i+1 = 80%. Graphiquement : la médiane correspond à l abscisse du point d intersection entre la courbe des (x i, F i ) et la droite horizontale d équation y = 50%.

Médiane Médiane (5) - interpolation linéaire Fi 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 3000 revenu (Me,50%) Application numérique : Graphiquement : la médiane correspond à l abscisse du point d intersection entre la courbe des (x i, F i ) et la droite horizontale d équation y = 50%. x i = 1600, x i+1 = 2400, F i = 45%, F i+1 = 80%. Me = 1600 + 50% 45% 80% 45% (2400 1600) 1714.28 e.

Quantiles d ordre quelconque Quantile Définition Un quantile d ordre α (pour α (0, 1)) notée en toute généralité Q α est la valeur qui partage la série en deux sous-ensembles ; une proportion α se situe en dessous de Q α et une proportion 1 α au-dessus strictement de Q α. Remarques : Me = Q 50%. Quartiles (notés Q 1, Q 2, Q 3 ) : quantiles qui séparent la série en 4 sous-ensembles de même effectif/fréquence. Plus précisément Q 1 = Q 25%, Q 2 = Me, Q 3 = Q 75%. Déciles (notés D 1, D 2,..., D 9 ) : quantiles qui séparent la série en 10 sous-ensembes de même fréquence. Plus précisément D 1 = Q 10%, D 2 = Q 20%,..., D 9 = Q 90%.

Quantiles d ordre quelconque Quantile (2) Les quantiles se calculent de manière similaire à la médiane. Ainsi pour des données regroupées on a : si Q α ]x i, x i+1 [ Q α = x i + α F i F i+1 F i (x i+1 x i )

Quantiles d ordre quelconque Quantile (2) Les quantiles se calculent de manière similaire à la médiane. Ainsi pour des données regroupées on a : si Q α ]x i, x i+1 [ Q α = x i + α F i F i+1 F i (x i+1 x i ) Calculez le premier quartile de la série suivante Exemple du revenu ménages x i (en e) n i ( 10 6 ) f i F i [0, 1600[ 9 45% 45% [1600, 2400[ 7 35% 80% [2400, 3200[ 4 20% 100% Total 20 100%

Quantiles d ordre quelconque Quantile (2) Les quantiles se calculent de manière similaire à la médiane. Ainsi pour des données regroupées on a : si Q α ]x i, x i+1 [ Q α = x i + α F i F i+1 F i (x i+1 x i ) Calculez le premier quartile de la série suivante Exemple du revenu ménages x i (en e) n i ( 10 6 ) f i F i [0, 1600[ 9 45% 45% [1600, 2400[ 7 35% 80% [2400, 3200[ 4 20% 100% Total 20 100% Q 1 ]0, 1600[ Q 1 = 0 + 25% 0 45% 0 (1600 0) 888.89e.

Moyenne Moyenne - introduction Il y a plusieurs types de moyenne dépendant essentiellement du problème considéré 1 Moyenne arithmétique [la plus connue et la plus standard] 2 Moyenne géométrique [utilisée par exemple pour calculer des taux moyens] 3 Moyenne harmonique [utilisée pour calculer des moyennes de ratios] 4 Moyenne quadratique [moyenne de carrés, notion moins utilisée]

Moyenne Moyenne arithmétique (pondérée) Définition Soit x i (i = 1,..., p) les modalités d une série brute, d effectifs n i (i = 1,..., p) et fréquence f i, la moyenne arithmétique pondérée notée x est donnée par x = 1 n p n i x i = i=1 p i=1 f i x i car f i = n i n. Si les données sont regroupées en classes, les x i ne sont en général pas observées. Ces valeurs sont alors remplacées par les centres de classes, notés c i pour i = 1,..., p. lorsque le nombre de modalités (ou nombre de classes) est grand, il devient intéressant d utiliser la calculatrice (rentrer les données sous forme d un tableau, configurer de manière appropriée et demander des résultats univariés).

Moyenne Moyenne arithmétique : exemple covoiturage Calculez la moyenne de la série Application : Exemple nb personnes/voiture x i n i f i F i 1 40 10% 10% 2 100 25% 35% 3 160 40% 75% 4 100 25% 100% Total 400 100%

Moyenne Moyenne arithmétique : exemple covoiturage Calculez la moyenne de la série Application : x = Exemple nb personnes/voiture x i n i f i F i 1 40 10% 10% 2 100 25% 35% 3 160 40% 75% 4 100 25% 100% Total 400 100% 40 1 + 100 2 + 160 3 + 100 4 400 = 2.8 pers./voiture. (Remarque : 10% 1 + 25% 2 + 40%3 + 25% 4 = 2.8)

Moyenne Moyenne arithmétique : exemple revenu des ménages Calculez la moyenne de la série Application : Exemple du revenu ménages x i (en e) c i n i ( 10 6 ) f i F i [0, 1600[ 800 9 45% 45% [1600, 2400[ 2000 7 35% 80% [2400, 3200[ 2800 4 20% 100% Total 20 100%

Moyenne Moyenne arithmétique : exemple revenu des ménages Calculez la moyenne de la série Application : Exemple du revenu ménages x i (en e) c i n i ( 10 6 ) f i F i [0, 1600[ 800 9 45% 45% [1600, 2400[ 2000 7 35% 80% [2400, 3200[ 2800 4 20% 100% Total 20 100% x = 9 800 + 7 2000 + 4 2800 20 = 1620 e.

Moyenne Propriétés de la moyenne arithmétique 1 La somme des écarts (pondérés) à la moyenne est nulle, c-a-d Preuve : p n i (x i x) = i=1 p n i (x i x) = 0 i=1 p p n i x i i=1 i=1 n i x = nx nx = 0.

Moyenne Propriétés de la moyenne arithmétique 1 La somme des écarts (pondérés) à la moyenne est nulle, c-a-d p n i (x i x) = 0 i=1 2 Considérons une population P d effectif total n composée de k sous-populations P 1,..., P k d effectifs n 1,..., n k (donc n = n 1 +... + n k ). Notons x 1,..., x k les moyennes arithmétiques des sous-populations P 1,..., P k alors x = n 1x 1 +... + n k x k n la moyenne globale est égale à la moyenne pondérée des moyennes.

Moyenne Moyenne globale = moyenne pondérée des moyennes Ex : salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez la moyenne de la série Ensemble de deux façons différentes : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Méthode 1 (méthode directe) :

Moyenne Moyenne globale = moyenne pondérée des moyennes Ex : salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez la moyenne de la série Ensemble de deux façons différentes : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Méthode 1 (méthode directe) : x E = 1 (750 130 + 2250 170) = 1600e. 300

Moyenne Moyenne globale = moyenne pondérée des moyennes Ex : salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez la moyenne de la série Ensemble de deux façons différentes : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Méthode 1 (méthode directe) : x E = 1 (750 130 + 2250 170) = 1600e. 300 Méthode 2 (en utilisant la propriété précédente) : x H = 1 (750 70 + 2250 130) = 1725e. 200 x F = 1 (750 60 + 2250 40) = 1350e. 100 x E = 1 300 (200 x H + 100 x F ) = 1 (200 1725 + 100 1350) = 1600e. 300

Moyenne Moyenne géométrique Une action en bourse a évolué à la hausse de 10% l année 1, puis a diminué de 5% l année 2 et de 5% l année 3. Question : Quel est le taux moyen (noté t moy ) d évolution de cette action sur les trois années?

Moyenne Moyenne géométrique Une action en bourse a évolué à la hausse de 10% l année 1, puis a diminué de 5% l année 2 et de 5% l année 3. Question : Quel est le taux moyen (noté t moy ) d évolution de cette action sur les trois années? t moy 0!!! La moyenne géométrique est le taux qui, appliqué durant les trois années donnera le même capital final selon l évolution décrite précédemment.

Moyenne Moyenne géométrique (2) Soit C 0 le capital initial et soient C 1, C 2, C 3 les capitaux après 1,2 ou 3 années. On a selon l énoncé C 1 = (1 + 10%)C 0, C 2 = (1 5%)C 1 et C 3 = (1 5%)C 2, c-a-d C 3 = (1 + 10%)(1 5%)(1 5%)C 0. selon la définition du taux moyen : C 1 = (1 + t moy )C 0, C 2 = (1 + t moy )C 1 et C 3 = (1 + t moy )C 2, c-a-d C 3 = (1 + t moy ) 3 C 0. Par identification des deux identités, il vient que pour tout capital initial C 0 (1 + 10%)(1 5%)(1 5%) = (1 + t moy ) 3 t moy = ( (1 + 10%)(1 5%)(1 5%) ) 1/3 1.

Moyenne Moyenne géométrique (3) Définition Soit la série statistique x 1,..., x p d effectif n 1,..., n p alors la moyenne géométrique notée en général x G est définie par x G = où n = n 1 +... + n p. ( ) 1/n x n 1 1 x n 2 2... x n p p

Moyenne Moyenne harmonique Elle permet de calculer des moyennes de ratios. Exemple : Un coureur monte une côte de 1km à la vitesse de 10km/h et descend cette même côte à la vitesse de 30km/h. Question : Quelle est la vitesse moyenne du coureur?

Moyenne Moyenne harmonique Elle permet de calculer des moyennes de ratios. Exemple : Un coureur monte une côte de 1km à la vitesse de 10km/h et descend cette même côte à la vitesse de 30km/h. Question : Quelle est la vitesse moyenne du coureur? v moy 20 km/h!! car il a passé plus de temps à 10km/h qu à 30km/h.

Moyenne Moyenne harmonique Elle permet de calculer des moyennes de ratios. Exemple : Un coureur monte une côte de 1km à la vitesse de 10km/h et descend cette même côte à la vitesse de 30km/h. Question : Quelle est la vitesse moyenne du coureur? v moy 20 km/h!! car il a passé plus de temps à 10km/h qu à 30km/h. On cherche v moy telle que la somme des temps passés à la montée et la descente soit égal au temps passé à la vitesse v moy : t montée = 1 10, t desc. = 1 30, t v moy = 2 v moy 2 v moy = 1 10 + 1 30 v 2 moy = 1 = 15 km/h. 10 + 30 1

Moyenne Moyenne harmonique (2) Définition Soit la série statistique x 1,..., x p d effectif n 1,..., n p alors la moyenne harmonique notée en général x H est définie par où n = n 1 +... + n p. x H = n 1 x 1 n +... + n p x p

Synthèse : quelles caractéristiques pour résumer une série? Synthèse Mode(s), médiane, moyenne(s) : quel(s) indicateur(s) utiliser pour résumer une série et en donner des tendances centrales? Cela dépend de la forme générale de la série statistique étudiée selon qu elle soit : plurimodale, symétrique, asymétrique.

Synthèse : quelles caractéristiques pour résumer une série? Afin de résumer cette série...... quel est l indicateur pertinent? Salaires x i c i n i a i en e (1 u.a. 4000e) [0, 4000[ 2000 45 1 [4000, 8000[ 16000 10 6 [28000, 32000[ 30000 45 1 série pluri-modale x = 16000e, Me = 16000e. 2 classes modales : [0, 4000[,[28000, 32000[. Moyenne et médiane non représentatives de la série. Modes informatifs.

Synthèse : quelles caractéristiques pour résumer une série? Afin de résumer cette série...... quel est l indicateur pertinent? série symétrique Salaires x i c i n i a i en e (1 u.a. 1000e) [0, 1000[ 500 5 1 [1000, 2000[ 1500 90 1 [2000, 3000[ 2500 5 1 x = 1500e, Me = 1500e. classes modales : [1000, 2000[. les trois indicateurs peuvent être utilisés. on préfèrera la moyenne qui possède des propriétés intéressant (calcul algébrique)

Synthèse : quelles caractéristiques pour résumer une série? Afin de résumer cette série...... quel est l indicateur pertinent? Salaires x i c i n i a i en e (1 u.a. 2000e) [0, 2000[ 1000 90 1 [2000, 38000[ 18000 10 18 x = 2900e, Me = 1100e. La moyenne n est pas représentative car trop influencée par les gros salaires. la médiane est plus adaptée. série asymétrique

Complément : méthode du shift and share Complément : méthode shift and share méthode utilisée pour comparer plusieurs moyennes pondérées lorsque les coefficients de pondération sont très, par exemple lorsqu ils évoluent au cours du temps. permet de lisser l effet structure. Exemples : salaires de 2 CSP en 2010 et 2011. Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900

Complément : méthode du shift and share Complément : méthode shift and share méthode utilisée pour comparer plusieurs moyennes pondérées lorsque les coefficients de pondération sont très, par exemple lorsqu ils évoluent au cours du temps. permet de lisser l effet structure. Exemples : salaires de 2 CSP en 2010 et 2011. Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900 x 2010 = 1100 e, x 2011 = 1100 e. peut-on conclure qu il n y a pas d évolution de salaires de 2010 à 2011?

Complément : méthode du shift and share Complément : méthode shift and share (2) Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900 Pour éliminer l effet du changement des effectifs, on calcule les moyennes en fixant les effectifs de 2010 :

Complément : méthode du shift and share Complément : méthode shift and share (2) Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900 Pour éliminer l effet du changement des effectifs, on calcule les moyennes en fixant les effectifs de 2010 : x 2011 = 10% 1300 + 90% 900 = 940 e evolution de 940 1100 1100 14.54%.

Complément : méthode du shift and share Complément : méthode shift and share (2) Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900 Pour éliminer l effet du changement des effectifs, on calcule les moyennes en fixant les effectifs de 2010 : x 2011 = 10% 1300 + 90% 900 = 940 e evolution de 940 1100 1100 14.54%. pour éliminer l effet du changement de salaires, on calcule la moyenne en 2011 en fixant les salaires en 2010

Complément : méthode du shift and share Complément : méthode shift and share (2) Année 2010 Année 2011 CSP f i x i (e) f i x i (e) Cadres 10% 2000 50% 1300 Employés 90% 1000 50% 900 Pour éliminer l effet du changement des effectifs, on calcule les moyennes en fixant les effectifs de 2010 : x 2011 = 10% 1300 + 90% 900 = 940 e evolution de 940 1100 1100 14.54%. pour éliminer l effet du changement de salaires, on calcule la moyenne en 2011 en fixant les salaires en 2010 x 2011 = 50% 2000 + 50% 1000 = 1500 e évolution de 1500 1100 1100 36.36%.

Caractéristiques de dispersion Objectif : définir des indicateurs permettant d évaluer le caractère dispersé ou variable d une série statistique. En particulier, nous étudierons 1 l étendue 2 les écarts interquantiles 3 les écarts absolus (moyen et médian) 4 l écart-type (ou variance)

Etendue (intervalle de variation) Etendue (intervalle de variation) Définition L étendue est la différence entre la plus grande et la plus petite observation de la série. Etendue = x (n) x (1). Notion très peu utilisée en pratique car elle est très sensible aux fluctuations de l échantillon. Exemple : on relève l âge de 10 individus : 24, 16, 18, 22, 16, 26, 35, 25, 15, 76. étendue est de tp76-16 = 50 ans. Si on remplace 76 par un âge 35 l étendue devient 19 ans.

Ecarts interquantiles Ecarts-interquantiles Définition On définit l écart-interquartile et l écart-interdécile comme suit Ecart interquartile = Q 3 Q 1 Ecart interdécile = D 9 D 1. Plus ces écarts sont grands et plus la série est dispersée. Du fait que l on ne tient pas compte des observations faibles ou élevées, ces caractéristiques sont moins sensibles aux fluctuations de l échantillon que l étendue.

Ecart absolu Ecarts absolus x : statistique, x i : modalités, n i : effectifs, p nbre de modalités. 1 Ecart absolu moyen : 2 Ecart absolu médian : Remarques e x = 1 n e Me = 1 n p n i x i x. i=1 p n i x i Me. i=1 Plus les écarts absolus sont grands, plus la série est dispersée. Avantage : facile à calculer, écart absolu médian moins sensible aux valeurs extrêmes. Inconvénient : ne se prête pas aux calculs algébriques.

Ecart-type et variance Ecart-type et variance Définition La variance est la moyenne arithmétique pondérée des écarts à la moyenne au carré. L écart-type est la racine carrée de la variance.

Ecart-type et variance Ecart-type et variance Définition La variance est la moyenne arithmétique pondérée des écarts à la moyenne au carré. L écart-type est la racine carrée de la variance. Variance : Ecart-type : Var(x) = 1 n p p n i (x i x) 2 = f i (x i x) 2 i=1 i=1 σ x = Var(x) Interprétation Plus l écart-type (ou variance) est grand(e) et plus la série observée est dispersée.

Ecart-type et variance Ecart-type et variance (2) Autre expression de la variance : Var(x) = 1 n = 1 n p n i (x i x) 2 i=1 p n i xi 2 (x) 2 i=1 = x 2 (x) 2 = moyenne des carrés carré de la moyenne. Tout comme la moyenne, pour calculer une variance (ou écart-type) pour une variable continue (dont les données sont regroupées en classes) on remplace les x i par c i les centres de classe.

Ecart-type et variance Ecart-type et variance (3) Calculez les variance et écart-type de la série suivante : x i (en e) c i n i ( 10 6 ) f i [0, 1600[ 800 9 45% [1600, 2400[ 2000 7 35% [2400, 3200[ 2800 4 20% Total 20 100%

Ecart-type et variance Ecart-type et variance (3) Calculez les variance et écart-type de la série suivante : x i (en e) c i n i ( 10 6 ) f i [0, 1600[ 800 9 45% [1600, 2400[ 2000 7 35% [2400, 3200[ 2800 4 20% Total 20 100% Méthode 1 : on rappelle que x = 1620e. Var(x) = 1 ( 9 (800 1620) 2 + 7 (2000 1620) 2 + 4 (2800 1620) 2) 20 = 631600 e 2.

Ecart-type et variance Ecart-type et variance (3) Calculez les variance et écart-type de la série suivante : x i (en e) c i n i ( 10 6 ) f i [0, 1600[ 800 9 45% [1600, 2400[ 2000 7 35% [2400, 3200[ 2800 4 20% Total 20 100% Méthode 1 : on rappelle que x = 1620e. Var(x) = 1 ( 9 (800 1620) 2 + 7 (2000 1620) 2 + 4 (2800 1620) 2) 20 = 631600 e 2. Méthode 2 : x 2 = 1 ( 9 800 2 + 7 2000 2 + 4 2800 2) = 3256000 e 2 20 Var(x) = x 2 (x) 2 = 3256000 1620 2 = 631600 e 2 Ecart-type : σ x = 631600 794.7 e.

Ecart-type et variance Variance intra et interpopulation Théorème Considérons une population P de taille n composée de k sous-populations P 1,..., P k d effectifs respectifs n 1,..., n k. Notons, x 1,..., x k et Var(x 1 ),..., Var(x k ) les moyennes et variances des k sous-populations. Alors, la variance de la population P est Var(x) = n 1Var(x 1 ) +... + n k Var(x k ) + n 1(x x 1 ) 2 +... + n k (x x k ) 2 n n = 1 k n i Var(x i ) + 1 p n i (x i x) 2 n n i=1 i=1 = moyenne des variances + variance des moyennes = Variance intra-population + Variance inter-population.

Ecart-type et variance Variance intra et interpopulation (2) Vérifions le résultat précédent sur l exemple suivant : on étudie le salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez les variances inter-, intra- et totale de la série : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Pour simplifier (un peu) les calculs : x H = 1725 e Var(x H ) = 511875 e 2 x F = 1350 e Var(x F ) = 540000 e 2 x = 1600 e Var(x) = 552500 e 2.

Ecart-type et variance Variance intra et interpopulation (2) Vérifions le résultat précédent sur l exemple suivant : on étudie le salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez les variances inter-, intra- et totale de la série : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Pour simplifier (un peu) les calculs : x H = 1725 e Var(x H ) = 511875 e 2 x F = 1350 e Var(x F ) = 540000 e 2 x = 1600 e Var(x) = 552500 e 2. Moyenne des variances : Var. Intra = 1 300 (200 Var(x H) + 100 Var(x F )) = 1 300 (200 511875 + 100 540000) = 521250e2.

Ecart-type et variance Variance intra et interpopulation (2) Vérifions le résultat précédent sur l exemple suivant : on étudie le salaire de n H =200 hommes et n F =100 femmes d une entreprise. Calculez les variances inter-, intra- et totale de la série : x i (en e) c i n i,h n i,f n i,e [0, 1500[ 750 70 60 130 [1500, 3000[ 2250 130 40 170 Total 200 100 300 Pour simplifier (un peu) les calculs : x H = 1725 e Var(x H ) = 511875 e 2 x F = 1350 e Var(x F ) = 540000 e 2 x = 1600 e Var(x) = 552500 e 2. Variance des moyennes : Var. Inter = 1 ( 200 (xh x) 2 + 100 (x F x) 2) 300 = 1 ( 200 (1725 1600) 2 + 100 (1350 1600) 2) = 31250e 2. 300

Ecart-type et variance Variance intra et interpopulation (3) Résumons un peu ces calculs : Var(x) = 552500e 2. Var. Intra + Var. Inter = Moy. des variances + Var. des moyennes = 521250 + 31250 = 552500e 2. Peut-on dire que la caractéristique H/F influence le salaire?

Ecart-type et variance Variance intra et interpopulation (3) Résumons un peu ces calculs : Var(x) = 552500e 2. Var. Intra + Var. Inter = Moy. des variances + Var. des moyennes = 521250 + 31250 = 552500e 2. Peut-on dire que la caractéristique H/F influence le salaire? Si tel est le cas, la variance des moyennes est forte relativelement à la variance totale des salaires. Or, Var. Inter Var(x) = 31250 552500 5.66%. 5.66% de la variance est expliquée par l hétérogénéité des moyennes (H/F) ce qui est relativement faible. Par conséquent, les salaires de cette entreprise ne sont que peu influencés par le sexe.

Comparaison de séries statistiques et synthèse Complement I : Comparaison de séries (1) soit x la série statistique de 4 produits en Francs : 100F, 200F, 300F et 400F. soit y la série statistique des 4 produits en e :15e, 30e,45e,60e. Intuitivement, ces deux séries sont dispersées de la même manière. Or, σ x = 111.8F et σ y = 16.8e. Conclusion : pour comparer les deux séries qui ne sont pas dans la même unité, il faut transformer les caractéristiques de dispersion. σ x Coefficient de variation : x rapport à la moyenne, sans unité. = c est le % de variation par σ x x 111.8 250 0.45 et σ y y 16.8 37.5 0.45.

Comparaison de séries statistiques et synthèse Complement I : comparaison de séries (2) D autres indicateurs de comparaison de séries statistiques : Coefficient de dispersion : Q 3 Q 1 D 9 D 1 ou. Me Me Rapport interquartile ou rapport interdécile : Q 3 Q 1 ou D 9 D 1

Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (1) aussi appelée box plot ou diagramme de Tukey. moyen rapide de visualiser des caractéristiques centrale et de dispersion d une série quantitative.

Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (1) aussi appelée box plot ou diagramme de Tukey. moyen rapide de visualiser des caractéristiques centrale et de dispersion d une série quantitative. principalement utilisée pour comparer un même caractère pour plusieurs populations.

Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (1) aussi appelée box plot ou diagramme de Tukey. moyen rapide de visualiser des caractéristiques centrale et de dispersion d une série quantitative. principalement utilisée pour comparer un même caractère pour plusieurs populations. basée sur le calcul de D 1, Q 1, Me, Q 3 et D 9.

Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (1) aussi appelée box plot ou diagramme de Tukey. moyen rapide de visualiser des caractéristiques centrale et de dispersion d une série quantitative. principalement utilisée pour comparer un même caractère pour plusieurs populations. basée sur le calcul de D 1, Q 1, Me, Q 3 et D 9. D 9 Q 3 Me Q 1 D 1

Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (2) Etude sur le niveau de vie des ménages en euros par CSP (personne de référence) en 2010. Application : complétez le graphique suivant avec les revenus des agriculteurs... sachant que pour les agriculteurs D 1 = 6040 Q 1 =11135 Me = 18010 Q 3 = 27140 D 9 = 39010 10000 20000 30000 40000 50000 agriculteurs cadres profint employes ouvriers

Comparaison de séries statistiques et synthèse Complement II : la boîte à moustaches (2) Etude sur le niveau de vie des ménages en euros par CSP (personne de référence) en 2010. Application : complétez le graphique suivant avec les revenus des agriculteurs... sachant que pour les agriculteurs D 1 = 6040 Q 1 =11135 Me = 18010 Q 3 = 27140 D 9 = 39010 10000 20000 30000 40000 50000 agriculteurs cadres profint employes ouvriers

Introduction Elles sont utilisées pour mesurer (essentiellement) la répartition de la masse salariale. La répartition de la masse salariale se situe entre les deux cas extrêmes suivants Répartition des salaires parfaitement équitables : un certain pourcentage de salariés reçoit le même pourcentage de la masse salariale. On dit que la concentration est nulle. Un seul salarié reçoit toute la masse salariale (et les autres rien). On dit que la concentration est maximale. Trois indicateurs pour quantifier la concentration 1 courbe de Lorentz 2 Indice de Gini 3 Médiale.

Courbe de Lorentz Courbe de Lorentz On étudie les salaires de 50 employés d une entreprise. x i (en e) c i n i f i F i [600, 1200[ 900 15 30% 30 % [1200, 1800[ 1500 25 50% 80% [1800, 2100[ 1950 10 20% 100% Total 50 100% 1 2

Courbe de Lorentz Courbe de Lorentz On étudie les salaires de 50 employés d une entreprise. x i (en e) c i n i f i F i n i c i [600, 1200[ 900 15 30% 30 % 13500 [1200, 1800[ 1500 25 50% 80% 37500 [1800, 2100[ 1950 10 20% 100% 19500 Total 50 100% 70500 1 on calcule la masse salariale = n i c i. 2

Courbe de Lorentz Courbe de Lorentz On étudie les salaires de 50 employés d une entreprise. x i (en e) c i n i f i F i n i c i g i G i [600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1% [1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3% [1800, 2100[ 1950 10 20% 100% 19500 27.7% 100% Total 50 100% 70500 100% 1 on calcule la masse salariale = n i c i. 2 on calcule le % de la masse salariale g i, ainsi que les fréquences cumulées G i.

Courbe de Lorentz Courbe de Lorentz On étudie les salaires de 50 employés d une entreprise. x i (en e) c i n i f i F i n i c i g i G i [600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1% [1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3% [1800, 2100[ 1950 10 20% 100% 19500 27.7% 100% Total 50 100% 70500 100% Définition La courbe de Lorentz est obtenue en faisant correspondre à la fréquence cumulée F i à la fréquence cumulée G i de la masse salariale.

Courbe de Lorentz Courbe de Lorentz (2) Gi (en %) 0 20 40 60 80 100 0 20 40 60 80 100 Fi (en %) droite rouge = répartition parfaitement équitable. Plus la courbe de Lorentz est éloignée de la droite rouge et plus la concentration est forte (répartition de moins en moins équitable).

Indice de Gini Indice de Gini Gi (en %) 0 20 40 60 80 100 Soit S la surface orange. I Gini = S Surf. Demi-carré = 2S [0, 1] 0 20 40 60 80 100 Fi (en %) Plus I Gini est proche de 0, plus la concentration est faible (proche de équirépartition). Dans notre cas, I Gini 14% (on ne cherchera pas à calculer l indice)

Médiale Médiale x i (en e) c i n i f i F i n i c i g i G i [600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1% [1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3% [1800, 2100[ 1950 10 20% 100% 19500 27.7% 100% Total 50 100% 70500 100% La médiale est la médiane de la série masse associée. Dans notre exemple

Médiale Médiale x i (en e) c i n i f i F i n i c i g i G i [600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1% [1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3% [1800, 2100[ 1950 10 20% 100% 19500 27.7% 100% Total 50 100% 70500 100% La médiale est la médiane de la série masse associée. Dans notre exemple 50% 19.1% Médiale = 1200 + (1800 1200) 1548e. 72.3% 19.1% Les salariés recevant moins de 1548 ereprésentent 50% de la masse salariale.

Médiale Médiale x i (en e) c i n i f i F i n i c i g i G i [600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1% [1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3% [1800, 2100[ 1950 10 20% 100% 19500 27.7% 100% Total 50 100% 70500 100% La médiale est la médiane de la série masse associée. Dans notre exemple 50% 19.1% Médiale = 1200 + (1800 1200) 1548e. 72.3% 19.1% Les salariés recevant moins de 1548 ereprésentent 50% de la masse salariale. Mesure de concentration : Médiale Me = 0. Etendue petit = faible concentration, grand= grande concentration. Ici, on peut vérifier que (1548 1440)/(2100 600) 7.2%.