Statistiques I. Alexandre Caboussat Classe : Mercredi 8h15-10h00 Salle: C114

Documents pareils
Séries Statistiques Simples

Annexe commune aux séries ES, L et S : boîtes et quantiles

Représentation d une distribution

Statistiques Descriptives à une dimension

Statistique : Résumé de cours et méthodes

Logiciel XLSTAT version rue Damrémont PARIS

3. Caractéristiques et fonctions d une v.a.

Statistique Descriptive Élémentaire

1. Vocabulaire : Introduction au tableau élémentaire

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Statistiques avec la graph 35+

Résumé du Cours de Statistique Descriptive. Yves Tillé

Statistiques 0,14 0,11

Statistiques descriptives

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Statistiques à une variable

IBM SPSS Statistics Base 20

Lire ; Compter ; Tester... avec R

Leçon N 4 : Statistiques à deux variables

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Evolution des risques sur les crédits à l habitat

1 Importer et modifier des données avec R Commander

Traitement des données avec Microsoft EXCEL 2010

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Chapitre 3. Les distributions à deux variables

Bulletin d information statistique

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

FORMULAIRE DE STATISTIQUES

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Biostatistiques : Petits effectifs

Introduction à l approche bootstrap

Table des matières. I Mise à niveau 11. Préface

Classe de première L

La place de SAS dans l'informatique décisionnelle

23. Interprétation clinique des mesures de l effet traitement

- Ressources pour les classes

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

BACCALAURÉAT PROFESSIONNEL SUJET

L exclusion mutuelle distribuée

STATISTIQUES DESCRIPTIVES

Aide-mémoire de statistique appliquée à la biologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Brock. Rapport supérieur

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

TSTT ACC OUTILS DE GESTION COMMERCIALE FICHE 1 : LES MARGES

Travail de projet sur VBA

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

Introduction aux Statistiques et à l utilisation du logiciel R

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Analyse et interprétation des données

Evaluation de la variabilité d'un système de mesure

Localisation des fonctions

Paramètres d accessibilité des systèmes d exploitation Windows et Mac

Cours n 12. Technologies WAN 2nd partie

Relation entre deux variables : estimation de la corrélation linéaire

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Théorie des sondages : cours 5

Observatoire Economique et Statistique d Afrique Subsaharienne

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

I. Cas de l équiprobabilité

Utilisation du Logiciel de statistique SPSS 8.0

Élément 424b Introduction à la statistique descriptive

Utilisation du module «Geostatistical Analyst» d ARCVIEW dans le cadre de la qualité de l air

Représentation des Nombres

Mathématiques financières

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

IBM SPSS Direct Marketing 21

Modélisation et étude d un système de trading directionnel diversifié sur 28 marchés à terme

Réunion d information Accès Internet. 25 avril 2014

Tests de normalité Techniques empiriques et tests statistiques

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Le principe de prudence : Les amortissements

Sommaire de la séquence 12

Filtres maîtres et distribués ADSL

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Contenu pédagogique des unités d enseignement Semestre 1(1 ère année) Domaine : Sciences et techniques et Sciences de la matière

NOTES DE COURS STT1700. Introduction à la statistique. David Haziza

Strasbourg. De la statistique. aux probabilités. en lycée. De la statistique. aux probabilités. en lycée. Octobre 2006

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Analyse de la bande passante

TD d économétrie appliquée : Introduction à STATA

Assurances de biens et de responsabilité. Etude Mars 2014

IFT3030 Base de données. Chapitre 2 Architecture d une base de données

UviLight XTW Spectrophotomètre UV-Vis

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

INVERSIO. N Azur Service consommateur Castorama BP Templemars. réf. R

QUELLE FIBRE UTILISER EN FONCTION DE MES APPLICATIONS. OM1, OM2 ou OM3, QUELLE EST LA FIBRE QU IL ME FAUT POUR MON INSTALLATION?

Un essai de mesure de la ponction actionnariale note hussonet n 63, 7 novembre 2013

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

Transcription:

Statistiques I Alexandre Caboussat alexandre.caboussat@hesge.ch Classe : Mercredi 8h15-10h00 Salle: C114 http://campus.hesge.ch/caboussata A. Caboussat, HEG STAT I, 2010 1 / 45

Exemple de quantiles Données: α = 27 1, 5, 7, 12 A. Caboussat, HEG STAT I, 2010 2 / 45

Exercice 4.7 Le nombre d abonnés au haut débit en Suisse a évolué de la manière suivante: Année [mois=décembre] xdsl Câble 2000 4416 52000 2001 42935 114329 2002 199144 260000 2003 487497 350000 2004 802000 480000 Calculer pour les deux séries de données xdsl et Câble, la moyenne, la médiane, l étendue, les quartiles Construire le Boxplot (boîte à moustaches) pour chacune des deux séries de données Commenter les Boxplot obtenus (Les distributions sont-elles de même dispersion?, Y a-t-il de l asymétrie?) A. Caboussat, HEG STAT I, 2010 3 / 45

Exercice 4.7 Le nombre d abonnés au haut débit en Suisse a évolué de la manière suivante: Année [mois=décembre] xdsl Câble 2000 4416 52000 2001 42935 114329 2002 199144 260000 2003 487497 350000 2004 802000 480000 A. Caboussat, HEG STAT I, 2010 3 / 45

Exercice 4.7 Le nombre d abonnés au haut débit en Suisse a évolué de la manière suivante: Année [mois=décembre] xdsl Câble 2000 4416 52000 2001 42935 114329 2002 199144 260000 2003 487497 350000 2004 802000 480000 DSL Cable 0e+00 2e+05 4e+05 6e+05 8e+05 1e+05 2e+05 3e+05 4e+05 A. Caboussat, HEG STAT I, 2010 3 / 45

Exercice 4.8 N Valide 15 Manquant 0 Moyenne 1999 Médiane 2000 Mode 2002 Ecart-type 3.742 Variance 14 Minimum 1994 Maximum 2005 Percentiles 25 1995 50 2000 75 2002 A. Caboussat, HEG STAT I, 2010 4 / 45

Définitions La variance d une population, notée σ 2, est la moyenne des carrés des écarts à la moyenne σ 2 = 1 N N (x i µ) 2, i=1 où N est le nombre d individus et µ la moyenne de la variable x. L écart-type d une population, noté σ, est défini par la racine carrée de la variance: σ = σ 2 = 1 N (x i µ) N 2 = 1 N N ( xi 2 Nµ 2 ) i=1 i=1 A. Caboussat, HEG STAT I, 2010 5 / 45

Définitions La variance d un échantillon, de taille n, notée s 2, est s 2 = 1 n 1 n (x i x) 2, L écart-type d un échantillon de taille n, noté s, est σ = σ 2 = 1 n (x i x) n 1 2 = 1 n n 1 ( xi 2 n x 2 ) i=1 i=1 i=1 A. Caboussat, HEG STAT I, 2010 6 / 45

Attention! La variance d un échantillon n est pas définie de la même manière que la variance d une population. En effet, la formule utilise la moyenne de l échantillon au lieu de la moyenne de la population (qui est inconnue puisque l on a recours à un échantillon!). Or la moyenne de l échantillon est (par définition) parfaitement centrée au milieu de l échantillon, ce qui n est en général pas tout à fait le cas avec la moyenne de la population. Par conséquent, le résultat obtenu aura tendance à être légèrement inférieur à celui que l on aurait obtenu en utilisant la moyenne de la population. Le calcul de la variance d un échantillon utilise donc n 1 comme diviseur et non pas n pour corriger ceci. A. Caboussat, HEG STAT I, 2010 7 / 45

Exemple Population: {3, 5, 5, 7, 10}. µ = 6, σ 2 = 28 5 = 5.6, σ 2.37. A. Caboussat, HEG STAT I, 2010 8 / 45

Exemple Echantillon: {3, 5, 7} {3, 5, 5, 7, 10}. Si on divise par n: x = 5, s 2 = 8 3 2.67. Si on divise par n 1: x = 5, s 2 = 8 2 = 4. A. Caboussat, HEG STAT I, 2010 9 / 45

Remarque Calculatrices: le plus souvent écart-type associé à un échantillon Attention de bien contrôler sur votre machine quelle formule est utilisée! A. Caboussat, HEG STAT I, 2010 10 / 45

Coefficient de variation Définition Le coefficient de variation (CV) est le ratio entre l écart-type et la moyenne, exprimé en pourcent. Population Echantillon 100 σ µ 100 s x Le coefficient de variation permet d obtenir un indice général, indépendant des unités de mesure employées, contrairement à l écart-type qui dépend de la moyenne et de l unité de mesure utilisée. A. Caboussat, HEG STAT I, 2010 11 / 45

Coefficient de variation : Exemple En finance, le CV mesure le risque relatif d un portefeuille. Supposons que le portefeuille A contient un ensemble d actions et d obligations donnant un rendement moyen de 12%, avec un écart-type de 3% (risque); un portefeuille B a un rendement moyen de 6% avec un écart-type de 2%. Le coefficient de variation associé à chaque portefeuille est : CV (A) = 100 3 12 = 25% CV (B) = 1002 6 = 33% A. Caboussat, HEG STAT I, 2010 12 / 45

Indicateurs de Dispersion Mesures d asymétrie et d aplatissement A. Caboussat, HEG STAT I, 2010 13 / 45

Objectif Connaître et savoir interpréter: la mesure d asymétrie: Skewness la mesure d aplatissement: Kurtosis A. Caboussat, HEG STAT I, 2010 14 / 45

Mesure d asymétrie : Skewness Définition Le coefficient d asymétrie skew est calculé ainsi skew = n (n 1)(n 2) n (x i µ) 3 i=1 où σ est l écart-type de la population, et µ la moyenne. σ 3 A. Caboussat, HEG STAT I, 2010 15 / 45

Valeurs d asymétrie skew < 0 skew > 0 Étalement à gauche Étalement à droite Commandes Informatiques skewness (package fbasics) (R) coefficient.asymetrie (Excel FR) skew (Excel AN) A. Caboussat, HEG STAT I, 2010 16 / 45

Mesure d asymétrie : Exemple Les pointures de chaussures d un groupe de personnes sont résumées dans le diagramme en bâtons suivant: A. Caboussat, HEG STAT I, 2010 17 / 45

Mesure d asymétrie : Exemple Les pointures de chaussures d un groupe de personnes sont résumées dans le diagramme en bâtons suivant: La moyenne de ces 25 observations est de 36.8, l écart-type de 5.55,et le skew est de 486, ce qui correspond bien à un étalement à droite. A. Caboussat, HEG STAT I, 2010 17 / 45

Mesures d aplatissement : Kurtosis Définition Le coefficient d aplatissment kurtosis est calculé ainsi n (x i µ) 4 kurt = A i=1 σ 4 3B où σ est l écart-type de la population, µ la moyenne, et A = n(n + 1) (n 1)(n 2)(n 3) B = (n 1) 2 (n 2)(n 3) sont des constantes d ajustement. Commandes Informatiques kurtosis (R) kurtosis (Excel FR) kurt (Excel AN) A. Caboussat, HEG STAT I, 2010 18 / 45

Valeurs d aplatissement kurt > 0 kurt < 0 Pic et Aplatissement et queues épaisses queues minces A. Caboussat, HEG STAT I, 2010 19 / 45

Exemple La distribution du nombre de tasses de café bues en une journée à la terrasse d un bistro est : 11, 13, 18, 20, 21, 23, 25, 25, 27, 28, 31, 34, 35, 41, 42, 43, 44, 46, 54, 93 A. Caboussat, HEG STAT I, 2010 20 / 45

Exemple La distribution du nombre de tasses de café bues en une journée à la terrasse d un bistro est : 11, 13, 18, 20, 21, 23, 25, 25, 27, 28, 31, 34, 35, 41, 42, 43, 44, 46, 54, 93 On voit que cette distribution a une queue épaisse, à cause de la valeur à 93. Pour cette distribution kurt=6.1. Si on remplace la valeur 93 par 33, on obtient kurt=-0.38. A. Caboussat, HEG STAT I, 2010 20 / 45

Résumé Les mesures d asymétrie Skewness et d aplatissement Kurtosis sont utiles pour déterminer la forme de la distribution. Ces mesures utilisent dans leur calcul l écart-type. A. Caboussat, HEG STAT I, 2010 21 / 45

Synthèses numériques : Résumé Mesures de tendance centrale (positionnement) Mode : valeur la plus fréquente (tous types de variables). Moyenne arithmétique, moyenne tronquée (variables quantitatives). Médiane : 50% au dessous, 50% au dessus (variables quantitatives et qualitatives ordinales). Mesures de dispersion (variables quantitatives uniquement) : l étendue. les quartiles et l écart interquartile. le boxplot. l écart-type et la variance d une population vs dun échantillon. Le coefficient de variation. A. Caboussat, HEG STAT I, 2010 22 / 45

Synthèses numériques : Résumé Les mesures d asymétrie Skewness et d aplatissement Kurtosis permettent de connaître des caract eristiques supplémentaires de la distribution. Leurs calculs utilisent la moyenne et l écart-type. skew < 0 skew > 0 Étalement à gauche Étalement à droite kurt > 0 kurt < 0 Pic et Aplatissement et queues épaisses queues minces A. Caboussat, HEG STAT I, 2010 23 / 45

Données numériques groupées A. Caboussat, HEG STAT I, 2010 24 / 45

Exemple Délai d expédition de l entreprise Sun4all en février classe fréquence i n i 1 [0-3[ 1 2 [3-6[ 0 3 [6-7.5[ 6 4 [7.5-9[ 7 5 [9-12] 5 A. Caboussat, HEG STAT I, 2010 25 / 45

Objectifs Avec des données numériques groupées, savoir déterminer la classe modale la moyenne la médiane et les quartiles l écart type (et la variance) A. Caboussat, HEG STAT I, 2010 26 / 45

Classe modale Définition La classe modale est la classe ayant la plus grande fréquence. A. Caboussat, HEG STAT I, 2010 27 / 45

Exemple: classe modale Délai d expédition de l entreprise Sun4all en février classe fréquence i n i 1 [0-3[ 1 2 [3-6[ 0 3 [6-7.5[ 6 4 [7.5-9[ 7 5 [9-12] 5 La classe modale est la classe [7.5-9[ A. Caboussat, HEG STAT I, 2010 28 / 45

Médiane Définition La classe médiane est la classe contenant la médiane. Parmi les classes ordonnées, c est la première dont la fréquence relative cumulée dépasse 0.5. La médiane des données groupées est ensuite approchée par interpolation linéaire. A. Caboussat, HEG STAT I, 2010 29 / 45

Exemple: Médiane Délai d expédition de l entreprise Sun4all en février classe fréq. fréq. relative fréq. rel. x i n i f i = n i /n cumulée 1 [0-3[ 1 0.0526 0.0526 2 [3-6[ 0 0 0.0526 3 [6-7.5[ 6 0.3158 0.3684 4 [7.5-9[ 7 0.3684 0.7368 5 [9-12] 5 0.2632 1.0000 n=19 5 f i = 1 i=1 La classe médiane est donc [7.5-9[ A. Caboussat, HEG STAT I, 2010 30 / 45

Exemple (suite) B H G H A? K K A I #! $ % # ' med(delai) = 7.5 + 0.5 0.3684 1.5 = 8.04 0.7368 0.3684 La vraie médiane est 8 (cf. chapitre précédent). A. Caboussat, HEG STAT I, 2010 31 / 45

Cas particulier L une des classes a une fréquence relative cumulée égale à 0.5, alors la médiane est égale à la borne supérieure de cette classe. B H G H A? K K A I # " $ % & ' La médiane vaut 170 A. Caboussat, HEG STAT I, 2010 32 / 45

Exemple (fictif) classe fréq. fréq. relative fréq. rel. x i n i f i = n i /n cumulée 1 [0-3[ 1 0.1 0.1 2 [3-6[ 0 0 0.1 3 [6-7.5[ 4 0.4 0.5 4 [7.5-9[ 2 0.2 0.7 5 [9-12] 3 0.3 1.0 n=10 5 f i = 1 La classe médiane est donc [6 7.5[. La médiane est 7.5. i=1 A. Caboussat, HEG STAT I, 2010 33 / 45

Moyenne Convention: chaque observation d une classe est égale à la valeur centrale de cette classe. x = c n i x i i=1 c : nombre de classes n i : fréquence de la i-ième classe x i : valeur centrale de la i-ième classe n : nombre total de données. n A. Caboussat, HEG STAT I, 2010 34 / 45

Exemple: Moyenne Délai d expédition de l entreprise Sun4all en février. classe fréq. val. centrale x i n i x i 1 [0-3[ 1 1.5 2 [3-6[ 0 4.5 3 [6-7.5[ 6 6.75 4 [7.5-9[ 7 8.25 5 [9-12] 5 10.5 n=19 delai = 152.25 19 = 8.01 A. Caboussat, HEG STAT I, 2010 35 / 45