Statistiques I. Alexandre Caboussat alexandre.caboussat@hesge.ch Classe : Mercredi 8h15-10h00 Salle : C114 http://campus.hesge.



Documents pareils
Statistique : Résumé de cours et méthodes

3. Caractéristiques et fonctions d une v.a.

Statistiques Descriptives à une dimension

1. Vocabulaire : Introduction au tableau élémentaire

Statistiques 0,14 0,11

Séries Statistiques Simples

Annexe commune aux séries ES, L et S : boîtes et quantiles

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Représentation d une distribution

STATISTIQUES DESCRIPTIVES

Statistique Descriptive Élémentaire

Résumé du Cours de Statistique Descriptive. Yves Tillé

Traitement des données avec Microsoft EXCEL 2010

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

MATHÉMATIQUES. Mat-4104

BACCALAURÉAT PROFESSIONNEL SUJET

Logiciel XLSTAT version rue Damrémont PARIS

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Statistiques II. Alexandre Caboussat Classe : Mardi 11h15-13h00 Salle : C110.

Analyse et interprétation des données

IBM SPSS Statistics Base 20

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

Lire ; Compter ; Tester... avec R

Table des matières. I Mise à niveau 11. Préface

Statistiques avec la graph 35+

Statistiques descriptives

La place de SAS dans l'informatique décisionnelle

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Les coûts de la production. Microéconomie, chapitre 7

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Bulletin d information statistique

Note de service À : De :

SECTEUR 4 - Métiers de la santé et de l hygiène

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Élément 424b Introduction à la statistique descriptive

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Analyse exploratoire des données

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Calcul et gestion de taux

1 Importer et modifier des données avec R Commander

- Ressources pour les classes

Leçon N 4 : Statistiques à deux variables

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

données en connaissance et en actions?

Table des matières. Avant-propos. Chapitre 2 L actualisation Chapitre 1 L intérêt Chapitre 3 Les annuités III. Entraînement...

Introduction à l approche bootstrap

glossaire Appellation commerciale Voir nom de marque.

La nouvelle planification de l échantillonnage

Introduction à la statistique descriptive

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Classe de première L

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Introduction aux Statistiques et à l utilisation du logiciel R

Strasbourg. De la statistique. aux probabilités. en lycée. De la statistique. aux probabilités. en lycée. Octobre 2006

Modèle de phases FlexWork: Sondage des entreprises et administrations suisses sur la flexibilité géographique et temporelle du travail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

Dérivés Financiers Contrats à terme

Chapitre 3 : INFERENCE

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Méthodes quantitatives en sciences humaines. 2 Pratique : 2 Étude personnelle : 2. BUREAU poste courriel ou site web

Localisation des fonctions

Arbres binaires de décision

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Comment bien débuter sa consolidation?

Enquête d'insertion. Master 2 - Gestion d'actifs Asset Management 222

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Biostatistiques : Petits effectifs

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

LOCATION DES SALLES. 74, rue du Faubourg Saint-Antoine. Le Passage de l Innovation Paris

Zugerberg Asset Management ZAM. Gestion de fortune exclusive principalement basée sur des titres individuels. ZAM Z.

IBM SPSS Direct Marketing 21

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

TP N 57. Déploiement et renouvellement d une constellation de satellites

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

alpha sélection est une alternative à un placement risqué en actions et présente un risque de perte en capital, en cours de vie et à l échéance.

Caisses Sociales de Monaco - Déclarations de Salaires DIDACTICIEL. Version 3.2

Chapitre 2 : l évaluation des obligations

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Petit lexique de calcul à l usage des élèves de sixième et de cinquième par M. PARCABE, professeur au collège Alain FOURNIER de BORDEAUX, mars 2007

MATHÉMATIQUES FINANCIÈRES I

Optimisation des ressources des produits automobile première

PLAN DE COURS CEGEP DU VIEUX-MONTRÉAL

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Combien coûtent vos soins dentaires?

Evaluation de la variabilité d'un système de mesure

Bar & Bistro POS MOBILE POS WINDOWS WEB KIOSQUE. Plus qu un point de vente de Bar & Bistro!

La rémunération des concepteurs. en théâtre au Québec. de 2004 à 2006

Loi binomiale Lois normales

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Teneur en glucides des produits de la Réunion. 15 décembre 2011

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

Aide-mémoire de statistique appliquée à la biologie

Créer son questionnaire en ligne avec Google Documents

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Transcription:

Statistiques I Alexandre Caboussat alexandre.caboussat@hesge.ch Classe : Mercredi 8h15-10h00 Salle : C114 http://campus.hesge.ch/caboussata A. Caboussat, HEG STAT I, 2010 1 / 54

Rappel Représentations de variables quantitatives Diagramme tige-feuille: un chiffre par feuille, qui complète la tige Diagramme de dispersion: courbe d une série temporelle Regroupement de données Histogramme: surface proportionnelle à la fréquence A. Caboussat, HEG STAT I, 2010 2 / 54

Remarque sur l ogive Ogive peut représenter la distribution de fréquences cumulées ou la distribution de fréquences relatives cumulées. Ogive pour des variables qualitatives ou quantitatives Par défaut: Ogive des fréquences relatives cumulées. (à moins que l on spécifie explicitement). A. Caboussat, HEG STAT I, 2010 3 / 54

Exercice 3.1 Représenter l évolution du nombre d employés de l entreprise Sun4all, entre 1991 et 2003, par un diagramme de dispersion. Commenter ce graphique. A. Caboussat, HEG STAT I, 2010 4 / 54

Exercice 3.2 Les temps d attente en minutes aux urgences du cabinet AieVite sont de 2, 5, 10, 12, 4, 4, 5, 17, 11, 8, 9, 8, 12, 21, 6, 8, 7, 13, 18, 3. Utiliser les classes [0 5[, [5 10[,.... Construire la distribution de fréquence cumulée relative. A. Caboussat, HEG STAT I, 2010 5 / 54

Exercice 3.2 (suite) Les temps d attente en minutes aux urgences du cabinet AieVite sont de 2, 5, 10, 12, 4, 4, 5, 17, 11, 8, 9, 8, 12, 21, 6, 8, 7, 13, 18, 3. Utiliser les classes [0 5[, [5 10[,.... Résumer ces données par une ogive. Quelle est la proportion des patients qui attendent au plus 10 minutes? A. Caboussat, HEG STAT I, 2010 6 / 54

Exercice 3.3 A la main! A. Caboussat, HEG STAT I, 2010 7 / 54

Exercice 3.4 Emprunts effectués auprès d une banque pour l achat d un logement par un échantillon de 91 personnes. Personnes mariées à gauche et célibataires à droite. Commenter et comparer les deux histogrammes. A. Caboussat, HEG STAT I, 2010 8 / 54

Synthèses numériques de distribution A. Caboussat, HEG STAT I, 2010 9 / 54

Table des matières Indicateurs de tendance centrale Indicateurs de dispersion Boxplot Mesures d asymétrie (skewness) Mesures d aplatissement (kurtosis) A. Caboussat, HEG STAT I, 2010 10 / 54

Indicateurs de tendance centrale Mode, moyenne et médiane A. Caboussat, HEG STAT I, 2010 11 / 54

Objectif Savoir calculer et interpréter les principales mesures de positionnement: le mode la moyenne la médiane A. Caboussat, HEG STAT I, 2010 12 / 54

Indicateur de tendance centrale I Définition Le mode est la valeur de l observation ayant la plus grande fréquence. Plusieurs valeurs de même fréquence distribution bimodale (2) ou multimodale Avantages: variables qualitatives, nominales surtout Inconvénients: distributions multimodales Commandes Informatiques mode (Excel FR) mode (Excel AN) A. Caboussat, HEG STAT I, 2010 13 / 54

Exemple Un sondage est effectué dans un supermarché dans le but de connaître les boissons non alcoolisées achetées. Classe Fréquence Jus d orange 120 Grapefruit 46 San Pellegrino 53 Coca Cola 134 Fanta 13 Lait 98 A. Caboussat, HEG STAT I, 2010 14 / 54

Indicateur de tendance centrale II Définition La moyenne (arithmétique) d un ensemble de n observations x 1,..., x n est définie par x 1 +... + x n n = 1 n n x i = i=1 n i=1 x i n La notation dépend du contexte: échantillon: x = 1 n population: µ = 1 N n i=1 N i=1 A. Caboussat, HEG STAT I, 2010 15 / 54 x i x i

notes statistiques sportives Commandes Informatiques mean (R) moyenne (Excel FR) average (Excel AN) A. Caboussat, HEG STAT I, 2010 16 / 54

Exemple La taille, en cm, de bébés à leur naissance a été recueillie pour 10 bébés: 43 38 54 45 56 39 43 46 52 55 La taille moyenne d un bébé dans cet échantillon est alors de (43 + 38 + 54 + 45 + 56 + 39 + 43 + 46 + 52 + 55)/10 = 47.10 A. Caboussat, HEG STAT I, 2010 17 / 54

Exemple Les notes (sur 6) d un étudiant de la HEG sont les suivantes. Passe-t-il l année? 6 4 2 2.5 1.5 4.5 A. Caboussat, HEG STAT I, 2010 18 / 54

Indicateur de tendance centrale III Définition La médiane est définie par la valeur qui partage l ensemble des observations en deux parties de même grandeur, l une formée des valeurs plus petites que la médiane, et l autre formée des valeurs plus grandes que la médiane. Commandes Informatiques median (R) mediane (Excel FR) median (Excel AN) A. Caboussat, HEG STAT I, 2010 19 / 54

Calcul de la médiane Si n est impair: C est la valeur centrale. Si n est pair: med(x) = x [ n+1 2 ] med(x) = x [ n 2 ] + x [ n 2 +1] 2 C est la moyenne des deux valeurs centrales lorsque les observations sont ordonnées. A. Caboussat, HEG STAT I, 2010 20 / 54

Exemple Les statistiques d ordre sur la taille des bébé sont: 38 39 43 43 45 46 52 54 55 56 La médiane est x [5] + x [6] 2 = 45.5 A. Caboussat, HEG STAT I, 2010 21 / 54

Exemple (modifié) Les statistiques d ordre sur la taille des bébé sont: 38 39 43 43 45 46 52 54 55 La médiane est... A. Caboussat, HEG STAT I, 2010 22 / 54

Graphique L ogive (de la fréquence relative cumulée) permet d estimer la médiane. Exemple des délais de livraison: 2, 6, 6, 6, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 10, 11, 12. A. Caboussat, HEG STAT I, 2010 23 / 54

Graphique L ogive (de la fréquence relative cumulée) permet d estimer la médiane. Exemple des délais de livraison: 2, 6, 6, 6, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 10, 11, 12. A. Caboussat, HEG STAT I, 2010 23 / 54

Moyenne vs médiane Les tailles à la naissance de bébés: moyenne > médiane 38 39 43 43 45 46 52 54 55 56 Moyenne: 47.1 Médiane: 45.5 moyenne = médiane 38 39 43 43 45 46 52 54 49 46 Moyenne: 45.5 Médiane: 45.5 moyenne < médiane 38 39 43 43 45 46 52 53 49 46 Moyenne: 45.4 Médiane: 45.5 A. Caboussat, HEG STAT I, 2010 24 / 54

Remarques Si la distribution est symétrique, alors la moyenne et la médiane ont des valeurs très proches. La moyenne est beaucoup plus sensible aux valeurs extrêmes (atypique) que la médiane. C est pourquoi on dit que la médiane est une valeur robuste (elle résiste aux valeurs extrêmes). La médiane est aussi appropriée pour les variables qualitatives ordinales. A. Caboussat, HEG STAT I, 2010 25 / 54

Exemple: moyenne et médiane Données: x 1 = 1, x 2 = 2, x 3 = 3. Données: x 1 = 1, x 2 = 2, x 3 = 30. A. Caboussat, HEG STAT I, 2010 26 / 54

Sensibilité aux valeurs extrêmes Afin de rendre la moyenne moins sensible aux valeurs extrêmes, on définit parfois une moyenne tronquée, qui permet de faire la moyenne sur un sous-ensemble des observations: les valeurs extrêmes sont retirées. A. Caboussat, HEG STAT I, 2010 27 / 54

Moyenne tronquée Définition La moyenne tronquée x p est une moyenne calculée sur une distribution dont le pourcentage p des plus petites et plus grandes valeurs ont été retirées. La moyenne tronquée d un ensemble de données est la moyenne de la partie du milieu de leur distribution, les valeurs extrêmes étant éliminées. Comme la médiane, elle exclut les valeurs extrêmes et minimise par conséquent leur effet, mais, comme la moyenne simple, elle utilise toute l information restante. A. Caboussat, HEG STAT I, 2010 28 / 54

Moyenne tronquée exclure le max et le min exclure le 5% des valeurs les plus élevées et les 5% des valeurs les plus faibles exclure le 10% des valeurs les plus élevées et les 10% des valeurs les plus faibles etc. La médiane peut être vue comme une moyenne tronquée: la médiane exclut tous les points de données à une ou deux exceptions près. Commandes Informatiques mean(...,trim=x%) (R) moyenne.reduite (Excel FR) trimmean (Excel AN) A. Caboussat, HEG STAT I, 2010 29 / 54

Exemple Les notes données lors de compétitions de patinage artistique. Les deux notes extrêmes sont enlevées avant de calculer la moyenne sur les notes restantes. A. Caboussat, HEG STAT I, 2010 30 / 54

Exemple La distribution du nombre de tasses de café bues en une journée à la terrasse d un bistro est de: 11 23 35 54 21 93 46 25 13 43 25 34 31 42 18 20 41 44 27 28 Statistiques d ordre: 11 13 18 20 21 23 25 25 27 28 31 34 35 41 42 43 44 46 54 93 Moyenne: 33.7 Moyenne tronquée à 10%: x 0.1 = 31.7. A. Caboussat, HEG STAT I, 2010 31 / 54

Résumé Mesures de tendance centrale (positionnement) Mode: valeur la plus fréquente Moyenne arithmétique (tronquée) Médiane: 50% au dessous, 50% au dessus A. Caboussat, HEG STAT I, 2010 32 / 54

Indicateurs de Dispersion Étendue, écart-type, écart inter-quartile, boxplot A. Caboussat, HEG STAT I, 2010 33 / 54

Objectif Savoir calculer et interpréter les principales mesures de dispersion: l étendue les quartiles et l écart interquartile l écart-type le boxplot A. Caboussat, HEG STAT I, 2010 34 / 54

Mesures de dispersion Indiquent dans quelle mesure les observations sont groupées autour du centre, ou, au contraire, s en écartent. Les indicateurs sont basés sur: 1 les différences entre observations: étendue, quartiles, écart interquartile, boxplot 2 les écarts par rapport à la tendance centrale: variance, écart-type A. Caboussat, HEG STAT I, 2010 35 / 54

Dispersion faible vs forte A. Caboussat, HEG STAT I, 2010 36 / 54

Exemples La moyenne de classe est de 4 sur 6. Les Suisses mangent en moyenne 20 kilos de fromage par année. A. Caboussat, HEG STAT I, 2010 37 / 54

Étendue Définition L étendue est définie par x [n] x [1] Cette mesure n est souvent pas satisfaisante car seules les deux valeurs extrêmes sont considérées. A. Caboussat, HEG STAT I, 2010 38 / 54

Exemple La distribution du nombre de tasses de café bues en une journée à la terrasse d un bistro est de: 11 23 35 54 21 93 46 25 13 43 25 34 31 42 18 20 41 44 27 28 L étendue est de 93 11 = 82 A. Caboussat, HEG STAT I, 2010 39 / 54

Les quantiles Généralisation de la notion de médiane. Principe: on partage la distribution en plusieurs classes égales, dont les bornes des classes ainsi obtenues sont appelées quantiles. A. Caboussat, HEG STAT I, 2010 40 / 54

Exemple 32% des données sont plus petites que le 32 e -quantile et 68% sont plus grandes. A. Caboussat, HEG STAT I, 2010 41 / 54

Quantile d ordre α Définition Le quantile d ordre α, est une valeur telle que α% des données sont inférieures et (100 α)% des données sont supérieures. Pour trouver un quantile, il faut déterminer: son rang (ordre) : Position occupée lorsque les données sont par ordre croissant sa valeur Commandes Informatiques quantile (R) centile (Excel FR) percentile (Excel AN) A. Caboussat, HEG STAT I, 2010 42 / 54