Statistiques I Alexandre Caboussat alexandre.caboussat@hesge.ch Classe : Mercredi 8h15-10h00 Salle : C114 http://campus.hesge.ch/caboussata A. Caboussat, HEG STAT I, 2010 1 / 54
Rappel Représentations de variables quantitatives Diagramme tige-feuille: un chiffre par feuille, qui complète la tige Diagramme de dispersion: courbe d une série temporelle Regroupement de données Histogramme: surface proportionnelle à la fréquence A. Caboussat, HEG STAT I, 2010 2 / 54
Remarque sur l ogive Ogive peut représenter la distribution de fréquences cumulées ou la distribution de fréquences relatives cumulées. Ogive pour des variables qualitatives ou quantitatives Par défaut: Ogive des fréquences relatives cumulées. (à moins que l on spécifie explicitement). A. Caboussat, HEG STAT I, 2010 3 / 54
Exercice 3.1 Représenter l évolution du nombre d employés de l entreprise Sun4all, entre 1991 et 2003, par un diagramme de dispersion. Commenter ce graphique. A. Caboussat, HEG STAT I, 2010 4 / 54
Exercice 3.2 Les temps d attente en minutes aux urgences du cabinet AieVite sont de 2, 5, 10, 12, 4, 4, 5, 17, 11, 8, 9, 8, 12, 21, 6, 8, 7, 13, 18, 3. Utiliser les classes [0 5[, [5 10[,.... Construire la distribution de fréquence cumulée relative. A. Caboussat, HEG STAT I, 2010 5 / 54
Exercice 3.2 (suite) Les temps d attente en minutes aux urgences du cabinet AieVite sont de 2, 5, 10, 12, 4, 4, 5, 17, 11, 8, 9, 8, 12, 21, 6, 8, 7, 13, 18, 3. Utiliser les classes [0 5[, [5 10[,.... Résumer ces données par une ogive. Quelle est la proportion des patients qui attendent au plus 10 minutes? A. Caboussat, HEG STAT I, 2010 6 / 54
Exercice 3.3 A la main! A. Caboussat, HEG STAT I, 2010 7 / 54
Exercice 3.4 Emprunts effectués auprès d une banque pour l achat d un logement par un échantillon de 91 personnes. Personnes mariées à gauche et célibataires à droite. Commenter et comparer les deux histogrammes. A. Caboussat, HEG STAT I, 2010 8 / 54
Synthèses numériques de distribution A. Caboussat, HEG STAT I, 2010 9 / 54
Table des matières Indicateurs de tendance centrale Indicateurs de dispersion Boxplot Mesures d asymétrie (skewness) Mesures d aplatissement (kurtosis) A. Caboussat, HEG STAT I, 2010 10 / 54
Indicateurs de tendance centrale Mode, moyenne et médiane A. Caboussat, HEG STAT I, 2010 11 / 54
Objectif Savoir calculer et interpréter les principales mesures de positionnement: le mode la moyenne la médiane A. Caboussat, HEG STAT I, 2010 12 / 54
Indicateur de tendance centrale I Définition Le mode est la valeur de l observation ayant la plus grande fréquence. Plusieurs valeurs de même fréquence distribution bimodale (2) ou multimodale Avantages: variables qualitatives, nominales surtout Inconvénients: distributions multimodales Commandes Informatiques mode (Excel FR) mode (Excel AN) A. Caboussat, HEG STAT I, 2010 13 / 54
Exemple Un sondage est effectué dans un supermarché dans le but de connaître les boissons non alcoolisées achetées. Classe Fréquence Jus d orange 120 Grapefruit 46 San Pellegrino 53 Coca Cola 134 Fanta 13 Lait 98 A. Caboussat, HEG STAT I, 2010 14 / 54
Indicateur de tendance centrale II Définition La moyenne (arithmétique) d un ensemble de n observations x 1,..., x n est définie par x 1 +... + x n n = 1 n n x i = i=1 n i=1 x i n La notation dépend du contexte: échantillon: x = 1 n population: µ = 1 N n i=1 N i=1 A. Caboussat, HEG STAT I, 2010 15 / 54 x i x i
notes statistiques sportives Commandes Informatiques mean (R) moyenne (Excel FR) average (Excel AN) A. Caboussat, HEG STAT I, 2010 16 / 54
Exemple La taille, en cm, de bébés à leur naissance a été recueillie pour 10 bébés: 43 38 54 45 56 39 43 46 52 55 La taille moyenne d un bébé dans cet échantillon est alors de (43 + 38 + 54 + 45 + 56 + 39 + 43 + 46 + 52 + 55)/10 = 47.10 A. Caboussat, HEG STAT I, 2010 17 / 54
Exemple Les notes (sur 6) d un étudiant de la HEG sont les suivantes. Passe-t-il l année? 6 4 2 2.5 1.5 4.5 A. Caboussat, HEG STAT I, 2010 18 / 54
Indicateur de tendance centrale III Définition La médiane est définie par la valeur qui partage l ensemble des observations en deux parties de même grandeur, l une formée des valeurs plus petites que la médiane, et l autre formée des valeurs plus grandes que la médiane. Commandes Informatiques median (R) mediane (Excel FR) median (Excel AN) A. Caboussat, HEG STAT I, 2010 19 / 54
Calcul de la médiane Si n est impair: C est la valeur centrale. Si n est pair: med(x) = x [ n+1 2 ] med(x) = x [ n 2 ] + x [ n 2 +1] 2 C est la moyenne des deux valeurs centrales lorsque les observations sont ordonnées. A. Caboussat, HEG STAT I, 2010 20 / 54
Exemple Les statistiques d ordre sur la taille des bébé sont: 38 39 43 43 45 46 52 54 55 56 La médiane est x [5] + x [6] 2 = 45.5 A. Caboussat, HEG STAT I, 2010 21 / 54
Exemple (modifié) Les statistiques d ordre sur la taille des bébé sont: 38 39 43 43 45 46 52 54 55 La médiane est... A. Caboussat, HEG STAT I, 2010 22 / 54
Graphique L ogive (de la fréquence relative cumulée) permet d estimer la médiane. Exemple des délais de livraison: 2, 6, 6, 6, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 10, 11, 12. A. Caboussat, HEG STAT I, 2010 23 / 54
Graphique L ogive (de la fréquence relative cumulée) permet d estimer la médiane. Exemple des délais de livraison: 2, 6, 6, 6, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 10, 11, 12. A. Caboussat, HEG STAT I, 2010 23 / 54
Moyenne vs médiane Les tailles à la naissance de bébés: moyenne > médiane 38 39 43 43 45 46 52 54 55 56 Moyenne: 47.1 Médiane: 45.5 moyenne = médiane 38 39 43 43 45 46 52 54 49 46 Moyenne: 45.5 Médiane: 45.5 moyenne < médiane 38 39 43 43 45 46 52 53 49 46 Moyenne: 45.4 Médiane: 45.5 A. Caboussat, HEG STAT I, 2010 24 / 54
Remarques Si la distribution est symétrique, alors la moyenne et la médiane ont des valeurs très proches. La moyenne est beaucoup plus sensible aux valeurs extrêmes (atypique) que la médiane. C est pourquoi on dit que la médiane est une valeur robuste (elle résiste aux valeurs extrêmes). La médiane est aussi appropriée pour les variables qualitatives ordinales. A. Caboussat, HEG STAT I, 2010 25 / 54
Exemple: moyenne et médiane Données: x 1 = 1, x 2 = 2, x 3 = 3. Données: x 1 = 1, x 2 = 2, x 3 = 30. A. Caboussat, HEG STAT I, 2010 26 / 54
Sensibilité aux valeurs extrêmes Afin de rendre la moyenne moins sensible aux valeurs extrêmes, on définit parfois une moyenne tronquée, qui permet de faire la moyenne sur un sous-ensemble des observations: les valeurs extrêmes sont retirées. A. Caboussat, HEG STAT I, 2010 27 / 54
Moyenne tronquée Définition La moyenne tronquée x p est une moyenne calculée sur une distribution dont le pourcentage p des plus petites et plus grandes valeurs ont été retirées. La moyenne tronquée d un ensemble de données est la moyenne de la partie du milieu de leur distribution, les valeurs extrêmes étant éliminées. Comme la médiane, elle exclut les valeurs extrêmes et minimise par conséquent leur effet, mais, comme la moyenne simple, elle utilise toute l information restante. A. Caboussat, HEG STAT I, 2010 28 / 54
Moyenne tronquée exclure le max et le min exclure le 5% des valeurs les plus élevées et les 5% des valeurs les plus faibles exclure le 10% des valeurs les plus élevées et les 10% des valeurs les plus faibles etc. La médiane peut être vue comme une moyenne tronquée: la médiane exclut tous les points de données à une ou deux exceptions près. Commandes Informatiques mean(...,trim=x%) (R) moyenne.reduite (Excel FR) trimmean (Excel AN) A. Caboussat, HEG STAT I, 2010 29 / 54
Exemple Les notes données lors de compétitions de patinage artistique. Les deux notes extrêmes sont enlevées avant de calculer la moyenne sur les notes restantes. A. Caboussat, HEG STAT I, 2010 30 / 54
Exemple La distribution du nombre de tasses de café bues en une journée à la terrasse d un bistro est de: 11 23 35 54 21 93 46 25 13 43 25 34 31 42 18 20 41 44 27 28 Statistiques d ordre: 11 13 18 20 21 23 25 25 27 28 31 34 35 41 42 43 44 46 54 93 Moyenne: 33.7 Moyenne tronquée à 10%: x 0.1 = 31.7. A. Caboussat, HEG STAT I, 2010 31 / 54
Résumé Mesures de tendance centrale (positionnement) Mode: valeur la plus fréquente Moyenne arithmétique (tronquée) Médiane: 50% au dessous, 50% au dessus A. Caboussat, HEG STAT I, 2010 32 / 54
Indicateurs de Dispersion Étendue, écart-type, écart inter-quartile, boxplot A. Caboussat, HEG STAT I, 2010 33 / 54
Objectif Savoir calculer et interpréter les principales mesures de dispersion: l étendue les quartiles et l écart interquartile l écart-type le boxplot A. Caboussat, HEG STAT I, 2010 34 / 54
Mesures de dispersion Indiquent dans quelle mesure les observations sont groupées autour du centre, ou, au contraire, s en écartent. Les indicateurs sont basés sur: 1 les différences entre observations: étendue, quartiles, écart interquartile, boxplot 2 les écarts par rapport à la tendance centrale: variance, écart-type A. Caboussat, HEG STAT I, 2010 35 / 54
Dispersion faible vs forte A. Caboussat, HEG STAT I, 2010 36 / 54
Exemples La moyenne de classe est de 4 sur 6. Les Suisses mangent en moyenne 20 kilos de fromage par année. A. Caboussat, HEG STAT I, 2010 37 / 54
Étendue Définition L étendue est définie par x [n] x [1] Cette mesure n est souvent pas satisfaisante car seules les deux valeurs extrêmes sont considérées. A. Caboussat, HEG STAT I, 2010 38 / 54
Exemple La distribution du nombre de tasses de café bues en une journée à la terrasse d un bistro est de: 11 23 35 54 21 93 46 25 13 43 25 34 31 42 18 20 41 44 27 28 L étendue est de 93 11 = 82 A. Caboussat, HEG STAT I, 2010 39 / 54
Les quantiles Généralisation de la notion de médiane. Principe: on partage la distribution en plusieurs classes égales, dont les bornes des classes ainsi obtenues sont appelées quantiles. A. Caboussat, HEG STAT I, 2010 40 / 54
Exemple 32% des données sont plus petites que le 32 e -quantile et 68% sont plus grandes. A. Caboussat, HEG STAT I, 2010 41 / 54
Quantile d ordre α Définition Le quantile d ordre α, est une valeur telle que α% des données sont inférieures et (100 α)% des données sont supérieures. Pour trouver un quantile, il faut déterminer: son rang (ordre) : Position occupée lorsque les données sont par ordre croissant sa valeur Commandes Informatiques quantile (R) centile (Excel FR) percentile (Excel AN) A. Caboussat, HEG STAT I, 2010 42 / 54