Notions fondamentales en statistique

Documents pareils
Statistiques Descriptives à une dimension

1. Vocabulaire : Introduction au tableau élémentaire

Séries Statistiques Simples

Prix du gaz et de l électricité dans l Union européenne en 2011

Principaux partenaires commerciaux de l UE, (Part dans le total des échanges de biens extra-ue, sur la base de la valeur commerciale)

Kit Demande de Bourse Etude Erasmus

Leçon N 4 : Statistiques à deux variables

OBSERVATION ET STATISTIQUES

Annexe commune aux séries ES, L et S : boîtes et quantiles

Taux de risque de pauvreté ou d exclusion sociale le plus élevé en Bulgarie, le plus faible en République tchèque

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Statistique : Résumé de cours et méthodes

Vous avez eu ou élevé des enfants Vos droits

Représentation d une distribution

Âge effectif de sortie du marché du travail

Prix de l énergie dans l Union européenne en 2010

Statistique Descriptive Élémentaire

Préparez-vous au virement SEPA

Premières estimations pour 2014 Le revenu agricole réel par actif en baisse de 1,7% dans l UE28

Préparez-vous au virement

Livre blanc Compta Le SEPA : Comment bien préparer sa migration?

L IMMIGRATION AU SEIN DE L UE

Mobilité de l enseignement supérieur

LA RÉDUCTION DU TEMPS DE TRAVAIL : UNE COMPARAISON DE LA POLITIQUE DES «35 HEURES» AVEC LES POLITIQUES D AUTRES PAYS MEMBRES DE L OCDE

Quel est le temps de travail des enseignants?

PROGRAMME ERASMUS+ Toute mobilité Erasmus+, financée ou non par la bourse, doit faire l objet de justification sur la base des documents suivants

Quelle part de leur richesse nationale les pays consacrent-ils à l éducation?

RETRAITES : Y A-T-IL UNE SOLUTION IDÉALE EN EUROPE POUR UN AVENIR?

CONDITIONS CONTRACTUELLES APPLICABLES A L OPERATION «LES BONNES AFFAIRES MICROSOFT OFFRE MULTIPRODUITS»

CONTRAT DE MOBILITE POUR LES MOBILITES D ETUDES DU PROGRAMME ERASMUS+ dans les pays participant au programme (mobilités européennes)

La retraite pour pénibilité

Le commerce de détail en Europe : la diversité des tissus commerciaux

Le point sur les marchés des pensions. des pays de l OCDE OCDE

Fiche signalétique d un service de téléphonie mobile version du 24/08/2012

Guide SEPA Paramétrage Experts Solutions SAGE depuis 24 ans

12. Le système monétaire

Qui sommes-nous? Motivation Factory propose des solutions web

SOUSCRIPTION DU CONTRAT : TERRITORIALITE

Les prestations servies dans la zone UE-EEE-Suisse entre 2004 et 2013

Vous avez du talent, nous protégeons votre indépendance. Demande de pension d invalidité Notice explicative

Actifs des fonds de pension et des fonds de réserve publics

Guide SEPA «Votre guide pour préparer la migration de vos flux vers l Europe des Moyens de Paiement»

NOTE DE SYNTHÈSE DU REM (INFORM)

Logiciel XLSTAT version rue Damrémont PARIS

Prendre sa retraite en France Droits, conditions et formalités de résidence. Natasha Lavy-Upsdale Service des Relations avec les Pays-hôtes

Carte Familles nombreuses

Bénéficiaires du droit d asile dans l UE, par nationalités, Irak 5% Afghanistan

Les comptes nationaux et le SEC 2010

GUIDE RETRAITE COMPLÉMENTAIRE AGIRC ET ARRCO LE LIVRET DU RETRAITÉ. n o 2. Le livret du retraité

Le creusement des inégalités touche plus particulièrement les jeunes et les pauvres

REGARDS SUR L ÉDUCATION 2013 : POINTS SAILLANTS POUR LE CANADA

La recherche d assurance maladie à l étranger Procédure à l usage des CPAS

Le coût du rachat de trimestres pour carrière à l étranger multiplié par 4 au plus tard le 1 er janvier 2011

DISPOSITIF D INTERVENTION REGIONALE AIDE À LA MOBILITE ETUDIANTE A L'ETRANGER Année universitaire 2015/2016

REJOIGNEZ LES MEILLEURS COIFFEURS D'EUROPE SANS PLUS TARDER

La stabilité des prix : pourquoi est-elle importante pour vous? Brochure d information destinée aux élèves

B o u r s e d e m o b i l i t é B E E p o u r l e s d é p a r t s e n

FORMALITES DOUANIERES

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Brochure Tarifaire AliceBox au 12/11/2012

PROGRAMME INTERNATIONAL POUR LE SUIVI DES ACQUIS DES ÉLÈVES QUESTIONS ET RÉPONSES DE L ÉVALUATION PISA 2012 DE LA CULTURE FINANCIÈRE

Aide pour une complémentaire santé

telecomnews Votre internet professionnel dans un Bizz Pack! gratuites - 12 pendant 6 mois pour indépendants et petites entreprises Voir p.

Janvier 2005 :FIREFOX PASSE LA BARRE SYMBOLIQUE DES 10%

NOUVELLES DISPOSITIONS RELATIVES AUX SERVICES DE PAIEMENT APPLICABLES AUX PARTICULIERS A PARTIR DU 1 ER NOVEMBRE 2009

Quelle garantie pour vos dépôts?

Heureusement ce n est pas une banque! Guide utilisateur. Guide utilisateur v3.3 page nobanco. All Rights Reserved.

PNEUS HIVER EN EUROPE

Pension AOW pour les assurés hors des Pays-Bas

Guide de préparation au virement SEPA pour les PME

ECONOMIE. DATE: 16 Juin 2011

La coordination des soins de santé en Europe

Étude de marché. Critères de qualification Travaux de génie civil et construction de bâtiments industriels au CERN

Le virement SEPA. Novembre 2007 LES MINI-GUIDES BANCAIRES. Le site d informations pratiques sur la banque et l argent

Le prélèvement SEPA Quels impacts pour votre entreprise?

Opérations bancaires avec l étranger *

Bilan e-commercee. 24 janvier Pershing Hall. En présence de M. Eric BESSON Ministre chargé de l'industrie, de l Energie l

COMMENT PAYEZ-VOUS? COMMENT VOUDRIEZ-VOUS PAYER?

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Je suis sous procédure Dublin qu est-ce que cela signifie?

Notes explicatives concernant le formulaire d opposition

Couverture maladie universelle complémentaire

Facilitez vos démarches, Étudiants étrangers. renseignez-vous avant de vous déplacer DÉMARCHES ADMINISTRATIVES.

GUIDE TARIFAIRE Pour les particuliers carte SIM prépayée AfoneMobile (cartes et recharges par internet et/ou par téléphone)

La diffusion des technologies de l information et de la communication dans la société française

Épargner et investir au sein de l Union européenne La Directive européenne sur l épargne pour les non-résidents

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Mobilem auto & moto. Roulez!

Lire ; Compter ; Tester... avec R

Conditions tarifaires des principaux services financiers et bancaires au 1 er février intermédiaire en opérations de banque de Socram Banque

Flotte Automobile (-3,5t)

Agricultural Policies in OECD Countries: Monitoring and Evaluation Les politiques agricoles des pays de l OCDE: Suivi et évaluation 2005.

SOGECASH NET. vos opérations bancaires en ligne

Nom. les. autres États. n de l aviation. Organisation. ATConf/6-WP/49 14/2/12. Point 2 : 2.2. Examen de. des accords bilatéraux. consultées.

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Transcription:

Notions fondamentales en statistique Frédéric Bertrand et Myriam Maumy-Bertrand IRMA, UMR 7501, Université de Strasbourg 16 septembre 2014 F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 1/ 61

Sommaire 1 Introduction 2 Définitions fondamentales 3 Les deux types de caractères 4 Les différentes distributions statistiques 5 Quelques représentations graphiques 6 Quelques caractéristiques de position 7 Quelques caractéristiques de dispersion 8 Caractéristiques de forme 9 Boîte de distribution ou diagramme de Tukey F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 2 / 61

Les deux branches de la statistique Population U Individus Échantillon S Statistique descriptive : déterminer les caractéristiques d une population. Statistique inférentielle : extrapoler les résultats numériques obtenus sur un échantillon à la population. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 3 / 61

Objectif de la statistique descriptive L objectif de la statistique descriptive est de présenter et de décrire, c est-à-dire de résumer numériquement et/ou de représenter graphiquement, les données disponibles quand elles sont nombreuses ou les données provenant d un recensement. Que trouvons-nous dans la statistique descriptive? Le concept de population, le concept de résumés numériques, avec les trois sortes de caractéristiques : 1 position, 2 dispersion, 3 forme. le concept de représentations graphiques, comme par exemple la boîte à moustaches ou l histogramme. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 4 / 61

Sommaire 1 Introduction 2 Définitions fondamentales 3 Les deux types de caractères 4 Les différentes distributions statistiques 5 Quelques représentations graphiques 6 Quelques caractéristiques de position 7 Quelques caractéristiques de dispersion 8 Caractéristiques de forme 9 Boîte de distribution ou diagramme de Tukey F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 5 / 61

Définition L ensemble sur lequel porte l activité statistique s appelle la population. Elle est généralement notée Ω, pour rappeler la notation des probabilités ou U, U comme Univers, notation souvent utilisée dans la théorie des sondages. Le cardinal d une population est en général noté N. Définition Les éléments de la population sont appelés les individus ou les unités statistiques. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 6 / 61

Remarque Les individus d une population peuvent être de natures très diverses. Exemples Ensemble de personnes, mois d une année, pièces produites par une usine, résultats d expériences répétées un certain nombre de fois... F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 7 / 61

Définition Les caractéristiques étudiées sur les individus d une population sont appelées les caractères. Un caractère est donc une application χ d un ensemble fini Ω (la population) dans un ensemble C (l ensemble des valeurs du caractère), qui associe à chaque individu ω de Ω la valeur χ(ω) que prend ce caractère sur l individu ω. Définition La suite des valeurs χ(ω) prises par χ s appelle les données brutes. C est une suite finie de valeurs (X 1, X 2,..., X N ) de l ensemble C. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 8 / 61

Sommaire 1 Introduction 2 Définitions fondamentales 3 Les deux types de caractères 4 Les différentes distributions statistiques 5 Quelques représentations graphiques 6 Quelques caractéristiques de position 7 Quelques caractéristiques de dispersion 8 Caractéristiques de forme 9 Boîte de distribution ou diagramme de Tukey F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 9 / 61

Il existe deux types de caractères : 1 les caractères qualitatifs : les modalités ne sont pas mesurables et peuvent être décrites par un mot, un groupe de mots ou une phrase. Ils peuvent être de nature ordinale ou nominale, 2 les caractères quantitatifs : leur détermination produit un nombre ou une suite de nombres. Nous distinguons : Les caractères discrets. Ils ne peuvent prendre que certaines valeurs particulières. Les caractères continus. Ils peuvent prendre des valeurs réelles quelconques. Si nous prenons deux valeurs quelconques du caractère aussi rapprochées soient-elles, il existe toujours une infinité de valeurs comprises entre elles. Puis nous distinguons également : Les caractères simples. Leur mesure sur un individu produit un seul nombre. L ensemble de leurs valeurs est donc R ou une partie de R. Les caractères multiples. Leur mesure sur un individu produit une suite finie de nombres. L ensemble de leurs valeurs est donc R n ou une partie de R n. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 10 / 61

Caractères qualitatifs nominaux Profession, adresse, situation de famille, genre... Caractères qualitatifs ordinaux Départements,... Caractères quantitatifs simples Taille, poids, salaire, température... Caractères quantitatifs multiples Relevé de notes d un(e) étudiant(e), fiche de salaire,... Remarque Les caractères qualitatifs peuvent toujours être transformés en caractères quantitatifs par codage. C est ce qui se fait le plus généralement. Mais un tel codage est purement conventionnel et n a pas vraiment un sens quantitatif. Par exemple, nous ne pourrons pas calculer le genre moyen. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 11 / 61

Remarque Si X est un caractère quantitatif simple l ensemble X (Ω) = {X 1, X 2,..., X N } des valeurs atteintes par le caractère (ou données brutes) est un ensemble fini {x 1,..., x n }. Nous supposerons que ces valeurs sont ordonnées : x 1 < x 2 <... < x n. Le fait que telle valeur soit relative à tel individu est un renseignement qui n intéresse pas le statisticien. Seul l ensemble des valeurs atteintes et le nombre de fois que chacune d elle est atteinte sont utiles. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 12 / 61

Sommaire 1 Introduction 2 Définitions fondamentales 3 Les deux types de caractères 4 Les différentes distributions statistiques 5 Quelques représentations graphiques 6 Quelques caractéristiques de position 7 Quelques caractéristiques de dispersion 8 Caractéristiques de forme 9 Boîte de distribution ou diagramme de Tukey F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 13 / 61

Définition Nous appelons effectif de la valeur x i : le nombre n i de fois que la valeur x i est prise, c est-à-dire le cardinal de l ensemble X 1 (x i ) ; i effectif cumulé en x i : la somme n j ; fréquence de la valeur x i : le rapport f i = n i N de l effectif de x i à l effectif total N de la population, c est-à-dire le cardinal de Ω ou encore la somme des n i ; i fréquence cumulée en x i : la somme f j. j=1 j=1 F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 14 / 61

Remarque Lorsque le nombre des valeurs atteintes est important, nous préférons regrouper les valeurs en classes pour rendre la statistique plus lisible. Nous partageons alors l ensemble C des valeurs du caractère en classes ]a i ; a i+1 ] avec a i < a i+1. Nous parlons alors de statistique groupée ou continue. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 15 / 61

Définition Nous appelons effectif de ]a i ; a i+1 ] : le nombre n i de valeurs prises dans ]a i ; a i+1 ], c est-à-dire X 1 (]a i ; a i+1 ]) ; effectif cumulé en a i : le nombre de valeurs prises dans ] ; a i ] ; fréquence de ]a i ; a i+1 ] : le rapport f i = n i N ; fréquence cumulée en a i : la somme i f j. j=1 F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 16 / 61

Définition La famille (x i ; n i ) i=1,...,n ou (x i ; f i ) i=1,...,n est encore appelée distribution statistique discrète. Définition De même, la famille (]a i, a i+1 ], n i ) i=1,...,n ou (]a i, a i+1 ], f i ) i=1,...,n est encore appelée distribution statistique groupée ou continue. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 17 / 61

Sommaire 1 Introduction 2 Définitions fondamentales 3 Les deux types de caractères 4 Les différentes distributions statistiques 5 Quelques représentations graphiques 6 Quelques caractéristiques de position 7 Quelques caractéristiques de dispersion 8 Caractéristiques de forme 9 Boîte de distribution ou diagramme de Tukey F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 18 / 61

Définition Le diagramme en bâtons d une distribution statistique discrète est constitué d une suite de segments verticaux d abscisses x i dont la longueur est proportionnelle à l effectif ou la fréquence de x i. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 19 / 61

Exemple La distribution (1, 1), (2, 3), (3, 4), (4, 2), (5, 5), (6, 6), (7, 2), (8, 3), (9, 1), (10, 1) est représentée par le diagramme en bâtons de la figure ci-dessous. 6 5 4 3 2 1 0 2 4 6 8 10 Figure : Diagramme en bâtons F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 20 / 61

Définition Le polygone des effectifs (respectivement des fréquences) est obtenu à partir du diagramme en bâtons des effectifs (respectivement des fréquences) en joignant par un segment les sommets des bâtons. Remarque Le graphique de la figure suivante superpose le polygone des effectifs et le diagramme en bâtons des effectifs de l exemple précédent. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 21 / 61

Suite de l exemple 0.2 0.15 0.1 0.05 0 2 4 6 8 10 Figure : Diagramme en bâtons et polygone des fréquences F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 22 / 61

Définition En remplaçant les effectifs (respectivement les fréquences) par les effectifs cumulés (respectivement les fréquences cumuléss) nous obtenons le diagramme en bâtons et le polygone des effectifs cumulés (respectivement des fréquences cumulées). F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 23 / 61

Suite de l exemple 25 20 15 10 5 0 2 4 6 8 10 Figure : Diagramme en bâtons et polygone des effectifs cumulés F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 24 / 61

Définition Nous appelons histogramme la représentation graphique d un caractère quantitatif continu. Dans le cas où les amplitudes des classes sont égales, cet histogramme est constitué d un ensemble de rectangles dont la largeur est égale à a, l amplitude de la classe, et la hauteur égale à K n j où n j est l effectif de la classe et K est un coefficient arbitraire (choix d une échelle), de sorte que l aire totale sous l histogramme est égale à K N a où N est l effectif total. Dans le cas où les classes sont d amplitudes k j a inégales, multiples entiers de l une d entre elles a, nous convenons, pour conserver le résultat précédent, de prendre pour hauteur du rectangle de la classe numéro j le quotient K n j k j. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 25 / 61

Exemple Nous donnons l histogramme de la distribution suivante : (]1; 3], 4), (]3; 4], 8), (]4; 5, 5], 10), (]5, 5; 6], 14), (]6; 8], 20), (]8; 10], 12), (]10; 11], 9), (]11; 12, 5], 3). 25 20 15 10 5 0 2 4 6 8 10 12 Figure : Histogramme F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 26 / 61

Définition Le polygone des effectifs ou des fréquences d une distribution statistique est obtenu en joignant dans l histogramme de cette distribution les milieux des côtés horizontaux supérieurs. Suite de l Exemple La figure suivante superpose l histogramme des fréquences de l exemple précédent et le polygone des fréquences associé. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 27 / 61

Suite de l Exemple 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 2 4 6 8 10 12 Figure : Histogramme et polygone des fréquences F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 28 / 61

Définition Le polygone des fréquences cumulées d une distribution statistique groupée est la représentation graphique de la fonction définie par : sur l intervalle ]a i ; a i+1 ]. i 1 f (x) = f j + x a i f i a i+1 a i j=1 Remarque i 1 En particulier, remarquons que f (a i ) = f j et f (a i+1 ) = j=1 i f j. j=1 F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 29 / 61

Suite de l Exemple Pour l exemple précédent, nous obtenons la figure ci-dessous. 1 0.8 0.6 0.4 0.2 0 2 4 6 8 10 12 Figure : Polygone des fréquences cumulées d une distribution statistique groupée F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 30 / 61

Sommaire 1 Introduction 2 Définitions fondamentales 3 Les deux types de caractères 4 Les différentes distributions statistiques 5 Quelques représentations graphiques 6 Quelques caractéristiques de position 7 Quelques caractéristiques de dispersion 8 Caractéristiques de forme 9 Boîte de distribution ou diagramme de Tukey F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 31 / 61

Définition Le mode est l une des valeurs x 1, x 2,..., x p dont la fréquence f i est maximale. Définition La classe modale est une classe de densité, c est-à-dire de rapport fréquence/longueur, maximale. Définition La distribution est unimodale si elle a un seul mode. Si elle en a plusieurs elle est plurimodale (bimodale, trimodale,... ). Remarque Nous déterminons aisément les modes à partir des représentations graphiques. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 32 / 61

Définition Soit m et d les parties entière et décimale de (N + 1)/2. La médiane, notée Q 2 (x), est définie par : Q 2 (x) = x (m) + d(x (m+1) x (m) ) où x (m) signifie la m-ième valeur lorsque la série des valeurs est classée par ordre croissant. x (m) est aussi appelée la m-ième statistique d ordre. Définition Pour tout nombre α ]0; 1[, soit m et d les parties entière et décimale de α(n + 1). Le quantile d ordre α, noté Q α (x), est défini par : Q α (x) = x (m) + d(x (m+1) x (m) ). F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 33 / 61

Définition La moyenne arithmétique d une distribution statistique discrète (x i ; f i ) i=1,...,p est le nombre réel µ défini par : µ(x) = p x i f i = 1 N i=1 p x i n i, i=1 où N est l effectif total de la population. Remarque Nous pouvons aussi la calculer directement à partir des données brutes par N µ = 1 N j=1 X j c est-à-dire en calculant le rapport entre la somme de toutes les valeurs relevée (avec répétitions éventuelles) et l effectif total de la population. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 34 / 61

Définition Pour une distribution statistique groupée (]a i ; a i+1 ], f i ) i=1,...,p la moyenne arithmétique se calcule par : µ = p i=1 a i + a i+1 f i. 2 Remarque Cela revient à faire une hypothèse d homogénéité en considérant les valeurs équidistribuées à l intérieur d une classe ou, au contraire, à supposer que toute la fréquence est concentrée au centre de la classe (ce qui revient au même : nous remplaçons la distribution à l intérieur de la classe par son isobarycentre). F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 35 / 61

Remarque Il existe d autres moyennes : la moyenne arithmétique pondérée, la moyenne géométrique, la moyenne quadratique, la moyenne harmonique, la moyenne arithmético-géométrique,... F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 36 / 61

Remarque Comparons les deux principales caractéristiques de position : la médiane et la moyenne arithmétique. 1 Pour la médiane, Avantage : Peu sensible aux valeurs extrêmes (caractéristique robuste). Inconvénients : Délicate à calculer (différentes définitions). Ne se prête pas aux calculs algébriques. 2 Pour la moyenne arithmétique, Avantages : Facile à calculer. Se prête bien aux calculs algébriques. Répond au principe des moindres carrés. Inconvénients : Fortement influencée par les valeurs extrêmes. Mauvais indicateur pour une distribution polymodale ou fortement asymétrique. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 37 / 61

Exemple Tableau - Nombre d heures travaillées par semaine des personnes ayant un emploi à plein temps (2006). Pays Durée (heures) Allemagne 41, 7 Autriche 44, 1 Belgique 41, 0 Chypre 41, 8 Danemark 40, 5 Espagne 42, 2 Estonie 41, 5 Finlande 40, 5 F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 38 / 61

Exemple (suite) Pays Durée (heures) France 41, 0 Grèce 44, 1 Hongrie 41, 0 Irlande 40, 7 Italie 41, 3 Lettonie 43, 0 Lituanie 39, 8 Luxembourg 40, 9 Malte 41, 2 F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 39 / 61

Exemple (suite) Source : Eurostat. Pays Durée (heures) Pays-Bas 40, 8 Pologne 42, 9 Portugal 41, 6 République Tchèque 42, 7 Royaume-Uni 43, 1 Slovaquie 41, 6 Slovénie 42, 5 Suède 41, 1 F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 40 / 61

Figure : Carte des durées de travail F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 41 / 61

Exercice : c est à vous Calculer sur cet exemple le mode, la médiane, le premier quartile, le troisième quartile et la moyenne arithmétique. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 42 / 61

Solutions Statistiques descriptives : N Mode Médiane Q1 Q3 Moyenne 25 41,000 41,500 40,950 42,600 41,704 F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 43 / 61

Sommaire 1 Introduction 2 Définitions fondamentales 3 Les deux types de caractères 4 Les différentes distributions statistiques 5 Quelques représentations graphiques 6 Quelques caractéristiques de position 7 Quelques caractéristiques de dispersion 8 Caractéristiques de forme 9 Boîte de distribution ou diagramme de Tukey F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 44 / 61

Définition L étendue est la différence entre le maximum et le minimum. Définition L étendue inter-quartile, noté EIQ(x), est la différence entre le troisième quartile et le premier quartile. Définition La variance, notée σ 2 (x), est le nombre réel positif défini par : σ 2 (x) = p (x i µ(x)) 2 f i. i=1 F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 45 / 61

Définition L écart-type, noté σ(x), est la racine carrée de la variance. Il s exprime dans la même unité que la moyenne. Définition La médiane des écarts absolus à la médiane, notée MAD(x), d une série statistique est le nombre réel défini par : MAD(x) = Q 2 ( ( xi Q 2 (x) ) 1 i n ). F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 46 / 61

Exercice : c est à vous Calculer sur l exemple d Eurostat l étendue, l intervalle inter-quartile, l étendue inter-quartile, la variance et l écart-type. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 47 / 61

Solutions Statistiques descriptives : Etendue IIQ EIQ Variance 4,300 [40,950;42,600] 1,650 1,240 EcTyp 1,113 F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 48 / 61

Sommaire 1 Introduction 2 Définitions fondamentales 3 Les deux types de caractères 4 Les différentes distributions statistiques 5 Quelques représentations graphiques 6 Quelques caractéristiques de position 7 Quelques caractéristiques de dispersion 8 Caractéristiques de forme 9 Boîte de distribution ou diagramme de Tukey F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 49 / 61

Définition Le moment centré d ordre r est égal à : µm r (x) = p (x i µ(x)) r f i. i=1 Définition Le coefficient d asymétrie (skewness) de Fisher est la quantité γ 1 (x) définie par : γ 1 (x) = µ m 3 (x) σ 3 (x) = µ m 3 (x) ( µ m 2 (x)) 3/2 Définition Le coefficient d asymétrie de Pearson est la quantité β 1 (x) définie par : β 1 (x) = ( µm 3 (x)) 2 (σ 2 (x)) 3 = ( µm 3 (x)) 2 ( µ m 2 (x)) 3 = γ2 1(x). F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 50 / 61

Définition Le coefficient d aplatissement (kurtosis) de Fisher est la quantité γ 2 (x) définie par : γ 2 (x) = µ m 4 (x) ( µ m 2 (x)) 2 3. Définition Le coefficient d aplatissement de Pearson est la quantité β 2 (x) définie par β 2 (x) = µ m 4 (x) ( µ m 2 (x)) 2 = µ m 4 (x) σ 4 (x) F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 51 / 61

Solutions Statistiques descriptives : Asymétrie de Fisher Aplatissement de Fisher 0,71-0,06 F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 52 / 61

Sommaire 1 Introduction 2 Définitions fondamentales 3 Les deux types de caractères 4 Les différentes distributions statistiques 5 Quelques représentations graphiques 6 Quelques caractéristiques de position 7 Quelques caractéristiques de dispersion 8 Caractéristiques de forme 9 Boîte de distribution ou diagramme de Tukey F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 53 / 61

Objectif La boîte de distribution, «box-plot» en anglais, ou encore «boîte à moustaches», «boîte de dispersion», «diagramme de Tukey» en français, fournit en un seul coup d oeil les informations sur la tendance centrale, la dispersion, l asymétrie et l importance des valeurs extrêmes de la série de données que nous avons à explorer. Elle est aussi particulièrement intéressante pour la comparaison de distributions sur plusieurs de ces critères. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 54 / 61

Construction Dans une boîte de distribution : la boîte représente l intervalle interquartile ; à l intérieur, la médiane sépare la boîte en deux parties ; les lignes qui partent du bord de la boîte s étendent jusqu aux valeurs les plus extrêmes qui ne sont pas considérées comme trop éloignées du reste de l échantillon. La plupart des logiciels de statistique note «valeur éloignée» les points situés à plus de 1,5 fois l étendue interquartile par rapport aux bords de la boîte, et «valeur extrême», les points situés à plus de 3 fois l étendue interquartile. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 55 / 61

Construction (suite) Anisi, la taille de la boîte représente l étendue interquartile, la position de la médiane est un bon indicateur de la symétrie de la distribution, la taille des lignes de part et d autre de la boîte traduit la dispersion, et les valeurs éloignées ou extrêmes sont immédiatement repérées. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 56 / 61

Construction détails Nous représentons une boîte de distribution de la façon suivante : 1 Nous traçons un rectangle de largeur fixée à priori et de longueur EIQ = Q 0,75 Q 0,25. 2 Ensuite nous y situons la médiane par un segment positionné à la valeur Q 0,5, par rapport à Q 0,75 et Q 0,25. Nous avons alors la boîte. 3 Nous calculons (Q 0,75 + 1, 5 EIQ) et nous cherchons la dernière observation x h en deçà de la limite (Q 0,75 + 1, 5 EIQ), soit x h = max {x i /x i Q 0,75 + 1, 5 EIQ}. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 57 / 61

Construction détails 4 Nous calculons (Q 0,25 1, 5 EIQ) et nous cherchons la première observation x b au delà de la limite (Q 0,25 1, 5 EIQ), soit x b = min {x i /x i Q 0,25 1, 5 EIQ}. 5 Nous traçons deux lignes allant des milieux des largeurs du rectangle aux valeurs x b et x h. 6 Les observations qui ne sont pas comprises entre x b et x h sont représentés par des symboles spécifiques, généralement des étoiles. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 58 / 61

Exemple Durée (heures) 40 41 42 43 44 Figure : Boîte de distribution F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 59 / 61

Interprétation d une boîte de distribution Ce type de diagramme permet de comparer facilement plusieurs distributions en terme de médiane, quartiles et valeurs éloignées ou extrêmes. Interprétation d une boîte de distribution (suite) Une boîte de distribution rend compte de la tendance centrale, de la dispersion, des valeurs éloignées ou extrêmes et de la forme de la distribution, même si d autre modes de représentations peuvent apporter un complément d information sur la forme. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 60 / 61

Interprétation d une boîte de distribution (suite) Auparavant, nous avons mentionné l importance du triplet (N, µ, σ). La boîte de distribution est un complément qui se révèle intéressant puisqu elle permet de détecter l asymétrie, les valeurs extrêmes, et de repérer la médiane et l intervalle interquartile qui contient la moitié des observations. Dans le cas d une asymétrie, l écart-type qui mesure la dispersion symétriquement par rapport à la moyenne n est pas la mesure de dispersion la mieux adaptée, et peut-être complété par l étendue interquartile. D autre part, si la boîte de distribution indique des valeurs éloignées ou extrêmes, nous savons que la moyenne et l écart-type sont particulièrement influencés par ces valeurs. F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 61 / 61