TABLEAUX STATISTIQUES ET GRAPHIQUES

Documents pareils
Statistiques Descriptives à une dimension

Représentation d une distribution

Introduction à la statistique descriptive

Statistique : Résumé de cours et méthodes

Statistique Descriptive Élémentaire

SERIE 1 Statistique descriptive - Graphiques

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Séries Statistiques Simples

Logiciel XLSTAT version rue Damrémont PARIS

Formation tableur niveau 1 (Excel 2013)

Annexe commune aux séries ES, L et S : boîtes et quantiles

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

1. Vocabulaire : Introduction au tableau élémentaire

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Fonctions de plusieurs variables

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

: seul le dossier dossier sera cherché, tous les sousdomaines

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Calculs de probabilités avec la loi normale

CHAPITRE 1 : DE LA FONCTION DE DEMANDE DU CONSOMMATEUR À LA DEMANDE DE MARCHÉ

Documentation Technique du programme HYDRONDE_LN

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

CHAPITRE 2. Les variables

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

LES DIFFERENTS TYPES DE MESURE

La classification automatique de données quantitatives

SPHINX Logiciel de dépouillement d enquêtes

EPFL TP n 3 Essai oedomètrique. Moncef Radi Sehaqui Hamza - Nguyen Ha-Phong - Ilias Nafaï Weil Florian

STATISTIQUES DESCRIPTIVES

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Observatoire Economique et Statistique d Afrique Subsaharienne

Lire ; Compter ; Tester... avec R

STATISTIQUES DESCRIPTIVES

Débuter avec Excel. Excel

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

TP 7 : oscillateur de torsion

Traitement des données avec Microsoft EXCEL 2010

Chapitre 3. Les distributions à deux variables

Arbres binaires de décision

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Logistique. My Post Business Mode d emploi

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Designer d escalier GUIDE DE L UTILISATEUR. Stair Designer-1

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

CAPTEURS - CHAINES DE MESURES

TABLE DES MATIERES MENTIONS LEGALES INTRODUCTION CHAPITRE 1 : INSTALLATION DE L ALGORITHME CHAPITRE 2 : EXECUTION & OPTIMISATION DU BACKTEST

Didier Pietquin. Timbre et fréquence : fondamentale et harmoniques

Cours 9. Régimes du transistor MOS

Prudence, Epargne et Risques de Soins de Santé Christophe Courbage

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Collecter des informations statistiques

Fonctions de deux variables. Mai 2011

Olivier GARNIER. Conférence de l Observatoire de l Epargne Européenne 19 janvier 2010

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

OBLIGATION D INSTALLATION D UN GARDE-CORPS

LES MODALITES DE CALCUL DE LA PENSION CIVILE

Par : Abdel YEZZA, Ph.D. Date : avril 2011 / mise à jour oct (ajout de la section 3 et augmentation de la section 1)

TRAVAUX PRATIQUES SCIENTIFIQUES SUR SYSTÈME

VOCABULAIRE LIÉ AUX ORDINATEURS ET À INTERNET

Infrastructure - Capacity planning. Document FAQ. Infrastructure - Capacity planning. Page: 1 / 7 Dernière mise à jour: 16/04/14 16:09

Initiation à linfographie

Les algorithmes de base du graphisme

Infolettre #18 : Les graphiques avec Excel 2010

DE LA CAMÉRA SOMMAIRE

23. Interprétation clinique des mesures de l effet traitement

Soulever et porter correctement une charge

LE PETIT RELATION CLIENT. Les pratiques clés en 15 fiches. Nathalie Houver

Optimiser les s marketing Les points essentiels

FONCTION DE DEMANDE : REVENU ET PRIX

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Table des matières. 7 Gérer des ordres 5 Formater des paramètres OptionStation Pro 9

Elec II Le courant alternatif et la tension alternative

Introduction aux Statistiques et à l utilisation du logiciel R

Comme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:

Résumé non technique. Tableaux d estimation

Projet de Traitement du Signal Segmentation d images SAR

Le suivi de la qualité. Méthode MSP : généralités

C.F.A.O. : Conception et Fabrication Assistées par Ordinateur.

ECOLE NATIONALE SUPERIEURE DE COGNITIQUE. Paul Bui- Quang & Joachim Yerusalmi 03/01/2011

Correction du bac blanc CFE Mercatique

FORMULAIRE DE STATISTIQUES

Aide-mémoire de statistique appliquée à la biologie

Document d aide au suivi scolaire

Initiation à Excel. Frédéric Gava (MCF)

GUIDE Excel (version débutante) Version 2013

5-9. L enveloppe. Objectif Ecrire une adresse sur une enveloppe. L enveloppe 5-9. Le dispositif de techniques de recherche d emploi 1

La Clé informatique. Formation Excel XP Aide-mémoire

Optimiser ses graphiques avec R

5.2 Théorème/Transformée de Fourier a) Théorème

Loi du 11 février L accessibilité des ERP de 5ème catégorie. Ministère de l'écologie, du Développement durable et de l Énergie

Varset Direct. Batteries fixes de condensateurs basse tension Coffrets et armoires. Notice d utilisation. Armoire A2

Infos. Indicateurs analogiques encastrables pour installation à courants forts. Série M W/P/ LSP BWQ BGQ TP TG WQ /0S WQ /2S FQ /2 W BI BIW DFQ

Accompagner l action vers les Petites Entreprises de la Construction dans le cadre du PPN-BTP (P3C3) et de l action PAR-PECo.

Les mesures à l'inclinomètre

Transcription:

Dans ce cours, on considèrera des échantillons de taille N, c est-à-dire N individus ω 1,, ω N issus d une population Ω On notera en majuscule (généralement X ou Y ) les variables statistiques Les modalités des variables statistiques seront notées avec la minuscule correspondante et indicées, s il y a lieu, par le numéro de la modalité dans le cas discret ou de la classe (ie un ensemble de modalité) dans le cas continue La modalité prise par la variable X pour l individu ω n sera notée X(ω n ) 1 TABLEAUX STATISTIQUES 11 Tableau brut On considère une étude statistique portant sur un échantillon de taille N indivus On mesure plusieurs variables statistiques, qui peuvent être qualitatives ou quantitatives La récolte initiale des données conduit à un tableau brut de la forme Individus variable 1 variable 2 ω 1 X(ω 1 ) Y (ω 1 ) ω 2 X(ω 2 ) Y (ω 2 ) ω N X(ω N ) Y (ω N ) 12 Tableau de contingence Pour les variables qualitatives, on peut construire un tableau de contingence Ce tableau résume comment une caractéristique dépend d une autre Pour des raisons pratiques, on se limite généralement au tableau de contingence de deux variables qualitatives X et Y de modalités respectives (x 1,, x i,, x I ) et (y 1,, y j,, y J ) Ce tableau donne le nombre d individus possédant simultanément la modalité x i de la variable X et la modalité y j de la variable Y Un tel tableau se présente sous la forme suivante, pour un échantillon de taille N : Y y X 1 y j y J x 1 N 11 N 1j N 1J N 1 x i N i1 N ij N ij N i x I N I1 N Ij N IJ N I N 1 N j N J N où N ij désigne le nombre de fois où X à pris la modalité x i et Y la modalité j Autrement dit, N ij représente le nombre d individus qui possède à la fois la caractéristique x i et la caractéritique y j On définit les quantités 1

Statistiques descriptives N i = J N ij N j = j=1 qui représentent respectivement le nombre d individus qui possèdent la modalitée x i et le nombre d individus avec la modalitée y j 13 Tableau des fréquences 131 Variable discrète On considère une variable qualitative ou qualitative discrète X à valeurs dans {x 1,, x K } Si X est quantitative ou qualitative ordinale, on suppose ses modalités ordonnées tels que x 1 < < x K On commence par définir les quantités descriptives de bases Définition 1 (Effectif ou fréquence absolue) On appelle effectif ou fréquence absolue de la modalité x le nombre N d individus qui ont pris la modalité x : N = X(ω) ω Ω X(ω)=x Remarque 1 N = N Définition 2 (Fréquence relative) On appelle fréquence relative (ou simplement fréquence) de la modalité x le nombre f définit par : f = N N Définition 3 (Fréquence relative cumulée) On appelle fréquence relative cumulée (ou simplement fréquence cumulée) de la modalité x le nombre F (c) définit par : Remarque 2 F (c) K = K f = 1 =1 F (c) = f i=1 On peut aussi définir les effectifs cumulés : Définition 4 (Effectifs cumulés) On appelle effectif cumulé de la modalité x le nombre E définit par : E = N = NF (c) i=1 La distribution des N observations de X peut être présentée sous la forme d un tableau de fréquence où figurent, pour chaque modalité x, l effectif N, la fréquence relative f et la fréquence cumulée F (c) : modalité effectif fréquence relative fréquence cummulée I i=1 N ij x 1 N 1 f 1 F (c) 1 x N f F (c) x K N K f K 2 F (c) K

Statistiques descriptives TABLEAUX STATISTIQUES ET GRAPHIQUES Les fréquences relative et cumulée peuvent être donnée sous forme de pourcentage 132 Variable continue Dans le cas où la variable X est continue, la réalisation d un tableau de fréquence nécessite au préalable une répartition en classes des données On doit définir a priori le nombre de classes K et l amplitude (ou l étendue) de chaque classe Ce choix doit résulte d un compromis entre deux objectifs antagonistes : résumer les données (K ne doit pas être trop grand) sans perdre l information pertinente (K ne doit pas être trop petit) Pour ce faire, un moyen «simple» est de diviser l étendue des données en plusieurs intervalles de même longueur, puis l on regroupe les classes d effectifs trop petit (ie moins de 5 individus) On peut utiliser une des deux règles suivantes pour déterminer le nombre de classes : Règle de Sturge: K = 1 + 10 3 log 10(N) Règle de Yule: K = 25N 1 4 L intervalle entre les classes est alors donné par Longueur de l intervalle = x max x min K où x max (resp x min ) désigne la plus grande (res la plus petite) valeur de prise par les X(ω), ω Ω On note C l ensemble des individus qui appartiennent à la classe K Définition 5 (Amplitude) L amplitude L de la classe est donnée par L = max{x(ω), ω C } min{x(ω), ω C } c est-à-dire la longueur de l intervalle On peut alors définir la densité d une classe : Définition 6 (Densité) La densité d de la classe est donnée par d = N L Ce découpage en classes permet de se ramener au cas discret décrit précédemment pour obtenir le tableau de fréquences, en adaptant directement les définitions vues précédemment, 2 REPRÉSENTATIONS GRAPHIQUES Lorsqu on observe un caractère sur des individus, les tableaux de chiffres définis précédemment sont peu parlant Ils sont cependant très utiles pour construire des graphiques divers, qui permettent d un seul coup d oeil d avoir une idée de la manière dont se répartissent les individus 21 Variables qualitatives On considère une variable statistique qualitative X prenant K modalités x 1,, x,, x K La seule représentation qui nous intéresse est celle des effectifs N ou des fréquences f On utilise le tableau de fréquence pour construire les graphiques définis par la suite 3

Statistiques descriptives 211 Diagramme en barre ou tuyaux d orgue Les modalités de la variable sont placées sur une droite horizontale (attention : si la variable est nominale, ne pas orienter cette droite car les modalités n ont pas de relation d ordre) Les effectifs ou les fréquences sont placées sur un axe vertical La hauteur du baton est proportionnelle à l effectif Les tuyaux ont une certaine épaisseur pour qu il n y ait pas de confusion avec les diagrammes en bâtons réservés à la variable quantitative discrète Il doit y avoir un espace entre les tuyaux pour ne pas les confondres avec les histogrammes réservés aux variables quantitatives continues FIG 1 Diagramme en barres 212 Diagramme en secteurs ou «camenbert» L effectif total est représenté par un disque Chaque modalité est représentée par un secteur circulaire dont la surface (pratiquement : l angle au centre) est proportionnelle à l effectif correspondant Si ce type de graphique est couramment utilisé dans les médias, c est une très mauvaise représentation car il présente un risque d interprétation : l oeil distingue moins bien les différences entre secteurs (d un camembert) qu entre hauteurs (d un diagramme en barre) 22 Variables quantitatives Avant toute tentative de représentation, il y a lieu de distinguer entre variable discrète et variable classée (regroupements en classes) Si pour une variable continue le regroupement en classes est nécessaire, lorsque les modalités d une variable discrète sont trop nombreuses il est préférable de regrouper des modalités pour obtenir une variable classée, afin que les graphiques synthétisent l information et restent lisibles On considère une variable statistique quantitatives X prenant ses valeurs parmis K modalités ou classes x 1,, x,, x K On suppose les modalités (ou classes) ordonnées telles que x 1 < x 2 < < x K On utilise le tableau de fréquence pour construire les graphiques définis par la suite Deux types de graphiques sont intéressants à représenter : (1) Les diagrammes différentiels qui mettent en évidence les différences d effectifs (ou de fréquences) entre les différentes modalités ou classes 4

Statistiques descriptives TABLEAUX STATISTIQUES ET GRAPHIQUES FIG 2 Diagramme en secteurs (2) les diagrammes cumulatifs qui permettent de répondre aux questions du style «combien d individus ont pris une valeur inférieure (ou supérieure) à tant?» 221 diagrammes différentiels Variables discrètes Pour les caractères quantitatifs discrets, la représentation graphique différentielle est le diagramme en bâtons où la hauteur des bâtons correspond à l effectif N (ou la fréquence relative f ) associé à chaque modalité du caractère x Les valeurs discrètes prises par les modalités sont placées sur l axe des abscisses, ordonnées comme il se doit Les effectifs ou fréquences sont placées sur l axe des ordonnées Les axes sont fléchés La hauteur du baton est proportionnelle à l effectif ou la fréquence Attention : bien faire des batons et non des tuyaux ou des histogrammes FIG 3 Diagramme en batons Variables continues Lorsque les caractères quantitatifs sont continus, on utilise l histogramme Un histogramme est ensemble de rectangles contigus où chaque rectangle associé à chaque classe a une surface proportionnelle à l effectif (fréquence) 5

Statistiques descriptives de cette classe Si les classes sont d amplitudes égales, alors la hauteur des rectangles est proportionnelle à l effectif de la classes Avant toute construction d histogramme, il faut donc regarder si les classes sont d amplitudes égales ou non Les modalités (continues) sont représentés en abscisses Le cas des classes d amplitudes égales ne pose aucune difficulté car il suffit de reporter en ordonnée l effectif (la fréquence) Si les classes sont d amplitudes différentes, on reporte en ordonnée la densité d = N L FIG 4 Histrograme 222 diagrammes cummulatifs Les diagrammes cummulatifs permettent de visualiser l évolution des fréquences cummulées ou des effectifs cummulés On utilise en général la fonction de répartition empirique dont la courbe correspond à l évolution des fréquences cummulées Elle se définie de la même manière pour les variables quantitatives continues ou discrètes Définition 7 (Fonction de répartition empirique) Soit X une variable statistiques quantitative observée sur un échantillon ω 1,, ω N de taille N issue d une population Ω On appelle fonction de répartition empirique la fonction ˆF : R [0, 1] x 1 N #{i : X(ω i) < x}1 [X(ωi),+ [(x) Pour tout réel x, ˆF (x) est donc la proportion d observations inférieurs ou égales à x La fonction ˆF est une fonction en escalier Le calcul pratique de ˆF s effectue en ordonnant les N observations X(ω 1 ),, X(ω N ) par ordre croissant On note x 1,, x I les I valeurs distinctes obtenues et N i l effectif de x i On a 0 x < x 1 ˆF (x) = F (c) i = 1 i N j=1 N j x i x < x i+1 1 x x I On utilise la fonction de répartition empirique pour répondre aux questions du style : Quel est le nombre (ou le pourcentage) d individus dont la valeur du caractère est inférieure ou égale à x? 6

Statistiques descriptives TABLEAUX STATISTIQUES ET GRAPHIQUES FIG 5 Fonction de répartition empirique 7