Statistiques descriptives (1/2)



Documents pareils
Statistique : Résumé de cours et méthodes

Statistiques Descriptives à une dimension

1. Vocabulaire : Introduction au tableau élémentaire

Annexe commune aux séries ES, L et S : boîtes et quantiles

SERIE 1 Statistique descriptive - Graphiques

Introduction à la statistique descriptive

Logiciel XLSTAT version rue Damrémont PARIS

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Statistiques 0,14 0,11

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Traitement des données avec Microsoft EXCEL 2010

23. Interprétation clinique des mesures de l effet traitement

Statistique Descriptive Élémentaire

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Séries Statistiques Simples

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

LES DIFFERENTS TYPES DE MESURE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Principe d un test statistique

Classe de première L

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Lecture graphique. Table des matières

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

EVALUATIONS MI-PARCOURS CM2

Les algorithmes de base du graphisme

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

Chap17 - CORRECTİON DES EXERCİCES

Infolettre #18 : Les graphiques avec Excel 2010

Introduction : présentation de la Business Intelligence

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Problèmes de dénombrement.

SIG ET ANALYSE EXPLORATOIRE

Comment insérer une image de fond?

C f tracée ci- contre est la représentation graphique d une

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

- Ressources pour les classes

Tp_chemins..doc. Dans la barre "arche 2" couleur claire 1/5 21/01/13

Collecter des informations statistiques

Petit lexique de calcul à l usage des élèves de sixième et de cinquième par M. PARCABE, professeur au collège Alain FOURNIER de BORDEAUX, mars 2007

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Cercle trigonométrique et mesures d angles

Représentation d une distribution

Élément 424b Introduction à la statistique descriptive

Note de cours. Introduction à Excel 2007

La C.A.O (Conception Assistée par Ordinateur). Le logiciel de C.A.O.

Adobe Illustrator Logiciel de dessin vectoriel et de Cartographie Assistée par Ordinateur

Guide d'utilisation. OpenOffice Calc. AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons

STATISTIQUES DESCRIPTIVES

SAP BusinessObjects Web Intelligence (WebI) BI 4

chapitre 4 Nombres de Catalan

Parcours FOAD Formation EXCEL 2010

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Chapitre 2 Le problème de l unicité des solutions

Sillage Météo. Notion de sillage

EXERCICES DE REVISIONS MATHEMATIQUES CM2

Evaluation de la variabilité d'un système de mesure

Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.

Aide-mémoire de statistique appliquée à la biologie

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

La diffusion des résultats statistiques du recensement de la population

Je découvre le diagramme de Venn

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Traitement numérique de l'image. Raphaël Isdant

Copropriété: 31, rue des Abondances Boulogne-Billancourt

Cycle de Découverte n 1 VISUALISER Créer la prochaine application innovante

Introduction à Adobe Illustrator pour la cartographie et la mise en page

Résumé du Cours de Statistique Descriptive. Yves Tillé

Chapitre 3. Les distributions à deux variables

Cours Fonctions de deux variables

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

SPHINX Logiciel de dépouillement d enquêtes

La fonction exponentielle

Les objets très lointains

Localisation des fonctions

CAPTEURS - CHAINES DE MESURES

Le contexte. Le questionnement du P.E.R. :

FONCTION DE DEMANDE : REVENU ET PRIX

Championnat de France de Grilles Logiques Finale 7 juin Livret d'instructions

Image d un intervalle par une fonction continue

Designer d escalier GUIDE DE L UTILISATEUR. Stair Designer-1

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Statistiques descriptives

Correction du baccalauréat STMG Polynésie 17 juin 2014

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

PARTIE NUMERIQUE (18 points)

Introduction au Data-Mining

5 ème Chapitre 4 Triangles

Comment tracer une droite représentative d'une fonction et méthode de calcul de l'équation d'une droite.

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

AMELIORATIONS DES FONCTIONNALITES DISPONIBLES

Transcription:

Statistiques descriptives (1/2) Anita Burgun 2011-2012 http://www.med.univ-rennes1.fr

Introduction! Statistique: méthode scientifique qui consiste à réunir des données chiffrées sur des ensembles d individus et à analyser ces données! Il existe plusieurs niveaux de description statistique :! la présentation brute des données,! des présentations par tableaux numériques,! en ligne les individus! en colonne les variables ou caractères (en cas de donnée manquante, prévoir un code spécial ou une valeur "remarquable"...)! des représentations graphiques et! des résumés numériques fournis par un petit nombre de paramètres caractéristiques. http://www.med.univrennes1.fr

Introduction: définitions! La population est l'ensemble de tous les objets que l'on étudie.! Un individu ou une unité statistique est un objet de cette population.! Un échantillon est une partie d'une population (techniques d échantillonnage).! Le nombre d'objets composant une population ou un échantillon est appelé sa taille ou effectif.! Caractère (variable) : caractéristique ou propriété susceptible d être possédée ou non par les individus de la population étudiée (ex : taille, couleur des yeux, rythme cardiaque, etc..)! Modalité : valeur que peut prendre un caractère http://www.med.univ-rennes1.fr

Introduction: types de variables! Données de différentes natures! variable qualitative les données correspondent à toute série de chiffres se rapportant à des qualités, exemple couleur des yeux.! variable quantitative toute série de chiffres se rapportant à une quantité, exemple poids d un individu! On nomme catégorie ou modalité chacune des valeurs possibles pour les variables qualitatives! Variable temporelle, exemple survie après cancer http://www.med.univrennes1.fr

Variables qualitatives! Ne se mesurent pas! On est amené à définir des catégories ou classes exclusives correspondant aux différentes modalités du caractère observé, puis à déterminer à quelle classe appartient chaque individu.! On dénombre les effectifs appartenant à chacune des classes! Elles peuvent être:! Classées par attribut (échelle nominale) : les modalités sont exprimables par des noms et ne sont pas ordonnées, par exemple groupe sanguin, couleur des yeux! Dichotomiques : 2 modalités (binaires)! Ordonnées (variable ordinale): les modalités possèdent une relation d ordre, par exemple stades d une maladie, niveau d études http://www.med.univrennes1.fr

Variables qualitatives! Variables qualitatives binaires! Cas particulier de variables nominales! Prennent 2 valeurs! Dichotomiques, booléennes, Bernouilli! Etat de santé è malade, sain! Survie è Vivant, décédé http://www.med.univrennes1.fr

Variables quantitatives! Caractérisées par des valeurs numériques! Exploitable arithmétiquement! Variables quantitatives continues! Prennent n importe quelle valeur numérique dans l intervalle d observation! Appartient à l ensemble des réels : toutes les valeurs sont possibles! Poids! Taille! Cholestérol! Très utilisées en médecine! La précision est limitée par l instrument de mesure http://www.med.univrennes1.fr

Variables quantitatives! Variables quantitatives discrètes! Variables numériques discontinues.! En général valeurs entières! Souvent ó à un dénombrement! Rechute d une maladie 3 rechutes par an! Rappel de vaccin 4 injections! Dentition 32 dents! Variables temporelles! Variables quantitatives particulières utilisant les unités de temps http://www.med.univrennes1.fr

Variables qualitatives: effectifs et fréquences! Soit une série statistique portant sur n individus sur lesquels on a observé une variable qualitative X! prenant c modalités (a 1, a 2,., a i,.a c )! Effectif total : le nombre d individus dans l ensemble, on le note souvent n ou N! Effectifs = fréquences absolues, c est le nombre d individus n i dont le caractère présente la modalité a i! Fréquences (relatives) f i = ni n http://www.med.univrennes1.fr

Variables qualitatives! Soit une série statistique portant sur n individus sur lesquels on a observé une variable qualitative X prenant c modalités (a 1, a 2,., a i,.a c ) modalités a 1 a i a c total effectifs n 1 n i n c c n =! i= 1 Fréquences f 1 f i f c c relatives 1 =! i= 1 n i f i http://www.med.univrennes1.fr

Illustration! Les opérations suivantes sont possibles sur les classes:! réaliser des classes disjointes à partir d'une seule classe (sous classes),! regrouper certaines classes. http://www.med.univrennes1.fr

Fréquences (relatives)! L emploi des fréquences est utile pour comparer des distributions établies à partir d échantillons de tailles différentes! f i = ni n http://www.med.univrennes1.fr

Fréquences cumulées! Les fréquences cumulées ou fréquences relatives cumulées en x i f cum =! f i p p= 1 i

Fréquences cumulées: illustration! Les fréquences cumulées sont utilisées pour les variables qualitatives ordonnées! Exemple: Sur un échantillon de 500 malades atteints de cancer, on a noté le stade de la maladie. On peut résumer ou présenter ces données par des fréquences relatives.! 92% des sujets examinés ont un stade inférieur ou égal à 2.

Représentation graphique dans le cas des variables qualitatives! Il est souvent intéressant de faire une représentation graphique de la série statistique! Camembert! Diagramme en bâtons! Histogramme

Diagramme «camembert»! On peut représenter les effectifs absolus ou relatifs des classes par des secteurs de cercle dont la surface est proportionnelle à l'effectif.! Le diagramme "camembert" est bien adapté à la représentation des données qualitatives "pures". Yeux Marron Vert Bleu Noir Effectif 50 10 28 12 http://www.med.univrennes1.fr

Diagramme en bâtons! Pour les données ordinales on peut également représenter les fréquences absolues, relatives ou cumulées par un diagramme en bâtons.! Exemple: échantillon de 500 patients atteints de cancer dont on a noté le stade. http://www.med.univrennes1.fr

Le mode! Le mode ou classe modale est la classe (catégorie) qui offre la plus grande fréquence.! Si on a plusieurs classes d'effectifs supérieurs aux effectifs des classes voisines, on dit que le diagramme représente une distribution multimodale: bi-modale, tri-modale...! Dans le cas contraire, on dit que la distribution est uni-modale. http://www.med.univrennes1.fr

Variables qualitatives à plusieurs dimensions (tableaux croisés)! On peut croiser des variables qualitatives.! 2 variables X et Y! X prend c modalités a 1,., a i,. a c! Y prend l modalités b 1,., b j,..b l! On peut définir l effectif n i, j nombre d individus présentant simultanément les modalités a i et b j! On note n i, (resp. n,j ) les effectifs de tous les individus présentant a i b (resp b j a) http://www.med.univrennes1.fr

Variables qualitatives à plusieurs dimensions! 2 variables X a 1,., a i,. a c et Y b 1,., b j,..b l! Tableau de contingence modalité a 1 a i a c Total ligne b 1 n 1,1 n, 1 b j n i, j b l Total colonne n 1, n http://www.med.univrennes1.fr

Tableau de contingence! Les modalités de deux variables qualitatives permettent de constituer des classes exclusives auxquelles est affectée chaque observation.! Exemple: Dans un échantillon de 200 sujets on a relevé la présence ou l'absence d'un signe clinique S et d'une maladie M.! Les individus présentant la maladie sont dénombrés dans la colonne M, les autres dans la colonne non M. http://www.med.univrennes1.fr

Histogramme et v. quantitative Transformation d une variable quantitative en variable qualitative! Pour les variables discrètes: considérer que les valeurs prises par la variable sont les modalités de la variable qualitative (ordonnée)! Pour les variables continues:! on divise l intervalle [a; b[ où varie la variable en un certain nombre d intervalles [a ; x1[, [x1 ; x2[, [xi; x i+1[, [x p-1; b[ et on dénombre pour chaque intervalle le nombre d individus dont la mesure appartient à l intervalle! En règle générale, on choisit des classes de même amplitude.! Pour que la distribution en fréquence soit intéressante, il faut que chaque classe comprenne un nombre «suffisant» d individus (n i )! Si la longueur des intervalles est trop grande, on perd trop d information

Histogramme! Exemple: soit la série de mesures représentant les âges de 20 individus, rangées par ordre croissant: 3, 5, 6, 7, 8, 11, 15, 20, 21, 22, 23, 23, 23, 30, 31, 32, 35, 36, 40, 45! On peut décider de déterminer des classes d'âge de 10 ans en 10 ans:! 0-10 ans, 10-20 ans, 20-30 ans, 30-40 ans, 40-50 ans. http://www.med.univ-rennes1.fr

Histogramme! Construction:! on porte sur l'axe des abscisses les extrémités de chaque classe! pour chacune d'elles on construit un rectangle dont la base est le segment limité aux extrémités de la classe et la surface est proportionnelle à l'effectif de la classe. effectif an http://www.med.univ-rennes1.fr

Histogramme! Un histogramme est tracé en respectant deux règles:! l'échelle sur l'axe des abscisses est identique pour tous les intervalles de classes,! la surface de chacun des rectangles est proportionnelle au nombre d'individus de la classe.! La deuxième règle se simplifie si les intervalles de classe ont tous la même largeur.! Cette simplification est très souvent utilisée.! En effet quand les intervalles des classes sont de même largeur, la hauteur du rectangle est proportionnelle à l'effectif, ce qui facilite la lecture de l'histogramme. http://www.med.univ-rennes1.fr

Histogramme! Pour les variables quantitatives Intervalle : 1 ans Intervalle : 5 ans Intervalle : 10 ans http://www.med.univ-rennes1.fr

Transformation d une variable quantitative en variable qualitative! Il existe des formules empiriques pour établir le nombre de classes pour un échantillon de taille n! Règle de Sturge! Nombre de classes =1 + 3.3 log n! Règle de Yule! Nombre de classes = 2.5 n! L intervalle entre chaque classe est calculé par! (b-a)/nombre de classes! On calcule ensuite à partir de a les classes successives par addition.! NB: il n est pas obligatoire d avoir des classes de même amplitude. Mais pas de chevauchement d intervalle

Transformation d une variable quantitative en variable qualitative! Le centre de la classe est la moyenne des valeurs

Histogramme! Analogue à la courbe de densité d une variable aléatoire, un histogramme est un graphique à barres verticales accolées, obtenu après découpage en classes des observations d une variable continue.! La surface de chaque barre (tuyau d orgue) doit être proportionnelle à la fréquence de la classe.! Pour des classes d égale amplitude, la hauteur de chaque barre est proportionnelle à la fréquence! L histogramme reste une approximation assez pauvre d une fonction de densité -> courbe de densité

Polygone de fréquences Représentation graphique en ligne brisée de la distribution de fréquences Pour tracer le polygone on joint les points milieu du sommet des rectangles adjacents par un segment de droite Le polygone est fermé aux deux bouts en le prolongeant sur l'axe horizontal L'avantage de cette représentation est qu'on peut avoir plusieurs polygones des fréquences dans une même fenêtre. Cela fait mieux ressortir les comparaisons lorsque les variables sont nombreuses. http://www.med.univ-rennes1.fr

Diagramme de Pareto! Histogramme représentant des données classées par ordre décroissant d'importance. Il permet de se concentrer sur les actions qui auront le plus grand effet.! Pour construire le diagramme! Etablir la liste des classes! Quantifier les effectifs de chaque classe! Effectuer la somme des valeurs obtenues! Calculer, pour chaque classe, sa part en pourcentage du total! Classer les pourcentages par valeurs décroissantes! Représenter graphiquement ces pourcentages par un histogramme! Représenter les valeurs cumulées sur une courbe (ligne de cumul)

Diagramme de Pareto

Diagramme de Pareto! Il illustre la loi de Pareto,! Loi de Pareto est une «loi» empirique aussi appelée loi des 20/80, constatant le fait que 20% des causes provoquent 80% des effets.! 80 % des richesses sont détenues par 20 % de la population! 80 % du chiffre d affaires correspond à 20 % des produits! 80 % des dépenses de santé sont réalisées par 20 % de la population! Très utilisé en économie, ou dans les démarches qualité

Mesures en statistique! Statistique: méthode scientifique qui consiste à réunir des données chiffrées sur des ensembles et à analyser ces données! Il existe plusieurs niveaux de description statistique : la présentation brute des données, des présentations par tableaux numériques, des représentations graphiques et des résumés numériques fournis par un petit nombre de paramètres caractéristiques.! Les tableaux représentent les données exactes! Les graphiques font ressortir une vision synthétique! Il est indispensable en général de résumer une série d observations par des indicateurs typiques dont le plus connu est la moyenne arithmétique http://www.med.univ-rennes1.fr

Problème général! Pour décrire les données, on peut! Établir des tableaux! Regrouper les données dans des classes! Dessiner des diagrammes! Pour résumer les données afin de les exprimer ou les comparer! On calcule des paramètres (ou indicateurs)! De POSITION! De DISPERSION Fréquence DISPERSION POSITION http://www.med.univ-rennes1.fr