Statistiques descriptives (1/2) Anita Burgun 2011-2012 http://www.med.univ-rennes1.fr
Introduction! Statistique: méthode scientifique qui consiste à réunir des données chiffrées sur des ensembles d individus et à analyser ces données! Il existe plusieurs niveaux de description statistique :! la présentation brute des données,! des présentations par tableaux numériques,! en ligne les individus! en colonne les variables ou caractères (en cas de donnée manquante, prévoir un code spécial ou une valeur "remarquable"...)! des représentations graphiques et! des résumés numériques fournis par un petit nombre de paramètres caractéristiques. http://www.med.univrennes1.fr
Introduction: définitions! La population est l'ensemble de tous les objets que l'on étudie.! Un individu ou une unité statistique est un objet de cette population.! Un échantillon est une partie d'une population (techniques d échantillonnage).! Le nombre d'objets composant une population ou un échantillon est appelé sa taille ou effectif.! Caractère (variable) : caractéristique ou propriété susceptible d être possédée ou non par les individus de la population étudiée (ex : taille, couleur des yeux, rythme cardiaque, etc..)! Modalité : valeur que peut prendre un caractère http://www.med.univ-rennes1.fr
Introduction: types de variables! Données de différentes natures! variable qualitative les données correspondent à toute série de chiffres se rapportant à des qualités, exemple couleur des yeux.! variable quantitative toute série de chiffres se rapportant à une quantité, exemple poids d un individu! On nomme catégorie ou modalité chacune des valeurs possibles pour les variables qualitatives! Variable temporelle, exemple survie après cancer http://www.med.univrennes1.fr
Variables qualitatives! Ne se mesurent pas! On est amené à définir des catégories ou classes exclusives correspondant aux différentes modalités du caractère observé, puis à déterminer à quelle classe appartient chaque individu.! On dénombre les effectifs appartenant à chacune des classes! Elles peuvent être:! Classées par attribut (échelle nominale) : les modalités sont exprimables par des noms et ne sont pas ordonnées, par exemple groupe sanguin, couleur des yeux! Dichotomiques : 2 modalités (binaires)! Ordonnées (variable ordinale): les modalités possèdent une relation d ordre, par exemple stades d une maladie, niveau d études http://www.med.univrennes1.fr
Variables qualitatives! Variables qualitatives binaires! Cas particulier de variables nominales! Prennent 2 valeurs! Dichotomiques, booléennes, Bernouilli! Etat de santé è malade, sain! Survie è Vivant, décédé http://www.med.univrennes1.fr
Variables quantitatives! Caractérisées par des valeurs numériques! Exploitable arithmétiquement! Variables quantitatives continues! Prennent n importe quelle valeur numérique dans l intervalle d observation! Appartient à l ensemble des réels : toutes les valeurs sont possibles! Poids! Taille! Cholestérol! Très utilisées en médecine! La précision est limitée par l instrument de mesure http://www.med.univrennes1.fr
Variables quantitatives! Variables quantitatives discrètes! Variables numériques discontinues.! En général valeurs entières! Souvent ó à un dénombrement! Rechute d une maladie 3 rechutes par an! Rappel de vaccin 4 injections! Dentition 32 dents! Variables temporelles! Variables quantitatives particulières utilisant les unités de temps http://www.med.univrennes1.fr
Variables qualitatives: effectifs et fréquences! Soit une série statistique portant sur n individus sur lesquels on a observé une variable qualitative X! prenant c modalités (a 1, a 2,., a i,.a c )! Effectif total : le nombre d individus dans l ensemble, on le note souvent n ou N! Effectifs = fréquences absolues, c est le nombre d individus n i dont le caractère présente la modalité a i! Fréquences (relatives) f i = ni n http://www.med.univrennes1.fr
Variables qualitatives! Soit une série statistique portant sur n individus sur lesquels on a observé une variable qualitative X prenant c modalités (a 1, a 2,., a i,.a c ) modalités a 1 a i a c total effectifs n 1 n i n c c n =! i= 1 Fréquences f 1 f i f c c relatives 1 =! i= 1 n i f i http://www.med.univrennes1.fr
Illustration! Les opérations suivantes sont possibles sur les classes:! réaliser des classes disjointes à partir d'une seule classe (sous classes),! regrouper certaines classes. http://www.med.univrennes1.fr
Fréquences (relatives)! L emploi des fréquences est utile pour comparer des distributions établies à partir d échantillons de tailles différentes! f i = ni n http://www.med.univrennes1.fr
Fréquences cumulées! Les fréquences cumulées ou fréquences relatives cumulées en x i f cum =! f i p p= 1 i
Fréquences cumulées: illustration! Les fréquences cumulées sont utilisées pour les variables qualitatives ordonnées! Exemple: Sur un échantillon de 500 malades atteints de cancer, on a noté le stade de la maladie. On peut résumer ou présenter ces données par des fréquences relatives.! 92% des sujets examinés ont un stade inférieur ou égal à 2.
Représentation graphique dans le cas des variables qualitatives! Il est souvent intéressant de faire une représentation graphique de la série statistique! Camembert! Diagramme en bâtons! Histogramme
Diagramme «camembert»! On peut représenter les effectifs absolus ou relatifs des classes par des secteurs de cercle dont la surface est proportionnelle à l'effectif.! Le diagramme "camembert" est bien adapté à la représentation des données qualitatives "pures". Yeux Marron Vert Bleu Noir Effectif 50 10 28 12 http://www.med.univrennes1.fr
Diagramme en bâtons! Pour les données ordinales on peut également représenter les fréquences absolues, relatives ou cumulées par un diagramme en bâtons.! Exemple: échantillon de 500 patients atteints de cancer dont on a noté le stade. http://www.med.univrennes1.fr
Le mode! Le mode ou classe modale est la classe (catégorie) qui offre la plus grande fréquence.! Si on a plusieurs classes d'effectifs supérieurs aux effectifs des classes voisines, on dit que le diagramme représente une distribution multimodale: bi-modale, tri-modale...! Dans le cas contraire, on dit que la distribution est uni-modale. http://www.med.univrennes1.fr
Variables qualitatives à plusieurs dimensions (tableaux croisés)! On peut croiser des variables qualitatives.! 2 variables X et Y! X prend c modalités a 1,., a i,. a c! Y prend l modalités b 1,., b j,..b l! On peut définir l effectif n i, j nombre d individus présentant simultanément les modalités a i et b j! On note n i, (resp. n,j ) les effectifs de tous les individus présentant a i b (resp b j a) http://www.med.univrennes1.fr
Variables qualitatives à plusieurs dimensions! 2 variables X a 1,., a i,. a c et Y b 1,., b j,..b l! Tableau de contingence modalité a 1 a i a c Total ligne b 1 n 1,1 n, 1 b j n i, j b l Total colonne n 1, n http://www.med.univrennes1.fr
Tableau de contingence! Les modalités de deux variables qualitatives permettent de constituer des classes exclusives auxquelles est affectée chaque observation.! Exemple: Dans un échantillon de 200 sujets on a relevé la présence ou l'absence d'un signe clinique S et d'une maladie M.! Les individus présentant la maladie sont dénombrés dans la colonne M, les autres dans la colonne non M. http://www.med.univrennes1.fr
Histogramme et v. quantitative Transformation d une variable quantitative en variable qualitative! Pour les variables discrètes: considérer que les valeurs prises par la variable sont les modalités de la variable qualitative (ordonnée)! Pour les variables continues:! on divise l intervalle [a; b[ où varie la variable en un certain nombre d intervalles [a ; x1[, [x1 ; x2[, [xi; x i+1[, [x p-1; b[ et on dénombre pour chaque intervalle le nombre d individus dont la mesure appartient à l intervalle! En règle générale, on choisit des classes de même amplitude.! Pour que la distribution en fréquence soit intéressante, il faut que chaque classe comprenne un nombre «suffisant» d individus (n i )! Si la longueur des intervalles est trop grande, on perd trop d information
Histogramme! Exemple: soit la série de mesures représentant les âges de 20 individus, rangées par ordre croissant: 3, 5, 6, 7, 8, 11, 15, 20, 21, 22, 23, 23, 23, 30, 31, 32, 35, 36, 40, 45! On peut décider de déterminer des classes d'âge de 10 ans en 10 ans:! 0-10 ans, 10-20 ans, 20-30 ans, 30-40 ans, 40-50 ans. http://www.med.univ-rennes1.fr
Histogramme! Construction:! on porte sur l'axe des abscisses les extrémités de chaque classe! pour chacune d'elles on construit un rectangle dont la base est le segment limité aux extrémités de la classe et la surface est proportionnelle à l'effectif de la classe. effectif an http://www.med.univ-rennes1.fr
Histogramme! Un histogramme est tracé en respectant deux règles:! l'échelle sur l'axe des abscisses est identique pour tous les intervalles de classes,! la surface de chacun des rectangles est proportionnelle au nombre d'individus de la classe.! La deuxième règle se simplifie si les intervalles de classe ont tous la même largeur.! Cette simplification est très souvent utilisée.! En effet quand les intervalles des classes sont de même largeur, la hauteur du rectangle est proportionnelle à l'effectif, ce qui facilite la lecture de l'histogramme. http://www.med.univ-rennes1.fr
Histogramme! Pour les variables quantitatives Intervalle : 1 ans Intervalle : 5 ans Intervalle : 10 ans http://www.med.univ-rennes1.fr
Transformation d une variable quantitative en variable qualitative! Il existe des formules empiriques pour établir le nombre de classes pour un échantillon de taille n! Règle de Sturge! Nombre de classes =1 + 3.3 log n! Règle de Yule! Nombre de classes = 2.5 n! L intervalle entre chaque classe est calculé par! (b-a)/nombre de classes! On calcule ensuite à partir de a les classes successives par addition.! NB: il n est pas obligatoire d avoir des classes de même amplitude. Mais pas de chevauchement d intervalle
Transformation d une variable quantitative en variable qualitative! Le centre de la classe est la moyenne des valeurs
Histogramme! Analogue à la courbe de densité d une variable aléatoire, un histogramme est un graphique à barres verticales accolées, obtenu après découpage en classes des observations d une variable continue.! La surface de chaque barre (tuyau d orgue) doit être proportionnelle à la fréquence de la classe.! Pour des classes d égale amplitude, la hauteur de chaque barre est proportionnelle à la fréquence! L histogramme reste une approximation assez pauvre d une fonction de densité -> courbe de densité
Polygone de fréquences Représentation graphique en ligne brisée de la distribution de fréquences Pour tracer le polygone on joint les points milieu du sommet des rectangles adjacents par un segment de droite Le polygone est fermé aux deux bouts en le prolongeant sur l'axe horizontal L'avantage de cette représentation est qu'on peut avoir plusieurs polygones des fréquences dans une même fenêtre. Cela fait mieux ressortir les comparaisons lorsque les variables sont nombreuses. http://www.med.univ-rennes1.fr
Diagramme de Pareto! Histogramme représentant des données classées par ordre décroissant d'importance. Il permet de se concentrer sur les actions qui auront le plus grand effet.! Pour construire le diagramme! Etablir la liste des classes! Quantifier les effectifs de chaque classe! Effectuer la somme des valeurs obtenues! Calculer, pour chaque classe, sa part en pourcentage du total! Classer les pourcentages par valeurs décroissantes! Représenter graphiquement ces pourcentages par un histogramme! Représenter les valeurs cumulées sur une courbe (ligne de cumul)
Diagramme de Pareto
Diagramme de Pareto! Il illustre la loi de Pareto,! Loi de Pareto est une «loi» empirique aussi appelée loi des 20/80, constatant le fait que 20% des causes provoquent 80% des effets.! 80 % des richesses sont détenues par 20 % de la population! 80 % du chiffre d affaires correspond à 20 % des produits! 80 % des dépenses de santé sont réalisées par 20 % de la population! Très utilisé en économie, ou dans les démarches qualité
Mesures en statistique! Statistique: méthode scientifique qui consiste à réunir des données chiffrées sur des ensembles et à analyser ces données! Il existe plusieurs niveaux de description statistique : la présentation brute des données, des présentations par tableaux numériques, des représentations graphiques et des résumés numériques fournis par un petit nombre de paramètres caractéristiques.! Les tableaux représentent les données exactes! Les graphiques font ressortir une vision synthétique! Il est indispensable en général de résumer une série d observations par des indicateurs typiques dont le plus connu est la moyenne arithmétique http://www.med.univ-rennes1.fr
Problème général! Pour décrire les données, on peut! Établir des tableaux! Regrouper les données dans des classes! Dessiner des diagrammes! Pour résumer les données afin de les exprimer ou les comparer! On calcule des paramètres (ou indicateurs)! De POSITION! De DISPERSION Fréquence DISPERSION POSITION http://www.med.univ-rennes1.fr