Statistiques Descriptives à une dimension



Documents pareils
Statistique : Résumé de cours et méthodes

Séries Statistiques Simples

1. Vocabulaire : Introduction au tableau élémentaire

Annexe commune aux séries ES, L et S : boîtes et quantiles

3. Caractéristiques et fonctions d une v.a.

Statistique Descriptive Élémentaire

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Représentation d une distribution

SERIE 1 Statistique descriptive - Graphiques

Statistiques 0,14 0,11

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Introduction à la statistique descriptive

Logiciel XLSTAT version rue Damrémont PARIS

Résumé du Cours de Statistique Descriptive. Yves Tillé

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

MATHÉMATIQUES. Mat-4104

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Classe de première L

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

STATISTIQUES DESCRIPTIVES

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

- Ressources pour les classes

Traitement des données avec Microsoft EXCEL 2010

TSTI 2D CH X : Exemples de lois à densité 1

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

BACCALAURÉAT PROFESSIONNEL SUJET

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Précision d un résultat et calculs d incertitudes

EXERCICES - ANALYSE GÉNÉRALE

Les algorithmes de base du graphisme

Chapitre 2 Le problème de l unicité des solutions

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Loi binomiale Lois normales

C f tracée ci- contre est la représentation graphique d une

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Collecter des informations statistiques

Commun à tous les candidats

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Relation entre deux variables : estimation de la corrélation linéaire

Moments des variables aléatoires réelles

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Cours d Analyse. Fonctions de plusieurs variables

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Petit lexique de calcul à l usage des élèves de sixième et de cinquième par M. PARCABE, professeur au collège Alain FOURNIER de BORDEAUX, mars 2007

Correction du Baccalauréat S Amérique du Nord mai 2007

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Fonctions de plusieurs variables

PROBLEME(12) Première partie : Peinture des murs et du plafond.

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Chapitre 3. Les distributions à deux variables

TP 7 : oscillateur de torsion

Lecture graphique. Table des matières

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Les devoirs en Première STMG

Deux disques dans un carré

EXERCICES DE REVISIONS MATHEMATIQUES CM2

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Introduction à l approche bootstrap

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Élément 424b Introduction à la statistique descriptive

Leçon N 4 : Statistiques à deux variables

LES DIFFERENTS TYPES DE MESURE

Programmes des classes préparatoires aux Grandes Ecoles

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

La fonction exponentielle

I. Ensemble de définition d'une fonction

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Angles orientés et fonctions circulaires ( En première S )

Aide-mémoire de statistique appliquée à la biologie

IBM SPSS Statistics Base 20

Statistiques avec la graph 35+

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Le suivi de la qualité. Méthode MSP : généralités

BACCALAUREAT GENERAL MATHÉMATIQUES

Bulletin d information statistique

STATISTIQUES DESCRIPTIVES

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Mesures et incertitudes

CAPTEURS - CHAINES DE MESURES

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Proposition de programmes de calculs en mise en train

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Mathématiques financières

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Étude comparative sur les salaires et les échelles salariales des professeurs d université. Version finale. Présentée au

Principe d un test statistique

Coefficients binomiaux

Suites numériques. Exercice 1 Pour chacune des suites suivantes, calculer u 1, u 2, u 3, u 10 et u 100 : Introduction : Intérêts simpleset composés.

OM 1 Outils mathématiques : fonction de plusieurs variables

Transcription:

I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des méthodes numériques permettant d analyser et d interpréter les informations pour en tirer des conclusions. Mathématiquement, une statistique est une application X d un ensemble Ω vers un autre ensemble X : Ω C ω X(ω) Exemple : On étudie la situation familiale des travailleurs du département d informatique. Alors : Ω est l ensemble des travailleurs du département d informatique, C = {célibataire, marié, divorcé, veuf }, X(ω) = la situation familiale du travailleur ω. 2. Vocabulaire statistique Population : l ensemble d éléments assez nombreux au sujet desquelles on désire tirer des conclusions. La population doit être définie en fonction de l objectif de l étude. Supposons qu on décide de mener une enquête sur l évolution de la consommation de tabac. Veut -on étendre les conclusions à la population algérienne? mondiale? S intéresse-t-on à toutes les catégories de la population? Seulement aux hommes? Cible-t -on seulement les jeunes? Les moins de 15 ans? Dans ce cas, les conclusions de l enquête ne pourront absolument pas être étendues à une autre population. Individu : c est l unité statistique, élément de la population, sur lequel on fait l étude. Un individu peut être une personne, un animal ou un objet. Echantillon : une partie représentative de la population Il est généralement impossible de réunir l'information relative à tous les individus de la population. Parmi les raisons qui justifient un échantillonnage plutôt que de travailler sur la globalité de la population : - les données à collecter sont illimitées. - les ressources (humaines, financières,...) disponibles sont limitées. - l'expérimentation peut être destructive. Caractère : s est l aspect particulier et commun que l on se propose d étudier chez les individus. En statistiques descriptives à une dimension, on se limite à étudier un seul caractère pour les individus. Un caractère peut être qualitatif ou quantitatif. Qualitatif : non mesurable, il décrit un état. En général, il répond à la question : Comment...? Exemples : la situation familiale, la couleur des yeux, la citoyenneté, le sexe, la langue maternelle Quantitatif : mesurable, lorsque les données sont numériques. En général, il répond à la question : Combien...? Exemples : nombre d enfants, nombre de langues parlées, la taille, le poids, le salaire, Un caractère, qu il soit qualitatif ou quantitatif, prend différentes valeurs appelées modalités. Un caractère qualitatif est dit ordinal si les modalités peuvent être ordonnées sinon on dira qu il est nominal. Variable statistique : un caractère quantitatif est appelé aussi variable statistique (v.s.) 1

Une variable statistique peut être discrète ou continue. Une variable discrète est une variable qui ne prend que des valeurs isolées. Une variable continue est une variable qui peut prendre n importe quelle valeur dans un intervalle d IR. Exemples de v. s. discrètes : nombre d enfants, nombre de langues parlées,,, Exemples de v. s. continues : Les mesures de longueur (largeur, épaisseur ), le temps, le poids (la masse) et les mesures qui en dépendent (surface, volume, vitesse, densité.), la taille, le salaire Si la v. s. est continue, on regroupe les données dans des classes qui sont des intervalles deux à deux disjoints et dont la réunion englobe l ensembles des observations. Chaque classe est considérée comme étant une seule modalité. Soit la statistique X : Ω C ω i X(ω i ) = x i On appelle fréquence partielle ( ou effectif partiel) de la modalité x i X(Ω) C, le cardinal de X -1 ({x i }) noté n i. C est le nombre d individus qui ont la même modalité x i. Exemple : Prenons l'exemple de situation familiale des travailleurs du département d informatique. x i = X(ω i ) = la situation familiale du travailleur ω i. Si on a 100 travailleurs au département d informatique, on obtient une série statistique de 100 valeurs. Marié, marié, célibataire, marié, marié, marié, marié, célibataire, célibataire, célibataire, célibataire, marié, marié, veuf, marié, marié, célibataire,.. Se contenter d'énumérer les 100 valeurs, l'information ne sera pas pratique. Une façon commode de représenter les résultats consiste à créer une distribution statistique des fréquences. On reprend l'ensemble des modalités observées (les situations familiales) et pour chacune, on donne le nombre n i d individus qui ont cette situation. x i (modalités) n i marié n 1 célibataire n 2 divorcé n 3 veuf n =100 Pour un caractère qualitatif, les modalités sont classées selon l ordre décroissant des fréquences. On a : = N = effectif total On peut établir la distribution de fréquences relatives partielles f i = dans laquelle chaque fréquence est exprimée en proportion (comprise entre 0 et 1) ou en pourcentage (compris entre 0 et 100) de l'effectif. = 1 Si le caractère est quantitatif ou qualitatif ordinal, on définit la fréquence cumulée n ic de la modalité x i par n = = n + n + + n et la fréquence relative cumulée F i par F = 2

Chapitre I 3. Représentation d une série statistique On a à faire à une série statistique expérimentale, les données sont brutes, on doit y mettre de l ordre afin de les présenter d une façon claire. Pour cela on dispose de tableau statistique ou de graphiques 3.1 Représentation dans un tableau : le tableau statistique comporte le titre, le corps et la source des informations. Le titre est ainsi libellé : répartition (ou distribution) de tels individus selon tel caractère. En bas du tableau on indique la source d où proviennent les informations, on peut ajouter la date et le lieu. Le corps du tableau: pour une série statistique qualitative, il comporte 3 colonnes : on met les modalités x i dans la 1 ère, dans la seconde les fréquences n i et dans la 3 ième les fréquences relatives en pourcentages (100 f i ) Pour une série statistique quantitative continue, il faut définir au préalable le nombre de classes et leur positionnement. Certaines règles sont utiles : Les classes ( [a 1, a 2 [, [a 2, a 3 [,..., [a k, a k+1 [ ) sont des ensembles mutuellement disjoints et leur réunion englobe l ensemble des données. Le nombre de classes k ne doit être ni trop petit ni trop grand et doit dépendre du nombre de données N : 5 k 15 Le nombre moyen de données par classe = N/k 5 S il est possible, pour des raisons pratiques, on prend des classes de même amplitudes (longueur) e Dans ce cas e = = (! "#$%! "& ) et donc k = ) On mentionne dans la première colonne les classes, les autres colonnes sont les mêmes que pour une série discrète. On peut ajouter une colonne pour les centres des classes. 3.2 Représentation graphique Représentation d une série qualitative La représentation par secteurs: chaque modalité est représentée par un secteur (une portion) du disque. La surface (et donc l angle au centre) du secteur est proportionnelle à la fréquence de la modalité. α i = 360 x f i La représentation par tuyaux d orgues: les modalités sont représentées sur un repère cartésien par des rectangles de base constante et des hauteurs proportionnelles aux fréquences 3

Représentation d une série quantitative : Il existe deux types de représentations : Le diagramme différentiel: il correspond à la représentation par rapport aux fréquences partielles (ou fréquences relatives partielles ). Le diagramme intégral: il correspond à la représentation par rapport aux fréquences cumulées (ou fréquences relatives cumulées ). Le diagramme différentiel d une série discrète est un diagramme en bâtons. Sur un repère cartésien, de chaque point de coordonnées (x i, 0) est tracé un bâton de longueur proportionnelle à n i ou f i Le diagramme différentiel d une série continue est appelé histogramme : c est la figure obtenue en traçant de chaque base [a i, a i+1 [ un rectangle de surface ( et non pas la hauteur) proportionnelle à n i ou f i Histogramme Diagramme en bâtons Le diagramme intégral (ou courbe cumulative) pour une série discrète, est la représentation graphique de la fonction de répartition définie par : F(x) = f = f + f + + f si i x < 0 + 1 C est un graphique en escalier. Le diagramme intégral pour une série continue: sur un repère cartésien, on représente chaque classe [a i, a i+1 [ par un point de coordonnées ( a i+1, n ic ). On joint les points successifs par des segments de droites pour obtenir le polygone des fréquences cumulées. On polit ensuite ce polygone pour obtenir la courbe cumulative (le diagramme intégral) Diag. intégral (cas discret) Diag. intégral (cas continu)

. Paramètres de tendance centrale pour une série statistique à caractère quantitatif Le mode (M o ) : c est la valeur de la vs qui a la plus grande fréquence partielle. Si la vs est continue, on définit la classe modale. C est la classe qui a la plus grande fréquence moyenne par unité d intervalle. On a M o = a i + 2 2 où a i : borne inférieure de la classe modale 3 e i : amplitude de la classe modale 1 : fréquence de la classe modale - fréquence de la classe précédente 2 : fréquence de la classe modale - fréquence de la classe suivante La médiane (M e ) : c est la valeur de la vs qui partage en 2 parties égales les observations constituants la série préalablement rangées par ordre croissant ou décroissant Pour une série statistique discrète x 1, x 2,...,x N où N est l effectif total Si N est impair : 5 6 = 7892 3 Si N est pair : 5 6 = (78 3 + 78 3 ) Pour une série statistique continue, on détermine la classe médiane. La i ème classe [a i,a i+1 [ est la classe médiane si F i 1 1/2 F i ou bien 5 6 = : + ; 2 (%)> 1 5 6 = : + 2 F % f Quartiles, quintiles, déciles et centiles La médiane est une valeur telle que 50% des données sont plus petites qu elle i.e. elle partage la distribution en 2 parties égales. On peut généraliser cette idée et partager la distribution des fréquences en quatre parties égales on obtient les 3 quartiles Q 1, Q 2 et Q 3. Si on partage la distribution des fréquences en cinq parties égales on obtient les quintiles q 1, q 2, q 3 et q. Si on partage la distribution des fréquences en dix parties égales on obtient les 9 déciles d 1, d 2,...,d 9. Si on partage la distribution des fréquences en cent parties égales on obtient les 99 centiles c 1, c 2,...,c 99. Le centile d ordre α, c α, est défini par : - Pour une vs discrète? Si est entier alors c α = (xab + xab ) 2CC 2CC? Si n est pas entier, c α est la donnée x i dont le rang i est l entier qui suit?. Pour une vs continue, on détermine la classe [a i, a i+1 [ contenant c α. C est la 1ère classe où la fréquence cumulée atteint ou dépasse? c E = a + 5 AB 2CC % (G2) e ou c E = a + B 2CC %H G2 I e

Les quartiles sont les 25 ème, 50 ème et 75 ème centiles. Q 1 = c 25, Q 2 =c 50 et Q 3 = c 75 Les quintiles sont les 20 ème, 0 ème, 60 ème et 80 ème centiles. q 1 = c 20, q 2 =c 0, q 3 = c 60 et q = c 80 Les déciles sont les 10 ème, 20 ème,..., 90 ème centiles. d 1 = c 10, d 2 =c 20,..., d 9 = c 90 La moyenne arithmétique ( X ) La moyenne arithmétique est la valeur que devraient avoir toutes les données pour que leur somme totale soit inchangée. 1 X = f x = N n x Pour une vs continue, les x i sont remplacées par les centres des classes c i. La moyenne géométrique (G) : La moyenne géométrique est la valeur que devraient avoir toutes les données pour que leur produit soit inchangé. A G = Mx 2 x 3 x O Exemple : une quantité positive Q 0 évolue de t 1 % une première année puis t 2 % l année suivante. Quel est le taux moyen annuel d évolution? Soit P = 1 + Q 2 et P = 1 + Q 3 Alors après les 2 années, la quantité est Q 2 = c 1 c 2 Q 0 c 1 et c 2 sont appelés les coefficients multiplicateurs des 2 années. Soit t le taux moyen annuel et c le coefficient multiplicateur correspondant à t On a alors Q 2 = c 2 Q 0 d où c = c c et comme c = 1 + S alors t = (c - 1)100 La moyenne harmonique (H): H = ; 0 7 0 Exemple : si un train fait un trajet aller-retour entre 2 villes à la vitesse constante V 1 pour l aller et la vitesse constante V 2 pour le retour. La vitesse moyenne du trajet est V moy = = 2 ]2 2 = H c est la moyenne harmonique ]3 T = T Q UVVWX Q \ XWYZ[X ]2 \ ]3 6

5. Paramètres de dispersion L étendue (W) : W = x max - x min La variance V(X) : c est la moyenne arithmétique des carrés des écarts à la moyenne. L écart-type V(X) = 1 N n (x X) = 1 N n x σ X =_`(a) X L écart absolu: E c = n dx Xd Le coefficient de variation cv = e f g Si cv > 0.15 (ou 15%) alors la série est dispersée Le coefficient de dissymétrie : CD = (g %h W) i e f Si CD > 0 alors la distribution est étalée vers la droite. L écart interquartile : EIQ = Q 3 - Q 1 L écart semi-interquartile est : ESIQ = j k% j 2 6. Changement de variable Soit Y une nouvelle variable transformée de X Y = g%m où a et b sont 2 constantes et a 0 c On a alors X = a Y + b et V(X)= a 2 V(Y) Si a et b sont bien choisis alors les calculs de Y et V(Y) sont plus faciles que les calculs directs de X et V(X). En pratique, on prendra a = pgcd (x i ) et b = le mode si la vs est discrète Si la vs est continue, on prendra a = pgcd (e i ) et b = le centre de la clase modale 7