Statistiques: rappels et compléments



Documents pareils
Statistiques 0,14 0,11

Statistique : Résumé de cours et méthodes

Statistiques Descriptives à une dimension

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Annexe commune aux séries ES, L et S : boîtes et quantiles

Séries Statistiques Simples

1. Vocabulaire : Introduction au tableau élémentaire

Représentation d une distribution

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

SERIE 1 Statistique descriptive - Graphiques

- Ressources pour les classes

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Loi binomiale Lois normales

STATISTIQUES DESCRIPTIVES

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Traitement des données avec Microsoft EXCEL 2010

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Logiciel XLSTAT version rue Damrémont PARIS

Statistique Descriptive Élémentaire

Fonction inverse Fonctions homographiques

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

Exercice 3 (5 points) A(x) = 1-e -0039' e- 0,039x A '() -'-,..--,-,--,------:-- X = (l_e-0,039x)2

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Classe de première L

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Dérivation CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

BACCALAURÉAT PROFESSIONNEL SUJET

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Introduction à la statistique descriptive

EVALUATIONS MI-PARCOURS CM2

Leçon N 4 : Statistiques à deux variables

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

I. Ensemble de définition d'une fonction

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

3. Caractéristiques et fonctions d une v.a.

BACCALAUREAT GENERAL MATHÉMATIQUES

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

MATHÉMATIQUES. Mat-4104

LE PROCESSUS ( la machine) la fonction f. ( On lit : «fonction f qui à x associe f (x)» )

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Le chiffre est le signe, le nombre est la valeur.

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Élément 424b Introduction à la statistique descriptive

TSTI 2D CH X : Exemples de lois à densité 1

Moments des variables aléatoires réelles

Développements limités. Notion de développement limité

Raisonnement par récurrence Suites numériques

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

LibreOffice Calc : introduction aux tableaux croisés dynamiques

Activité 11 : Nuage de points ou diagramme de dispersion

Complément d information concernant la fiche de concordance

Les devoirs en Première STMG

Relation entre deux variables : estimation de la corrélation linéaire

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Statistiques avec la graph 35+

Bulletin d information statistique

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

Angles orientés et fonctions circulaires ( En première S )

Résumé du Cours de Statistique Descriptive. Yves Tillé

CAPTEURS - CHAINES DE MESURES

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Sujet. calculatrice: autorisée durée: 4 heures

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

M2 IAD UE MODE Notes de cours (3)

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Baccalauréat technique de la musique et de la danse Métropole septembre 2008

Apllication au calcul financier

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Notion de fonction. Résolution graphique. Fonction affine.

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Apprentissage par renforcement (1a/3)

Le suivi de la qualité. Méthode MSP : généralités

Evaluation de la variabilité d'un système de mesure

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Partie Agir : Défis du XXI ème siècle CHAP 20-ACT EXP Convertisseur Analogique Numérique (CAN)

glossaire Appellation commerciale Voir nom de marque.

Correction du bac blanc CFE Mercatique

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Rapidolect Les Productions de la Columelle ( ) Page 1

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Cours Modélisation et Programmation avec tableur

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Estimation et tests statistiques, TD 5. Solutions

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

PROBABILITES ET STATISTIQUE I&II

Les algorithmes de base du graphisme

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

DOCM Solutions officielles = n 2 10.

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Transcription:

Statistiques: rappels et compléments I) Vocabulaire élémentaire Population: Ensemble étudié. Individus: Éléments de la population. Caractère étudié ou variable statistique: Propriété étudiée dans la population. Les valeurs que peut prendre un caractère s'appellent les modalités. De façon générale, un caractère peut être : quantitatif quand les valeurs sont numériques (mesures physiques, physiologiques, sociologique, démographiques, économiques, ) Le caractère est dit discret lorsqu il ne peut prendre qu un nombre fini de valeurs numériques. Le caractère est dit continu, lorsqu il peut prendre une infinité de valeurs numériques: par exemple, la taille d un élève est un caractère de type quantitatif continu. Dans cette situation il est commode de regrouper les valeurs du caractère dans des classes: par exemple, on va regrouper les tailles des individus dans des classes d amplitude cm. qualitatif quand les valeurs ne peuvent être ni ordonnées ni ajoutées (groupe sanguin, couleur des yeux, vote pour un candidat). Pour des raisons de facilité de traitement informatique ou mathématique, on cherche à se ramener à des caractères quantitatifs par un codage. L'effectif d une modalité est le nombre d'individus de la population possédant cette valeur du caractère. L'effectif total est le nombre d'individus de la population: C'est la somme des effectifs de chaque modalité. La série statistique des effectifs est la fonction qui, à chaque valeur du caractère (modalité), associe l'effectif de cette modalité. Elle est le plus souvent définie à l'aide d'un tableau. Comme pour les fonctions, les séries statistiques peuvent être représentées graphiquement: On utilise les nuages de points, les diagrammes en bâtons, les polygones (points du nuage joints par des segments), les histogrammes, les diagrammes circulaires selon la situation étudiée. La série statistique des effectifs cumulés est la fonction qui à chaque modalité associe la somme des effectifs des modalités de valeurs inférieures ou égale à cette modalité. La série statistique des fréquences est la fonction qui, à chaque valeur du caractère, associe la fréquence de la classe de ce caractère (souvent donnée sous forme de pourcentages, mais parfois aussi de nombres décimaux). La série statistique des fréquences cumulées est la fonction qui, à chaque valeur du caractère, associe la fréquence cumulée de la classe de ce caractère. Même méthode que pour les effectifs cumulés. B.Sicard - E:\math\Cours\S\stats\stats_S_cours.odt - -

II) Indicateurs de position Le mode d'une série statistique est la (ou les) modalités ayant le plus grand effectif. La médiane d'une série statistique est la valeur centrale de la série statistique: Il y a autant d effectif avant la médiane qu après, c est à dire que les modalités inférieures à la médiane correspondent à 50 % de l effectif total et les modalités supérieures à la médiane correspondent aux autres 50 % de l effectif total. La médiane est ainsi peu sensible aux valeurs extrêmes, ce qui n est pas le cas de la moyenne! De façon plus précise: On ordonne la série des données statistiques par ordre croissant. Si l'effectif total de la série est impair (de taille: n ), la médiane est la valeur du terme de rang n dans cette série ordonnée. Si l'effectif total de la série est pair (de taille: n), la médiane est la moyenne des valeurs des termes de rang n et n dans cette série ordonnée. La moyenne ) Si le caractère étudié est discret, défini par : Valeur du caractère x x x 3... x p Effectifs n n n 3... n p Fréquences f f f 3... f p La population a pour effectif total: =n n n 3 n p La moyenne de cette série statistique est le nombre x défini par: C'est à dire: x= n= p n i x i i= n=p = i= x= n x n x n 3 x 3....... n p x p = f x f x f 3 x 3........ f p x p ) Si le caractère étudié est de type continu, il est alors possible de regrouper ses valeurs dans des classes (intervalles les contenant): Avec p intervalles: [ c ; c [, [c ; c 3[, [ c 3 ; c [, [ c ; c 5[,..., [ c p ; c p ] dont les centres sont: x = c c, x = c c 3, x 3 = c c 3, x = c c 5,..., x p = c p c p Pour calculer sa moyenne, on l'assimile à un caractère discret dont les valeurs sont les centres des intervalles et l'on utilise alors la formule précédente. Remarque importante: Moyenne et médiane ne sont pas liée. Voici quelques exemples qui vous montrent que tout est possible Série statistique Médiane m et moyenne x Commentaires ; ; ; ; m=, x=, La médiane est la plus petite valeur de la série ; ; ; ; m=, x=,6 La médiane est la plus grande valeur de la série ; ; ; 3 ; 3 m=, x= La médiane est égale à la moyenne ; ; ; ; m=, x=, La médiane est inférieure à la moyenne ; ; 3 ; ; m=3, x=,6 La médiane est supérieure à la moyenne f i x i B.Sicard - E:\math\Cours\S\stats\stats_S_cours.odt - -

III) Indicateurs de dispersion L étendue d'une série statistique est la différence entre la valeur maximum et la valeur minimum du caractère étudié. Les quartiles: Premier quartile: Valeur de la série statistique (triée dans l'ordre croissant) qui partage l effectif total en =5 % de l effectif est inférieur ou égal à ce premier quartile. 3 =75 % de l effectif est supérieur à ce premier quartile. Lorsqu'il n'est pas possible d'obtenir exactement le partage 5 % - 75 %, on prend pour premier quartile, la plus petite valeur Q de la série telle qu'au moins 5 % de l'effectif total soit inférieur ou égal à Q. Deuxième quartile: Valeur de la série statistique (triée dans l'ordre croissant) qui partage l effectif total en = 50 % de l effectif est inférieur ou égal à ce deuxième quartile. = 50 % de l effectif est supérieur à ce deuxième quartile. Le deuxième quartile est donc la médiane de la série statistique. La façon détaillée de la déterminer à déjà été étudiée. Troisième quartile: Valeur de la série statistique (triée dans l'ordre croissant) qui partage l effectif total en 3 =75 % de l effectif est inférieur ou égal à ce troisième quartile. =5 % de l effectif est supérieur à ce troisième quartile. Lorsqu'il n'est pas possible d'obtenir exactement le partage 75 % - 5 %, on prend pour troisième quartile, la plus petite valeur Q 3 de la série telle qu'au moins 75 % de l'effectif total soit inférieur ou égal à Q 3. L'i ntervalle inter quartiles : Intervalle [ Q ; Q 3] qui regroupe la moitié centrale de l effectif total, c est à dire situé entre le premier et le troisième quartile. L'écart inter quartiles: C'est l'étendue Q 3 Q l'intervalle inter quartiles. entre le premier et le troisième quartile, c'est à dire l'amplitude de Les déciles: Utilisés surtout pour décrire les séries statistique à fort effectif (les partages se font en dixièmes de l effectif total). On s intéresse essentiellement au premier et dernier déciles (9 ème ). Premier décile: Valeur de la série statistique (triée dans l'ordre croissant) qui partage l effectif total en = 0 % de l effectif est inférieur ou égal à ce premier décile. 0 9 = 90 % de l effectif est supérieur à ce premier décile. 0 Lorsqu'il n'est pas possible d'obtenir exactement le partage 0 % - 90 %, on prend pour premier décile, la plus petite valeur D de la série telle qu'au moins 0 % de l'effectif total soit inférieur ou égal à D. B.Sicard - E:\math\Cours\S\stats\stats_S_cours.odt - 3 -

Dernier décile: Valeur de la série statistique (triée dans l'ordre croissant) qui partage l effectif total en 9 = 90 % de l effectif est inférieur ou égal à ce dernier décile. 0 = 0 % de l effectif est supérieur à ce dernier décile. 0 Lorsqu'il n'est pas possible d'obtenir exactement le partage 90 % - 0 %, on prend pour 9 ème décile, la plus petite valeur D 9 de la série telle qu'au moins 90 % de l'effectif total soit inférieur ou égal à D 9. Remarque: Comme pour l intervalle inter quartile, on évalue l intervalle inter décile [ D ; D 9] qui contient les 80 % centraux de la population totale. Il est situé entre le premier et le dernier décile. Le diagramme en boîte ou «Boîte à moustache» ou «Boîte à pattes» : Il s agit, d une façon imagée, de décrire la répartition de l effectif total à l aide de sa médiane, son er et son 3 ème quartile, son er et son 9 ème décile, son maximum et son minimum, de la façon représentée cidessous: Maximum 9 ème décile 3 ème quartile Médiane er quartile er décile Minimum Afin que les informations soient lisibles, il est nécessaire de donner une graduation associée à la boîte, comme le montre l'exemple ci-dessous: Remarques: Parfois, le minimum et le maximum ne sont pas indiqués. Souvent, pour des séries à petits effectifs, pour les «bouts des pattes», on remplace le er décile par le minimum et le 9 ème décile par le maximum. Il arrive aussi parfois que la moyenne soit signalée par une croix afin de la situer par rapport à la médiane... B.Sicard - E:\math\Cours\S\stats\stats_S_cours.odt - -

L'écart-type: C'est le réel positif défini par : Le nombre est appelé la variance de la série statistique. Distribution normale - Données gaussiennes - Plages de normalité: Dans de nombreux domaines, les séries statistiques portant sur un très grand nombre de données conduisent à des graphiques (polygone des effectifs ou histogramme des effectifs) de même forme régulière et symétrique qui sont très proches d'une "courbe en cloche" appelée "courbe de Gauss", en hommage au grand mathématicien allemand Karl-Friedrich Gauss (777-855) qui a tant apporté aux mathématiques. De telles données sont dites "gaussiennes" et la loi mathématique associée s'appelle la "loi normale". Les courbes obtenues sont à peu près symétriques autour de la moyenne x de la série statistique. Pour des séries de ce type, on observe que: Environ 95 % des valeurs du caractère étudié sont situées dans l'intervalle [ x ; x ] Cet intervalle est appelé plage de normalité à 95 %. Environ 99 % des valeurs du caractère étudié sont situées dans l'intervalle [ x 3 ; x 3 ] Cet intervalle est appelé plage de normalité à 99 %. En résumé: Avec des séries statistiques de type gaussien, on peut s'attendre à trouver environ 95 % des observations qui fluctuent à moins de écarts-type de la moyenne x de la série statistique. Cela signifie aussi que, toute valeur de cette série a 95 % de chance de se trouver dans l'intervalle [ x ; x ] et donc 5 % de chance de se trouver à l'extérieur de cette plage de normalité à 95 %. Avec des séries statistiques de type gaussien, on peut s'attendre à trouver environ 99 % des observations qui fluctuent à moins de 3 écarts-type de la moyenne x de la série statistique. Cela signifie aussi que, toute valeur de cette série a 99 % de chance de se trouver dans l'intervalle [ x 3 ; x 3 ] et donc % de chance de se trouver à l'extérieur de cette plage de normalité à 99 %. On peut donc être pratiquement certain que la quasi totalité des valeurs de cette série statistique est situé à moins de trois écart-types de la moyenne de la série. Influence d'une transformation affine des données d'une série statistiques sur ses indicateurs: Lorsqu'on additionne un même nombre réel à chacune des valeurs d'une série statistique, la variance, l'écart-type et l'écart inter-quartiles restent inchangés. La médiane et la moyenne augmentent de la valeur de ce nombre. Lorsqu'on multiplie par un même nombre réel strictement positif chacune des valeurs d'une série statistique, la variance est multipliée par le carré de ce réel. La médiane, la moyenne, l'écart-type et l'écart inter-quartiles sont multipliés par ce nombre réel. En résumé: a étant un réel strictement positif et b un réel quelconque, on a: Valeurs de la série = n x x n x x n 3 x 3 x... n p x p x Moyenne Médiane Premier quartile Troisième quartile Écart inter-quartiles Variance Écart-type x i x M Q Q 3 Q 3 Q ax i b a x b am b aq b aq 3 b a Q 3 Q a a = n= p i= n i x i x B.Sicard - E:\math\Cours\S\stats\stats_S_cours.odt - 5 -