Cours 10 Une variable numérique : indices de localisation

Documents pareils
Statistique descriptive bidimensionnelle

Limites des Suites numériques

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

STATISTIQUE : TESTS D HYPOTHESES

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Comportement d'une suite

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

Principes et Méthodes Statistiques

Séquence 5. La fonction logarithme népérien. Sommaire

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

Chapitre 3 : Fonctions d une variable réelle (1)

20. Algorithmique & Mathématiques

SÉRIES STATISTIQUES À DEUX VARIABLES

Statistique Numérique et Analyse des Données

STATISTIQUE AVANCÉE : MÉTHODES

Cours 5 : ESTIMATION PONCTUELLE

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Les Nombres Parfaits.

Processus et martingales en temps continu

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Séries réelles ou complexes

Cours de Statistiques inférentielles

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

EXERCICES : DÉNOMBREMENT

55 - EXEMPLES D UTILISATION DU TABLEUR.

Dénombrement. Chapitre Enoncés des exercices

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

Chapitre 3 : Transistor bipolaire à jonction

Sommaire Chapitre 1 - L interface de Windows 7 9

c. Calcul pour une évolution d une proportion entre deux années non consécutives

Baccalauréat S Asie 19 juin 2014 Corrigé

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

Chap. 5 : Les intérêts (Les calculs financiers)

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

CHAPITRE 2 SÉRIES ENTIÈRES

1 Mesure et intégrale

Université Pierre et Marie Curie. Biostatistique PACES - UE

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Etude de la fonction ζ de Riemann

2 ième partie : MATHÉMATIQUES FINANCIÈRES

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

Initiation à l analyse factorielle des correspondances

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

14 Chapitre 14. Théorème du point fixe

Exercices de mathématiques

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

Probabilités et statistique pour le CAPES

MESURE DE L'INFORMATION

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

4 Approximation des fonctions

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Module 3 : Inversion de matrices

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

RÈGLES ORDINALES : UNE GÉNÉRALISATION DES RÈGLES D'ASSOCIATION

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

Formation d un ester à partir d un acide et d un alcool

Terminale S. Terminale S 1 F. Laroche

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Chaînes de Markov. Arthur Charpentier

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Les algorithmes de tri

Suites et séries de fonctions

Risque de longévité et détermination du besoin en capital : travaux en cours

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

Dares Analyses. Plus d un tiers des CDI sont rompus avant un an

Sommes de signaux : Décomposition de Fourier Spectre ondes stationnaires et résonance

Processus géométrique généralisé et applications en fiabilité

Des résultats d irrationalité pour deux fonctions particulières

STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO

Semestre : 4 Module : Méthodes Quantitatives III Elément : Mathématiques Financières Enseignant : Mme BENOMAR

Compte Sélect Banque Manuvie Guide du débutant

Solutions particulières d une équation différentielle...

Régulation analogique industrielle ESTF- G.Thermique

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Résolution numérique des équations aux dérivées partielles (PDE)

INTRODUCTION AUX MATRICES ALÉATOIRES. par. Djalil Chafaï

Les études. Recommandations applicables aux appareils de levage "anciens" dans les ports. Guide Technique

Simulations interactives de convertisseurs en électronique de puissance

La maladie rénale chronique

RESOLUTION PAR LA METHODE DE NORTON, MILLMAN ET KENNELY

LE PRINCIPE DU RAISONNEMENT PAR RÉCURRENCE

II - Notions de probabilité. 19/10/2007 PHYS-F-301 G. Wilquet 1

RESOLUTION DES FLOW SHOP STOCHASTIQUES PAR LES ORDRES STOCHASTIQUES. DERBALA Ali *)

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

Transcription:

Cours 10 Ue variable umérique : idices de localisatio Das ce cours, o fait u rappel sur les idices de localisatio, médiae, quatiles et moyee, et o étudie la faço de les utiliser pour comparer les distributios de la variable umériques Y sur les diéretes sous-populatios iduites par X. Médiae 1 déf La dispersio absolue de observatios y i, (i = 1,...,), autour d'ue valeur v est la somme des distaces de chaque observatio à v : disp a (v) = y i v. Exemple : 5 observatios : 1,,, 4, 5. Das ce cas la dispersio peut s'écrire disp a (v) = 1 v + v + 4 v + 5 v. Doc, par exemple pour v = 1, 1.5,,.5, 3 ou 5, o obtiet, respectivemet, disp a (1) = 9, disp a (1.5) = 7.5, disp a () = 6, disp a (.5) = 6.5, disp a (3) = 7 et disp a (5) = 11. déf La médiae d'u esemble d'observatios y i issues d'ue variable Y est ue valeur observable qui miimise la dispersio absolue, autremet dit ue valeur observable v telle que disp a (v) est la plus petite possible. De maière équivalete, c'est ue valeur observable v qui vérie simultaémet les deux propriétés : P 1 : fréquece(observatios v) 0,5 P : fréquece(observatios v) 0,5 La médiae est aussi souvet déie comme la valeur partageat l'échatillo (des observatios) ragé das l'ordre croissat e deux parties de proportio égale ; pour ue variable cotiue, c'est la valeur qui divise l'histogramme e deux parties égales à 0,5 : F (médiae)=0,5. 3 Calcul de la médiae. Si o dispose des observatios y i, o détermie la médiae e rageat les observatios das l'ordre croissat puis o cosidère cas : Si est impaire, la médiae est la valeur de l'observatio cetrale (la +1 ème observatio). Si est paire, la médiae est le milieu observable de la ème et ( + 1)e observatio. Si le milieu 'est pas observable, o predra la valeur observable iférieure la plus proche. Notos que pour ue variable cotiue, 'importe quelle valeur (ombre etier ou décimal) est observable. Das l'exemple 1 du cours 9, das lequel Y est le ombre d'efats das ue famille, les 7571 observatios sot e fait déjà ordoées (les eectifs représetat les répétitios) : la médiae est la valeur de la 7571+1 = 3786ème observatio, égale à 1. Das l'exemple 3, comme il y a 16 observatios, la médiae est le milieu etre la 8ème observatio et la 9ème observatio, égal à 85+93 = 89, qui est observable (a priori la variable "doée cliique" est cotiue et doc toutes le valeurs sot observables). Si la variable est cotiue et les observatios sot regroupées das des classes (itervalles), o calcule la valeur qui divise l'histogramme e deux surfaces égales (la valeur pour laquelle F retoure 0,5, c'est-à-dire la valeur q telle que F (q) = 0,5). Das l'exemple du cours 9, à propos des reveus, la valeur à gauche de laquelle la surface de Y sud vaut 0,5 est das la modalité [5 ; 10[, d'amplitude 5 et de fréquece 33,9 : la médiae est doc égale à 5 + 5 50,5 33,9 = 9,06.

Statistique pour la psychologie II : E46XP3 Quatiles et Box plot 4 déf U quatile de proportio p oté q p vérie simultaémet les deux propriétés : P 1 : fréquece(observatios q p ) p P : fréquece(observatios q p ) 1 p U quatile de proportio p partage les observatios ragées das l'ordre croissat e deux parties de proportios (au mois égales à) p et 1 p. Pour ue variable cotiue et où les observatios sot regroupées das des classes, c'est la valeur qui coupe l'histogramme e deux parties de surfaces p et 1 p, ou ecore la valeur q p qui vérie F (q p ) = p. 5 Quatiles courats La médiae est le quatile de proportio 0,5. Les 3 quartiles sot des quatiles de proportio 0,5 0,50 et 0,75 ; ils partaget les observatios ragées das l'ordre croissat e quatre parties de même proportio 0,5 ; le secod quartile est la médiae. Les 9 déciles sot des quatiles de proportio i 0,1 où 1 i 9 : par exemple, 30% (au mois) des idividus ot ue mesure iférieure ou égale au troisième décile q 0,3 (P 1 ), et 70% (au mois) ue mesure supérieure ou égale à q 0,3 (P ). Les 99 cetiles sot des quatiles de proportio i 0,01 où 1 i 99 ; par exemple 95% des idividus de l'échatillo ot ue valeur iférieure ou égale au 95ème cetile q 0,95. 6 Calcul d'u quatile q p de proportio p Si o dispose des observatios y i, o les parcourt das l'ordre croissat et o s'arrête à la valeur qui vérie P 1 et P. Si valeurs veriet P 1 et P, o predra le milieu observable des deux valeurs (et si le milieu 'est pas observable, o predra la valeur observable iférieure la plus proche). Si la variable est cotiue (et les observatios sot regroupées das des classes), ou bie la foctio de répartitio vaut p sur ue bore et cette bore est le quatile, ou bie o e calcule ue approximatio par la méthode iverse déjà décrite das le Ÿ8 du cours 9. Exemple du reveu des familles : Le premier quartile q 5% de la distributio Y Sud est das la ème modalité [5; 10[ puisque F Sud (5) =,5% < 5% et F Sud (10) = 56,4% > 5% ; la fréquece de cette modalité valat 33,9, q 5% = 5 + 5 5,5 33,9 = 5,37. Le troisième quartile q 75% est das la 3ème modalité [10; 15[ de fréquece 4, : q 75% = 10 + 5 75 56,4 4, = 13,8. Le 95ème cetile q 95% est das la derière modalité [15; 30[ d'amplitude 15 et de fréquece 19,4 : q 95% = 15 + 15 95 80,6 19,4 = 6,. Classemet par Box-Plot 7 Le box-plot d'ue distributio est u résumé graphique de localisatio et de dispersio de la distributio : sur u axe gradué des valeurs limité par le miimum et le maximum des observatios, o dessie ue boîte passat par le premier et le 3ème quartile, coupée e deux par la médiae. 8 Le box-plot état u bo résumé graphique d'ue distributio, la comparaiso des distributios coditioelles par box-plot iterposé peut être istructive : u box-plot décalé à droite d'u

Statistique pour la psychologie II : E46XP3 3 autre sigie e eet que la distributio du secod est globalemet plus grade que celle du premier. E comparat les box-plots des distributios coditioelles, o peut chercher à classer partiellemet ou totalemet les sous-populatios, à la maière des foctios de répartitio. 9 Exemple du reveu des familles : ous avos calculé précédemmet les 3 quartiles de la distributio de Y pour la populatio du sud : 5,37, 9,06 et 13,8 ; les trois quartiles de la distributio Y Nord sot : q 0,5 = 5 + 5 0,5 0,159 0,83 = 6,61 q 0,50 = 10 + 5 0,50 0,44 0,83 = 11,0 q 0,75 = 15 + 15 0,75 0,75 0,75 = 16,36 La représetatio simultaée des deux box-plots doe : Elle corme le classemet établi à partir des foctios de répartitio (Ÿ9 du cours 9) : la distributio coditioelle Y Nord est globalemet supérieure à la distributio coditioelle Y Sud, ce qui reviet à dire que la sous-populatio du ord est globalemet plus riche que la sous-populatio du sud. Moyee 10 déf La dispersio quadratique de observatios y i, (i = 1,...,), autour d'ue valeur v est la somme des carrés des distaces de chaque observatio à v : disp q (v) = (y i v) ; la dispersio quadratique moyee de observatios y i autour de v est alors le ombre disp q (v). 11 déf La moyee d'ue série E de observatios issues de Y est la valeur umérique, observable ou o, qui miimise la dispersio quadratique ; o la ote y ; o démotre que cette valeur miimale est la moyee arithmétique des observatios, obteue e divisat la somme des valeurs par le ombre de valeurs, 1 y i ; elle peut s'iterpréter comme la valeur qu'auraiet les idividus de l'échatillo s'ils se répartissaiet à part égale la somme des observatios. 1 Calcul de la moyee. Si o dispose des observatios y i, o calcule leur moyee arithmétique des valeurs : y = 1 y i À partir de la distributio d'ue variable discrète, la moyee se calcule par ue formule équivalete qui cosiste à regrouper das u même terme les j valeurs égales à la modalité m j : y = 1 p p j m j = f j m j Das cette derière formule, j varie de 1 à p, le ombre de modalités de Y, alors que das la précédete, i varie de 1 à, la taille de l'échatillo. Das l'exemple 1 du cours 9, la moyee de Y pour la sous-populatio des couples, y couples, est le ombre : 369 1 + 174 + 963 3 + 10 4 + 10 5 6536 = 1,69

4 Statistique pour la psychologie II : E46XP3 13 À partir de la distributio d'ue variable cotiue, la moyee e peut qu'être approximée, puisqu'o e coaît pas la somme des j valeurs des modalités [b j ; b j+1 [ ; si o suppose ici ecore que la desité est costate das chaque modalité (les valeurs se répartisset uiformémet das l'itervalle), ce qui 'est pas toujours ue hypothèse judicieuse, cette somme est égale à j fois le cetre de l'itervalle, c j = b j+b j+1, puisque la moyee de ces j valeurs est cofodue avec le cetre ; sous cette hypothèse la moyee est le ombre : y = 1 p p j c j = f j c j Das l'exemple sur les reveus, o pred arbitrairemet 30 comme bore supérieure de la derière modalité : Modalités de Y ]0 ; 5[ [5 ; 10[ [10 ; 15[ [15 ; 30[ i f i Moyee Cetres c i,5 7,5 1,5,5 Y sud 8 4 30 4 14 0,31 10,484 Y ord 44 78 78 76 76 0,69 1,46 Y 7 10 108 100 400 1 11,7 O a alors y Sud =,5 8+7,5 4+1,5 30+,5 4 14 = 10,48, y Nord =,5 44+7,5 78+1,5 78+,5 76 1,5 et y =,5 7+7,5 10+1,5 108+,5 100 400 = 11,70. 14 Propriétés. 76 = 1. y i = y : la somme d'ue série de observatios est égale à fois la moyee de cette série ; c'est ue coséquece directe de la formule y = 1 y i.. y + a = y + a : si o ajoute u même ombre a (positif ou égatif) à chaque observatio y i (o retrache e ajoutat u ombre égatif), o trasforme 1 la variable Y e ue autre variable otée Y + a, dot la moyee vaut la moyee de Y à laquelle o rajoute a. 3. Cetrage : la variable Y y obteue e retrachat y à toutes les observatios y i, est de moyee ulle, d'après la propriété précédete ; elle est dite cetrée. 4. a y = a y : si o multiplie chaque observatio par u même ombre a (positif ou égatif), o trasforme la variable Y e ue variable a Y, dot la moyee vaut la moyee de Y multipliée par a. 5. a y + b = a y +b : cette formule gééralise les formules. et 4., a et b état deux ombres positifs ou égatifs. 15 Médiae et moyee. La médiae et la moyee sot des idices de localisatio ou de tedace cetrale d'ue série d'observatios, qui s'exprimet das la même uité que la variable ; elles permettet de résumer la série par ue seule valeur globale ; comme tous les idices, cette valeur doit être iterprétée avec prudece et pertiece 3. La médiae est peu sesible aux valeurs extrêmes, cotrairemet à la moyee : quelques doées aberrates ajoutées à la série (ou retirées de la série) peuvet modier la moyee de maière importate, mais laisserot la médiae à peu près ichagée. Les boes propriétés algébriques de la moyee e fot u idice plus facile à utiliser que la médiae. 16 Dispersio et distace. O peut voir la dispersio de l'échatillo (des observatios) autour d'ue valeur comme ue distace de cette valeur à l'échatillo : ue valeur sera d'autat plus proche de l'échatillo que la dispersio autour d'elle sera faible ; et la valeur résumera d'autat mieux l'échatillo qu'elle e sera proche ; das cette perspective, la médiae et la moyee sot les valeurs les plus proches de l'échatillo, la première si o choisit la dispersio absolue, la secode si o choisit la dispersio quadratique. 1. Cette trasformatio est ue traslatio.. Cette trasformatio est ue homothétie. 3. L'ouvrage de N. Gauvrit, Statistiques Méez-vous, aux éditios Ellipses, présete ces questios d'iterprétatio de maière claire et simple.

Moyee et sous-populatios Statistique pour la psychologie II : E46XP3 5 17 Moyees coditioelles. Les moyees coditioelles de la variable umérique Y sot les moyees des distributios coditioelles de Y, c'est à dire les moyees de Y mesurées sur les sous-populatios iduites par X (ou ecore les moyees de Y mesurées uiquemet sur les idividus vériat X = m i, pour i = 1,..., k). 18 Idépedace. Si X et Y sot idépedates, les sous-populatios ot la même moyee, puisque les distributios coditioelles de Y e fréquece sot idetiques ; réciproquemet, l'égalité des moyees das les sous-populatios 'idique pas écessairemet l'idépedace de X et Y, puisque deux distributios peuvet avoir la même moyee sas être idetiques. Si X et Y sot statistiquemet idépedates, les sous-populatios ot des moyees diéretes mais proches, e raiso des uctuatios d'échatilloage ; décider jusqu'à quel poit o peut cosidérer ces diéreces comme le fait des uctuatios d'échatilloage et o comme celui d'ue diérece etre les sous-populatios est ue questio délicate qu'o peut traiter par l'aalyse de la variace, présetée das u prochai cours. 19 Classemet par la moyee. Comme la moyee est u idice global de localisatio, u classemet des moyees coditioelles coduit aturellemet à classer les sous-populatios. Das l'exemple des reveus, l'ordre y Nord = 1,5 > y Sud = 10,48 ivite à peser que le reveu das le ord est globalemet supérieur au reveu das le sud, d'autat que c'est ue cormatio de ce que ous avos déjà remarqué. 0 Moyee globale et moyees coditioelles. Ue erreur fréquete cosiste à calculer la moyee sur la populatio globale e faisat la moyee arithmétique des moyees des k k sous-populatios, comme si y = ym i k ; or cette égalité est fausse : das l'exemple des reveus, la moyee sur la populatio globale, 11,70, 'est pas égale à 10,48+1,5 = 11,36. E réalité, la moyee de Y sur la populatio globale est la moyee des moyees sur les k sous-populatios podérée par leur taille relative (doée par la distributio de X e eectif) : k k y = f i y mi = k i y i y mi m i = Cette formule est la formule de la décompositio de la moyee. La démostratio est assez simple : la moyee globale est la somme totale des observatios divisée par la taille ; la somme totale des observatios est l'additio des sommes des observatios sur chaque sous-populatio ; et e remarquat que la somme des observatios sur la ième souspopulatio est égale à i y mi (propriété 1 Ÿ14), la moyee sur cette sous-populatio multipliée par sa taille, o obtiet le résultat attedu. Pour l'exemple des reveus, la formule de la décompositio de la moyee est la formule : y = 11,70 = 0,31 10,48 + 0,69 1,5.

6 Statistique pour la psychologie II : E46XP3 Programme de travail Savoir déir : les dispersios absolue et quadratique ; la médiae ; u quatile ; la moyee ; la formule de la décompositio de la moyee. Savoir expliquer : commet o costruit u box-plot ; commet o calcule u quatile das tous les cas de gure ; ce que sot la médiae et la moyee. Savoir faire : calculer u quatile dot la médiae et les quartiles ; calculer ue moyee das tous les cas de gure ; appliquer la formule de la décompositio de la moyee ; classer les sous-populatios e comparat les box-plot et/ou les moyees.