Cours 9 Une variable numérique : distribution et répartition



Documents pareils
Statistique : Résumé de cours et méthodes

Statistiques Descriptives à une dimension

1. Vocabulaire : Introduction au tableau élémentaire

Statistique Descriptive Élémentaire

Introduction à la statistique descriptive

Représentation d une distribution

SERIE 1 Statistique descriptive - Graphiques

CHAPITRE IX : Les appareils de mesures électriques

TSTI 2D CH X : Exemples de lois à densité 1

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Annexe commune aux séries ES, L et S : boîtes et quantiles

Logiciel XLSTAT version rue Damrémont PARIS

Chapitre 3. Les distributions à deux variables

Précision d un résultat et calculs d incertitudes

Statistiques 0,14 0,11

- Ressources pour les classes

Complément d information concernant la fiche de concordance

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Traitement des données avec Microsoft EXCEL 2010

Lecture graphique. Table des matières

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

2. RAPPEL DES TECHNIQUES DE CALCUL DANS R

Infolettre #18 : Les graphiques avec Excel 2010

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

L'INTÉRÊT COMPOSÉ. 2.1 Généralités. 2.2 Taux

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

La simulation probabiliste avec Excel

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Séries Statistiques Simples

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

SYNTHÈSE DOSSIER 1 Introduction à la prospection

Formules et Approches Utilisées dans le Calcul du Coût Réel

Probabilités sur un univers fini

Statistiques avec la graph 35+

Exercices de dénombrement

CAPTEURS - CHAINES DE MESURES

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Fonctions de plusieurs variables

Collecter des informations statistiques

Evaluation de la variabilité d'un système de mesure

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Loi binomiale Lois normales

23. Interprétation clinique des mesures de l effet traitement

La fonction exponentielle

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

CHAPITRE VIII : Les circuits avec résistances ohmiques

ACOUSTIQUE 3 : ACOUSTIQUE MUSICALE ET PHYSIQUE DES SONS

LES GENERATEURS DE NOMBRES ALEATOIRES

Représentation des Nombres

LES DIFFERENTS TYPES DE MESURE

MATHÉMATIQUES. Mat-4104

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

OBJECTIFS. I. A quoi sert un oscilloscope?

Probabilités sur un univers fini

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Espaces probabilisés

Chapitre 3 : INFERENCE

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Interface PC Vivago Ultra. Pro. Guide d'utilisation

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Qu est-ce qu une probabilité?

FONCTION DE DEMANDE : REVENU ET PRIX

Raisonnement par récurrence Suites numériques

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Limites finies en un point

LISTE D EXERCICES 2 (à la maison)

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

BTS Groupement A. Mathématiques Session Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

Élément 424b Introduction à la statistique descriptive

SYSTEMES LINEAIRES DU PREMIER ORDRE

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Recherche dans un tableau

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

AGASC / BUREAU INFORMATION JEUNESSE Saint Laurent du Var Tel : bij@agasc.fr Word: Les tableaux.

Statistiques descriptives sous Excel. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

avec des nombres entiers

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Cours Fonctions de deux variables

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Le produit semi-direct

Unité E Variation et analyse statistique

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

MATHÉMATIQUES FINANCIÈRES I

Couples de variables aléatoires discrètes

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Transcription:

Cours 9 Une variable numérique : distribution et répartition Lorsqu'une variable est qualitative et l'autre numérique, il est courant que la première identie des sous-populations (sexe, catégories socio-économiques, sous-populations géographiques, groupes de référence,...) sur lesquelles on mesure l'autre ; l'étude de la liaison des deux variables revient alors à expliquer par la première, la variable explicative, les variations de la seconde, la variable expliquée, en comparant les distributions sur les sous-populations. Par la suite X sera la variable qualitative explicative et Y la variable quantitative expliquée. Exemples 1 - Nombre d'enfants de 0 à 6 ans et structures familiales en 200 (source Insee) : Nbre enfants [0-6] 1 2 3 4 et plus Total F. monoparentales 18 413 92 11 1 103 Couples 3269 2174 963 120 10 636 Total 3787 287 10 131 11 771 2-400 familles américaines sont classées par revenu en milliers de dollars et par région (adapté de T. et R. Winnicott, 1991). Région / Revenu 0-4 -9 10-14 1 et plus Total Sud 28 42 30 24 124 Nord 44 78 78 76 276 Total 72 120 108 100 400 3 - Données cliniques mesurées sur 3 groupes de patients : Groupe 1 6 72 8 93 104 110 Groupe 2 4 1 8 67 79 Groupe 3 93 98 116 121 123 Variable numérique 1 Variable discrète. Les valeurs observables sont généralement des nombres entiers obtenus par dénombrement ; la variable "nombre d'enfants" de l'exemple 1 est discrète. Les modalités de la distribution sont les valeurs observables ou éventuellement un regroupement en classes de valeurs observables successives : dans la ème modalité de la variable "nombre d'enfants" on a regroupé toutes les valeurs observables au moins égales à (supérieures à 4). La représentation graphique de la distribution est un diagramme en bâtons : 1. On trace un axe gradué horizontal sur lequel on place les valeurs observables. 2. au-dessus de chaque valeur observée on place un bâton vertical de hauteur égale à son eectif ou à sa fréquence. 2 Variable continue. Les valeurs observables sont des nombres décimaux lus sur un instrument de mesure réel ou imaginaire ; la variable "revenu" de l'exemple 2 est continue. Les modalités de la distribution sont des intervalles contigus de valeurs, dont les amplitudes peuvent être inégales. La représentation graphique est un histogramme : 1. On trace un axe gradué horizontal sur lequel on place les bornes des modalités-intervalles.

2 Statistique pour la psychologie II : E44XP1 2. au-dessus de chaque modalité on trace un rectangle de hauteur égale à sa densité de fréquence (fréquence par unité d'amplitude= f j a j ). Exemple : histogramme de la distribution du revenu dans le sud (elle est détaillée au paragraphe 7) 3 Surface et proportion. La surface de chaque rectangle est égale à la fréquence de la modalité : surface = largeur*hauteur = amplitude*densité = (amplitude*fréquence)/amplitude = fréquence ; la surface totale de l'histogramme est donc égale à 1, ou 100 si on exprime les fréquences en pourcentage. Dans ce cas, et avec un peu d'imagination, on peut voir chaque rectangle occupé par les f j individus appartenant à la modalité, chacun disposant de la même unité de surface. Si on trace deux verticales coupant l'axe des valeurs en v et v (par exemple 8 et 19 sur la gure précédente), la surface de l'histogramme située entre les deux verticales représente la proportion des individus de l'échantillon dont la mesure est comprise entre v et v' ; ou plus exactement une approximation de cette proportion : en eet, représenter une modalité par un rectangle équivaut à considérer la densité constante dans cette modalité, ou encore à supposer que les individus se répartissent uniformément dans l'intervalle ; cette hypothèse est très commode, mais elle n'est généralement pas réaliste, la seule information sûre étant la surface et non la forme de la représentation. Si les deux valeurs sont des bornes, la proportion des individus dont la mesure est comprise entre v et v' (notons la P rop(v Y v )) se calcule à partir de la distribution en fréquence ; par exemple P rop( Y sud 1) = 33,9 + 24,2 = 8,1% Si l'une au moins de ces valeurs n'est pas une borne, le tableau de contingence ne permet pas de déterminer la proportion avec exactitude, et on peut seulement en avoir une approximation ; évaluons par exemple P rop(8 Y sud 10), la proportion des individus du sud dont la mesure est comprise entre 8 et 10, représentée par la surface A de la gure précédente : A est la surface dont la largeur x est égale à 10 8 = 2 et dont la hauteur est la densité de la modalité, égale au rapport 33,9 : A 2 33,9 = 13,6. D'une manière analogue, P rop(8 Y sud 19) est la surface comprise entre les verticales passant par 8 et 19 : P rop(8 Y sud 19) A + 24,2 + A, et comme A = x 19,4 1 =,2%, où x = 19 1, alors P rop(8 Y sud 19) 43%. 4 Comparaison des distributions. Lorsque la variable numérique est discrète, la comparaison des distributions conditionnelles par leur représentation simultanée en bâtons sur un même graphique peut être suggestive ; si elle est continue, la représentation simultanée des histogrammes est dicile à lire, et il est préférable de les comparer par d'autres moyens, par exemple en comparant les fonctions de répartition. Fonction de répartition déf La fonction de répartition F d'une distribution de X est une fonction mathématique qui prend en entrée n'importe quel nombre q et retourne comme valeur notée F (q) la proportion des individus de l'échantillon dont la mesure par X est inférieure ou égale à q ; F (q) est donc un

Statistique pour la psychologie II : E44XP1 3 nombre compris entre 0 et 1, ou entre 0 et 100 si on l'exprime en pourcentage ; par "n'importe quel nombre" il faut entendre un nombre entier ou décimal, positif ou négatif. On distingue trois cas : q est inférieur à la première modalité : comme aucun individu n'a de mesure inférieure à q, F retourne 0 ; q est supérieur à la dernière modalité : comme tous les individus ont une mesure inférieure à q, F retourne 1 pour les variables intermédiaires : le mode d'évaluation de F (q) dière selon qu'il s'agit d'une variable discrète ou continue. 6 Variable discrète. Pour une valeur entière égale à une modalité m l, F retourne la proportion des individus ayant au plus cette modalité comme mesure, qui est la somme des fréquences des l premières modalités (la lème fréquence cumulée) : F (m l ) = l j=1 f j ; pour une valeur q située entre deux modalités m l et m l+1, F retourne ce qu'elle retourne pour la modalité de gauche, F (m l ), puisque qu'aucun individu ne peut prendre comme mesure une valeur comprise entre les modalités m l et m l+1. Ainsi, F est une fonction en escalier dont les contremarches sont à l'aplomb des modalités. Exemple 1 portant sur le nombre d'enfants (on identie "plus de " et "") : Nbre enfants [0-6] 1 2 3 4 Total Fréq. f fm 0 39,9 8,9 1,1 0,1 100 F fm 0 90 98,8 99,9 100 Fréq. f c 0 33,3 14,7 1,8 0,2 100 F c 0 83,3 98 99,8 100 Fréq. f Y 0 34,2 13,9 1,7 0,2 100 F Y 0 84,2 98,2 99,9 100 La fonction de répartition globale F Y en pourcentage retourne 0 pour toutes les valeurs inférieures à 1, et 100 pour toutes les valeurs supérieures ou égales à ; F change sur les entiers 1 à, et reste constante entre ces entiers (F (2,) = 84,2 par exemple) : 7 Variable continue. La surface de l'histogramme située à gauche de la verticale passant par q est égal à F (q) ou à une approximation de F (q), puisque cette surface représente la proportion de l'échantillon dont la valeur est inférieure ou égale à q, ou une approximation de cette proportion. Si q est la borne gauche b l d'une modalité-intervalle m l, F (b l) est exactement la somme des fréquences des l-1 premières modalités : F (b l ) = l 1 j=1 f j, la valeur retournée pour la dernière borne droite étant 1 (ou 100 en pourcentage). Dans le cas du revenu des familles américaines, on peut évaluer exactement les fonctions de répartition sur les bornes 0 10 1 et 30 :

4 Statistique pour la psychologie II : E44XP1 Modalités 0-4 -9 10-14 1- Total Bornes 0 10 1 30 Fréq. f Sud (%) 22, 33,9 24,2 19,4 100 F Sud (%) 0 22, 6,4 80,6 100 Fréq. f Nord (%) 1,9 28,3 28,3 27, 100 F Nord (%) 0 1,9 44,2 72, 100 Fréq. f Y (%) 18 30 27 2 100 F Y (%) 0 18 48 7 100 Si q n'est pas une borne, la surface à gauche de la verticale passant par q est seulement une approximation de F (q). On la calcule par la méthode décrite dans le paragraphe 3 ; évaluons par exemple F Sud (12), la proportion des individus du sud dont la mesure (donc ici le revenu) est inférieure ou égale à 12, approximée par la surface à gauche de la verticale passant par 12. F Sud (12) = P rop(0 Y sud 12) = 22,+33,9+A ; comme la largeur x de A vaut 12 10 = 2 et comme sa hauteur est la densité 24,2, A = 2 24,2 9,7 si bien que F Sud (12) 66,1%. 8 Calcul inverse. Il consiste à déterminer la valeur q sachant que F (q) est une proportion donnée p ; c'est un calcul utilisé dans les cours suivants, notamment à propos des quantiles. Si p est la valeur de F sur une borne (c'est-à-dire p est une fréquence cumulée), la valeur recherchée est évidemment cette borne ; par exemple, si on doit déterminer la valeur q pour laquelle F Sud = 6,4%, on prendra q = 10. Si ce n'est pas le cas, on obtient une approximation de q de la manière suivante qui s'apparente à la méthode décrite dans le paragraphe 3 : 1. on détermine d'abord l'intervalle [b l ; b l+1 [ dans lequel se trouve q : on parcourt les intervalles de gauche à droite en cumulant leur fréquence, et on s'arrête dès qu'on dépasse p ; on a alors F (b l ) < p et F (b l+1 ) > p (la surface à gauche de b l est inférieure à p, et la surface à gauche de b l+1 est supérieure à p) ; 2. on détermine la distance x qui sépare b l de q : pour que la surface à gauche de q soit égale à p il faut que la surface A dont x est la largeur soit égale à p F (b l ) ; comme la hauteur de A est la densité de la modalité d l = f l a l, on a x d l = p F (b l ), ou encore x = p F (b l) d l = a l p F (b l) f l et q = b l + a l p F (b l) f l Déterminons par exemple la valeur q pour laquelle F Sud vaut 7% : 1. q se trouve dans l'intervalle [10 ; 1[ puisque F Sud (10) = 6,4 < 7% et que F Sud (1) = 80,6 > 7% ; 2. x doit être la largeur d'une surface de 7 6,4 = 18,6% ; comme la densité de la modalité est 24,2 = 4,84, on a x 4,84 = 18,6, ou encore x = 18,6 4,84 = 3,8, et donc q = 10 + 3,8 = 13,8. Classement par fonction de répartition 9 Comme dans le cas des variables ordonnées, un ordre partiel ou total des fonctions de répartition conditionnelles induit un classement des distributions conditionnelles associées et par conséquent des sous-populations.

Statistique pour la psychologie II : E44XP1 Appliquons cette procédure à l'exemple 1 ; la représentation graphique simultanée des fonctions de répartition conditionnelles, F Sud en vert et F Nord en rouge donne : Comme F Nord < F Sud, la distribution conditionnelle Y Nord est globalement supérieure à la distribution conditionnelle Y Sud (attention à l'inversion de l'ordre), ce qui peut s'interpréter comme le fait que le revenu des familles est globalement supérieur dans la sous-population du nord des États-Unis que dans celle du sud, ou encore que la sous-population du nord est globalement plus riche que la sous-population du sud. Programme de travail Savoir dénir : une fonction de répartition ; la notation F (q). Savoir expliquer : la diérence entre variable discrète et variable continue ; la construction d'un diagramme en bâtons ; la construction d'un histogramme. Savoir faire : construire un diagramme en bâtons ; construire un histogramme ; calculer la surface d'une portion d'histogramme ; déterminer la valeur q connaissant F (q) ; dessiner une fonction de répartition dans le cas discret et continu ; classer les sous-populations par comparaison des fonctions de répartition conditionnelles.