Chapitre 5 Statistiques descriptives bivariées

Documents pareils
Relation entre deux variables : estimation de la corrélation linéaire

Chapitre 3. Les distributions à deux variables

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Annexe commune aux séries ES, L et S : boîtes et quantiles

Analyse des correspondances avec colonne de référence

VI. Tests non paramétriques sur un échantillon

INDICE DE FRÉQUENCE DES ACCIDENTS DE SERVICE

Analyse en Composantes Principales

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Programmation linéaire

Exercice : la frontière des portefeuilles optimaux sans actif certain

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Plus courts chemins, programmation dynamique

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

23. Interprétation clinique des mesures de l effet traitement

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Séries Statistiques Simples

Leçon N 4 : Statistiques à deux variables

Logiciel XLSTAT version rue Damrémont PARIS

Observatoire Economique et Statistique d Afrique Subsaharienne

Statistiques Descriptives à une dimension

Probabilités III Introduction à l évaluation d options

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Exemples de Projets SAFI

Oscillations libres des systèmes à deux degrés de liberté

Problème 1 : applications du plan affine

Programmation linéaire

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

1. Vocabulaire : Introduction au tableau élémentaire


Résumé du Cours de Statistique Descriptive. Yves Tillé

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

La classification automatique de données quantitatives

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

1 Complément sur la projection du nuage des individus

Couples de variables aléatoires discrètes

Statistiques à deux variables

Statistique Descriptive Élémentaire

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

De la mesure à l analyse des risques

FORMULAIRE DE STATISTIQUES

: seul le dossier dossier sera cherché, tous les sousdomaines

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Quantification Scalaire et Prédictive

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines


Statistiques à une variable

Espérance conditionnelle

Optimisation Discrète

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Traitement des données avec Microsoft EXCEL 2010

Cours 02 : Problème général de la programmation linéaire

Le théorème des deux fonds et la gestion indicielle

Incertitudes expérimentales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

INF6304 Interfaces Intelligentes

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Optimiser les performances du mouvement de monte de l Axe Z.

Loi d une variable discrète

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Cours de méthodes de scoring

La place de SAS dans l'informatique décisionnelle

Théorèmes de Point Fixe et Applications 1

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Analyse de la variance Comparaison de plusieurs moyennes

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Réf. : Loi n du 13 juin 2006 relative à la transparence et à la sécurité en matière nucléaire, notamment son article 40

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

LE MARKETING : INTRODUCTION. Dominique Roux, IUT de Sceaux Membre du PESOR

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Arbres binaires de décision

3. Caractéristiques et fonctions d une v.a.

Désignation/mise en place des points focaux nationaux RSI

Jean-Philippe Préaux

Feuille d exercices 2 : Espaces probabilisés

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Les outils de la gestion patrimoniale Le logiciel «Casses»

CH.6 Propriétés des langages non contextuels

Enjeux mathématiques et Statistiques du Big Data

MATLAB : COMMANDES DE BASE. Note : lorsqu applicable, l équivalent en langage C est indiqué entre les délimiteurs /* */.

Programmes des classes préparatoires aux Grandes Ecoles

Equipement d un forage d eau potable

Examen de Logiciels Statistiques

Avant-après, amont-aval : les couples de tableaux totalement appariés

données en connaissance et en actions?

MA6.06 : Mesure et Probabilités

Plan du cours : Zippers. Des fonctions sur les listes avec position. Des fonctions sur les listes avec position

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

PROBABILITES ET STATISTIQUE I&II

TP 7 : oscillateur de torsion

Introduction à l approche bootstrap

Exercices & cours de Gestion en vidéo - BTS MUC. Liste des formules. (Consultez également «Liste des tableaux»)

Transcription:

Chapitre 5 Statistiques descriptives bivariées 1. Organisation des données 2. Distributions marginales 3. Distributions conditionnelles 4. Proportions associées à un couple de variables 5. Étude de deux variables quantitatives 1

Exemple Étude sur 5761 femmes de la survenue d accouchement prématuré et de l exposition à des événements stressants. X : type d accouchement variable qualitative à 2 modalités Y : score sur une échelle allant de 0 à 3. variable quantitative discrète à 4 valeurs Y 0 1 2 3 totaux X à terme 4698 413 250 197 5558 prématuré 165 16 12 10 203 totaux 4863 429 262 207 5761 2

1 Organisation des données 1.1 Notations On notera x i, i = 1,...,k les k modalités ou valeurs de la variable X On notera y i, i = 1,...,l les l modalités ou valeurs de la variable Y Les deux variables X et Y sont mesurées simultanément sur chacun des N individus de la population. On notera n ij l effectif correspondant au couple (x i, y j ). Définition On appellera distribution jointe des effectifs de X et Y l ensemble des informations (x i, y j, n ij ) pour i = 1,...,k et j = 1,...,l. 3

1.2 Tableau de contingence Représentation de la distribution jointe du couple (X, Y ) : on utilise un tableau à double entrée appelé tableau de contingence X Y y1 y j y l x 1 n 11 n 1j n 1l x i n i1 n ij n il x k n k1 n kj n kl Exemple : 12 : le nombre de femmes ayant accouché prématurément et ayant un score égal à 2. Remarque : k i=1 l n ij = N j=1 4

2 Distributions Marginales On ajoute au tableau de contingence les totaux en ligne et en colonne. Y X y1 y j y l totaux x 1 n 11 n 1j n 1l n 1 x i n i1 n ij n il n i x k n k1 n kj n kl n k totaux n 1 n j n l N = n 5

En marge à droite (totaux en ligne) : la distribution de X : pour chaque indice i, l effectif n i est le nombre total d observations de la modalité x i de X quelle que soit la modalité de Y. C est-à-dire n i = l n ij = total de la ligne i j=1 Définition Les k couples (x i, n i ) définissent la distribution marginale de la variable X. Remarque : k n i = N i=1 6

Exemple Y X 0 1 2 3 totaux en ligne à terme 4698 413 250 197 5558 prématuré 165 16 12 10 203 Distribution marginale de X X à terme prématuré effectif total effectifs 5558 203 5761 7

En marge en bas (totaux en colonne) : la distribution de Y : pour chaque indice j, l effectif n j est le nombre total d observations de la modalité y j de Y quelle que soit la modalité de X. C est-à-dire n j = k n ij = total de la colonne j i=1 Définition Les l couples (y j, n j ) définissent la distribution marginale de la variable Y. Remarque : l n j = N j=1 8

Exemple Y X 0 1 2 3 à terme 4698 413 250 197 prématuré 165 16 12 10 totaux 4863 429 262 207 en colonne Distribution marginale de Y Y 0 1 2 3 effectif total effectifs 4863 429 262 207 5761 9

3 Distributions conditionnelles Exemple Ligne 2 du tableau de contingence : distribution de la variable Y chez les femmes ayant eu un accouchement prématuré. Y X=prématuré 0 1 2 3 total effectifs 165 16 12 10 203 10

Principe : Comportement de l une des deux variables quand l autre a une valeur donnée. Réponse : À la ligne i du tableau de contingence, on lit la distribution de la variable Y sachant que X = x i, notée Y X=xi. Définition : La distribution des observations suivant les modalités de la variable Y sachant que la variable X prend la modalité x i, est appelée distribution conditionnelle de Y pour X = x i. 11

À la colonne j du tableau de contingence, on lit la distribution de la variable X sachant que Y = y j, notée X Y =yj. Définition : La distribution des observations suivant les modalités de la variable X sachant que la variable Y prend la modalité y j, est appelée distribution conditionnelle de X pour Y = y j. 12

Exemple Distribution conditionnelle de X sachant que la femme enceinte a subi un stress de niveau 2 X Y =2 à terme prématuré total effectifs 250 12 262 Obtention par la Colonne 3 du tableau de contingence. 13

4 Proportions associées à un couple de variables trois notions de proportion (ou fréquence) 1. proportions du couple (x i, y j ); 2. proportions marginales de X ou Y ; 3. proportions conditionnelles. 14

Exemple : N=5761. pour (X, Y ) = ( à terme, 0) la proportion est : 4698 5761 = 0.815. Y X 0 1 2 3 à terme 0.815 0.072 0.043 0.034 prématuré 0.029 0.003 0.002 0.002 La somme de toutes les proportions = 1 Définition 1. La proportion du couple (x i, y j ) est p ij = n ij N. 15

Exemple : N=5761 ; Proportions marginales pour X : X à terme prématuré total effectifs 5558 203 5761 proportions 0.964 0.036 1 5558 5761 = 0.964 203 5761 = 0.036 Définition 2. La proportion marginale de x i est p i = n i N. La proportion marginale de y j est p j = n j N. 16

Exemple : X Y =2 à terme prématuré total effectifs 250 12 262 proportions 0.954 0.046 1 Y X=prema. 0 1 2 3 tot. effectifs 165 16 12 10 203 proportions 0.813 0.079 0.059 0.049 1 Définition 3. : La proportion conditionnelle de x i sachant que Y = y j est p i Y =yj = n ij n j La proportion conditionnelle de y j sachant que X = x i est p j X=xi = n ij n i. 17

Remarque : lien entre les différentes proportions p ij = p i Y =yj p j = p j X=xi p i ou encore p i Y =yj = p ij p j et p j X=xi = p ij p i 18

Remarque : lien entre les variables On peut comparer les distributions conditionnelles de X sachant Y à la distribution marginale de X. Si ces distributions sont très proches, on peut conclure une certaine indépendance entre les deux variables. Si ces distributions sont très distinctes, cela signifie que les modalités de Y ont une influence sur la variable X et donc que les deux variables sont liées. (cf. exemple) De façon rigoureuse : Les deux variables sont indépendantes si et seulement si p ij = p i p j, ou p i Y =yj = p i. 19

Exemple : Y X 0 1 2 3 à terme 0.966 0.963 0.954 0.952 préma. 0.034 0.037 0.046 0.048 X dist marg. (prop.) à terme 0.964 préma. 0.036 20

5 Étude de deux variables quantitatives Notations si X et Y sont des variables quantitatives discrètes : x i et y j sont les valeurs prises. si X et Y sont des variables quantitatives continues : x i et y j désignent les centres des classes. 21

Exemple Une entreprise employant 100 femmes relève pour chaque femme son âge, noté X, et le nombre de journées d absence durant le mois de janvier, noté Y. X Y 0 1 2 3 [20, 30[ 0 0 5 15 [30, 40[ 0 15 20 0 [40, 50[ 15 10 5 0 [50, 60[ 0 5 5 5 X Y 0 1 2 3 totaux [20, 30[ 0 0 5 15 20 [30, 40[ 0 15 20 0 35 [40, 50[ 15 10 5 0 30 [50, 60[ 0 5 5 5 15 totaux 15 30 35 20 100 22

5.1 Principales caractéristiques Moyennes des distributions marginales : Moyenne de X : µ(x) = 1 N Moyenne de Y : µ(y ) = 1 N k n i x i = i=1 l n j y j = j=1 k p i x i i=1 l p j y j j=1 Exemple µ(y ) = 1 (15 0 + 30 1 + 35 2 + 20 3) = 1.6 100 µ(x) = 1 (20 25+35 35+30 45+15 55) = 39 100 23

Variances des distributions marginales : Variance et écart-type de X : ( ) 1 k V (X) = n i x 2 i µ(x) 2 N i=1 σ(x) = V (X) Variance et écart-type de Y : V (Y ) = 1 N l n j yj 2 µ(y ) 2 j=1 σ(y ) = V (Y ) Exemple V (X) = 1615 39 2 = 94 donc σ(x) = 9.67 V (Y ) = 3.5 1.6 2 = 0.94 donc σ(y ) = 0.97 24

Moyennes et variances des distributions conditionnelles : Moyenne de X sachant Y = y j µ(x Y =yj ) = 1 n j k n ij x i = i=1 k p i Y =yj x i i=1 Variance de X sachant Y = y j V (X Y =yj ) = 1 n j k n ij x 2 i (µ(x Y =yj )) 2 i=1 Celles de Y sachant X se déduisent de même. Exemple µ(x Y =1 ) = 25 0+35 15+45 10+55 5 30 = 41.67 V (X Y =1 ) = 352 15+45 2 10+55 2 5 30 41.67 2 V (X Y =1 ) = 1791.67 41.67 2 = 55.28 σ(x Y =1 ) = 7.44 25

5.2 Représentation graphique On peut représenterer la distribution du couple (X, Y ) par un nuage de points de coordonnées (x i, y j ), chaque point étant affecté du poids n ij. Le centre de gravité du nuage est alors le point (non observé) de coordonnées (µ(x); µ(y )). 26

Exemple 27

5.3 Covariance, Correlation Outils pour mesurer la dépendance linéaire entre deux caractères quantitatifs X et Y. Définition La covariance de X et Y est le nombre réel défini par cov(x, Y ) = 1 N k i=1 l n ij (x i µ(x))(y j µ(y )) j=1 Formule pratique de calcul cov(x, Y ) = 1 k l n ij x i y j µ(x)µ(y ) N i=1 j=1 Exemple cov(x, Y ) = 58.5 39 1.6 = 3.9 28

Propriétés cov(x, Y ) = cov(y, X) et cov(x, X) = V (X). Remarques : dépendance aux unités utilisées prend n importe quelle valeur réelle. D où définition du coefficient de corrélation linéaire : 29

Définition Le coefficient de corrélation linéaire de X et Y est défini par corr(x, Y ) = cov(x, Y ) σ(x)σ(y ) Propriétés corr(x, Y ) [ 1, 1] corr(x, Y ) = corr(y, X) et corr(x, X) = 1. Exemple corr(x, Y ) = 3.9 9.7 0.97 = 0.414 30

Le coefficient de corrélation est un coefficient sans dimension. Il mesure la présence et l intensité de la liaison linéaire entre X et Y. 1. corr(x, Y ) = 1 : liaison linéaire exacte Y = ax + b avec a > 0 ; 2. corr(x, Y ) = 1 : liaison linéaire exacte Y = ax + b avec a < 0 ; 3. corr(x, Y ) = 0 : non corrélation : on a indépendance possible, mais non certaine; 4. corr(x, Y ) > 0 : liaison relative, X et Y ont tendance à varier dans le même sens ; 5. corr(x, Y ) > 0 : liaison relative, X et Y ont tendance à varier dans le sens contraire; 6. corr(x, Y ) > 0.9 la liaison linéaire est considérée comme forte. 31

Remarque : il faut bien se garder au vu de la seule valeur du coefficient de corrélation, d émettre des interprétations abusives. Ex des chaussures et de la culture générale tous deux liés à l âge!! Par contre il existe des outils permettant d étudier plus en détail les relations linéaires entre deux caractères et permettant (dans une certaine mesure) d extrapoler à partir de données existantes et de faire de la prévision! 32