C- Liaison entre deux variables statistiques

Documents pareils
Théorie des sondages : cours 5

Relation entre deux variables : estimation de la corrélation linéaire

Chapitre 3. Les distributions à deux variables

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

FORMULAIRE DE STATISTIQUES

Résumé du Cours de Statistique Descriptive. Yves Tillé

Analyse de la variance Comparaison de plusieurs moyennes

Biostatistiques : Petits effectifs

VI. Tests non paramétriques sur un échantillon

Introduction à l approche bootstrap

Couples de variables aléatoires discrètes

Programmation linéaire

Statistique Descriptive Élémentaire

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Leçon N 4 : Statistiques à deux variables

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Analyse en Composantes Principales

TABLE DES MATIERES. C Exercices complémentaires 42

Logiciel XLSTAT version rue Damrémont PARIS

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

L Econométrie des Données de Panel

Aide-mémoire de statistique appliquée à la biologie

Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistiques descriptives

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Probabilités sur un univers fini

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Cours d Analyse. Fonctions de plusieurs variables

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

M2 IAD UE MODE Notes de cours (3)

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Lire ; Compter ; Tester... avec R

Exposing a test of homogeneity of chronological series of annual rainfall in a climatic area. with using, if possible, the regional vector Hiez.

Exercice 6 Associer chaque expression de gauche à sa forme réduite (à droite) :

Structures algébriques

3. Caractéristiques et fonctions d une v.a.

Plus courts chemins, programmation dynamique

Cours 9 : Plans à plusieurs facteurs

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Estimation et tests statistiques, TD 5. Solutions

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Simulation de variables aléatoires

Cours 02 : Problème général de la programmation linéaire

Statistiques Descriptives à une dimension

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

La classification automatique de données quantitatives

1 Complément sur la projection du nuage des individus

Chapitre 2/ La fonction de consommation et la fonction d épargne

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

PROBABILITES ET STATISTIQUE I&II

Exercice 1 Trouver l équation du plan tangent pour chaque surface ci-dessous, au point (x 0,y 0,z 0 ) donné :

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Statistique : Résumé de cours et méthodes

Projet de Traitement du Signal Segmentation d images SAR

Probabilités III Introduction à l évaluation d options

BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année

données en connaissance et en actions?

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Séquence 2. Repérage dans le plan Équations de droites. Sommaire

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Chapitre 5 : Flot maximal dans un graphe

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Chapitre 3 : Repères et positionnement 3D

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

INTRODUCTION. A- Modélisation et paramétrage : CHAPITRE I : MODÉLISATION. I. Paramétrage de la position d un solide : (S1) O O1 X

Serrure Motorisée Asservie - Mise en Applique

Modèles et Méthodes de Réservation


FONCTION DE DEMANDE : REVENU ET PRIX

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Cours de méthodes de scoring

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Théorie et codage de l information

Enjeux mathématiques et Statistiques du Big Data

LES AMORTISSEMENTS : CALCULS ENREGISTREMENTS

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Calculs de probabilités conditionelles

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Cours d analyse numérique SMI-S4

Louis Laurencelle, a vol. 11 no. 1. Introduction

FIMA, 7 juillet 2005

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Les devoirs en Première STMG

Exemples d application

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Évaluation de la régression bornée

T de Student Khi-deux Corrélation

Transcription:

C- Liaison entre deux variables statistiques 1- liaison entre 2 variables quantitatives 2- liaison entre 1 variable quantitative et 1 variables qualitative 3- liaison entre 2 variables qualitatives 4- liaison causale entre deux variables quantitatives

C- Statistique descriptive bidimensionnelle On dispose de deux séries x et y représentant l observation des variables X et Y sur les mêmes n individus : on a une série bidimensionnelle (x,y) de taille n :

C- Statistique descriptive bidimensionnelle Objectif : mettre en évidence une éventuelle variation simultanée des deux variables statistiques X et Y, appelée liaison. La liaison peut être causale : une variable X expliquant l autre Y symétrique : les deux variables jouent des rôles symétriques Sauf mention particulière, on s interesse ici à une liaison symétrique.

C-1 Analyse de la liaison entre deux variables quantitatives Visualisation Le graphique le plus adapté pour observer les variations simultanées de deux variables quantitatives est le nuage de points (ou scatter-plot), représentant les n points de coordonnées ( x, ) dans un repère du i yi plan. NB : Choix des échelles: Dans le cas de deux variables homogènes (exprimées dans la même unité), on prend la même échelle sur les deux axes ; dans le cas de deux variables hétérogènes, il est préférable de représenter les points de la série centrée et réduite ou de choisir des échelles appropriées (automatique avec la plupart des logiciels).

C-1 Analyse de la liaison entre deux variables quantitatives Ex: observation de la vitesse et de la distance de freinage de 50 voitures. speed dist 1 4 2 2 4 10 3 7 4 4 7 22 5 8 16 6 9 10 7 10 18 8 10 26 9 10 34 10 11 17 11 11 28 vitesse 5 10 15 20 25 nuage de points des variables dist et speed 0 20 40 60 80 100 120 distance de freinage Coefficient de corrélation : r( speed, dist ) = 0.81

C-1 Analyse de la liaison entre deux variables quantitatives

C-1 Analyse de la liaison entre deux variables quantitatives Indicateurs de liaison linéaire La covariance Définition: 1 n ou sxy (, ) = ( x x)( y y) n i = 1 i i n 1 s*( x, y) = ( xi x)( yi y) n 1 i= 1 Propriétés : - c est une forme bilinéaire symétrique qui peut prendre toute valeur réelle et dont la variance est la forme quadratique associée. On a ( idem pour s*): s( ax + by, z) = as( x, z) + bs( y, z); s( x, ay + bz) = as( x, y) + bs( y, z) sxy (, ) = syx (, ) sxx (, ) = s²( x) - formule de Koenig generalisée : n 1 sxy (, ) = s*( xy, ) = xy xy n

C-1 Analyse de la liaison entre deux variables quantitatives Le coefficient de corrélation linéaire de Pearson Définitions :1) Le coefficient de corrélation est égal à la covariance des séries centrées et réduites x* et y* respectivement associées à x et y : rxy (, ) = sx ( *, y*) xi x yi y xi* = ; yi* = s s x y 2) Le coefficient de corrélation est égal à rxy (, ) = sxy (, ) ss Propriétés : - Symétrie : rxy (, ) = ryx (, ) - Le coefficient de corrélation linéaire est compris entre -1 et 1 x y

C-1 Analyse de la liaison entre deux variables quantitatives Evaluation du lien linéaire: Il y a corrélation positive lorsque les variations de x et y se produisent dans le même sens, corrélation négative sinon. Plus les points sont étroitement alignés, plus la corrélation est proche de 1. r =1 si l on a une relation de type linéaire entre les variables. r = 0 si il n existe aucun lien linéaire entre X et Y. On dit que les variables sont non corrélées. NB : La covariance dépend des unités de mesure dans lesquelles sont exprimées x et y. Le coefficient de corrélation est un indice de liaison «intrinsèque».

C-1 Analyse de la liaison entre deux variables quantitatives Important : La covariance et le coefficient de corrélation ne permettent de mettre en évidence qu une relation linéaire entre x et y. Si deux variables sont statistiquement indépendantes (aucun lien), la corrélation est nulle, mais l inverse est faux : il peut exister un lien autre que linéaire entre elles.

C-1 Analyse de la liaison entre deux variables quantitatives

C-1 Analyse de la liaison entre deux variables quantitatives Le Coefficient de corrélation des rang de Spearman Utilisé lorsqu on ne dispose que d un ordre sur un ensemble d individus et non de valeurs numériques pour les variables X et Y. On note rx = ( rx1,... rx n ) et ry = ( ry1,... ry n ) les séries des rangs des individus associées à x et y. Définitions 1) rs = r( rx, ry) 2) r s = 1 n 6 d ² i= 1 nn ( ² 1) i di = rxi ryi Cas des ex-aequo :si il existe, dans l une ou l autre des séries, des observations ayant le même rang, on leur attribue la moyenne des rangs qu ils auraient dû avoir s il n y avait pas eu d ex-aequo. Par exemple, si deux observations de X sont classées au rang 2, on leur attribue à chacune le rang 2,5.

C-1 Analyse de la liaison entre deux variables quantitatives Propriétés : évaluation du lien

C-2 Analyse de la liaison entre une variable quantitative et une variable qualitative X est une variable qualitative à p modalités variable quantitative. m,..., 1 mp et Y est une On dispose alors de p sous-populations déterminées par les p modalités de X. L étude de la liaison entre X et Y consiste en l étude des différences entre ces sous-populations : il y aura absence de lien si on ne distingue pas de différence notoire dans les caractéristiques de ces différentes souspopulations.

C-2 Analyse de la liaison entre une variable quantitative et une variable qualitative Notations et définitions 2 s y On note y et la moyenne et la variance p de la série y, n k l effectif de la sous-série des individus pour lesquels X vaut ( n = n ) G ( X = m ) 1 1 m k y11,..., yi 1,... y y,..., 1 y,... y n1 1 k n y 1 k 1 yk = yik 2 s 1 k = 1 G ( X = m ) G ( X = m ) k k ik n k n k i = 1 2 1 k = ik k nk i G s ( y y )² k k k. p y,...,,... 1 p yip ynp p y p 2 s p p 1 p k k n k = 1 p Avec ces notations, on a y= n y et 2 1 s = ( y y)² y n k = 1 i G k ik

C-2 Analyse de la liaison entre une variable quantitative et une variable qualitative On appelle variance résiduelle, la moyenne pondérée des variances des sous-populations : 2 1 p 2 sr = nksk n k = 1 On appelle variance expliquée par X, la moyenne pondérée des carrés des variations des sous-populations : p 2 1 s = n ( y y)² E k k n k = 1 On montre que l on a : s = s + s 2 2 2 y R E

C-2 Analyse de la liaison entre une variable quantitative et une variable qualitative Visualisation On utilise en général un graphique en boîtes parallèles (box-plots). Sur un même graphique doté d une échelle unique on représente pour Y une boîte à moustaches pour chacune des sous-populations définies par X. La comparaison de ces boîtes donne une idée assez claire de la liaison entre les deux variables.

C-2 Analyse de la liaison entre une variable quantitative et une variable qualitative Un indicateur de liaison : le rapport de corrélation Définition : le rapport de corrélation est la part de variations de Y expliquée par X dans la variation totale de Y. s² E e² = s² Evaluation du lien : e² est compris entre 0 et 1 e² est d autant plus grand que le lien est fort. y

C-2 Analyse de la liaison entre une variable quantitative et une variable qualitative Ex : 6 insecticides sont testés sur (spray) ont été testés chacun sur 12 cultures. La réponse observée (count) est le nombre d'insectes (n=72) count spray y = 9.5 s= 7.2 1 10 A 2 7 A ya = 14.5 yd = 4.9 3 20 A 4 14 A yb = 15.3 ye = 3.5 5 14 A yc = 2.08 yf = 16.7 6 12 A 7 10 A sa = 4.7 sd = 2.5 8 23 A sb = 4.3 se = 1.7 9 17 A 10 20 A sc = 2 sf = 6.2.. Variance résiduelle : s = 15.4 2 R Variance expliquée : s = 37.07 2 E Rapport de corrélation : 2 e = 0.7 na = nb = nc = nd = ne = nf = 12

C-3 Analyse de la liaison entre deux variables qualitatives X et Y sont qualitatives, telle que X a k modalités, Y a l modalités. On cherche à savoir si il existe un lien entre X et Y.

C-3 Analyse de la liaison entre deux variables qualitatives Notations et définitions Table de contingence : tableau à double entrée de dimension k*l représentant les modalités de la série bidimensionnelle (x,y). n n ij n i.. j = Nombre d observations ayant la modalité xi de x et yj de y. = effectif marginal : Nombre d observations ayant la modalité xi de x = effectif marginal :Nombre d observations ayant la modalité yj de y

Profils C-3 Analyse de la liaison entre deux variables qualitatives On appelle i profil ligne, le vecteur de dimension l des fréquences de la variable Y conditionnellement à la valeur xi de X : n n i1 ij n,...,,..., n n n i. i. i. il On appelle j profil colonne, le vecteur de dimension k des fréquences de la variable X conditionnellement à la valeur yj de Y : n n n,...,,..., n n n 1 j ij kj. j. j. j

C-3 Analyse de la liaison entre deux variables qualitatives En probabilité, si il y a indépendance entre X et Y, on a: (, i j) P( X = x et Y=y) = P( X = x ) P(Y=y) En statistiques, si il n y a pas de liaison entre x et y, on a: i n n n n n n ij i. (, i j) = Lorsque tous les profils lignes (ou colonne) sont égaux, il y a indépendance entre X et Y : la connaissance de X ne change pas les distributions de Y conditionnellement à X. j. j i j

C-3 Analyse de la liaison entre deux variables qualitatives Visualisation Représentation des profils-lignes ou des profils colonnes par des diagrammes en barres parallèles, ce qui donne une idée assez précise de la variation conjointe de X et Y. Si il n y a pas de relation, les diagrammes des différents profils devraient identiques.

C-3 Analyse de la liaison entre deux variables qualitatives Exemple : on observe le sexe et la qualité de vue sur 1000 individus. Diagramme en barres des profils lignes : homme femme voyant 442 514 Diagramme des profils lignes aveugle 38 6 Tableau des profils ligne : homme femme voyant 0.4623431 0.5376569 aveugle 0.8636364 0.1363636 1,2 1 0,8 0,6 0,4 0,2 0 voyant aveugle F H

C-3 Analyse de la liaison entre deux variables qualitatives Un indicateur de liaison : la distance du chi2 La mesure de la liaison entre X et Y va se faire en évaluant l écart entre la situation observée et la situation qu on observerait si il y avait indépendance statistique. Dans ce cas, on aurait : Définition : La distance du chi2 vaut : d ² = i, j n n n n n n ij i. (, i j) = ( nn n ) ij n Si d²=0 il y a indépendance Au plus d2 est grand, au plus les variables sont liées. Sa valeur maximale est le minimum de n (k - 1) et n (l - 1). nn n i.. j i.. j 2. j

C-3 Analyse de la liaison entre deux variables qualitatives Retour à l exemple : Tableau des effectifs observés H F total Voyant 442 514 956 Aveugne 38 6 44 total 480 520 1000 Tableau des effectifs théoriques H F Voyant 458,88 497,12 Aveugle 21,12 22,88 Chi2 et contribution des cases Chi2=27,1387434 H F Voyant 0,62093445 0,57317026 Aveugle 13,4912121 12,4534266

C-3 Analyse de la liaison entre deux variables qualitatives Le coefficient des rangs de Spearman S applique dans le cas de deux variables qualitatives ordinales voir C-1

C-4 Relation causale entre 2 variables quantitatives Problème : On s intéresse ici à une liaison causale éventuelle entre deux variables statistiques quantitatives X et Y. Plus exactement, on cherche à expliquer les variations d une variable Y (variable dépendante) par celles d une fonction linéaire de X (variable explicative), i.e., à valider le modèle de RLS Y = ax + b + ε où - a et b sont des paramètres inconnus - ε est une variable aléatoire de moyenne nulle et de variance inconnue σ ² Intérêt : expliquer ou/et prévoir Y à partir de X.

C-4 Relation causale entre 2 variables quantitatives Méthode Sur une série bidimensionnelle de n réalisations de X et de Y, on cherche à valider un modèle de type : y = ax + b + ε, i = 1,..., n. i i i avec ε i i.i.d. de moyennes nulles et de variance

C-4 Relation causale entre 2 variables quantitatives Estimation de a et b : On commence par chercher le «meilleur» ajustement linéaire sur nos données, au sens des moindres carrés : â n n 2 e ˆ ˆ i = ( yi axi b)² et ˆb sont tels que est minimal. Ce sont les i= 1 i= 1 coefficients de la régression ou estimations des moindres carrés de a et b.

Résolution : C-4 Relation causale entre 2 variables quantitatives n ( x x)( y y) cxy (, ) ˆ i i i= 1 aˆ = =, b= y ax ˆ n 2 sx ( xi x)² i= 1 La droite d ajustement s appelle droite de régression ou des moindres carrés. yˆ ax ˆ bˆ i = + i y = ax ˆ + bˆ La valeur s appelle la i valeur estimée. C est la valeur moyenne de Y lorsque X=xi. C est aussi la prévision de Y pour une observation telle que X=xi. ei = y ˆ i yi La valeur s appelle le i résidu. On peut montrer que : n e n = xe = 0. i i i i= 1 i= 1

C-4 Relation causale entre 2 variables quantitatives Un modèle de bonne qualité doit avoir un bon pouvoir explicatif et un bon pouvoir prédictif. Analyse du pouvoir explicatif du modèle : Décomposition de la variabilité SST = ( y y)² = ns i 2 Y =somme des carrés des variations de y (n-1 ddl) SSM = ( yˆ y)² = s SSR = e = ( n 2) s i 2 2 i 2 Yˆ =somme des carrés des variations expliquées par le modèle (1 ddl) =somme des carrés des variations résiduelles (n- 2 ddl) SST = SSR + SSM Au plus SSM est grand (ou SSR faible), au meilleur est l ajustement.

C-4 Relation causale entre 2 variables quantitatives Principal indicateur: le coefficient de détermination (% de variation expliqué par le modèle): SSM SSR R² = = 1 = r²( x, y) SST SST F CMM doit être proche de 1. Autre indicateur : Le F de Fisher doit être le plus grand possible CMR = Analyse du pouvoir prédictif du modèle : - Le s² doit être le plus faible possible pour garantir de bonnes prévisions. - Les coefficients doivent être stables pour garantir de bonnes prévisions, i.e. leurs écarts type sa ( ˆ) et sb ( ˆ) doivent être faibles.