Relation entre deux variables : estimation de la corrélation linéaire

Documents pareils
Chapitre 3. Les distributions à deux variables

Statistique Descriptive Élémentaire

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Statistiques Descriptives à une dimension

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

1 Complément sur la projection du nuage des individus

Logiciel XLSTAT version rue Damrémont PARIS

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Aide-mémoire de statistique appliquée à la biologie

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Annexe commune aux séries ES, L et S : boîtes et quantiles

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Traitement des données avec Microsoft EXCEL 2010

Les indices à surplus constant

1 Définition de la non stationnarité

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Notion de fonction. Résolution graphique. Fonction affine.

TABLE DES MATIERES. C Exercices complémentaires 42

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Mesures et incertitudes

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Complément d information concernant la fiche de concordance

L allocataire dans un couple : l homme ou la femme?

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Cours de Tests paramétriques

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Principe d un test statistique

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Le chiffre est le signe, le nombre est la valeur.

Quantification Scalaire et Prédictive

Fonctions de plusieurs variables

Statistique : Résumé de cours et méthodes

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Le calcul du barème d impôt à Genève

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

VI. Tests non paramétriques sur un échantillon

4. Résultats et discussion

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Leçon N 4 : Statistiques à deux variables

1. Vocabulaire : Introduction au tableau élémentaire

Le retard scolaire en fonction du milieu parental : l influence des compétences des parents

TP 7 : oscillateur de torsion

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Lecture graphique. Table des matières

Table des matières. I Mise à niveau 11. Préface

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Cet article s attache tout d abord

données en connaissance et en actions?

Introduction à la statistique non paramétrique

Petit lexique de calcul à l usage des élèves de sixième et de cinquième par M. PARCABE, professeur au collège Alain FOURNIER de BORDEAUX, mars 2007

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Localisation des fonctions

Statistiques à deux variables

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

Extraction d informations stratégiques par Analyse en Composantes Principales

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

La construction du nombre en petite section

FORMULAIRE DE STATISTIQUES

Résumé du Cours de Statistique Descriptive. Yves Tillé

Chapitre 1 : Évolution COURS

Analyse des coûts. 1 ère année DUT GEA, 2005/2006 Analyse des coûts

La classification automatique de données quantitatives

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Chapitre 2. Eléments pour comprendre un énoncé

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

M2 IAD UE MODE Notes de cours (3)

CAPTEURS - CHAINES DE MESURES

Plus petit, plus grand, ranger et comparer

éclairages QUI SONT LES ALLOCATAIRES INDEMNISÉS PAR L ASSURANCE CHÔMAGE? Près de 3 demandeurs d emploi sur 5 sont couverts par l Assurance chômage

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

Évaluation de la régression bornée

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

L analyse boursière avec Scilab

3. Caractéristiques et fonctions d une v.a.

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

T de Student Khi-deux Corrélation

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN

REFORME DU CREDIT A LA CONSOMMATION DECRET SUR LE REMBOURSEMENT MINIMAL DU CAPITAL POUR LES CREDITS RENOUVELABLES

Les nombres entiers. Durée suggérée: 3 semaines

TRAVAUX PRATIQUES SCIENTIFIQUES SUR SYSTÈME

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Loi binomiale Lois normales

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

La notion de besoin peut décrire : La notion de besoin peut décrire :

Lois de probabilité. Anita Burgun

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti

Probabilités sur un univers fini

SUIVI CINETIQUE PAR SPECTROPHOTOMETRIE (CORRECTION)

Transcription:

CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence une éventuelle liaison entre deux variables numériques ; il s agit du coefficient de corrélation qui, grâce à un calcul simple, permet de déterminer s il existe ou non une relation entre deux variables numériques et quelle est l intensité de cette relation. Ainsi, le coefficient de corrélation va révéler (ou non l existence et la force d un lien entre deux séries d observations quantitatives. I. LOGIQUE DE LA CORRÉLATION La corrélation met en évidence un lien entre deux variables. En effet, comme il est précisé dans tous les ouvrages de statistiques, corrélation n est pas causalité. Ceci est très important car cette phrase signifie que l opération statistique effectuée, du fait de son statut descriptif, permet seulement de montrer que les variables entretiennent une relation et pas du tout qu une variable explique ou cause l autre variable. Il est fondamental d insister ici sur l importance à ne pas confondre corrélation et causalité : le fait que deux variables sont corrélées montre simplement qu elles covarient, c est-à-dire que les changements de valeurs de l une sont associés, de manière significative, avec des changements de valeurs de l autre. La corrélation est une statistique descriptive et non inférentielle. Si le but des calculs entrepris est de montrer qu une variable en explique une autre, il faudra alors recourir à des statistiques inférentielles (et notamment aux techniques de régression, pour pouvoir parler de causalité. En outre, la relation mise en évidence par le coefficient de corrélation étudié ciaprès est seulement une relation stochastique linéaire ; ce qui signifie que, si les variables entretiennent un autre type de relation plus complexe, ce lien ne sera pas «détecté» par le coefficient de corrélation. Il faudra alors recourir à d autres types d indices de statistiques. Ainsi, lorsqu un chercheur travaille avec un échantillon représentatif et qu il a calculé un indice de liaison entre deux variables, il est légitime qu il se demande si l indice qu il a obtenu est significatif. Pour cela, il suivra une procédure précise, expliquée dans ce chapitre. 68

Par exemple, il est possible grâce au coefficient de corrélation linéaire, de valider les liens suivants : «plus le taux de gaz carbonique en ville est important, plus les jeunes enfants développent des rhinites» ; ou encore : «moins les lapins absorbent de vitamine C, plus ils dorment longtemps», etc. Ce lien est généralement assorti d un graphique le nuage de points qui permet de déterminer à l avance le sens de la relation entre les variables. II. COMMENT CALCULER LE COEFFICIENT DE CORRÉLATION? Le coefficient de corrélation utilisé avec deux variables métriques (i.e., échelles d intervalles est le coefficient de corrélation r de Bravais-Pearson. Dans le cas de variables ordinales, un autre type de coefficient de corrélation est calculé, il s agit du rhô (symbolisé par la lettre grecque ρ de Spearman qui est un coefficient de corrélation par rangs. Ce coefficient fait partie des statistiques dites non paramétriques et sera donc abordé dans le chapitre 10. La formule dite de compréhension (c est-à-dire qui permet de comprendre la logique du calcul du r est la suivante : Σ(x m x Σ(y m y sx sy r = n où x représente les valeurs de la première variable et y celles de la seconde ; m est le symbole de la moyenne, (celui de l écart type et n représente l effectif de la distribution. Si cette formule est développée, en utilisant des lois mathématiques, elle va donner une formule de calcul plus simple et plus rapide : Σxy Σx Σy n r = 0 Σx2 (Σ x 2 n Σy 2 (Σ y 2 n Une autre formule peut également être utilisée pour calculer le coefficient de corrélation : Σ(x m x (y m y r = 0Σ(x m x 2 cσ(y mc y 2 Elle consiste donc à soustraire la moyenne à chacune des valeurs de chaque distribution et à en faire la somme. Si les deux distributions comportent beaucoup de valeurs, les calculs peuvent être longs et fastidieux, c est pourquoi il est conseillé d utiliser la formule de calcul rapide. Enfin, puisque le coefficient de corrélation met en évidence le fait que deux variables varient conjointement, sa formule peut également utiliser celle de la covariance CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire 69

et il est alors possible de calculer r en divisant la covariance des deux variables par leurs écarts types qui ont été multipliés : Cov xy r = sx s y Σ(x m x (y m y où Cov xy est égal à : Cov xy = n 1 Et il existe encore d autres formules pour calculer cet indice! Le coefficient de corrélation varie de + 1 à 1: + 1 indique une corrélation positive maximale entre les deux variables, ce qui signifie qu elles varient exactement dans le même sens : plus les valeurs de l une augmentent (ou diminuent, plus les valeurs de l autre augmentent (ou diminuent ; ceci indique une relation fonctionnelle de type linéaire croissante. 1 indique en revanche une très forte corrélation négative ; il signifie cette fois une liaison maximale négative, c est-à-dire que les variables covarient inversement : plus les valeurs de l une augmentent, plus celles de l autre diminuent (et inversement bien sûr ; il s agit cette fois d une relation fonctionnelle de type linéaire décroissante. Une valeur proche de 0 signifie que les deux variables ne varient pas ensemble, en tout cas que la relation qui pourrait éventuellement les unir n est pas linéaire. Ainsi, plus la valeur du coefficient est proche de 1, plus la corrélation entre les deux variables est forte. Pour toute valeur intermédiaire et lorsque l échantillon peut être considéré comme extrait d une population parente (ceci est fondamental, sinon il est impossible de généraliser, même si l indice obtenu est très élevé et/ou significatif, il faut se reporter à la table du r de Bravais-Pearson. Cette table se présente sous forme d un tableau à deux dimensions. Dans la première colonne, se trouvent les valeurs des degrés de liberté, qui correspondent à la taille de l échantillon 2 (ou au nombre de couples 2, ce qui revient évidemment strictement au même et dans la première ligne, le seuil de probabilité α. À l intersection de chaque ligne et de chaque colonne, il est possible de lire les valeurs critiques de r, c est-à-dire les valeurs au dessus desquelles le r calculé est significatif et pour lesquelles la corrélation entre les deux variables est donc significative. Ce qui signifie (et c est là le sens du terme significatif que la corrélation entre les deux variables est différente de zéro au niveau de la population parente. Pour les valeurs éloignées de + 1 ou de 1, la significativité du coefficient va largement dépendre du nombre d individus de l échantillon : plus l échantillon est important, plus une corrélation, même très faible (i.e., r = 0,25 par exemple, pourra être significative. Il faut donc être vigilant quant à l interprétation d une telle relation entre deux variables. En résumé, pour estimer précisément la significativité d un coefficient de corrélation, il suffit de comparer la valeur du r calculé à une valeur r critique, en se reportant à la table des valeurs critiques du r. Pour cela il faut déterminer un seuil de significativité 70

(appelé α cf. chapitre 4 qui varie selon les tables entre.20 qui indique 20 chances sur 100 de se tromper et.0001 qui indique une chance sur 10 000 de se tromper et un degré de liberté ; ce dernier correspond toujours au nombre de couples de l ensemble de la distribution auquel on retire 2. Remarque : les notions relatives à la significativité, au degré de liberté et au seuil à choisir sont des notions fondamentales en statistiques. Elles seront plus amplement présentées dans le chapitre 4 consacré au t de Student et dans le chapitre 6 relatif à l analyse de variance. Par exemple, si chaque variable comprend 20 observations, le degré de liberté (abrégé en ddl sera égal à 20 2 = 18. Dans la table du r de Bravais-Pearson (cf. annexe 1, pour ddl = 18 et α =.05 (qui est un seuil raisonnable, on lit r critique = 0,4439. Cette valeur signifie que le r calculé doit être supérieur ou égal à cette valeur pour être considéré comme significatif, quel que soit son signe (+ ou, avec 5 % de risques de commettre une erreur. Pour un risque d erreur moins élevé, il faut choisir un seuil inférieur, α =.01 (et r critique = 0,5616 ou même α =.001 (et r critique = 0,6789. Ainsi, moins on prend de risques, plus le r calculé doit être important pour pouvoir conclure qu il existe une relation significative entre les deux variables. Si r calculé est strictement inférieur à r critique, au seuil α choisi et à ddl = n 2, il n est pas possible de conclure à une relation entre les deux variables. Si r calculé est supérieur ou égal à r critique, il existe bien une relation entre les deux variables. À ce moment-là, le signe du r calculé va permettre d indiquer le sens de la liaison. Aux valeurs de r sont associés des nuages de points typiques dont les plus fréquents sont présentés dans le paragraphe suivant. III. REPRÉSENTATION GRAPHIQUE DE LA CORRÉLATION Comme cela a été montré dans le chapitre 2, un nuage de points permet de représenter sur le même schéma deux variables quantitatives. L une des variables apparaît en abscisse tandis que l autre est en ordonnée. Un point sur le graphique caractérise un individu, ou plus précisément les valeurs qu il a obtenues pour chacune des deux variables. Lorsque la corrélation est très forte et positive (proche de + 1, le nuage de points, qui a généralement la forme d une ellipse, s étire du bas gauche au haut droit du graphique, comme sur la figure 11 ci-dessous. Ce premier exemple classique, concernant la liaison entre le poids (en kilogrammes et la taille (en centimètres, reprend les mêmes données que celles utilisées dans le chapitre consacré à la présentation des statistiques descriptives, mais augmentées de quelques individus. CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire 71

FIGURE 11 Corrélation positive entre le poids et la taille Taille 190 185 180 175 170 165 160 155 150 30 40 50 60 70 80 Poids Ce graphique met en évidence que plus le poids augmente, plus la taille augmente (et inversement. Le coefficient de corrélation est ici égal à r =+0,964 732 67 ; il est très proche de + 1 et donc très significatif. Le risque d erreur est très faible, sans doute autour d une chance sur 100 000 de commettre une erreur en disant qu il existe une relation linéaire positive et significative entre les deux variables ; le seuil α pourrait être égal à.000 01. Lorsque la corrélation est significative et proche de 1, le nuage de points présente alors une allure inverse : il s étire du haut gauche au bas droit. Par exemple, la relation suivante peut être constatée et représentée graphiquement ci-dessous : moins la température est élevée, plus les personnes absorbent de potage (sans doute pour se réchauffer. Le coefficient de corrélation est cette fois égal à : r = 0,976 092 94, avec ddl = 30 2 = 28. Là encore, le risque d erreur est extrêmement faible : il existe bien une liaison très forte entre la température et l absorption de potage. FIGURE 12 Relation négative forte entre la température et l absorption de potage 40 35 30 25 20 15 10 5 0 0 2 4 6 8 10 Température Entre ces extrêmes, des corrélations non significatives se traduiront par des nuages de points dispersés, ne suivant pas une direction précise, comme dans les exemples cidessous. Litres de potage La première figure montre qu il n existe pas de relation linéaire entre l âge et la taille du gros orteil (r = 0,278 476 64. À ddl = 10 2, le r calculé est toujours inférieur au r lu dans la table de Bravais- Pearson. L arc de cercle pourrait toutefois faire penser à un autre type de relation, éventuellement! 72

FIGURE 13 Âge et taille du gros orteil chez dix enfants La seconde figure montre que, contrairement aux idées reçues, il n y a pas de relation entre le salaire perçu, en euros, et le nombre d années passées à étudier après le baccalauréat (même si les diplômes ont été obtenus bien évidemment! : FIGURE 14 Y a-t-il une relation entre le salaire et les diplômes? Salaires (en euros Âge Le coefficient de corrélation est ici égal à : r = 0,024 147 26, ce qui traduit vraiment une absence très nette de relation entre les deux variables. Il ne faut pas abandonner ses études pour autant! IV. UN EXEMPLE À TRAVERS L ÉTUDE DE LA LECTURE L objectif de la recherche conduite par Rocher et Chanquoy ([2004], «Discrimination et attention visuelle : quel impact sur la reconnaissance de lettres et de mots au cours de la lecture?», Le Langage et l homme : logopédie, psychologie, audiologie, 39 (2, pp. 45-68, dans une perspective de psychologie du développement, était d examiner, au cours de la lecture, les relations entre les processus visuels perceptifs, les habiletés phonologiques et les compétences des jeunes enfants à reconnaître des lettres et des mots écrits. Pour cela, des épreuves de perception visuelle, verbales et phonologiques ont été proposées à des enfants scolarisés en grande section de maternelle (GSM et en première année d école primaire (CP. Au regard des conceptions théoriques et des études existantes, le but de cette recherche était, entre autres, de rendre compte des relations entre trois domaines de CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire 73