Relation entre deux variables : estimation de la corrélation linéaire

CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence une éventuelle liaison entre deux variables numériques ; il s agit du coefficient de corrélation qui, grâce à un calcul simple, permet de déterminer s il existe ou non une relation entre deux variables numériques et quelle est l intensité de cette relation. Ainsi, le coefficient de corrélation va révéler (ou non l existence et la force d un lien entre deux séries d observations quantitatives. I. LOGIQUE DE LA CORRÉLATION La corrélation met en évidence un lien entre deux variables. En effet, comme il est précisé dans tous les ouvrages de statistiques, corrélation n est pas causalité. Ceci est très important car cette phrase signifie que l opération statistique effectuée, du fait de son statut descriptif, permet seulement de montrer que les variables entretiennent une relation et pas du tout qu une variable explique ou cause l autre variable. Il est fondamental d insister ici sur l importance à ne pas confondre corrélation et causalité : le fait que deux variables sont corrélées montre simplement qu elles covarient, c est-à-dire que les changements de valeurs de l une sont associés, de manière significative, avec des changements de valeurs de l autre. La corrélation est une statistique descriptive et non inférentielle. Si le but des calculs entrepris est de montrer qu une variable en explique une autre, il faudra alors recourir à des statistiques inférentielles (et notamment aux techniques de régression, pour pouvoir parler de causalité. En outre, la relation mise en évidence par le coefficient de corrélation étudié ciaprès est seulement une relation stochastique linéaire ; ce qui signifie que, si les variables entretiennent un autre type de relation plus complexe, ce lien ne sera pas «détecté» par le coefficient de corrélation. Il faudra alors recourir à d autres types d indices de statistiques. Ainsi, lorsqu un chercheur travaille avec un échantillon représentatif et qu il a calculé un indice de liaison entre deux variables, il est légitime qu il se demande si l indice qu il a obtenu est significatif. Pour cela, il suivra une procédure précise, expliquée dans ce chapitre. 68

Par exemple, il est possible grâce au coefficient de corrélation linéaire, de valider les liens suivants : «plus le taux de gaz carbonique en ville est important, plus les jeunes enfants développent des rhinites» ; ou encore : «moins les lapins absorbent de vitamine C, plus ils dorment longtemps», etc. Ce lien est généralement assorti d un graphique le nuage de points qui permet de déterminer à l avance le sens de la relation entre les variables. II. COMMENT CALCULER LE COEFFICIENT DE CORRÉLATION? Le coefficient de corrélation utilisé avec deux variables métriques (i.e., échelles d intervalles est le coefficient de corrélation r de Bravais-Pearson. Dans le cas de variables ordinales, un autre type de coefficient de corrélation est calculé, il s agit du rhô (symbolisé par la lettre grecque ρ de Spearman qui est un coefficient de corrélation par rangs. Ce coefficient fait partie des statistiques dites non paramétriques et sera donc abordé dans le chapitre 10. La formule dite de compréhension (c est-à-dire qui permet de comprendre la logique du calcul du r est la suivante : Σ(x m x Σ(y m y sx sy r = n où x représente les valeurs de la première variable et y celles de la seconde ; m est le symbole de la moyenne, (celui de l écart type et n représente l effectif de la distribution. Si cette formule est développée, en utilisant des lois mathématiques, elle va donner une formule de calcul plus simple et plus rapide : Σxy Σx Σy n r = 0 Σx2 (Σ x 2 n Σy 2 (Σ y 2 n Une autre formule peut également être utilisée pour calculer le coefficient de corrélation : Σ(x m x (y m y r = 0Σ(x m x 2 cσ(y mc y 2 Elle consiste donc à soustraire la moyenne à chacune des valeurs de chaque distribution et à en faire la somme. Si les deux distributions comportent beaucoup de valeurs, les calculs peuvent être longs et fastidieux, c est pourquoi il est conseillé d utiliser la formule de calcul rapide. Enfin, puisque le coefficient de corrélation met en évidence le fait que deux variables varient conjointement, sa formule peut également utiliser celle de la covariance CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire 69

et il est alors possible de calculer r en divisant la covariance des deux variables par leurs écarts types qui ont été multipliés : Cov xy r = sx s y Σ(x m x (y m y où Cov xy est égal à : Cov xy = n 1 Et il existe encore d autres formules pour calculer cet indice! Le coefficient de corrélation varie de + 1 à 1: + 1 indique une corrélation positive maximale entre les deux variables, ce qui signifie qu elles varient exactement dans le même sens : plus les valeurs de l une augmentent (ou diminuent, plus les valeurs de l autre augmentent (ou diminuent ; ceci indique une relation fonctionnelle de type linéaire croissante. 1 indique en revanche une très forte corrélation négative ; il signifie cette fois une liaison maximale négative, c est-à-dire que les variables covarient inversement : plus les valeurs de l une augmentent, plus celles de l autre diminuent (et inversement bien sûr ; il s agit cette fois d une relation fonctionnelle de type linéaire décroissante. Une valeur proche de 0 signifie que les deux variables ne varient pas ensemble, en tout cas que la relation qui pourrait éventuellement les unir n est pas linéaire. Ainsi, plus la valeur du coefficient est proche de 1, plus la corrélation entre les deux variables est forte. Pour toute valeur intermédiaire et lorsque l échantillon peut être considéré comme extrait d une population parente (ceci est fondamental, sinon il est impossible de généraliser, même si l indice obtenu est très élevé et/ou significatif, il faut se reporter à la table du r de Bravais-Pearson. Cette table se présente sous forme d un tableau à deux dimensions. Dans la première colonne, se trouvent les valeurs des degrés de liberté, qui correspondent à la taille de l échantillon 2 (ou au nombre de couples 2, ce qui revient évidemment strictement au même et dans la première ligne, le seuil de probabilité α. À l intersection de chaque ligne et de chaque colonne, il est possible de lire les valeurs critiques de r, c est-à-dire les valeurs au dessus desquelles le r calculé est significatif et pour lesquelles la corrélation entre les deux variables est donc significative. Ce qui signifie (et c est là le sens du terme significatif que la corrélation entre les deux variables est différente de zéro au niveau de la population parente. Pour les valeurs éloignées de + 1 ou de 1, la significativité du coefficient va largement dépendre du nombre d individus de l échantillon : plus l échantillon est important, plus une corrélation, même très faible (i.e., r = 0,25 par exemple, pourra être significative. Il faut donc être vigilant quant à l interprétation d une telle relation entre deux variables. En résumé, pour estimer précisément la significativité d un coefficient de corrélation, il suffit de comparer la valeur du r calculé à une valeur r critique, en se reportant à la table des valeurs critiques du r. Pour cela il faut déterminer un seuil de significativité 70

(appelé α cf. chapitre 4 qui varie selon les tables entre.20 qui indique 20 chances sur 100 de se tromper et.0001 qui indique une chance sur 10 000 de se tromper et un degré de liberté ; ce dernier correspond toujours au nombre de couples de l ensemble de la distribution auquel on retire 2. Remarque : les notions relatives à la significativité, au degré de liberté et au seuil à choisir sont des notions fondamentales en statistiques. Elles seront plus amplement présentées dans le chapitre 4 consacré au t de Student et dans le chapitre 6 relatif à l analyse de variance. Par exemple, si chaque variable comprend 20 observations, le degré de liberté (abrégé en ddl sera égal à 20 2 = 18. Dans la table du r de Bravais-Pearson (cf. annexe 1, pour ddl = 18 et α =.05 (qui est un seuil raisonnable, on lit r critique = 0,4439. Cette valeur signifie que le r calculé doit être supérieur ou égal à cette valeur pour être considéré comme significatif, quel que soit son signe (+ ou, avec 5 % de risques de commettre une erreur. Pour un risque d erreur moins élevé, il faut choisir un seuil inférieur, α =.01 (et r critique = 0,5616 ou même α =.001 (et r critique = 0,6789. Ainsi, moins on prend de risques, plus le r calculé doit être important pour pouvoir conclure qu il existe une relation significative entre les deux variables. Si r calculé est strictement inférieur à r critique, au seuil α choisi et à ddl = n 2, il n est pas possible de conclure à une relation entre les deux variables. Si r calculé est supérieur ou égal à r critique, il existe bien une relation entre les deux variables. À ce moment-là, le signe du r calculé va permettre d indiquer le sens de la liaison. Aux valeurs de r sont associés des nuages de points typiques dont les plus fréquents sont présentés dans le paragraphe suivant. III. REPRÉSENTATION GRAPHIQUE DE LA CORRÉLATION Comme cela a été montré dans le chapitre 2, un nuage de points permet de représenter sur le même schéma deux variables quantitatives. L une des variables apparaît en abscisse tandis que l autre est en ordonnée. Un point sur le graphique caractérise un individu, ou plus précisément les valeurs qu il a obtenues pour chacune des deux variables. Lorsque la corrélation est très forte et positive (proche de + 1, le nuage de points, qui a généralement la forme d une ellipse, s étire du bas gauche au haut droit du graphique, comme sur la figure 11 ci-dessous. Ce premier exemple classique, concernant la liaison entre le poids (en kilogrammes et la taille (en centimètres, reprend les mêmes données que celles utilisées dans le chapitre consacré à la présentation des statistiques descriptives, mais augmentées de quelques individus. CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire 71

FIGURE 11 Corrélation positive entre le poids et la taille Taille 190 185 180 175 170 165 160 155 150 30 40 50 60 70 80 Poids Ce graphique met en évidence que plus le poids augmente, plus la taille augmente (et inversement. Le coefficient de corrélation est ici égal à r =+0,964 732 67 ; il est très proche de + 1 et donc très significatif. Le risque d erreur est très faible, sans doute autour d une chance sur 100 000 de commettre une erreur en disant qu il existe une relation linéaire positive et significative entre les deux variables ; le seuil α pourrait être égal à.000 01. Lorsque la corrélation est significative et proche de 1, le nuage de points présente alors une allure inverse : il s étire du haut gauche au bas droit. Par exemple, la relation suivante peut être constatée et représentée graphiquement ci-dessous : moins la température est élevée, plus les personnes absorbent de potage (sans doute pour se réchauffer. Le coefficient de corrélation est cette fois égal à : r = 0,976 092 94, avec ddl = 30 2 = 28. Là encore, le risque d erreur est extrêmement faible : il existe bien une liaison très forte entre la température et l absorption de potage. FIGURE 12 Relation négative forte entre la température et l absorption de potage 40 35 30 25 20 15 10 5 0 0 2 4 6 8 10 Température Entre ces extrêmes, des corrélations non significatives se traduiront par des nuages de points dispersés, ne suivant pas une direction précise, comme dans les exemples cidessous. Litres de potage La première figure montre qu il n existe pas de relation linéaire entre l âge et la taille du gros orteil (r = 0,278 476 64. À ddl = 10 2, le r calculé est toujours inférieur au r lu dans la table de Bravais- Pearson. L arc de cercle pourrait toutefois faire penser à un autre type de relation, éventuellement! 72

FIGURE 13 Âge et taille du gros orteil chez dix enfants La seconde figure montre que, contrairement aux idées reçues, il n y a pas de relation entre le salaire perçu, en euros, et le nombre d années passées à étudier après le baccalauréat (même si les diplômes ont été obtenus bien évidemment! : FIGURE 14 Y a-t-il une relation entre le salaire et les diplômes? Salaires (en euros Âge Le coefficient de corrélation est ici égal à : r = 0,024 147 26, ce qui traduit vraiment une absence très nette de relation entre les deux variables. Il ne faut pas abandonner ses études pour autant! IV. UN EXEMPLE À TRAVERS L ÉTUDE DE LA LECTURE L objectif de la recherche conduite par Rocher et Chanquoy ([2004], «Discrimination et attention visuelle : quel impact sur la reconnaissance de lettres et de mots au cours de la lecture?», Le Langage et l homme : logopédie, psychologie, audiologie, 39 (2, pp. 45-68, dans une perspective de psychologie du développement, était d examiner, au cours de la lecture, les relations entre les processus visuels perceptifs, les habiletés phonologiques et les compétences des jeunes enfants à reconnaître des lettres et des mots écrits. Pour cela, des épreuves de perception visuelle, verbales et phonologiques ont été proposées à des enfants scolarisés en grande section de maternelle (GSM et en première année d école primaire (CP. Au regard des conceptions théoriques et des études existantes, le but de cette recherche était, entre autres, de rendre compte des relations entre trois domaines de CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire 73