CHAPITRE 10 Régression linéaire et corrélation 1. Introduction Dans ce chapitre, nous regarderons comment vérifier si une variable à un influence sur une autre variable afin de prédire une des variables si l on connaît l autre. Plus précisément, nous étudierons s il existe une relation linéaire entre deux variables. Afin de bien comprendre les différentes étapes de cette étude, nous utiliserons l exemple suivant : Exemple 10.1. Un chercheur veut déterminer s il existe une relation entre l âge (en mois) du premier mot d un enfant et son nombre de points à test d habiletés mentales, le test Gesell. Il effectue une expérimentation sur 21 jeunes de 5 ans. Voici les résultats : Tab. 1. Âge (en mois) du premier mot et le résultat au test Gesell. Enfant Âge Résultat Enfant Âge Résultat 1 15 95 11 7 113 2 26 71 12 9 96 3 10 83 13 10 83 4 9 91 14 11 84 5 15 102 15 11 102 6 20 87 16 10 100 7 18 93 17 12 105 8 11 100 18 42 57 9 8 104 19 17 121 10 20 94 20 11 86 21 10 100 Source : Moore, D. et McCabe, G. Introduction to the practice of statistics, FREEMAN, 3e édition, page 160 Maintenant que le chercheur possède ses résultats, il faut être en mesure de vérifier s il existe un lien entre l âge du premier mot et le résultat au test de Gesell. 43
44 10. RÉGRESSION LINÉAIRE ET CORRÉLATION 2. Nuage de points La première étape afin de vérifier s il existe un lien entre deux variables est de dessiner un graphique que l on nomme nuage de points. Supposons que les deux variables étudiées sont x et y et que nous possédons n résultats (couple (x i, y i )). Le nuage de points consiste à mettre un point sur un plan cartésien à chaque coordonnée (x i, y i ). Exemple 10.2. Dessinons le nuage de points de l exemple 10.1. Ici, 130 120 Résultats du test de Gesell selon l âge du premier mot 1 donnée 2 données 110 Résultats au test de Gesell 100 90 80 70 60 50 0 0 5 10 15 20 25 30 35 40 45 Âge du premier mot (mois) Fig. 1. Exemple de nuage de points. les étoiles correspondent à des points qui reviennent deux fois. C est le cas pour les enfants 3 et 13 et pour les enfants 16 et 21. Ce qui est important de constater sur ce graphique est que les résultats au test de Gesell semblent diminuer lorsque l âge du premier mot augmente. On remarque également qu il semble y avoir une relation linéaire entre les deux variables, c est-à-dire que les données se trouvent autour d une droite. 3. Droite de régression Dans la section précédente, nous avons expliqué comment tracer un nuage de points et aussi comment l analyser un peu afin d en ressortir une certaine tendance. Nous avons vu que les variables peuvent avoir une relation linéaire entre elles, c est-à-dire que les points semblent suivre une droite. Il serait donc intéressant de déterminer l équation de
3. DROITE DE RÉGRESSION 45 cette droite afin de pouvoir en tirer certaines informations et peut-être même prédire une variable selon la valeur de l autre. On veut donc trouver l équation de la meilleure droite qui décrit l ensemble des données. Mais qu entend on par meilleure droite? La meilleure droite est celle des moindres carrés. Nous nommerons cette droite, droite de régression. Son équation est de la forme y = bx + a. Ici, m est la pente de la droite et b est son ordonnée à l origine. On les détermine à l aide des formules suivantes : b = nèx i y i (Èx i ) (Èy i ) nèx 2 i (Èx i ) 2 i bèx i a =Èy, n où n est le nombre de couple (x i, y i ). Ces formules semblent un peu complexes, mais avec certaines astuces, elles sont plus simples à utiliser. Regardons comment avec l exemple 10.1. Exemple 10.3. Dans cet exemple, x est l âge du premier mot et y le résultat au test de Gesell. Afin d accélérer le processus de calculs, reprenons le tableau de l exemple en ajoutant deux colonnes. Une qui correspond à x 2 i et l autre au produit de x i et de y i. On ajoute également une ligne qui correspond à la somme de chaque colonne. Le tout est fait dans le tableau 2. Une fois que tout ces calculs sont faits, il ne reste plus qu à rentrer les résultats pour trouver b et a. Ainsi, et b = nèx i y i (Èx i ) (Èy i ) nèx 2 i (Èx i ) 2 21 26864 302 1967 = 21 5606 302 2 1.1270 i bèx i a =Èy n 1967 ( 1.1270) 302 = 21 109.8738
46 10. RÉGRESSION LINÉAIRE ET CORRÉLATION D où, Tab. 2. Âge (en mois) du premier mot et le résultat au test Gesell. Enfant Âge x i Résultat y i x 2 i x i y i 1 15 95 225 1425 2 26 71 676 1846 3 10 83 100 830 4 9 91 81 819 5 15 102 225 1530 6 20 87 400 1740 7 18 93 324 1674 8 11 100 121 1100 9 8 104 64 832 10 20 94 400 1880 11 7 113 49 791 12 9 96 81 864 13 10 83 100 830 14 11 84 121 924 15 11 102 121 1122 16 10 100 100 1000 17 12 105 144 1260 18 42 57 1764 2394 19 17 121 289 2057 20 11 86 121 946 21 10 100 100 1000 SommeÈ 302 1967 5606 26864 y = 1.1270x + 109.8738. Traçons cette droite sur le nuage de points (voir la figure 2). Nous reviendrons à l analyse de cette situation dans la prochaine section. Nous pouvons également calculer b et a à l aide de la calculatrice. Voyons comment faire avec la calculatrice de marque emphsharp EL-545W. Il faut d abord choisir le mode statistique pour deux variables : MODE 1 1. Par la suite, il faut entrer les différents couples de points. Débutons par (x 1, y 1 ). Voici les commandes : Valeur x 1 STO Valeur y 1 M+.
4. CORRÉLATION 47 130 120 Résultats du test de Gesell selon l âge du premier mot 1 donnée 2 données 110 Résultats au test de Gesell 100 90 80 70 60 50 0 0 5 10 15 20 25 30 35 40 45 Âge du premier mot (mois) Fig. 2. Exemple de nuage de points et de droite de régression. Si le couple (x 1, y 1 ) apparraît n 1 fois, on peut écrire Valeur x 1 STO Valeur y 1 STO Valeur n 1 M+. Après avoir entré tous les (x i, y i ), on peut trouver a et b à l aide des touches suivantes : a = ALPHA ( b = ALPHA ) 4. Corrélation Il reste maintenant à vérifier si la droite de régression décrit bien le lien entre les variables et sinon existe-t-il un lien d une autre forme pour les variables. Lorsque la droite de régression représente bien la relation entre les deux variables, on dit qu il existe une corrélation linéaire. Puisque nous étudierons seulement des modèles linéaires, on dira seulement corrélation. La figure 3 montre deux nuages de points avec leur droite de régression. Dans le premier cas, les points sont près de la droite. On dit alors qu il y a une bonne corrélation entre les variables. En d autres mots, la droite de régression décrit bien la relation entre les variables. Dans le deuxième cas, les points ne sont pas très près de la droite. On ne peut
48 10. RÉGRESSION LINÉAIRE ET CORRÉLATION (a) Bonne corrélation (b) Mauvaise corrélation Fig. 3. Nuage de points avec la droite de régression. pas affirmer qu il y a une relation linéaire entre les deux variables. Revenons à l exemple 10.1. Analysons la corrélation entre l âge du premier mot et le résultat au test de Gesell. Sur la figure 2, on remarque que les points suivent assez bien la droite. Il y a cependant un point éloigné, le point (17, 121). C est ce que l on appelle une donnée aberrante. On peut donne dire qu il y a une corrélation entre les deux variables. Cette analyse est qualitative. Il existe un outil quantitatif qui permet de bien trancher si le modèle est acceptable ou non, c est-à-dire si la relation linéaire décrit bien le phénomène. Cet outil est le coefficient de corrélation que l on note r. Il varie entre 1 et 1. Plus r est près de 1, plus la corrélation est grande donc le modèle linéaire décrit bien la réalité. Par contre, si r est près de 0 le modèle est loin d être linéaire. Il est à noter que le signe de r est le même que celui de b, c est-à-dire que si la pente de la droite de régression est négative, r sera négatif et vice-versa. On peut calculer r avec r = nèx i y i (Èx i ) (Èy i ) nèx 2 i (Èx i ) 2 nèy 2 i (Èy i ) 2. Dans le cas de l exemple le coefficient r = 0.6403, ce qui signifie que la corrélation n est pas très bonne. Habituellement, si r > 0.7, on dit qu il existe une corrélation entre les variables, sinon, on dit qu il n y a pas de corrélation. Par contre, si on omet la donnée aberrante, car elle sort du lot, on obtient que r = 0.7561. Cela nous dit qu il existe une corrélation
6. APPLICATIONS ET LIMITATIONS DE LA DROITE DE RÉGRESSION 49 entre l âge du premier mot et du résultat au test de Gesell. Le coefficient de corrélation peut être calculé à l aide de la calculatrice. Il suffit d entrer les données et de le calculer à l aide des touches ALPHA. 5. Calcul de a et de b à l aide de x, ȳ, s x, s y et r Afin d accélérer les calculs de la droite de régression, il existe des relations entre a, b et x, ȳ, s x, s y et r. Les voici : b = r sy s x a = ȳ b x, où x, ȳ, s x, s y et r sont respectivement, la moyenne des x i, la moyenne des y i, l écart-type des x i, l écart-type des y i et le coefficient de corrélation. 6. Applications et limitations de la droite de régression Lorsque la corrélation est bonne, on peut se servir de la droite de régression afin de prédire une variable en connaissance l autre. Par exemple, si un enfant dit son premier mot à 13 mois, on peut prédire le résultat qu il obtiendrait au test Gesell : y = 1.1270 13 + 109.8738 95. Il faut cependant faire attention avec les prédictions pour ne pas faire de l extrapolation. Cela signifie que le résultat de la prédiction à l aide de la droite de régression peut ne pas être valide si la valeur de x est éloingnée des x i. Par exemple, si l on prend x = 100 mois, on obtient que y vaut 2.8 ce qui est irréaliste, car les résultats du test sont positifs. C est un exemple extrême, mais il montre bien les erreurs que l on peut commettre. Un autre aspect important est de s assurer qu il y a vraiment un lien de causes à effets entre les variables. Par exemple, même s il y a une corrélation entre le prix de l essence et le nombre de chiens au Québec, il n y a pas de liens causaux entre les deux. Il faut donc faire attention avec les conclusions tirées de la corrélation.