1 Droite de régression de y en x

CHU Amiens IFTLM 2ème année, UPJV IUP Santé 2012-2013 Statistique Cours 2 Statistique descriptive à deux variables - Régression Le cours précédent traitait de la statistique descriptive univariée, c est-à-dire de la description d une série statistique selon un seul caractère (la taille par exemple). On veut maintenant étudier, visualiser et mesurer les liens éventuels existant entre deux variables : c est l objet de la statistique descriptive bivariée. On considère une population sur laquelle on étudie deux variables quantitatives X et Y. On étudiera donc des séries statistiques à deux variables ; autrement dit un couple de variables (X, Y ). On veut savoir si les deux variables sont liées par une liaison fonctionnelle du type Y = f(x)(c est-à-dire que l on peut prévoir les valeurs de Y à partir des valeurs de X), ou bien X = g(y ) (c est-à-dire que l on peut prévoir les valeurs de X à partir des valeurs de Y ). Précisons dès maintenant que l existence d une telle liaison entre les deux variables X et Y ne signifie pas obligatoirement un lien de cause à effet entre elles (expliquer). Exemple fondamental : Y = ax + b (liaison affine). Sur un échantillon de n individus extrait de la population, on observe n couples (x 1, y 1 ),..., (x n, y n ) de valeurs de X et Y. Représentation graphique : nuage de points Ces observations peuvent être représentées dans le plan. A chaque couple (x i, y i ), i = 1,..., n, on fait correspondre un point M i. On obtient un nuage de point. La forme du nuage obtenu peut indiquer le type de dépendance possible entre X et Y. Si les points sont plutôt alignés, on peut envisager une relation de type Y = ax + b (équation de droite). Si le nuage forme une parabole, on peut envisager une relation de type Y = ax 2 + bx + c, etc... On dit que l on cherche à ajuster une courbe au nuage de points. 1 Droite de régression de y en x On cherche à ajuster une droite d équation y = ax + b au nuage de points. En fait, on essaie de minimer les distances entre les points du nuage M i (x i, y i ) et les points correspondant sur la droite P i (x i, ax i + b). On trouve un unique couple (a, b) qui minimise cette distance. On ne détaillera pas les calculs pour obtenir a et b. La droite de régression de y en x a pour équation : D y/x : y = ax + b avec a = avec les notations suivantes pour les moments : moyennes : x = 1 n i=1 x i, ȳ = 1 n i=1 y i. cov(x, y) s 2 x et b = ȳ a x variances : s 2 x = 1 n i=1 (x i x) 2, s 2 y = 1 n i=1 (y i ȳ) 2. covariance : cov(x, y) = 1 n i=1 (x i x)(y i ȳ) = 1 n i=1 x iy i xȳ. Exemple On considère la série double statistique suivante : x i 2 3 5 1 4 y i 4 9 11 3 8 Le nuage de points correspondant est représenté sur le graphique ci-dessous.

La droite de régression de y en x a pour équation y = ax + b avec a = cov(x,y) et b = ȳ a x. s 2 x Il vaudra mieux utiliser une calculatrice ou un tableur pour obtenir les coefficients a et b plutôt que d effectuer les calculs suivants x i y i x i y i x 2 i 2 4 8 4 3 9 27 9 5 11 55 25 1 3 3 1 4 8 32 16 15 35 125 55 On a x = 15 5 = 3, ȳ = 35 125 5 = 7, cov(x, y) = 5 3 7 = 4, s2 x = 55 5 32 = 2. On en déduit a = 4 2 = 2 et b = 7 2 3 = 1. La droite de régression de y en x a donc pour équation y = 2x + 1. On peut remarquer que cette droite passe par deux points du nuage : c est une coincidence! 2 Droite de regression de x en y On suit une démarche analogue à celle qui a donné la droite de régression de y en x, en échangeant le rôle de x et y. cov(x, y) D x/y : x = cy + d avec c = s 2 et d = x aȳ y On peut remarquer que les équations peuvent aussi s écrire D y/x : y ȳ = a(x x) D x/y : x x = c(y ȳ) Les droites D y/x et D x/y se coupent donc au point G( x, ȳ). Exemple Reprenons l exemple précédent. On a toujours x = 3, ȳ = 7, cov(x, y) = 4, s 2 x = 2 et a = 2.

On calcule s 2 y = 291 5 72 = 9, 2, d où c = cov(x,y) = 4 s 2 x 9,2 = 1 2,3. La droite de régression de x en y a donc pour équation x x = c(y ȳ), soit x 3 = 1 2,3 (y 7), c est-à-dire y = 2, 3x + 0, 1. On retrouve également une équation de la droite de régression de y en x : y ȳ = a(x x), soit y 7 = 2(x 3), c est-à-dire y = 2x + 1. Les droites D y/x et D x/y se coupent au point G( x, ȳ) = G(3, 7). 3 Coefficient de corrélation linéaire entre x et y Le coefficient de corrélation linéaire est défini par : r x,y = cov(x,y) s xs y. Qualité de l ajustement On peut démontrer que rx,y 2 1. On peut aussi montrer que rx,y 2 = 1 si et seulement si pour tout i =,..., n, M i (x i, y i ) D y/x, c est-à-dire si et seulement si les points M i sont alignés sur D y/x. De façon générale, plus rx,y 2 est proche de 1, meilleur est l ajustement de la droite de régression au nuage de points. Le signe de r x,y (qui est le même que celui de a) indique le sens de la liaison (croissante si r x,y > 0, décroissante si r x,y < 0) entre X et Y. Partageant arbitrairement le plan en secteurs de 30, on obtient 5 zones permettant de définir une bonne, médiocre ou mauvaise corrélation entre X et Y. Sachant que cos 30 = 3 2 0, 866 et cos 60 = 1 2, ce critère graphique se traduit numériquement par : 3 si 2 r x,y 1, il existe une bonne corrélation linéaire entre X et Y. si 1 2 r x,y 3 2, la corrélation linéaire entre X et Y est médiocre. si 0 r x,y 1 2, la corrélation linéaire entre X et Y est mauvaise. Siginfication de r x,y La question se pose de savoir si une forte valeur de r x,y (en valeur absolue) ou de r 2 x,y prouve qu il y a une forte corrélation entre les deux caractères X et Y (par exemple lorsque l ajustement est bon) ou si elle est due au hasard de l échantillonage (par exemple lorsque n est petit). Pour obtenir une réponse, on peut utiliser des tests statistiques (voir statistique inductive). 4 Exercices Exercice 1 Dans la série statistique suivante, x représente le nombre de jours d exposition au soleil d une feuille et y le nombre de stomates aérifères au millimètre carré : x 2 4 8 10 24 40 52 y 6 11 15 20 39 62 85

1. Déterminer une équation de la droite de régression de y en x. 2. Calculer le coefficient de corrélation linéaire entre x et y. Commenter le résultat. 3. Quel nombre de stomates peut-on prévoir après 30 jours d exposition au soleil? après 60 jours? Exercice 2 On sélectionne 12 personnes inscrites à un stage de formation. Avant le début de la formation, ces stagiaires subissent une épreuve A notée de 0 20. A l issue du stage, une épreuve B identique à la première est aussi notée de 0 20. Considérant les deux variables X =note de A et Y =note de B, on a obtenu les résultats suivants : stagiaire 1 2 3 4 5 6 7 8 9 10 11 12 x i 3 4 6 7 9 10 9 11 12 13 15 4 y i 8 9 10 13 15 14 13 16 13 19 6 19 1. (a) Représenter ces résultats par un nuage de points. (b) Quelle courbe d ajustement ce nuage vous suggère-t-il? 2. A partir des résultats obtenus, on a déterminé la droite de régression de y en x, ainsi que le coefficient de corrélation linéaire entre x et y. On a obtenu l équation y = 0, 180x + 11, 99 et r = 0, 101. Expliquer pourquoi l ajustement n est pas bon. 3. On décide d éliminer les stagiaires 11 et 12, et donc de ne tenir compte que des stagiaires 1 à 10. (a) Déterminer une équation de la droite de régression de y en x. (b) Calculer le coefficient de corrélation linéaire entre x et y. Interpréter le résultat obtenu. Exercice 3 Le tableau ci-dessous donne une estimation du montant des achats en ligne des ménages français : Année 1998 1999 2000 2001 2002 2003 2004 Rang de l année : x i 0 1 2 3 4 5 6 Montant d achats en millions d euros : y i 75 260 820 1650 2300 4000 5300 1. (a) Préciser la population, la(les) variable(s) étudiée(s) et la taille de l échantillon. (b) Donner une équation de la droite de régression de y en x. (c) Donner le coefficient de corrélation linéaire entre x et y. Interpréter le résultat obtenu. (d) Quelle prévision du montant d achats peut-on faire pour l année 2005? Est-elle fiable? 2. On considère la nouvelle variable z = y. (a) Déterminer une équation de la droite de régression de z en x, ainsi que le coefficient de corrélation linéaire entre x et z. Interpréter le résultat obtenu. (b) En déduire une expression de y en fonction de x, puis une prévision du montant d achats pour l année 2005. 3. A partir du tableau de données, le logiciel Excel propose un ajustement polynomial par l équation y = 130x 2 + 100x + 68. (a) S agit-il du même ajustement que celui obtenu dans le 2)? Expliquer cette situation. (b) Déduire de cet ajustement une prévision du montant d achats pour l année 2005. 4. Le montant des achats en ligne en 2005 a été de 7700 millions d euros. Lequel des trois ajustements précédents vous paraît-il le plus conforme à la réalité? Justifier votre réponse.

Exercice 4 Le tableau ci-dessous donne l évolution, par période de 5 ans, de la population (en millions d habitants) de l Allemagne ; il s agit de la population globale des deux Allemagnes (RDA et RFA) de 1958 à 1973, puis de la population de l Allemagne réunifiée de 1993 à 2008. Année 1958 1963 1968 1973 1993 1998 2003 2008 Rang de l année : x i 1 2 3 4 8 9 10 11 Population : y i 71.5 74.4 77 78.8 81 82.1 82.5 82.2 1. Représenter graphiquement la série statistique (x i, y i ). 2. On commence par chercher un ajustement affine. (a) Donner une équation de la droite de régression de y en x. Donner le coefficient de corrélation linéaire entre x et y. interpréter le résultat obtenu. (b) En déduire une estimation de la population de l Allemagne en 2018. L estimation est-elle fiable? 3. On cherche maintenant un ajustement de type logarithmique, autrement dit à modéliser le phénomène étudié par une relation du type y = a ln(x) + b. Pour cela, on considère la nouvelle variable z = ln(x). (a) Effectuer une régression permettant d obtenir les coefficients a et b. Préciser les variables considérées de donner le coefficient de corrélation linéaire correspondant. Interpréter le résultat obtenu. (b) En déduire une estimation de la population de l Allemagne en 2018. L estimation est-elle fiable? 4. Comparer les deux estimations des 2)b) et 3)b) et commenter les résultats obtenus. Lequel des deux ajustmements est le meilleur?