12. Régression linéaire simple

12. Régression linéaire simple MTH2302D S. Le Digabel, École Polytechnique de Montréal A2016 (v1) MTH2302D: régression 1/45

Plan 1. Introduction 2. Régression linéaire simple 3. Estimation des paramètres 4. Intervalles de confiance et tests 5. Analyse des résidus 6. Corrélation MTH2302D: régression 2/45

1. Introduction 2. Régression linéaire simple 3. Estimation des paramètres 4. Intervalles de confiance et tests 5. Analyse des résidus 6. Corrélation MTH2302D: régression 3/45

Régression linéaire : introduction But : établir un lien entre une variable dépendante Y et une variable indépendante X pour pouvoir ensuite faire des prévisions sur Y lorsque X est mesurée. Exemple 1 L analyse de la température de fonctionnement d un procédé chimique sur le rendement du produit a donné les valeurs suivantes pour la température X i et le rendement correspondant Y i : Température C Rendement % Température C Rendement % 100 45 150 70 110 51 160 74 120 54 170 78 130 61 180 85 140 66 190 89 MTH2302D: régression 4/45

Exemple 1 (suite) Le graphe ci-dessous représente les points (X i, Y i ) pour ces données et suggère une relation linéaire entre X et Y. 90 rendement vs température 85 80 75 70 65 60 55 50 45 40 90 110 130 150 170 190 MTH2302D: régression 5/45

Modèle linéaire Définition Un modèle de régression linéaire simple est de la forme où Y = β 0 + β 1 X + ε Y est la variable dépendante (une v.a.). β 0 et β 1 sont les coefficients (ordonnée à l origine et pente). X est la variable indépendante (variable explicative). ε est une erreur aléatoire. MTH2302D: régression 7/45

Modèle linéaire (suite) L espérance de Y pour chaque X est le point sur la droite d équation E(Y X) = β 0 + β 1 X. On suppose que Pour chaque valeur de X, E(ε) = 0 et V(ε) = σ 2. ε N(0, σ 2 ). Les erreurs ε sont indépendantes (non corrélées). On cherche à Estimer les paramètres β 0, β 1 et σ 2. Vérifier si le modèle est adéquat. MTH2302D: régression 8/45

Paramètres β 0 et β 1 Supposons que n paires d observations (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) ont été faites. Substituant dans le modèle linéaire, on obtient Y i = β 0 + β 1 X i + ε i ε i = Y i β 0 β 1 X i. Les coefficients sont déterminés par la méthode des moindres carrés qui minimise la somme des carrés des erreurs : L(β 0, β 1 ) = n (Y i β 0 β 1 X i ) 2. i=1 On résout le système de deux équations à deux inconnues L( ˆβ 0, ˆβ 1 ) = 0. MTH2302D: régression 10/45

Paramètres β 0 et β 1 (suite) ˆβ 0 = Y ˆβ 1 X L( ˆβ 0, ˆβ 1 ) = 0 n i=1 ˆβ 1 = X iy i n X Y n i=1 X2 i avec nx2 X = 1 n n i=1 X i et Y = 1 n n i=1 Y i. = S XY S XX S XX = n i=1 (X i X) 2 = n i=1 X2 i nx2 = (n 1)S 2. S Y Y = n i=1 (Y i Y ) 2 = n i=1 Y 2 i ny 2. S XY = n i=1 (X i X)(Y i Y ) = n i=1 X iy i n X Y. Exemple 2 : retrouver ces formules. MTH2302D: régression 11/45

Droite de régression pour l exemple 1 90 85 80 75 70 65 données droite de régression 60 55 50 45 40 90 110 130 150 170 190 Voir fichier Excel. MTH2302D: régression 12/45

Propriétés de β 0 et β 1 La droite de régression estimée est Ŷ = ˆβ 0 + ˆβ 1 X. Les variables aléatoires ˆβ 0 et ˆβ 1 sont des estimateurs de l ordonnée à l origine β 0 et de la pente β 1. Théorème 1. E( ˆβ 0 ) = β 0 et E( ˆβ 1 ) = β 1 (estimateurs non biaisés). [ ] 2. V( ˆβ 0 ) = σ 2 1 n + X2 et V( S ˆβ 1 ) = σ2. XX S XX 3. Cov( ˆβ 0, ˆβ 1 ) = σ2 X S XX. MTH2302D: régression 13/45

Paramètre σ 2 Rappel : le modèle de régression est Y = β 0 + β 1 X + ε avec ε N(0, σ 2 ). La différence entre la valeur estimée Ŷi = ˆβ 0 + ˆβ 1 X i et la valeur observée Y i est appelée résidu et est dénotée E i = Ŷi Y i. On définit La somme des carrés dûe à l erreur par SS E = n Ei 2 = i=1 n (Ŷi Y i ) 2. i=1 La somme des carrés dûe à la régression par SS R = n i=1 (Ŷi Y ) 2 = ˆβ 2 1S XX = S2 XY S XX. MTH2302D: régression 14/45

Paramètre σ 2 (suite) La quantité S Y Y décomposer par représente la variabilité totale des Y i. On peut la S Y Y = SS T = SS E + SS R. Théorème 1. E(SS E ) = (n 2)σ 2. 2. ˆσ 2 = SS E n 2 MS E est donc un estimateur sans biais de σ 2. MTH2302D: régression 15/45

Exemple 1 (suite) L analyse de la température de fonctionnement d un procédé chimique sur le rendement du produit a donné les valeurs suivantes pour la température X i et le rendement correspondant Y i : Température C Rendement % Température C Rendement % 100 45 150 70 110 51 160 74 120 54 170 78 130 61 180 85 140 66 190 89 Voir fichier Excel. MTH2302D: régression 16/45

Distributions pour ˆβ 0 et ˆβ 1 Théorème La statistique ˆβ 0 β 0 [ ] MS 1 E n + X2 S XX suit une loi de Student à n 2 degrés de liberté. Théorème La statistique ˆβ 1 β 1 MSE /S XX suit une loi de Student à n 2 degrés de liberté. MTH2302D: régression 18/45

Intervalles de confiance pour β 0 et β 1 Théorème Intervalles de confiance bilatéraux au niveau de confiance 1 α pour β 0 et β 1 : [ ] β 0 = ˆβ 0 ± t 1 α/2;n 2 MSE n + X2 S XX β 1 = ˆβ 1 ± t α/2;n 2 MSE S XX. Voir fichier Excel. MTH2302D: régression 19/45

Intervalles de confiance pour la droite de régression Il s agit d un intervalle de confiance pour E(Y 0 x 0 ), la réponse moyenne à la valeur x 0. Pour x 0 donné soit Ŷ0 = ˆβ 0 + ˆβ 1 x 0 l estimateur de E(Y 0 x 0 ). Théorème Intervalle de confiance pour E(Y 0 x 0 ) au niveau de confiance 1 α : [ 1 E(Y 0 x 0 ) = Ŷ0 ± t α/2;n 2 MS E n + (X x 0) 2 ] S XX MTH2302D: régression 20/45

Exemple 1 (suite) Le calcul de l intervalle de confiance à 95% en chaque point x 0 = X i, i = 1, 2,..., 10 donne le tableau suivant : x 0 100 110 120 130 140 ŷ 0 45.56 50.39 55.22 60.05 64.88 limites ±1.30 ±1.10 ±0.93 ±0.79 ±0.71 x 0 150 160 170 180 190 ŷ 0 69.72 74.55 79.38 84.21 89.04 limites ±0.71 ±0.79 0.93 ±1.10 ±1.30 Voir fichier Excel. MTH2302D: régression 21/45

Exemple 1 (suite) à partir des données du tableau précédent, on a tracé l intervalle de confiance pour la droite de régression : 89 84 79 74 69 données droite de régression sous- approx. 64 sur- approx. 59 54 49 44 95 105 115 125 135 145 155 165 175 185 195 MTH2302D: régression 22/45

Intervalles de prévision Soit x 0 une valeur quelconque. La valeur correspondante de Y est Y 0 = Y x 0 = β 0 + β 1 x 0 + ε 0. On estime ponctuellement Y 0 par Ŷ 0 = ˆβ 0 + ˆβ 1 x 0. La statistique Y 0 [ MS Ŷ0 ] E 1 + 1 n + (X x 0) 2 S XX suit une loi de Student à n 2 degrés de liberté. Théorème Intervalle de prévision pour la valeur de Y en x 0 : [ Y 0 = Ŷ0 ± t α/2;n 2 MS E 1 + 1 n + (X x 0) 2 ]. S XX MTH2302D: régression 23/45

Remarques : IC vs IP Les longueurs des deux types d intervalles croissent lorsque x 0 s éloigne de X. L IC de la droite de régression ne convient pas pour effectuer des prévisions puisqu il concerne la vraie réponse moyenne au point X = x 0, soit un paramètre de la population, et non une nouvelle observation, i.e. une nouvelle valeur pour la v.a. Y. L IP en x 0 est toujours plus grand que l IC en x 0 car il dépend de l erreur associée aux futures observations. L IP prend en compte une nouvelle observation, d où une augmentation de σ 2 MS E de la variance. L IP n est valide que pour une nouvelle observation à la fois. Pour une série de nouvelles observations, il faut mettre à jour le modèle au fur et à mesure. Voir fichier Excel. MTH2302D: régression 24/45

Exemple 1 (suite) à partir des données du tableau précédent, on a tracé l intervalle de prévision pour α = 5% : 118 98 78 données droite de régression sous- approx. 58 sur- approx. 38 18 50 70 90 110 130 150 170 190 210 230 250 MTH2302D: régression 25/45

Tests d hypothèses pour β 0 La distribution t 0 = ˆβ 0 β 0,0 [ ] T n 2 MS 1 E n + X2 S XX permet de tester des hypothèses du type H 0 : β 0 = β 0,0 H 1 : β 0 β 0,0 On rejette H 0 au seuil α si t 0 > t α/2;n 2. MTH2302D: régression 26/45

Tests d hypothèses pour β 1 La distribution t 0 = ˆβ 1 β 1,0 MSE /S XX T n 2 permet de tester des hypothèses du type H 0 : β 1 = β 1,0 H 1 : β 1 β 1,0 On rejette H 0 au seuil α si t 0 > t α/2;n 2. MTH2302D: régression 27/45

Tableau d analyse de la variance L information donnée par les valeurs S Y Y, SS E et SS R est présentée dans un tableau d analyse de la variance : Source de Somme Nombre Moyenne variation des carrés de d.d.l. des carrés F 0 Régression SS R 1 MS R = SS R 1 MS R MS E Résidus SS E n 2 MS E = SS E n 2 Total SS T = S Y Y n 1 MTH2302D: régression 28/45

Signification de la régression Il s agit de tester les hypothèses H 0 : β 1 = 0 H 1 : β 1 0 Accepter H 0 implique que l on conclut qu il n y a pas de relation linéaire entre X et Y. Ceci peut signifier que La relation entre X et Y n est pas linéaire. La variation de X influe peu ou pas sur la variation de Y. Au contraire, rejeter H 0 implique que l on conclut que la variation de X influe sur la variation de Y. Le critère est : rejeter H 0 au seuil α si F 0 > F α;1,n 2, ou encore si la valeur-p calculée est petite, avec valeur-p =P (F 1,n 2 F 0 ). MTH2302D: régression 29/45

Exemple 1 : tableau d analyse de la variance Source de Somme Nombre Moyenne variation des carrés de d.d.l. des carrés F 0 Régression SS R = 1924.88 1 MS R = 1924.88 2131.57 Résidus SS E = 7.22 8 MS E = 0.90 Total SS T = 1932.10 9 P -val. : P (F 1,8 F 0 ) 5.35 10 11 < α = 5% on rejette H 0. MTH2302D: régression 30/45

Signification de la régression (suite) On ne rejette pas H 0 : y y x x MTH2302D: régression 31/45

Signification de la régression (suite) On rejette H 0 : y y x x MTH2302D: régression 32/45

Rappel des hypothèses pour la régression linéaire Tout ce qui a été fait jusqu ici suppose que Pour chaque X, E(ε) = 0 et V(ε) = σ 2 est constante. Les erreurs ε sont non corrélées. Les erreurs ε sont distribuées normalement. On veut vérifier, après que les observations soient faites, si ces hypothèses sont satisfaites. MTH2302D: régression 34/45

Analyse graphique des résidus Pour vérifier l hypothèse sur σ 2, on peut tracer le graphe des points (Ŷi, E i ) ou (X i, E i ). Les situations possibles sont illustrées ci-dessous. Situation a) Convenable : e i 0 MTH2302D: régression 35/45 ^ y i

Analyse graphique des résidus (suite) Situation b) La variance augmente avec la valeur de Ŷi (ou X i ), donc σ 2 n est pas constante : e i 0 ^ y i MTH2302D: régression 36/45

Analyse graphique des résidus (suite) Situation c) La variance σ 2 n est pas constante : e i 0 ^ y i MTH2302D: régression 37/45

Analyse graphique des résidus (suite) Situation d) Le modèle linéaire n est pas approprié : e i 0 ^ y i MTH2302D: régression 38/45

Test de la normalité des résidus Si les résidus E i sont normalement distribués alors les erreurs ε i le sont aussi. On peut tester si les résidus suivent une loi normale avec : Un histogramme. Un test de normalité (par ex. Shapiro-Wilk). Un graphique de probabilité normal des E i. MTH2302D: régression 39/45

Exemple 1 (suite) Graphe des points (Ŷi, E i ) : Residuals 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0-0,2-0,4-0,6-0,8-1,0-1,2-1,4 Predicted vs. Residual Scores Dependent variable: Rend -1,6 40 45 50 55 60 65 70 75 80 85 90 95 Predicted Values 0,95 Conf.Int. MTH2302D: régression 40/45

Exemple 1 (suite) Graphe de probabilité normale des E i : 2,0 Normal Probability Plot of Residuals 1,5 1,0 Expected Normal Value 0,5 0,0-0,5-1,0-1,5-2,0-1,6-1,4-1,2-1,0-0,8-0,6-0,4-0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 Residuals MTH2302D: régression 41/45

Coefficient de détermination Le coefficient de détermination du modèle de régression linéaire est R 2 = SS R S Y Y = ˆβ 2 1 S XX S Y Y = 1 SS E S Y Y. Le coefficient R 2 mesure le pourcentage de la variabilité totale S Y Y qui est expliquée par le modèle. Si R 2 est proche de 1, alors le modèle semble adéquat. Exemple 1 : R 2 99.63%. MTH2302D: régression 42/45

Coefficient de corrélation Rappel : La corrélation entre deux variables aléatoires X et Y est mesurée par le coefficient ρ = Cov(X, Y ) V(X)V(Y ). Définition Le coefficient de corrélation échantillonnal est r = S XY SXX S Y Y. Le coefficient de corrélation ρ est estimé ponctuellement par r. Exemple 1 : r 99.81%. MTH2302D: régression 44/45

Interprétation du coefficient de corrélation On peut montrer que 1 r 1. Si r = 1 ou r = 1 alors il y a corrélation parfaite entre X et Y et les points (X i, Y i ) sont tous sur la droite de régression. Si r = 0 alors il n y a pas de corrélation entre X et Y et les points (X i, Y i ) sont dispersés au hasard. Si 0 < r < 1 alors il y a corrélation positive faible, moyenne ou forte entre X et Y. Dans ce cas, une augmentation de X entraîne une augmentation de Y. Si 1 < r < 0 alors il y a corrélation négative faible, moyenne ou forte entre X et Y. Dans ce cas, une augmentation de X entraîne une diminution de Y. MTH2302D: régression 45/45