La régression linéaire multiple

Plan La régression linéaire multiple - Chapitre V - Notes de cours Modélisation Statistique L3 MIASHS - Université de Bordeaux - Chapitre V - L3 MIASHS- La régression linéaire multiple 1/46

Plan Plan 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 2/46

Plan Ecriture du modèle et estimation des paramètres Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 3/46

Première écriture du modèle Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Le modèle de régression linéaire multiple s écrit sous la forme : p Y = β 0 + β k X (k) + ε (1) k=1 - les p variables explicatives X (k) sont non aléatoires réelles, - l erreur ε est aléatoire, - la variable à expliquer Y est donc aléatoire. L objectif : estimer les p + 1 paramètres β 0,..., β p. - Chapitre V - L3 MIASHS- La régression linéaire multiple 4/46

Seconde écriture du modèle Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique On se donne deux n-échantillons (X n ) et (Y n ) qui ne sont pas mutuellement indépendants où : - (X n ) forme une suite de vecteurs de dimension p 1, - X i = (X (1) i,..., X (p) i ) est la ième composante de (X n ). Le modèle s écrit alors : Y i = β 0 + p k=1 β k X (k) i + ε i i = 1,..., n. (2) - Chapitre V - L3 MIASHS- La régression linéaire multiple 5/46

Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Les hypothèses sont celles de la régression linéaire simple : (1) E[ε i ] = 0, i = 1,..., n : les erreurs sont centrées, E[Y i ] = β 0 + p k=1 β kx (k) i. (2) V(ε i ) = σ 2, i = 1,..., n : la variance des erreurs est constante, on parle d homogénéité des variances ou encore d homoscédasticité, V(Y i ) = σ 2. Remarque : σ 2 est un autre paramètre inconnu à estimer. (3) Cov(ε i, ε l ) = 0, i l : les erreurs sont non corrélées, Cov(Y i, Y l ) = 0. Remarque : Lorsqu on ajoute une hypothèse de normalité sur les ε i, les ε i sont indépendants. (ε n ) est alors un bruit blanc gaussien. - Chapitre V - L3 MIASHS- La régression linéaire multiple 6/46

Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Sous les hypothèses (1) à (3), l estimateur des moindres carrées de β = (β 0, β 1,..., β p ) t aura de bonnes propriétés. En ajoutant l hypothèse de normalité des erreurs, on pourra définir l estimateur du maximum de vraisemblance de β et effectuer des tests sur la nullité des paramètres. En pratique, il conviendra de vérifier si ces hypothèses sont vérifiées. - Chapitre V - L3 MIASHS- La régression linéaire multiple 7/46

Ecriture matricielle du modèle Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Le modèle (2) s écrit : où Y = X β + ε (3) Y 1 1 X (1) 1 X (2) 1... X (p) 1 β 0 ε 1 Y 2 Y =., X = 1 X (1) 2 X (2) 2... X (p) 2 β...., β = 1 ε., ε = 2.. Y n 1 X n (1) X n (2)... X n (p) β p ε n - Chapitre V - L3 MIASHS- La régression linéaire multiple 8/46

Ecriture matricielle Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Les 3 hypothèses précédentes peuvent alors s écrire sous la forme : (1 ) E(ε) = 0 n E(Y ) = X β R n. (2 ) V(ε) = σ 2 I n V(Y ) = σ 2 I n. où 0 n est le vecteur nul de dimension n et I n est la matrice identité de dimension n n. On suppose en outre que p + 1 < n, rang(x ) = p + 1, c est-à-dire qu il n existe pas de liaison linéaire entre les X (k). - Chapitre V - L3 MIASHS- La régression linéaire multiple 9/46

Ecriture matricielle Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Il est important de bien faire la différence entre l expression E(Y i ) = β 0 + p k=1 β kx (k) i (qui désigne l espérance d une variable aléatoire scalaire), et l expression E(Y ) = X β (qui désigne l espérance d une variable aléatoire vectorielle) : on obtient dans un cas un scalaire, dans l autre cas un vecteur de R n. l expression V(Y i ) = σ 2 (qui désigne la variance d une variable aléatoire scalaire), et l expression V(Y ) = σ 2 I n (qui désigne la covariance d une variable aléatoire vectorielle) : on obtient dans un cas un scalaire (σ 2 ), dans l autre cas une matrice carrée (σ 2 I n ) de dimension n n. - Chapitre V - L3 MIASHS- La régression linéaire multiple 10/46

Estimateur des moindres carrés de β Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique On cherche l équation de la droite de régression en dimension p + 1 pour laquelle les erreurs quadratiques (ε 2 n) sont les plus faibles. On cherche alors à minimiser n ε 2 i = i=1 n i=1 (Y i β 0 β 1 X (1) i β 2 X (2) i... β p X (p) i ) 2 = ε t ε On remarque que ε = Y X β, ce qui nous conduit à ε t ε = (Y X β) t (Y X β) = Y t Y 2 Y t X β + β t X t X β - Chapitre V - L3 MIASHS- La régression linéaire multiple 11/46

Estimateur des moindres carrés de β Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Ainsi, par dérivation (vectorielle...) par rapport à β, ε t ε β = 2 X t Y + 2 X t X β. Chercher à annuler cette dérivée revient à choisir l estimateur β tel que X t X β = X t Y et donc Exercice 1 (facile). β = (X t X ) 1 X t Y. (4) Cela nous contraint en outre à supposer que la matrice X t X de dimension (p + 1) (p + 1) est bien inversible. - Chapitre V - L3 MIASHS- La régression linéaire multiple 12/46

Prédictions et résidus Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Une fois que β a été estimé, nous pouvons reconstruire nos données à l aide de notre modélisation. On construit les prédictions et les résidus Ŷ i = β 0 + p k=1 β k X (k) i ou encore Ŷ = X β, ε i = Y i Ŷi ou encore ε = Y Ŷ. Remarque. Ŷ i estime E(Y i ). - Chapitre V - L3 MIASHS- La régression linéaire multiple 13/46

Propriétés de ˆβ Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Sous les hypothèses retenues, on peut montrer que : Exercice 2 (facile). E( ˆβ) = β V( ˆβ) = σ 2 (X t X ) 1 On peut également montrer que ˆβ est l estimateur sans biais de variance minimale ou encore estimateur BLUE (Best Linear Unbiased Estimator). - Chapitre V - L3 MIASHS- La régression linéaire multiple 14/46

Estimation de σ 2 Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Selon la stratégie usuelle, on considère l estimateur σ 2 = 1 n p 1 n i=1 ε 2 i = t ε ε n p 1 Sous les hypothèses retenues on peut montrer que : Exercice 3 (difficile). E[ σ 2 ] = σ 2. - Chapitre V - L3 MIASHS- La régression linéaire multiple 15/46

Estimation de σ 2 Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique On en déduit un estimateur sans biais de V( ˆβ) ; ˆV( ˆβ) = ˆσ 2 (X t X ) 1. Pour débiaiser l estimateur de σ 2 nous retrouvons une normalisation par n p 1 lorsque l estimation concerne p + 1 paramètres. - Chapitre V - L3 MIASHS- La régression linéaire multiple 16/46

Interprétation géométrique Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique On munit l espace R n des variables de la métrique D = 1 n I n. On note W le sous-espace de R n de dimension p + 1 engendré par les colonnes de X. On montre alors que : Ŷ est la projection D-orthogonale de Y sur W. La preuve est directe en écrivant : Ŷ = P W Y, avec P W = X (X t DX ) 1 X t D l opérateur de projection sur W. - Chapitre V - L3 MIASHS- La régression linéaire multiple 17/46

Plan Ecriture du modèle et estimation des paramètres 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 18/46

Hypothèse supplémentaire On ajoute l hypothèse de normalité des erreurs : ε i N (0, σ 2 ) Y i N (βx i, σ 2 ), ou encore matriciellement : (3 ) ε N (0 n, σ 2 I n ) Y N (βx, σ 2 I n ). Remarques. Sous l hypothèse de normalité, V(ε) = V(Y ) = σ 2 I n implique que le ε i et les Y i sont indépendants. Les hypothèses (1 ), (2 ) (3 ) (ε n ) est un bruit blanc de loi N (0, σ 2 ). - Chapitre V - L3 MIASHS- La régression linéaire multiple 19/46

Estimateurs du maximum de vraisemblance de β et de σ 2 La fonction de vraisemblance est la densité conjointe des Y i notée L(β, σ 2 ). Les estimateurs β et σ 2 qui maximisent L(β, σ 2 ) sont : β = (X t X ) 1 X t Y = ˆβ σ 2 = 1 n (Y X ˆβ) t (y X ˆβ) = 1 n ˆεt ˆε ˆσ 2 Exercice 4 (facile). Remarque. σ 2 est biaisé. - Chapitre V - L3 MIASHS- La régression linéaire multiple 20/46

Propriétés de β et σ 2 Sous les hypothèses (1 ), (2 ) et (3 ) on montre que : 1 β N ( β, σ 2 (X t X ) 1) ˆβ N ( β, σ 2 (X t X ) 1). 2 n σ2 σ 2 χ 2 (n p 1) (n p 1) ˆσ2 σ 2 χ 2 (n p 1). 3 β et σ 2 indépendants ˆβ et ˆσ 2 indépendants. Exercice 5 (difficile). - Chapitre V - L3 MIASHS- La régression linéaire multiple 21/46

Plan Ecriture du modèle et estimation des paramètres Définition Interprétation 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 22/46

Définition Ecriture du modèle et estimation des paramètres Définition Interprétation On définit R comme le coefficient de corrélation linéaire entre les Y i et les Ŷ i. Son carré s interprète en terme de variance expliquée : n R 2 i=1 = (Ŷi Ȳ n ) 2 n i=1 (Y i Ȳ n ) 2 = SCE SCT = 1 SCR SCT. avec la décomposition : n n n (Y i Ȳ n ) 2 = (Y i Ŷn) 2 + (Ŷi Ȳ n ) 2 i=1 } {{ } SCT i=1 } {{ } SCR i=1 } {{ } SCE Remarque. R 2 = 1 l ajustement est parfait : i, Ŷi = Y i. - Chapitre V - L3 MIASHS- La régression linéaire multiple 23/46

Interprétation Définition Interprétation Interprétation géométrique : R est le cosinus de l angle formé par (Y Ȳ ) et (Ŷ Ȳ ) où Ȳ = (Ȳ n,..., Ȳ n ) t R n. Interprétation statistique : R 2 peut être utilisé pour tester l ajustement de Y par Ŷ. On peut montrer que sous H 0 : β 1 =... = β q = 0 (ou H 0 : R 2 = 0 ) : F n = SCE/p SCR/(n p 1) = R 2 /p (1 R 2 F (p, n p 1) )/(n p 1) Exercice 6 (facile). On rejette H 0 si F n > f p, n p 1, 1 α. - Chapitre V - L3 MIASHS- La régression linéaire multiple 24/46

Plan Ecriture du modèle et estimation des paramètres Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 25/46

Test de significativité du modèle Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs Nous avons vu que l on peut utiliser la statistique de test pour tester l hypothèse F n = SCE/p SCR/(n p 1) H 0 : β 1 =... = β p = 0 contre H 1 : j {1,..., p}, β j 0. La zone de rejet associé à cette statistique est : R = ]f p, n p 1, 1 α, + [. - Chapitre V - L3 MIASHS- La régression linéaire multiple 26/46

Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs Test de significativité d un coefficient β k On veut tester H 0 : β k = 0 contre H 1 : β k 0 construire une statistique de test dont on connaît la loi sous H 0. On peut montrer que β k β k σ c kk t(n p 1) où c 00, c 11,..., c pp sont les éléments diagonaux de (X t X ) 1 Exercice 7 Remarque. ˆV( ˆβ k ) = ˆσ 2 c kk. - Chapitre V - L3 MIASHS- La régression linéaire multiple 27/46

Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs Test de significativité d un coefficient β k On utilise donc la statistique de test T n = β k σ c kk pour tester les hypothèses H 0 : β k = 0 contre H 1 : β k 0 La zone de rejet associé à cette statistique est : R = ], t n p 1, 1 α/2 [ ] t n p 1, 1 α/2, + [. - Chapitre V - L3 MIASHS- La régression linéaire multiple 28/46

Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs Test de significativité d un coefficient β k Rejeter H 0 signifie : que la variable explicative X (k) joue un rôle dans le modèle de régression, c est-à-dire que X (k) apporte de l information quant à la reconstruction de Y, que le coefficient β k est significativement non nul, que β k s interprète comme le taux d accroissement moyen de Y en fonction d une variation de X (k) lorsque tous les autres régresseurs X (1),..., X (k 1), X (k+1),..., X (p) restent fixés. - Chapitre V - L3 MIASHS- La régression linéaire multiple 29/46

Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs Contribution jointe d un ensemble de régresseurs On cherche à tester la nullité des q p premiers paramètres : H 0 : β 1 =... = β q = 0 contre H 1 : k {1,..., q}, β k 0. Cela revient à comparer deux modèles : le modèle complet à p regresseurs (modèle 1) pour lequel on évalue la somme des carrés des résidus SCR 1, le modèle réduit à p q regresseurs (modèle 0) pour lequel on évalue la somme des carrés des résidus SCR 0. - Chapitre V - L3 MIASHS- La régression linéaire multiple 30/46

Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs Contribution jointe d un ensemble de régresseurs On peut montrer que sous H 0 : (SCR 0 SCR 1 )/q F (q, n p 1). SCR 1 /(n p 1) Nous en déduisons la zone de rejet associée à cette statistique de test : R = ]f q, n p 1, 1 α, + [. Remarque. Ce test est utile pour faire de la modélisation pas à pas et sélectionner un ensemble optimal de régresseurs nécessaires à la reconstruction de Y. - Chapitre V - L3 MIASHS- La régression linéaire multiple 31/46

Plan Ecriture du modèle et estimation des paramètres Intervalle de prédiction Intervalle de confiance 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 32/46

Intervalle de prédiction Intervalle de confiance Objectif : prévoir à l aide du modèle la valeur de Y pour une nouvelle observation notée (X (1) 0,..., X (p) 0 ). D après le modèle, on a : où X 0 = (1, X (1) 0,..., X (p) 0 ) t, Deux possibilités : Y 0 = X t 0β + ε 0, Construire un intervalle qui contient la prédiction Ŷ 0 = Ê(Y 0 ) avec une probabilité 1 α (intervalle de prédiction). Construire un intervalle de confiance de E(Y 0 ) de niveau 1 α. - Chapitre V - L3 MIASHS- La régression linéaire multiple 33/46

Intervalle de prédiction Intervalle de prédiction Intervalle de confiance La prédiction pour une nouvelle observation est donc : On montre que Ŷ 0 = X t 0 ˆβ. Exercice 8. Y 0 Ŷ0 ˆσ 1 + X t 0 (X t X ) 1 X 0 T (n p 1). On en déduit l intervalle de prédiction qui est : [ ] Ŷ 0 ± t n p 1,1 α/2 ˆσ 1 + X t0 (X t X ) 1 X 0 - Chapitre V - L3 MIASHS- La régression linéaire multiple 34/46

Intervalle de confiance Intervalle de prédiction Intervalle de confiance On veut construire un intervalle de confiance du paramètre E(Y 0 ) = X t 0β On sait que Ŷ 0 N (X t 0 β, σ2 X t 0 (X t X ) 1 X 0 ) doù Ŷ 0 X t 0 β ˆσ X t 0 (X t X ) 1 X 0 T (n p 1). On en déduit l intervalle de confiance qui est : [ ] Ŷ 0 ± t n p 1,1 α/2 ˆσ X t0 (X t X ) 1 X 0 - Chapitre V - L3 MIASHS- La régression linéaire multiple 35/46

Plan Ecriture du modèle et estimation des paramètres Les critères de choix Les procédures de sélection de variables 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 36/46

Les critères de choix Les procédures de sélection de variables Objectif : Sélectionner parmi les p variables explicatives, les q p variables qui donnent le meilleur modèle pour prédire Y. Il va donc falloir : Définir un critère qui permet de comparer deux modèles n ayant pas nécessairement le même nombre de variables explicatives. Définir un procédure qui permet d optimiser ce critère parmi tous les modèles. On parle de procédure de choix de modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 37/46

Les critères de choix Les critères de choix Les procédures de sélection de variables Le coefficient R 2 = 1 SCR SCT mesure l ajustement du modèle aux données, augmente lorsque le nombre de variables incluses dans le modèle augmente, permet de comparer des modèles ayant le même nombre de variables Ce critère ne peut pas être utilisé dans une procédure de choix de modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 38/46

Les critères de choix Les critères de choix Les procédures de sélection de variables Le coefficient Rajusté 2 = 1 SCR/(n p 1) SCT /(n 1) Estime le Rpopulation 2 = 1 V(ε) V(Y ) = 1 σ2, σy 2 peut prendre des valeurs négatives, n augmente pas forcément lorsque le nombre de variables introduites dans le modèle augmente. Ce critère peut être utilisé dans une procédure de choix de modèle (à maximiser). - Chapitre V - L3 MIASHS- La régression linéaire multiple 39/46

Les critères de choix Les critères de choix Les procédures de sélection de variables Le C q de Mallows : C q = SCR 0 n + 2(q + 1) SCR1/(n p 1) où SCR 1 est évalué pour le modèle complet à p variables, SCR 0 est évalué pour le modèle réduit à q variables. Ce critère doit être comparé à q + 1 dans une procédure de choix de modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 40/46

Les critères de choix Les critères de choix Les procédures de sélection de variables Les critères de vraisemblance pénalisée : AIC (Akaike Information Criterion) AIC = 2 ln(l) + 2k, BIC (Bayesian Information Criterion) : BIC = 2 ln(l) + k ln(n), où L est la vraisemblance du modèle estimé (vraisemblance maximisée), k est le nombre de paramètres du modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 41/46

Les critères de choix Les critères de choix Les procédures de sélection de variables Les critères de AIC et BIC en régression multiple : k = q + 1 (paramètres β 1,..., β q et σ), 2 ln(l) = n [ln(2π σ) + 1] où σ = SCR n souvent remplacé par ˆσ = SCR n p 1. Les critères AIC et BIC peuvent alors être simplifiés : AIC = n ln(scr) + 2k AIC = n ln(ˆσ) + 2k BIC = n ln(scr) + k ln(n) BIC = n ln(ˆσ) + k ln(n) Ces critères doivent être minimisés dans une procédure de choix de modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 42/46

Les critères de choix Les procédures de sélection de variables Procédure exhaustive de sélection de variables Il s agit d évaluer avec l un des critères précédent tous les modèles de régression à q p variables et retenir le meilleur mais, le nombre de modèles à q variables est C q p = p! q!(p q)!, le nombre total de modèles à considérer est p Cp q = 2 p 1. q=1 Le nombre de modèles croît exponentiellement avec p. Par exemple, si 30 variables sont à disposition, on devrait considérer 2 30 = 10 9 modèles... Impossible en pratique dès que p grandit. - Chapitre V - L3 MIASHS- La régression linéaire multiple 43/46

Procédure leaps and bounds Les critères de choix Les procédures de sélection de variables Procédure basée sur l algorithme de Furnival et Wilson : algorithme de type branch and bound, permet de trouver, pour q fixé, le meilleur modèle c est à dire le meilleur sous-ensemble de q variables. Pour q fixé, on a : min AIC min BIC max R 2 max Rajusté 2 min SCR. En pratique : 1 La procédure fournit le meilleur modèle à 1, 2,..., p variables, 2 Choisir q {1,..., p} qui fournit le meilleur modèle avec l un des critères de choix (sauf R 2 et SCR). Remarque. Efficace mais limitée à une trentaine de variables. - Chapitre V - L3 MIASHS- La régression linéaire multiple 44/46

Les critères de choix Les procédures de sélection de variables Procédure pas à pas ascendante (forward stepwise) 1 On effectue p régressions linéaires simple et on sélectionne la variable qui donne le meilleur modèle c est à dire : le modèle qui maximise R 2 minimise SCR... ou de manière équivalente la variable qui a la p-value du test de contribution marginale la plus petite. 2 On effectue p 1 régressions linéaires avec 2 variables explicatives en gardant celle sélectionnée à l étape 1 et on sélectionne celle qui ajoutée à la première : apporte la plus grande augmentation du R 2 maximise la statistique de Fisher du test de contribution jointe, ou de manière équivalente a la p-value du test de contribution marginale la plus petite (variable la plus significative). 3 On recommence jusqu à ce qu aucune variable significative ne puisse être ajoutée. - Chapitre V - L3 MIASHS- La régression linéaire multiple 45/46

Les critères de choix Les procédures de sélection de variables Procédure pas à pas descendante (backward stepwise) 1 On effectue une régression linéaire multiple avec les p variables explicatives disponibles. 2 On effectue p 1 régressions linéaires en supprimant une variable et on sélectionne la variable qui : apporte la plus grande diminuation du R 2 minimise la statistique de Fisher du test de contribution jointe, ou de manière équivalente a la p-value du test de contribution marginale la plus grande (variable la moins significative). 3 On recommence jusqu à ce qu aucune variable non significative ne puisse être retirée. - Chapitre V - L3 MIASHS- La régression linéaire multiple 46/46