Modèle de régression linéaire: cas bivarié

U. Pars Ouest, M1 - Cours de Modélsaton Applquée Modèle de régresson lnéare: cas bvaré Laurent Ferrara Févrer 017

Sot varables contnues X et Y. On observe les untés epérmentales : (, y ), pour = 1,, n. 1. Este-t-l un len entre X et Y?. Comment le mesurer? 3. Comment modélser ce len? 4. Comment estmer les paramètres de ce modèle? 5. Comment valder ce modèle? 6. Comment trer parte de ce modèle pour prévor les valeurs d une varable d après les valeurs de l autre?

Gra 40 45 50 55 60 65 Eemple : données USA 199 sur 50 états (state.77) Este-t-l un len entre : les revenus d un état et le nombre de ses «hgh-school graduates»? 3000 3500 4000 4500 5000 5500 6000 Inc

Lfe Ep 68 69 70 71 7 73 Causalté? Este-t-l un len entre : Le nombre de meurtres et l espérance de ve? 4 6 8 10 1 14 U. Pars Ouest Murder L. Ferrara, 016-17

Este-t-l un len entre : L arrvée de mgrants et le vote au électons US?

Quel type de len? Mse en évdence un len lnéare entre les varables. Y est consdérée comme la varable à eplquer, ou ndépendante, ou eogène X est consdérée comme la varable eplcatve, ou dépendante, ou endogène. Relaton statstque entre les varables (non-détermnste) : la connassance de X n mplque pas la connassance parfate de Y : l este une erreur aléatore autour de la valeur prédte

Comment mesurer un len lnéare? Outl prncpal : Coeffcent de corrélaton lnéare Estmateur emprque : n n n Y y X Y y X Y X 1 1 1 ) ( ) ( ) )( ( ), ( ) ( ) ( ), ( ), ( Y V X V Y X Cov Y X c

Comment mesurer un len lnéare? Sgnfcaton : c( X, Y) 1 a, b t. q. : Y ax b c( X, Y ) 1? Test de Student H0 : H1 : ( X, Y) ( X, Y) 0 0

Comment mesurer un len lnéare? Sous l hypothèse nulle H0 : ( X, Y ) (1 ( X, Y )) n sut une lo de Student à (n-) dl Donc, s t* ( X, Y ) (1 ( X, Y )) n est tq : t* > 1 / t n on rejette H0 au rsque

Eemple : Evoluton des tau souverans à 10 ans pour US et Royaume Un Coeffcent de corrélaton de 0,9 Queston économque: quel est le degré d ndépendance des poltques monétares? Len avec le trangle d ncompatblté de Mundell en macro nter

Eemple : Corrélaton des tau souverans pour US et Royaume Un pour dfférentes maturtés sous forme de heat map

Attenton au pège : dépendance non lnéare le coeff de corrélaton ne mesure que la dépendance lnéare. > cor(, y) [1] 0.99 > cor(, y) [1] 0.46 > cor(, y3) [1] 0.854 > cor(, yep) [1] 0.898 Effectuer une analyse graphque au préalable pour dentfer la forme de la dépendance. Un coeff de corrélaton élevé ne sgnfe pas forcément une dépendance lnéare.

y3-4 - 0 4 6 yep 0 1 3 4 5 6 y -1 0 1 y 0 1 3-1 0 1-1 0 1-1 0 1-1 0 1 U. Pars Ouest L. Ferrara, 016-17

Attenton au pège : Corrélaton fallaceuse Estence d un coeff de corrélaton non nul entre deu varables qu aucune théore économque, physque ne rele. cas : résultat purement aléatore estence d un trosème varable qu eplque conjontement les phénomènes (en général : le temps) Eemple de Krugman : len désndustralsaton - délocalsaton au USA (Applcaton à la France)

Evoluton de l emplo ndustrel France (Trmestrel 1991-003) empndus 4700,0 4600,0 4500,0 4400,0 4300,0 400,0 4100,0 4000,0 mars-91 jul-91 nov-91 mars-9 jul-9 nov-9 mars-93 jul-93 nov-93 mars-94 jul-94 nov-94 mars-95 jul-95 nov-95 mars-96 jul-96 nov-96 mars-97 jul-97 nov-97 mars-98 jul-98 nov-98 mars-99 jul-99 nov-99 mars-00 jul-00 nov-00 mars-01 jul-01 nov-01 mars-0 jul-0 nov-0 mars-03

Evoluton des mportatons de bens en volume France 1991-003 Imports,10 1,90 1,70 1,50 1,30 1,10 0,90 0,70 mars-91 jul-91 nov-91 mars-9 jul-9 nov-9 mars-93 jul-93 nov-93 mars-94 jul-94 nov-94 mars-95 jul-95 nov-95 mars-96 jul-96 nov-96 mars-97 jul-97 nov-97 mars-98 jul-98 nov-98 mars-99 jul-99 nov-99 mars-00 jul-00 nov-00 mars-01 jul-01 nov-01 mars-0 jul-0 nov-0 mars-03

Corrélaton = - 0,50, t de Student = 3,99 Concluson statstque : on rejette l hypothèse H0 de nullté de la corrélaton lnéare entre les varables Concluson économque rapde : les pays à fables coûts salarau détrusent les emplos dans l ndustre Françase Hypothèse alternatve : les destructons d emplos ndustrels peuvent être causées en parte par la basse des dépenses (en valeur) des ménages en produts manufacturés, lée à la forte hausse de la productvté dans l ndustre par comparason avec celle dans les servces

On remarque également que les coeffcents de corrélaton entre chacune des varables et le temps sont de : -0,75 pour l emplo ndustrel 0,94 pour les mports Eercce : Proposer des eemples de corrélaton fallaceuse

Attenton au pège : Un coeff de corrélaton nul ne sgnfe pas que les varables sont ndépendantes (sauf dans le cas Gaussen) En partculer, l peut ester une relaton sur les moments d ordre supéreur du modèle Eemple : len lnéare entre les varances de X et Y (cas des processus ARCH en séres chronologques)

Autres outls de mesure de dépendance: Concordance Corrélaton de rang (Tau de Kendall, coeffcent de Spearman) Corrélaton condtonnelle L epresson générale de la dépendance ne peut se fare que par la lo jonte. S celle-c n est pas calculable: concept de copules

Comment modélser un len lnéare? Quel est le «melleur» ajustement lnéare entre v.a.? Eemple : tau longs souverans / dette publque brute

Notaton y ŷ est la ème observaton de la varable eogène est la ème observaton de la varable endogène Est la valeur ajustée (estmée) de la ème observaton Equaton de la melleure drote d ajustement: ˆ y b b 0 1

En utlsant Erreur de prévson (ou erreur résduelle) ŷ pour prédre, on fat une erreur de prévson: e y yˆ y La drote d ajustement qu colle le meu au données est celle pour laquelle les n erreurs de prévsons sont les plus pettes possbles au sens d un certan crtère.

Crtère des Mondres Carrés Equaton de la drote : ˆ y b0 b1 Chosr les valeurs b 0 et b 1 qu mnmse la somme des carrés des erreurs..e. : mnmser: Q n 1 ˆ y y

La drote de régresson Par le calcul, mnmser (dérver, annuler et résoudre pour b 0 et b 1 ): 1 1 0 n b b y Q et obtenr les estmateurs des mondres carrés ordnares (MCO) de b 0 et b 1 : n n y y b 1 1 1 ˆ b y b 1 0 ˆ ˆ

Remarques En termes géométrques la drote de régresson est celle qu mnmse la dstance quadratque entre les ponts et les projectons orthogonales de ces ponts sur cette drote. la drote de régresson est celle qu mamse la varance du nuage de ponts projetés orthogonalement sur cette drote.

Formalsaton Hypothèses du modèle lnéare : H1 : E(Y ) foncton lnéare des (détermnstes) y = b 0 + b 1 +, pour =1,,n H : Les erreurs,, sont ndépendantes entre elles H3 : E( ) = 0, les erreurs sont d espérance nulle (en moyenne le modèle est ben spécfé)

H4 : E( ) =, les erreurs sont de varance égale pour toute valeur de X (hypothèse d homoscédastcté) H5 : E(X ) = 0, les erreurs,sont ndépendantes des valeurs de X H6 : Hypothèse de Normalté Les erreurs,, sont dentquement dstrbuées selon la lo Normale.

Estmaton des paramètres Quels paramètres? b 0, b 1, bˆ ˆ 0, b ˆ 1, bˆ 0, bˆ 1 estmés par MCO ˆ estmée par l erreur quadratque moyenne ou Mean Squared Error (MSE)

La MSE est défne par : MSE 1 ˆ n Y Yˆ n On pondère par le nombre de degrés de lberté du modèle défn par : degrés de lberté = nbre d observatons - nbre de paramètres

Lo asymptotque des paramètres Les estmateurs MCO sont sans bas et convergents On montre que : E E( b ˆ1) b1 ( bˆ0 ) b0 On montre que : V ( bˆ ) 1 n 1 ˆ ( X ) Donc V bˆ ) 0 s n ( 1

Lo asymptotque des paramètres De même, n X X n b V 1 0 ) ( 1 ˆ ) ˆ ( n s b V 0 ) ˆ ( 0

Remarques Dans ce cadre, sous l hypothèse de normalté des erreurs, estmateur MCO = estmateur EMV La varance estmée par le modèle est dfférente de la varance emprque (valable pour tout échantllon qu sut le modèle lnéare) La varance résduelle mesure avec quelle ampltude les valeurs de Y s écartent de la drote de régresson. C est une mesure de la précson du modèle C est une mesure du rsque assocé au modèle

Eemple : précsons dfférentes

Remarques Quel est le but du jeu de toute tentatve de modélsaton d une varable Y? Mnmser la varance résduelle Y = parte détermnste + parte aléatore Y = f(x) + Par ndépendance, V(Y) = V(f(X)) + V() (Vor parte «Analyse de la Varance»)

Valdaton du modèle On valde le modèle à l ade des tests statstques. types de tests d hypothèses sont développés : 1) Tests sur les paramètres du modèle ) Tests sur les résdus du modèle

(1-) IC pour la pente ˆb 1 Formule en mots: Paramètre estmé ± (t-multpler standard error) Formule en notatons: bˆ 1 t 1, n X ˆ

Test sur la pente ˆb 1 Null hypothess H 0 : 1 = (en général =0) Alternatve hypothess H 1 : 1 (en général 0) Test statstc t * MSE b 1 b1 seb1 P-value = Rsque mamum d accepter H1 à tort (à comparer avec le rsque de premère espèce ) La P-value est détermnée par référence à une t- dstrbuton avec n- degrés de lberté

(1-) IC pour la constante ˆb 0 Formule en mots: Paramètre estmé ± (t-multpler standard error) Formule en notatons: bˆ 0 t ˆ 1 1, n n X

Test sur la constante ˆb 0 Null hypothess H 0 : 0 = (en général = 0) Alternatve hypothess H A : 0 (en général 0) Test statstc t * MSE b0 b0 1 seb0 n P-value = Rsque mamum d accepter H1 à tort (à comparer avec le rsque de premère espèce ) La P-value est détermnée par référence à une t- dstrbuton avec n- degrés de lberté.

Test sur le terme d erreur Les ntervalles et les tests précédents sont basés sur la Normalté du terme d erreur. Il mporte donc de tester les résdus. Test d adéquaton (Jarque-Bera, KS, ) Test graphques (QQ-Plot) Les résultats restent valdes en cas d écart à la lo Normale s l échantllon est grand. (résultats asymptotques)

Mesure de la qualté du modèle On mesure la qualté du modèle par l analyse de la varance On montre les relatons suvantes : la somme des résdus est nulle,.e. : n 1 e 0 la moyenne de la varable et la moyenne de la varable estmée sont égales,.e. : n n y yˆ 1 1

e y y y y ˆ) ˆ ( ) ( On en dédut l équaton de l analyse de la varance: Varance totale = Varance eplquée + Varance résduelle Objectf : Mamser la varance eplquée

R : mesure de la varance eplquée R 1 n 1 ˆ ( Y Y ) valeur entre 0 et 1 Crtères d nformaton : Akake (1971)

Que veut-on prévor? Prévson La réponse «moyenne» de la populaton = E(Y h ) pour une valeur h E : Quel est le pods moyen pour une talle donnée? (Plus précs que le pods moyen de l échantllon) La réponse Y h(new) à une nouvelle valeur donnée h E : Quel est le pods estmé par le modèle d un nouvel ndvdu chos au hasard de talle donnée?

En fat les prévsons sont égales : ˆ Yh b0 b1 h est le melleur estmateur dans chaque cas. Seuls les ntervalles de confance autour des réponses vont varer

Intervalle de confance pour la réponse moyenne de la populaton E(Y h )

Formule en notaton: Formule en mots: Sample estmate ± (t-multpler standard error), 1 1 ˆ ˆ X X n t y h n h (1-) IC pour la réponse moyenne E(Y h )

Implcatons sur la précson Au plus les valeurs des sont étalées, au plus l ntervalle de confance est pett, donc l estmaton de E(Y h ) est plus précse. Suvant le même échantllon de, au plus la valeur de h est lon de la moyenne emprque, au plus l ntervalle de confance est grand, donc l estmaton de E(Y h ) est mons précse.

Remarques h est une valeur correspondant au champ de l étude mas pas nécessarement une valeur de l échantllon L IC pour E(Y h ) est correct même s le terme d erreur est seulement approché par une lo Normale S le nombre d observatons est grand, l IC pour E(Y h ) est correct même s le terme d erreur s écarte fortement d une lo Normale

Intervalle de Prévson pour la réponse Y h(new) à une nouvelle valeur h(new)

Prévson de Y h(new) s la moyenne E(Y) n est pas connue e : s les paramètres sont estmés on rajoute une ncerttude sur la moyenne de Y

La prévson est non basée h h b b Y 1 0 ˆ ˆ ˆ h h h h h h h h b b b b b b b b Y Y e ) ˆ ( ) ˆ ( ) ˆ ˆ ( ˆ 1 1 0 0 1 0 1 0 Proprété: 0 ) ( e h E

Varance de la prévson n h n h n n 1 1 1 1 ˆ 1 ˆ ˆ Estmaton: Elle dépend de composantes : 1. Varance due à l estmaton de E(Y h ) par. Varance de Y nhérente à sa dstrbuton ŷ h

Sample predcton ± (t-multpler standard error), 1 1 1 ˆ ˆ n t y h n h (1-) IC pour la réponse Y h

Mortalty Regresson Plot Mortalty = 389.189-5.97764 Lattude S = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 % 50 150 Regresson 95% CI 50 95% PI 30 40 Lattude 50