Prédre les vleurs d une vrble contnue Rcco Rkotomll Rcco.Rkotomll@unv-lyon.fr Éque de recherche en Ingénere des Connssnces Lbortore ERIC
Tbleu de données et Sttut des vrbles Identfnt Ps utlsé our les clculs, ms eut être utlsé our les commentres : onts tyques, etc. C g r e tte T A R m g N IC O T IN E m W E IG H T g C O m g A l n e 4..8 6.9 8 5 3 3.6 B e n s o n & H e d g e s 6. 6. 9 3 8 6.6 C m e ll g h ts 8.6 7.9 8. C r lto n 4..4.9 4 6 5.4 C h e s te rfe ld 5. 4.8 8 8 5 5 G o ld e n L g h ts 8.8.7 6. 6 7 9 K e n t.4.9 5.9 5.3 K o o l 6.6..9 3 7 6.3 L & M 4.9..8 8 5 8 5.4 L r k L g h ts 3.7..9 6 4 3 3 M rlb o ro 5..9.9 3 6 4.4 M e rt 7.8.5 7.9 7 5 M u ltf lte r.4.7 8. 4. N e w o rtl g h ts 9.7 4.8 5 7 9.5 N o w. 3.7 8 5.5 O ld G o ld 7. 6.9 8 6 8.5 P llm lll g h t.8. 8. 3 9 5.6 R le g h 5.8.9 6.9 5 7 3 7.5 S le m U ltr 4.5.4.9 6 4.9 T re y to n 4.5.. 7 5.9 T r u e L g h t 7.3.6.9 8 6 8.5 V c e ro yr c h L g h t 8.6.6 9.9 6 9 3.6 V rg n S lm s 5...9 4 9 6 3.9 W n s to n L g h ts.8. 8 4 4.9 Vrbles rédctves Descrteurs Vrbles eogènes Quntttve ou qulttve Vrble à rédre Attrbut clsse Vrble endogène Quntttve Éque de recherche en Ingénere des Connssnces Lbortore ERIC
Éque de recherche en Ingénere des Connssnces Lbortore ERIC 3
Régresson lnére multle Se restrendre à une fmlle de foncton de rédcton lnére Et à des eogènes contnues éventuellement des qulttves recodées y +, +, + L +, + ;, K, n Le terme létore crstllse toutes les «nsuffsnces» du modèle : le modèle n est qu une crcture de l rélté, l sécfcton lnére notmment n est s toujours rgoureusement ecte les vrbles qu ne sont s rses en comte dns le modèle les fluctutons lées à l échntllonnge s on chnge d échntllon, on eut obtenr un résultt dfférent quntfe les écrts entre les vleurs réellement observées et les vleurs rédtes r le modèle,, K, Sont les rmètres/coeffcents du modèle que l on veut estmer à l de des données Éque de recherche en Ingénere des Connssnces Lbortore ERIC 4
Lecture des coeffcents y j j Le coeffcent se lt comme une «roenson mrgnle» Toutes choses égles r lleursc.-à-d. l mct de j sur y ne tent s comte de l nfluence des utres L effet des vrbles est ddtf c.-à-d. les utres vrbles étnt constntes, s j et j y j + j S on veut nlyser les nterctons, l fut donc construre des vrbles synthétques e. y + + + + 3 * E. Imct de «fumer» ET «bore» sur l hyertenson Éque de recherche en Ingénere des Connssnces Lbortore ERIC 5
Régresson lnére multle Démrche de modélston L démrche de modélston est toujours l même estmer les rmètres en elotnt les données évluer l récson de ces estmteurs bs, vrnce, convergence mesurer le ouvor elctf globl du modèle évluer lnfluence des vrbles dns le modèle globlement toutes les vrbles ndvduellement chque vrble un bloc de vrbles q vrbles, q [c est une générlston] sélectonner les vrbles les lus «ertnentes» évluer l qulté du modèle lors de l rédcton ntervlle de rédcton détecter les observtons qu euvent fusser ou nfluencer egérément les résultts onts tyques. Éque de recherche en Ingénere des Connssnces Lbortore ERIC 6
Régresson lnére multle Écrture mtrcelle Pour une melleure concson + n n n j n y y y Éque de recherche en Ingénere des Connssnces Lbortore ERIC 7,,,, n n n + + + Ben noter les dmensons des mtrces + Y N.B. Noter l colonne rerésentnt l constnte
L méthode des mondres crrés Vleur observée y ŷ e Vleur fourne r le modèle L méthode des mondres crrés cherche l melleure estmton des rmètres en mnmsnt l quntté S vec e e Y «e», l erreur observée le résdu est une évluton du terme d erreur Éque de recherche en Ingénere des Connssnces Lbortore ERIC 8
Les hyothèses de l méthode des MCO «â» devennent les EMCO estmteurs des mondres crrés ordnres Hyothèses robblstes hyothèses stochstques les sont observés sns erreur non létores E, en moyenne le modèle est ben sécfé E σ l vrnce de l erreur est constnte homoscédstcté E, j, les erreurs sont non-corrélées non-utocorrélton des erreurs Cov,, l erreur est ndéendnte des vrbles elctves Normle, σ Hyothèses structurelles Rng + c.-à-d. - este, ou encore det /n tend vers une mtrce fne non sngulère qund n +oo n > +, le nombre d observtons est suéreur u nombre de rmètres du modèle vrbles elctves + constnte Ces hyothèses èsent sur les rorétés des estmteurs et sur les los de dstrbuton Éque de recherche en Ingénere des Connssnces Lbortore ERIC 9
EMCO Estmteur des mondres crrés ordnres Prnce de clcul - Estmteur Pour trouver les rmètres qu mnmse S : + + + y S,, ] [ K On dot résoudre S Il y + équtons dtes «équtons normles» à résoudre Éque de recherche en Ingénere des Connssnces Lbortore ERIC Y Y Y Y Y S + + Y S Y
EMCO Estmteur des mondres crrés ordnres Commentres n,,,,,,, L Y Mtrce des sommes des roduts crosés entre les vrbles eogènes Symétrque son nverse uss est symétrque S les vrbles sont centrées /n mtrce de vrnce covrnce S les vrbles sont centrées et rédutes /n mtrce de corrélton +,+ Éque de recherche en Ingénere des Connssnces Lbortore ERIC y y y Y,, M +, Vecteur des sommes des roduts crosés entre l endogène et les vrbles eogènes S les vrbles sont centrées /n Y vecteur des covrnces entre Y et S les vrbles sont centrées et rédutes /n Y vecteur des corréltons entre Y et
Un remer eemle Cgrettes Dns le tbleur ECEL constnte TAR mg NICOTINE mg WEIGHT g CO mg 4..86.9853 3.6 6.6.938 6.6 4 75.6 9.88 3.9 8.67.98. 75.6 363.6 54.77 67.4674 4..4.946 5.4 9.88 54.77 8.896 9.668 5.4.8885 5 3.9 67.4674 9.668.363735 8.8.76.67 9.4.95.95.3 ^- 6.6..937 6.3 6.5699.69 -.9398-6.799 4.9..8858 5.4.69.84 -.45 -.58 3.7..9643 3 -.9398 -.45 7.8638 -.399 5..9.936 4.4-6.799 -.58 -.399 7.5993 7.8.57.975.4.78.4. Y 9.74.857 9.5 89.7.3.785.5 374.85 7.6.986 8.5 64.76.8.8.395.6 8.458 5.8.96.9573 7.5 4.5.4.96 4.9 ^ 4.5..7 5.9 -.557 constnte 7.3.6.986 8.5.88758 tr 8.6.69.9693.6.5847 ncotne 5...9496 3.9.7934 weght.8.84 4.9 Y Éque de recherche en Ingénere des Connssnces Lbortore ERIC
Éque de recherche en Ingénere des Connssnces Lbortore ERIC 3
Bs de «â» ] [ Y + + Ete. Ermer «â» en foncton de Éque de recherche en Ingénere des Connssnces Lbortore ERIC 4 Ete. Vor sous quelles condtons E[â] [ ] [ ] [ ] E E E + + Prce que non létore Prce que E[] r hyothèse
Mtrce de vrnce covrnce de «â» [ ] Ω, V V COV V E O L Sur l dgonle, nous dsosons de l vrnce de l estmton de chque coeffcent. Très utle dns l rte nférentelle. Pusque [ ] [ ] E E Éque de recherche en Ingénere des Connssnces Lbortore ERIC 5 [ ] [ ] [ ] [ ] [ ] [ ] n n E E E E E E O L n, n Or, r hyothèse : E σ l vrnce de l erreur est constnte homoscédstcté E, j, les erreurs sont non-corrélées non-utocorrélton des erreurs Ω σ [ ] n I E σ On montre que cette mtrce tend vers l mtrce nulle toutes les cellules à lorsque n +oo : EMCO est convergent. On montre de lus que l EMCO est BLUEbest lner unbsed estmtor.
Vrnce de l erreur Ω σ Ω σ Pour estmer l vrnce covrnce des coeffcents, l fut rodure une estmton de l vrnce de l erreur. Déveloons le résdu Y Y + + [ I ] [ + ] Aelée mtrce Γ, elle est symétrque Γ Γ et demotente Γ² Γ, de tlle n, n Γ On montre lors que : E [ ] σ Tr Γ Vrnce de l erreur Degrés de lberté n + n Estmteur sns bs de l vrnce de l erreur σ Tr Γ n Y ΓY n SCR n Remrque : vor l nloge vec l régresson lnére smle!!! Éque de recherche en Ingénere des Connssnces Lbortore ERIC 6
Clculs sous Ecel onstntar mgcotine WEIGHT m CO mg Y^ RésdusRésdus^ 4..86.9853 3.6 4.458 -.858.7359 ^ DROITEREG 6.6.938 6.6 6.474.64.6 -.5569763 constnte weght ncotne tr constnte 8.67.98. 8.86.374.888.88758347 tr coef..79344.5846956.8875835 -.5569763 4..4.946 5.4 5.6.378.9.58469559 ncotne ecrt-tye 3.7847 3.5333.954869.97894 5.4.8885 5 5.49 -.49..793446 weght.9349753.5986 #N/A #N/A 8.8.76.67 9 9.7879 -.788.68 95.8584963 #N/A #N/A.4.95.95.3.865 -.565.393 n 4 386.845646 6.939373 #N/A #N/A 6.6..937 6.3 6.7 -.4.694 3 4.9..8858 5.4 5.44.356.68 3.7..9643 3 4.37 -.37.96 ddl 5..9.936 4.4 5.55 -.855.73 sgmeslon 7.8.57.975 8.685.35.793 sgm²eslon.34597.5986.4.78.4..38 -.8 4.445 9.74.857 9.5 9.59 -.9.83 ^-.3.785.5.358 -.536.87 6.5699.69 -.9398-6.799 7.6.986 8.5 7..3995.9585.69.84 -.45 -.58.8.8.395.6 3.53 -.93.8663 -.9398 -.45 7.8638 -.399 5.8.96.9573 7.5 5.96.5396.375-6.799 -.58 -.399 7.5993 4.5.4.96 4.9 5.5536 -.654.47 4.5..7 5.9 4.936.964.997 Mt. Vr-covr des coeffcents 7.3.6.986 8.5 8.89.7.47 8.885.846 -.634-9.396 8.6.69.9693.6 9.4547.453.36.846.38 -.683 -.55 5...9496 3.9 5.443 -.543.386 -.634 -.683.57766 -.53673.8.84 4.9.85.5 4.7-9.396 -.55 -.53673.34 SCR 6.94 Ecrt-tyes des coeffcents constnte tr ncotne weght.978.9548 3.533 3.784 Clcul vec l foncton DROITEREG d ECEL Clcul mtrcel sous ECEL Éque de recherche en Ingénere des Connssnces Lbortore ERIC 7
Éque de recherche en Ingénere des Connssnces Lbortore ERIC 8
Dstrbuton de â Pr hyothèse, N,σ j σ j, n χ n j N σ σ Cf. le cours de Régresson smle Toujours r nloge vec l régresson n σ smle, on eut montrer que σ σ n σ j j j j I n Lo de Student à n σ degrés de lberté. j On eut l mettre en œuvre dns dfférents schéms. Test de conformté à un stndrd c.-à-d. H : j c vs. H: j c Bltérl ou unltérl Test de sgnfctvté c.-à-d. H : j vs. H: j Permet de détermner s l vrble j un mct sur Y!!! Intervlle de confnce u nveu -α Éque de recherche en Ingénere des Connssnces Lbortore ERIC 9
Eemle des cgrettes â j σ â j DROITEREG weght ncotne tr constnte coef..79344.5846956.8875835 -.5569763 ecrt-tye 3.7847 3.5333.954869.97894.9349753.5986 #N/A #N/A 95.8584963 #N/A #N/A 386.845646 6.939373 #N/A #N/A Test de sgnfctvté à 5% t clculé.654.594 4.5448 -.8568 bs.t-.clculé.654.594 4.5448.8568 t théorque 5%.8596.8596.8596.8596 t j σ j t α.8596 Décson H H H H Intervlles de confnce à 95% borne.bsse -4.557-6.6577.4798-6.74968 borne.hute 8.794 7.37.9535 5.6469 Rejet de H s t tα j ± t α σ j Éque de recherche en Ingénere des Connssnces Lbortore ERIC
Éque de recherche en Ingénere des Connssnces Lbortore ERIC
Évluton globle de l régresson Tbleu d nlyse de vrnce et Coeffcent de détermnton Équton d nlyse de vrnce Décomoston de l vrnce y y y y + y y SCT Vrblté totle SCE Vrblté elquée r le modèle SCR Vrblté non-elquée Vrblté résduelle Source de vrton Somme des crrés Degrés de lberté Crrés moyens Modèle SCE SCE/ Rés duel SCR n-- SCR/n-- Totl SCT n- Tbleu d nlyse de vrnce Un ndcteur de qulté du modèle : le coeffcent de détermnton. Il erme l roorton de vrblté de Y qu est retrnscrte r le modèle R SCE SCT SCR SCT R #, le modèle est rft R #, le modèle est muvs Éque de recherche en Ingénere des Connssnces Lbortore ERIC
Eemle des cgrettes R DROITEREG weght ncotne tr constnte coef..7934.5847.88758 -.557 ecrt-tye 3.784 3.533.9548.978.93498.5983 #N/A #N/A 95.8585 #N/A #N/A 386.84565 6.9394 #N/A #N/A SCR SCE Tbleu dnlyse de vrnce Source de vrton Somme des crrés Degrés de lberté Crrés moyens Modèle 386.84565 3 8.94855 Résduelle 6.9394.345 Totle 43.74958 3 CME SCE R².93498 CMR SCR n R SCE SCE SCT SCE + SCR SCR SCT Éque de recherche en Ingénere des Connssnces Lbortore ERIC 3
R² corrgé our contrecrrer le sur-justement Problème: Le R² ugmente mécnquement vec le nombre de vrbles. Même s les vrbles ddtonnelles ne sont bsolument s ertnentes. On ne eut s comrer des modèles de comleté dfférente vec un nombre d eogènes dfférent sur l bse du R² SCR Il fut utlser le R² justé qu est un R² corrgé r les degrés de lberté. n R SCT n TAR mgcotine WEIGHT m ALEA CO mg 4..86.9853.678 3.6 DROITEREG TAR, NICOTINE, WEIGHT - 6.6.938.3578 6.6 weght ncotne tr constnte 8.67.98.69..7934.5847.88758 -.557 4..4.946.8 5.4 3.784 3.533.9548.978 5.4.8885.9 5 R².93498.5983 #N/A #N/A 8.8.76.67.388 9 95.8585 #N/A #N/A.4.95.95.3959.3 386.85 6.9 #N/A #N/A 6.6..937.75 6.3 4.9..8858.854 5.4 DROITEREG TAR, NICOTINE, WEIGHT, ALEA - 3.7..9643.64 3 le weght ncotne tr constnte 5..9.936.673 4.4.8653.8748.9345.85569 -.76 7.8.57.975.675.96657 3.95 3.368.48.9996.4.78.4.8474. R².93733.68 #N/A #N/A #N/A 9.74.857.5497 9.5 7.489 9 #N/A #N/A #N/A.3.785.43.5 387.8 5.93 #N/A #N/A #N/A 7.6.986.9799 8.5.8.8.395.3964.6 5.8.96.9573.4354 7.5 R² justé.95 4.5.4.96.5534 4.9 4.5..7.6546 5.9 R² justé.944 7.3.6.986.556 8.5 8.6.69.9693.59.6 5...9496.79 3.9.8.84.87 4.9 R 5.93 4 4 387.8 + 5.93 4 Le modèle est le lus ntéressnt fnlement!!! 6.9 6.9 4 3 R.95 386.85 + 6.9 43.75 4 3 5.93 9 43.75 3.944 Éque de recherche en Ingénere des Connssnces Lbortore ERIC 4 L réducton du SCR est contrecrrée r l réducton des DDL.
Test de sgnfctvté globle de l régresson Les emmènent-elles de l nformton sur Y? Sttstquement, le test s écrt. H : L Aucune vrble eogène n est ertnente our elquer Y H : j / Une des eogènes u mons est orteuse d nformton j Sttstque de test F CME CMR SCR SCE n R R n Dstrbuton sous H F Fsher, n Régon crtque u rsque α F F α, n DROITEREG weght ncotne tr constnte coef..7934.5847.88758 -.557 -tye 3.784 3.533.9548.978.93498.5983 #N/A #N/A 95.8585 #N/A #N/A 386.84565 6.9394 #N/A #N/A Tbleu dnlyse de vrnce Source de vrton Somme des crrés Degrés de lberté Crrés moyens Modèle 386.84565 3 8.94855 Résduelle 6.9394.345 Totle 43.74958 3 R².93498 F 386.84565 3 6.9934 95.8585 F 95.8585 ddl 3 ddl F-théorque 95% 3.9839 Concluson Rejet de H Éque de recherche en Ingénere des Connssnces Lbortore ERIC 5
Dgnostc grhque Evluer l qulté de l rédcton Détecter les cs thologques 8 Y rédt.5 Résdus 6.5 4.5 8 -.5 4 6 8 4 6 8 6-4 -.5 Y observé 4 6 8 4 6 8 - -.5 Y observé Y observé vs. Y rédt Y observé vs. résdu L nlyse des résdus fer l objet d un chtre à rt. Elle est très mortnte our dgnostquer l régresson. Éque de recherche en Ingénere des Connssnces Lbortore ERIC 6
Éque de recherche en Ingénere des Connssnces Lbortore ERIC 7
Test de conformté Peut être utlsé our tester l nullté smultnée de luseurs coeffcents j j q q q q c j H c c c c H / : : M M Tester l conformté d un sous ensemble qde coeffcents à un stndrd q. Attenton, l notton ne dot s nous ndure en erreur : on teste ben q rmètres quelconques rm les. Un des coeffcents u mons est conforme u stndrd. Sttstque de test [ ] [ ] q q q q c c F Ω Éque de recherche en Ingénere des Connssnces Lbortore ERIC 8 Sttstque de test, n q Fsher F Régon crtque u rsque α, n q F F α Dstrbuton sous H [ ] [ ] q q q q c c q F q Ω Est l nverse de l mtrce de vrnce covrnce rédute u coeffcents testés. Les tests de sgnfctvté ndvduelle des coeffcents et le test de sgnfctvté globle de l régresson sont des cs rtculers.
Eemle «Cgrettes» Tester l nullté smultnée des coeffcents de WEIGHT et NICOTINE qu ndvduellement ne sont s sgnfctves H H ncotne : weght : j / j c j Coeffcents estmés. ^ -.557 constnte.88758 tr.5847 ncotne.7934 weght Coeffcents à tester. q.5847.7934 Mt. Vr-covr des coeffcents constnte tr ncotne weght 8.885.846 -.634-9.396.846.38 -.683 -.55 -.634 -.683.57766 -.53673-9.396 -.55 -.53673.34 Ω q.57766.53673.53673.34.9479.54.54.995 Sttstque de test F [ ].5847.5847 [ ] c Ω c Ω. 374 q q q q q.7934.7934 q q F théorque u rsque α 5% F α q, n F. 95, 3.4983 L hyothèse nulle ne eut s être rejetée u rsque α 5% Éque de recherche en Ingénere des Connssnces Lbortore ERIC 9
Test de «q» contrntes lnéres sur les coeffcents Peut être utlsé our comrer des coeffcents Tester qcontrntes lnéres sur les coeffcents : Rest une mtrce de dmenson q, + ; run vecteur de tlle q, H H : R : R r r Sttstque de test F R r q [ ] R R SCR n R r Dstrbuton sous H F Fsher q, n Régon crtque u rsque α F F α q, n Le test de sgnfctvté ndvduelle en est un cs rtculer e. R, + R r L Le test de sgnfctvté globle est un cs rtculer R, + R ; r M Éque de recherche en Ingénere des Connssnces Lbortore ERIC 3 M L L L
Eemle «Cgrettes» Tester l églté des coeffcents de TAR et NICOTINE H H : : tr tr ncotne ncotne { H : + + constnte tr ncotne weght R r Sttstque de test F [ R R ] R r q SCR n.369 [ 8.7957] 6.94.55.5.345 R r.369 ^ -.557 constnte.88758 tr.5847 ncotne.7934 weght ^- 6.5699.69 -.9398-6.799.69.84 -.45 -.58 -.9398 -.45 7.8638 -.399-6.799 -.58 -.399 7.5993 F théorque u rsque α 5% F α q, n F. 95, 4.35 L hyothèse nulle ne eut s être rejetée u rsque α 5% Éque de recherche en Ingénere des Connssnces Lbortore ERIC 3
Éque de recherche en Ingénere des Connssnces Lbortore ERIC 3
Prédcton Prédcton onctuelle et ntervlle de rédcton Prédcton onctuelle y * y + + L + * * *, *, E Ne s oubler l constnte en notton mtrcelle * *, L *, Prédcton sns bs y * y* E E y y * * * Estmton de l vrnce de l erreur de rédcton [ + ] σ σ * * * Déend de l qulté du modèle vrnce de l erreur et de l élognement du ont r rort u brycentre cf. lorsque vrbles centrées y y σ σ * * * Dstrbuton I n * * Au nveu de y confnce -α * ± t α σ * Éque de recherche en Ingénere des Connssnces Lbortore ERIC 33
Prédcton Eemle «cgrettes» Prédcton onctuelle et ntervlle de rédcton constnte TAR mg NICOTINE mg WEIGHT g CO mg 4..86.9853 3.6 ^ 6.6.938 6.6 -.557 constnte 8.67.98..88758 tr 4..4.946 5.4.5847 ncotne 5.4.8885 5.7934 weght 8.8.76.67 9.4.95.95.3 n 4 6.6..937 6.3 3 4.9..8858 5.4 3.7..9643 3 ddl 5..9.936 4.4 sgmeslon 7.8.57.975 sgm²eslon.345.5983.4.78.4. 9.74.857 9.5 ^-.3.785.5 6.5699.69 -.9398-6.799 7.6.986 8.5.69.84 -.45 -.58.8.8.395.6 -.9398 -.45 7.8638 -.399 5.8.96.9573 7.5-6.799 -.58 -.399 7.5993 4.5.4.96 4.9 4.5..7 5.9 7.3.6.986 8.5 8.6.69.9693.6 5...9496 3.9.8.84 4.9 constnte TAR mg NICOTINE mg WEIGHT g à rédre.5.8.95 Pred. Ponctuelle.4563 Vr.Erreur.345 Vr.Erreur.Predcton.446 t de Student.8596 borne.bsse 9.5674 borne.hute 4.5385 σ *.557 +.88758.5 +.5847.8 +.7934.95 y [ + ] σ σ * * * t n t. 975 α y * ± t α σ * *.5.8.95 Éque de recherche en Ingénere des Connssnces Lbortore ERIC 34
Bblogrhque htt://fr.wked.org/wk/régresson_lnére_multle Y.Dodge, V.Rousson, «Anlyse de régresson lquée», Dunod, 4. R. Bourbonns, «Économétre», Dunod, 998. M. Tenenhus, «Sttstque : Méthodes our décrre, elquer et révor», Dunod, 7. Éque de recherche en Ingénere des Connssnces Lbortore ERIC 35