Modèle de régression linéaire: cas bivarié

Documents pareils
Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Exercices d Électrocinétique

Mesure avec une règle

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

Remboursement d un emprunt par annuités constantes

Montage émetteur commun

Pratique de la statistique avec SPSS

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

STATISTIQUE AVEC EXCEL

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

TD 1. Statistiques à une variable.

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Page 5 TABLE DES MATIÈRES

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

Prise en compte des politiques de transport dans le choix des fournisseurs

Grandeur physique, chiffres significatifs

Généralités sur les fonctions 1ES

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Les jeunes économistes

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

La Quantification du Risque Opérationnel des Institutions Bancaires

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

Editions ENI. Project Collection Référence Bureautique. Extrait

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

santé Les arrêts de travail des séniors en emploi

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

1. Les enjeux de la prévision du risque de défaut de paiement

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

THESE. Khalid LEKOUCH

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

- Acquisition de signaux en sismologie large bande. - Acquisition de signaux lents, magnétisme, MT.

Afflux de capitaux, taux de change réel et développement financier : évidence empirique pour les pays du Maghreb

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

Documents de travail. «La taxe Tobin : une synthèse des travaux basés sur la théorie des jeux et l économétrie» Auteurs

RÉSUMÉ ANALYTIQUE... 1

Dirigeant de SAS : Laisser le choix du statut social

Système solaire combiné Estimation des besoins énergétiques

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

MEMOIRE. Présenté au département des sciences de la matière Faculté des sciences

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

Pauvreté et fécondité au Congo

EURIsCO. Cahiers de recherche. Cahier n L épargne des ménages au Maroc : Une analyse macroéconomique et microéconomique.

Evaluation de performances d'ethernet commuté pour des applications temps réel

Projet de fin d études

II - Notions de probabilité. 19/10/2007 PHYS-F-301 G. Wilquet 1

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

Calcul de tableaux d amortissement

Intégration financière et croissance économique : évidence empirique dans. la région MENA

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

Table des Matières RÉSUMÉ ANALYTIQUE... 1 I. CONTEXTE La dette publique du Gouvernement Contexte institutionnel de gestion de la

17th Annual Conference on Global Economic Analysis/GTAP Commerce intra CEMAC et consommation des ménages au Cameroun : analyse par un MEGC

hal , version 1-14 Aug 2009

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

DOIT-ON UTILISER LA STANDARDISATION DIRECTE OU INDIRECTE DANS L ANALYSE DE

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

AVERTISSEMENT. Contact SCD INPL: LIENS

Surveillance temps-réel des systèmes Homme-Machine. Application à l assistance à la conduite automobile

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

ESTIMATION DES TITRES VIRAUX : UNE PROGRAMMATION PRATIQUE ET FIABLE SUR CALCULATRICE DE POCHE, ET ACCESSIBLE PAR l INTERNET

MINISTERE DE L ECONOMIE ET DES FINANCES

LICENCE DE SCIENCES PHYSIQUES UV 3LSPH50. Année MODÉLISATION. Recherche des paramètres d'une représentation analytique J.P.

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

GUIDE D ÉLABORATION D UN PLAN D INTERVENTION POUR LE RENOUVELLEMENT DES CONDUITES D EAU POTABLE, D ÉGOUTS ET DES CHAUSSÉES

Performances de la classification par les Séparateurs à Vaste Marge (SVM): application au diagnostic vibratoire automatisé

Faire des régimes TNS les laboratoires de la protection sociale de demain appelle des évolutions à deux niveaux :

TABLEAU DE BORD DE L ÉVOLUTION DES EFFECTIFS D ÉLÈVES DE L ENSEIGNEMENT PRIMAIRE PUBLIC À UN NIVEAU LOCAL. Choisir une commune

Analyse des Performances et Modélisation d un Serveur Web

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

22 environnement technico-professionnel

Méthodologie version 1, juillet 2006

CONSERVATOIRE NATIONAL DES ARTS ET METIERS

Version provisoire Ne pas citer sans l accord des auteurs

Professionnel de santé équipé de Médiclick!

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

Prêt de groupe et sanction sociale Group lending and social fine

Transcription:

U. Pars Ouest, M1 - Cours de Modélsaton Applquée Modèle de régresson lnéare: cas bvaré Laurent Ferrara Févrer 017

Sot varables contnues X et Y. On observe les untés epérmentales : (, y ), pour = 1,, n. 1. Este-t-l un len entre X et Y?. Comment le mesurer? 3. Comment modélser ce len? 4. Comment estmer les paramètres de ce modèle? 5. Comment valder ce modèle? 6. Comment trer parte de ce modèle pour prévor les valeurs d une varable d après les valeurs de l autre?

Gra 40 45 50 55 60 65 Eemple : données USA 199 sur 50 états (state.77) Este-t-l un len entre : les revenus d un état et le nombre de ses «hgh-school graduates»? 3000 3500 4000 4500 5000 5500 6000 Inc

Lfe Ep 68 69 70 71 7 73 Causalté? Este-t-l un len entre : Le nombre de meurtres et l espérance de ve? 4 6 8 10 1 14 U. Pars Ouest Murder L. Ferrara, 016-17

Este-t-l un len entre : L arrvée de mgrants et le vote au électons US?

Quel type de len? Mse en évdence un len lnéare entre les varables. Y est consdérée comme la varable à eplquer, ou ndépendante, ou eogène X est consdérée comme la varable eplcatve, ou dépendante, ou endogène. Relaton statstque entre les varables (non-détermnste) : la connassance de X n mplque pas la connassance parfate de Y : l este une erreur aléatore autour de la valeur prédte

Comment mesurer un len lnéare? Outl prncpal : Coeffcent de corrélaton lnéare Estmateur emprque : n n n Y y X Y y X Y X 1 1 1 ) ( ) ( ) )( ( ), ( ) ( ) ( ), ( ), ( Y V X V Y X Cov Y X c

Comment mesurer un len lnéare? Sgnfcaton : c( X, Y) 1 a, b t. q. : Y ax b c( X, Y ) 1? Test de Student H0 : H1 : ( X, Y) ( X, Y) 0 0

Comment mesurer un len lnéare? Sous l hypothèse nulle H0 : ( X, Y ) (1 ( X, Y )) n sut une lo de Student à (n-) dl Donc, s t* ( X, Y ) (1 ( X, Y )) n est tq : t* > 1 / t n on rejette H0 au rsque

Eemple : Evoluton des tau souverans à 10 ans pour US et Royaume Un Coeffcent de corrélaton de 0,9 Queston économque: quel est le degré d ndépendance des poltques monétares? Len avec le trangle d ncompatblté de Mundell en macro nter

Eemple : Corrélaton des tau souverans pour US et Royaume Un pour dfférentes maturtés sous forme de heat map

Attenton au pège : dépendance non lnéare le coeff de corrélaton ne mesure que la dépendance lnéare. > cor(, y) [1] 0.99 > cor(, y) [1] 0.46 > cor(, y3) [1] 0.854 > cor(, yep) [1] 0.898 Effectuer une analyse graphque au préalable pour dentfer la forme de la dépendance. Un coeff de corrélaton élevé ne sgnfe pas forcément une dépendance lnéare.

y3-4 - 0 4 6 yep 0 1 3 4 5 6 y -1 0 1 y 0 1 3-1 0 1-1 0 1-1 0 1-1 0 1 U. Pars Ouest L. Ferrara, 016-17

Attenton au pège : Corrélaton fallaceuse Estence d un coeff de corrélaton non nul entre deu varables qu aucune théore économque, physque ne rele. cas : résultat purement aléatore estence d un trosème varable qu eplque conjontement les phénomènes (en général : le temps) Eemple de Krugman : len désndustralsaton - délocalsaton au USA (Applcaton à la France)

Evoluton de l emplo ndustrel France (Trmestrel 1991-003) empndus 4700,0 4600,0 4500,0 4400,0 4300,0 400,0 4100,0 4000,0 mars-91 jul-91 nov-91 mars-9 jul-9 nov-9 mars-93 jul-93 nov-93 mars-94 jul-94 nov-94 mars-95 jul-95 nov-95 mars-96 jul-96 nov-96 mars-97 jul-97 nov-97 mars-98 jul-98 nov-98 mars-99 jul-99 nov-99 mars-00 jul-00 nov-00 mars-01 jul-01 nov-01 mars-0 jul-0 nov-0 mars-03

Evoluton des mportatons de bens en volume France 1991-003 Imports,10 1,90 1,70 1,50 1,30 1,10 0,90 0,70 mars-91 jul-91 nov-91 mars-9 jul-9 nov-9 mars-93 jul-93 nov-93 mars-94 jul-94 nov-94 mars-95 jul-95 nov-95 mars-96 jul-96 nov-96 mars-97 jul-97 nov-97 mars-98 jul-98 nov-98 mars-99 jul-99 nov-99 mars-00 jul-00 nov-00 mars-01 jul-01 nov-01 mars-0 jul-0 nov-0 mars-03

Corrélaton = - 0,50, t de Student = 3,99 Concluson statstque : on rejette l hypothèse H0 de nullté de la corrélaton lnéare entre les varables Concluson économque rapde : les pays à fables coûts salarau détrusent les emplos dans l ndustre Françase Hypothèse alternatve : les destructons d emplos ndustrels peuvent être causées en parte par la basse des dépenses (en valeur) des ménages en produts manufacturés, lée à la forte hausse de la productvté dans l ndustre par comparason avec celle dans les servces

On remarque également que les coeffcents de corrélaton entre chacune des varables et le temps sont de : -0,75 pour l emplo ndustrel 0,94 pour les mports Eercce : Proposer des eemples de corrélaton fallaceuse

Attenton au pège : Un coeff de corrélaton nul ne sgnfe pas que les varables sont ndépendantes (sauf dans le cas Gaussen) En partculer, l peut ester une relaton sur les moments d ordre supéreur du modèle Eemple : len lnéare entre les varances de X et Y (cas des processus ARCH en séres chronologques)

Autres outls de mesure de dépendance: Concordance Corrélaton de rang (Tau de Kendall, coeffcent de Spearman) Corrélaton condtonnelle L epresson générale de la dépendance ne peut se fare que par la lo jonte. S celle-c n est pas calculable: concept de copules

Comment modélser un len lnéare? Quel est le «melleur» ajustement lnéare entre v.a.? Eemple : tau longs souverans / dette publque brute

Notaton y ŷ est la ème observaton de la varable eogène est la ème observaton de la varable endogène Est la valeur ajustée (estmée) de la ème observaton Equaton de la melleure drote d ajustement: ˆ y b b 0 1

En utlsant Erreur de prévson (ou erreur résduelle) ŷ pour prédre, on fat une erreur de prévson: e y yˆ y La drote d ajustement qu colle le meu au données est celle pour laquelle les n erreurs de prévsons sont les plus pettes possbles au sens d un certan crtère.

Crtère des Mondres Carrés Equaton de la drote : ˆ y b0 b1 Chosr les valeurs b 0 et b 1 qu mnmse la somme des carrés des erreurs..e. : mnmser: Q n 1 ˆ y y

La drote de régresson Par le calcul, mnmser (dérver, annuler et résoudre pour b 0 et b 1 ): 1 1 0 n b b y Q et obtenr les estmateurs des mondres carrés ordnares (MCO) de b 0 et b 1 : n n y y b 1 1 1 ˆ b y b 1 0 ˆ ˆ

Remarques En termes géométrques la drote de régresson est celle qu mnmse la dstance quadratque entre les ponts et les projectons orthogonales de ces ponts sur cette drote. la drote de régresson est celle qu mamse la varance du nuage de ponts projetés orthogonalement sur cette drote.

Formalsaton Hypothèses du modèle lnéare : H1 : E(Y ) foncton lnéare des (détermnstes) y = b 0 + b 1 +, pour =1,,n H : Les erreurs,, sont ndépendantes entre elles H3 : E( ) = 0, les erreurs sont d espérance nulle (en moyenne le modèle est ben spécfé)

H4 : E( ) =, les erreurs sont de varance égale pour toute valeur de X (hypothèse d homoscédastcté) H5 : E(X ) = 0, les erreurs,sont ndépendantes des valeurs de X H6 : Hypothèse de Normalté Les erreurs,, sont dentquement dstrbuées selon la lo Normale.

Estmaton des paramètres Quels paramètres? b 0, b 1, bˆ ˆ 0, b ˆ 1, bˆ 0, bˆ 1 estmés par MCO ˆ estmée par l erreur quadratque moyenne ou Mean Squared Error (MSE)

La MSE est défne par : MSE 1 ˆ n Y Yˆ n On pondère par le nombre de degrés de lberté du modèle défn par : degrés de lberté = nbre d observatons - nbre de paramètres

Lo asymptotque des paramètres Les estmateurs MCO sont sans bas et convergents On montre que : E E( b ˆ1) b1 ( bˆ0 ) b0 On montre que : V ( bˆ ) 1 n 1 ˆ ( X ) Donc V bˆ ) 0 s n ( 1

Lo asymptotque des paramètres De même, n X X n b V 1 0 ) ( 1 ˆ ) ˆ ( n s b V 0 ) ˆ ( 0

Remarques Dans ce cadre, sous l hypothèse de normalté des erreurs, estmateur MCO = estmateur EMV La varance estmée par le modèle est dfférente de la varance emprque (valable pour tout échantllon qu sut le modèle lnéare) La varance résduelle mesure avec quelle ampltude les valeurs de Y s écartent de la drote de régresson. C est une mesure de la précson du modèle C est une mesure du rsque assocé au modèle

Eemple : précsons dfférentes

Remarques Quel est le but du jeu de toute tentatve de modélsaton d une varable Y? Mnmser la varance résduelle Y = parte détermnste + parte aléatore Y = f(x) + Par ndépendance, V(Y) = V(f(X)) + V() (Vor parte «Analyse de la Varance»)

Valdaton du modèle On valde le modèle à l ade des tests statstques. types de tests d hypothèses sont développés : 1) Tests sur les paramètres du modèle ) Tests sur les résdus du modèle

(1-) IC pour la pente ˆb 1 Formule en mots: Paramètre estmé ± (t-multpler standard error) Formule en notatons: bˆ 1 t 1, n X ˆ

Test sur la pente ˆb 1 Null hypothess H 0 : 1 = (en général =0) Alternatve hypothess H 1 : 1 (en général 0) Test statstc t * MSE b 1 b1 seb1 P-value = Rsque mamum d accepter H1 à tort (à comparer avec le rsque de premère espèce ) La P-value est détermnée par référence à une t- dstrbuton avec n- degrés de lberté

(1-) IC pour la constante ˆb 0 Formule en mots: Paramètre estmé ± (t-multpler standard error) Formule en notatons: bˆ 0 t ˆ 1 1, n n X

Test sur la constante ˆb 0 Null hypothess H 0 : 0 = (en général = 0) Alternatve hypothess H A : 0 (en général 0) Test statstc t * MSE b0 b0 1 seb0 n P-value = Rsque mamum d accepter H1 à tort (à comparer avec le rsque de premère espèce ) La P-value est détermnée par référence à une t- dstrbuton avec n- degrés de lberté.

Test sur le terme d erreur Les ntervalles et les tests précédents sont basés sur la Normalté du terme d erreur. Il mporte donc de tester les résdus. Test d adéquaton (Jarque-Bera, KS, ) Test graphques (QQ-Plot) Les résultats restent valdes en cas d écart à la lo Normale s l échantllon est grand. (résultats asymptotques)

Mesure de la qualté du modèle On mesure la qualté du modèle par l analyse de la varance On montre les relatons suvantes : la somme des résdus est nulle,.e. : n 1 e 0 la moyenne de la varable et la moyenne de la varable estmée sont égales,.e. : n n y yˆ 1 1

e y y y y ˆ) ˆ ( ) ( On en dédut l équaton de l analyse de la varance: Varance totale = Varance eplquée + Varance résduelle Objectf : Mamser la varance eplquée

R : mesure de la varance eplquée R 1 n 1 ˆ ( Y Y ) valeur entre 0 et 1 Crtères d nformaton : Akake (1971)

Que veut-on prévor? Prévson La réponse «moyenne» de la populaton = E(Y h ) pour une valeur h E : Quel est le pods moyen pour une talle donnée? (Plus précs que le pods moyen de l échantllon) La réponse Y h(new) à une nouvelle valeur donnée h E : Quel est le pods estmé par le modèle d un nouvel ndvdu chos au hasard de talle donnée?

En fat les prévsons sont égales : ˆ Yh b0 b1 h est le melleur estmateur dans chaque cas. Seuls les ntervalles de confance autour des réponses vont varer

Intervalle de confance pour la réponse moyenne de la populaton E(Y h )

Formule en notaton: Formule en mots: Sample estmate ± (t-multpler standard error), 1 1 ˆ ˆ X X n t y h n h (1-) IC pour la réponse moyenne E(Y h )

Implcatons sur la précson Au plus les valeurs des sont étalées, au plus l ntervalle de confance est pett, donc l estmaton de E(Y h ) est plus précse. Suvant le même échantllon de, au plus la valeur de h est lon de la moyenne emprque, au plus l ntervalle de confance est grand, donc l estmaton de E(Y h ) est mons précse.

Remarques h est une valeur correspondant au champ de l étude mas pas nécessarement une valeur de l échantllon L IC pour E(Y h ) est correct même s le terme d erreur est seulement approché par une lo Normale S le nombre d observatons est grand, l IC pour E(Y h ) est correct même s le terme d erreur s écarte fortement d une lo Normale

Intervalle de Prévson pour la réponse Y h(new) à une nouvelle valeur h(new)

Prévson de Y h(new) s la moyenne E(Y) n est pas connue e : s les paramètres sont estmés on rajoute une ncerttude sur la moyenne de Y

La prévson est non basée h h b b Y 1 0 ˆ ˆ ˆ h h h h h h h h b b b b b b b b Y Y e ) ˆ ( ) ˆ ( ) ˆ ˆ ( ˆ 1 1 0 0 1 0 1 0 Proprété: 0 ) ( e h E

Varance de la prévson n h n h n n 1 1 1 1 ˆ 1 ˆ ˆ Estmaton: Elle dépend de composantes : 1. Varance due à l estmaton de E(Y h ) par. Varance de Y nhérente à sa dstrbuton ŷ h

Sample predcton ± (t-multpler standard error), 1 1 1 ˆ ˆ n t y h n h (1-) IC pour la réponse Y h

Mortalty Regresson Plot Mortalty = 389.189-5.97764 Lattude S = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 % 50 150 Regresson 95% CI 50 95% PI 30 40 Lattude 50