La régression sur données de panel



Documents pareils
TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Évaluation de la régression bornée

Le modèle de régression linéaire

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Introduction à la Statistique Inférentielle

Table des matières. I Mise à niveau 11. Préface

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction à l approche bootstrap

Chapitre 1 Régime transitoire dans les systèmes physiques

1 Complément sur la projection du nuage des individus

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

STATISTIQUES. UE Modélisation pour la biologie

Analyse de la relation entre primes de terme et prime de change dans un cadre d équilibre international

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

Cours 02 : Problème général de la programmation linéaire

Modélisation des carrières salariales. dans Destinie

Chapitre 3. Les distributions à deux variables

FORMULAIRE DE STATISTIQUES

TABLE DES MATIERES. C Exercices complémentaires 42

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

L Econométrie des Données de Panel

CAPTEURS - CHAINES DE MESURES

23. Interprétation clinique des mesures de l effet traitement

INITIATION AU LOGICIEL SAS

Modèles pour données répétées

Relation entre deux variables : estimation de la corrélation linéaire

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Le risque Idiosyncrasique

Régression linéaire. Nicolas Turenne INRA

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Température corporelle d un castor (une petite introduction aux séries temporelles)

O b s e r v a t o i r e E V A P M. Taxonomie R. Gras - développée

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Gestion obligataire passive

Exemples d application

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Théorie des sondages : cours 5

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Modélisation aléatoire en fiabilité des logiciels

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Les effets d une contrainte de crédit sur la convergence économique : Le cas des pays de l UEMOA

Programmation Linéaire - Cours 1

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Statistique Descriptive Élémentaire

Débouchés professionnels

Précision d un résultat et calculs d incertitudes

Filtrage stochastique non linéaire par la théorie de représentation des martingales

La classification automatique de données quantitatives

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Le montant des garanties constituées aux fins du STPGV est-il excessif?

COURS CALCULS FINANCIERS STATISTIQUE

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Le modèle de Black et Scholes

DYNAMIQUE DE FORMATION DES ÉTOILES

Le théorème des deux fonds et la gestion indicielle

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Modèles Estimés sur Données de Panel

INCIDENCE DU COMMERCE EXTÉRIEUR SUR LE COMMERCE INTÉRIEUR : NOUVELLE ANALYSE DE LA COURBE EN «L» NOUVELLE ANALYSE DE LA COURBE EN «L»

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Le Modèle Linéaire par l exemple :

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

TD1 Signaux, énergie et puissance, signaux aléatoires

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

données en connaissance et en actions?

Annexe 6. Notions d ordonnancement.

Cours de méthodes de scoring

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Théorème du point fixe - Théorème de l inversion locale

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

Introduction au Data-Mining

Annexe commune aux séries ES, L et S : boîtes et quantiles

1 Imputation par la moyenne

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Rapport d'analyse des besoins

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Classe de première L

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

M2 IAD UE MODE Notes de cours (3)

Logiciel XLSTAT version rue Damrémont PARIS

VI. Tests non paramétriques sur un échantillon

Cours Marché du travail et politiques d emploi

ANTISELECTION ET CHOIX D'ASSURANCE : LE CAS DU VOL EN HABITATION UNE APPROCHE DE LA MESURE DU PHENOMENE

Données longitudinales et modèles de survie

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Carl-Louis-Ferdinand von Lindemann ( )

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

1 Définition de la non stationnarité

Incertitudes expérimentales

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Exercice : la frontière des portefeuilles optimaux sans actif certain

Transcription:

La régression sur données de panel 1 I. Définition Les données utilisées en économétrie sont le plus souvent des séries chronologiques, tel le nombre de naissances enregistrées par an dans le département de la Mayenne de 1953 à 2007. On peut à l'inverse disposer de données concernant une période donnée, dites en coupe instantanée, tel le nombre de naissances enregistrées en 1971 dans chacun des départements français. Les données de panel, ou données croisées, possèdent les deux dimensions précédentes et rapportent les valeurs des variables considérées relevées pour un ensemble, ou panel, d'individus sur une suite de périodes. Ainsi la série de panel mesurant la natalité annuelle par département de 1953 à 1997. Remarque : si en marketing ou en statistique, le mot panel désigne généralement un échantillon fixe de consommateurs interrogés à différentes périodes, en économétrie, le terme de données de panel est simplement synonyme de données croisées ayant généralement une dimension temporelle. On utilise une notation naturelle à deux indices : x it note l'observation de la variable x pour l'individu i à la période t. Si on fixe l'individu observé, on obtient la série chronologique, ou coupe longitudinale, le concernant, tandis que si l'on fixe la période examinée, on obtient une coupe transversale, ou instantanée, pour l'ensemble des individus. Il est possible d'envisager des données croisées de plus de deux dimensions, on y reviendra dans l avant-dernier paragraphe. De nombreux modèles économétriques, notamment dans le domaine des études internationales, peuvent être confrontés à des données croisées, le caractère particulier de celles-ci invite à considérer des spécifications et des méthodes d'estimation adaptées. II. Modèles et méthodes Différents modèles ont été proposés, certains apparaissent également dans d'autres chapitres de l'économétrie et la terminologie n'est pas totalement

standardisée. Il convient par suite, lorsqu'on lit un article et plus encore si l'on souhaite mettre en œuvre la méthode indiquée, de s'assurer que l'on a bien identifié celle-ci. On considère, pour fixer les idées, l'équation économétrique (1) y = a + b.x + c.z + ε De variable endogène y, d'explicatives x et z (et la constante), de coefficients a, b et c, et d'aléa ε, supposée s'appliquer aux données de panel étudiées. La relation s'écrit encore, pour l'observation it : 2 (2) y it = a + b.x it + c.z it + ε it La modélisation particulière porte uniquement sur la spécification des aléas ε it. La forme de base s'écrit simplement : (3) ε it = u i + v t + w it où u i désigne un terme, constant au cours du temps, ne dépendant que de l'individu i, v t un terme ne dépendant que de la période t, et w it un terme aléatoire croisé. La suite dépend des hypothèses retenues quant aux composantes u i, v t et w it et à leurs relations Méthode "naïve" Une première méthode, naïve, consiste à appliquer simplement les mco sur l'ensemble des données mises bout-à-bout sans se préoccuper de leur nature particulière ni de celle de l'aléa ε. Modèle à effets fixes Ce modèle, également appelé modèle de la covariance, suppose que u i et v t sont des effets constants, non aléatoires, qui viennent donc simplement modifier la valeur de la constante a de l'équation (1) selon les valeurs de i et de t. L'estimation s'opère par les mco, après ajout aux explicatives des indicatrices, ou dummy variables, associées aux individus i et aux périodes t (moins un individu et une période pour ne pas créer de colinéarité avec la constante).

Si on suppose que les perturbations aléatoires croisées w it satisfont aux hypothèses classiques des mco (ie elles sont centrées, homoscédastiques, indépendantes et normales), les estimations sont optimales et permettent notamment les tests de Fisher pour éprouver la nécessité des termes u i ou v t. Modèle à effets aléatoire 3 Ce modèle, encore appelé modèle à erreur composée, suppose les u i et v t véritablement aléatoires. La spécification de base suppose : - les u i, v t et w it centrés (ie d'espérance nulle) - les u i, v t et w it homoscédastiques et d'écarts type respectifs σ u, σ v et σ w - les u i, v t et w it non corrélés et indépendants les uns des autres. L'idée de cette modélisation est que les trois effets ne s'exercent plus sur la constante du modèle (1), mais véritablement sur la perturbation aléatoire ε. La méthode vise ensuite à préciser ces effets pour en tenir compte pour affiner l'estimation. Sous les hypothèses indiquées, la variance de l'alea ε est : (4) var(ε) = σ u ² + σ v ² + σ w ² L'estimation du modèle, tels les doubles moindres carrés ou la méthode des variables instrumentales, procède en deux étapes : la première estime les composantes de la variance apparaissant dans la relation (4), ces estimations sont ensuite utilisées pour estimer l'équation (1) par les moindres carrés généralisés, la structure de variance-covariance des aléas étant approximativement connue. Bien que les modèles à effets fixes et à effets aléatoires paraissent de nature différentes, le second est généralement recommandé. Des tests qu'on ne détaillera pas ici permettent d'éprouver les deux hypothèses. Si enfin l'objectif principal est l'estimation des coefficients des variables autres que la constante et s'ils différent peu, la question du choix perd de son acuité. En effets fixes comme en effets aléatoires, les économètres commencent généralement par estimer et tester un modèle avec le seul effet individu, l effet temps étant souvent inexistant ou très mineur. Modèle autorégressif On a vu dans les leçons précédentes la fréquence des problèmes d'autocorrélation lorsqu'on traite des séries chronologiques.

4 La spécification (3) est remplacée par la relation : (5) ε it = ρ i.ε i,t-1 + w it où ρ i est le coefficient d'autocorrélation temporelle associé à l'individu i et w it la part d'innovation dans l'aléa ε it, avec (6) var(ε it ) = σ i ² (homoscédasticité à i fixé) (7) cov(ε it, ε jt ) = σ ij ² (corrélation contemporaine stable à i et j fixés) Ce qui peut être déduit d'hypothèses convenables concernant l'innovation w it, notamment : - les w it sont centrés - les w it sont indépendants pour i fixé et t variant - les w it et w js sont indépendants pour s différent de t - les covariances cov(w it, w jt ) sont non nulles mais non dépendantes de t On ne détaillera pas davantage cet aspect mathématique des choses. La procédure d'estimation opère encore en deux étapes : la première estime les coefficients ρ i et σ ij,² que la seconde utilise pour estimer l'équation (1) par les moindres carrés généralisés. Autres modèles D'autres modèles plus raffinés ont été proposés, dérivés tels le précédent des méthodes élaborées de traitement des séries chronologiques; ils ne sont pas décrits ici. III. Modèles de gravité Inspirés librement du modèle physique de la gravitation universelle (qui voit celle-ci décroître comme le carré de la distance, selon la loi de Newton) les modèles de gravité, notamment utilisés pour expliquer les échanges internationaux, introduisent un ou plusieurs termes de nature géographique, ou politique, destinés à prendre en compte la proximité ou l éloignement entre les acteurs considérés. En formulation linéaire, les grandeurs étant le plus souvent mesurées par leur logarithme, la forme générale est :

5 (8) Y ij = a + b.x i + c.z j + f.d ij + ε ij Où Y ij est le flux du pays i vers le pays j pour le ou les biens étudiés, les variables explicatives X i et Z j, des variables économiques telles que le PNB, la population, et éventuellement d autres variables plus spécifiques liées au domaine considéré, et enfin D ij, la ou les variables de distance retenues. Cellesci peuvent être la distance des capitales ou encore la distance moyenne entre les deux pays, la longueur de frontière commune, une dummy variable notant l appartenance à une même organisation économique, etc. De par leur nature même, les modèles de gravité relèvent du domaine des données de panel. Si toutes les observations sont contemporaines, le choix d une formalisation (non temporelle) inspirée des modèles précédents permet l estimation, et en particulier la mesure de l effet-distance associé aux variables D ij. Si les observations sont en outre temporelles (Y ijt, X it, Z jt, D ijt ), les données sont à trois dimensions et il faut fixer i, j ou t pour utiliser les logiciels usuels qui n en admettent que deux, ou recourir à des procédures avancées ou à la programmation, après formalisation précise du modèle. IV. Mise en œuvre en SAS La procédure SAS de régression sur données de panel est la procédure TSCSREG (pour Time Series Cross Section REGression). Il est tout d'abord nécessaire que parmi les données figurent les séries ident des indicateurs i des individus et time dénotant la date t des observations, et que le fichier soit trié selon ces deux variables par une commande SORT préalable : PROC SORT; BY ident time; La suite ressemble à l'appel de la procédure REG classique : PROC TSCSREG [options]; ID ident time; MODEL y = x z / options; [label: TEST ;] Parmi les options de l'instruction MODEL : - FIXTWO indique le modèle à effets fixés.

- FIXONE le même sans effet temps. - RANTWO indique le modèle à effets aléatoires, c'est le choix par défaut. - RANONE le même sans effet temps. - PARKS indique le modèle autorégressif. 6 Exemple /* Exemple repris et modifié de la doc SAS */ /* Analyzing Demand for Liquid Assets */ DATA ts; INPUT state $ year d y rd rt rs; LABEL d = 'Per Capita Demand Deposits' y = 'Permanent Per Capita Personal Income' rd = 'Service Charge on Demand Deposits' rt = 'Interest on Time Deposits' rs = 'Interest on S & L Association Shares'; DATALINES; Ca 1949 6.2785 7.2056-1.0700 0.1080 1.0664 Ca 1950 6.4019 7.2889-1.0106 0.1501 1.0767 Ca 1951 6.5058 7.3827-1.0024 0.4008 1.1291 (7 états fois 11 ans) ; PROC REG DATA = ts; MODEL d = y rd rt rs; PROC SORT DATA = ts; BY state year; PROC TSCSREG DATA = ts; MODEL d = y rd rt rs / rantwo parks; ID state year; RUN; Résultats résumés On se limite à donner en un tableau les coefficients estimés par les trois méthodes demandées; on a figuré les t de Student sous les coefficients estimés.

Méthode constante y rd rt rs mco -3.49658 (-6.15) 1.31094 (15.86) -0.48430 (-13.57) 0.00137 (0.02) -0.13384 (-0.82) Rantwo -1.23606 (-1.70) 1.064058 (10.23) -0.29094 (-5.53) 0.039388 (1.42) -0.32662 (-2.86) Parks -2.66565 (-8.49) 1.222569 (28.87) -0.43591 (-21.71) 0.041237 (1.97) -0.26683 (-4.08) 7 ----===ooooo===---- (30.05.2008)