Econométrie des données de panel

Documents pareils
Modélisation des carrières salariales. dans Destinie

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Évaluation de la régression bornée

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Régression linéaire. Nicolas Turenne INRA

Chapitre 3. Les distributions à deux variables

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Cours 7 : Utilisation de modules sous python

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

1 Complément sur la projection du nuage des individus

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction à l approche bootstrap

Le modèle de régression linéaire

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Correction de l examen de la première session

Modèles Estimés sur Données de Panel

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Introduction à MATLAB R

L analyse de la gestion de la clientèle

TABLE DES MATIERES. C Exercices complémentaires 42

STATISTIQUES. UE Modélisation pour la biologie

Table des matières. I Mise à niveau 11. Préface

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

L Econométrie des Données de Panel

La classification automatique de données quantitatives

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Analyse en Composantes Principales

Quantification Scalaire et Prédictive

1 Définition de la non stationnarité

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

TD d économétrie appliquée : Introduction à STATA

Relation entre deux variables : estimation de la corrélation linéaire

Économétrie, causalité et analyse des politiques

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Optimisation, traitement d image et éclipse de Soleil

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

TD1 Signaux, énergie et puissance, signaux aléatoires

Evaluer l ampleur des économies d agglomération

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Intérêt du découpage en sous-bandes pour l analyse spectrale

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Théorie des sondages : cours 5

Item 169 : Évaluation thérapeutique et niveau de preuve

Théorème du point fixe - Théorème de l inversion locale

Fonctions de plusieurs variables

Introduction au datamining

Modélisation géostatistique des débits le long des cours d eau.

Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Cours 02 : Problème général de la programmation linéaire

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Programmes des classes préparatoires aux Grandes Ecoles

Les débats sur l évolution des

Cours d Analyse. Fonctions de plusieurs variables

Chapitre 2 Le problème de l unicité des solutions

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

FORMULAIRE DE STATISTIQUES

Arbres binaires de décision

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Exercice : la frontière des portefeuilles optimaux sans actif certain

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Les salaires réels ont ils été affectés par les évolutions du chômage en France avant et pendant la crise?

ESSEC Cours Wealth management

Limites finies en un point

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Résolution de systèmes linéaires par des méthodes directes

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Formation à la systémique pour consultants et personnels RH

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

ÉVALUATION FORMATIVE. On considère le circuit électrique RC représenté ci-dessous où R et C sont des constantes strictement positives.

Programmation linéaire et Optimisation. Didier Smets

5. Apprentissage pour le filtrage collaboratif

Représentation des Nombres

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Les effets d une contrainte de crédit sur la convergence économique : Le cas des pays de l UEMOA

CAPTEURS - CHAINES DE MESURES

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

AGROBASE : un système de gestion de données expérimentales

3 Approximation de solutions d équations

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Développement décimal d un réel

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?

Wealth Effect on Labor Market Transitions

Chapitre 3. La répartition

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Transcription:

Econométrie des données de panel Guillaume Horny Banque de France Master 2 MASERATI Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 1 / 34

Introduction Introduction Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 2 / 34

Introduction Plan 1 Présentation générale 2 L hétérogénéité inobservée 3 Notations et décompositions de la variance 4 Avantages et inconvénients des données de panel 5 Formats de données et logiciels Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 3 / 34

Présentation générale Plan 1 Présentation générale 2 L hétérogénéité inobservée 3 Notations et décompositions de la variance 4 Avantages et inconvénients des données de panel 5 Formats de données et logiciels Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 4 / 34

Présentation générale Un peu de vocabulaire... Que sont des données de panel? ce sont des données relatives à des unités statistiques observées à plusieurs reprises dans le temps un panel est ainsi une répétition de coupes On suit généralement des individus, des entreprises, des pays, etc. C est pourquoi on parle parfois de données longitudinales. On parle de panel cylindré (balanced) lorsque toutes les unités sont suivies à chaque date (pas de trou). Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 5 / 34

Présentation générale Un exemple de ce à quoi peuvent resembler des données de panel R> l i b r a r y ( plm ) R> data ( " G r u n f e l d ", package="plm" ) R> head ( G r unfeld, 30) f i r m y e a r i n v v a l u e c a p i t a l 1 1935 317.6 3078.5 2. 8 1 1936 391.8 4661.7 52.6 1 1937 410.6 5387.1 156.9...... <SNIP>...... 1 1954 1486.7 5593.6 2226.3 2 1936 355.3 1807.1 50.5 2 1937 469.9 2676.3 118.1 2 1938 262.3 1801.9 260.2 Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 6 / 34

Présentation générale Pourquoi un cours dédié? les données de panel sont de fait très répandues à l heure actuelle. Les administrations procèdent au suivi des assurés/contribuables, les entreprises au suivi de leurs clients, de leurs filiales, de leurs commerciaux... les techniques mises au point pour des données en coupe, lorsqu elles sont appliquées à un panel, produisent des résultats erronés Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 7 / 34

Présentation générale Exemple (1/3) Les droites issues des vraies valeurs sont en bleu, la droite de régression (OLS) en rouge, les régressions ajustées pour la dimension panel en vert Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 8 / 34

Présentation générale Exemple (2/3) : simulation de données R> rm( l i s t = l s ( ) ) R> i d < rep ( 1 : 3, each = 100) R> date < rep ( 1 : 1 0 0, 3) R> x1 < i d 10 R> x2 < i d + rnorm (300) R> y < x1 2 x2 + rnorm (300) R> donnees < cbind ( id, date, y, x1, x2 ) R> donnees [ 1 : 1 0, ] Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 9 / 34

Présentation générale Exemple (3/3) : création de graphiques R> plot ( x2, y ) R> a b l i n e ( lm ( y ~ x2 ), col = " red " ) R> a b l i n e ( coef = c (10, 2), col = " b l u e " ) R> a b l i n e ( coef = c (20, 2), col = " b l u e " ) R> a b l i n e ( coef = c (30, 2), col = " b l u e " ) R> z < lm ( y ~ 0 + x2 + as. f a c t o r ( i d ) ) R> a b l i n e ( coef = c ( coef ( z ) [ 2 ], coef ( z ) [ 1 ] ), col=" g reen " ) R> a b l i n e ( coef = c ( coef ( z ) [ 3 ], coef ( z ) [ 1 ] ), col=" g reen " ) R> a b l i n e ( coef = c ( coef ( z ) [ 4 ], coef ( z ) [ 1 ] ), col=" g reen " ) Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 10 / 34

L hétérogénéité inobservée Introduction 1 Présentation générale 2 L hétérogénéité inobservée 3 Notations et décompositions de la variance 4 Avantages et inconvénients des données de panel 5 Formats de données et logiciels Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 11 / 34

L hétérogénéité inobservée La question de l hétérogénéité the most important discovery is the evidence on the pervasiveness of heterogeneity and diversity in economic life Heckman, discours de remise du prix Nobel en 2001. Ce constat paraît si naturel aujourd hui qu il semble étrange de le considérer comme une découverte aussi importante. Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 12 / 34

L hétérogénéité inobservée La question de l hétérogénéité La même idée se retrouve toutefois dans le domaine très différent de la médecine (Aalen, 1998) : It is a basic observation of medical statistics that individuals are dissimilar. Still, there is a tendency to regard this variation as a nuisance, and not as something to be considered seriously in its own right. Statisticians are often accused of being more interested in averages, and there is some truth to this. Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 13 / 34

L hétérogénéité inobservée Hétérogénéité observée et inobservée l hétérogénéité est la différence entre les facteurs pertinents lors de la prise de décision et connus des agents (Cunha, 2005). Ainsi, nous sommes en présence d hétérogénéité dès lors que les goûts, anticipations, capacités ou contraintes ne sont pas les même d un agent à l autre. Nous sommes présence d hétérogénéité non observée lorsque diffèrent les facteurs pertinents et connus des agents, qui sont de plus inconnus de l économètre (Browning, 2005). Il s agit donc d un type particulier d hétérogénéité, caractérisé par le manque d information sur les individus. L hétérogénéité observée renvoie aux différences entre les observations mesurées par les variables explicatives, et l hétérogénéité inobservée aux autres différences. Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 14 / 34

L hétérogénéité inobservée L hétérogénéité inobservée Les variables explicatives sont rarement toutes observées : certaines peuvent ne pas être mesurables, codifiables ou encore être absentes des données. L analyste peut avoir conscience du problème, mais se trouver dans l impossibilité de les prendre en compte dans son modèle. En prenant en compte l hétérogénéité inobservée, on accepte l idée qu il existe des déterminants inobservés par l économètre. On ne les identifie pas forcément, mais on en contrôle les effets. La question de l hétérogénéité inobservée n est importante que dans les applications : savoir si une variable n est pas ou mal observable n est pas une question centrale dans l élaboration de modèles théoriques. Il revient à l économètre d en tenir compte pour éviter que ses résultats ne soient erronés du fait d une mauvaise spécification d une forme réduite. Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 15 / 34

Notations et décompositions de la variance Introduction 1 Présentation générale 2 L hétérogénéité inobservée 3 Notations et décompositions de la variance 4 Avantages et inconvénients des données de panel 5 Formats de données et logiciels Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 16 / 34

Notations et décompositions de la variance Notations On indice par i les individus (i = 1,..., N) et t les périodes (t = 1,..., T ). On a donc NxT observations On note y it la variable dépendante (ici un scalaire). On note x it un vecteur de Kx1 variables, notées x k it. Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 17 / 34

Notations et décompositions de la variance Notations La moyenne inter-temporelle de la kème variable pour l individu i est : T x k i. = 1 T t=1 x k it La moyenne inter-individuelle de la kème variable à la date t est : N x ḳ t = 1 N i=1 x k it La moyenne inter-individuelle et inter-temporelle de la kème variable est : x ḳ. = 1 N T xit k NT i=1 t=1 Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 18 / 34

Notations et décompositions de la variance Décompositions de la variance Savoir qu elle est l origine de la variance est souvent informatif. La dispersion des salaires est-elle due à des différences permanentes (qualification, grilles de salaires) ou temporaires? La variabilité des salaires est : varb y = N T (y it y.. ) 2 i=1 t=1 On peut écrire : varb y = N T (y it y i. + y i. y.. ) 2 i=1 t=1 Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 19 / 34

Notations et décompositions de la variance Décompositions de la variance varby = N T N T N T (y it y i. ) 2 + (y i. y.. ) 2 +2 (y it y i. )(y i. y.. ) i=1 t=1 i=1 t=1 i=1 t=1 Le dernier terme est nul car t (y it y i. ) = 0 (les esthètes préféreront faire référence au théorème des projections successives). D où : varb y = varb intra-individuelle y + varb inter-individuelle y Dans l exemple des salaires, cette formule nous permet de décomposer la variabilité totale en : variabilité temporelle propre à l individu (part variable...) variabilité permanente entre individus (formation initiale, talent...) Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 20 / 34

Notations et décompositions de la variance Décompositions de la variance D autres décompositions sont possibles On a : varb y = N T N T (y it y.t ) 2 + (y.t y.. ) 2 i=1 t=1 i=1 t=1 D où : varb y = varb intra-temporelle y + varb inter-temporelle y Ou encore des décompositions en variabilité intra-individuelle-temporelle, inter-individuelle et inter-temporelle (exercice!) Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 21 / 34

Avantages et inconvénients des données de panel Introduction 1 Présentation générale 2 L hétérogénéité inobservée 3 Notations et décompositions de la variance 4 Avantages et inconvénients des données de panel 5 Formats de données et logiciels Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 22 / 34

Avantages et inconvénients des données de panel Avantages des données de panel (1/4) Elles proviennent de l accumulation de données dans le temps. Les échantillons panels sont donc plus grands que n importe quelle coupe issue de la même source, d où une meilleur convergence ainsi qu une précision accrue des estimateurs Ceci explique pourquoi on parlera notamment des estimateurs MCG, biaisés à distance finie mais néanmoins convergents Une nuance : on a généralement avec un panel micro N mais pas T (et l inverse avec les panels macro). D où une convergence dans la dimension individuelle de meilleure qualité que dans la dimension temporelle avec les panels micro. Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 23 / 34

Avantages et inconvénients des données de panel Avantages des données de panel (2/4) Ce sont avant tout des données individuelles, on peut donc connaître le rôle des différences entre individus dans le comportement de la variable dépendante. Surtout, le suivi des individus nous renseigne sur la manière dont leurs situations évoluent dans le temps. Exemple : deux coupes peuvent nous permettre de mesurer un taux de chômage de 10% à deux dates, mais il nous faut un panel pour savoir s il s agit des mêmes personnes. En d autres termes, la double dimension individuelle et temporelle permet de séparer les effets des caractéristiques individuelles des évolutions temporelles Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 24 / 34

Avantages et inconvénients des données de panel Avantages des données de panel (3/4) On verra qu on est également capables de mesurer l impact des caractéristiques individuelles inobservables permanentes dans le temps Par exemple, à partir de données individuelles de salaires, on peut distinguer la part due aux caractéristiques observables (expérience professionnelle...), de celle due aux inobservables (motivation, implication, talent...), de celle due à la conjoncture. Autre exemple, un panel de pays nous permet de rendre compte de l influence de différences structurelles (systèmes juridiques, politques...) sur leur croissance économique Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 25 / 34

Avantages et inconvénients des données de panel Avantages des données de panel (4/4) Intuition : Soit v i une variable aléatoire inobservée permanente dans le temps. Un modèle linéaire serait : y it = β 0 + x itβ + v i + ɛ it. Si v i est sans corrélation avec les x it, on peut estimer le modèle par OLS (attention toutefois à l hétéroscédasticité). Sinon, l estimateur OLS n est pas convergent. On peut toutefois écrire, grâce au suivi des individus : y it = x itβ + ɛ it. L estimateur OLS de ce modèle est convergent, si x it x it est sans corrélation avec ɛ it. est inversible et si Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 26 / 34

Avantages et inconvénients des données de panel Inconvénients des données de panel (1/3) Ce sont avant tout des données individuelles, l information est potentiellement riche, mais sa fiabilité est parfois douteuse Par exemple, de nombreuses données d entreprises sont déclarées par des membres de l entreprise qui ne sont pas statisticiens, qui ont souvent beaucoup d autres choses à faire, et qui ont parfois intérêt à manipuler les informations qu ils déclarent Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 27 / 34

Avantages et inconvénients des données de panel Inconvénients des données de panel (2/3) Les influences des observations aberrantes ne se compensent généralement pas dans ce contexte (à l inverse des données en coupe qui sont souvent plus clémentes). Les estimations peuvent être sensibles à un nombre, même faible, de points aberrants Les observations manquantes ou incomplètes tendent à être fréquentes en pratique. Celà s explique souvent par les difficultés à effectuer le suivi longitudinal des individus, mais aussi parfois par des comportements stratégiques demandant à être explicitement intégrés dans le modèle, sous peine de biais sévères. le repérage et la correction (ou l élimination) des observations aberrantes et manquantes est encore plus important dans le cas des panels Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 28 / 34

Avantages et inconvénients des données de panel Inconvénients des données de panel (3/3) Les comportements sont généralement stables dans le temps, d où des modèles où les erreurs sont souvent autocorrélées. Les écarts-types des coefficients doivent être évalués avec attention, au risque d avoir des t de Student fortement surévalués. Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 29 / 34

Formats de données et logiciels Introduction 1 Présentation générale 2 L hétérogénéité inobservée 3 Notations et décompositions de la variance 4 Avantages et inconvénients des données de panel 5 Formats de données et logiciels Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 30 / 34

Formats de données et logiciels Format des données (1/2) Les données se présentent généralement dans le format de l exemple plus haut, appelé format long : y 11 x11 1... x11 K...... y 1T x1t 1... x1t K...... y N1 xn1 1... xn1 K...... y NT xnt 1... xnt K Les données peuvent ici être stockées dans une matrice (NTx(K + 1)) Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 31 / 34

Formats de données et logiciels Format des données (2/2) Les données sont aussi parfois au format large : y 11... y 1T x 1 11... x 1 1T x K 11... x K 1T y N1... y NT x 1 N1... x 1 NT x K N1... x K NT Les données peuvent ici être stockées dans une matrice (Nx(KT + T )) La plupart des logiciels s attendent à ce que les données soient au format long lorsqu on appelle les fonctions propres aux données de panel. Si elles sont au format large : reshape (R et Stata). Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 32 / 34

Formats de données et logiciels Logiciels Les logiciels usuels d économétrie (SAS, Stata, R...) permettent de traiter des données de panel et d estimer assez facilement les modèles que nous verrons dans ce cours Sans vouloir trop déflorer le suspens, les estimateurs que nous verront reposent sur de l algèbre linéaire et parfois des transformations simples de données. N importe quel logiciel de calcul matriciel peut donc faire l affaire. Pour les modèles plus avancés, je préfère personnellement Stata. À garder en tête si vous envisagez d investir à plus long terme dans ce domaine. Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 33 / 34

Formats de données et logiciels Bibliographie Patrick Sevestre (2002) : Économétrie des données de panel, Dunod. Jeffrey Wooldridge (2008) : Econometric Analysis of Cross Section and Panel Data, MIT Press. Colin Cameron et Pravin Trivedi (2005) : Microeconometrics - Methods and Applications, Cambridge University Press. Guillaume Horny (Banque de France) Econométrie des panels (chap 1) 2013 34 / 34