CHAPITRE 5. Michel LUBRANO. Octobre 2007. 1 Introduction 2



Documents pareils
MODELE A CORRECTION D ERREUR ET APPLICATIONS

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

1 Définition de la non stationnarité

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Calcul différentiel sur R n Première partie

1 Complément sur la projection du nuage des individus

Une analyse économétrique multivariée du comportement des ménages

Fonctions de plusieurs variables

Introduction à l étude des Corps Finis

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Etude des propriétés empiriques du lasso par simulations

NON-LINEARITE ET RESEAUX NEURONAUX

Cours 02 : Problème général de la programmation linéaire

Exercices Corrigés Premières notions sur les espaces vectoriels

La théorie des anticipations de la structure par terme permet-elle de rendre compte de l évolution des taux d intérêt sur euro-devise?

Les indices à surplus constant

Théorie et codage de l information

Exercice : la frontière des portefeuilles optimaux sans actif certain

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Chapitre 3. Les distributions à deux variables

Correction de l examen de la première session

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Analyse en Composantes Principales

3 Approximation de solutions d équations

Représentation des Nombres

3. Conditionnement P (B)

Température corporelle d un castor (une petite introduction aux séries temporelles)

F411 - Courbes Paramétrées, Polaires

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

I. Polynômes de Tchebychev

Chapitre 0 Introduction à la cinématique

INF6304 Interfaces Intelligentes

Économetrie non paramétrique I. Estimation d une densité

Résolution de systèmes linéaires par des méthodes directes

choisir H 1 quand H 0 est vraie - fausse alarme

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Texte Agrégation limitée par diffusion interne

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Une réponse (très) partielle à la deuxième question : Calcul des exposants critiques en champ moyen

CHAPITRE VI ALEAS. 6.1.Généralités.

Principe de symétrisation pour la construction d un test adaptatif

Chapitre 1. L intérêt. 2. Concept d intérêt. 1. Mise en situation. Au terme de ce chapitre, vous serez en mesure de :

ESTIMATION D UNE FONCTION DE DEMANDE DE MONNAIE AU CAMEROUN PAULIN MENDO & MBOLLO STEVE WILLIAMS*

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

PRECISION - REJET DE PERTURBATIONS T.D. G.E.I.I.

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Programmation linéaire

TABLE DES MATIERES. C Exercices complémentaires 42

1 Comment faire un document Open Office /writer de façon intelligente?

Évaluation de la régression bornée

Initiative socialiste pour des impôts équitables Commentaires Bernard Dafflon 1

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Chapitre 2 Le problème de l unicité des solutions

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Le produit semi-direct

La fonction exponentielle

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Programmation linéaire


Cours d analyse numérique SMI-S4

Théorème du point fixe - Théorème de l inversion locale

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Chapitre 1 Régime transitoire dans les systèmes physiques

Suites numériques 3. 1 Convergence et limite d une suite

CCP PSI Mathématiques 1 : un corrigé

Image d un intervalle par une fonction continue

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul des pertes de pression et dimensionnement des conduits de ventilation

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Optimisation, traitement d image et éclipse de Soleil

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

Relation entre deux variables : estimation de la corrélation linéaire

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Programmes des classes préparatoires aux Grandes Ecoles

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Résolution d équations non linéaires

Programmation linéaire et Optimisation. Didier Smets

Comparaison de fonctions Développements limités. Chapitre 10

Correction du Baccalauréat S Amérique du Nord mai 2007

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Modélisation et Simulation

Partie 1 - Séquence 3 Original d une fonction

Politiques monétaire et fiscale Cours de M2R Printemps 2006

Le modèle de régression linéaire

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Précision d un résultat et calculs d incertitudes

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

Limites finies en un point

Transcription:

CHAPITRE 5 Inférence et Tests dans les Modèles Cointégrés Michel LUBRANO Octobre 2007 Contents 1 Introduction 2 2 La Methode de Engle et Granger 3 2.1 Estimation en deux étapes.......................... 3 2.2 Les problèmes de petit échantillon...................... 6 2.3 Corrections de petit échantillon........................ 6 3 Tests univariés de cointegration 8 3.1 Tests de cointégration basés sur les résidus.................. 8 3.2 La contrainte de facteur commun....................... 10 3.3 Application à la demande de monnaie en Belgique.............. 11 4 Estimation par Maximum de Vraisemblance 12 4.1 L estimation des VAR sans contrainte.................... 12 4.2 Inférence dans un CVAR simplifié...................... 13 4.3 L ajout de retards supplémentaires...................... 15 4.4 Le rôle du terme constant........................... 16 4.5 Tests du rang de cointégration........................ 17 4.6 Distribution asymptotique des tests de cointégration............. 18 4.7 Test de l absence de trends.......................... 20 4.8 Test de restrictions linéaires sur le vecteur de cointégration......... 20 4.9 Test d exogénéité............................... 21 4.10 Non causalité de Granger........................... 22 1

1 INTRODUCTION 2 5 Stratégie de modélisation 23 5.1 Quelques étapes................................ 23 5.2 Application empirique sur les données belges................ 25 6 Inférence et tests dans les modèles structurels 27 7 Conclusion 27 8 Lectures additionnelles 27 9 Exercices 28 9.1 Tabulation d un test de cointégration..................... 28 9.2 Regression statique.............................. 29 9.3 Tests de Johansen............................... 29 1 Introduction Le chapitre précédant a permis de mettre en lumière le type de modélisation adapté à la présence de racines unitaires dans un vecteur aléatoire quand celui-ci possédait la propriété de cointégration (stationnarité d une combinaison linéaire des composantes non stationnaires du vecteur aléatoire). La cointégration est une propriété qui permet donc de réduire le nombre de trend stochastiques dans un vecteur aléatoire. Par rapport au cas univarié, la représentation autorégressive de la série devient nettement plus complexe, même si une écriture matricielle laisse entrevoir une certaine similitude. L inférence et les tests dans les modèles autorégressifs avec cointégration deviennent eux aussi plus complexes. Deux branches de la littérature peuvent être distinguées. - L une procède en deux étapes par moindres carrés ordinaires en analysant de manière séparée les équations statiques de cointégration puis ensuite les équations dynamiques en supposant connue la solution statique de long terme. Elle est exposée à l origine dans Engle and Granger (1987). Un test permet de déterminer si une équation statique est cointégrante ou non. Mais aucun test ne permet d examiner des restrictions sur le vecteur de cointégration. Cette méthode a connu des développements avec entre autres Phillips (1991) qui visaient à introduire des corrections de petit échantillon et à se ramener à un cadre usuel χ 2 pour des tests de restriction sur le vecteur de cointégration. Ce sont des méthodes que l on peut qualifier d univariées dans la mesure où elles ne sont clairement définies que le cas où il n y a qu un seul vecteur de cointégration. - L autre considère le modèle CVAR dans son ensemble et estime de manière conjointe tous les paramètres par maximum de vraisemblance. Un test de rapport de vraisemblance ayant une distribution non-standard, mais reliée à la distribution des tests ADF, permet de déterminer le rang r de cointégration. Conditionnellement à r les tests de restriction sur les vecteurs de cointégration et de poids ont une distribution χ 2. C est l approche dite de Johansen (1988) qui a été développé par la suite

2 LA METHODE DE ENGLE ET GRANGER 3 dans Johansen (1991), Johansen and Juselius (1990) et Johansen (1995). On peut la qualifier de multivariée. Cette distinction va conditionner la présentation que nous allons en faire. Il est à noter que la première approche, si elle est plus facile à comprendre à première vue faisant appel aux simples moindres carrés, comporte des aspects qui sont in fine plus complexes à cause de la théorie asymptotique mise en jeu. La seconde approche, basée sur le maximum de vraisemblance, est finalement plus simple, une fois franchi le premier pas. A partir du moment où le rang de cointégration est déterminé, cette approche repose sur une théorie asymptotique standard. C est elle qui est majoritairement utilisée dans les logiciels comme Jmulti, Stata ou PcFiml par exemple. 2 La Methode de Engle et Granger Pour saisir les problèmes qui vont se poser, un petit exemple tiré de Engle and Granger (1987) et repris dans Davidson and MacKinnon (1993) sera bien utile. Considérons le modèle bivarié suivant: β 1 y t x t = u 1t, (1 ρ 1 L) u 1t = ǫ 1t (1) y t β 2 x t = u 2t, (1 ρ 2 L) u 2t = ǫ 2t où les ǫ t sont normaux de moyenne nulle et de variance Ω. Tant que ρ 1 et ρ 2 seront inférieurs à un en valeur absolue, les deux variables y t et x t seront I(0). Si par contre ils sont tous les deux égaux à un, y t et x t seront I(1), mais pas cointégrés. On obtiendra la cointégration pour par exemple ρ 2 < 1 et ρ 1 = 1. Alors le vecteur de cointégration sera [1, β 2 ]. Les erreurs de la première équation sont I(1) car u 1t = ǫ 1t, ce qui implique y t et x t sont I(1). Par contre les erreurs de la seconde équation sont stationnaires. 2.1 Estimation en deux étapes La méthode d estimation proposée par Engle and Granger (1987) procède en deux étapes. On estime tout d abord le vecteur de cointégration par moindres carrés, puis remplaçant ce vecteur par son estimation dans le modèle général, on estime dans une seconde étape les coefficients dynamiques du modèle. La première étape consiste donc à régresser par simples moindres carrés une des composantes de la variable multivariée sur les autres pour obtenir une estimation du vecteur de cointégration. Supposons que le modèle multivarié s écrive: A(L)( X t TD t ) = αβ (X t 1 TD t 1 ) + ǫ t (2) et que le rang de cointégration soit égal à un. β est alors un vecteur colonne. On va choisir d en normaliser le premier élément et de partitionner X t de manière conforme en: β = [1, β] X t = [y t, Y t ]

2 LA METHODE DE ENGLE ET GRANGER 4 Alors pour estimer β, il suffit d utiliser les moindres carrés dans la régression: y t = β Y t + TD t + ǫ t (3) où β correspond aux éléments non normalisés de β. Engle and Granger (1987) [voir aussi Stock (1987)] montrent que cette procédure est valide asymptotiquement malgré deux problèmes qui semblent se poser. Premièrement comme on cherche une relation de cointégration, c est que y t et Y t sont déterminés de manière conjointe. Donc il y a corrélation entre les erreurs ǫ t et les variables explicatives Y t. On peut constater cela de manière aisée sur le petit exemple du début. La vraie relation de cointégration est: Si l on estime simplement la régression: le terme d erreur implicite ǫ t devient: y t = β 2 x t + ρ 2 (y t 1 β 2 x t 1 ) + ǫ 2t (4) y t = βx t + ǫ t (5) ǫ t = ρ 2 (y t 1 β 2 x t 1 ) + ǫ 2t (6) ce qui montre alors la corrélation entre x t et ǫ t. Deuxièmement les régresseurs sont tous I(1), ce qui de facto nous ramène à la question des régressions factices. Pourtant ces deux problèmes ne sont pas rédhibitoires comme nous allons le voir maintenant. Le fait que les variables soient I(1) permet d obtenir un théorème de consistance qui est initialement du à Stock (1987): Théorème 1 Supposons que le vecteur aléatoire X t admette une représentation de Wold multivariée X t = C(L) ǫ t et qu il soit cointégré de rang 1 et de vecteur de cointégration β. Soit ˆβ l estimateur OLS du vecteur de cointégration correctement normalisée. Alors sous des conditions très générales on a: T 1 δ (ˆβ β) p 0 δ > 0 Ce théorème montre que les paramètres estimés convergent très vite vers leurs vraies valeurs. Au lieu de la vitesse habituelle de T 1/2, ils convergent à la vitesse T. Le problème de la corrélation entre x t et ǫ t ne joue pas asymptotiquement car x t I(1) alors que ǫ t I(0) à cause des propriétés de cointégration. Aussi dans l expression du biais, les termes en x t domineront les termes en ǫ t. Quand au problème de régression factice, il ne jouera pas à nouveau à cause des propriétés de cointégration. Dans une régression factice, un des problèmes vient de ce que les résidus sont I(1). Ici ils sont I(0) par propriété de cointégration. Enfin le R 2 de la régression tendra asymptotiquement vers l unité. En conséquence l arbitraire de la normalisation ne joue plus asymptotiquement car toutes les régressions deviennent équivalentes.

2 LA METHODE DE ENGLE ET GRANGER 5 La deuxième étape de la méthode d estimation consiste à reporter dans le modèle ECM-VAR l estimation du vecteur de cointégration et d estimer par moindres carrés les paramètres du modèle: A(L)( X t TD t ) = α ˆβ (X t 1 TD t 1 ) + ǫ t (7) ou une des équations du modèle ECM structurel correspondant. Cette seconde étape ne pose aucun problème particulier car tous les régresseurs sont maintenant I(0). Le fait d utiliser l estimation de β au lieu de sa vraie valeur n apporte aucune perturbation comme le montre le théorème suivant donné par Engle and Granger (1987): Théorème 2 L estimation en deux étapes d une équation d un système à correction d erreurs, obtenue en considérant ˆβ comme vraie valeur conduit à la mḙme distribution asymptotique que l estimation par maximum de vraisemblance obtenue en prenant la vraie valeur de β. Les écart-types des moindres carrés sont des estimateurs consistants des vrais écart-types. Ce résultat montre que dans la deuxième étape, on peut utiliser une théorie standard pour effectuer des tests sur les valeurs des paramètres qui caractérisent la dynamique de court terme. Intuitivement ce résultat se comprend dans la mesure où maintenant on n a plus que des variables qui sont I(0) dans la régression, y compris le régresseur de première étape z t 1 qui est I(0) par propriété de cointégration. Exemple 1: Reprenons le petit exemple du début et appliquons la méthode. On a tout d abord: β 1 y t x t = u 1t u 1t = ǫ 1t y t β 2 x t = u 2t (1 ρ 2 L) u 2t = ǫ 2t En multipliant la première équation par (1 L) et la seconde par (1 ρ 2 L), on obtient après substitution et réarangement des termes: β 1 y t x t = ǫ 1t y t β 2 x t (ρ 2 1)(y t 1 β 2 x t 1 ) = ǫ 2t On remplace maintenant dans le système le terme de long terme y t β 2 x t par son estimation de première étape que l on note ẑ t et on résout cette forme structurelle en forme réduite par substitution: x t = ρ 2 1 ẑ t 1 + β 1ǫ 2t ǫ 1t 1 β 2 β 1 β 1 β 2 y t = ρ 2 1 ẑ t 1 + ǫ 2t β 2 ǫ 1t 1 β 1 β 2 1 β 1 β 2 La deuxième étape permet d estimer ρ 2 et β 1 à partir du moment où l on a déjà estimé β 2. On remarque ensuite que si ρ 2 tend vers un, on n a plus de cointégration, car alors le terme en ẑ t 1 disparaît.

2 LA METHODE DE ENGLE ET GRANGER 6 Il existe un autre résultat dans la littérature qui est du à Sims, Stock, and Watson (1990) et qui complète dans une certaine mesure le théorème 2. Dans ce papier les auteurs abordent l estimation d un modèle VAR ajusté sur des niveaux de variables I(1) en présence de cointégration. La méthode d estimation est en une seule étape et utilise les moindres carrés. Ils montrent que la théorie asymptotique standard peut encore s appliquer quand on teste la valeur d un paramètre attaché à une variable qui par reparamétrisation se trouve I(0), y compris quand la caractère I(0) est obtenu par l utilisation de la propriété de cointégration. A l intérieur d une même estimation, on peut donc séparer les résultats d inférence sur les variables I(1) qui sont non-standard de ceux sur les régresseurs I(0) qui eux sont standards. Ce résultat vient de la différence dans les vitesses de convergence. Mais il faudra utiliser ces résultats avec prudence, car ils ne sont valables que sur des coefficients individuels. En effet les différences de vitesse de convergence font que la matrice de variance-covariance de l estimateur OLS des coefficients de régression est singulière. 2.2 Les problèmes de petit échantillon La méthode en deux étapes a le mérite de la simplicité. Mais de sérieux problèmes se posent en petit échantillon. Tout d abord le théorème 1, s il montre que l estimateur OLS du vecteur cointégrant est consistant, il montre aussi qu il a un biais de petit échantillon d ordre 1/T. Une des sources de biais est apparente dans la régression de cointégration du petit exemple du dessus. Elle vient du facteur omis ρ 2 (y t 1 β 2 x t 1 ) qui entraîne un problème de biais de simultanéité et un problème d autocorrélation des erreurs. Ce facteur est I(0) et donc devient négligeable asymptotiquement car les régresseurs sont I(1). Mais en petit échantillon il peut être important si ρ 2 est proche de un. En effet au plus ρ 2 se rapproche de l unité au plus on s éloigne de la situation de cointégration. Les expériences de Monte Carlo de Stock (1987) ainsi que celles de Banerjee, Dolado, Hendry, and Smith (1986) montrent que le biais de petit échantillon des OLS peut être très important dans une régression statique. Dans son papier Stock (1987) montre aussi que la distribution asymptotique de cet estimateur suit encore une fonctionnelle de processus de Wiener. Mais elle dépend très fort des vraies valeurs des paramètres de nuisance, si bien qu aucune table ne peut être construite pour un cas général. A titre d exemple les valeurs rapportées par Stock pour un cas particulier au seuil de 5% varient entre -59.96 et -2.63 pour une taille d échantillon de 200. On ne pourra donc effectuer de test sur les éléments du vecteur de cointégration quand celui-ci est estimé par moindres carrés dans une régression statique. 2.3 Corrections de petit échantillon A REVOIR ET RACOURCIR Il existe plusieurs manières d obtenir un estimateur de θ qui ait de meilleures propriétés de petit échantillon. Il faut d une part pouvoir corriger l autocorrélation des erreurs. Ceci est toujours possible en employant une méthode non-paramétrique du type de celle employée par Phillips et Perron (1988) pour les tests de racine unitaire. Mais il faut d autre part corriger le biais d endogénéité, et celui-ci est plus difficile à éliminer. Ce biais n existe

2 LA METHODE DE ENGLE ET GRANGER 7 plus si les innovations de y t ne causent pas au sens de Granger les innovations de Y t dans la régression statique de cointégration y t = β Y t +TD t + ǫ t. On peut alors retrouver la théorie asymptotique standard à base de χ 2 comme le soulignent Campbell et Perron (1991). Mais ces conditions sont très restrictives, surtout pour la non-causalité. Plusieurs auteurs ont proposé des corrections de petit échantillon qui tiennent compte des deux problèmes évoqués: autocorrélation des erreurs et biais de simultanéité. Ce dernier vient en général de ce que les innovations de y t causent les innovations de Y t. On sait d après les tests de Sims (1972) sur la non-causalité que si y t cause la variable Y t, alors y t peut s exprimer comme une combinaison linéaire des valeurs passées, présentes et futures de Y t. L idée c est que si y t cause Y t, les valeurs futures de Y t seront utiles pour prédire y t. L idée qui est contenue dans l approche de plusieurs auteurs dont Saikonnen (1991) consiste à corriger le biais de simultanéité par des régresseurs supplémentaires constitués de retards et d avances de Y t pour conduire à la régression cointégrante: y t = β p Y t + TD t + Y t j η j + ǫ t (8) On peut ensuite corriger l autocorrélation des résidus en employant par exemple des GLS. C est ce que proposent Stock and Watson (1993) qui montrent qu alors on peut utiliser les tests de Wald standards qui sont asymptotiquement distribués selon des χ 2. Phillips and Loretan (1991) utilisent par contre une correction paramétrique pour l autocorrélation qui consiste à ajouter à la régression précédente des retards de la variable de cointégration (y t β Y t ): j= p y t = β p q Y t + TD t + Y t j η j + (y t i β Y t i )ζ i + ǫ t (9) j= p i=1 Là encore on retrouve des résultats de théorie asymptotique basés sur la distribution du χ 2. Hamilton (1994) dans son chapitre 19 traite de façon complète un exemple bivarié où il montre comment la correction de petit échantillon permet de récupérer in fine des tests standards portant sur des restrictions sur le vecteur de cointégration. Mais la méthode est un peu lourde car elle requiert une régression auxiliaire. La méthode alternative à la procédure en deux étapes de Engle and Granger (1987) la plus simple consiste à considérer dans un cadre univarié, c est à dire quand il n y a qu un seul vecteur de cointégration un modèle à correction d erreurs du type: y t = µ + αy t 1 + δx t 1 + γ x t + u t Davidson and MacKinnon (1993) montrent que par une série de reparamétrisations, tous les coefficients de cette régression peuvent être attachés à un régresseur qui soit I(0). On peut donc utiliser les résultats de Sims, Stock, and Watson (1990) cités plus haut pour estimer cette équation directement par moindres carrés, même si certains régresseurs sont I(1). En l absence d autocorrélation des erreurs, le biais de simultanéité est corrigé. Banerjee, Dolado, Hendry, and Smith (1986) montrent que cette méthode donne en général de meilleurs résultats que la méthode en deux étapes de Engle and Granger (1987).

3 TESTS UNIVARIÉS DE COINTEGRATION 8 3 Tests univariés de cointegration Tout les les méthodes d estimation supposent que l on connaisse soit le rang r de cointégration pour les méthodes multivariées par maximum de vraisemblance (que l on n a pas encore exposées), soit la validité de l hypothèse de cointégration quand on estime l équation de long terme dite de cointégration. Il faut donc disposer de procédures de tests. Dans le cadre bivarié les tests de cointégration sont de simples extensions du tests de Dikey et Fuller sur les résidus de la régression de cointégration. Dans le cadre multivarié, il faudra faire des tests sur le rang de la matrice Π dans l équation: X t = β 0 + Π(X t 1 µ δt) + A (L) X t 1 + ǫ t (10) 3.1 Tests de cointégration basés sur les résidus L idée qui est à la base de cette catégorie de tests est très simple. Si deux variables y t et x t sont I(1) et cointégrées, alors il existe une combinaison linéaire z t de ces variables qui est I(0). Pour la trouver, il suffit de régresser y t sur x t. On aura alors une estimation de z t au moyen des résidus de cette régression. Il suffit de tester ensuite la présence d une racine unitaire dans ces résidus pour tester la cointégration. Ces types de tests sont principalement dus à Engle and Granger (1987). On retombe donc sur un problème connu. Si la valeur du vecteur cointégrant β était connue, on n aurait qu à utiliser les tests usuels de racine unitaire et leur tables associées qui ont été données dans le chapitre 3. Il est des cas où ce vecteur est connu, notamment quand la théorie économique impose des élasticités de long terme égales à l unité. On peut par exemple tester la cointégration entre la consommation C t et le revenu disponible RD t en imposant que l élasticité de long terme soit unitaire. Si la relation est en logarithme, il suffira alors de faire un test de racine unitaire avec terme constant sur la variable log(c t /RD t ). Maintenant le vecteur cointégrant β n est en général pas connu et on doit l estimer. On a vu plusieurs procédures pour cela dans le paragraphe précédent. On doit donc tenir compte de cette estimation dans le choix des valeurs critiques car la distribution asymptotique du test dépend du nombre de régresseurs contenus dans la régression cointégrante. Reprenons le cas d une relation de cointégration entre y t et x t où x t est possiblement un vecteur. On devra tout d abord conduire la régression cointégrante qui pourra contenir en général un terme constant et éventuellement un trend. On aura donc: y t = µ + δt + β x t + u t (11) Appelons û t les résidus de cette régression. Le test de cointégration va se faire au moyen d un test du type de celui de Dickey et Fuller souvent appelé test de Engle et Granger (EG) dans ce contexte: û t = (ρ 1)û t 1 + ǫ t (12) Mais comme l autocorrélation est souvent un problème, on emploiera un test AEG (Augmented Engle Granger) qui revient à rajouter à la régression de test des retards de û t.

3 TESTS UNIVARIÉS DE COINTEGRATION 9 Table 1: Valeurs critiques asymptotiques pour le test AEG de cointégration 5% 10% n=2 sans trend -3.34-3.04 avec trend -3.78-3.50 n=3 sans trend -3.74-3.45 avec trend -4.12-3.84 n=4 sans trend -4.10-3.81 avec trend -4.43-4.15 n=5 sans trend -4.41-4.13 avec trend -4.72-4.44 n=6 sans trend -4.71-4.42 avec trend -4.98-4.70 Ces valeurs ont été calculées à partir de MacKinnon (1991). Plusieurs tables pour les valeurs critiques des tests de cointégration ont été publiées à commencer dans l article de Engle and Granger (1987). On peut citer aussi Engle and Yoo (1987) qui complète les tables précédentes. Mais on préférera se fier à celle de MacKinnon (1991) qui semble plus précise. Les valeurs critiques données par la Table 1 dépendent de la taille n de la série multivariée dont on veut tester la cointégration. Rappelons que à cause de la normalisation, si la régression cointégrante comprend un seul régresseur, il faudra utiliser les valeurs pour n = 2, n = 1 correspondant à un test de racine unitaire classique. Si l on a introduit un terme constant dans la régression cointégrante ou un trend, les valeurs critiques seront également différentes. Notons que constante et trends sont introduits dans la régression cointégrante et non dans la régression de test. Plusieurs remarques sont à faire sur cette procédure de test. Remarques: - Concernant la table, on retrouve la même caractéristique que dans le cas des racines unitaires. A savoir que l ajout de termes déterministes modifie la distribution asymptotique du test et fait baisser sa puissance. Il en va également avec le nombre n de variables. - Ensuite concernant l obtention des résidus estimés; on a vu que la procédure OLS d estimation de la relation de long terme était valide asymptotiquement, mais posait de sérieux problèmes en petit échantillon. Les biais de petit échantillon mentionnés précédemment vont bien sûr se répercuter sur les résultats des tests. De même que

3 TESTS UNIVARIÉS DE COINTEGRATION 10 les changements de normalisation. Aussi, bien qu il existe des tables pour des tailles variables d échantillon, on a préféré ne pas les donner à cause des incertitudes que nous venons de mentionner. Il existe d autres tests de cointégration basés sur les résidus dont on n a pas parlé. Il en est un donné dans Engle and Granger (1987) qui est basé sur la statistique de Durbin et Watson et appelé par Engle et Granger CRDW. C est la contrepartie en cointégration du test de Bhargava (1986) pour les racines unitaires. Engle et Granger n en donnent les tables que pour le cas n = 2 et 100 observations. A 5% on a une valeur critique de 0.386, mais qui peut varier très fort en fonction de la taille de l échantillon. Campbell and Perron (1991) recommandent de ne pas employer ce test. On peut toutefois se rappeler la règle heuristique donnée par Granger and Newbold (1974) concernant les régressions factices. Au vu de la théorie moderne, une régression factice est une régression entre des variables I(1) qui ne sont pas cointégrées. Les résidus sont donc encore I(1). Cette règle donne un signal d alarme chaque fois que dans une régression, la statistique DW est inférieure au R 2. Elle est à retenir comme une première approche. 3.2 La contrainte de facteur commun Il est aisé au vu des tables et des valeurs critiques très élevées que l hypothèse nulle de non-cointégration (ou racine unitaire dans les résidus) sera rarement rejetée. C est ce que remarquent Kremers, Ericsson, and Dolado (1992) sur la base d expériences empiriques. Leur expérience a consisté à tester la cointégration entre le logarithme du ratio consommation/revenu disponible et le taux d inflation, ce sur treize pays entre 1952 et 1985. Sur les treize cas, ils ne trouvent de la cointégration que dans quatre cas et encore à 10%. Par contre dans une formulation ECM, le coefficient attaché au résidu retardé (en supposant que celui-ci est stationnaire) est significatif dans 10 cas sur 13. Dans leur papier Kremers, Ericsson, and Dolado (1992) montrent que ce rejet trop fréquent des tests AEG est du à une restriction de facteur commun contenue de manière implicite dans ces tests. Nous allons montrer ceci maintenant sur un petit exemple. Considérons: y t = γ x t + α (y t 1 βx t 1 ) + ǫ t x t = u t (13) où u t et ǫ t sont deux bruits blancs indépendants et normaux de variance respective σ 2 ǫ et σ2 u. Que se passe-t-il dans le test AEG basé sur les résidus de la régression statique? Retirons β x t de chaque côté de la régression initiale: (y t β x t ) = (γ β) x t + α (y t 1 β x t 1 ) + ǫ t (14) et remplaçons y t β x t par z t. On va ainsi retrouver une certaine expression de la régression de test de Engle et Granger: z t = α z t 1 + (ǫ t + (γ β) x t ). (15)

3 TESTS UNIVARIÉS DE COINTEGRATION 11 Le vrai modèle impose la présence de x t alors que la régression de Engle et Granger ignore ce terme qu elle confond avec les résidus. L erreur commise n est pas très importante tant que γ est proche de β, c est à dire que l élasticité de court terme est à peu près la même que l élasticité de long terme. Mais imposer à tort la restriction que γ = β c est à dire la présence d un facteur commun nuit gravement à la puissance du test ADF. 3.3 Application à la demande de monnaie en Belgique On va maintenant traiter un petit exemple empirique qui concerne la demande de monnaie M1 en Belgique. Les données sont annuelles et couvrent la période 1953 1982. La théorie économique fournit une relation d équilibre qui relie le logarithme de la quantité réelle de monnaie LMP au logarithme du revenu réel LY P et au taux d intérêt R. On a pris les définitions suivantes pour les variables. M1 est la masse monétaire M1, Y P est le revenu disponible réel des particuliers. R est le taux sur les certificats de trésorerie à trois mois. Afin de conserver une relation en logarithme, on va prendre la transformation LR = log(1 + r t /100). On doit d abord commencer par vérifier que les séries sont toutes les trois bien I(1). On a les régressions suivantes: LMP t = 0.095LMP t 1 0.005 0.004 t [1.00] [ 0.10] [ 1.77] LR t = 0.57 [ 3.12] LY t = 0.039 [0.34] R t 1 + 0.0001 [0.019] + 0.002 [3.10] LY t 1 0.17 0.0023 t [ 0.27] [ 0.51] t DW = 1.98 R 2 = 0.22 DW = 1.89 R 2 = 0.28 DW = 1.53 R 2 = 0.082 ce qui fait que l on ne rejette pas l hypothèse de racine unitaire pour ces trois variables. La valeur critique du test à 5% est de -3.41 avec un trend. La méthode en deux étapes de Engle et Granger commence par estimer une régression statique sur les niveaux de ces trois variables. Cette première régression ne donne pas des résultats convaincants et illustre bien les problèmes de petit échantillon: LMP = 0.78 LY 2.49 LR 3.87 [17.77] [ 5.84] [ 15.13] DW = 0.87 R 2 = 0.96 La valeur du coefficient de long terme de LY est biaisée vers le bas, alors qu on s attendrait à une valeur proche de l unité. Un test de racine unitaire sur les résidus de cette équation fait office de test de cointégration. On obtient une valeur de -2.52 qui est très inférieur à la valeur critique à 5% qui est -3.74. Donc on ne peut rejeter l hypothèse nulle de noncointégration avec ce test. On remarque également que la règle heuristique de Granger et Newbold s applique ici car le R 2 est plus grand que le DW.

4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 12 Il est toutefois intéressant de poursuivre la méthode et d estimer l équation de court terme dans laquelle on a ajouté le résidu estimé retardé de un de l équation statique: LMP t = 0.023 [ 2.84] + 1.28 LY t 1.25 LR t 0.33 RES t 1 [6.03] [ 4.60] [ 2.80] DW = 2.13 R 2 = 0.64 χ 2 corr = 0.45 On constate que les élasticités de court terme dans cette équation sont très différentes des élasticités de long terme trouvées avec l équation statique. Le test AEG qui impose l égalité de ces élasticités subit donc une perte de puissance dans ce cas. 4 Estimation par Maximum de Vraisemblance La procédure de maximum de vraisemblance initialement proposée par Johansen (1988) permet d obtenir une estimation à la fois simple et efficace des vecteurs de cointégration ainsi d ailleurs que des autres paramètres du modèle. Il n est donc plus besoin de considérer une modification de l estimateur des moindres carrés pour avoir un estimateur efficace. Le problème de maximisation est relativement simple. Il s agit d estimer un VAR de la forme: X t = m + Π X t 1 + A (L) X t + ǫ t ǫ t N(0, Ω) (16) en imposant une perte de rang sur Π au moyen de la contrainte Π = α β. C est un problème classique en statistique multivariée qui se résout par un calcul de valeurs propres et de vecteurs propres. La matrice de cointégration β sera égale aux r vecteurs propres correspondant aux r plus grandes valeurs propres d une certaine matrice. Le rang de cointégration sera déterminé par un test sur la nullité des n r plus petites valeurs propres qui correspond à un test de rapport de vraisemblance. Ce test a une distribution non-standard qui est une généralisation multivariée du carré de la distribution du test de Dickey et Fuller. Par contre, une fois déterminé r, il est possible de construire des tests de restriction sur α et β qui ont une distribution χ 2. On présentera tout d abord le cas sans terme constant où m = 0. Puis on introduira le rôle du terme constant m avec diverses hypothèses de modélisation en détaillant les conséquences sur la distribution asymptotique du test du rang de cointégration. Mais il est utile de commencer par le cas simple de l estimation d un VAR contraint. 4.1 L estimation des VAR sans contrainte On part du modèle simple X t = m + Π X t 1 + A 1 X t 1 + + A p 1 X t p+1 + ǫ t (17) sans faire porter de contraintes sur la matrice Π. Si toutes les composantes de X sont I(0), alors la matrice Π sera de rang plein. Si toutes les composantes de X sont I(1) et que l équation caractéristique associée au modèle initial tout en niveau a toutes ses racines sur le cercle unité, alors la matrice Π sera nulle. Enfin, si seulement certaines des racines de

4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 13 l équation caractéristique sont sur le cercle unité, on aura cointégration. Dans tous les cas on peut estimer ce modèle sans contrainte dans sa forme reparamétrisée. On va construire les matrices suivantes d observations et pour les paramètres Y = [ X t ] X = [1, X t 1, X t 1,, X t p+1 ] On va donc considérer la notation matricielle B = [m, Π, A 1,, A p 1 ] Y = XB + E Ce modèle de régression multivarié s estime par moindres carrés et l on a ˆB = (X X) 1 X Y Sous les hypothèse habituelles de régularité, cet estimateur est asymptotiquement normal avec: T vec( ˆB B) L N(0, Σ A ). Ce résultat est valide dans les trois cas répertoriés comme l a montré entre autres Sims, Stock, and Watson (1990). Par contre, dès que X comporte des variables I(1), la matrice de variance covariance Σ A = (X X) 1 Ω sera singulière, ce qui rend les problèmes de test un peu plus délicats. Dès que l on veut tenir compte du fait que Π puisse être singulière, et en fait estimer les vecteurs de cointégration, il faut passer à un estimateur sous contrainte et mettre en oeuvre les techniques du maximum de vraisemblance. 4.2 Inférence dans un CVAR simplifié On va partir du modèle très simple: X t = Π X t 1 + ǫ t Π = α β ǫ t N(0, Ω) (18) Ce modèle est l équivalent multivarié du plus simple des tests de Dickey et Fuller, c est à dire sans composante déterministe et sans retards de la variable en différence. Ce modèle est irréaliste d un point de vue empirique, mais permet d introduire les calculs de manière simple. Le log de la fonction de vraisemblance de ce modèle s écrit: log L T 2 log det Ω 1 T [ X t α β X t 1 ] Ω 1 [ X t α β X t 1 ] (19) 2 t=2 On va poser: On a donc : Y t = X t et Z t = X t 1 (20) Y t = α β Z t + ǫ t (21)

4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 14 Calculons les statistiques suivantes: S yy = 1 T T t=1 Y t Y t S zz = 1 T T t=1 Z t Z t S zy = 1 T T t=1 Z t Y t (22) Comme il s agit en fait d un modèle multivarié sans restrictions inter-équations, on peut concentrer la vraisemblance à β donné pour trouver l estimateur des moindres carrés de α et Ω: ˆα(β) = S yz β [β S zz β] 1 (23) ˆΩ(β) = S yy S yz β[β S zz β] 1 β S zy Le logarithme de la vraisemblance concentrée est alors: log L c (β) T 2 log det ˆΩ(β) (24) Trouver le maximum de cette fonction de vraisemblance est équivalent à chercher le minimum en β de l expression det ˆΩ(β) ce qui est en fait exactement équivalent à un problème de LIML dans un modèle à équations simultanées qui se résout par un calcul de valeurs propres et de vecteurs propres associés. D où le théorème suivant adapté de Johansen (1988): Théorème 3 L estimateur du maximum de vraisemblance des r vecteurs cointégrants contenus dans la matrice β est donné par les r vecteurs propres associés aux r plus grandes valeurs propres λ i dans le problème: det(λs zz S zy S 1 yy S yz) = 0 La valeur de la fonction de vraisemblance en son maximum est donnée par: r L 2/T max = det(s yy ) (1 ˆλ i ) i=1 en supposant que les valeurs propres λ i sont rangées par ordre décroissant. Les estimateurs de α et Ω sont trouvés en remplaçant β par son estimation dans ˆα(β) et ˆΩ(β). Preuve: Considérons une matrice carrée symétrique A partitionnée en quatre. Les propriétés usuelles des déterminants des matrices partitionnées permettent d écrire: A = A 11. A 22.1 = A 22. A 11.2 avec A ii.j = A ii A ij A 1 jj A ji. Alors A 11.2 = A 22.1. A 11 / A 22. En construisant la matrice A comme: ( ) Syy S A = yz β β S zy β S zz β on a tout d abord que ˆΩ(β) = A 11.2

4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 15 On peut alors décomposer ce déterminant de manière à transformer la fonction à maximiser en: T 2 log S yy T 2 log β S zz β β S zy Syy 1S yzβ β S zz β en utilisant le fait que A 11.2 = A 11. A 22.1 / A 22. On peut négliger le terme en S yy qui ne dépend pas du paramètre β. Jusqu à présent le paramètre β n était pas normalisé. On peut choisir la normalisation commode β S zz β = I r. On se retrouve dans un problème classique soit de LIML sur un groupe d équations, ou d analyse canonique étudiée par example par Tso (1981). Le théorème suit des résultats de ce dernier papier. Remarque: La normalisation β S zz β = I r imposée dans l estimation est aussi une condition d identification qui introduit r 2 restrictions indépendantes. Le vecteur β est donc bien identifié selon les critères exposés dans le chapitre 4. Mais cette façon d identifier le modèle est arbitraire et n a aucun sens économique. Elle est cependant commode car elle n exclue aucun coefficient. On peut donc renormaliser la matrice β comme on l entend par la suite. 4.3 L ajout de retards supplémentaires Considérons maintenant le cas plus général où l on autorise la présence de retards de X t. Le modèle se note en conformité avec les notations du chapitre précédent: X t = α β X t 1 + A (L) X t + ǫ t (25) Si l on appelle maintenant X la matrice qui contient tous les retards de X t, il est facile de généraliser les calculs qui précèdent en modifiant simplement la valeur des matrices S yy et S zz sur des arguments de régression partielle. Posons: M X = I t X( X X) 1 X (26) En écrivant le modèle initial sous forme matricielle (en considérant toutes les observations), on peut le transformer au moyen de la matrice de projection M X en : M X Y = M X Z β α + M X ǫ (27) où Y, Z et ǫ désignent maintenant les T observations de l échantillon. On appliquera les mêmes calculs, mais en remplaçant Y et Z dans les formules précédentes par M X Y et M X Z.

4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 16 4.4 Le rôle du terme constant On s attend bien, par similitude avec le cas univarié des racines unitaires, à ce que la distribution asymptotique de deux statistiques de test du rang de cointégration dépende de la présence d un terme constant dans les relations de cointégration. On a d autre part vu au cours du chapitre 4 que le terme constant jouait un rôle très particulier dans les relations de cointégration. Notons de la façon suivante un modèle CVAR où l on a maintenant introduit un terme constant m: X t = m α β X t 1 + A (L) X t + ǫ t (28) On a vu dans le chapitre 4 que m était lié au trend dans le processus non- stationnaire qui génère X t. Il est toujours possible de décomposer le terme constant m de dimension n 1 en: m = α β 0 + α γ (29) où α est une matrice n (n r) orthogonale aux colonnes de α et vérifiant donc α α = 0, β 0 un vecteur r 1 et γ un vecteur (n r) 1. Reportons maintenant cette décomposition dans la forme autorégressive du modèle: Si l on impose la restriction: X t = α γ α (β X t 1 β 0 ) + A (L) X t + ǫ t (30) m = αβ 0 (31) on annule les n r dérives des composantes de X t qui ne sont pas cointégrées car on a imposé α γ = 0. Le paramètre β 0 représente simplement l ordonnée à l origine dans la relation de cointégration. Il est maintenant facile de voir comment on va introduire la présence du terme constant m pour l estimation. Si l on veut estimer le modèle en autorisant la présence de n r trends linéaires, il suffit d ajouter 1 dans la matrice X t pour avoir: X t = [ X t 1,..., X t s, 1] (32) Si par contre on veut imposer la contrainte que ces n r trends linéaires soient nuls, il suffit de déplacer le 1 de la matrice X t vers la matrice Z t que l on note maintenant Z t : Alors dans le problème: Z t = [X t 1, 1] (33) det(λ S zz S zys 1 yy S yz) = 0 (34) on aura n + 1 valeurs propres λ i et la plus petite sera égale à zéro. Les exposants en indiquent que les matrices de moments d échantillonnage et les valeurs propres sont calculées avec Z = Z et X t sans terme constant.

4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 17 4.5 Tests du rang de cointégration L estimation des vecteurs cointégrants β et les tests du rang r de cointégration sont intimement liés. Comme la valeur de la vraisemblance en son maximum est essentiellement donnée par le produit des r plus grandes valeurs propres, un test du rapport de vraisemblance pour déterminer r sera facile à calculer. On peut imaginer deux types de test. - Dans le premier type, on va tester: H 0 H1 T : rang Π = r : rang Π = n (35) Il s agit de tester la cointégration de rang r contre la stationnarité des séries. Ce test est appelé test de la trace pour une raison qui sera apparente plus tard. - Dans le deuxième type de test on s intéresse à: H 0 : rang Π = r H1 M : rang Π = r + 1 (36) On teste une hypothèse de cointégration de rang r contre une hypothèse de cointégration de rang r + 1. Il s agira ici du test de la valeur propre maximale. Dans une procédure standard de test par rapport du maximum de vraisemblance, on compare le maximum de la fonction de vraisemblance sous H 0 et le maximum de cette même fonction de vraisemblance sous H 1 au moyen de la statistique: 2 log L(H 0) (37) L(H 1 ) qui est distribuée selon un loi du χ 2 avec un nombre de degrés de libertés égal à la taille de la contrainte imposée. L hypothèse nulle ne sera pas rejetée si la valeur de la statistique de test est inférieure à la valeur critique de la table. Les deux hypothèses nulles et alternatives que l on a décrites plus haut peuvent se tester au moyen d une statistique de rapport de vraisemblance. Mais sa distribution ne sera bien sûr pas une χ 2. On peut énoncer le théorème suivant tiré de Johansen (1991): Théorème 4 La statistique de test du rapport de vraisemblance de l hypothèse nulle rang Π = r contre l hypothèse alternative rang Π = n est donnée par: LR(r n) = T n i=r+1 log(1 ˆλ i ) On l appellera statistique trace. La statistique de test de rapport de vraisemblance de la mḙme hypothèse nulle contre l hypothèse alternative rang Π = r + 1 est donnée par: LR(r r + 1) = T log(1 ˆλ r+1 ) La distribution de ces deux statistiques de test est non-standard.

4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 18 Preuve: Le logarithme de la fonction de vraisemblance est donné par: T 2 log S yy T 2 r log(1 ˆλ i ) i=1 d où les deux résultats obtenus par simple calcul. La distribution de ces tests est nonstandard car il reste n r variables qui sont I(1) dans le système quand le rang de cointégration est r. Remarque: Les valeurs propres sont rangées par ordre décroissant: λ 1 > λ 2 > > λ r > > λ n. Les deux statistiques de test s intéressent pour l une à la somme des n r plus petites valeurs propres (les n r dernières) et pour l autre à la valeur propre de rang immédiatement inférieur à r. L hypothèse nulle que le rang de π = r peut donc se tester au moyen de l hypothèse nulle que les n r plus petites valeurs propres restantes sont nulles ou que la plus grande des n r valeurs propres restantes est nulle. 4.6 Distribution asymptotique des tests de cointégration Les tests de rang de cointégration sont des généralisations multivariées des tests de Dickey- Fuller. La distribution asymptotique de ces tests a la même structure que le carré de la distribution asymptotique des tests en τ de Dickey et Fuller. Il est donc commode d adopter une présentation de ces distributions similaire à celle adoptée pour les tests de racine unitaire. On donnera ces résultats sans preuve, renvoyant le lecteur à l article de Johansen (1991). Considérons la fonction matricielle G(.) définie de la manière suivante: G(W, U) = 1 0 dw(r) U(r) [ 1 0 ] 1 1 U(r) U(r) dr U(r) dw(r). (38) 0 Dans cette expression W(r) est un processus de Wiener vectoriel de dimension n r. U(r) est aussi un processus de Wiener vectoriel dont la dimension et la définition vont dépendre de la forme du terme constant. On a le théorème suivant: Théorème 5 Sous l hypothèse nulle de cointégration de rang r les statistiques de test de la trace et de la valeur propre maximum vont converger en distribution pour t vers: LR(r n) tr G(W, U) LR(r r + 1) λ max G(W, U) où W(r) est un processus de Wiener standardisé de dimension n r et où la définition de U(r) dépend du terme constant. On a les trois cas suivants:

4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 19 pour m = 0 (pas de terme constant), U(r) = W(r) pour m = α β 0 (pas de trend), U(r) = (W(r), 1) pour m = α γ + α β 0 (trend), U(r) = W(r) 1 0 W(r) dr, sauf que la dernière colonne est remplacée par r 1. 2 Le cas m = 0 est peu intéressant en pratique. On trouvera une table dans Johansen (1988) pour le test de la trace. Les deux autres cas sont ceux qui sont utilisés le plus souvent en pratique. Le cas m = α β 0 correspond à la table A3 dans Johansen and Juselius (1990) et le cas m libre à la table A1 de ce même papier. On a reproduit les valeurs critiques dans la Table 2. Johansen (1995) donne des tables pour les cinq cas, mais uniquement pour le test de la trace. Ces tables sont un peu difficiles à lire, dans la mesure où pour chaque Table 2: Valeurs critiques des tests du rang de cointégration de Johansen m = αβ 0 m libre Max λ i Trace Max λ i Trace n-r 90% 95% 90% 95% 90% 95% 90% 95% 1 7.56 9.09 7.56 9.09 2.82 3.96 2.81 3.96 2 13.78 15.75 17.96 20.17 12.10 14.04 13.34 15.20 3 19.80 21.89 32.09 35.07 18.70 20.78 26.79 29.51 4 25.61 28.17 49.93 53.35 24.71 27.18 43.96 47.18 5 31.59 34.40 71.47 75.33 30.77 33.18 65.06 68.91 valeur de n on doit se livrer à une petite gymnastique. La plupart des logiciels d estimation opèrent ce calcul de présentation pour l utilisateur. Exemple 2: Supposons que l on considère un vecteur aléatoire de dimension 4 et que l on veuille tester le rang de cointégration dans un modèle CVAR à terme constant libre. On a calculé les statistiques du test de la trace et on a trouvé λ max = 30.28 pour r = 0 et λ max = 12.04 pour r = 1. On commence par reconstruire ci-dessous les valeurs critiques de la table pour ce cas particulier. Max λ i H 0 H 1 90% 95% r=0 r=1 24.71 27.18 r=1 r=2 18.70 20.78 r=2 r=3 12.10 14.04 r=3 r=4 2.82 3.96 On va commencer par tester l hypothèse nulle que la dimension de l espace de cointégration est égale à zéro. On rejettera cette hypothèse contre l alternative que r = 1 si la valeur du test λ max = 30.28 calculée pour r = 0 est supérieure à la valeur lue dans

4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 20 la table, c est à dire 27.18 à 95%. On passera ensuite au test de r = 1 contre r = 2. On ne rejettera pas cette hypothèse si la valeur du test λ max = 12.04 calculée pour r = 1 est inférieure à la valeur lue dans la table, c est à dire à 95% 20.78. Dans cet exemple le rang de cointégration sera donc égal à 1. 4.7 Test de l absence de trends Le très grand intérêt de la procédure de maximum de vraisemblance sur les CVAR, c est qu une fois le rang de cointégration déterminé, tous les tests de restriction linéaire sur les paramètres ont une distribution asymptotique χ 2 standard. Le premier test à traiter est celui de la restriction sur le terme constant. Soit donc les deux hypothèses suivantes, conditionnelles à une valeur testée pour r: H 0 : m = αβ 0 H 1 : m = αβ 0 + α γ (39) Johansen (1991) donne le théorème suivant: Théorème 6 L absence de n r trends linéaires dans le processus qui génère le vecteur X t cointégré de rang r se teste au moyen de la statistique: T n i=r+1 log 1 λ i 1 λ i qui est distribuée selon une loi du χ 2 à n r degrés de liberté. Dans cette expression, λ i correspond aux valeurs propres du modèle où l on a imposé la contrainte sur le terme constant et λ i aux valeurs propres associées au modèle noncontraint. Ce test s effectue après que l on ait déterminé la valeur de r, en supposant que le terme constant n est pas contraint. 4.8 Test de restrictions linéaires sur le vecteur de cointégration On suppose dans un premier temps que les vacteurs de cointégration sont identifiés par application de la règle automatique lors de la procédure d estimation. On va ensuite tester des restrictions de suridentification au moyen de restrictions linéaires sur la matrice β des vecteurs de cointégration. On n envisagera ici qu un test de restrictions très simple de la forme: β = H φ (40) où H est une matrice de restrictions de taille n s avec r s n. Dans le cas où s = n et H est une matrice identité, il n y a pas de restriction. Dans le cas contraire, la matrice de paramètres β qui est n r est réduite à une matrice de paramètres φ qui est s r. Ce type d écriture impose la même restriction sur les r colonnes de la matrice β. Dans la mesure où β n est pas identifié mais ne constitue qu une base pour l espace des vecteurs de

4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 21 cointégration, les restrictions linéaires sur β portent sur les caractéristiques de cet espace. Il peut donc sembler naturel d imposer des restrictions de ce type. Quand r = 1, on retombe sur un type usuel de restrictions. Le test se construit sur la base du principe de ratio de vraisemblance comme précédemment en introduisant la contrainte dans le problème de valeurs propres qui permettra de calculer la fonction de vraisemblance sous l hypothèse nulle. Johansen (1991) donne le théorème suivant: Théorème 7 Sous l hypothèse Π = α φ H (ou β = H φ), l estimateur du maximum de vraisemblance de β est donné par les r vecteurs propres associés aux r plus grandes valeurs propres λ ih dans le problème: det(λ H S zz H H S zy S 1 yy S yz H) = 0 La valeur de la fonction de vraisemblance en son maximum est donnée par: r L 2/T max = det(s yy ) (1 ˆλ ih ) i=1 Le test de l hypothèse nulle Π = α φ H contre l hypothèse alternative Π = α β est donné par la statistique: r T log 1 ˆλ ih 1 ˆλ i qui est distribuée selon une χ 2 à r (n s) degrés de liberté. i=1 Ce type de restriction n est interprétable économiquement que si r = 1. Dans le cas général, on préfère imposer des restrictions qui ne sont pas les mêmes sur toutes les équations et donc poser β = [H 1 φ 1,, H r φ r ] Dans ce cas l estimation est un peu plus complexe à mettre en oeuvre car on doit opérer une itération. Mais le test du rapport de vraisemblance conserve la même forme et la même distribution. On peut également mettre en oeuvre un test de Wald. Voir Lütkepohl and Krätzig (2004), pages 98-103, pour plus de détails. 4.9 Test d exogénéité Le dernier test qu il est possible de facilement concevoir porte sur des restrictions linéaires sur la matrice des poids α. On va formaliser les restrictions sur α au moyen d une matrice H α = H ψ Ceci permet de tester la présence dans une équation du CVAR de l ensemble des termes correcteurs d erreurs. C est donc un test d exogénéité. Par exemple dans un modèle où n = 3 et r = 2, on va vouloir tester que α 11 α 12 α = α 21 α 22 0 0 = 1 0 ( ) α11 α 0 1 12 = H ψ α 0 0 21 α 22

4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 22 Dans ce modèle, la dernière composante de X sera exogène pour l inférence sur β. Johansen (1991) donne le théorème suivant: Théorème 8 Sous l hypothèse Π = Hψ β (ou α = H ψ), l estimateur du maximum de vraisemblance de β est donné par les r vecteurs propres associés aux r plus grandes valeurs propres λ ih dans le problème: det(λ H S zz H H S zy S 1 yy S yz H) = 0 La valeur de la fonction de vraisemblance en son maximum est donnée par: r L 2/T max = det(s yy ) (1 ˆλ ih ) i=1 Le test de l hypothèse nulle Π = Hψ β contre l hypothèse alternative Π = α β est donné par la statistique: r T log 1 ˆλ ih 1 ˆλ i qui est distribuée selon une χ 2 à r (n s) degrés de liberté. i=1 On peut toutefois tester l exogénéité d une variable de manière plus simple en estimant le modèle CVAR équation par équation et en testant au moyen d un Fisher la nullité des coefficients α dans les équations appropriées. 4.10 Non causalité de Granger Dans un modèle VAR bivarié, la non causalité au sens de Granger (1969) s exprime comme une restriction sur les paramètres des variables retardées. Plus précisément, considérons un petit modèle bivarié en X t = [y t, x t ]: ( ) yt x t p ( ) ( ) α11,i α = 12,i yt i + ǫ α i=1 21,i α 22,i x t t i On dira que x ne cause pas y au sens de Granger, si x n aide pas à la prévision de y, ce qui est le cas si α 12,i = 0, i = 1,, p. Si X t est stationnaire, le test de la non causalité s effectue sans problème au moyen d un test standard de Fisher ou du χ 2. Par contre si les composantes de X t sont I(1) et possiblement cointégrées, alors la matrice de variance covariance de l estimateur des moindres carrés des paramètres α sera singulière et il sera difficile d appliquer un test standard. Ce problème a été étudié longuement dans la littérature. Lütkepohl and Krätzig (2004), page 148, en donnent un bon résumé. Pour gagner en efficacité et en compréhension, il est toujours bon dans un problème statistique d expliciter les contraintes. Mosconi and Giannini (1992) critique les approches