COURS DE SERIES TEMPORELLES THEORIE ET APPLICATIONS

Transcription

1 COURS DE SERIES TEMPORELLES THEORIE ET APPLICATIONS VOLUME Modèles linéaires multivariés : VAR et cointégration Introduction aux modèles ARCH et GARCH Introduction à la notion de mémoire longue Exercices corrigés et compléments informatiques ARTHUR CHARPENTIER [email protected] DESS Actuariat & DESS Mathématiques de la Décision

2 Contents Les séries temporelles multivariées 4. La notion de causalité Dépendence stochastique Causalité au sens de Granger La notion de cointégration Modèles à correction d erreur (ECM ) Tests de cointégration Généralisation à k variables Di érences entre les approches de Engle/Granger et de Johansen La modélisation VAR (p) La représentation V AR (p) Les modèles ARMAX ou V ARMA Estimation des paramètres d un modèle V AR Autocovariances et autocorrélations Application sur un exemple Prévision à l aide des modèles V AR Tests de bruit blanc des erreurs Test de causalité (Granger (969)) sur des mod èles VAR Les modèles V AR (p) : analyse des chocs Application des modèles V AR Application : investissement, revenu et consommation Application des modèles V AR : rendements d une action et d un indice Régression linéaire dans un cadre dynamique Les retards échelonnés Le modèle d ajustement partiel Les modèles autorégressifs à retards échelonn és (ADL (p;q)) Compléments : modèles multivariés sous SAS Estimation d un modèle VAR Estimation d un modèle à correction d erreur Conseils bibliographiques Les modèles ARCH - Autorégressifs Conditionellement Hétéroscédastiques 4. Notions de stationnarité et notions de linéarité Préséntation des modèles ARCH Processus ARCH () Processus ARCH (p) Processus GARCH (p;q) Modèles avec erreurs ARCH Erreurs ARCH () Erreurs ARCH (p) Remarque : test de racine unité en présence d erreurs ARC H Estimation et prévision Estimation des paramètres d un modèles ARCH La procédure de Diebold (987) : test d autocorrélation en présence d e et ARCH Prévision et intervalle de con ance Modèles ARCH et nance Liens entre temps continu et temps discret Modèles avec variance stochastique/déterministe en temps continu Modèles avec variance stochastique/déterministe en temps discret Autres types de modèles non-linéaires Les modèles bilinéaires - notés BL (p;q;p;q) Les modèles autorégressifs exponentiels - EXP AR Les modèles autorégressifs à seuils - TAR, STAR ou SETAR Les généralisations des modèles ARCH Les tests de linéarité Les tests du multiplicateur de Lagrange

3 .7. Le test du CUSUM Le test BDS Le test RESET (Regression error speci cation test ) La procédure AUTOREG sous SAS=ETS Application sur des données réelles Modélisation GARCH du CAC Modélisation des rendements du cours Intel : modèle ARCH Modélisation des rendements de l indice S&P : modèle GARCH Modélisation des rendements de l action IBM (avec dividendes) : modèle TAR Modélisation du taux de chômage aux Etats Unis : modèles TAR et ARCH Conseils bibliographiques Compléments sur les séries temporelles en nance Introduction historique Complément sur les données disponibles Introduction à la notion de mémoire longue 75. Processus self-similaires Accroissements stationnaires de processus self-similaires Processus FARIMA - ARIMA Fractionnaires Processus fractionnaire sans composante AR et MA : processus FARIMA (;d; ) Autocorrélations des processus ARF IMA Estimation du paramètre d Méthode du log-autocorrélogramme Méthode du log-périodogramme Méthode de Whittle Exemples d applications des processus à mémoire longue Applications en nance : rendements d indices boursier Applications en nance : taux de change Applications en hydrologie Applications en économie Conseils bibliographiques Compléments : exercices Exercices avec correction Examen de / Examen de / Examen de / Compléments : simulation de séries temporelles 5. Simulation de processus en temps discret Simulation d un bruit blanc gaussien Simulation d un processus ARMA Simulation d un processus ARCH Introduction à la simulation de processus en temps continu Compléments : Logiciels de séries temporelles 6 6. Introduction à EViews Les données sous EViews Les graphiques sous Eviews La régression linéaire sous Eviews Estimation des paramètres () () Statistique de Student F () (4) Coe cient R (5) (6) Somme des carrés (7) (8) Log-vraissemblance du modèle (9) Test du Durbin-Watson () Dependent var () () Critère d Aikaïké () et de Schwarz (4)

4 6..9 Statistique de Fisher F (5) (6) Statistique sur les résidus Copier/coller des sorties dans un rapport La régression linéaire sur d autres logiciels Lecture de l autocorrélogramme sous Eviews Estimation d un modèle ARMA sous Eviews Racines des polynômes AR et MA (7) Tests sur les erreurs " t Les sorties de la procédure ARIMA sous SAS Utilisation de SAS avec des séries chronologiques Méthode de lissage exponentiel : Holt-Winters Modèles ARIMA sous SAS Syntaxe de la procédure ARIMA sous SAS La lecture des sorties SAS

5 V_DISTRIB V_SERVICE_FI Séries temporelles : théorie et applications Les séries temporelles multivariées Les graphiques ci-dessous donnent l évolution des indices sectoriels du CAC, pour les secteurs de l agro-alimentaire, de la distribution, des services nanciers, et de l immobilier. Un portefeuille diversi é pourrait correspondre à un portefeuille comportant des titres de chacun de ces secteurs. Pour prévoir les rendements futurs du portefeuille, il convient de modéliser conjointement l évolution de ces di érents indices. Comme le con rment les graphiques ci-dessous, l évolution de ces indices ne se fait pas indépendemment les uns des autres..8 V_AGRO_ALIM.4. AGRO_ALIM DISTRIB IMMO RESID V_IMMO Le graphique de gauche correspond à l évolution conjointe de ces indices, alors que les graphiques de droites permettent de comparer les rendements de ces indices. Nous allons introduire dans cette partie un certain nombre de concepts a n de bien comprendre la dynamique de la dépendence entre di érentes séries (notions de dépendence, de causalité, de cointégration...). Nous verrons également une classe de modèles, généralisant les modèles AR (p) univariés dans un cadre multivarié : les modèles V AR (p). Exemple Le graphique ci-dessous représente l évolution du spread des obligations d Etat pour l Argentine, le Brésil et le Mexique, entre 997 et, source : Bazdresch, S & Werner, A.M. Contagion of International nancial crises : the case of Mexico (). 4

6 . La notion de causalité.. Dépendence stochastique Dépendance à partir les lois conditionnelles : information de Kullback Kullback par µ µ f (yjx) K (yjx) = E log jx : f (y) On peut dé nir l information de D après la propriété de Jensen, µ µ µ µ µµ f (yjx) f (y) f (y) K (yjx) = E log jx = E log jx log E jx = ; f (y) f (yjx) f (yjx) et on peut noter que K (yjx) = si et seulement si f (yjx = x) = f (y) presqe sûrement. Remarque Dans le cas gaussien, cov (X;Y ) = si et seulement si X et Y sont indépendants. Supposons que µ X X s N ; XY : Y Y X Y Alors les lois marginales et conditionelles véri ent Y s N (; Y ), et Y jx s N (E (YjX);V (Y jx)) où ½ E (Y jx) = Y X X X V (YjX) = Y Y X X XY : Aussi la loi du rapport gurant dans l information de Kullback est donné par f (yjx) f (y) = p µ det (V (Y )j) p exp det (V (Y jx)) [Y E (Y jx)] V (Y jx) [Y E (Y jx)] ; d où nalement (après calculs) µ f (y) log = h ³ i f (yjx) log det V (Y ) :V (YjX) : La notion de causalité La loi du processus est la loi du processus du couple (X t ;Y t ). Cette dernière s écrit, à la date t; conditionellement au passé (noté x t et y t ), ` ³x t ;y t jx t ;y t. Dans le cas où les processus (X t ) et (Y t ) sont indépendants, alors ` ³x t ;y t jx t ;y t = ` ³x t jx t ` ³y t jy t : On peut montrer que ` ³x t ;y t jx t ;y t = ` ³x t jx t ` ³y t jy t ` ³x t jx t ;y t ` ³x t jx t ` ³y t jx t ;y t ` ³y t jy t ` ` ³x t ;y t jx t ;y t ³x t jx t ;y t ` ³y t jx t ;y t : En passant au log et en prenant l espérance (et en multipliant par ) alors ` ³x t ;y t jx t ;y t ` ³x t jx t ;y t A = E@log A ` ³x t jx t ` ³y t j;y t ` ³x t jx t {z } {z } Mesure de dépendance C X;Y Causalité unidirectionnelle C Y!X +E@log ` ³x t jx t ;y t ³x t ;y t jx t ;y t ` ³y t jx t ;y t + E@log A ` ³y t jy t {z } Causalité unidirectionnelle C X!Y A: ` ` ³y t jx t ;y t {z } Causalité instantannée C XÃ!Y 5

7 .. Causalité au sens de Granger Soient (X t ) et (Y t ) deux séries temporelles, et notons le passé de (X t ) et (Y t ), X t = fx t ;X t ;:::g et Y t = fy t ;Y t ;:::g. Granger a introduit en 969 di érentes notions de causalité : Dé nition (i) Y cause X à la date t si et seulement si E X t jx t ;Y t 6= E Xt jx t : (ii) Y cause X instantanément à la date t si et seulement si Il y a équivalence entre () X ne cause pas Y instantanément à la date t () Y ne cause pas X instantanément à la date t Exemple Soient (X t ) et (Y t ) dé nis par E X t jx t ;Y t 6= E Xt jx t ;Y t : ½ Xt = " t + Z t + Z t Y t = Z t ; où (" t ) et (Z t ) sont des bruits blancs indépendants. (i) E X t jx t ;Y t = Zt = Y t : Y cause X à la date t si et seulement si 6= ; (ii) E X t jx t ;Y t = Zt + Z t = Y t + Y t : il y a causalité instantanée de Y vers X si et seulement si 6= :. La notion de cointégration L analyse de la cointégration permet d identi er la relation entre plusieurs variables. Cette notion a été introduite dès 974 par Engle et Newbold, sous le nom de spurious regressions, ou régressions fallacieuses, puis formalisée par Engle et Granger en 987, et en n par Johansen en 99 et 995. Une série est intégrée d ordre d s il convient de la di érencier d fois avant de la stationnariser. Dé nition La série (X t ) sera dite intégrée d ordre d (d ) si d X t n est pas stationnaire et d X t est stationnaire. Une série stationnaire sera dite intégrée d ordre. Remarque Soient (X t ) une série stationnaire et (Y t ) intégrée d ordre, alors (X t + Y t ) est intégrée d ordre. Toutefois, si (X t ) et (Y t ) sont intégrées d odre d, alors (X t + Y t ) peut être soit intégrée d ordre d, soit stationnaire (dans le cas où les tendances s annulent). Le graphique ci-dessous à gauche présente deux séries non-cointégrées, alors que le graphique de droite correspond à des séries cointégrées OEUFS POULET PIB CONSOMMATION avec à droite, les P IB et la consommation aggrégée en France, et à gauche, le prix de la douzaine d oeufs et d un poulet, aux Etats Unis. Comme nous le verrons plus tard, même si les courbes de gauche semblent avoir une tendance commune, elles ne sont pas pour autant coïntégrées. Dé nition Deux séries (Xt) et (Yt) sont cointégrées si (i) (X t ) et (Y t ) sont intégrées d ordre d (ii) il existe une combinaison linéaire de ces séries qui soit intégrée d ordre strictement inférieur à d, noté d b 6

8 Dans le cas de l intégration, on notera X t s I (d), et pour la cointégration X t ;Y t s CI (d;b). Le vecteur ( ; ) tel que X t + Y t s I (d b) sera appelé vecteur de cointégration. Exemple Le cas le plus simple est le suivant : deux séries (X t ) et (Y t ) intégrées d ordre seront cointégrées s il existe une combinaison linéaire X t + Y t telle que le processus (Z t ) dé ni par Z t = X t + Y t soit stationnaire. Aussi, si X t est intégré d ordre (par exemple une marche aléatoire), et si (" t ) un un bruit blanc (X t ) et (X t + " t ) sont cointégrés. Ce cas est représenté ci-dessous, avec à gauche (X t ) et (Y t ) où Y t = X t + " t +, et à droite la di érence ( + " t ) PROCESSUS_X PROCESSUS_Y PROCESSUS_DIFF Les graphiques ci-dessous représentent les séries (X t ) et (Z t ) où Z t = X t + " t +, et à droite la somme ( " t ) PROCESSUS_X PROCESSUS_Z PROCESSUS_SOMME Les deux combinaisons linéaires étant stationnaires, les séries sont cointégrées. La notion de cointégration peut également se visualiser en représentant le nuage de points (scatterplot) des observations (X t ;Y t ) - à gauche - et (X t ;Z t ) - à droite 5 5 PROCESSUS_X 5 PROCESSUS_X PROCESSUS_Y PROCESSUS_Z Remarque Le dernier point de l exemple précédant permet d avoir d avoir une intuition visuelle sur la présence ou absence de relation de cointégration (linéaire) entre les variables présentées initialement, avec à gaucheles observations 7

9 des prix du poulet et des oeufs, et à droite, le PIB et la consommation OEUFS PIB POULET CONSOMMATION.. Modèles à correction d erreur (EC M) Les modèles dits à correction d erreur ont été introduits au début des années 8, par Hendry en particulier. Ces modèles dynamiques permettent d intégrer les évolutions à long terme et à courte terme des variables. Consédérons deux variables (X t ) et (Y t ) cointégrées d ordre (X t ;Y t s CI (; )) et soit [ ; ] le vecteur de cointégration. L idée des modèles à correction d erreur est de considérer des relations de la forme Y t = X t + ¹ [Y t X t ] + " t ; () ce qui revient à décomposer un processus stationnaire ( Y t ) en une somme de deux processus stationnaires ( X t et Y t X t ). De façon plus générale que (), ces modèles s écrivent Y t = ¹ + px i Y t i + i= qx b i X t i + c [Y t X t ] + t; () j= où les variables interviennent soit à travers leurs di érences premières (supposées stationnaires), soit à travers un terme d écart à la cible à long terme, à la période précédante (qui doit être stationnaire si la théorie économique sous-jacente est pertinente ). Propriété Théorème de représentation de Granger - Toutes les séries cointégrées peuvent être représentées par un modèle à correction d erreur Preuve. Engle,R.E. & Granger,C.W.J. (987). Cointegration and error-correction : representation, estimation and testing. Econometrica. 55 Remarque 4 Le théorème de représentation de Granger présente l intérêt de faire la synthèse entre les deux approches: - l approche ECM issue de l idée de concilier des préoccupations de théorie économique avec une écriture rigoureuse des équations économétriques - l approche VAR (que nous développeront dans la partie suivante) issue d une approche purement statistique, de type boîte noire. Exemple 4 Considérons les variables économiques (C t ) et (R t ), correspondant respectivement à la consommation et au revenu. D un point de vue théorique, il est souvent admis qu il existe une relation à long terme de la forme C t = R t, ce qui donne, sous forme logarithmique, c t = k + r t: D un point de vue économique, l expression long terme ne correspond pas uniquement à une valeur limite, mais plus généralement, à un comportement asymptotique : on suppose que l on a une chemin de croissance équilibré à taux constant, i.e. c t c t = cste. On suppose qu il existe une relation dynamique liant consommation et revenu de la forme suivante, A (L)c t = ¹ + B (L) + " t () où A et B sont ici supposés de degré p et q respectivement, et où (" t ) est un bruit blanc. Or, d après la formule de Taylor, il est possible d écrire A (L) = A () + ( L) A (L) où A (L) = 8 px ( ) k A (k) () ( L) k ; k! k=

10 et de même B (L) = B () + ( L)B (L). Par substitution dans (), on peut alors écrire A () c t = ¹ A (L) c t + B () r t + B (L) r t + " t : On dit que cette expression combine les termes en niveau et les termes en di érence première. D après la relation de long terme ( c t = ¹ C, r t = ¹ R et c t = k + r t: ) on en déduit A ()c t = ¹ A (L)¹ C + B () r t + B (L)¹ R ; (4) en supposant le terme d erreur nul à long terme. (4) est dite relation de long terme associée à (). Il faut toutefois rajouter l équation suivante, correspodant à l hypothèse d élasticité unitaire de la consommation au revenu, A () = B (). Dans le cas par exemple, où p = q =, alors A (L) = + a L et B (L) = b + b L, alors () s écrit d où nallement c t + a c t = ¹ + b r t + b r t + " t ; c t = ¹ ( + a ) c t + b r t + (b + b ) r t + " t : Et en utilisant l égalité A () = B () =, cette équation s écrit c t = ¹ ( + a ) [c t r t ] + b r t + " t : qui correspond à l écriture proposée dans l équation (). Sous la forme c t = [¹ + ( + a )k] ( + a ) [c t r t k] + b r t + " t : il s agit de la forme générale d un modèle à correction d erreur, décrivant l ajustement instantané de la consommation c t aux varations de revenu et à l écart à la cible à long terme, (c t r t k). De façon pratique, supposons que l on dispose de (ou plus) séries (X t ) et (Y t ) intégrées à l ordre. Notons Z t = (X t ;Y t ). D après le théorème de Wold, on peut représenter (Z t ) sous la forme ( L) Z t = (L)" t où (" t ) est un bruit blanc (en dimension ), () = I et aucune ligne de () n est nulle (sinon une des composantes est stationnaire). (i) si les composantes (X t ) et (Y t ) ne sont pas cointégrées, alors le vecteur (Z t ) peut s écrire sous forme V AR, ou V ARMA, en di érences premières, (L) Z t = " t ou (L) Z t = (L)" t : (ii) si les composantes (X t ) et (Y t ) sont cointégrées, alors le vecteur (Z t ) peut s écrire sous forme V ARMA, A (L) Z t = B (L)" t, avec une représentation à correction d erreur A (L) Z t = Z t + B (L)" t. La relation V ARMA est dite relation de court terme, et la seconde relation de long terme, dans laquelle apparait une force de rappel vers la cible de long terme... Tests de cointégration A n de tester la cointégration entre deux variables, on peut utiliser l algorithme mis en place par Engle et Granger. () tester l ordre d intégration des variables : une des conditions nécessaire pour qu il y ait cointégration étant que les deux séries doivent être intégrées de même ordre. Ces tests reposent sur l utilisation des tests de Dikey & Fuller. On cherche alors d tel que X t s I (d) et Y t s I (d). () estimation de le relation de long-terme. Compte tenu du thérème de représentation de Granger, il est également possible de tester la cointégration en estimant le modèle à correction d erreur associé. Cette estimation peut se faire en deux étapes, en estimant par mco la relation de long-terme Y t = b + b X t + b" t ; puis en estimant, toujours par mco la relation de court-terme Y t = X t + ¹b" t + t: Le coe cient ¹ doit alors être signi cativement négatif : dans le cas contraire, on rejette l hypothèse d une modélisation de la forme ECM:.. Généralisation à k variables La notion de cointégration peut se généraliser de à k variables. 9

11 ..4 Di érences entre les approches de Engle/Granger et de Johansen Comme nous venons de le voir la méthode de Engle et Granger (987) s articule en deux étapes () régression statistique entre variables intégrées (après avoir véri é que les variables sont intégrées de même ordre ) () test de véri carion de la stationnarité des résidus (test de Dikey & Fuller) La méthode Johansen consiste à tester les restrictions imposées par la cointégration sur le modèle VAR non restreint. On considère un modèle V AR (p) de la forme Y t = A Y t + :: + A p Y t p + " t ou Y t = Y t + Y t + Y t + ::: + p Y t p+ + " t ; (5) où = (A + ::: + A p ) I et i = (A i+ + ::: + A p ). Le théorème de représentation de Granger a rme alors que le coe cient de la matrice a un rang réduit r < k, nombre de variables cointégrées, et donc, il existe des matrices U et V de rang r, telles que = UV et telles que V Y t soit stationnaire. r est alors le nombre de relations de cointégration (rang de cointégration), chaque clonne de V est le vecteur de cointégration, et les éléments de U sont des paramètres d ajustement. La méthode de Johansen consiste à estimer la matrice et de voir si on peut rejeter des restrictions impliquées par le rang réduit de : si on ak variables endogènes, toutes avec une racine unitaire (non stationnaire, mais stationnaire après di érenciation - une fois ), on peut avoir k relations de cointégration linéaires indépendantes. S il n y a aucune relation de cointégration, des analyses standards de séries chronologiques telles que les VAR peuvent être appliquées aux di érences premières des données. Exemple 5 Sur les données détaillées dans l exemple (::5), intégrées, le test de de causalité de Granger proposé par EV iews donne les résultats suivants, à droite Z Z Pairwise Granger Causality Tests Sample: 99: 999: Lags: Null Hypothesis: Obs F-Statistic Probability Z does not Granger Cause Z Z does not Granger Cause Z Lags: Null Hypothesis: Obs F-Statistic Probability Z does not Granger Cause Z E-9 Z does not Granger Cause Z Lags: Null Hypothesis: Obs F-Statistic Probability Z does not Granger Cause Z E-8 Z does not Granger Cause Z avec à gauche les courbes des processus Z et Z. Trois cas sont présentés ici : lorsque le modèle contient, et retards. L hypothèse nulle est ici qu il n y a pas causalité, à savoirque Z ne cause pas Z dans la première équation, et que X ne cause pas Y dans la seconde. Ici, on rejette l hypothèse nulle selon laquelle Z ne cause pas Z car la puissance associée aux tests est très faible (dans les trois cas), et au seuil 5, on accepte l hypothèse que Z cause Z au sens de Granger. Au contraire, on rejete l hypothèse de causalité de Z vers Z. Ce test (test de Johansen) est un test de coïntégration : il n est donc valable que sur des variables non-stationnaires.

12 Le test de Johansen est présenté ci-dessous Included observations: 9 Test assumption: No deterministic trend in the data Series: Z Z Lags interval: to 4 Likelihood 5 Percent Percent Hypothesized Ratio Critical Value Critical Value No. of CE(s) Eigenvalue None most At *(**) denotes rejection of the hypothesis at 5%(%) significance level L.R. rejects any cointegration at 5% significance level Unnormalized Cointegrating Coefficients: Z Z Included observations: 9 Test assumption: No deterministic trend in the data Series: Z Z Lags interval: to 4 Likelihood 5 Percent Percent Hypothesized Ratio Critical Value Critical Value No. of CE(s) Eigenvalue None most At *(**) denotes rejection of the hypothesis at 5%(%) significance level L.R. rejects any cointegration at 5% significance level Unnormalized Cointegrating Coefficients: Z Z Normalized Cointegrating Coefficients: Cointegrating Equation(s) Z Z (.77) Log likelihood Normalized Cointegrating Coefficients: Cointegrating Equation(s) Z Z C (.5) Log likelihood Included observations: 9 Test assumption: No deterministic trend in the data Series: Z Z Lags interval: to Likelihood 5 Percent Percent Hypothesized Ratio Critical Value Critical Value No. of CE(s) Eigenvalue None most At *(**) denotes rejection of the hypothesis at 5%(%) significance level L.R. rejects any cointegration at 5% significance level Unnormalized Cointegrating Coefficients: Z Z Normalized Cointegrating Coefficients: Cointegrating Equation(s) Z Z. -. (.59) Sample: 99: 999: Included observations: 9 Series: Z Z Lags interval: to Data Trend:None None Linear Linear Quadratic Rank No Intercept Intercept Intercept Intercept Intercept No. No Trend No Trend No Trend Trend Trend Log Likelihood by Model and Rank Akaike Information Criteria by Model and Rank Schwartz Criteria by Model and Rank L.R. Test: Rank = Rank = Rank = Rank = Rank = Log likelihood EViews propose plusieurs options pour les tests de cointégration. La sortie en bas à droite est la sortie récapitulative. Pour les autres, les valeurs propres sont présentées dans la première colonne. Le LR - Likelihood Radio - est dé ni par kx Q (r) = T log ( i); pour r = ; ;:::;k ; i=r+ où i est la ième valeur propre (lorsqu elle sont rangées par ordre croissant). Cette statistique est aussi appelée statistique de la trace. La première ligne de la cinquième colonne (Hypotheized No. of CE(s)) teste l hypothèse de non-cointégration (r = : relation de cointégration). Ladeuxième ligne teste l hypothèse d une relation de coïntégration (r = ), la deuxième ligne teste l hypothèse de deux relations de coïntégration (r = )...etc. Toutes ces hypothèses sont testées contre l hypothèse alternative que la matrice est de plein rang (c est à dire que toutes les séries sont stationnaires). Dans l exemple ci-dessus, la statistique de la trace ne rejette aucune des hypothèse au seuil de 5% : il n y a donc aucune relation de cointégration car on n a pas rejeté (None) relation de cointégration pour au moins une. Le vecteur de cointégration n est pas identi é, à moins d imposer une normalisation arbitraire : EViews adopte une normalisation de sorte que les r premières séries dans le vecteur Y t soient normalisés à une matrice identité. Dans le cas présenté en haut à droite, par exmple, la relation de cointégration normalisée qui fait l hypothèse ( ctive) d une relation de cointégration est donnée par Normalized Cointegrating Coefficients: Cointegrating Equation(s) Z Z C (.5) Log likelihood ce qui donne la relation de cointégration de la forme Z :887:Z + :869. En n, le graphique ci-dessous montre le scatterplot de (Z ;Z ), qui montre (graphiquement) qu il n y a pas de relation de cointégration a priori, compte tenu Les 5 cas étudiés sont les suivants : (i) pas de trend, pas de constante dans la relation de coïntégration Y t = Y y (ii) pas de trend dans la relation de coïntégration Yt = ( Yy +¹) (iii) trend linéaire dans la relation de coïntégration Y t = ( Y y +¹)+? (iv) trend linéaire dans la relation de coïntégration Yt = ( Yy +¹+ t)+? (v) trend quadratique dans la relation de coïntégration Yt = ( Yy +¹+ t)+? ( +±t)

13 de cette rupture pour les valeurs positives, avec deux tendances distinctes. - Z Z Pour reprendre l exemple introductif, les prix de la douzaine d oeufs et d un poulet, bien que non-stationnaires, ne sont pas pour autant coïntégrées, OEUFS POULET omme cela peut se voir sur les sorties des tests de Johansen Included observations: 67 Test assumption: Linear deterministic trend in the data Series: OEUFS POULET Lags interval: to Likelihood 5 Percent Percent Hypothesized Ratio Critical Value Critical Value No. of CE(s) Eigenvalue None most At * *(**) denotes rejection of the hypothesis at 5%(%) significance level L.R. rejects any cointegration at 5% significance level Unnormalized Cointegrating Coefficients: OEUFS POULET Normalized Cointegrating Coefficients: Cointegrating Equation(s) OEUFS POULET C (.45) Log likelihood La lecture des sorties des tests de cointégration sous Eviews 4. se fait de la façon suivante, On considère un modèle V AR pour (Y t ), à savoir Y t = A Y t + ::: + A p Y t p + " t, où (Y t ) est un vecteur de processus I (). On réécrit alors ce modèle sous la forme décrite ci-dessus, à savoir Y t = Y t + Y t + Y t + ::: + p Y t p+ + " t ;

14 où = (A + ::: + A p ) I et i = (A i+ + ::: + A p ). D après le théorème de représentation de Granger, il existe et matrices k r, où r < k, telles que = et telles que Y t soit stationnaire. r est alors le nombre de relations de cointégration, et les colonnes de correspondent aux vecteurs de cointégration. De la même façon que Johansen (995) 5 cas sont distingués, suivant la tendance retenue,. Pas de tendance déterministe pour (Y t ), équations de cointégration sans constantes,. Pas de tendance déterministe pour (Y t ), équations de cointégration avec constantes,. Tendance déterministe pour (Y t ), équations de cointégration avec constantes, 4. Tendance déterministe pour (Y t ), équations de cointégration avec tendances linéaires, 5. Tendance quadratique pour (Y t ), équations de cointégration avec tendances linéaires. Les modèles testés s écrivent alors. Y t = Y t. Y t = Y t + ¹. Y t = Y t + ¹ + 4. Y t = Y t + ¹ + t + 5. Y t = Y t + ¹ + t + + t Il est d ailleurs possible sous Eviews de rajouter des compostantes exogènes. On considère alors des modèles de la forme Y t = A Y t + :: + A p Y t p + +BX t + " t. Exemple 6 Pour reprendre l exemple introductif, les PIB français et l indice de la cnsommation sont des séries non-stationnaires, et cointégrées, PIB CONSOMMATION comme cela peut se voir sur les sorties des tests de Johansen Included observations: 9 Test assumption: No deterministic trend in the data Series: PIB CONSOMMATION Lags interval: to Likelihood 5 Percent Percent Hypothesized Eigenvalue Ratio Critical Value Critical Value No. of CE(s) None ** At most * *(**) denotes rejection of the hypothesis at 5%(%) significance level L.R. test indicates cointegrating equation(s) at 5% significance level Unnormalized Cointegrating Coefficients: PIB CONSOMMATION Normalized Cointegrating Coefficients: Cointegrating Equation(s) PIB CONSOMMATION (.58) Log likelihood -44.5

15 Il est toutefois possible, sur la version 4., d obtenir des sorties plus complètes sur ce test, Included observations: 9 after adjusting endpoints Trend assumption: Quadratic deterministic trend Series: CONSOMMATION PIB Lags interval (in first differences): to Unrestricted Cointegration Rank Test Hypothesized Trace 5 Percent Percent No. of CE(s) Eigenvalue Statistic Critical Value Critical Value None At most * *(**) denotes rejection of the hypothesis at the 5%(%) level Trace test indicates no cointegration at both 5% and % levels Hypothesized Max-Eigen 5 Percent Percent No. of CE(s) Eigenvalue Statistic Critical Value Critical Value None At most * *(**) denotes rejection of the hypothesis at the 5%(%) level Max-eigenvalue test indicates no cointegration at both 5% and % levels Unrestricted Cointegrating Coefficients (normalized by b'*s*b=i): CONSOMMA PIB TION Unrestricted Adjustment Coefficients (alpha): D(CONSOMM ATION) D(PIB) Cointegrating Equation(s): Log likelihood Normalized cointegrating coefficients (std.err. in parentheses) CONSOMMA PIB TION (.85) Adjustment coefficients (std.err. in parentheses) D(CONSOMM -.49 ATION) (.9) D(PIB).598 (.695) La lecture de la sortie se fait de la façon suivante : il s agit ici d un test de type ADF où les deux séries sont supposées avoir une tedance et une constante Sample: 96 Included observations: 9 Series: CONSOMMATION PIB Lags interval: to Data Trend: None None Linear Linear Quadratic Rank or No Intercept Intercept Intercept Intercept Intercept No. of CEs No Trend No Trend No Trend Trend Trend Selected (5% level) Number of Co integrating Relations by Model (columns) Trace Max-Eig Log Likelihood by Rank (rows) and Model (columns) Akaike Information Criteria by Rank (rows) and Model (columns) *.586* Schwarz Criteria by Rank (rows) and Model (columns) *.8955* La modélisation V AR(p).. La représentation V AR (p) La représentation V AR à k variables et à p décalages V AR (p) s écrit sous forme matricielle, avec Y t = 6 4 Y t Y t. Y k t 7 5 A i = 6 4 Y t = A + A Y t + ::: + A p Y t p + " t ; (6) a i a i a k i a i a i a k i..... a ki a ki a k ki 7 5 A = 6 4 a a. a k 7 5 et " t = 6 4 La matrice de covariance des erreurs = E (" t"t) est ici inconnue. De la même façon que dans le cas univariarié, on pourra noter A (L) Y t = A + " t ; " t " t. " k t 7 5 : 4

16 où A est un polynome matriciel (k k); A (z) = I A z A z ::: A p z p, et on appera polynôme charactéristique let polynôme det I A z A z ::: A p z p. Remarque 5 L écriture V AR présentée ici suppose que la ième équation, dé nissant Yt i ne fasse intervenir aucun Y j t. Ceci n est pas forcément toujours le cas : considérons les deux processus stationnaires (X t ) et (Y t ) dé nis par les relations suivantes Y t ½ Xt = + Xt + ::: + pxt p ±Yt + Yt + ::: + q Yt q + "t Y t = a + b Y t + ::: + b r Y t p dx t + c X t + ::: + c s X t s + t; qui peut se réécrire sous forme matricielle DZ t = A + Z t + ::: + n Z t n + u t où n = max fp;q;r;sg avec les notations matricielles Xt "t ± Z t =, u t =, D =, A = et pour i = ;:::;n A d a i = i i ; t avec la convention, par exemple, i = pour p < i n. On supposera que les bruits (" t ) et ( t) sont non-corrélés. Il est alors possible d écrire l équation sous forme réduite, obtenue en mutipliant par par D : Z t = ª + ª Z t + ::: + ª n Z t n + v t où v t = B u t : On constate que les innovations (v t ) sont alors fonctions des innovations de la forme structurelle, (" t ) et ( t), et peuvent être corrélés : µ "t ± t v t = ±d ; t d" t : ±d Si chacunes des composantes sont i:i:d: les variances sont alors respectivement ¾ " + ±¾ = [ ±d] et ¾ + d¾ " =[ ±d On constate que l on peut alors toujours se ramener à des processus de la forme (6). Dé nition 4 Le processus Y t est stationnaire (au second ordre) si (i) E (Y t ) = ¹ pour tout t (ii) V (Y t ) est nie et constante (iii) cov (Y t ;Y t+k ) = E ([Y t ¹] [Y t+k ¹]) = k pour tout t Propriété U,n processus V AR (p) est stationnaire si le polynôme caractérisque (dé ni à partir du déterminant det I A z A z ::: A p z p ) a ses racines à l extérieur du cercle unité. Preuve. Hamilton (994) page 59 b i c i Exemple 7 Le processus bivarié dé ni par Y t Yt = + :7 :4 : : Y t Y t + " t " t ; a pour polynôme caractéristique µ det :7 :4 : : z = :7z :4z :z :z = z + :z ; qui admet pour racines z = :84 et z = :5 : le processus n est pas stationnaire. Exemple 8 Le processus dé ni par Y t Y t = + : :4 :7 : Y t Y t + " t " t ; a pour polynôme caractéristique µ det : :4 :7 : z = :z :4z :7z :z = :5z :z ; qui admet pour racines conjuguées z = :5 :79i et z = :5 + :79i : le processus n est pas stationnaire. 5

17 Exemple 9 Le processus dé ni par Y t Y t = + : :7 : :4 Y t Y t + " t " t ; a pour polynôme caractéristique µ det : :7 : :4 z = :z :7z :z :4z = :6z + :z ; qui admet pour racines z = : et z = 5:9 : le processus est stationnaire. Les processus VAR (p) peuvent se mettre sous forme V AR () en utilisant l écriture suivante. Soit Y t = Yt ;::::;Yt n R n satisfaisant la représentation VAR (p) suivante : pour tout t, Y t = + A Y t + ::: + A p Y t p + " t soit A (L)Y t = + " t : (n;) ³ L espérance de ce processus est alors E (X t ) = E (L) [ + " t ] = () c = ¹ pour tout t: On peut alors réécrire (L) [Y t ¹] = " t. Considérons alors Z t = (np;) Y t ¹ Y t ¹. Y t p+ ¹ C A A = (np;np) A A A p A p I n n n n n I n n n.... n n I n n C A " t ṇ et t = B On peut alors noter que le processus V AR (p) (Y t ) peut se réécrire sous la forme d un processus transformé Z t satisfaisant une représentation VAR () : Z t = AZ t + t: n C A : Exemple Considérons le processus bivarié dé ni par Y t : :7 Y Yt = + t : :4 Yt :4 :6 : :8 Y t Y t + " t " t ; suivant un modèle VAR (). Le polynôme autorégressif A (L) est alors donné par A (L) = L espérance ¹ du processus (Y t ) est alors donnée par = : :7 :4 :6 + L + : :4 : :8 :L + :4L :7L + :6L :L + :L :4L + :8L : ¹ = A (L) = :59 :8 : L On a alors 6 4 t :59 t :8 t :59 t :8 Y Y Y Y 7 5 = 6 4 : :7 :4 :6 : :4 : : t :59 t :8 7 t : t :8 Y Y Y Y " t " t 7 5 :.. Les modèles ARMAX ou V ARMA Les modèles ARMAX sont une généralisation des processus V AR (p), de la même façon que les processus ARMA (p;q) sont une généralisation des processus AR (p) : Y t = A + A Y t + ::: + A p Y t p + " t + B " t + ::: + B q " t q ; 6

18 où A i et B j sont des matrices k k. Il est possible de distringués les processus V MA (obtenus quand p = ) : moyennes mobiles mutivariées. - les processus VAR sont toujours inversibles, et sont stationnaires si les racines du polynôme caractéristique sont à l extérieur du disque unité - les processus VMA sont toujours stationnaires, et sont inversibles si les racines du polynôme caractéristique sont à l extérieur du disque unité - les conditions d inversibilité et de stationnarité des processus ARMA dépendent des parties VAR et VMA du processus. Remarque 6 Il est possible de montrer que les processus V ARMA peuvent se mettre sous forme V AR (): Soit Y t suivant un modèle VARMA (p;q), tel que et notons On posera alors Z t = 6 4 Y t. Y t p+ " t. " t q où les blocs B ij sont dé nis par Y t = A Y t + ::: + A p Y t p + " t M " t ::: M q " t q vecteur de taille K (p + q) et U t = B B = de taille K (p + q) K (p + q) ; B B = 6 4 B = 6 4 B A A p A p I K..... I K M M q M q.... B = 6 4 I K.... I K Alors, le processus (Z t ) suit un modèle V AR () ; Z t = BZ t + U t :.. Estimation des paramètres d un modèle V AR " t. " t. 7 de taille Kp Kp, 5 7 de taille Kp Kq; 5 7 de taille Kq Kq: 5 de taille Kp + Kq: 7 5 Chacun des paramètres peut être obtenue soit par mco (moindres carrés ordinaires), soit par maximum de vraissemblance. Pour un modèle V AR stationnaire, la stationnarité de la série va entraîner la convergence et la normalité asymptotique des estimateurs obtenus par mco, ce qui permet de mener des tests sur les paramètres du modèle, ou de donner des intervalles de con ance pour les prévisions. Toutefois, comme nous l avons déjà dit dans le cas univarié, les variables économiques sont souvent intégrées (d ordre ou plus ). Dans ce cas, l écriture (6) est toujours valable, mais le determinant du polynôme charactéristique admet des racines de module. Les coe cients du modèles peuvent toujours être estimés par des mco et les estimateurs obtenus sont toujours convergents (en fait, ils sont même super-convergents puisqu ils convergent à la vitesse =T et non pas = p T). Cependant, ces estimateurs ne sont pas asymptotiquement normaux, et l on peut plus, dans ce cadre, mener les tests usuels sur les paramètres du modèle, ni déterminer d intervalle de con ance pour les prévisions. 7

19 Cependant, lorsque les variables sont non-stationnaires et cointégrées, les résultats de Engle et Granger (987) montrent que la bonne spéci cation du modèle consiste à utiliser une forme à correction d erreur (développé dans la partie (::)), qui permet de se ramener à une écriture ne faisant intervenir que des variables stationnaires, et dans lesquels il est possible d e ectuer des tests sur les paramètres du modèle...4 Autocovariances et autocorrélations La k-ième autocovariance croisée entre la i-ième et la j-ième variable est donnée par ij (h) = E h³ Y i t Y i ³ Y j t h Y j i : Remarque 7 La propriété de symétrie valable dans le cas univarié n est plus véri ée ici : pour h 6=, ij (h) 6= ij ( h). En e et, si Y t dépend fortement de X t, ce ne signi e pas que Y t dépende, de la même façon, de X t+. Et de même ij (h) 6= ji (h) La fonction d autocorrélation est alors ½ ij (h) = q ij (h) : i () j () Aussi, on peut dé nir, pour tout retard h la matrice d autocorrélation ½ (h) ½ (h) ½ n (h) ½ (h) ½ (h) ½ n (h) (h) = ½ n (h) ½ n (h) ½ nn (h) 7 5 : On peut alors noter que (h) = ( h), et que les éléments sur la diagonale correspondent aux autocorrélations usuelles...5 Application sur un exemple Considérons les séries suivantes, Y et Y, Y Y 8

20 Les observations sont les suivantes, Y Y Y Y Y Y 99 :999 : :86 : : :9 99 :45 :5 994 :79 : :7 :45 99 : : :55 : : : :5 : :6 : :97 : :56 : :59 : :555 : :847 : :6 : :48 : :446 :4 995 :64 : : : :6 : :9 : :97 : :46 : : :5 998 :848 :48 99 : : :6 : :7 : 99 :889 : :77 : :74 :64 99 :96 : :9 : :77 :46 99 :96 : :5 : :6 : :74 : :6 : :46 :89 99 :9 :4 995 :64 : :9 : :66 : :95 : :47 : :94 : : : :6 : :899 : :5 : :5 : :67 :5 996 : : :5 : :84 : :767 :8 998 :75 : 99 9 :6 : :696 : :67 :87 99 :95 : :9 :6 999 :98 :95 99 :9 : :586 : 999 :7 :58 99 : : :4 : :47 : : : :559 : : : 994 :5 : :696 : :78 : :47 :9 996 :979 : : : :79 : :65 : :496 : :8 : :7 : :74 : :66 : :5 : :7 : :76 :9 997 :47 :5 999 :899 : :596 : :68 :5 999 :7 :7 L analyse univariée des séries Y et Y donne les autocorrélogrammes suivants, 9

21 L autocorrélogramme croisé permet de représenter ½ Y!Y (h) = corr Yt ;Yt h et ½Y!Y (h) = corr Yt ;Yt h, Estimation d un modèle V AR () avec constante Estimons le modèle suivant sur notre échantillon, Y t a a a Yt = + Y t " a a a Yt + t " ; t qui peut se réécrire ½ Y t = a + a Yt + a Yt + " t Yt = a + a Yt + a Yt + " t : Pour estimer les paramètres de ce modèle, nous pouvons utiliser les mco sur chacune des équations indépendament : LS // Dependent Variable is Y Sample: 99: 999: Included observations: 96 Variable Coefficient Std. Error T-Statistic Prob. C Y(-) Y(-) R-squared Mean dependent var Adjusted R-squared S.D. dependent var.4899 S.E. of regression Akaike info criterion Sum squared resid 88.7 Schwartz criterion.6674 Log likelihood F-statistic Durbin-Watson stat.999 Prob(F-statistic). LS // Dependent Variable is Y Sample: 99: 999: Included observations: 96 Variable Coefficient Std. Error T-Statistic Prob. C Y(-) Y(-) R-squared.87 Mean dependent var Adjusted R-squared.9547 S.D. dependent var.496 S.E. of regression.549 Akaike info criterion.7 Sum squared resid.6457 Schwartz criterion.7 Log likelihood F-statistic.69 Durbin-Watson stat.96 Prob(F-statistic). dont les sorties graphiques donnent respectivement Residual Actual Fitted Residual Actual Fitted Les résidus estimés, b" t et b" t sont alors estimés (représentés ci-dessus ). Leur matrice de variance-covariance est alors :9475 :5458 b = ; :5458 :889

22 d où les expressions des critères AIC et SC, AIC () = ln b + k n SC () = ln b + k ln n n = ln : = :44759; = ln : ln Cette estimation peut être faite directement sous EV iews, de façon globale = :79: Sample: 99: 999: Included observations: 96 Standard errors & t-statistics in parentheses Y Y Y(-) (.96) (.88) (.774) (.8) - - Y Residuals Y(-) (.495) (.879) ( ) (.5) C (.8) (.655) (-.9646) (-.8997) R-squared Adj. R-squared Sum sq. resids S.E. equation Log likelihood Akaike AIC Schwartz SC Mean dependent S.D. dependent Y Residuals Toutefois, si l on considère les deux régressions faite au début, on peut noter que la constante n est pas signi cative (à un seuil de 5%) : on peut tester un modèle V AR () sans constante. Estimation d un modèle V AR () sans constante Y t Y t Estimons le modèle suivant sur notre échantillon, a a = Y t a a Yt + " t " t ; qui peut se réécrire ½ Y t = a + a Yt + a Yt + " t Yt = a + a Yt + a Yt + " t: Pour estimer les paramètres de ce modèle, nous pouvons utiliser les mco sur chacune des équations indépendament : LS // Dependent Variable is Y Sample: 99: 999: Included observations: 96 Variable Coefficient Std. Error T-Statistic Prob. Y(-) Y(-) R-squared.5574 Mean dependent var Adjusted R-squared.555 S.D. dependent var.4899 S.E. of regression.995 Akaike info criterion.4 Sum squared resid 9.8 Schwartz criterion Log likelihood F-statistic 8.47 Durbin-Watson stat.77 Prob(F-statistic). LS // Dependent Variable is Y Sample: 99: 999: Included observations: 96 Variable Coefficient Std. Error T-Statistic Prob. Y(-) Y(-) R-squared.879 Mean dependent var Adjusted R-squared.89 S.D. dependent var.496 S.E. of regression.548 Akaike info criterion.485 Sum squared resid 8.9 Schwartz criterion.674 Log likelihood F-statistic 4.87 Durbin-Watson stat.9968 Prob(F-statistic).

23 dont les sorties graphiques donnent respectivement Residual Actual Fitted Residual Actual Fitted Les résidus estimés, b" t et b" t sont alors estimés (représentés ci-dessus ). Leur matrice de variance-covariance est alors :996 :5565 = ; :5565 :974 d où les expressions des critères AIC et SC, AIC () = lnj j + k n = ln : = :647; SC () = ln j j + k ln n = ln : ln 96 = :66: n 96 Cette estimation peut être faite directement sous EViews, de façon globale Sample: 99: 999: Included observations: 96 Standard errors & t-statistics in parentheses Y Y Y(-) (.95) (.79) (.84546) (.4875) - - Y Residuals Y(-) (.588) (.968) (6.948) (.946) R-squared Adj. R-squared Sum sq. resids S.E. equation Log likelihood Akaike AIC Schwartz SC Mean dependent S.D. dependent Y Residuals Comparaison de di érents modèles VAR (p) Pour di érents modèles VAR (p), les critères AIC et SC sont j j AIC Y AIC Y AIC tot SC Y SC Y SC tot VAR () avec constante :7965 :646 :7 :44759 :6674 :7 :79 V AR () sans constante :8547 :4 :485 :647 :56665 :674 :66 VAR () avec constante :744 :8655 :44 :8 :55 :7596 :888 V AR () sans constante :74965 :884 :5479 :478 :449 :664 :97 VAR () avec constante :599 :55 :46 :4754 V AR () sans constante :74667 :76974 :499 :4746 VAR (4) avec constante :988 :8976 :6 :54 V AR (4) sans constante :5 :854 :5 :5 La comparaison des critères AIC pousse à choisir un modèle V AR () sans constante. Le modèle retenu Y t :75 :75 Y Yt = t " :67 :94 Yt + t " où b :996 :5565 = : t :5565 :974

24 ..6 Prévision à l aide des modèles VAR Expression de la prévision à horizon h Considérons un modèle V AR (); Y t = A + A Y t +" t ; estimé à partir de T observations. La prévision à horizon faite en T est alors by T () = ba + ba Y T : La prévision à horizon est alors h i by T () = ba + ba by T () = ba + ba A b + ba Y T = ba + ba ba + ba Y T : De façon plus générale, la prévision à horizon h est alors h i by T (h) = ba + ba by T (h ) = I + ba + ::: + ba h b A + ba h Y T : L espérance de l erreur de prévision est nulle, et sa variance est donnée par = à horizon. A horizon, cette variance est = + ba ba = + ba ba ; et à horizon, elle vaut = + ba ba = + ba ba + ba ba : De façon plus générale, la variance de la prévision à horizon h est h = h + ba h ba h = + ba ba + ba ba + ::: + ba h ba h : Des formules analogues existent pour les processus VAR (p). La variance de l erreur de prévision de chacune des k variables est obtenue sur la diagonale des h : l intervalle de con ance de la prévision au niveau = est donnée par q by T i (h) t =: i;i h ; où t = est le fractile de la loi normale. Application sur l exemple précédant Y t :75 :75 Yt = :67 :94 Le modèle retenu était Y t " Yt + t " où = t :996 :5565 :5565 :974 On obtient alors la prévision, faite à n décembre 999, pour le mois de janvier, de la forme ( Y b = :756:Y999 + :749:Y999 by = :6658:Y999 + :94:Y999 : En utilisant cette estimation, on obtient de façon récursive ( Y b = :756:bY + :749:bY by = :6658: Y b + :94: Y b ; ( Y b = :756: by + :749: by by = :6658:bY + :94:bY : La variance de l erreur de prévision est donnée par h, soit :996 :5565 h = = : :5565 :974 :

25 ..7 Tests de bruit blanc des erreurs De la même façon que pour les modèles AR, il convient de véri er que les erreurs correspondent à un bruit blanc. Soit (" t ) le processus d erreur, et (h) sa fonction d autocorrélation. L hypothèse à tester est alors H : () = ::: = (h) = : La statistique Q de Box & Pierce peut alors se généraliser en multivarié, La statistique de Ljung & Box s écrit Q (h) = n Q (h) = n hx i= hx i= La distribution asymptotique suit une loi du chi-deux. ³ trace b (i) b () b (i) b () : ³ n i trace b (i) b () b (i) b () :..8 Test de causalité (Granger (969)) sur des mod èles VAR En dimension, considérons deux processus (X t ) et (Y t ). Le but est de se demander si (X t ) cause (Y t ), et de voir dans quelle proportion la valeur courante de (Y t ) peut être expliquée par ses valeurs passées, et si en ajoutant des valeurs retardées de (X t ), l explication est meilleure. Considérons un modèle autorégressif; X (L) (L)Z t = ¹ + u t soit X Y (L) Xt ¹X "t = + ; Y X (L) Y (L) où on supposera () = I, ce qui permettra d interpréter le vecteur u t comme le processus d innovation. - (X t ) ne cause pas (Y t ) au sens de Granger si et seulement si les coe cients de Y X sont nuls : Y X (L) = - (Y t ) ne cause pas (X t ) au sens de Granger si et seulement si les coe cients de XY sont nuls : XY (L) = Le test peut se faire sous EV iews (Granger Causality ) : pour cela, on commence par choisir le nombre de retards à introduire, et l hypothèse nulle testée est que (Y t ) ne cause pas (X t ) dans la première équation, et que (X t ) ne cause pas (Y t ) dans la seconde. Considérons ici deux vecteurs (ou variables) (X t ) et (Y t ), respectivement de taille n et m, de telle sorte que n + m = K; de telle sorte que le processus (Z t ) = (X t ;Y t ) soit un processus V AR (p) : Z t = M + A Z t + A Z t + ::: + A p Z t p + " t ou encore Z t = BZ t + U t ; Y t ¹ Y t en reprenant les notations de la remarque (6), c est à dire B = M A A p A p de taille K (Kp + ); Z t = 6 4 Z t Z t.. Z t p+ 7 5 et U t = 6 4 " t.. : 7 5 Le test de l hypothèse de causalité est un test de Wald : on cherche à tester (H ) : R = c contre (H ) : R 6= c, où C est une matrice N K p + K de rang N et c est un vecteur R N. Supposons que b, estimateur de, véri e une propriété de normalité asymptotique, c est à dire p ³ T b L! N ;, alors p ³ T Rb R L! N ;R R et on a alors T (R c) R R (R c) L! Â (N): En remplaçant les matrices et par leur estimateurs usuels b = T ZZ et b = T Kp bubu ; 4

26 on obtient l estimateur de Wald = ³ h ³ Rb c R (ZZ ) b R i ³ Rb c ; qui suit asymptotiquement un chi-deux à N degrés de liberté. Toutefois, une alternative également utilisée est de considérer =N qui suit asymptotiquement une loi de Fisher à N et T Kp degrés de liberté. Dans le cas du test de causalité de Granger le coe cient c est nul, de taille (m n) p, est le vecteur vec(b) - c est à dire la concaténation des vecteurs colonnes de B : le modèle de base s écrivant de la façon suivante Xt Y t on a M X = + B = et donc = M Y 6 4 AX A X Y A Y X A Y M X A X M Y A XY A Y X A Y M X.. Mn X M Y. M Y m Xt A X Y t A XY A Y X A Y + ::: AX A X Y A Y X A Y A X p A Y p X A X p Y A Y p A X ; A X ;n A X Y ; A X Y ;m... A X ;n A X ;nn A XY ;n A XY ;mn A Y ; X A Y ;n X A Y ; A Y ;m.... A Y ;m X A Y ;nm X A Y ;m A Y ;mm.. Xt ::: Y t AX +:::+ p A X p Y A Y X p A Y p Xt p Y t p A X p; A X p;n A XY p; A XY p;m.... A X p;n A X p;nn A XY p;n A X p;mn Y A Y p; X A Y p;n X A Y p; A Y p;m.... A Y p;m X A Y p;nm X A Y p;m A Y p;mm = M X M X n M Y M Y ma X ; A X ;na Y X ; A Y X ;ma X ; A Y p;m A Y p;mm R (n+m) p+n+m : + "X t " Y t La matrice R est alors la matrice remplie de et de permettant de tester la nullité des coe cients A XY,...,A XY p, c est à dire R = 6 4 nullité de A XY ; nullité de A XY ;. nullité de A XY ;mn nullité de A XY p;.. nullité de A XY p;mn n+m n+m n (n+m) n (n+m) m (n+m) m (n+m) ::: :::.... ::: m (n+m) m (n+m) (n m). (n m) On rejette alors (H ) (de non-causalité) quand la puissance du test est très faible (inférieure à 5%), et dans le cas contraire, on ne peut pas rejeter l hypothèse de non-causalité (puissance supérieure à 5%)...9 Les modèles VAR (p) : analyse des chocs (Y t ) suit un modèle VAR d ordre p si et seulement si Y t = M + A Y t + A Y t + ::: + A p Y t p + " t ; où (" t ) est un bruit blanc de dimension K, de matrice de variance-covariance. Propriété Ce processus admet une représentation V AR () de la forme Z t = ¹ + AZ t + U t où Y t M " t A A p A p Y t Z t = , ¹ = , U t = et A = I K : Y t p+ I K 7 5 ; 7 5 ; 5

27 Remarque 8 En posant J = [I K ; ;:::; ], on peut écrire Y t = JZ t Sous l hypothèse de stabilité du processus (racines du polynôme charactéristique à l extérieur du disque unité) la représentation V MA est la suivante (appelée aussi décomposition de Wald) X Y t = ¹ + i " t i où i= ½ i = JA i J ¹ = (I K A ::: A p ) M : (7) Impact d une impulsion Nous allons étudier ici l e et d une innovation d une des variables Yt i sur le système de K variables. Pour cela, on suppose que Y t = ¹ pour t < et qu en t =, la ième variable augmente de (soit " j t = pour j 6= i et " i t = ). L idée est alors d étudier comme réagit le système aux dates,,..etc, si aucun autre choc ne survient. Nous supposerons pour la suite que le processus (Y t ) est centré, et que l innovation se fait sur la première variable. En n, nous noterons ± = (; ; ;:::; ) le vecteur d impulsion. Remarque 9 L idéegénéralede l analyse des chocs (oufonction deréponse aux innovations) est derésumer l information concernant l évolution d une composante Y j t suite à une impulsion sur Yt i, à la date t =, en supposant que toutes les autres variables sont constantes pour t. En utilisant l écriture V MA (), on en déduit Y = X i " t i = ± ::: = ± (car = I), i= Y = X i " t i = + ± + + ::: = ±; i= et plus générallement, Y h = h ± où la matrice h est le coe cient du retard d ordre h de l écriture V MA (), c est à dire i = JA i J. Aussi, la réponse à une choc sur l innovation se lit sur les vecteurs colonnes des matrices de la forme moyenne mobile. On peut également considérer les réponses accumulées. Pour cela, on considère les matrices dé nies par ª i = I ::: + h, avec la matrice limite ª = I ::: + h + ::: = (I K A ::: A p ). Un exemple sera traité dans la partie suivante. Orthogonalisation des innovations et décomposition de la variance Dans l analyse précédante, nous avons supposé qu il était possible d avoir, à la date t = une impulsion sur l une des composantes, c est à dire que le bruit (" t ) s écrivait sous la forme (;:::; ; ; ;:::; ). Supposons que la matrice de variance-covariance soit de la forme E (" t " t ) = 6= I. Il peut être intéressant (dans le cas bivarié, pour simpli er) d isoler l innovation propre au processus (Y t ) non polluée par la réaction de l innovation (X t ) : on parle alors d orthogonalisation des innovations. On considère alors la décomposition suivante de la matrice de covariance des innovations : = E (" t " t) = ADA où A = et D = : Exemple Dans le cas bivarié, on a par exemple la décomposition suivante ¾ ½¾ ¾ ¾ ½¾ ¾ ¾ = ½¾ =¾ ½¾ =¾ ½ ¾ : On pose alors t = A " t : on remarque que les innovations ( t) sont alors des combinaisons linéaires des innovations du modèle initial (" t ), qui sont indépendantes (ou tout du moins non corrélées) : E ( t t ) = A E (" t " t ) A = A (A ) = A ADA (A ) = D: Un processus bivarié (Y t ) dé nit par un modèle VAR () de la forme suivante ½ Xt = + X t + Y t + " X t Y t = + X t + Y t + " Y t ; 6

28 devient alors ½ Xt = + X t + Y t + Xt Y t = + X t + Y t + ½¾ =¾ : Xt + Yt : L idée est alors de considérer un choc unitaire non pas sur une composante de (" t ) mais sur la composante Yt : à la date t =, ( t) = (; ). En partant de la décomposition des résidus en innovations orthogonales, on peut alors calculer la contribution de chaque innovation à la variance totale de l erreur de prévision du processus Xt i : c est cela que l on appelle décomposition de la variance. Considérons le processus (X t ) admettant la représentation V AR (p) suivante A (L)Y t = Y t A A Y t ::: A p Y t p = M + " t : On suppose que le bruit blanc (" t ) est de matrice de variance-covariance : On suppose que ce processus est stationnaire, de telle sorte qu il puisse être représenté sous forme la V MA () suivante Y t = ¹ + " t + " t + ::: + i " t i + ::: = ¹ + (L)" t : L erreur de prévision faite en T à horizon h s écrit sous la forme X T +h bx T (h) = X T +h EL (X T +h jx T ;X T ;:::;X ) = X T +h EL (X T +h j" T ;" T ;:::;" ) = " T +h + " T +h + ::: + h " T + : L espérance vaut alors (les bruits blancs étant, par dé nition, des processus centrés), et la matrice de variancecovariance est alors donnée par ³ Eµ X T +h X b ³ T (h) X T+h X b T (h) = + + ::: + h h : Cette erreur de prévision est alors exprimée en fonction de la matrice de variance-covariance des résidus (non diagonale). Comme précédemment, considérons la transformation t = A " t ou " t = A t, où = ADA : " t t 6 " t = = [a ;a ;:::;a n ] où a i R d : " d t dt Dès lors = E (" t " t) = a a V t + a a V t + ::: + ad a dv dt : En substituant alors cette expression dans la variance de la prévision pour un horizon h, cela permet de réexprimer cette variance en fonction de la variance des innovations orthogonales : ³ ³ Eµ X T +h bx T (h) X T +h bx T (h) = d où nalement la de nition suivante dx V j= ³ j t (a a ) + ::: + h ah a h h ; Dé nition 5 On appelle contribution d une innovation pure à la variance totale de la prévision à un horizon h la quantité ³ V j t (a a ) + ::: + h ah a h h : Exemple Sur l exemple considéré dans la partie précédante, le graphique ci-dessous correspond aux réponses aux fonctions d impulsion, respectivement sur la variable (Y ) à gauche et (Y ) à droite Response of Y to One S.D. Innovations Response of Y to One S.D. Innovations Y Y Y Y 7

29 avec la décomposition de la variance ci-dessous Variance Decomposition of Y 8 Variance Decomposition of Y Y Y Y Y.4 Application des modèles V AR.4. Application : investissement, revenu et consommation Nous allons considérer ici l exemple développé par Lütkepohl (99), Introduction to Multiple Time Series Analysis, dans le chapitre : La base considérée contient ans de données trimestrielles, avec l investissement (X), le revenu (Y ) et la consommation (Z) CONSOMMATION INVESTISSEMENT REVENU RDMT_CONS RDMT_INV RDMT_REV Le graphique ci-dessus à gauche représente, en données brutes, alors que le graphique de droite correspond aux rendements : on posera alors C t = log (Z t ) log (Z t ), I t = log (X t ) log (X t ) et R t = log (Y t ) log (Y t ). Remarque Un test de cointégration peut être mené rapidement, en représentant les scatterplots des di érentes variables, 7 5 CONSOMMATION 5 5 INVESTISSEMENT REVENU INVESTISSEMENT REVENU 5 5 CONSOMMATION Comme le montrent les graphiques ci-dessus, seul le couple (Z t ;Y t ) semble cointégré. 8

30 Le tableau ci-dessous donne di érentes statistiques de choix pour des modèles V AR (p) di érents 4 : Retards AIC HQ SC FP E 4:5 4:8 4:4 :5 4:59 4:7 4: :7 4:4 4:7 :55 : :6 :9 : :9 Lütkepohl retenait, en utilisant le critère AIC d Akaike et le FPE (critère que l on cherche à minimiser), un modèle V AR (); Z t = M + A Z t + A Z t + " t : L estimation des paramètres donne les résultats suivants 4 I t R t 5 = 4 :67 :96 :46 :96 : :49 :57 :885 C t :9 :4 :48 : :66 :46 :944 :5 :9 : :9 :549 : 5 4 I t R t C t où la matrice de variance-covariance peut etre estimée par :96 7:6 : b = 4 7:6 :7 6:5 5 5 : : 6:5 8: I t R t b" t b" t b" t C t 5; 5 (8) La représentation V MA (); permettant de calculer les fonctions d impulsions, est la suivante I t b" t :9 :45 :96 b" 4 R t 5 = 4 54 b" t :54 :6 :45 5 t + 4 :4 :5 :88 54 b" 5 C t b" t + 4 :8 : :88 : :4 :6 t b" :45 :6 :9 t + 4 :9 :5 :47 :8 :7 :9 : :98 :9 54 b" t b" t b" t :4 :8 :6 : : :8 :5 :845 :5 54 b" t 4 b" t 4 b" t 4 Les fonctions d autocovariance du processus sont alors données par :45 :6 :4 :45 :7 :7 = 4 :6 :5 :6 5 et = 4 : : : :4 :6 : : : : et les fonctions d autocorrélation sont alors : :95 :578 = 4 :95 : :455 5 et = 4 :578 :455 : 4 oùaic est le critère d Akaike, donné pourmretards, par :98 :96 :88 :876 :8 :4 :48 :658 : ::: AIC(m)= ln(det( m ))+ mk T où T est le nombre d observation, m le nombre de retards, K le nombre de variables, et m est l estimateur (du maximum de vraissemblance)de la matrice de variance-covariance du bruit. HQ est le critère de Hanna-Quinn, dé ni par SC est le critère de Schwarz dé ni par FPE correspond au critère nal prediction error, dé nit par HQ(m) = ln(det( m))+ ln(lnt) mk T SC(m)= ln(det( m ))+ lnt T mk FPE(m)= (FPE est ici donnée à un facteur multiplicatif près ( )). T +Km+ K det( m) T Mk 5 : 5; 54 b" t b" t b" t 5 9

31 A n de tester la causalité au sens de Granger, par exemple de revenu/consommation vers investissement, on va tester si les matrices A et A sont de la forme A i = 4 5 soit B = [M;A ;A ] = 4 5: Ces hypothèses peuvent s écrire sous forme matricielle Rb =, en considérant que le processus Z t se subdivisionne en sous-processus (C t ;R t ) et (I t ). On a alors N = 4, et K p + K = + = : la matrice R (matrice 4 ) est alors dé nie par R = 6 4 ce qui peut être testé à l aide de principe de Wald (test de Student ). = 4 ³ h ³ i ³ Rb c R (ZZ ) b R Rb c = :59; alors que le quantile à 95% de la loi de Fisher F (4; 66) vaut :5. Aussi, au niveau 5%, on ne peut pas rejeter l hypothèse de non-causalité des variables revenu et investissment sur la consommation. En revanche, un test de non-causalité instantanée revient à tester si est de la forme = 4 La prévision peut se faire en utilisant l écriture VAR (), estimée par (8), à compte tenu du fait que les deux derniers points sont Z T = 4 :55 :44 5 et Z T = 4 :67 :57 5: :9 :599 La prévision optimale se fait alors, de façon récursive, bz T () = M + A Z T + A Z T = 4 : : 5, bz T () = M + A bz T () + A Z T = 4 : : 5...etc. : :5 L estimateur de la matrice de variance covariance se faire alors, au rang, de la façon suivante b Y () = K + Kp + b " = :4 :785 :5 b " = 4 :785 :55 : : T 7 :5 :674 :978 Les matrices de variance covariance à des ordres plus élevés se calculent à l aide de la forme V MA (), et donnent 5: :58 : b Y () = 4 :58 :58 : ; : :586 :9 5: 7 5 ; d où, nallement, les prévisions suivantes : : :95 horizon : bz T () 4 : :4 : :9 5 et horizon : bz T () 4 : :98 : :5 :5 : 5: Nous allons maintenant étudier les fonctions réponses à une impulsion. Pour cela, rappelons que les deux premières composantes de la forme V MA () sont :9 :45 :96 :54 :6 :45 b = 4 :4 :5 :88 5 = ba et b = 4 :8 : :88 5 = ba b + ba : : :4 :6 :45 :6 :9

32 En notant b = I, et b ª i = b + b + ::: + b i, on a alors les estimations suivantes, avec, entre parenthèses, les intervalles de con ance i i b ªi b : (:5) :44 (:) : (:5) :54 (:9) :9 (:) :45 (:6) :9 (:84) :9 (:6) : (:7) :46 (:56) :5 (:4) :5 (:5) :6 (:546) :4 (:5) :6 (:8) :5 (:84) :7 (:78) :98 (:78) :96 (:657) :89 (:67) :64 (:4) :46 (:66) :88 (:6) : (:) :48 (:476) : (:94) :9 (:) :68 (:5) :44 (:) : (:5) :66 (:48) :7 (:4) :4 (:) :745 (:99) :64 (:7) :4 (:) :46 (:56) :847 (:4) :5 (:5) :48 (:65) :96 (:9) :486 (:44) :76 (:48) : (:76) :88 (:56) :96 (:657) :89 (:67) 7 5 :76 (:4) :77 (:755) : (:) :846 (:67) :969 (:55) : (:) :97 (:8) avec les comportements limites suivants : lim b i = i! 4 5 et lim bª i = i! 6 4 :756 (:) :76 (:48) :5 (:4) :866 (:66) :76 (:6) :55 (:) :95 (:798) :44 (:85) :964 (:57) 7 5 : Ceci peut se réprésenter sur les graphiques ci-dessous, avec l impact sur la consommation d un choc de sur le revenu à la data t =, avec l impact aux di érentes dates à gauche, et l impact cumulé à droite, CONSOMMATION CONS_INF CONS_SUP CONSOMMATION CONS_INF CONS_SUP

33 .4. Application des modèles V AR : rendements d une action et d un indice Considérons les deux séries suivantes, le rendement de l action IBM, et le rendement de l indice SP 5 (rendement mensuel, entre janvier 96 et décembre 999) I B M S P avec les séries (X t ) et (Y t ) à gauche (i.e. le rendement du titre IBM et de l indice SP 5 respectivement ), et le nuages des points (X t ;Y t ) Une estimation VAR avec 5 retards donne les résultats suivants Vector Autoregression Estimates Date: 6/4/ Time: 4:8 Sample(adjusted): 96:6 999: Included observations: 88 after adjusting endpoints Standard errors in ( ) & t-statistics in [ ] IBM(-) IBM(-) IBM(-) IBM(-4) IBM(-5) IBM.9 (.454) [.4664].9699 (.444) [.4].4869 (.44) [.66] -.59 (.497) [-.559] (.487) [-.6774] SP5 -.7 (.658) [-.89].5694 (.65) [.56] -.85 (.76) [-.495].8 (.695) [.75794] (.686) [-.49] SP5(-) SP5(-) SP5(-) SP5(-4) SP5(-5) IBM.5749 (.576) [.4] -.84 (.574) [-.6766] -.6 (.5) [-.7546] (.58) [-.988].4 (.58) [.5697] SP (.449) [.97] (.447) [-.98] -.8 (.488) [-.587].76 (.44) [.8997].69 (.44) [.79] C IBM (.46) [ 4.89] SP5.59 (.7) [.544] R-squared Adj. R-squared Sum sq. resids S.E. equation F-statistic Log likelihood Akaike AIC Schwarz SC Mean dependent S.D. dependent IBM SP c est à dire que, dans une écriture où l on noterait Z t = (X t ;Y t ), Z t = + Z t + ::: + 5 X t 5 + " t ; on aurait alors les matrices suivantes, :67 :9 :5 :97 :8 =, :59 =, : :88 =, :57 :47 :49 :4 : :7 :7 : =, : : 4 =, et :8 :7 5 = :75 : Le schéma ci-dessous indique quelles sont les valeurs signi catives, ainsi que leur signe (+ : signi cative positive, - : signi cative négative et : non signi cative) =, + =, + =, =, 4 =, et 5 = : + C est à dire que les retards à l ordre 4 ne sont pas signi catifs par exemple. En fait, ce cas est encore plus particulier car un certain nombre de colonnes semblent non-signi cative, en particulier la première colonne de ou de (et dans une moindre mesure de 5 ). Cela sigini e que les retards de X t :

34 n in uencent ni X t, ni Y t : en terme d interprétations, le rendement du cours du titre IBM à la date t, ainsi que le cours de l indice SP 5 à cette même date dépendent des cours passés de l indice (en l occurence avec, et 5 retards), mais pas vraiment du cours passé du titre IBM. Autrement dit, on pourrait être intéressé de tester un modèle particulier, de la forme Z t = + Y t + Y t où ici i R ; (et i n est plus une matrice ). L estimation de ce modèle contraint donne alors IBMt :4 :7 :8 = + SP 5 SP 5 t :57 :7 t SP 5 :9 t +.5 Régression linéaire dans un cadre dynamique Nous allons ici voir les propriétés des modèles économétriques de la forme Y = X + ", où, contrairement aux modèles économétriques, les observations (de la variable à expliquer Y ) Y ;Y ;:::;Y i ;:::;Y n ne sont pas observées pour des individus di érents (et peuvent alors être supposées indépendantes )mais sont des observations temporelles Y ;Y ;:::;Y t ;:::;Y n. Nous supposerons ici la fonction de régression dépend des valeurs retardées d une ou de plusieurs variables dépendantes..5. Les retards échelonnés On pense souvent qu une variable dépendante (Y t ) dépend de la valeur actuelle et d un certain nombre de valeurs retardées d une variable indépendante (X t ). Une modélisation de ce genre consiste à utiliser un modèle à retards échelonnés tel que qx Y t = + jx t j + " t où (" t ) s BB ;¾ : (9) j= Le problème consiste alors à estimer la constante et les coe cients j. Le nombre entier q est ici la longueur du dernier retard. Dans certains cas, imaginer que q est in ni peut avoir du sens, mais nous supposerons pour l instant qu il prend une valeur nie. La fonction de régression pourrait tout à fait dépendre d autres variables explicatives, mais nous ne considèrerons ici que le cas où intervient une seule variable explicative poour conserver des notations simples. Le problème avec un tel modèle est que, parce que X t sera - a priori - fortement corrélé à X t, X t,...etc, et donc les estimations par moindres carrés des coe cients j devraient être assez imprécises. Sauf si c est l impact à long terme ³ qui nous intéresse. Soit V b la matrice de covarinace du vecteur b estimateur mco du vecteur = ; ;:::; q. Alors, si b désigne la somme des b j, la variance de b "t t : qx V (b ) = V j= ³ b j + j qx X ³ cov b i;b j : j= i= Si X t j est corrélé positivement à X t k pour tout j 6= k, les termes de covariance dans l expression ci-dessus seront généralement négatifs. ³ Lorsqu ils sont importants et ³ négatifs, comme c est souvent le cas, V (b ) peut être plus petite que la somme des V b j ou même que chaque V b j. Si c est le paramètre qui nous intéresse plutôt que les j individuels, l approche la plus simple consiste à estimer une version reparamétrée de (9) par moindres carrés. Cette version s écrit alors qx Y t = + X t + j (X t j X t ) + " t où = + + ::: + q: j= L avantage de cette écriture est que l écart type de b est disponible immédiatement dans les résultats de la régression. La colinéarité peut être un problème important si l on s intéresse aux j. L approche la plus connue pour résoudre ce problème consiste à employer les retards échelonnés polynomiaux, ou P DL. Ces derniers sont quelquefois appelés retards d Almon, suite à l article d Almon (965). Dans un polynôme de retards échelonnés, les coe cients j de (9) doivent apparaître dans un polynôme de degré d donné. Par, si le polynôme était du second degré, nous aurions j = P (j) = + j + j pour tout j = ;:::;q: () Si q >, on peut noter qu il y aura moins de paramètres i que j et, par conséquent, cette relation impose q contraintes sur les j. L estimation d un modèle soumis à des contraintes imposées par un P DL est assez immédiate.

35 Par exemple, pour estimer (9) soumis à (), nous pouvons remplacer simplement les j par + j + j, c est à dire qx qx qx Y t = + X t j + jx t j + j X t j + " t : () j= j= Ceci est un exemple de modèle PDL(q; ). Un modèlepdl(q;d) doit toujours être tel que d < q. En fait, les contraintes imposées aux j sont simplement des contraintes linéaires. La résolution de () montre que + + = = = ::: et ainsi de suite. On peut réécrire ces contraintes sous la forme R = où la matrice R serait dans ce cas R = : Puisque les contraintes sont linéaires, on peut les tester facilement, par exemple à l aide d un test de Fisher : le modèle contraint est ()), le modèle non contraint est (9), et le nombre de contraintes dans ce cas est q (de façon plus générale, pour un modèle P DL(q;d), il y aura q j contraintes). Ainsi, on peut tester un modèle PDL(q;d) contre un modèle PDL(q;d + ) en utilisant un test de Fisher. La meilleure approche consiste à débutanter par une valeur importante deq et en examinant la détérioration de la qualité de l ajustement du modèle en diminuant sa valeur, sans imposer aucun contrainte sur la forme des retards échelonnés. Une fois que q est déterminé, on peut ensuite déterminer d, en débutant avec une valeur importante et en la réduisant au fur et à mesure. Sargan (98) a proposé un exemple empirique dans Some tests of dynamic speci cation for a single equation. Une variante intéressante a été proposée par Shiller (97) : comme nous l avons vu, les contraintes imposées par un PDL peuvent toujours s écrire sous la forme R = pour une matrice R de dimension r k où r = q d et k est le nombre d éléments de (généralement supérieur à q + ). Shiller suggéra qu au lieu de stipuler que chaque ligne de R soit nulle, il proposa qu elle soit égale à une variable aléatoire d espérance nulle et de variance nie. L un des avantages de cette approche est que d peut être très faible sans pour cela imposer des contraintes trop fortes sur les données. Puisque les estimations n ont pas besoin de se conformer exactement à la forme du polynôme, d = est, dans la pratique, souvent su sante. Ce genre de contrainte est appelé contrainte stochastique, parce qu elle n est pas sensées être véri ée exactement. Les contraintes stochastiques sont très di érentes de n importe quel autre type de contraintes dont nous avons discuté. C est ainsi que la phase d estimation est relativement plus compliquée que dans le cas précédant, et repose le plus souvent sur des résultats de statistique bayésienne. Des compléments sur ce point peuvent être trouvés dans Davison et MacKinnon..5. Le modèle d a justement partiel Un modèle dynamique simple, et très fréquent dans la littérature, est le mo dèle d ajustement partiel, dont l hitoire en économie remonte assez loin puisqu il date de Nerlove (958). Dans le cadre d un modèle de politique économique, supposons que le niveau désiré d une variable économique (Y t ) quelconque. soit (Y t ), qui est supposé être relié à un vecteur de variables explicatives exogènes (X t ) par la relation Y t = X t + " t = Xt B ;:::;Xd j=. d C A + " t Suppons que la variable (Y t ) s ajuste vers (Y t ), la valeur réalisée, à l aide d une relation de la forme Y t Y t = ( ±) (Y t Y t ) + t: Ces deux équations permettent d obtenir la relation suivante Y t = Y t ( ±)Y t + ( ±)X t + ( ±)" t + t = X t + ±Y t + u t ; 4

36 où = ( ±) et u t = ( ±)" t + t. Cet ajustement n est toutefois pertinent que si < ± < et si ± n est pas trop proche de (sinon la vitesse d ajustement est trop faible) De façon itérative, on peut montrer que ce modèle se réécrit +X Y t = ± j [X t j + u t j ] = 4 + X ± j X t j X ± j u t j 5: () j= j= Ainsi ce modèle corrige une défaillance majeure que nous avions déjà remarquée dans les modèles à retards échelonnés: (Y t ) dépend maintenant autant des valeurs retardées de l aléa (" t ) que des valeurs retardées des variables exogènes (X t ). Notons que la solution de () repose sur l hypothèse que j±j <, qui est une condition de stationnarité pour ce modèle. Le modèle d ajustement partiel n est qu un des nombreux modèles économiques que l on peut utiliser pour justi er la prise en compte d un ou de plusieurs retards des variables dépendantes dans la fonction de régression. Dhrymes (97) et Hendry, Pagan, et Sargan (984) discutent de nombreux autres modèles. Si nous ne discuterons pas ici ces modèles, nous nous concentrerons ici sur quelques résultats d ordre général qui peuvent survenir lorsque l on tente de spéci er et d estimer des modèles de régression dynamiques. Un problème qui se manifeste chaque fois que la matrice X contient des variables dépendantes retardées est que l estimation mco par moindres carrés ne produisent pas des estimations sans biais. Ce problème survient parce que X est une matrice stochastique, dont certains éléments sont corrélés à quelques éléments de u. Ainsi on peut en particulier noter que ³ E (X X) X u 6= (X X) X :E (u): Ceci peut se noter sur l exemple très simple des modèles AR (p) : supposons que (Yt) soit un processus AR () Y t = Y t + u t où j j < et (u t ) : j= L estimation mco de est donné par b = P n t= Y ty t P n t= Y t = Pn t= Y t + P n t= u ty t P n t= Y t = + P n Pt= u ty t n t= Y t : () Le second terme dans l expression la plus à droite de () n est pas d espérance nulle, parce que le numérateur et le dénominateur ne sont pas indépendants. Son espérance est d ailleurs assez di cile à déterminer. La conclusion est alors la suivante A retenir Dans tous les modèles pour lesquels il y a des variables dépendantes retardées, l estimateur mco est biaisé Par contre, évidemment, l estimateur b obtenu par mco est convergent. Si l on divise à la fois le numérateur et le dénominateur du terme aléatoire du membre le plus à droite de () par n et si l on prend les limites en probabilité, on obtient p lim n! b = + p lim n! P n t= u ty t p lim n! P n t= Y t.5. Les modèles autorégressifs à retards échelonn és (ADL (p;q)) Ces modèles sont présentés ici dans le cas simple où (Y t ) est la variable à expliquer et (X t ) la variable explicative (ce type de modèles peut toutefois se généraliser à un ensemble plus vaste de variables explicatives ). La forme générale s écrit px qx Y t = + iy t i + j X t j + " t où " t s BB ;¾ ; i= ou bien, en utilisant des polynômes d opérateurs retard, B (L) Y t = + (L)X t + " t. relativement utilisé est le modèle ADL (; ) j= = : Un cas particulier, mais Y t = + Y t + X t + X t + " t : (4) Nous étudierons ici le modèle ADL(; ), la plupart des résultats étant aisément généralisables aux modèles ADL(p;q). Le cas où = = correspond au modèle général de régression linéaire (statique, tel qu il est étudié en cours d économétrie), le cas = = correspond au modèle AR () tel qu il est étudié au début de ce cours, le cas où = et = correspond au modèle en di érences premières...etc. Le modèle ADL(; ) fournit ainsi une alternative naturelle contre laquelle on peut tester n importe lequel de ces cas particuliers. 5

37 Nous allons étudier ici la façon dont (X t ) in uence (Y t ) à long terme, dans un modèle ADL (; ):Sans l aléa (" t ), (X t ) et (Y t ) convergeraient vers des valeurs de long terme (stables ) X et Y telles que Y = + Y + X + X, c est à dire que Y = + + X = + X ; où peut alors être vue comme une élasticité. Toutefois, ce résultat n est pertinent que si j j <, ce qui est une conditon de statibilité pour ce modèle. Une des caractéristiques intéressantes et importantes des modèles ADL est que l on peut les écrire de di érentes façons : par exemple, (4) peut être écrit sous les formes suivantes (toutes équivalentes ) : () Y t = + ( )Y t + X t + X t + " t ; () Y t = + ( )Y t + X t + ( + ) X t + " t ; () Y t = + ( )Y t X t + ( + ) X t + " t ; (4) Y t = + ( ) (Y t X t ) + X t + ( + + )X t + " t ; (5) Yt = + ( ) (Yt Xt ) + + Xt + "t; où est l opérateur des di érences premières, = ( L). Si l on s intéresse à la somme des i, les estimations et les écarts types s obtiennent directement à partir de l estimation par mco de () ou (), et si l on s intéresse à, elles peuvent être obtenues par une estimation par moindres carrés non-linéaires de(5). La plus intéressante de ces spéci cations est sans doute (5), dans laquelle le modèle est écrit sous la forme que l on appelle forme à correction d erreur. Le paramètre apparaît directement dans cette forme du modèle. Et bien que la forme à correction d erreur soit non linéaire, l estimation peut se faire facilement parce que le modèle est simplement un modèle linéaire soumis à une contrainte non linéaire. La di érence entre Yt et Xt mesure l importance de la défaillance de la relation d équilibre de long terme entre (X t ) et (Y t ). On appelle alors souvent le terme ( ) (Y t X t ) qui apparaît dans (5) terme de correction d erreur, et le modèle est alors appelé modèle à correction d erreur, ou ECM. Ce qu il convient de retenir sur cette partie, c est que lorsque l on tente de spéci er des modèles de régression dynamiques, il existe, en général, plusieurs manières a priori de le faire..6 Compléments : modèles multivariés sous SAS Il est possible de modéliser des séries temporelles sous SAS à l aide de la procédurevarmax (Vector AutoRegressive and Moving-Average processes with exogenous regressors ). La synthaxe de cette procédure est la suivante, PROC VARMAX options; BY variables ; CAUSAL group = (variables) group = (variables) ; COINTEG rank = number < options > ; ID variable interval= value < option > ; MODEL dependent variables < = regressors >; OUTPUT < options > ; RESTRICT restrictions ; TEST restrictions ; Les ordres autorégressifs et moyenne-mobile sont déterminés ici, en utilisant les critères usuels (AIC;HQ ou encore SBC). Cette procédure propose également, dans le cas de données non-stationnaires, un certain nombre de tests : des tests de racine unité (ADF ), de cointégration (Johansen ), des tests de causalité (Granger). En n, un grand nombre d options sont possibles (erreurs ARCH, composantes saisonnières, introduction de variables exogènes ) Les tests de cointégration, par exemple, reprennent la même forme que sous Eviews, i.e. pour un modèle de la forme (5), à savoir sans variable exogène..6. Estimation d un modèle V AR Considérons ici le modèle V AR () simulé suivant, Z t = AZ t + u t où µ µ µ µ Xt : :5 Xt "t = + oµu = V (u :6 : t ) = Y t Y t t µ : :5 :5 :5 6

38 que nous simulons sur observations, Le programme permettant de tester les paramètres du modèle V AR sont les suivants, où les séries sont X et Y, PROC VARMAX data=donnes; MODEL X Y / p= noint lagmax=; run ; Parmi les sorties, on notera le deux sorties présentées ci-dessous The VARMAX Procedure Number of Observations Number of Pairwise Missing NoMissN Mean StdDev Variable Type Min Max y DEP y DEP Type of Model VAR() Estimation Method Least Squares Estimation AR Coefficient Estimates Lag Variable y y y y Model Parameter Estimates Estimate Std Error Equation Parameter T Ratio Prob> T Variable y(t) AR y(t-) AR y(t-) y(t) AR y(t-) AR y(t-) Covariance Matrix for the Innovation Variable y y y y Information Criteria AIC) AICC(Corrected HQC(Hannan-Quinn Criterion) -.58 AIC(Akaike Information Criterion) SBC(Schwarz Bayesian Criterion) -.69 FPEC(Final Prediction Error Criterion) Residual Cross-Covariance Matrices Lag Variable y y y y y y.94.6 y y où apparaît la matrice autorégressive à l ordre, relativement proche des valeurs théorique (du modèle simulé), :79 :5848 : :5 b = relativement proche de = ; :5847 :956 :6 : dont les précisions (écart-type de l estimateur par exemple) sont donnés dans le tableau en bas à gauche. La matrice de variance-covariance du bruit est elle aussi relativement bien estimée, :85478 :6495 : :5 b = relativement proche de = : :6495 :877 :5 :5 SAS donne aussi des informations permettant de faire par la suite du choix de modèle, avec les critère AIC corrigé, de Hannan-Quinn, ou AIC et SBC. La sortie ci-dessous permet de véri er si l on n a pas oublié de composante autorégressive dans la régression, puisque SAS teste un modèle de la forme Z t = Z t + Z t + Z t : comme 7

39 le montre le petit tableau en bas à droite, seule la première composante est signi cative. The VARMAX Procedure Residual Cross-Covariance Matrices Lag Variable y y y y Residual Cross-Correlation Matrices Variable y Lag y y y y y y y y y Schematic Representation of Residual Cross Correlations Variable/ Lag y y Portmanteau Test for Residual Cross Correlations To Chi- Prob> Lag Square DF ChiSq The VARMAX Procedure Univariate Model Diagnostic Checks R-square StdDev F Value Variable Prob>F y <. y <. Univariate Model Diagnostic Checks Normality Prob> ARCH Variable DW() ChiSq ChiSq F Value Prob>F y y is > *std error, - is < -*std error,. is between SAS donne alors des prévisions sur un horizon plus ou moins long, sous hypothèse de modèle V AR () ; Univariate Model Diagnostic Checks AR- AR- AR AR-4 Variable F Value Prob>F F Value Prob>F F Value Prob>F F Value Prob>F y y Forecasts Standard 95% Confidence Variable Obs Forecast Error Limits y y Estimation d un modèle à correction d erreur Les sorties ci-dessous correspondent à l estimation d un modèle à correction d erreur, noté V ECM sous SAS. Considérons le modèles VAR() non stationnaire suivant µ µ µ µ µ µ Y;t : : Y;t :8 :7 Y;t ";t Y t = = + + ; :5 : :4 :6 Y ;t Y ;t où le bruit blanc admet pour matrice de variance-covariance = I dont une simulation (à partir de la valeur initiale Y ; = Y ; = ) a l allure suivante Y ;t " ;t 8

40 Remarque Ce processus est en e et non-stationnaire : On retrouve d ailleurs sur le graphique que ces deux séries sont cointégrées. L écriture VECM de ce processus a la forme suivante µ :4 Yt = Yt : Considérons alors le programme SAS suivant µ :8 :7 :4 :6 Yt + "t: PROC VARMAX data=donnes; MODEL X Y / p= noint dftest cointtest=(johansen); run ; Long-Run Parameter BETA Estimates The VARMAX Procedure Number of Observations Number of Pairwise Missing Variable Dummy Dummy y y Variable Type NoMissN Mean StdDev Min Max y DEP y DEP Dickey-Fuller Unit Root Tests Adjustment Coefficient ALPHA Estimates Variable Dummy Dummy y y Variable Type Rho Prob<Rho Tau Prob<Tau y Zero Mean Single Mean Trend y Zero Mean Single Mean Trend Cointegration Rank Test H_: H_: Critical Drift DriftIn Rank=r Rank>r Eigenvalue Trace Value InECM Process NOINT Constant The VARMAX Procedure Type of Model VAR() Estimation Method Least Squares Estimation AR Coefficient Estimates Lag Variable y y y y y y la sortie ci-dessus à gauche montre que chacune des composantes est e ctivement intégrée d ordre, à l aide des tests ADF. Le test de cointégration de Johansen nous conduit à rejeter l hypothèse de rang r = (première ligne du tableau : 7.7>.) et à accepter l hypothèse de rang r = (seconde ligne du tableau :.9<4.4 ). On peut d ailleurs noter que l option NOINT dit qu il n y a pas de constante dans la forme ECM; mais qu il y a un terme constant dans l écriture à long terme. : en conclusion, il existe une relation de cointégration entre Y et Y : La sortie présenté ci-dessus à droite donne également une estimation des termes constants et : b = :787 :984 correspondant à la première colonne de la matrice BETA et b = :4867 :958 correspondant à la seconde ligne de la matrice ALPHA. On retrouve également une estimation des matrices autorégressive, µ :8 :6 :749 :74 : : b = et b :54 :9 =, avec :8 :555 = et :5 : = De plus,on obtient, sur la sortie ci-dessous à gauche, la matrice de variance covariance des résidus, 98:7 4:4 b = relativement proche de = 4:4 : On obtient alors des sorties relativement proches de celles décrites dans le paragraphe précédant. µ :8 :7 :4 :6 ; Model Parameter Estimates Estimate Std Error Equation Parameter T Ratio Prob> T Variable y(t) AR y(t-) AR y(t-) AR y(t-) AR y(t-) y(t) AR y(t-) AR y(t-) AR y(t-) AR y(t-) Covariance Matrix for the Innovation Variable y y y y Information Criteria AICC(Corrected AIC) HQC(Hannan-Quinn Criterion) AIC(Akaike Information Criterion) SBC(Schwarz Bayesian Criterion) 9.69 FPEC(Final Prediction Error Criterion) 65.5 Portmanteau Test for Residual Cross Correlations Chi- Prob> To Lag Square DF ChiSq The VARMAX Procedure Univariate Model Diagnostic Checks R-square StdDev F Value Variable Prob>F y <. y <. Univariate Model Diagnostic Checks Normality Prob> ARCH Variable DW() ChiSq ChiSq F Value Prob>F y y

41 Univariate Model Diagnostic Checks AR- AR- AR AR-4 Variable F Value Prob>F F Value Prob>F F Value Prob>F F Value Prob>F y y The VARMAX Procedure Type of Model VAR() Estimation Method Least Squares Estimation AR Coefficient Estimates Lag Variable y y y y y y Model Parameter Estimates Estimate Std Error Equation Parameter T Ratio Prob> T Variable y(t) AR y(t-) AR y(t-) AR y(t-) AR y(t-) y(t) AR y(t-) AR y(t-) AR y(t-) AR y(t-) Covariance Matrix for the Innovation Variable y y y y Information Criteria AIC) AICC(Corrected HQC(Hannan-Quinn Criterion) AIC(Akaike Information Criterion) SBC(Schwarz Bayesian Criterion) 9.69 FPEC(Final Prediction Error Criterion) 65.5 Estimating the VECM() model with one cointegrating relationship The VARMAX Procedure Type of Model VECM() Estimation Method Maximum Likelihood Estimation Cointegrated Rank AR Coefficient Estimates Variable y DIF_Lag y y y Long-Run Parameter BETA Estimates given RANK= Variable Dummy y. y Adjustment Coefficient ALPHA Estimates given RANK= Variable Dummy y y.667 Parameter ALPHA * BETA' Estimates Variable y y y y Model Parameter Estimates Estimate Std Error Equation Parameter T Ratio Prob> T Variable D_y(t) AR y(t-) AR y(t-) AR D_y(t-) AR D_y(t-) D_y(t) AR y(t-) AR y(t-) Estimating the VECM() model with one cointegrating relationship The VARMAX Procedure Model Parameter Estimates Estimate Std Error Equation Parameter T Ratio Prob> T Variable D_y(t) AR D_y(t-) AR D_y(t-) Covariance Matrix for the Innovation Variable y y y y Information Criteria AIC) AICC(Corrected 9.7 HQC(Hannan-Quinn Criterion) AIC(Akaike Information Criterion) SBC(Schwarz Bayesian Criterion) FPEC(Final Prediction Error Criterion) 7.4 Residual Cross-Covariance Matrices Lag Variable y y y y y y y y y y y y y y y y y y The VARMAX Procedure Schematic Representation of Residual Cross Correlations Variable/ Lag y y is > *std error, - is < -*std error,. is between Portmanteau Test for Residual Cross Correlations To Chi- Prob> Lag Square DF ChiSq Univariate Model Diagnostic Checks R-square StdDev F Value Variable Prob>F y <. y <. 4

42 Univariate Model Diagnostic Checks Normality Prob> ARCH Variable DW() ChiSq ChiSq F Value Prob>F y y Estimating the VECM() model with one cointegrating relationship The VARMAX Procedure Univariate Model Diagnostic Checks AR- AR- AR AR-4 Variable F Value Prob>F F Value Prob>F F Value Prob>F F Value Prob>F y y Infinite Order AR Representation Variable y Lag y y y y y Conseils bibliographiques ² GOURIEROUX,C. & MONFORT,A. (995). Séries temporelles et modèles dynamiques. Economica. ² LUTKEPOHL,H. (99). Introduction to multiple time series analysis. Springer ² DAVISON,R. & MacKINNON (99) Estimation and Inference in Econometrics. Oxford University Press, New York 4

43 Les modèlesarch - Autorégressifs Conditionellement Hétéroscédastiques Les modèles ARCH ont été introduits par Engle en 98, puis généralisés en modèles GARCH en 986 par Bollerslev. L analogie entre les modèles ARCH en temps discret et les modèles de di usion en temps continu a été établie par Nelsen en 99. Ce analogie a permis, en particulier, le développement des modèles à volatilité stochastique. Un des apports des modèles ARCH était de mieux s ajuster aux données (en particulier aux données nancières ) que ne le faisaient les modèles ARMA. Considérons la série suivante, correspondant au rendement de l indice CAC Series: CAC4 Sample 5 Observations 4 Mean.644 Median.597 Maximum.745 Minimum -.79 Std. Dev..6 Skewness Kurtosis Jarque-Bera Probability. CAC4 avec à droite, l histogramme, correspondant à la distribution marginale de r t. La première constatation que l on peut faire est que la série n est pas gaussienne, et, en particulier, a des queues de distribution trop épaisses (kurtosis supérieure à ). La seconde est que la série est stationnaire, mais que l on observe quand même des périodes de forte variation, ou de forte volatilité. Si l on considère un processus AR, avec un bruit blanc gaussien, il est relativement di cile de modéliser ce genre de comportement Series: ARMA Sample Observations Mean.87 Median.7485 Maximum 4.46 Minimum Std. Dev Skewness -.67 Kurtosis.79 Jarque-Bera.7487 Probability.586 ARMA En e et, le processus AR () est un processus gaussien : les queues de distribution sont moins épaisses que les queues observées sur la variation de l indice CAC4, et on n observe pas de période de haute volatilité. Les modèles ARCH 4

44 (simulé ci-dessous) permettent, eux, de mieux prendre en compte ce genre de comportement : Series: ARCH Sample Observations Mean Median.85 Maximum Minimum Std. Dev..676 Skewness Kurtosis Jarque-Bera Probability. ARCH Les queues de distribution peuvent être plus épaisses que celles des lois normales (kurtosis de 6:5 avec les paramètres choisis ), et on observe, comme sur les données empiriques, des zones de forte volatilité. Ces modèles non-linéaires permettent d avoir des propriétés que n avaient pas les modèles linéaires (ARMA), et permettent ainsi de modéliser de façon plus réaliste un grand nombre de données, en particulier les données nancières.. Notions de stationnarité et notions de linéarité Dé nition 6 Stationnarité au second ordre - Un processus (Y t ) est dit stationnaire au second ordre si - la moyenne du processus est constante : E (Y t ) = m pour tout t Z, - les autocovariances ne dépendent que de la di érence entre les observations : cov (X t ;X s ) = (jt sj); Cette dernière propriété implique en particulier que la variance de (Y t ) est constante en fonction du temps : V (Y t ) = ¾. Dé nition 7 Stationnarité au sens fort - Un processus (Y t ) est dit stationnaire au sens fort si quel que soit n, t ;:::;t n et h, on a l égalité entre les lois jointes L (Y t ;:::;Y tn ) = L (Y t +h;:::;y tn +h) Théorème Théorème de Wold - Soit (Y t ) un processus stationnaire au second ordre. Alors (Y t ) peut s écrire Y t = c + X µ i " t i où " t est un bruit blanc au second ordre. i= L écriture est ici plus simple que dans le théorème (??) puisque l on impose plus ici de contraintes pour avoir unicité de la décomposition. Théorème Théorème de Volterra - Soit (Y t ) un processus stationnaire au sens fort. Alors (Y t ) peut s écrire Y t = c + X µ i " t i + i= X i;j= µ ij " t i " t j + X i;j;k=. Préséntation des modèles ARC H Soit (X t ) un processus AR (), tel que X t = X t + " t où " t s N ;¾, alors V (X t ) = µ ijk " t i " t j " t k + ::: où " t est un bruit blanc fort gaussien. ¾ et V (X t jx t ) = ¾ ; c est à dire que la variance, et la variance conditionnelle, ne dépendent pas du temps. Soit (X t ) un processus ARCH (), tel que X t = " t q + X t où " t s N ;¾, alors V (X t jx t ) = + X t ¾ : 4

45 Dé nition 8 On dit que le processus (X t ) suit un processus ARCH (p) s il est dé ni par une équation de la forme X t = " t p ht où h t = + px i Xt i; où (" t ) est un bruit blanc gausien, centré, de variance ¾, soit " t s N ;¾. Ceci peut aussi s écrire X t = " t " + i= # px i Xt i : Ce n est plus le processus (X t ) que l on cherche à modéliser, mais le processus Xt. Exemple Les graphiques montrent l évolution des processus Xt dans le cas d un modèle ARMA à gauche, d un modèle ARCH () au centre, et du rendement de l indice CAC4 à droite i= ARMA ARCH CAC4 Exemple 4 Les graphiques ci-dessous permettent de comparer un processus AR () et un processus ARCH () ARCH AR ARCH AR Remarque Les variables X t sont non-corrélées, mais ne sont pas indépendantes... Processus ARCH () Dé nition 9 Le processus (X t ) est un processus ARCH () si X t = " t q + X t où (" t) est un bruit blanc gaussien, " t s N ;¾. On notera générallement h t = + X t, et donc X t = p h t :" t. Dans le cas où (" t ) est un bruit blanc fort (" t i:i:d:) gaussien, alors (" t ) peut être vu comme une di érence de martingale. Pour que le processus (X t ) soit stationnaire au second ordre, la variance marginale de (X t ) soit être constante. Or V (X t ) = + V (X t ); c est à dire que l on doit avoir <, et donc V (X t ) = = ( ). Propriété 4 (X t ) est stationnaire au second ordre si > et <. 44

46 On peut alors noter que pour tout h ; E ³X t jx t h = ; ³ puisque E ³X t jx t h = E E ³X t jx t jx t h = E ³jX t h =. De plus, V ³X t jx t h = h + X t h et V (X t ) = : (5) Aussi, V ³X t jx t h V (X t ) = h X t h V (X t h ) : Comme nous l avions vu en introduction, les modèles ARCH permettent d avoir des processus avec des queues de distribution plus épaisses que les processus ARMA: La kurtosis conditionnelle est obtenue à l aide de la relation E ³Xt 4 jx t = + Xt ; et la kurtosis à la date t est E Xt 4 = + + E Xt 4 ( + ) = ( ) ( ) : La condition d existence du moment d ordre 4 est <, et on en déduit alors l expression de la kurtosis = E Xt 4 E (X = t ) > (cas de la loi normale). Les queues de la distribution marginale d un processus ARCH () sont donc plus épaisses que pour un processus gaussien (on parlera de distribution leptokurtique)... Processus ARCH (p) Les modèles ARCH (p) sont des extensions des modèles ARCH (): Les modèles ARCH () étaient et les modèles ARCH (p) font intervenir plusieurs retards, X t = " t h t où h t = + X t et " t s N ;¾ ; X t = " t h t où h t = + px i Xt i et " t s N ;¾ : i= La volatilité de la date t est alors fonction des carrés des écarts à la moyenne observés dans le passé proche. Si les coe cients i sont tous positifs (et assez grands), il y a une persistance des niveaux de volatilité : on observe des périodes de forte volatilité suivies de période de faible volatilité. On peut alors écrire.. Processus GARC H (p;q) ³ E ³X t jx t = ; et E Xt jx t = h t = + px i Xt i : Ces modèles ont été introduits par Bollerslev en 986, inspirés de la démarche de Box et Jenkins, avec une dynamique autorégressive, px qx X t = " t h t où h t = + i Xt i + jh t j et " t s N ;¾ : (6) i= On peut noter tout d abord que, sous cette forme, les coe cients p et q ne sont pas analogues à ceux des modèles ARMA : en particulier, q correspond au caractère autorégressif du processus h t. On a alors j= ³ E ³X t jx t = et E Xt jx t = h t = + i= px qx i Xt i + jh t j : i= i= 45

47 Propriété 5 Si le processus GARC H (p;q) est stationnaire au second ordre, alors nécessairement px i + i= qx j < ; (7) j= et dans ce cas, la variance de X t est V (X t ) = P p i= i + P q j= : j P p Dans le cas où (7) est saturée, i.e. i= i + P q j= j =, on dira alors que le processus GARCH (p;q) est intégré, et on parlera de processus IGARCH (p;q). Cette dénomination peut se justi er par l existance d une racine unité dans la composante autorégressive de (6). Toutefois, cette analogie avec l extention des modèle ARMA aux modèles ARIMA peut être trompeuse : un processus ARIMA n est pas stationnaire (au second ordre ou au sens fort ) alors qu il existe une solution stationnaire (au sens fort ) d un modèle IGARC H (qui admettra une variance in nie d après la propriété ci-dessus). Dans le cas d un processus GARCH (; ), il est possible de montrer que la kurtosis de X t est de la forme. Modèles avec erreurs ARCH ( + ) (X t ) = ( + ) (¹ 4 ) (" t) où ¹ 4 = E " 4 t : Nous allons considérons un processus (X t ) dont la dynamique est régie par un processus de type AR () : X t = ½X t + " t Dans la partie sur les processus ARIMA, nous avions étudier le cas où (" t ) correspondait à un bruit blanc, c est à dire non-autocorrélé avec son passé... Erreurs ARC H () Nous allons regarder les propriétés de (Y t ), processus autorégressif, dans le cas où (" t ) n est plus un bruit blanc, en particulier q lorsque (" t ) est un processus AR (), " t = µ" t + t, et lorsque (" t ) est un processus ARCH (), " t = t + " t. Le premier cas correspond aux modèles ARMA, et le second correspond aux modèles autorégressifs à erreurs ARCH. Considérons le modèle Y t = ¹ + ÁY t + " t L espérance conditionnelle de (Y t ) est alors et sa variance conditionelle, en utilisant (5) V où jáj < et " t satisfait 8 < : () : E ³" t j" t () : V E ³Y t jy t h = ¹ + ÁE ³Y t jy t h = ¹ Áh Á + ÁY t h; ³Y t jy t = c " Á h Á Á h h Á # = ³" t j" t = c + " t : + h Á h Á " t h ; qui n est pas constante (puisqu elle dépend de " t h ). Dans le cas d erreurs ARCH, la condition () : E ³" t j" t = signi e que (" t ) est un bruit blanc faible qui satisfait la condition de di érence de martingale, et dont la variance conditionelle V ³" t j" t suit un processus ARCH () : " t = c + " t + t, où ( t ) est un bruit blanc gaussien. Les propriétés du processus d innovation (" t) sont alors les suivantes, Propriété 6 (i) Le processus ("t) est orthogonal aux valeurs passées, quel que soit le retard : E ("tj"t h) = pour tout h (ii) La propriété d orthogonalité implique que les corrélations conditionelles sont nulles : cov (" t ;" t+k j" t h ) =. 46

48 Preuve. Cette seconde propriété s obtient de la façon suivante cov (" t ;" t+k j" t h ) = E (" t " t+k j" t h ) E (" t j" t h ) E (" t+k j" t h ) = E (" t " t+k j" t h ) = E ((" t " t+k j" t+k ) j" t h ) = E (" t E (" t+k j" t+k )j" t h ) = : Il y a donc absence de corrélation entre les valeurs présentes et futures du processus, quels que soient les retards h et k: Mais si la variance conditionelle de " t n est pas constante, la variance (non conditionnelle) est constante : " t = c + " t + t = ::: + c ::: + h + h " t h + t + t + ::: + h t h+ ; et donc alors que V (" t j" t h ) = E " tj" t h = c h ¾ = V (" t ) = E (V (" t j" t h )) = + h " t h; c : Exemple 5 Le graphique ci-dessous correspond à la simulation d un tel processus, avec à droite son autocorrélogramme, Y L autocorrélogramme suggère de tester un modèle autorégressif d ordre sur Y. Toutefois, si l on étudie la distribution des résidus du modèle Y t = ÁY t + " t, l hypothèse de normalité est clairement rejetée LS // Dependent Variable is Y Sample: Included observations: 999 after adjusting endpoints Convergence achieved after iterations Variable Coefficient Std. Error T-Statistic Prob. AR() R-squared.6958 Mean dependent var Adjusted R-squared.6958 S.D. dependent var.58 S.E. of regression Akaike info criterion Sum squared resid Schwartz criterion.8495 Log likelihood Durbin-Watson stat.6494 Inverted AR Roots Series: Residuals Sample Observations 999 Mean Median.57 Maximum Minimum Std. Dev Skewness -.44 Kurtosis Jarque-Bera Probability. L autocorrélogramme ne permet pas de rejeter l hypothèse de bruit blanc, mais l autocorrélogramme ne permet de ne mesurer qu une dépendence linéaire entre " t et " t h. L idée peut alors être de tester le caractère ARCH des résidus 47

49 obtenus, pour expliquer cette forte kurtosis, ARCH Test: F-statistic Probability. Obs*R-squared Probability. Test Equation: LS // Dependent Variable is RESID^ Sample: Included observations: 998 after adjusting endpoints Variable Coefficient Std. Error T-Statistic Prob. C RESID^(-) R-squared.86 Mean dependent var.46 Adjusted R-squared.885 S.D. dependent var S.E. of regression Akaike info criterion. Sum squared resid Schwartz criterion.767 Log likelihood F-statistic Durbin -Watson stat Prob (F-statistic). Ce test est alors clairement signi catif, et l on valide l hypothèse de modèle ARCH pour les résidus. Le modèle est alors r Y t = :794 4 Y t + " t où " t = t : :469 (:6) (:6) (:) " t et où ( t) est un bruit blanc gaussien... Erreurs ARC H (p) On considère ici un modèle plus général, sur le processus (Y t ), de la forme Y t = AX t + " t où jáj < et (" t ) satisfait " t = h t t avec ( t) bruit blanc, et où (X t ) est un vecteur multivarié (modèle de régression classique : variables exogènes), ou composé de retards de Y t (modèle ARMA)) h t = + " t + " t + ::: + p " t p = + A (L)" t; en posant A (L) = L + L + ::: + p L p. Nous allons tester ici l hypothèse H : = = ::: = p =, contre l hypothèse alternative où il existe i tel que i 6=. La procédure pour tester cette absence d e et ARCH est fondée soit sur un test de Fisher, soit sur un test LM du multiplicateur de Lagrange. La mise en place de ces tests se fait de la façon suivante, () calcul des résidus/erreurs du modèles de régression : b" t ; () calcul du carré des erreurs b" t ; () à p xé, on e ectue la régression linéaire de b" t sur son passé b" t ;:::;b" t p : b" t = + px i b" t i; (4) calcul de la statistique LM, LM = nr où n est le nombre d observations utilisées lors de la régression, et R le coe cient de la régression. Si LM > Â (p), on rejette H : l erreur est alors modélisée par un processus ARCH (p) :.. Remarque : test de racine unité en présence d erreurs ARC H Comme nous l avions vu dans la partie (?????), les tests de Dickey-Fuller permet de tester l hypothèse de présence ou non de racine unité : le test de régression s écrit alors i= X t = ÁX t + t dont l estimation est X t = báx t + b t; (8) (ou, de façon plus générale encore X t = ÁX t + + t + t). Il est alors possible de montrer que sous l hypothèse (H ) : Á =, dans le cadre du modèle (8) 5 la statistique de Student du test s écrit bt Á= = b P Á ³ où bá = PX Xt t ; s = i XhX b¾ b t báx t Á t T ³ et b¾ b s Á = P ; X t 5 Dans le cas plus compliqué avec tendance et constante (i.e.xt =ÁXt + + t+ t), la distribution asymptotique est alors un peu plus compliquée : cf article de Stock (994) dans le Handbook of Econometrics. 48

50 ³ avec b¾ bá écart type (par moindre carrés) de l estimateur de Á, et sa distribution est donnée par bt Á= = b Á ³ L! b¾ b Á R W tdw t i = 6= N (; ) où (W t ) est un brownien standard sur [; ]: h R W t dt Il est possible de montrer que ces tests, bien que développés en théorie sur des modèles de type AR restent asymptotiquement robustes en présence d e et ARCH sur les résidus 6..4 Estimation et prévision.4. Estimation des paramètres d un modèles ARC H L estimation peut se faire en utilisant des techniques inspirées du maximum de vraissemblance. La log-vraissemblance à la date t est de la forme L t = constante logh t " th t ; et la log-vraissemblance totale du modèle s écrit L = constante nx logh t t= nx t= " th t : La méthode pour estimer les paramètres est alors la suivante () calcul des résidus/erreurs du modèles de régression : b" t ; () calcul du carré des erreurs b" t ; et on e ectue la régression linéaire de b" t sur son passé b" t ;:::;b" t p : b" t = + px i b" t i + u t ; i= () on considère que la variance de l erreur peut être approchée par h t, et on estime de nouveau les paramètres du modèle par moindres carrés généralisés, avec comme facteur de pondération! = =h t et = diag ht : b = b" b" b" h et px h t = b + b i b" t i + u t : i= Par rapport aux modèles linéaire, on a une grande di érence quant à la variance de l erreur du modèle, qui va être fonction de la variance résiduelle b¾, alors que pour les modèles ARCH, elle sera fonction de h t : la variance de l erreur n est alors plus constante (ce qui va in uencer, par exemple, les intervalles de con ance lors des prévisons ). Plus rigoureusement, l estimation des paramètre dans les modèles ARCH se fait en utilisant l estimateur du pseudo maximum de vraisemblance, sous l hypothèse de loi conditionelle normale.aussi, so l t (y;µ) désigne la vraisemblance de Y t, conditionelle au passé, la vraisemblance de Y ;:::;Y T, conditionelle à Y est alors L (y;µ) = TY l t (y;µ) et on pose b µ = arg max logl (y;µ) : t= En fait, cet estimateur est convergent, même si la loi conditionelle n est pas normale. Cet estimateur est également asymptotiquement normal.4. La procédure de Diebold (987) : test d autocorrélation en présence d e et ARC H Considérons une série (X t ) de moyenne nulle. L autocorrélation empirique d ordre h est donnée par b (h) b½ (h) = b () où b (h) = T h TX t=h+ X t X t h : 6 On pourra consulter en particulier Kim et Schmidt(99) Unit root with conditional heteroskedasticity, dans Journal of Econometrics. 49

51 Sous l hypothèse (H ) où (X t ) est un bruit blanc, b½ (h) est asymptotiquement normalement distribuée, de moyenne nulle et de variance V (b½ (h)) équivalente à =T. Cependant en présence d hétéroscédasticité, la variance de l autocorrélation n est plus en =T mais est égale à V (c½ X (h)) = + X (h) ; T ¾ 4 où X (h) est l autocovariance du processus p Xt. Aussi, l intervalle de con ance de Bartlett ( :96= T à 95%) s avère trop étroit en présence d e et ARCH. Et comme ces deux paramètres, X (h) et ¾, sont facilement estimables, une estimation de la variance des autocorrélations peut être obtenue comme bv (c½ X (h)) = + b X (h) T b¾ 4 ; q et l intervalle de con ance corrigé des e ets ARCH devient, à 95%, :96 bv (c½ X (h)). La statistique de Box-Pierce corrigée est alors donnée par kx Q ¾ 4 (k) = T ¾ c½ + b X (h) X (h); qui est asymptotiquement distribuée comme une loi du chi-deux à k degrés de liberté..4. Prévision et intervalle de con ance h= Nous allons ici étudier la prévision d une variable, modélisée par un modèle ARMA dont les erreurs suivent un bruit blanc ou un modèle ARCH. Considèrons par un modèle AR () X t = ¹ + ½X t + " t : Compte tenu de cette écriture, à la date t +, X t+ est donnée par X t+ = ¹ + ½X t + " t+, dont la prévision, faite à la date t est bx t () = EL (X t+ jx t ;X t ;:::;" t ;" t ;:::) = ¹ + ½X t + EL (" t+ j" t ;" t ;:::) : Dans le cas où (" t ) est un bruit blanc, " t+ est orthogonal à son passé, et donc EL (" t+ j" t ;" t ;:::) = et donc bx t () = ¹ + ½X t. De façon itérative, on aura, pour tout h >, ½h bx t (h) = ¹ + ½ bx t (h ) = ¹ ½ + ½h X t ; dont l erreur de prévision est e h = X t+h b X t (h) = " t+h +½" t+h +::+½ h " t+. On peut noter que b X t (h)! ¹= ( ½) quand h!. L intervalle de prévision, au seuil, est de la forme X (h);x (h) de telle sorte que P e h X (h);x (h) ³ h = P X t+h X bt (h) + X (h) ; bx t (h) + X (h)i = : Dans le cas où (" t ).est un bruit blanc fort gaussien, alorsn pour un horizon de, on peut noter aisément que e = Xt+ b Xt () = "t+ s N ;¾, et donc, un intervalle de con ance à 95% pour la valeur en t + sera h b X t () :96¾; bx t () + :96¾i ; et plus générallement, e h = X t+h bx t (h) = " t+h + ½" t+h + :: + ½ h " t+ s N ; + ½ + ::: + ½ (h ) ¾ et donc, un intervalle de con ance à 95% pour la valeur en t + h sera h bxt (h) :96¾ p + ½ + ::: + ½ (h ) ; b X t (h) + :96¾ p + ½ + ::: + ½ (h ) i : Modèle AR () ARCH () Supposons que (" t ) ne soit plus un bruit blanc (indépendant de son passé) mais que le bruit soit ARCH (), c est à dire que " t = tp ht où h t = + " t, où on supposera que ( t) est un bruit blanc que l on supposera de variance unitaire, indépendant du passé de (" t ), c est à dire t indépendant de " t ;" t ;::: On notera tout d abord que E (" t ) = pour tout t, que la corrélation entre deux dates est donnée par la relation µ q q µq q E (" t " s ) = E t + " t : s + " s = E ( t) E + " t : s + " s = pour s < t; 5

52 et que la variance à la date t véri e ¾ = E " t = E t + " t = E t E + " t = + E " t = + ¾ ; c est à dire ¾ = = ( ). Pour obtenir un intervalle de con ance pour X t+h, rajoutons une hypothèse supplémentaire de normalité du bruit ( t). Dans ce cas, l intervalle de con ance, à 95%, pour la valeur à la date t + est donné par q q bx t () :96¾ + " t; bx t () + :96¾ + " t : Aussi, dans le cas d un modèle ARCH, la taille de l intervalle de con ance dépend de la valeur " t. Modèle AR () GARCH (; ) On considère ici un modèle AR () GARCH (; ), i.e. un processus (X t ) véri ant une relation de type AR () -sans constante - et (" t ) suit un modèle GARCH (;), 8 8 < < : X t = ½X t + " t " t = tp ht h t =! + " t + h t où! >, ; et + et j½j <. Alors, pour tout h ; ou : X t = ½X t + " t " t = t¾ t ¾ t =! + " t + ¾ t ; X t+h = " t+h + ½" t+h + ::: + ½ h " t + ½ h+ X t ; de telle sorte que E (X t+h jx t ) = ½ h+ X t (ou même, plus généralement, E ³X t+h jx t = ½ h+ X t ). De plus, où V ³" t j" t = ¾ t et pour i, V ³" t+i j" t V ³X t+h jx t = hx ½ (h i) V i= ³" t+i j" t ; = E ³¾ t+ij" t =! + ( + ) E ³¾ t+i j" t =! ³ i + ::: + ( + ) + ( + ) i ¾ ( + )i t =! ( + ) + ( + )i ¾ t; de telle sorte que V ³X t+h jx t! ½ (h+) = ( ( + )) ( ½ ) + ¾! t ½(h+) ( + ) h+ ( + ) ½ ( + ) =! ½ (h+) ( ½ ) + ¾! t (h + )½ h si ½ = + : ( + ) si ½ 6= + On peut d ailleurs noter que si h!, on retrouve la variance non conditionelle de X t, i.e. ³ lim V X t+h jx t = V (X t ) = V (" t) h! ½ : Exemple 6 Les graphiques ci-dessous donnent les intervalles de con ance à 95%, à horizon, et 5 respectivement, pour des processus GARCH (; ) simulé, où! =, = : et = :8 (avec un bruit t gaussien, t» N (; )) Les graphiques ci-dessous correspondent au cas! =, = :6 et = : (avec un bruit t gaussien, t» N (; )) En n, pour rappels, les graphiques ci-dessous correspondent à des intervalles de con ance associés à des bruits blancs, pour les mêmes horizons 5

53 .5 Modèles ARC H et nance La série temporelle ci-dessous représente l indice N ASDAQ, avec le rendement de l indice au jour le jour, et le logarithme de l indice (en haut ). De même que pour la série du CAC 4, on retrouve là aussi des périodes de forte volatilité sur le marché, comportement qui ne peut être pris en compte à l aide de modèles ARMA, RDMNT_NASDAQ LOG_NASDAQ Notons (p t ) le prix d un titre à la date t, et (r t ) le logarithme du rendement, i.e. r t = log (p t ) log (p t ) = log ( + R t ) où R t correspond à la variation relative des prix, i.e. R t = [R t R t ]=R t. Ces deux séries sont d ailleurs sans unité, ce qui facilite la comparaison entre elles. Les propriétés suivantes ont été notées sur la plupart des séries nancières, () Les processus (p t ) sont non-stationnaires : les trajectoires de prix sont générallement proches d une marche aléatoire sans terme constant. Et, en revanche, les séries des rendements ont des trajectoires compatibles avec la stationnarité au second ordre. () Autocorrélations des carrés des variations des prix : les faibles autocorrélations de la série (r t ) la rendent proche d un bruit blanc 7 (sauf pour des rendements dé nis sur des périodes très courtes, de l ordre d une vingtaine de minutes ) Néanmois, la série rt est souvent fortement corrélée. Ce qui n est pas compatible avec une hypothèse de bruit blanc. () Queues de distribution épaisses : les distributions empiriques des séries des rendements, on s aperçoit que l hypothèse de normalité est rejetée. En particulier, au niveau des queues, la décroissance est générallement plus faible que dans le cas gaussien, i.e. en exp x =. On parle alors de distribution leptokurtique. (4) Volatility clustering (regroupement des extrêmes ) : empiriquement, de fortes valeurs, ou de fortes variations, tendent à être suivies par d autres grandes variations. (5) Queues épaisses conditionelles : souvent, même une fois corrigées de la volatility clustering (en utilisant des modèles de type GARCH, par exemple ), les séries ont des résidus possédant encore des queues épaisses (même si cela est moins important que la distribution non conditionelle, i.e. la distribution des rendements). (6) E et de levier : cette propriété, notée par Brock en 976 repose sur l observation du fait qu il existe une asymétrie entre l impact des valeurs passées positives et des valeurs passées négatives. Les baisses de cours tendent à provoquer un accroissement de la volatilité supérieure à celui induit par une hausse du cours, de même amplitude. (7) Saisonnalité : la volatilité tend à augmenter lorsque les marchés ferment (week end ou jours fériés). On parle alors d accumulation d information. (8) Asymétrie perte/gain : ormis dans le cas des taux de change, il y a généralement asymétrie de la distribution : il y a plus de mouvements forts à la baisse qu à la hausse. Toutes ces propriétés sont di ciles à obtenir à l aide de modèles ARMA classiques. Les modèles ARCH sont apparus à une époque où se développaient les modèles en temps continu, en particulier pour la valorisation de produits dérivés. Mais si cette valorisation a donné de bons résultats théoriques, l estimation, à partir de données discrètes s est avérée plus di cile : les modèles les plus simples (brownien géométrique, modèle d Ornstein-Uhlenbeck ou modèle de Cox-Ingersoll-Ross ) étaient généralement très mal spéci és. Les modèles ARCH en revanche se prêtaient bien à l estimation, et fournissaient de bons ajustements, même si la valorisation des produits dérivés a posé quelques problèmes (le temps discret impliquant une incomplétude du marché). Toutefois, ces modèles 7 L hypothèse usuelle en théorie de la nance consistait e ectivement à supposer que les processus de rendements sont i.i.d. et de variance nie. Cette hypothèse d indépendance n est souvent retenue qu en première approximation. Un hypothèse plus forte est aussi souvent faite sur le caractère gaussien de ces rendements. Ces hypothèses se traduisent, dans le cas continu, à des modèles de la formedrt =¹dt+¾dWt où (W t ) est un mouvement brownien standard. 5

54 avaient quelques faiblesses, d où le grands nombre de modèles généralisant encore davantage ces modèles : IGARCH, TARCH, QARCH, SWARCH, ACD GARCH...etc..5. Liens entre temps continu et temps discret Il est possible de passer du temps continu en temps discret en considérant des petites variations de temps. Ce passage est en particulier utile si l on souhaite faire de l estimation de modèle. Soit (X t ) un processus d Ito en temps continu, i.e. dx t = ¹ (X t ;t) dt + ¾ (X t ;t) dw t où (W t ) est un brownien standard, (9) et soit g (x;t) une application di érentiable en x et en t, alors, si Y t = g (X t ;t), le lemme d Ito permet d écrire dy t = La version discrète d un processus d Ito ¹ (X ¾ (X t ;t) ¾ (X ;t;t) dw t : X t = X t+ X t = ¹ (X t ;t) + ¾ (X t ;t) " t : Supposons que (X t ) suit un browien géométrique, i.e. ¹ et ¾ sont des constantes dans (9), où (X t ) correspond, par exemple, au prix d une action, où à un niveau d indice. Soit alors (Y t ) le log-rendement associé, i.e. Y t = logx t logx t pour t = ;:::;T (en supposant (X t ) observé à la date ), soit X t = X t : exp (Y t ). Nous noterons le temps entre les deux observations, exprimé en année 8. Puisque (X t ) suit un brownien géométrique, alors à chaque date, Y t est distribué suivant une loi gaussienne, de moyenne ¹ ¾ = et de variance ¾, et cov (Y t ;Y t+h ) = pour h 6=. Notons ¹ Y = ¹ ¾ = et ¾ Y = ¾ ;,Y et SY les estimateurs empiriques de ¹ Y et de ¾Y, i.e. Y = T v TX u Y i et S Y = t TX Yi Y T i= (qui sont alors des estimateurs consistants de ¹ Y et de ¾). On peut alors estimer ¹ et ¾ par i= b¹ = Y + S Y et b¾ = S Y p On peut également noter que les rendements sont supposés gaussiens, et en particulier, on aura alors, pour h > logx t+h logx t ~N µ ¹ ¾ h;¾ h : Exemple 7 Considérons le rendement de l action IBM au cours de l année 998 [A INSERER] L autocorrélogramme montre que la série des log-rendements est non-autocorrélées (cf statistique de Ljung Box par exemple). Supposons que le prix de l action soit modélisé par un brownien géométrique, i.e. dx t = ¹dt +¾dW t, alors, en utilisant le fait que Y = :76 et S Y = :95 (cf statistiques ci-dessous), les paramètres ¹ et ¾ peut estimés par b¹ = Y + S Y ¼ :698 et b¾ = S Y p ¼ :4 C est à dire que le rendement espéré annuel est de 6:98%, avec une volatilité de :4%, en 998. On peut toutefois noter que l hypothèse de normalisé n est pas valide. 8 On prendra = = pour des données mensuelles, ou = =5 pour des données journalières (si l on ne prend en compte que les jours ouvrés). 5

55 .5. Modèles avec variance sto chastique/déterministe en temps continu Dans le modèle initial proposé par Black et Scholes, le processus de prix des actifs (risqués) est modélisé par un processus d Ito, i.e. ds t = ¹S t + ¾S t db t où B t est un mouvement brownien standard, et où ¹ et ¾ sont des constantes. Toutefois, cette hypthèse de constance de ¾ s est vite avérée, en pratique, inexacte 9. Une alternative a été de supposer que cette volatilité pouvait être, elle même, stochastique, dont la dynamique pourrait également être modélisée par un processus stochastique, ½ dst = S t [¹ t dt + ¾ t dw t ] d¾ t = b(t;¾ t )dt + (t;¾ t )db t :.5. Modèles avec variance sto chastique/déterministe en temps discret Les modèles introduits dans la littérature économique se présentaient gébéralement sous forme multiplicative, " t = ¾ t t où ( t) est un processus i.i.d. et (¾ t ) une suitede variables aléatoires telles que - ¾ t soit mesurable par rapport à la ltration engendrée par le passé de " t - et éventuellement le présent - et par le passé d un processus sous-jacent inobservable (v t ), - ¾ t et t soient des variables indépendantes, - ¾ t > pour tout t: La variable aléatoire ¾ t est appelée volatilité de " t. Il est possible de noter que E (" t ) = E (¾ t t) = et cov (" t ;" t h ) = pour tout h > : (" t ) est alors uin bruit blanc, au sens faible. Mais pas au sens fort. Plusieurs types de modèles existent alors suivant la spéci cation retenue pour (¾ t ) () les processus conditionellement hétéroscédastiques, de type GARCH pour lesquels la ltration F t est engendrée par le passé de " t. La volatilité est alors une fonction déterministe du passé de " t. Les modèles GARCH standard sont caractérisés par une volatilité fonction a ne des valeurs passées de " t. () les processus à volatilié stochastique, pour lesquels la ltration F t est engendrée par le passé de v t. La volatilité est alors un processus. Le modèle le plus simple et le plus utilisé consiste à supposer que le processus (log¾ t ) suit un AR (), i.e. log¾t =! + ½ log¾t + vt. () les processus à changement de régime, pour lesquels on suppose alors génrérallement que le processus sous-jacent (v t ) est modélisable par une chaîne de Markov à espace d état ni. Exemple 8 ARCH - L idée est ici de modéliser la volatilité à l aide d un processus ARCH. Si l on note S i le prix d un actif à la date i, où i = ; ;:::;n, et u i le log-rendement associé, u i = log (S i ) log (S i ) pour i = ;:::;n, on suppose que l on peut écrire la volatilité ¾ n sous la forme n ¾ n = u n + u n + :: + n u = X i u n i ; où les variables i correspondent au poids donné à la n ième observation, de telle sorte que leur somme fasse. On obtient ainsi un modèle ARCH (n): Un cas un peu plus général consiste à considérer un modèle avec constante, ¾ n = V + u n + u n + :: + n u où V correspond à une moyenne, à long terme de la volatilité. Exemple 9 EWMA (Exponentially Weighted Movering Average) - Un cas particulier du cas précédant consiste à prendre des poids décroissantes de façon exponentielle, i.e. i = i où < <, d telle sorte que l équation ci-dessus se réécrit n ¾ n = ¾ n + ( )u n = ( ) X i u n i + n¾ : Exemple GARCH - Dans le cas des modèles GARCH (; ), on considère des modèles de la forme i= i= ¾ n = + ¾ n + u n où = V: Dans le cas particulier où =, on retrouve le modèle EWMA: 9 Il est possible, connaissant le prix de marché d un call de déduire une valeur unique pour la volatilité, dans le cas du modèle de Black et Scholes. Cette valeur de volatilité, appelée volatilité implicite, peut s écarter notablement de la volatilité historique (écart type des rendements du sous-jacent) car elle est censé re éter la volatilité future anticipée par le marché. En particulier, en calculant, à partir des prix de calls de même maturité, et de prix d exercice di érents, les valeurs de vette volatilité implicite. On obtient une courbe convexe assez caractéristique que l on appelle le smile de volatilité. 54

56 .6 Autres types de modèles non-linéaires.6. Les modèles bilinéaires - notés BL (p;q;p;q) Les modèles bilinéaires ont été introduits en 978 par Granger et Andersen, de façon à généraliser les modèles ARMA, Y t = px Á i Y t i + " t i= qx PX QX µ j " t j + ij Y t i " t j ; j= i= j= où (" t ) est un bruit blanc gaussien. Ce modèle sera noté BL (p;q;p;q). Une sous classe possible (diagonal) est dé nie par px qx PX Y t = Á i Y t i + " t µ j " t j + iy t i " t i : i= Exemple Le modèle BL (; ;; ) est donné par j= Y t = " t + Y t " t : Ce processus est centré, puisque le bruit est indépendant du passé (et donc cov (" t ;Y t )), Le processus d autocovariance est donné par i= E (Y t ) = E (" t ) + E (" t Y t ): E (Y t Y t h ) = ½ pour h ¾ + ¾ E Y t : La variance marginale est alors V (Y t ) = ¾ = ¾ : Il est alors possible de montrer que Y t s écrit aussi Y t = " t + " X j" t j : j= # jy " t k+ : La série ci-dessous correspond à une simulation de la série Y t = " t + :6:Y t " t k= Series: BILINEAIRE Sample 5 Observations 5 Mean Median.7545 Maximum.7964 Minimum Std. Dev..865 Skewness Kurtosis Jarque-Bera.6654 Probability. BILINEAIRE.6. Les modèles autorégressifs exponentiels - EXP AR Ces modèles sont une généralisation des processus AR, permettant de prendre en compte les explosions en variance de la série : px X t = ¹ + ai + ¼ i : exp Xt Xt i + " t : i= 55

57 .6. Les modèles autorégressifs à seuils - TAR, STAR ou SETAR Les modèles autorégressifs à seuils ont été introduits par Tong en 978, sous le nom de threshold autoregressive, ou TAR. On suppose, dans le cas d un seuil unique, qu il existe deux régimes di érents, ( Á () Y t = X t + Á () X t + ::: + Á () p X t p + " t si X t s Á () X t + Á () X t + ::: + Á () p X t p + t si X t > s; où (X t ) est soit une variable exogène, soit une variable (Y t ) retardée (Y t d ). Dans ce dernier cas, on parlera éventuellement de modèle SETAR, self excited threshold AR. Il est d ailleurs poissible de généraliser davantage en considérant des sous-modèles ARMA au lieu de modèles AR. Il est à noter que les bruit (" t ) et ( t) sont indépendants, et peuvent être de variance di érente. Exemple Considérons le cas de modèles AR () avec un seuil unique X t = ½ Á X t + " t si X t s Á X t + " t si X t > s; avec le même bruit. Une condition nécessaire et su cante d existence d une solution stationnaire et Á <, Á < et Á Á <. La série ci-dessous correspond à une simulation de la série ½ ::Xt + " X t = t si X t :9:X t + " t si X t > ; avec un bruit blanc gaussien, centré réduit, Series: TAR Sample 5 Observations Mean. Median.869 Maximum Minimum Std. Dev..699 Skewness.877 Kurtosis Jarque-Bera Probability. TAR SEUIL Ce type de processus, là aussi, permet d avoir des queues de distribution plus épaisses (en l occurence ici pour les fortes valeurs de Y t - queue à droite). Une écriture équivalente du modèle à seuil à deux régimes, avec un seul reatard, ou une seule variable exogène (X t ou Y t ), est la suivante ½ + Á Y t = X t + " t si X t s + Á X t + t si X t > s; () m Y t = ( + Á X t ) I Xt s + ( + Á X t ) I Xt >s + u t ; où (u t ) est une séquence de bruits indépendants, dont la variance est de la forme V (u t ) = ¾ "I Xt s + ¾ I Xt >s. Il sera possible de se reporter à l article de Ben Salem et Perraudin () Tests de linéarité, spéci cation et estimation des modèles à seuil : une analyse comparée des méthodes de Tsay et Hansen pour des compléments d information sur le sujet. Test de linéarité A n d être sûr qu il est nécessaire d utiliser un modèle TAR, il est possible d utiliser des tests de linéarité, dont l idée est de tester H : = et Á = Á contre laternative fournie par le modèle à seuil. Plus généralement, on test H : = et Á () i = Á () i pour i = ;:::;p: 56

58 Tsay (989) propose la statistique suivante, où m est le nombre d états, et Y t = Á (i) + Á (i) Y t + Á (i) Y t + ::: + Á (i) p Y t p + " (i) t si X t état i, µ X Q (m) = b" t X µ ba X t ba m + n b m t ; où b désigne le nombre d observation utilisées pour initialiser les estimations récursives, i.e. b = n= + p (comme ³ le conseille Tsay), b" t correspondent aux résidus " t standardisés, et ba t les résidus de la régression de b" (i) sur ;X(i). Sous l hypothèse nulle de linéarité, Q (m) suit une loi de Fisher à (m + ) et (n b m ) dégrés de liberté. Estimation des paramètres Pour un nombre de retard p donné, et pour un seuil s xé, les estimateurs par moindres carrés ordinaires des coe cients autorégressifs sont asymptotiquement normaux comme l ont montré Chan et Tong en 986. Pour chacun des régimes, on minimise la somme des carrés des résidus, i.e. dans le cas du modèle () par exemple X ( i ;Á i ) = arg min SCR i où SCR i = (Y t i Á i X t ) ; t;x tétat i et l estimateur de la matrice de variance covariance des coe cients estimés est alors donnée par bv i = b¾ i (X X) où X = (;Xt) t;xtétat i et b¾ SCR i i = où m est le nombre d état (ici ), n i (m + ) et n i est le cardinal de ft;x t état ig. Détection et choix du seuil Hansen a proposé, en 996 d utiliser des moindres carrés séquentiels pour estimer le seuil. Nous allons nous placer ici dans le cas d un seuil unique s (modèle à deux états ). Pour une valeur du seuil donnée, on estime par moindres carrés, pour chacun des régimes, les coe cients Á (i), pour i = ;. On évalue alors la variance résiduelle du modèle à seuil, conditionellement à cette valeur du seuil : b¾ T (s) = P T T t= (b" t (s)) où b" t (s) = Y t [( + Á X t ) I Xt s + ( + Á X t ) I Xt>s]: Ces estimations sont alors faites pour di érents seuils s, et on choisit alors le seuil qui minimise la variance résiduelle, bs = arg min s b¾ T (s) : Un intervalle de con ance peut également être obtenu pour s en utilisant la distribution asymptotique de la statistique du rapport de vraisemblance, et fait intervenir un coe cient tabulé par Hansen..6.4 Les généralisations des mo dèles ARCH Considérons un modèle linéaire usuel, de la forme Y t = X t + U t : L hypothèse faite en économétrie est que (U t ) est un bruit blanc, c est à dire un processus i:i:d: Toutefois, il est possible que le bruit (U t ) soit autocorrélé, c est à dire que (U t ) puisse s écrire U t = ½U t +" t où (" t ) est ici i:i:d:. Comme nous l avons vu dans ce chapitre, il est possible que le bruit (U t ) soit conditionellement hétéroscédastique, par exemple, modélisable par un processus ARCH () dé ni sous la forme U t = tp ht où h t = ¹ + U t : Ce processus peut se généraliser sous la forme GARCH (; ) suivante U t = tp ht où h t = ¹ + U t + ±h t : Parmi les autres modèles possible, on notera les modèles ARCH M (ARCH en moyenne, ou ARCH in Mean), c est à dire que le modèle linéaire s écrira ici Y t = X t + g (h t) + U t où U t = tp ht avec h t = ¹ + U t + ±h t : 57

59 Ce type de modèle a été introduit en 987 par Engle, Lilien et Robbins. Parmi les modèles asymétriques, on notera les modèles TARCH ou EGARCH. Les modèles TARCH (ARCH à seuil, ou Threshold ARCH) ont été introduits par Zakoian en 994. Par exemple, le modèle TARCH (; ) s écrit p U t = t ht où h t = ¹ + Ut + ÁUt I ut< + ±h t : C est à dire que l impact de Ut sera de si U t >, alors qu il sera de + Á sinon. Le modèle EGARCH (GARCH exponentiel, ou Exponential GARCH ), introduit par Nelson en 99, peut s écrire, dans le cas du modèle EGARCH (; ) U t = p t où logh t = ¹ + ju t j + ± logh t + ÁU t : ht Exemple Considérons ici le rendement de l indice NASDAQ, de janvier 989 à février : Le graphique cidessous représente le logarithme de l évolution de l indice N ASDAQ ainsi que le rendement journalier 9 Variable Coefficient Std. Error T-Statistic Prob. C AR() R-squared.5 Mean dependent var.869 Adjusted R-squared.699 S.D. dependent var.976 S.E. of regression.9 Akaike info criterion.44 Sum squared resid 8.54 Schwartz criterion.7668 Log likelihood F-statistic.7 Durbin-Watson stat Prob(F-statistic). Inverted AR Roots RETURN_NASDAQ LOG_NASDAQ 5 Variable Coefficient Std. Error T-Statistic Prob. C MA() R-squared.84 Mean dependent var.869 Adjusted R-squared.8 S.D. dependent var.976 S.E. of regression.99 Akaike info criterion. Sum squared resid 8.98 Schwartz criterion.7565 Log likelihood F-statistic.697 Durbin-Watson stat. Prob(F-statistic). Inverted MA Roots -. avec, à droite, les résultats d un ajustement respectivement par un modèle AR () et MA () de la série des rendements. Uné étude des résidus (avec ci-dessous l analyse des résidus des modèles autorégressif AR () à gauche et moyenne mobile MA () à droite) Residual Actual Fitted Residual Actual Fitted montre que l hypothèse de bruit blanc est rejettée, mais surtout, les graphiques ci-dessus montrent des périodes de forte volatilité de la série des résidus : il semble nécessaire de modéliser l erreur par un modèle non linéaire. Les sorties présentées ci-dessous montrent les ajustments de modèles MA () GARCH (; ) (c est à dire un modèle MA () 58

60 dont les erreurs suivent un modèle GARCH (; )) et ARCH M, respectivement à gauche et à droite, Variable Coefficient Std. Error T-Statistic Prob. C MA() VARIANCE EQUATION C ARCH() GARCH() R-squared.74 Mean dependent var.869 Adjusted R-squared.5685 S.D. dependent var.976 S.E. of regression.94 Akaike info criterion Sum squared resid Schwartz criterion.7644 Log likelihood F-statistic Durbin-Watson stat.9878 Prob(F-statistic). Inverted AR Roots -.7 Variable Coefficient Std. Error T-Statistic Prob. SQR(GARCH) MA() VARIANCE EQUATION C ARCH() GARCH() R-squared.86 Mean dependent var.869 Adjusted R-squared.9448 S.D. dependent var.976 S.E. of regression.94 Akaike info criterion Sum squared resid Schwartz criterion.7565 Log likelihood Durbin-Watson stat.844 Inverted AR Roots -.7 Exemple 4 Considérons ici la série du rendement de l indice SP 5, représenté ci-dessous. La sortie présentée à droite est l ajustement d un modèle AR (), SP5 LS // Dependent Variable is SP5 Sample: 4 79 Included observations: 789 after adjusting endpoints Convergence achieved after iterations Variable Coefficient Std. Error T-Statistic Prob. C AR() AR() R-squared.6 Mean dependent var.669 Adjusted R-squared.6 S.D. dependent var S.E. of regression.5787 Akaike info criterion Sum squared resid.648 Schwartz criterion Log likelihood.8 F-statistic 9.58 Durbin-Watson stat.9799 Prob(F-statistic).84 Inverted AR Roots.8+.4i.8 -.4i -.47 Les sorties ci-après corresondent à l ajustement de modèles AR () GARCH (; ), GARCH (; ), IGARCH (;), GARCH (; ) M,.7 Les tests de linéarité Avant de construire un modèle non-linéaire, il est recommander de véri er qu un modèle linéaire ne su t à modéliser correctement la série. Il peut arriver (surtout si les séries temporelles sont courtes ) que l on estime - avec succès - un modèle non-linéaire alors que la vraie relation sous-jacente est linéaire. Le danger est alors de compliquer inutilement la construction du modèle Tester la linéarité peut alors aider à ne pas compliquer à outrance, mais cela peut, en outre, aider pour la spéci ction du type de non-linéarité. Deux types de tests sont alors utilisés : - les tests contre un modèle non-linéaire spéci que (comme les tests du multiplicateur de Lagrange et le test du Cusum) - les tests sans alternative spéci que (tels que le BDS ou le Reset ).7. Les tests du multiplicateur de Lagrange Puisque l estimation de modèles non-linéaires est en général plus di cile que celle des modèles linéaires, il est naturel de considérer des tests qui, bien qu avec des alternatives non-linéaires spéci ques, ne requièrent pas l estimation de ces alternatives. C est à cette catégorie qu appartiennent les tests du multiplicateur de Lagrange. Nous disposons ainsi de quatre tests de ce type, chacun testant un type de non-linéarité: ARCH, BL, EXPAR et SETAR. AR(p) contre AR(p) à erreurs ARCH(q) Dans ce type de tests, on considère un processus (" t ) bruit blanc gaussien, c est à dire i:i:d: dont la loi est N ;¾. Les hypothèses sont alors v px px u qx (H ) : X t = ¹ + Á i X t i + " t contre (H ) : X t = ¹ + Á i X t i + t + j " t j : i= i= j= 59

61 On estime le modèle (H ) par moindres carrés, et on calcule les résidus b" t obtenus. On estime alors par les moindres carrés la régression qx P b" t = + j b" t j + t avec R = P t (b"t ") : j= La statistique du multiplicateur de Lagrange est alors asymptotiquement équivalente à TR. Si l on pose LM = TR alors, sous (H ), LM est asymptotiquement distribuée comme un chi-deux à q degrés de libertés. AR (p) contre BL (p; ;P;Q) On considère un processus (" t ) bruit blanc gaussien, c est à dire i:i:d: dont la loi est N ;¾. Les hypothèses sont alors (H ) : X t = ¹ + px Á i X t i + " t contre (H ) : X t = ¹ + i= px Á i X t i + " t + i= PX i= j= QX µ i;j X t i " t j : Là encore, on estime le modèle (H ) par moindre carrés, ainsi que b¾, estimateur de ¾. La statistique du test du multplicateur de Lagrange est LM = b¾ h X bz;t b" t i h cm c M c M c M ihx bz;t b" t i ; où ½ bz;t = ( ;X t ;:::;X t p ) et bz ;t = (b" t X t ;:::;b" t X t P ;b" t X t ;:::;b" t X t P ;:::;b" t Q X t ;:::;b" t Q X t P ) ; cm ii = P bz i;t bz i;t pour i = ; cm = cm = P bz ;t bz ;t. Il est possible de montrer que sous (H ), LM est asymptotiquement distribuée comme un chi-deux à P Q degrés de libertés. AR (p) contre EXPAR (p) On considère un processus (" t ) bruit blanc gaussien, c est à dire i:i:d: dont la loi est N ;¾. Les hypothèses sont alors (H ) : X t = ¹ + px Á i X t i + " t contre (H ) : X t = ¹ + i= De façon équivalente l hypothèse alternative peut s écrire (H ) : X t = ¹ + px Á i X t i + Là encore, la statistique du test du multplicateur de Lagrange est i= px i= Ái + ¼ i exp X t Xt i + " t : px µ i X t i Xt + " t: LM = b¾ h X bz;t b" t i h c M cm cm c M ihx bz;t b" t i ; i= où ½ bz;t = ( ;X t ;:::;X t p ) bz ;t = M Xt ;X t Xt ;:::;X t p Xt et c ii = P bz i;t bz i;t pour i = ; cm = cm = P bz ;t bz ;t. Il est possible de montrer que sous (H ), LM est asymptotiquement distribuée comme un chi-deux à p degrés de libertés..7. Le test du CUSUM Le test du CUSUM permet de détecter l existence de régimes ou de seuils. Il consiste à reclasser les observations suivant les variables de transition. On estime alors les paramètres de manière récursive et on considère les sommes cumulées des résidus obtenus. 6

62 Par exemple, dans le cas d un modèle SETAR, on suppose que l on connait le délai d, et que l on dispose des observations X d+ ;:::;X ;::::;X T. On ordonne les observations X ;:::;X n selon les valeurs de X d ;::::;X t d. Soient X() T ;:::;XT (T ) les observations ainsi réordonnées. Pour tout j, on considère le modèle linéaire suivant X T (i) = ¹ j + px Á j k X (i) k + " T (j) pour tout i j: k= L hypothèse (H ) est alors ¹ j = ¹, Á j k = Á k pour tout k, et l hypothèse alternative (H ) est que (H ) n est pas véri ée..7. Le test BDS Ce test permet de détecter un bruit blanc indépendant, c est-à-dire si les observations sont (ou non) indépendantes, à partir de l étude de la dimension de corrélation (notion issue de la théorie du chaos). Remarque Cette notion, introduite par Grassgerber et Procaccia en 98 est très liée à la théorie des fractales et à la dimension de capacité. L idée de base est la suivante : plus un ensemble est de dimension élevée, plus rapidement le nombre de voisins d un point donné de cet ensemble augmentera avec la distance à ce point. Encore faut-il pouvoir évaluer le nombre de voisins. Dans ce but, nous introduisons l intégrale de corrélation, dé nie comme la probabilité de trouver une paire de points distants de moins d un certain rayon r (donné à priori) dans un espace d immersion m-dimensionnel. A partir d une série temporelle, on commence donc par former des m-uples. Si l on dispose de N observations, l intégrale de corrélation sera donnée par C n;n (r) = N (N ) NX NX i= j=;j6=i µ (r d (i;j)) ; où d(i;;j) est la distance entre les points i et j et µ (k) est la fonction de Heaviside (ou fonction signe) qui, par dé nition, vaut si k et dans le cas contraire. Ceci revient donc à compter, dans un espace d immersion, le nombre de voisins d un point quelconque distants de moins de r. En principe, d(i;;j) est la distance euclidienne usuelle, mais on prend en général la norme-sup (ou norme de Takens) pour distance. Cette dernière est dé nie comme la plus grande des di érences (en valeur absolue) entre deux coordonnées équivalentes de vecteurs. Quand N!, on pose alors Cm;N (r)! Cm (r) = r ºm. L exposant ºm ainsi dé nit sera la dimension de corrélation dans l immersion m, dont l estimateur naturel est d log (C m (r)) bº m = lim : r! d logr A partir de cette notion, il est aisé de mettre en place le test BDS de non-linéarité. Ce test peut être interprété comme un test de non linéarité : il su t en e et d estimer le modèle linéaire retenu et de calculer les résidus obtenus. On applique ensuite le BDS à ces résidus; si ce test révèle que les résidus sont indépendants et identiquement distribués, alors l hypothèse de linéarité est acceptée. Dans le cas contraire, la série est soit stochastique non-linéaire, soit chaotique. Soit le vecteur m-historique Xt m = (X t ;X t+ ;:::;X t+m ), et T m = n m + le nombre de vecteurs m-historiques pour la série (X t ) avec n observations. On désigne par I " (:) la fonction indicatrice de [;"], où " est une constante positive préalablement choisie. On pose alors C n;m (") = T m (T m ) X I " (kxt m Xs m k ) ; et on a, sous l hypothèse où les (X t ) sont indépendants et identiquement distribués h i m lim C n;m (") = lim C n; (") : n! n! Remarque 4 Cette propriété peut être illustrée simplement dans le cas où m = : C n; (") correspond à la fréquence des observations plus proches voisins dans le plan (X t ;X t ) tandis que C ;n (") mesure toujours la proportion de points de la série distants de moins de " de moins de " de leur valeur à la date précédante. Dans le cas d une série indépendante, on voit que l on considère une surface élémentaire, et que l on double la longueur des côtés (C ;n est alors multiplié par ), le nombre de points contenu dans la surface est alors multiplié par 4 (à cause de la répartition purement aléatoire des points dans le plan). En revanche, avec une série non-indépendante, le nombre de points n est plus multiplié par 4 lorsque la surface élémentaire voit ses côtés doublés : C n; (") est bien multplié par mais C n; (") n est pas multiplié par 4. t<s 6

63 avec et Compte tenu de cette remarque, on dé nit la statistique BDS par v u ¾ m (") = t K m + C = C n; (") et K = BDS = p n C n;m (") C n; (") ; ¾ m (") m X j= K m j C j + (m ) C m m KC m ; n (n ) (n ) où la sommes e ectue sur les (r;s;t) distincts deux à deux. asymptotiquement normale, centrée et réduite. X (t;r;s).7.4 Le test RESET (Regression error speci cation test) On estime ici les paramètres du modèle linéaire (H ) : X t = ¹ + I " (jx t X s j)i " (jx r X s j) ; Sous (H ) : (X t ) est i:i:d: la statistique BDS est px Á i X t i + " t, et on calcule les résidus obtenus b" t, les valeurs ajustées b X t = b¹ + P p i= b Á i X t i = X t b" t et la somme des carrés des résidus SCR = P b" t. On estime alors, par la méthode des moindres carrés, les paramètres de b"t = b + px i= et on calcule SCR = P b t. La statistique de test est i= bixt i + hx µjx bj t + t; j= RESET = [SCR SCR ]=(h ) ; SCR = (n p h) qui suit sous (H ) (hypothèse de modèle AR (p)) un loi de Fisher F (h ;n p h). En fait, le test du RESET peut être interprété comme un test du multiplicateur de Lagrange..7.5 La procédure AUTOREG sous SAS=ETS La syntaxe de la procédure AUT OREG est la suivante PROC AUTOREG options; BY variables; MODEL dependent = regressors / options; HETERO variables/options; RESTRICT equation,...,equation; TESTequation,...,equation / option; OUTPUT OUT=SAS data set options; Estimation de modèles GARCH (p;q) Le modèle que nous souhaitons tester est de la forme suivante : Y t jy t ;Y t ;::: s N (;h t ) où h t =! + qx px i Yt i + j h t j ; où h t est alors appelée variance conditionelle. Le modèle ARCH (q) est obtenu quand p =. L estimation sous SAS se fait par maximum de vraissemblance, sous l hypothèse où le processus ( t) est normalement distribué (centré réduit ) i= j= 6

64 La déclaration MODEL ² Pour les modèles GARC H : - GARCH =(option-list) : spéci e la forme du modèle GARCH, par exemple, pour un modèle GARCH (; ) l instruction sera MODEL y=x x / GARCH=(q=,p=); Toute la classe des modèles généralisant les modèles GARCH sont d ailleurs obtenus à l aide de l instruction TYPE= : modèles EGARCH (GARCH exponentiel ), IGARCH (GARCH intégré), sans contraintes de non-négativité, contrainte de stationnarité... - DIST=T ou DIST=NORMAL : spéci e la distribution du terme d erreur : soit une loi normale, soit une loi de Student, ² Pour les tests statistiques - ARCHTEST : cette option permet d obtenir les statistiques Q et LM permettant de tester l absence d e et ARCH, - CHOW =(obs,...obs n ) : met en place les tests de Chow a n de tester la stabilité des coe cients de régression, - COVEST =OPjHESSIANjQML : cette option spéci e le type de matrice de covariance pour le modèle GARCH. OP signi e que la matrice produit est utilisé la matrice,hessian signi e que la matrice Hessienne est utilisée pour calculer la matrice de covariance, et QML signi e que la méthode retenue est basée sur du quasi maximum de vraissemblance, - DW =n : met en place le test de Durbin Watson à l ordre n (par défaut égal à ). L instruction DWPROB donne la p-value du test. - GODFREY =r : met en place le test du multiplicateur de Lagrange, avec comme hypothèse alternative des erreurs ARMA, - RESET : met en place le test RESET, avec p valant, ou 4, - STATIONNARITY =(PHILLIPS) : met en place le test de Phillips-Perron, test de stationnarité du modèle La déclaration OUP UT Un certain nombre d output peuvent être imprimés, à l aide des instructions CEV= variable ou - HT= variable. L instruction CEV= option permet d obtenir, en sortie, la table de la variance des erreurs du modèle hétéroscédastique (spéci é dans l instruction HETERO ou la valeur de la variance de l erreur conditionel le ht de la déclaration GARCH= option dans l instruction MODEL) Parmi les tests possible, on notera les instructions CUSUM et CUSUMSQ, dont les intervalles de con ance (haut et bas) peuvent être obtenus à l aide des instructions CUSUMUB= variable, CUSUMUB= option, CUSUMLB= variable, CUSUMLB= option, CUSUMSQUB= variable, CUSUMSQUB= option ou encore CUSUMSQLB= option. Etimation d un modèle ARCH (p) sous SAS L exemple ci-dessous (tiré de Box et Jenkins (976) page 57) correspond au cours de l action IBM, entre le 9 juin 959 et le juin 96. Le rendement (journalier) de ce titre est la variabler, représenté ci-dessous, Le modèle que nous souhaitons tester est de la forme suivante : ARCH () : Y t jy t ;Y t ;::: s N (;h t ) où h t =! + Y t + Y t : A n de tester ce modèle, les instructions sont les suivantes proc AUTOREG data=ibm; model r=/noint GARCH=(Q=); output out=a cev=v; 6

65 et la sortie SAS (estimation des paramètres et tests statistiques) est alors Dependent Variable = R Autoreg Procedure Ordinary Least Squares Estimates SSE.4 DFE 54 MSE.7 Root MSE.49 SBC AIC Reg Rsq. Total Rsq. Durbin-Watson.77 NOTE: No intercept term is used. R-squares are redefined. GARCH Estimates SSE.4 OBS 54 MSE.7 UVAR.6 Log L Total Rsq. SBC AIC Normality Test Prob>Chi-Sq. Variable DF B Value Std Error t Ratio Approx Prob ARCH. 7.56E ARCH ARCH c est à die que b!;b et b valent respectivement :, :46 et :6976. Les coe cients donnés sont, pour l estimation par moindre carrés : - SSE : (Sum of Square Errors) - MSE : (Mean Square Error) - SBC : critère de Schwarz dé ni par SBC = lnl + K lnn, où L est la vraissemblance, N le nombre d observations et K le nombre de paramètres estimés. - Regress R-square : donné par R TSSE REG = TSST ; où TSST est la somme des carrés... - DW : statistique de Durbin-Watson - DF E : (Error Degrees of Freedom) the number of observations minus the number of parameters - Root MSE : (Root Mean Square Error) - AIC : critère d Akaike dé ni par AIC = lnl + K, où L est la vraissemblance et K le nombre de paramètres estimés. - Total R-square : donné par R T OT = SSE SST ; Et pour l estimation des paramètres GARCH - Log Likelihood : valeur de la log-vraissemblance (sous hypothèse de normalité des résidus) - Normal Test :test de Bera et Jarque (98) basé sur l utilisation du skewness et de la kurtosis (qui doivent être proches respectivement de et de dans le cas normal ) - Observations : nombre d observations utilisées - Uncond Var : variance non-conditionelle - Total R-square : - Pr>ChiSq : p-value associée au test de normalité SAS renvoie également la sortie graphique suivante, correspondant à la variance conditionelle 64

66 ainsi que la prévision..8 Application sur des données réelles.8. Modélisation GARCH du C AC4 Présentation de la série et analyse préliminaire Considérons la série du CAC 4, observée du janvier 99 au septembre 996 (soit un peu plus de 75 observations) //9 //9 //9 // Series: FRCAC4 Sample //9 9//96 Observations 754 Mean 95.4 Median Maximum 55.9 Minimum 44.7 Std. Dev Skewness Kurtosis.975 Jarque-Bera.8 Probability.9447 FRCAC4 Comme le suggère l autocorrélogramme ci-dessous, ainsi que le processus moyenne glissante (avec équipondération, jours (soit jours)), cette série n est pas stationnaire //9 //9 //9 //95 MOYENNE_CAC Pour stationnariser la série, considérons la série di érenciée, correspondant à la variation de l indice C AC4 sur une journée (en points ) Series: D_FRCAC4 Sample //9 9//96 Observations //9 //9 //9 // Mean Median. Maximum.7 Minimum -.77 Std. Dev..59 Skewness Kurtosis Jarque-Bera Probability. D_FRCAC4 65

67 Cette transformation semble stationnariser la série au second ordre, comme le laissent à penser les graphiques cidessous, //9 //9 //9 //95 MOYENNE_DCAC Si la série initiale du CAC4 présentait - a priori - une racine unité, comme cela peut se voir sur le scatterplot cidessous à gauche, on peu noter que la série di érenciée une fois est elle stationnaire (la corrélation entre deux dates - jour et 5 jours ci-dessous - est d ailleurs très faible), FRCAC4 8 D_FRCAC4 5-5 D_FRCAC FRCAC4_ D_FRCAC4_ D_FRCAC4_ Tests de non-linéarité A n de déterminer le type de modélisation à adopter, un certain nombre de tests simples de non-linéarité peuvent être utilisés : multiplicateur de Lagrange et RESET. Quel que soit le test, on peut noter une forte non-linéarité de la série (cela peut toutefois être dû à la nature particulière des tests e ectués, postulant une forme AR () comme hypothèse alternative) : Test Valeur de la statistique p-value Linéaire LM (AR contre ARC H) 6:65 : non LM (AR contre BL) 9:677 :7 non LM (AR contre EXP AR) 9:6 : non RESET 8: :9 non L étude des autocorrélogrammes de la série des variations et de la série au carré semblent con rmer ce phénomène : si les autocorrélogrammes de la série n indiquent pas de corrélations importantes (laissant à penser que la série pourrait être un bruit blanc), des autocorrélations non-nulles apparaissent en considérant la série dé nie comme le carré de la 66

68 variation du CAC 4, //9 //9 //9 //95 D_FRCAC4 5 5 //9 //9 //9 //95 D_FRCAC4_C Ces résultats incitent à adapter une modélisation de type ARCH=GARCH et non pas ARIMA. Modélisation ARCH GARCH de la variation du CAC 4 Le critère d Akaike incite à retenir un modèle ARCH (). Il pourrait être également intéressant de considérer des modèles GARCH (; ) ou ARMA (à titre de comparaison). Nous noterons dans la suite X t la série correspondant à la variaiton de l indice CAC4. ² Modèle ARCH () - avec erreurs conditionnellement normales Le modèle est de la forme X t jx t s N ;¾ t où ¾ t = 98: :488X t : Considérons la série des résidus standardisés (la série des résidus coïncidant avec la série des variations ellemême). ² Modèle GARCH (; ) [A INSERER] ² Modèle ARMA [A INSERER].8. Modélisation des rendements du cours Intel : modèle ARCH [A INSERER] 67

69 .8. Modélisation des rendements de l indice S&P : modèle GARC H Considérons la série du rendement mensuel de l indice SP 5, depuis 96 (soit de l ordre de 8 observations ), SP5 Au vu de l autocorrélogramme présenté ci-dessus, il est possible de modéliser ce processus soit par un AR (), soit par un MA () (voire un ARMA (; )) Dependent Variable: SP5 Method: Least Squares Date: 5/8/ Time: :4 Sample: 96: 99: Included observations: 79 Convergence achieved after 5 iterations Backcast: 95: 95: Variable Coefficient Std. Error t-statistic Prob. C MA() MA() R-squared.6877 Mean dependent var.64 Adjusted R-squared.44 S.D. dependent var S.E. of regression.5774 Akaike info criterion Sum squared resid.655 Schwarz criterion Log likelihood 6. F-statistic.8957 Durbin-Watson stat.9957 Prob(F-statistic). Dependent Variable: SP5 Method: Least Squares Date: 5/8/ Time: 9:59 Sample(adjusted): 96:4 99: Included observations: 789 after adjusting endpoints Convergence achieved after iterations Variable Coefficient Std. Error t-statistic Prob. C AR() AR() R-squared.6 Mean dependent var.669 Adjusted R-squared.6 S.D. dependent var S.E. of regression.5787 Akaike info criterion Sum squared resid.648 Schwarz criterion Log likelihood.8 F-statistic 9.58 Durbin-Watson stat.9799 Prob(F-statistic).84 Inverted AR Roots.8 -.4i.8+.4i -.47 i.e. ½ Xt = :6 + " t + :94" t :4" t X t = :6 + :88X t :X t + t: Toutefois, si l on regarde par exemple l autocorrélogramme de la série t, ci-dessous à droite, on peut constater que ( t) n est pas un bruit blanc, Dependent Variable: RESID_AR Method: ML - ARCH (Marquardt) Date: 5/8/ Time: :7 Sample(adjusted): 96:4 99: Included observations: 789 after adjusting endpoints Convergence achieved after 4 iterations Variance backcast: ON Coefficient Std. Error z-statistic Prob. Variance Equation C 7.97E-5.4E ARCH() GARCH() R-squared. Mean dependent var 7.5E-4 Adjusted R-squared S.D. dependent var S.E. of regression.5787 Akaike info criterion Sum squared resid.648 Schwarz criterion -.78 Log likelihood 6.47 Durbin-Watson stat.9799 Il est alors possible de tester un modèle AR () GARCH (; ) [A INSERER] 68

70 .8.4 Modélisation des rendements de l action IBM (avec dividendes) : modèle TAR Considérons la série des rendements journaliers de l action IBM,de juillet 6 à décembre IB M [A INSERER].8.5 Modélisation du taux de chômage aux Etats Unis : modèles TAR et ARCH Considérons la série du taux de chômage désaisonnalisé en données trimestrielles aux Etats-Unis, de 948 à 99, Comme le montre le graphique de droite, cette série présente des phases cycliques, avec de lentes variations, suivies de très fortes variations, laissant à penser que les comportements à la hausse et à la baisse sont sensiblement di érents. Ce type de constatation empirique pousse à tester un modèle TAR L utilisation de modèles TAR sur des données macroéconomiques a été con rmée, par exemple pour modéliser le P IB américain, dnas A Nonlinear Approach to US GNP par Potter en 995. Cette série est étudiée dans Montgomery, Zarnowitz, Tsay et Tiao (998), Forecasting the U.S. Unemployment Rate, dans Journal of the American Statistical Association. 69

71 Mo dèle linéaire ARIMA L autocorrélogramme (ou uniquement une analyse graphique de la série), tendent à rejeter l hypothèse de stationnarité de la série, ainsi que le test de Phillips Perron Null Hypothesis: X has a unit root Exogenous: Constant, Linear Trend Bandwidth: (Newey-West using Bartlett kernel) Adj. t-stat Prob.* Phillips-Perron test statistic Test critical values: % level % level % level *MacKinnon (996) one-sided p-values. Null Hypothesis: D(X) has a unit root Exogenous: Constant, Linear Trend Bandwidth: 7 (Newey-West using Bartlett kernel) Adj. t-stat Prob.* Phillips-Perron test statistic Test critical values: % level % level % level *MacKinnon (996) one-sided p-values. Cette présence de racine unité correspond au phénomène économique appelé présence d e ets d hystérésis du taux de chômage. Le test de Dickey Fuller (avec constante et tendance) rejette en revanche l hypothèse de présence de racine unité. Null Hypothesis: X has a unit root Exogenous: Constant, Linear Trend Lag Length: (Automatic based on SIC, MAXLAG=) t-statistic Prob.* Augmented Dickey-Fuller test statistic Test critical values: % level % level % level *MacKinnon (996) one-sided p-values. Null Hypothesis: DX has a unit root Exogenous: Constant Lag Length: (Automatic based on SIC, MAXLAG=) t-statistic Prob.* Augmented Dickey-Fuller test statistic Test critical values: % level % level % level *MacKinnon (996) one-sided p-values. La série di érenciée une fois semblant stationnaire, il est alors possible de tester un modèle ARMA, en particulier des modèles AR (p),

72 Les sorties suivantes correspondent à l estimation de modèles AR () - les deux premières autocorrélations partielles étant clairement signi catives - et AR (4) - la série étant trimestrielle, il convient de tester une saisonnalité Dependent Variable: DX Method: Least Squares Date: 6/4/ Time: 7:5 Sample(adjusted): 948: 99: Included observations: 7 after adjusting endpoints Convergence achieved after iterations Variable Coefficient Std. Error t-statistic Prob. AR() AR() R-squared.4797 Mean dependent var -.79 Adjusted R-squared.446 S.D. dependent var S.E. of regression.5 Akaike info criterion.659 Sum squared resid Schwarz criterion.678 Log likelihood -5.6 Durbin-Watson stat.789 Inverted AR Roots.4+.i.4 -.i Dependent Variable: DX Method: Least Squares Date: 6/4/ Time: 7:5 Sample(adjusted): 949: 99: Included observations: 69 after adjusting endpoints Convergence achieved after iterations Variable Coefficient Std. Error t-statistic Prob. AR() AR() AR(4) R-squared.4699 Mean dependent var -.87 Adjusted R-squared S.D. dependent var.4764 S.E. of regression.76 Akaike info criterion.5846 Sum squared resid Schwarz criterion.6697 Log likelihood Durbin-Watson stat.7 Inverted AR Roots i i i i On peut noter que, dans les deux cas, l hypothèse de bruit blanc des résidus doit être rejetée. Un modélisation à l aide d un modèle ARMA (4; 4) sur la série di érenciée donne Dependent Variable: DX Method: Least Squares Date: 6/4/ Time: 7:58 Sample(adjusted): 949: 99: Included observations: 69 after adjusting endpoints Convergence achieved after 6 iterations Backcast: 948: 948:4 Variable Coefficient Std. Error t-statistic Prob. AR() AR() AR() AR(4) MA() MA() MA() MA(4) R-squared Mean dependent var -.87 Adjusted R-squared S.D. dependent var.4764 S.E. of regression.785 Akaike info criterion Sum squared resid Schwarz criterion.668 Log likelihood -.49 Durbin-Watson stat.76 Inverted AR Roots i.+.77i Inverted MA Roots i.+.97i -.4 L hypothèse de bruit blanc des résidus semble ici validée. Une modélisation ARMA (ici AR () à la vue du corrélogramme) de la série brute (X t ) - et non plus ( L)X t - 7

73 donne Dependent Variable: X Method: Least Squares Date: 6/4/ Time: 8:5 Sample(adjusted): 948: 99: Included observations: 7 after adjusting endpoints Convergence achieved after iterations Variable Coefficient Std. Error t-statistic Prob. C AR() AR() R-squared Mean dependent var Adjusted R-squared.965 S.D. dependent var S.E. of regression.655 Akaike info criterion Sum squared resid 8.85 Schwarz criterion Log likelihood -5.4 F-statistic 8.6 Durbin-Watson stat Prob(F-statistic). Inverted AR Roots.8 -.4i.8+.4i où là encore, l hypothèse de bruit blanc des résidus est encore rejetée. Mo dèle à deux niveaux : modèle TAR Comme nous l avions noté empiriquement, il existe un comporetement di érent, suivant que le taux de chômage monte ou baisse, i.e. si la variation du taux est positive ou négative. Il conviendrait donc d essayer un modèle TAR sur Y t = ( L) X t, avec comme seuil. Nous allons tester ici des modèles à deux retards, de la forme ½ + Y Y t = t + Y t si Y t + Y t + Y t si Y t > En testant le modèle AR () sous la contrainte Y t, on obtient que [A INSERER] Modèle ARMA avec erreurs ARCH Dans les modèles ARMA testés ci-dessus, on peut noter qu un test de présence d e et ARCH sur les résidus est validée à chaque fois (AR (4) et ARMA (4; 4) respectivement) ARCH Test: F-statistic.94 Probability.774 Obs*R-squared 9.69 Probability.94 Test Equation: Dependent Variable: RESID^ Method: Least Squares Date: 6/4/ Time: 9: Sample(adjusted): 949: 99: Included observations: 68 after adjusting endpoints Variable Coefficient Std. Error t-statistic Prob. C RESID^(-) R-squared.57 Mean dependent var.9968 Adjusted R-squared.564 S.D. dependent var.779 S.E. of regression.689 Akaike info criterion Sum squared resid Schwarz criterion Log likelihood 6. F-statistic.94 Durbin-Watson stat.8 Prob(F-statistic).774 ARCH Test: F-statistic 4.86 Probability.7 Obs*R-squared.754 Probability.8 Test Equation: Dependent Variable: RESID^ Method: Least Squares Date: 6/4/ Time: 9: Sample(adjusted): 949: 99: Included observations: 68 after adjusting endpoints Variable Coefficient Std. Error t-statistic Prob. C RESID^(-) R-squared.887 Mean dependent var.866 Adjusted R-squared.769 S.D. dependent var.545 S.E. of regression.455 Akaike info criterion Sum squared resid.5587 Schwarz criterion Log likelihood 86.4 F-statistic 4.86 Durbin-Watson stat.79 Prob(F-statistic).7 [A INSERER].9 Conseils bibliographiques ² DROESBEKE,J.J., FICHET,B. & TASSI,P. (994). Modélisation ARC H : théorie statistique et applications dans le domaine de la nance. Association pour la Statistique et ses Utilisation. Ellipses ² ENGLE,R. (995). ARCH : selected readings. Oxford University Press. ² GOURIEROUX,C. (997). Modèles hétéroscédastiques. dans Encyclopédie des Marchés Financiers, Economica ² GOURIEROUX,C, SCAILLET,O. & SZAFARZ,A.. (998). Econométrie de la nance : analyses historiques. Economica ² JOHNSTON,J. (988). Méthodes Econométriques. Econometrica. 7

74 . Compléments sur les séries temporelles en nance On pourra consulter sur ce sujet l article de Walter () 9- : un siècle de descriptions statistiques des uctuations boursières ou les aléas du modèle de marche aléatoire en nance, ainsi que les deux ouvrages de Berstein (9) et (9), Against the gods : et... Introduction historique.. Complément sur les données disponibles Comme nous l avons vu en introduction, il est possible de travailler par cotation, c est à dire en utilisant le prix des titres à chaque fois qu ils sont échangés sur le marché. Soit N t le nombre de fois où le titre a été échangé entre la date et la date t. On observe alors ; ;:::; Nt la suite des cotations, et º ;º ;:::;º Nt la suite correspondant au volume échangé à chaque cotation. Entre la date et la date t il est possible d écrire S t = + ( ) + ( ) + ::: + ( Nt Nt ), alors que le volume nal échangé est V t = º +º + ::: + º Nt. On suit alors (S t ) le processus du cours de l actif, ou processus du prix d échange, (N t ) le processus de comptage correspondant au nombre de transaction et (º t ) le processus du nombre de titres échangés. Dans ce cours, on s intéresse à la série (S t ) observée à des dates régulièrement espacées (jour, mois...), au processus de gain (Y t ) où Y t = S t S, ou encore au taux de rentabilité (r t ) où r t = logs t logs. De façon plus générale, il est possible de considérer des rendements sur des périodes, et on étudie alors (r t; ) où r t; = logs t logs t. ² Le choix du temps 7

75 Le niveau du Nil, ses crues et ses étiages sont connus depuis l année 6. Il s agit là de données exceptionnelles, fascinantes, tant pour les hydrologues que pour les statisticiens. Quel est le bon modèle pour prédire les crues importantes ou l étiage des années de sécheresse? Est-ce que les années dé sécheresse sont distribuées de manière uniforme, «au hasard»? Supposons vouloir prédire les crues entre 7 et 6 à partir des crues observées entre 7 et 6. Si l on cherche à construire un modèle à mémoire courte comme en économie, la prévision devient vite simplement la moyenne du siècle passé, du XIe siècle. Elle ne rend pas bien compte du phénomène réellement observé au XIIe siècle. Il faut donc introduire une mémoire longue, même très longue, mais à la condition d être capable de le faire avec un nombre restreint de paramètres qu il faudra estimer. Il existe plusieurs sortes de modèles de ce type donnant d assez bons résultats. La Bible (Genèse 4) dit: Sept années d abondance vont venir sur la terre d Egypte, mais elles seront suivies de sept années de famine. Nous ne possédons pas de données sur le niveau du Nil à l époque biblique mais sur les données connues, on observe de longues périodes d humidité et de longues périodes de sécheresse et non de brèves alternances. Un des promoteurs des modèles à longue mémoire, B. Mandelbrot, a donc appelé ce phénomène l e et Joseph. Son nom scienti que est l e et Hurst. Ce spécialiste d hydrologie a pu montrer en construisant un modèle de réservoir qui peut représenter le bassin du Nil, que de simples considérations sur les qualités du réservoir, indépendamment de toutes variations du climat, pouvaient expliquer cet e et Joseph. Si l on prend en compte les données du Nil sur une période plus longue, par exemple, sur les cinq siècles allant du VIIe au XIIIe, on peut estimer avec précision la forme de la mémoire, si l on a une idée du type de modèle qui décrit le régime du euve. Pour trouver ce modèle on utilise la constatation suivante : si l on fait un changement d échelle convenable sur les données de 5 années consécutives, le résultat a la même allure que la suite des données sur 5 ans. Cette permanence par changement d échelle s appelle l autosimilarité. Elle guide le choix du modèle à longue mémoire. Mais le Nil pose une autre question; il semble qu au cours du Xe et du XVIIe siècle son régime ait changé, qu il y ait eu une rupture du niveau moyen des crues puis de la forme de la mémoire. Et les tests faits à partir de modèles à longue mémoire ont tendance à conforter cette hypothèse dont le motif physique est mal connu. Le problème des crues du Nil concerne la recherche d un changement de régime qui a eu lieu il y a plusieurs siècles. Pour cette recherche, si l on se place à l instant de cette rupture hypothétique, on dispose d un passé mais aussi d un futur comportant un nombre signi catif de données. Il n en est pas ainsi en économie puisqu il n y a pas de futur à l instant même de la rupture hypothétique. En 99, les pouvoirs publics ont tablé sur,4 % de croissance l an, certains instituts de prévision, quant à eux, sur,4 %. En fait de croissance, on a constaté plus de % de récession. L I.N.S.E.E. n est pas en cause. Il utilise des modèles d analyse économétrique dont les paramètres sont estimés à partir de l observation d un passé récent. Les prévisions fournies n ont de validité qu en faisant l hypothèse de stationnarité. Ces analyses ne sont pas faites pour intégrer l imprévu lorsqu il est structurel, c est-à-dire lorsqu il invalide les modèles économétriques admis jusqu alors, lorsqu il faut envisager un changement très probable des paramètres du modèle. Après quelques mois de ottement, une fois accumulées les nouvelles données, les modèles économétriques peuvent recommencer à donner des prédictions correctes, mais les valeurs de leurs paramètres ont changé. On a eu «rupture de modèle». De telles ruptures peuvent parfois être discernées assez rapidement, mais jamais instantanément. Quelques mois sont nécessaires en économétrie pour admettre, avec une forte probabilité, qu il y a eu un changement de modèle; une fois cela admis, il ne reste plus qu à rebâtir le modèle de prévision. Dans le cas de l I.N.S.E.E. en 99, la rapidité n a évidemment pas été su sante pour que les erreurs de prévision n aient pas été récupérées par le débat politique. (Source : Dacunha-Castelle Chemins de l aléatoires, le hasard et le risque dans la société moderne ) Voir à ce sujet: J. Beran, Statistics for long-memory processes, Chapman et Hall, 994. Ces modèles autosimilaires découverts par Paul Ikvy ont un caractère fractal. Ils ont été popularisés par Benoît Mandelbrot. 74

76 Introduction à la notion de mémoire longue Les processus ARMA sont souvent appelé processus à mémoire courte compte tenu de la décroissance rapide de l autocorrélation entre X t et X t h quand h! (décroissance exponentielle de ½ (h)). En fait, il est possible de montrer que, pour un processus ARMA stationnaire, sa fonction d autocorrélation est bornée, pour une certaine constante C > et < r <. j½ (h)j Cr h pour h = ; ;::: Dé nition Un processus stationnaire sera dit à mémoire longue si les autocorrélations ½ (h) satisfont où C est une constante non nulle et d < =. ½ (h) s Ch d quand h! () Il est possible de faire une distrinction suivant la valeur de d : - si d < : mémoire intermédiaire, la série ½ (h) est absolument convergente P j½ (h)j < : - si < d < = : mémoire longue, la série ½ (h) n est plus absolument convergente P j½ (h)j = Ce type de comportement a été mis en évidence dès 95 sur des données hydrologiques, puis économiques. Le graphique ci-dessous à gauche correspond au minimum annuel atteint par le Nil, et à droite, son autocorrélogramme, NILE Remarque 5 L expression () dit uniquement la forme asymptotique des autocorrélations, sous forme d un équivalent, mais ne dit en aucun cas que certains retards spéci ques doivent être particulièrement importants. Remarque 6 Cette condition () se réécrit également lim h! ½ (h) = : Chd De façon heuristique, une série à mémoire longue est caractérisée par une fonction d autocorrélation qui décroît lentement lors que le retard h augmente. En terme de fréquence et de densité spectrale, le spectre de telles séries ont un pôle à la fréquence. Cette propriété est très fréquente sur les données économiques, à tel point que Granger avait parlé en 966 de forme spectrale tque d une variable économique, comme le note Valérie Mignon dans Méthodes d estimation de l exposant de Hurst. Historiquement,le premier processus à mémoire longue est le mouvement brownien fractionnaire, développé par Mandelbrot et Van Ness en 968. Ce processus est caractérisé par un paramètre appelé exposant de Hurst, noté H, permettant de classer les séries temporelles en fonction de leur structure de dépendance : mémoire courte ou nulle, mémoire longue et positive (appelé phénomène de persistance), et antipersistance. Les séries empiriques étant des processus en temps discret, Mandelbrot et Wallis ont dé ni, en 969, l analogue du mouvement brownien fractionnaire en temps discret, appelé bruit gaussien fractionnaire. Une seconde classe de modèles, liés au bruit gaussien fractionnaire, est constitué des processus ARF IMA (AutoRegressive Fractionnaly Integrated Moving Average) parfois également appelés F ARIMA: Ceux-ci constituent une généralisation des processus ARIMA (p;d;q) standards, dans lesquels le paramètre de di érenciation d était un entier. Le paramètre d explique alors le comportement de long terme de la série, le comportement de court terme étant expliqué par les composantes autorégressives et moyenne-mobiles. Si ces processus sont très présents en économie (comme le notait Granger), ils sont également présents en nance. En 99, Lo a ainsi étudié les implications des processus à mémoire longue dans la théorie nancière, et Mignon 75

77 a étudié en 995 l impact de ce comportement sur l e cience des marchés. En e et, on dit que les marchés sont e cients (e cient d un point de vue informationel ) si les cours des actifs côtés re ètent toute l information disponible : il est alors impossible de prévoir les rentabilités futures à partir des rentabilités passées puisque toute l information (anticipée) est incorporée dans les prix. Mais si les rentabilités ont une structure de dépendance à long terme, alors les observations présentent des autocorrélations signi catives. La connaissance du passé fournit alors de l information pour prévoir les valeurs futures. En fait, Samuelson a montré en 965 que si un marché est e cient, le prix observé sur le marché correspond à la valeur fondamentale (c est à dire la somme actualisé des dividendes futurs anticipés par les agents), et la mémoire longue impliquerait un écart durable entre le cours et la valeur fondamentale. Remarque 7 Si la mémoire longue a été dé nie à partir de la fonction d autocorrélation, elle peut aussi être dé nie à l aide de la densité spectrale. Les processus ARMA, exemples classiques de processus à mémoire courte, la densité spectrale est positive et nie quand la fréquence tend vers. On dira qu un processus (X t ) est à mémoire longue s il existe une constante telle que < < et une constante C > telles que lim!! f (!) = ; C! où f est la densité spectrale du processus (X t ). Ainsi, la densité spectrale présente un pôle à la fréquence.. Processus self-similaires Dé nition On dit qu il processus est self-similaire, de paramètre de self-similarité H si, pour tout c, le processus (Y ct ) à la même distribution que le processus c H Y t, pour tout t Cette classe de processus a été introduite dès 968 par Mandelbrot, même si, d un point de vue probabiliste, cette propriété avait été étudiée dès 94 par Kolmogorov. Exemple 5 En temps continu, le mouvement brownien est un processus self-similaire de paramètre H = =. Aussi, dans les modèles nanciers de type Black et Scholes, où le rendement est modélisé par une équation de la forme dr t = ¹dt + ¾dW t, où (W t ) est un mouvement brownien standard, on obtient, en notant R ( ) le rendement sur une période, que la distribution de R ( )= p est indépendante du temps : en terme nancier, l ordre de grandeur de la rentabilité d un titre nancier pendant une période est proportionnelle à la racine carrée de cette période. Une des application a été que la volatilité sur mois est égale à la volatilité sur mois, multuplié par p. La plupart de règles prudentielle imposées pour le contrôle des risques repose sur ce genre d approche permettant d extrapoler le risque à long terme à partir du risque à court terme. Toutefois, il est apparu en pratique, dans les années 7 que le coe cient H était plutôt de l ordre de :. Ces observations ont mis en évidence des phénomènes dits de retour à la moyenne des rentabilités, introduisant la notion d horizon à long terme sur les marchés... Accroissements stationnaires de processus self-similaires Soit (Y t ) un processus H-self-smilaire, à accroissements stationnaires. Posons alors X t = Y t Y t pour t = ; ;::: Soit ¾ = V (X t ): Alors la fonction d autocovariance est donnée par (h) = ¾. Processus F ARIM A - ARI MA Fractionnaires h jh + j H jhj H + jh j Hi : () Dans la partie sur les processus ARIMA, nous avions introduit un aspect tendanciel aux processus ARMA en retenant un polynôme autorégressif admettant comme racine (éventuellement multiple). Ceci a conduit à considérer les processus écrits sous la forme ( L) d (L)X t = (L) " t ; où d est un entier positif. Le fait que le paramètre d soit entier pose un certain nombre de problèmes, des problèmes d identi cation par exemple, et c est pour cela que d est estimé séparément des autres paramètres. Les processus F ARIM A sont une généralisation où l on considère d a priori quelconque (réel). 76

78 Dé nition Un processus fractionnaire est un processus (X t ), dé ni pour t, satisfaisant une équation de la forme ( L) d (L)X t = (L)" t pour t ; avec comme condition initiale X t = pour t < et " t un bruit blanc pour t, nul sinon, de variance nie ¾, et où (L) et (L) sont deux polynômes ayant leurs racines à l extérieur du disque unité, et où d est réel, avec la convention X ( L) d d (d )::: (d j + ) = + ( ) j L j : j! j= La dé nition de ( L) d est fondée sur le développement en série entière de la fonction puissance (qui peut se simpli er en introduisant la fonction Gamma) : soit alors (d) = Z + ( L) d = x d exp ( x) dx; X j= (d + j ) (d):j! Lj : Propriété 7 Un processus fractionnaire admet une représentation moyenne mobile (in nie) de la forme où les coe cients h j véri ent asymptotiquement X t = H (L) " t où H (L) = X h j L j ; j= h j s () () (d) jd quand j! : Dé nition Cette série est - asymptotiquement non-stationnaire si P h j = +; - asymptotiquement stationnaire si P h j < +, et dans ce cas, on dira que - à mémoire courte si P jh j j < +; - à mémoire longue si P jh j j = ; Propriété 8 Les processus ARMA sont des processus asymptotiquement stationnaires à mémoire courte. Compte tenu du comportement asymptotique des h j, on a la propriété suivante, Propriété 9 Le processus fractionnaire est asymptotiquement stationnaire si et seulement si d < =. Il est à mémoire courte si d et < d < =: Remarque 8 Ces processus sont parfois appelés processus intégrés d ordre d, et noté I (d)... Processus fractionnaire sans composante AR et MA : processus F ARIMA (;d; ) Considérons un processus de la forme ( L) d X t = " t avec d < =. (" t ) est ici un bruit blanc, et nous supposerons, dans un premier temps, qu il est de variance nie ¾. Exemple 6 Comme nous l avons vu auparavant, les processus ARIMA (; ; ) - c est à dire la marche aléatoire X t = X t + " t - dans le cas où (" t ) est un bruit blanc gaussien de variance ¾, peuvent être vus comme des discrétisations du mouvement brownien. De façon analogue, dans le cas où le bruit (" t ) est gaussien, le processus (X t ) ARF IMA (;d;) est à rapprocher du mouvement brownien fractionnaire (noté FBM - fractional Brownian motion) : un processus (en temps continu) B H (t) est appelé FBM s il est à trajectoires continues, telles que B H (t) soit gaussien pour tout t, B H () =, E (B H (t) B H (s)) = pour tout s;t, et cov (B H (t);b H (s)) = ¾ h jtj H jt sj H + jsj Hi ; () pour tout < H <. On peut noter que le cas H = = correspond au mouvement brownien. La version discrète d un tel processus est alors appelé bruit blanc gaussien fractionnaire (F GN - fractional Gaussian noise). La relation () est d ailleurs à rapprocher de (). 77

79 La fonction d autocovariance (t;h) = cov (X t ;X t+h ) converge vers (h) = ¾ (h + d) ( d) (h + d) (d) ( d) quand t! ; où ¾ est la variance du bruit blanc. Remarque 9 La fonction d autocovariance (t;h) dépend de t : le processus n est pas stationnaire (mais il est asymptotiquement stationnaire). La vitesse de convergence de l autocorrélogramme vers est donnée, pour h grand, par (h) s ¾ h d ( d) (d) ( d) ou ½ (h) s d.hd quand h! : A titre de comparaison, pour les processus ARMA, nous avions vu que la vitesse de décroissance était de la forme exponentielle, c est à dire beaucoup plus rapide. Par défaut, nous considérerons les processus F ARIMA Gaussien, c est à dire que le bruit (" t ) est supposé être un processus gaussien. Toutefois, toute une théorie existe pour des processus plus généraux, non-gaussiens, mais de variance nie, ou alors de variance in nie. Ce dernier cas est d ailleurs relativement utilisé dans la pratique. Parmi ces familles, on peut considérer les distributions de Pareto (c est à dire que P (" > x) s Cx ) de paramètre <, ou les distributions stables (c est à dire que leur fonction charactéristique est de la forme Á (t) = E e it" = exp ( ¾ jxj ) où ¾ est un paramètre d échelle) de paramètre < (le cas = correspondant au cas gaussien ). Les processus ARFIMA (;d; ) peuvent s écrire sous la forme X t = dont la densité spectrale est donnée par +X k= (k + d) (d) (k + ) ( )k " t k pour d < =; f X (!) = ¾ jsin (¼!)j d t ¾ j¼!j d : Le graphique ci-dessous présente les trajectoires de processus FARIMA, avec d = :9, :7 et :5, FARIMA5 FARIMA7 FARIMA9 Remarque La densité spectrale de ces processus ARIMA(;d; ) véri e la relation suivante f (!) = de telle sorte que le comportement en est donné par ³ sin! d pour <!¼; (4) egalementf (!) =! d quand!! : (5) De plus amples informations peuvent être trouvées dans Samorodnitsky et Taqqu (994) Stable non-gaussian processes : stochastic models with in nite variance 78

80 .. Autocorrélations des processus ARF IMA L écriture des autocorrélations se fait à l aide de la forme MA du processus, si elle existe. Une autre prossibilité, en utilisant la partie précédante est d utiliser le paragraphe précédant et le résultat suivant, dû à Hosking (98), Propriété Soit X t un processus ARFIMA (p;d;q), véri ant ( L) d (L)X t = (L)" t. Les autocorrélations X k du processus X t peuvent s écrire en fonction des autocorrélations des deux processus ½ Yt = ( L) d X t : processus ARMA (p;q) Z t = (L) (L) X t : processus ARF IMA (;d; ) : Alors Chacune des processus d autocorrélations Y i X k = +X i= Y i Z k i: et Z k i pouvant se calculer aisément par des méthodes itératives. Exemple 7 Considérons les simulations du processus ARF IMA (;d; ) X t dé nit par ( L) d X t = " t où " t est un bruit blanc gaussien. Les graphiques ci-dessous représentent X t dans le cas où d = : à gauche d = :5 au centre et d = :9 à droite FARIMA FARIMA5 FARIMA9 avec les autocorrélogrammes (d = :;d = :5;d = :9) ci-dessous, Les cas limites d! et d! correspondant respectivement au bruit blanc gaussien et à la marche aléatoire gaussienne (c est à dire au processus intégré d ordre ARIMA (; ; )).. Estimation du paramètre d Parmi les méthodes pour estimer le paramètre d, nous en retiendrons... Méthode du log-autocorrélogramme La méthode la plus simple pour détecter la présence de mémoire longue est l utilisation du log-autocorrélogramme. Comme nous l avons vu, asymptotiquement, les autocorrélations sont de la forme ½ (h) s d.h d. En prenant le logarithme, log½ (h) s d + (d ) logh, on peut noter une relation linéaire entre le logarithme des retards logh et le logarithme de l autocorrélation log½ (h). Le coe ent d peut alors être estimé en considérant la pente de la droite : soit b et b tels que logjb½ (h)j s b + b logh alors bd = ³ b + : 79

81 Exemple 8 Les graphiques ci-dessous correspondent des log-log autocorrélogrammes de données internet à gauche (nombre de bytes échangés par seconde) et de la crue du Nil chaque année à droite LogLog Autocorrelogramme - Ethernet LogLog Autocorrelogramme - Nile Si l aspect linéaire apparaît di cilement sur des données réelles, il apparaît davantage sur des données simulées, LogLog Autocorrelogramme - FARIMA(,.,) LogLog Autocorrelogramme - FARIMA(,.5,) avec à gauche un processus ARFIMA (; :; ) et un processus ARF IMA (; :5; ) à droite. On peut toutefois noter que les autocorrélations ne sont pas nulles au bout d un temps relativement faible (<) comme cela devrait être le cas pour les processus à mémoire courte... Méthode du log-périodogramme Soit (X t ) un processus stationnaire, dont la densité spectrale est de la forme f X ( ) = j sin ( =)j d f ( ) où :5 < d < :5 est le paramètre de mémoire et où f est une fonction continue, bornée sur [ ¼; +¼]. Le périodogramme associé à un échantillon de taille T est dé ni par I T ( ) = ¼T TX X t e i t On dé nit les fréquences de Fourier par j = ¼j=T pour j = ;:::; (T ) =. A partir de la densité spectrale et du périodogramme pris aux fréquences de Fourier, on obtient la régression suivante : logi T ( j) = + Z j + " j où 8 >< Pour s < t < T, on utilise l estimateur >: t= = logf ()» = d Z j = logj sin ( j=)j " j = log (I T ( j )) logf ( j ) +» : où» est la constante d Euler. P t j=s+ Zj Z log (I T ( j )) bd R (s;t) = P t j=s+ Zj Z où Z est la moyenne des Z j : 8

82 .. Méthode de Whittle Soit (X t ) un processus FARIMA (;d; ) dé nit par ( L) d X t = " t où (" t ) est un bruit blanc de variance nie ¾. La méthode de Whittle revient à estimer le vecteur µ = ¾ ;d de paramètres. La fonction que l on cherche à minimiser est appelée vraissemblance de Whittle, et est donnée par L W (X;µ) = ¼ Z +¼ ¼ µ logf X ( ;µ) + I T ( ) d ; f X ( ;µ) où f X et I T sont respectivement la densité spectrale et le périodogramme du processus. En notant µ = (;d) et en choissant ¾ (paramètre d échelle) tel que f X ( ;µ) = ¾ f X ( ;µ ), et R +¼ ¼ logf X ( ;µ ) d =, alors la vraissemblance de Whittle, L W (X;µ) s écrit simplement sous la forme L W (X;µ) = L W (X;µ ) = log¾ + Z +¼ I T ( ) ¼¾ ¼ f X ( ;µ ) d : L estimateur de Whittle b ³ µ = b¾ ; d b est alors obtenu en minimisant la fonction L W (X;µ) par rapport à µ. Puisque l échantillon est de taille nie, cela revient à minimiser par rapport à µ la fonction Q T (µ ) dé nie par Q T (µ ) = (T )= X i= I T ( j) f X ( j;µ ) et b¾ vaut alors 4¼ T Q T (µ ) :.4 Exemples d applications des processus à mémoire longue Le développement rapide des séries longues a été principalement dû à des questions posées en hydrologie. La résolution à l aide de modèle statistique à mémoire longue a commencé des 95, suit à un article de Hurst sur le stockag d eau par les barrages. Ce phénomène de mémoire longue se manifeste par la présence de cycles de toutes périodicités, qui se rencontrent dans un grand nombre de phénomènes physiques. Ainsi, en 975, Mandelbrot a appliqué cette théorie aux communication, Halett et Rafterey (en 989) sur de la météorologie, Ogata et Abe (en 99) en sismologie...etc. Des tentatives ont également été faites en économie, en particulier pour faire de la prévision à moyen ou long terme..4. Applications en nance : rendements d indices boursier Les prix d actifs nanciers (taux de change, cours boursiers... etc) sont des séries qui présentent des comportement de type hétéroscédastique, avec très souvent de la persistance. En outre, la plupart du temps, les distributions des prix ne sont pas normales. A partir des années 8 (et de l article de Engle en 98), une large classe de modèles à temps discret a été proposée : ARCH, GARCH, EGARCH, TARCH, IGARCH... etc. Une des caractéristiques des modèles est la prise en compte explicite de l hypothèse d hétéroscédasticité dans les séries observées. Néanmoins, leur fonction d autocorrélation est semblable à celle d un bruit blanc ou d un processus à mémoire courte : la fonction d autocorrélation d un modèle ARCH décroît exponentiellement vers. Pour h grand, l autocorrélation entre X t et X t h est alors supposée très faible. A partir des années 9, de nouveaux modèles, permettant la prise en compte des hypothèses d hétéroscédasticité et de mémoire longue ont été proposés. En 986, Taylor remarquait le premier que les valeurs absolues des rendements des indices boursiers ont une fonction d autocorrélation qui décroît très lentement. En 99, Ding, Granger et Engle observent le même genre de comportement en prenant une puissance quelconque (en prenant le carré par exemple) du rendement. Plusieurs méthodes ont été proposées pour estimer le coe cient d sur des données nancières. La méthode du log-périodogramme a été proposée par Geweke et Porter-Hudak en 98, a n d estimer l ordre d, en régressant le logarithme du périodogramme sur les basses fréquences. Cet estimateur, noté d GP H, semble toutefois fortement biaisé et non-asymptotiquement normal pour :5 < d < :5. Cet estimateur sera amélioré par Robinson en 995. La méthode de Whittle proposée en 95 repose sur l approximation de la matrice de variance-covariance du processus. Cet estimateur, noté d W, est non-biaisé et sa distribution asymptotique est normale (comme Fox et Taqqu l ont montré en 986 dans le cas des processus gaussiens, puis généralisé par Giraitis et Surgalis en 99). 8

83 Rendements d indices boursiers R t Considérons le processus (X t ), indice boursier, et posons (R t ) le rendement associé, dé ni par R t = logx t logx t. Une analyse rapide montre que, s il y a des phases de fortes volatilités, les séries de rendement sont généralement stationnaires. Les graphiques ci-dessous représentent les indices CAC4 (en haut) et DAX (en bas), avec, de gauche à droite, la série de l indice (Xt), le logarithme de l indice (logxt), et en n, le rendement (R t ) ; /6/88 /6/89 /6/9 /6/9 9/6/95 8/6/97 FRCAC /6/88 /6/89 /6/9 /6/9 9/6/95 8/6/97 LOG_CAC /6/88 /6/89 /6/9 /6/9 9/6/95 8/6/97 R_CAC /6/88 /6/89 /6/9 /6/9 9/6/95 8/6/97 DAXINDX 6.8 /6/88 /6/89 /6/9 /6/9 9/6/95 8/6/97 LOG_DAX -.5 /6/88 /6/89 /6/9 /6/9 9/6/95 8/6/97 R_DAX La sortie ci-dessous montre l autocorrélogramme dans le cas de l indice CAC 4 Etude de la valeur absolue du rendement jrtj du rendement pour l indice CAC 4 La série représentée ci-dessous correspond à la valeur absolue /6/88 /6/89 /6/9 /6/9 9/6/95 8/6/97 ABS_CAC On oberve e ectivement une décroissance relativement lente de l autocorrélogramme 4. Un modèle de type FARIMA pourrait modéliser le comportement de cette série. Sur la période allant de Janvier 99 à Décembre, les résultats 4 (5) = :74; (8) = :59; (69) = :5; (86) = :6...etc Un grand nombre d autocorrélations sont encore signi catives ( (79); (8); (85) par exemple sont encore signi cativement non nulles). 8

84 suivants sont obtenus, par la méthode de Whittle, SP 5 CAC 4 DAX bd W :49 :6 :78 L W 4: :7 :59 où L W désigne la valeur de la vraissemblance de Whittle, dé nie dans la partie précédante. Les coe cients estimés sont signi cativement positifs, ce qui con rme l hypothèse de mémoire lonue persistante. Etude du carré du rendement Rt CAC 4 La série représentée ci-dessous correspond au carré du rendement pour l indice /6/88 /6/89 /6/9 /6/9 9/6/95 8/6/97 CAC De façon analogue à la valeur absolue du rendement, on obtient SP 5 CAC 4 DAX bd W :7 :54 :6 L W :95 : 9:76 Etude par sous-périodes En étudiant par sous-périodes, on peut noter, par exemple pour l indice C AC4, que le comportement mémoire longue dépend de la période considérée : avec ci-dessous le comportement de jr t j 87=89 9=94 95= 87= bd W : :8 :6 :5 L W :7 :84 :7 :59 suivi du comportement de R t 87=89 9=94 95= 87= bd W :8 :4 :66 :7 L W 8:59 : : 9:66 Remarque Comme nous l avions rappelé au début de cette partie, la notion d e cience de marché est très liée à l absence de mémoire : l hypothèse d e cience est alors associée au modèle de marche aléatoire. Les cours boursiers suivent une marche aléatoire, et les processus de rentabilité sont alors des bruits blancs : le prix observé sur le marché uctue de façon aléatoire autour de sa valeur fondamentale. Cette absence de mémoire étant empiriquement une hypothèse trop restictive, Samuelson a proposé en 965 de remplacer le modèle de marche aléatoire par un modèle de martingale : ce modèle est alors moins restrictif puisqu aucune condition n est alors imposée sur les autocorrélations des résidus. En fait, Fama a montré en 97 puis en 99 que la mémoire courte ne remet pas en cause l hypothèse d e cience puisque le fait que quelques autocorrélations soient signi catives à court-terme ne peut pas être utilisé pour spéculer. En revanche, la présence d une mémoire longue pose d avantage de problèmes. En 986, Summers a étudié en détail le phénomène de retour à la moyenne (mean reversion) des prix : à la suite d un choc, le prix sécarte de sa valeur fondamentale mais nit toujours par y revenir. Ce phénomène implique alors l existence possible d un écart entre le cours et la valeur fondamantale. Toutefois, si l ecart est durable, cela peut être traduit comme la présence d une mémoire longue. Ce phénomène va alors à l encontre de la proprété d e cience de Samuelson : plus une série sera persistante, plus il sera possible d etablir une stratégie rémunératrice sur les marchés, ce qui remet fortement en cause l e cience de ces marchés. 8

85 .4. Applications en nance : taux de change Cette étude a été faite dans la thèse de Christelle Lecourt ( Les variations de taux de change au jour le jour : une approche économétrie à partir des processus à mémoire longue ). De la même façon que pour les rendements d indice bouriser, la représentation ARIMA a été la première modélisation retenue. Toutefois, compte tenu des caractéristiques de la plupart des séries nancières (en particulier la présence d une dépendance temporelle dans la variance conditionelle) a conduit à modéliser les seconds moments (et moments plus élevés ). La classe la plus utilisée avait trait aux modèles d hétéroscédasticité conditionelle autorégressive : les modèles ARCH (puis les modèles GARCH). Toutefois, ces modèles n ont jamais permis de modéliser correctement les taux de change. Dans les années 9, les modèles FARIMA ou ARFIMA introduit par Granger en 98 ont été utilsiés a n de mieux prendre en compte la dépendance temporelle dans les premiers moments. [A COMPLETER].4. Applications en hydrologie Comme l avait fait Hurst, considérons une suite d observations (X t ) (par exemple la quantité d eau déchargée par une rivière dans un réservoir, le jour t), et dé nissons la suite (X t ) correspondant au cumul de ces (X t ) X = et X t = Soit d un entier, et considérons R (d), étendue de (X t ), ajustée sur l intervalle [;d], c est à dire h R (d) = max X u u i h u d d X d min X u u i u d d X d Dans notre exemple (X t ) est l a quantité d eau déchargée par une rivière dans un réservoir, le jour t, et (X t ) la quantité totale d eau déversée jusqu au jour t. A un horizon d, la quantité moyenne d eau arrivée par jour esr X d =d. Aussi, si la quantité (X u ) est la quantité d eau arrivée jusqu en u, la quantité ux d =d est la quantité d eau qui aurait du arriver en moyenne. Supposons qu un barrage permette un écoulement constant, à un débit journalier de X d =d: Pour être certain de ne pas avoir d innodation, la quantité R (d) est le volume du réservoir. Il est également possible de dé nir S (t) de telle sorte que Ã S (t) = dx dx! Xi d d X i i= i= La statistique dite R=S a été introduite par Hurst pour étudier les crues du Nil. Cette statistique est liée aux processus self-similaires puisque, si X t est self-similaire alors la statistique R (d) est égale, en distribution, à d H R (). Le graphique ci-dessous est extrait de Stochastic modelling of river ow time series, de Lawrance et Kottegoda (977) : tx i= X i On y voit un débit annuel (en haut ), mensuel (au milieu) et journalier (en bas ). 84

86 .4.4 Applications en économie Les processus à mémoire longue peuvent être utiles pour modéliser, par exemple, des données économiques, comme l in ation. Dans cette partie, nous considèrerons le taux d in ation aux Etats Unis. Les courbes ci-dessous montrent le taux d in ation (variation de l indice par rapport au mois précédant ) à gauche, et les les fonctions d autocorrélation à droite INFLATION_US Comme on peut le voir sur l autocorrélogramme, les fonctions d autocorrélations sont toutes signi cativement non nulles même après 6 retards (5 ans puisque les données sont mensuelles). Le modèle testé ici est de la forme suivante ÁL ( L) d (X t [c + ± 98 7 ]) = µl " t ; où ± t est une fonction dummy permettant de modérer une chute brutale de l in ation en Juillet 98. Di érentes méthodes peuvent être utilisées pour estimer les paramètres : EML (), MPL (), ou NLS (), donnant les résultats suivants sur la période 959 / 995, EML MPL NLS bd :4 (:) bá :769 (:) b µ :65 (:) bc : (:) On peut noter que pour chacune des méthodes d < :5.5 Conseils bibliographiques :4 (:4) :78 (:9) :6 (:) : (:) :49 (:6) :6 (:) :447 (:) :4 (:) : (:) b± : : (:) (:) b¾ :66 :65 :548 Sur ce sujet, et pour une application des modèles ARFIMA (et des processus GARMA) sur des données rééles, je renvoie au mémoire de Bouette, JC., Chassagneux, J.F, Sibai, D. et Terron, R. () sur la modélisation du vent en ireland 5. ² AVOUYI-DOVI,S., GUEGAN,D. & LADOUCETTE,S. () Application des processus de longue mémoire à l analyse des indices boursiers ² BERAN,J. (994). Statistics for long-memory processes. Chapman & Hall. ² JASIAK,J. (999). Long memory in economics : a comment. Working Paper - York University 5 Ce mémoire est téléchargeable à 85

87 4 Compléments : exercices 4. Exercices avec correction Exercise Soit (" t ) un bruit blanc. Les processus suivants sont-ils stationnaires? (éventuellement avec certaines restrictions sur les paramètres) (i) X t = a + b" t + c" t où a;b;c R (ii) X t = " t cos (ct) + " t sin (ct) où c R (iii) X t tel que X t X t = " t (i) Le processus X t véri e E (X t ) = a = constante. Sa variance est donnée par V (X t ) = b + c ¾ où ¾ est la variance du bruit, puisque le bruit est non-autocorrélé : cov (" t ;" t ) =. De plus, cov (X t ;X t ) = bc¾ qui ne dépend pas de t et cov (X t ;X t h ) = pour tout h >. Aussi, le processus X t est stationnaire. (ii) Le processus X t véri e E (X t ) = (= constante). De plus, sa variance est donnée par V (X t ) = cos (ct) + sin (ct) ¾ où ¾ est la variance du bruit, puisque le bruit est non-autocorrélé : cov (" t ;" t ) =.. En n, cov (X t ;X t ) = ¾ [sin ct cosc (t )] qui dépend de t pour c = ¼Z.Aussi, le processus X t n est pas stationnaire (iii) Le processus X t peut se réécrire tx X t = " k + X k= qui correspond à une marche aléatoire. Aussi, le processus X t n est pas stationnaire. On peut montrer que le processus explose en p t. Exercise Soit (" t ) un bruit blanc et (X t ) un processus véri ant X t 7 X t + X t = " t pour tout t Z (6) Montrer qu il existe un processus stationnaire, solution de (6) sous la forme ex t = X kza k " t k En déduire que " t n est pas l innovation du processus e X t : Le polynôme caractéristique de la forme AR est (Z) = 7Z= + Z =, qui peut s écrire µ Z (Z) = 7 Z + Z = ( Z) Les racines sont alors = et :La racine = n est pas à l extérieur du disque unité : la représentation n est pas canonique. Toutefois, il est possible d inverser le poylnôme retard. Soit ex t est dé ni par ex t = 6=5 (L)" t = ( L) L " t = L =5 " t L= X µ k X µ k +X " t+k " t k soit i " t i = 5 k= {z } dépend du futur de " t 5 k= {z } dépend du passé de " t Le processus " t est alors corrélé avec e X t ; e X t ;::: (puisque f X t s exprime en fonction du passé et du futur de " t ) : le processus " t n est pas l innovation. En revanche, en considérant un bruit blanc de la forme t s BB ;¾ =9 (le coe cient =9 venant de (=), = étant la racine appartenant au disque unité), on peut mettre e X t sous forme AR, µ L µ L ex t = t soit e X t 5 6 e X t + 6 e X t = t où t s BB ;¾ =9 Cette écriture correspondra à l écriture canonique du processus ex t. 86

88 Exercise On considère le processus aléatoire AR () suivant X t = 4 + :4X t :X t + " t où " t s BB ;¾ = :8 (i) véri er que le processus est stationnaire (ii) calculer l espérance de X t (iii) donner les équations de Yule-Walker du processus, calculer la variance, ainsi que les 5 premières valeurs des autocorrélations (iv) calculer les premières autocorrélations partielles (i) Le processus peut s écrire :4L + :L X t = 4 + " t. polynôme sont à l extérieur du disque unité : Le processus est stationnaire si les racines du :4Z + :Z = ssi Z = :4 ip :64 :4 c est à dire Z = ½ Z = + i Z = i dont le module est p + = p 5 > : le processus est stationnaire. 6 (ii) Le processus est un AR () avec constante : il n est pas centré. E (X t ) = :4E (X t ) :E (X t ) soit ¹ = E (X t ) = 4=:8 = 5 (iii) Soit Y t = X t 5. Alors Y t satisfait Y t = :4Y t :Y t +" t avec E (Y t ) =. La fonction d autocovariance de Y t (qui est la même que celle de X t ) est obtenue de la façon suivante E (Y t Y t h ) = :4E (Y t Y t h ) :E (Y t Y t h ) + E (" t Y t h ) ce qui donne l équation de Yule Walker h = :4 h : h. Les initialisations sont obtenue par les relations ½ = :4 : = :4 : La première équation permet d écrire = :4 =: = =, et la seconde = : =. Or véri e = E (Y t Y t ) = :4E (Y t Y t ) :E (Y t Y t ) + E (" t Y t ) = :4 : + E (" t Y t ) Et comme " t Y t = :4" t Y t :" t Y t + " t, on en déduit que E (" t Y t ) = ¾. Et donc = :4 : + ¾. D où nallement, par substitution D où nalement 8>< = :4 = : ( : =) + ¾ et donc = ¾ =:56 = 5 >: = = = 5 = : = = = :4 : 5 = :4 4 = :4 :4 : = :6 5 = :4 :6 : :4 = :6 et donc 8 >< >: ½ = : ½ = :68 ½ = :9 ½ 4 = :4 ½ 5 = :9 (iv) Les autocorrélations partielles se calculent à l aide des déterminants des matrices d autocorrélations : () = j½ j = : jj ½ ½ ½ () = ½ = ½ ½ ½ = :99 ½ ½ 6 Ceci pouvait également se noter directement en notant que les conditions de stationnarité dans le cas d unar() s écrivent 8 < : Á +Á < Á +Á < Á > 87

89 () = ½ ½ ½ ½ ½ ½ ½ ½ ½ ½ ½ ½ ½ = :69 On peut noter que a () est très faible, ce qui con rme la nature AR () du modèle (en théorie, les autocorrélations partielles d un processus AR (p) sont nulles au delà du rang p). Exercise 4 Considérons deux processus (X t ) et (Y t ) liés par les relations suivantes ½ Yt = ÁY t + X t + " t X t = µx t + t où " t et t sont des bruits blancs non-corrélés, de variance respective ¾ " et ¾. Pour les applications pratiques, on prendra = :5, Á = :4, µ = :6, ¾ " = :6 et ¾ = :6 (i) on pose! t = ( ÁL) ( µl)y t. Calculer les moments de! t et en déduire qu il s agit d un processus moyenne mobile (à préciser). Donner la représentation canonique de! t (ii) en déduire que Y t est un processus ARMA dont on précisera les ordres. Donner la représentation canonique de Y t (i) Le processus! t est dé ni par! t = ( ÁL) ( µl)y t. X t et Y t étant centrés, on peut dèjà noter que E (! t ) =. ( µl)y t = Y t µy t = ÁY t + X t + " t µ [ÁY t + X t + " t ] = Á [Y t µy t ] + [X t µx t ] + " t µ" t = Á [Y t µy t ] + t + " t µ" t = Á [ µl]y t + t + " t µ" t Ainsi ( µl)y t = Á [ µl]ly t + t + " t µ" t, soit ( µl) ( ÁL)Y t =! t = t + " t µ" t. Le processus! t véri e alors, 8 < () = E! t = ¾ + + µ ¾ " = :76 () = E (! : t! t ) = µ¾ " = :96 (h) = pour h Ce comportement de l autocorrélogramme est caractéristique des processus MA () (nullité des autocorrélations au delà du rang ) :! t est un processus moyenne-mobile. Cherchons à écrire! t sous forme MA () :! t = u t u t où u t est un bruit blanc de variance ¾. Les paramètres et ¾ doivent alors véri er ½ () = + ¾ c est à dire que doit véri er () = ¾ + = () () = µ¾ " ¾ + + µ ¾ " = :94 doit alors véri er :94 + :94 = soit = :95 ou = :6. On choisit la racine de module inférieur à pour la représentation canonique ( étant l inverse de la racine du polynôme caractéristique).! t satisfait! t = u t u t où u t est un bruit blanc de variance ¾ = : et où = :95. (ii) D après ce que nous venons de montrer! t = ( µl) ( ÁL)Y t = ( L)u t où u t est un bruit blanc, c est à dire que Y t suite un processus ARMA (;). La forme développée de la dynamique de Y t est Y t = (Á + µ)y t ÁµY t + u t u t (7) Il est également possible de calculer les autocorrélations (h) du processus : pour cela, on va multiplier cette expression par X t h, puis prendre l espérance (le processus Y t étant centré 7 ) : Yt = (Á + µ)y t Y t ÁµY t Y t + u t Y t u t Y t = (Á + µ)y t Y t ÁµY t Y t + u t [(Á + µ)y t ÁµY t + u t u t ] u t [(Á + µ) Y t ÁµY t + u t u t ] 7 Ce qui implique quecov(x t ;X t h )= E(X t X t h ) E(X t )E(X t h )= E(X t X t h ) pour touth. En particulierv(x t )= E X t. 88

90 (on remplace Y t par (7) dans u t Y t et u t Y t ). En prenant l espérance, on obtient De plus, en multipliant (7) par Y t on peut écrire () = (Á + µ) () Áµ () + ¾ (Á + µ) + Y t Y t = (Á + µ) Y t Y t ÁµY t Y t + u t Y t u t Y t = (Á + µ) Y t Y t ÁµY t Y t + u t Y t u t [(Á + µ)y t ÁµY t + u t u t ] (u t est indépendant du passé de Y t, en particulier indépendant de Y t ) d où, en prenant l espérance () = (Á + µ) () Áµ () ¾ En multipliant (7) par Y t on a et de façon plus générale () = (Á + µ) () Áµ () (h) = (Á + µ) (h ) Áµ (h ) Exercise 5 Décomposition de Beveridge-Nelson d un processus intégré On s intéresse dans cet exercice à la décomposition d un processus ARIMA, intégré d ordre, en la somme d une marche aléatoire, et d un processus stationnaire. () Soit Y t admettant la décomposition ( L) Y t = (L) " t avec (L) = +X k= µ k L k où µ = et +X k= jµ k j < + et " t bruit blanc de variance ¾. Posons alors µ = (). ( i) Soit tel que (L) = µ + ( L) (L). Donner l expression des coe cients µ k du polynôme. ( ii) Montrer que si P kjµ k j < + alors P jµ kj < +. ( iii) Montrer que l on peut décomposer Y t sous la forme Y t = T t + C t où ( L)T t = µ" t et où C t est un processus stationnaire. ( iv) Quelle est la limite de V (Y t )=t quand t!? ( v) Considérons une décomposition quelconque du processus Y t ; Y t = T t + C t en une somme d une marche aléatoire T t et d un processus stationnaire C t. Montrer qu alors, on a nécessairement V ( L) T t = µ ¾ () On supposera désormais que le processus Y t véri e une équation de la forme ( L) ( ÁL)Y t = " t où < Á < (8) ( i) Ecrire la relation précédente sous la forme ( L)Y t = (L) " t (Forme de Wold) ( ii) Décomposer le processus Y t en somme d une marche aléatoire et d un processus stationnaire. Les processus C t et T t sont-ils indépendants? () On veut montrer ici qu il est impossible d écrire le processus Y t sous la forme Y t = T t + C t où ( L) T t = u t et Ct = (L)vt où les processus ut et vt sont des bruits blancs indépendants, et où (L) est un polynôme en L dont les racines sont de module strictement supérieur à. ( i) En utilisant (8); calculer la densité spectrale de X t = ( L) Y t ( ii) En supposant que Y t = T t +C t où ( L)T t = u t et C t = (L) v t ; où les processus u t et v t sont des bruits blancs indépendants, calculer la densité spectrale de X t = ( L) Y t ( iii) Etudier les comportements pour! = des deux densités spectrales trouvées en ( i) et en ( ii). ( iv) Conclure. ( i) Par hypothèse, ( L) Y t = (L) " t. Soit alors X t = ( L) Y t. Le polynôme véri e (L) = +X k= µ k L k +X + k= µ k = +X k= µ k L k + () Or la di érence L k peut se réécrire L k = (L ) + L + ::: + L k 89

91 et donc +X (L) = () + ( L) µ k + L + ::: + L k = () ( L) D où nallement l écriture (L) = µ + ( L) (L) où et ( ii) En utilisant cette expression, +X k= µ k = +X +X k= j=k+ (L) = +X k= k= +X +X j=k+ µ j µ kl k avec µ k = A L k +X j=k+ µ j = [µ + µ + µ + :::] + [µ + µ + :::] + [µ + :::] + ::: = +X k= jµ kj +X k= kjµ k j Donc nallement si P k jµ k j < + alors P jµ kj < +. ( iii) D après la question précédente, on peut écrire X t = (L)" t = µ" t + ( L) (L)" t Si Y t = T t + C t, alors X t = ( L)Y t = ( L) T t + ( L) C t. Aussi, on devrait avoir - Montrons que le processus C t est stationnaire : ½ ( L) Tt = µ" t Ct = (L)"t C t = (L)" t = +X k= µ k" t k qui sera stationnaire si et seulement si P jµ kj < +, qui sera véri é dès lors que P k jµ k j < +: - Le processus T t dé nie par ( L)T t = µ" t est une marche stationnaire : T t = T t + µ" t = µ: ( iv) La variance de Y t peut se décomposer en tx " t k + T k= V (Y t ) = V (C t ) + cov (C t ;T t ) + V (T t ) avec V (C t ) =constante et V (T t ) est équivalent à µ ¾ "t, cart t = T + µ [" + ::: + " t ]. De plus, jcov (T t ;C t )j pv (T t ) p ³ pt V (C t ) = O et nalement, on a V (Y t ) t! µ ¾ " quand t! En e ectuant exactement le même genre de calcul sur Y t = T t + C t, p, a V (Y t ) = V C t + cov Ct ;T t + V T t µ j +X k= jµ j et on obtient alors V (Y t ) V T t lim = lim t! t t! t = µ ¾ " 9

92 D où nallement de résultat souhaité, V T t = µ ¾ ". PARTIE ( i et ii) Le processus Y t se décompose en Y t = T t + C t, avec ( L) Y t = u t et C t = B (L) v t. Aussi, en di érenciant Yt, on a ( L)Y t = ( L)T t + ( L) C t = u t + ( L)B (L)v t = (L)" t où (L) " t = u t + ( L)B (L) v t. Le processus X t = ( L) Y t = (L)" t admet pour densité spectrale f (!) = e i! ¾ " = ¾ u ¼ ¼ + e i! B e i! ¾ v ¼ en utilisant l écriture (L)" t = u t + ( L) B (L)v t ( iii) En comparant les deux écritures pour! = on constate alors que ¾ u ¼ = ¾ " ¼ j ()j soit ¾ u = j ()j ¾ " Et comme e i! B e i! ¾ v, alors f (!) f () = ¾ u =¼ : f admet un minimum global en! =. ( iv) Soit ( L) ( ÁL)Y t = " t pour < Á <. Alors ( ÁL)X t = " t en posant X t = ( L) Y t, on peut écrire f (!) = ¾ " ¼ j Áe i! j et f () = ¾ " ¼ ( Á) Montrons qu alors n est pas un minimum golbal : si! = ¼= alors Áe i! = +Á > ( Á) puisque < Á <, et donc ( Á) > ³ ¼ + Á et donc f () > f (Y t ) ne peut donc pas être décomposée en tendance - cycle, d après le modèle de la question (). Par contre il peut l être d apères le modèle () : 4. Examen de / Exercise 6 (i) Soit (" t ) un bruit blanc et X t dé ni par X t = tx k (" t k " t k ) où R k= Le processus X t est il stationnaire? (éventuellement avec certaines restrictions sur les paramètres) (ii) Soit (" t ) un bruit blanc, et X t, Y t et Z t dé ni par X t = " t, Y t = ( ) t " t et Z t = X t + Y t pour tout t Z.Les processus X t, Y t et Z t sont-ils stationnaires? (iii) La somme de deux processus stationnaires est-elle stationnaire? (i) Le processus X t est un processus centré, E (X t ) =. Le processus X t peut s écrire X t = [" t " t ] + [" t " t ] + [" t " t ] + ::: + t [" " ] + t [" ] avec la convention " =. Cette relation peut se réécrire, en mettant en facteur les " t i, X t = " t + " t + " t + " t + ::: + t t " + t t " = " t + ( ) " t + " t + " t + " t 4 + ::: + i " t i + ::: + t " + t " Aussi, pour =, alors X t = " t et le processus est stationnaire. Pour 6=, on peut écrire Xt X t = " t + ( ) Aussi, k= k" t k Xt V (X t ) = ¾ + ( ) k ¾ = ¾ + ( ) t k= 9 ¾

93 qui n est pas indépendante de t : X t n est pas un processus stationnaire. (ii) Le processus X t est un bruit blanc donc X t est stationnaire. Le processus Y t véri e E (Y t ) = (=constante), et () = E Yt = E " t = ¾ (=constante). En n, pour tout h 6=, (h) véri e (h) = E (Y t Y t h ) = E ³( ) t h " t " t h = E (" t " t h ) = Le processus Y t est stationnaire (et c est même un bruit blanc). Le processus Z t est dé ni de la façon suivante ½ "t pour t pair Z t = pour t impair Si E (Z t ) = (=constante), on peut noter que la variance, elle, ne sera pas constante : E Zt = 4¾ pour t pair, et E Zt = pour t impair (car Z t est alors une constante). La variance de Z t dépend de t : le processus Z t n est pas stationnaire. (iii) Dans la question précédante, nous avions vu que X t et Y t étaient des processus stationnaire, et pourtant, leur somme Z t n est pa un processus stationnaire : la somme de deux processus stationnaires n est pas forcément stationnaire. Exercise 7 Soit " t un bruit blanc, centré de variance 5=8, et considérons le processus Y t dé ni par Y t = Y t + " t On suppose que Y t n est observable qu avec une erreur d observation : on ne peut observer que le processus X t = Y t + t où t est un bruit blanc non corrélé avec " t ; de variance =6 (avec de plus cov " t ; t h = pour tout h Z) (i) montrer que le processus! t = " t + t t est un processus MA; et en déduire que X t est un processus ARMA (; ) que l on précisera, (ii) donner la représentation canonique de X t, (iii) en déduire une représentation de X t du type X X t = i X t i + u t avec i= X j i j < (9) i= et où u t est un bruit blanc que l on explicitera (donner sa volatilité), non corrélé avec X t. A quoi sert une telle représentation? (i) Soit! t = " t + t t. Ce processus est centré : E (! t ) = + =. Sa variance est donnée par () = E! t = E "t + t t "t + t t = E " t + t + 4 t + " t t 4 t t 4" t t = ¾ " + 5¾ = ¾ " + 5¾ car E (" t t) = E " t t = (les processus sont indépendants ) et E t t = (car t est un bruit blanc). Donc E! t = ¾ " + 5¾ qui est une constante : () = 5=8 + 5=6 = =8 = =9. De plus () = E (! t! t ) = E " t + t t "t + t t = E " t " t + " t t " t t + t" t + t t t t t " t t t + 4 t t = ¾ + = ¾ d où () = =6 = =. En n, on peut montrer que () = et, plus généralement, (h) = pour h. Ce processus! t véri e ½ () = () () = 9 = et ½ (h) = pour h Le processus! t est un processus MA (). Aussi, il existe un bruit blanc º t et un paramètre µ tel que! t = º t µº t 9

94 Le processus X t véri e X t = Y t + t = [Y t + " t ] + t = X t t + "t + t = X t + " t + t t = Xt +! t donc, d après la question précédente, il existe bruit blanc º t et un paramètre µ tel que X t = X t + º t µº t, c est à dire que X t est un processus ARMA (; ). (ii) Pour expliciter l écriture de ce processus ARMA, il convient de donner deux paramètres : µ (composante moyenne-mobile) et ¾ º, la variance du nouveau bruit blanc. Pour identi er ces deux paramètres, on utilise les deux équations que nous avions obtenues auparavant. Pour le processus! t = º t µº t, on a ½ () = E! t = + µ ¾ º = =9 () = E (! t! t ) = µ¾ º = = En divisant la première équation par la seconde, on obtient que + µ µ = 9 = ce qui donne l équation de degré suivante, µ µ + =, dont les racines sont µ = p 4 = p 64 6 = 8 6 = ½ = Pour mettre le processus sous forme canoniqueon choisit µ de telle sorte que la racine du polynôme moyennemobile ( (L) = µl) est à l extérieur du disque unité, c est à dire µ <. On choisit µ = =: Cette valeur permet d en déduire la variance du bruit blanc associé : µ¾ º = = donc ¾ º =. La forme canonique du processus est alors X t = X t + º t º t où º t s BB (; ) (iii) Nous avons écrit le processus sous la forme (L)X t = (L) º t. A n d obtenir une représentation de la forme (9), il convient d inverser le polynôme retard (L) : (L) (L)X t = º t. Puisque nous avions choisi la racine de à l extérieur du disque unité, le polynôme (L) est inverble en fonction des opérateurs passés, et (L) (L) = µl ( + ÁL) = ( + ÁL) X X µ i L i = + µ i Á + µ i i L {z } i= i= i Avec cette écriture, on obtient nalement X X t = i X t i + º t avec i= ½ i = µ i Á + µ i = = i + = i º t s BB (; ) Cette écriture est utile pour faire de la prévision : la meilleur prévision possible, faite à la date T pour un horizon h est h TX b X T X+h T +h = k : T bx T +h k k X T+h k k= Remarque L exercicesuivant utilisait les sorties informatiques disponibles sur Exercise 8 Considérons la série brute X t, série trimestrielle observée de 98 à. Nous noterons dans toute la suite - X t la série brute - Y t la série di érenciée une fois Y t = X t = (X t X t ) - Z t la série di érenciée deux fois Z t = X t = Y t = X t X t + X t - Y t la série Y t = Y t Y t et Z t la série Z t = Z t Z t - Y 4t la série Y 4t = Yt Y et Z4t la série Z4t = Zt Zt 4 A partir de l ensemble des séries informatiques suivantes (courbes, histogrammes, tests, estimation d équations...etc),le but est ici de trouver un (ou plusieurs) modèle permettant de modéliser au mieux la série X t : k=h 9

95 (i) quelle(s) série(s) peut-on essayer de modéliser à l aide d un processus ARMA? (ii) les modèles suivants sont-ils valides? ( L) L L L 4 L 4 5 L 5 6 L 6 7 L 7 X t = " t où " t est un bruit blanc () ( L) L X t = " t où " t est un bruit blanc () ( L) L L X t = " t où " t est un bruit blanc () ( L) L 4 X t = " t µ" t où " t est un bruit blanc () (iii) les méthodes SCAN et ESCF suggèrent-elles de bons modèles? si oui, lesquels? (iv) est-il possible de modéliser la série X t sans composante MA? (v) la série X t a en fait été simulée sur 8 valeurs, à l aide d un bruit blanc gaussien N (; ), de telle sorte que ( L) L 4 ( :8L)X t = :6L " t Les simulations correspondent-elles e ectivement à un tel modèle? Existe-t-il de meilleurs modèles, ou d autres modèles permettant de modéliser la série X t? (i) Si l on regarde la série brute X t, nous sommes en présence d une série non-stationnaire : nous n observons pas la décroissance exponentielle de l autocorrélogramme, que l on pourrait observer sur un processus AR, et les premières autocorrélations sont signi actives : X t est non-stationnaire, avec présence d une racine unité. La série di érenciée (une fois ) Y t semble stationnaire, avec toutefois présence d une racine unité saisonnière : toutes les autocorrélations obtenues avec un retard pair sont signi cativement non nulle. Y t n est pas stationnaire, avec présence d une racine unité saisonnière. La série L Y t présente le même genre de comportement que Y t, c est donc que n était pas la fréquence de la racine unité. Y t n est pas stationnaire. En revanche la série Y 4t est stationnaire. Les autres séries proposées étant obtenues à partir d une série (Z t ) di érenciée davantage, nous n allons pas les prendre en compte. De toutes façons, un raisonnement analogue aurait pousser à ne retenir que Z4 t, qui est la seule série stationnaire. Or Y 4 t = ( L) L 4 X t et Z4 t = ( L) L 4 X t = ( L)Y 4 t : puisque Y 4 t est déjà stationnaire, il est inutile de di érencier davantage. Nous allons modéliser Y 4 t = ( L) L 4 X t. Ceci est validé par les tests de Dickey-Fuller. (ii) L estimation du modèle () - modèle AR (7) pour Y t - dé ni par ( L) L L L 4 L 4 5 L 5 6 L 6 7 L 7 X t = " t où " t est un bruit blanc est donnée dans le slide (5). Si tous les paramètres semblent signi catif, on peut noter que l estimation aboutit à une racine unité (: est racine du polynôme AR, et Eviews précise Estimated AR process is nonstationary ) : ce modèle ne peut pas être retenu. L estimation du modèle () - modèle AR () pour Y t - dé ni par ( L) L X t = " t où " t est un bruit blanc est donnée dans le slide (67). Le paramètre est signi cativement non nul. Toutefefois, si l on considère l autocorrélogramm des résidus obtenus après régression (slide (69)), on peut noter que l on n a pas un bruit blanc : toutes les autocorrélations paires sont non nulles. Ce modèle ne peut être retenu. L estimation du modèle () - modèle AR () pour Y t - dé ni par ( L) L L X t = " t où " t est un bruit blanc est donnée dans le slide (79). Le paramètre est signi cativement non nul. Toutefefois, si l on considère l autocorrélogramm des résidus obtenus après régression (slide (8)), on peut noter que l on n a pas un bruit blanc : toutes les autocorrélations paires sont non nulles. Ce modèle ne peut pas être retenu. L estimation du modèle () - modèle MA () pour Y 4 t - dé ni par ( L) L 4 X t = " t µ" t où " t est un bruit blanc est donnée dans le slide (96). Le paramètre µ est signi cativement non nul. Si l on considère l autocorrélogramme des résidus obtenus après régression (slide (98)), on peut noter qu aucune autocorrélation n est signi activement non nulle. Si les tests de Box-Pierce (Q) ne sont pas validés à 5%, on peut malgré tout noter que ce modèle reste relativement bon Ce modèle pourrait être retenu. 94

96 (iii) La méthode SCAN appliquée à Y 4 t (c est la variable que nous avions retenu dans la partie (i)) suggère des modèles ARMA (; ) ou ARMA (4; ), alors que la méthode ESACF suggère des modèles ARMA (; ) ou ARMA (; 4). Le modèlearma (; ) appliqué à Y 4t correspond au modèle () : ce modèle peut être retenu. Le modèlearma (4; ) appliqué à Y 4 t correspond au modèle estimé slide (6) : les 4 paramètres sont signi catifs, et si l on considère les autocorrélations, on obtient un bruit blanc : ce modèle peut être retenu. Le modèlearma (; ) appliqué à Y 4 t correspond au modèle estimé slide () : on peut noter que le coe cient en AR () est non-signi catif. Le slide () permet de rester la même équation sans retard d ordre sur Y 4 t : tous les coe cients sont là aussi signi catifs. Et si l on considère l autocorrélogramme des résidus obtenus après régression (slide ()), on peut noter qu aucune autocorrélation n est signi activement non nulle : l hytpothèse de bruit blanc est validée également par le Q test : ce modèle peut être retenu. Le modèlearma (; 4) appliqué à Y 4 t correspond au modèle estimé slide (5) : les composantes d ordre et sont ne sont pas signi activement non nulles, et si l on teste le modèle sans les composantes d ordre et, la composante d ordre n est plus signi cative. En n, le modèlema (4) ne marchant pas non plus, ce modèle ne peut pas être retenu. (iv) Le modèle AR (4) applique à Y 4 t (slide (6)) est valide : il est possible de modéliser la série X t sans composante MA : le modèle ( L) L 4 :66L :545L :58L :85L 4 X t = " t est valide. (v) Le modèle ( L) L 4 ( :8L)X t = :6L " t c est à direy 4 t modélisé par une modèle ARMA (; ) est estimé dans le slide (88). Ce modèle est validé : les paramètres sont tous signi catifs, et le résidu est un bruit blanc. Ce modèle est retenu. Les di érents modèles possibles sont alors [] - slide (96) ( L) L 4 X t = ( L) t [] - slide () ( L) L 4 L X t = L L L " t [] - slide (6) ( L) L 4 L L L 4 L 4 X t = u t [4] - slide (88) ( L) L 4 ( L)X t = L v t [5] - slide () ( L) L 4 L 4 L 4 X t = L L 5L 5 e t [6] - slide () ( L) L 4 L X t = L L 4L 4 e t où t;" t ;u t et v t sont des bruit blancs. Les indicateurs de choix de modèles donnt les résultats suivants : R R logl Akaike Schwarz F -stat [] :89 :89 :67 :5 :75 [] : : 94:7 : :76 :4484 [] :487 :96 9:8485 :79 :44 :9596 [4] :7 :79 97:47 :58 :88 5:66 [5] :99 :996 9:859 :5744 :56 7:9 [6] :99 :99 99:44 :877 :69 79:68 Comme le montre le tableau ci-dessus, le modèle [4] a beau être celui qui a été simulé, ce n est pas celui qui modéliser la mieux la série. En particulier, [5] présente un meilleur critère d Akaike, et [6] un meilleur critère de Schwarz (que l on cherche à minimiser), ainsi qu une meilleure F -stat. 4. Examen de / Exercise 9 Le processus MA () suivant est-il stationnaire (au second ordre)? Y t = ½ :4L + :8L si s = t " t où E (" s " t ) = et E (" sinon t ) = pour tout t;s Si oui, calculer sa fonction d autocovariance (h) = cov (Y t ;Y t+h ). Un processes MA (q) est toujours stationnaire (dès lors que q est ni ). Dans le cadre général des processus MA (q), la fonction d autocovarariance est donnée par (h) = E (X t X t h ) = E ([" t + µ " t + ::: + µ q " t q ] [" t h + µ " t h + ::: + µ q " t h q ]) ½ [µh + µ = h+ µ + ::: + µ q µ q h ]¾ si h q si h > q 95

97 avec, pour h =, la relation Dans le cas d un processus MA (), () = + µ + µ + ::: + µ q ¾ 8 + µ >< + µ ¾ pour h = µ (h) = [ + µ ]¾ pour h = µ ¾ >: pour h = pour h D où la fonction d autocovariance dans le cas particulier Y t = :4L + :8L " t où V (" t ) =, () = + :4 + :8 = 7:4 () = :4 :8 :4 = :48 () = :8 (h) = pour h Exercise Un processus (Zt) suivant a été simulé suivant un processus AR (), sans constante, de la forme Zt = ½Z t + " t où (" t ) est un bruit blanc gaussien. Il a été simulé une première fois avec ½ = :7 et une seconde fois ½ = :85. Sur les sorties ci-dessous, quelle série correspond au cas ½ = :7? Quelle série correspond au cas ½ = :85? Justi ez votre réponse X Y Le processus de droite semble correspond au cas où l autocorrélation est négative : si X t est positif, X t semble négative (en moyenne), et réciproquement, ce qui correspond à un cas où corr (Z t ;Z t ). Le comportement semble le contraire dans le cas de gauche : corr (Z t ;Z t ). La série de gauche correspond au cas ½ = :85 et le cas de droite ½ = :7. Exercise (i) Dans le cas d un processus stationnaire AR (); X t = X t + X t +" t où (" t ) est un bruit blanc, rappeler les valeurs des ½ () et ½ () en fonction de et. (ii) Lors de la modélisation d une série d observations X ;:::;X T, l autocorrélogramme suivant a été obtenu, Autocorr. Partial Corr. AC PAC Q-Stat Prob On souhaite alors modéliser la série à l aide d un processus AR (). En utilisant uniquement cette sortie, proposez des estimateurs b et b des coe cients autorégressifs. 96

98 (i) Soit (X t ) un processus stationnaire AR () de la forme X t = X t + X t +" t où (" t ) est un bruit blanc, les deux premières équations de Yule-Walker sont ½ () ½ () = ; ½ () ½ () c est à dire ½ ½ () = + ½ () ½ () = ½ () + soit (ii) L équation de Yule-Walker peut s inverser, de la façon suivante = ½ () ½ () ½ () ½ () = ½ ½ () = = ( ) ½ () = = ( ) + ½ () ½ () ½ () ½ () ½ () ; ce qui donne, respectivement dont des estimateurs naturels sont = b = ½ () [ ½ ()] ½ () ½ () ½ () et = ½ () ; b½ () [ b½ ()] b½ () b½ () b½ () et b = b½ () : AN : dans l exemple considéré, b½ () t :6555 et b½ () t :6858, et donc b t :6555: [ :6858] :6555 t : et b :6858 :6555 t :6555 t ; 5: Exercise Les sorties informatiques suivantes ont été obtenues lors de modélisations de modèles ARIMA (p;d;q), suivant la méthodologie proposée par Box et Jenkins, sur trois séries di érentes. Le but est de répondre aux questions à l aide uniquement des sorties proposées. () Indiquez si le modèle ARMA (; ) suivant peut être retenu, sinon, en proposer un autre qu il pourrait être intéressant de tester Dependent Variable: Z Method: Least Squares Sample(adjusted): 4 5 Included observations: 4997 after adjusting endpoints Convergence achieved after 7 iterations Variable Coefficient Std. Error t-statistic Prob. AR() AR() AR() MA() R-squared.5757 Mean dependent var -.7 Adjusted R-squared.5787 S.D. dependent var S.E. of regression.987 Akaike info criterion.86 Sum squared resid Schwarz criterion.88 Log likelihood Durbin-Watson stat.7 Inverted AR Roots Inverted MA Roots.5 Lors de l estimation des coe cients, aucun ne semble signi catif, donc ce modèle ne peut pas être retenu. En fait, si l on regarde les racines des polynômes AR et MA (ou l inverse des racines comme cela est présenté si-dessus ), on peut noter que la racine :5 apparaît pour les deux polynômes : les polynômes AR et MA ont une racine commune (( L) ( a L) ( a L)X t = ( L) " t ) L estimation des modèles ARMA se faisant pour des polynômes minimaux, il est alors normal que la forme ARMA testée ne convienne pas. Toutefois, il pourrait être intéressant de tester un modèle AR (). 97

99 Exercise () Indiquez si le modèle ARMA (; ) suivant peut être retenu, X Dependent Variable: X Method: Least Squares Sample(adjusted): 6 Included observations: 59 after adjusting endpoints Convergence achieved after 7 iterations Variable Coefficient Std. Error t-statistic Prob. AR() MA() MA() R-squared.7968 Mean dependent var -.55 Adjusted R-squared S.D. dependent var.7867 S.E. of regression.7865 Akaike info criterion.485 Sum squared resid Schwarz criterion.4655 Log likelihood Durbin-Watson stat.55 Inverted AR Roots.99 Inverted MA Roots Residual Actual Fitted En particulier, il pourra être intéressant de commenter l hypothèse de stationnarité de la série à l aide de plusieurs arguments. Les autocorrélations sont importantes et largement signi catives (au moins pour les 5 premiers retards ), ce qui, en pratique, laisse présager la présence d une racine unité. Cette hypothèse est d ailleurs con rmée lors que l on regarde l estimation d un modèle ARMA (; ), ( ÁL) X t = ( L) ( L)" t, on peut noter que b = :99 : le pokynôme autorégressif semble avoir une racine unité. Exercise 4 () Indiquez si le modèle ARMA (; ) suivant peut être retenu, en utilisant la sortie suivante, Dependent Variable: X Method: Least Squares Sample(adjusted): 6 Included observations: 59 after adjusting endpoints Convergence achieved after 7 iterations Variable Coefficient Std. Error t-statistic Prob. AR() MA() MA() R-squared.7968 Mean dependent var -.55 Adjusted R-squared S.D. dependent var.7867 S.E. of regression.7865 Akaike info criterion.485 Sum squared resid Schwarz criterion.4655 Log likelihood Durbin-Watson stat Inverted AR Roots.7 Inverted MA Roots Residual Actual Fitted 98

100 Une des conditions importantes lors d une modélisation ARMA est que les résidus " t doivent être un bruit blanc. Dans le cas présenté ci-dessus, les coe cients de la modélisation ARMA sont certes signi catifs, mais le bruit n est pas un bruit blanc, comme le montre la représentation graphique ci-dessous. Le test de Durbin-Watson con rme d ailleurs cette hypothèse, puisqu il valide l hypothèse alternative "t = ½"t + t où ½ 6=. Exercise 5 Un utilisateur a récupéré un programme de modélisation de processus ARMA sur internet, mais sans guide d utilisation. En particulier, en essayant de modéliser la série par un processus MA (), il ne sait pas si le modèle testé est le modèle [] ou le modèle [], ½ [] Xt = " t " t " t " t [] X t = t + t + t + t où (" t ) et ( t) sont des bruits blancs La sortie obtenue lors de l estimation des paramètres est la suivante, ainsi que l autocorrélogramme de (X t ), ************************************************************** Conditional Least Squares Estimation Parameter Std Estimate Error t Value Pr > t MA() MA() MA() ************************************************************** Constant Estimate.758 Variance Estimate.69 Std Error Estimate.78 AIC -.96 SBC Précisez, en justi ant votre réponse, quel modèle ([] ou []) est testé à l aide de ce programme. Autrement, le modèle est-il [] : X t = " t + :64 " t :487 " t + :794 " t où (" (:) (:4) (:9) t ) est un bruit blanc ou bien [] : X t = " t :64 (:) " t + :487 (:4) " t :794 (:9) " t où (" t ) est un bruit blanc Dans le cas d un processus MA (q), écrit sous la forme [], l autocovariance à l ordre q est donnée par (q) = cov (X t ;X t q ) = E (X t X t q ) = E ([" t µ " t ::: µ q " t q ] [" t q µ " t q ::: µ q " t q q ]) = E ( µ q " t q :" t q ) = µ q ¾ car E (" t i " t j ) = ¾ I (i = j) L autocorrélation étant du même signe que l autocovariance, alors ½ (q) est toujours du signe opposé à µ q dans un modèle écrit sous forme []. Dans l exemple, la troisième autocorrélation est négative (½ () t :85) et le ème coe cient de la régression, correspondant au retard d ordre de la moyenne mobile est : Autrement dit, le modèle testé ne peut pas être le modèle [] (les signes auraient dû être opposés ), c est donc un modèle de la forme [] qui a été testé. La modélisation de la série temporelle est alors [] : X t = " t :64 (:) " t + :487 (:4) " t :794 (:9) " t où (" t ) est un bruit blanc Exercise 6 Des tests de stationnarité ont été fait sur la série (X t ) présentée ci-dessous, à l aide de la méthode de Dickey et Fuller. En utilisant uniquement les deux sorties présentées ci-dessous (deux tests de racine unité ont été 99

101 faits), expliquez si l hypothèse de stationnarité est acceptée, rejetée, ou si l on ne peut pas conclure Y ADF Test Statistic -.44 % Critical Value* % Critical Value -.94 % Critical Value *MacKinnon critical values for rejection of hypothesis of a unit root Augmented Dickey-Fuller Test Equation - NONE Dependent Variable: D(Y) Method: Least Squares Sample(adjusted): 97: 988: Included observations: after adjusting endpoints Variable Coefficient Std. Error t-statistic Prob. Y(-) D(Y(-)) R-squared.796 Mean dependent var -. Adjusted R-squared.7578 S.D. dependent var.75 S.E. of regression.5668 Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Durbin-Watson stat.4747 ADF Test Statistic % Critical Value* % Critical Value % Critical Value *MacKinnon critical values for rejection of hypothesis of a unitroot Augmented Dickey-Fuller Test Equation - INTERCEPT Dependent Variable: D(Y) Method: Least Squares Sample(adjusted): 97: 988: Included observations: after adjusting endpoints Variable Coefficient Std. Error t-statistic Prob. Y(-) D(Y(-)) C R-squared.6458 Mean dependent var -. Adjusted R-squared.666 S.D. dependent var.75 S.E. of regression.7647 Akaike info criterion Sum squared resid.758 Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic). Le test de Dickey-Fuller simple (test d un modèle AR () sous contrainte) vise à tester si le coe cient devant la composante AR() vaut (présence de racine unité ). Trois tests sont alors possibles : sans constante, avec constante, avec trend et constante, c est à dire que l ontest des modèles de la forme suivante, [] X t = ax t + " t (sans constante, testé en haut ) ou [] X t = ¹ + ax t + " t (avec constante, en bas ), par exemple. Le processus (" t ) est supposé être un bruit blanc, lors d une modélisation ARMA, donc d espérance nulle. Et si l on cherche l espérance de (X t ), on trouve (si le processus (X t ) est e ectivement stationnaire) : [] E (X) = ae (X) +, donc si a est di érent de, E (X) = ; [] E (X) = ¹ + ae (X) +, donc si a est di érent de, E (X) = ¹=( a). Le graphique ci-dessus montrer que (X t ) oscille, en moyenne, autour de 6 : on est donc amener à tester un modèle avec constante. Et comme le montre la sortie du base, le test de Dickey-Fuller pousse à rejeter l hypothèse a =. Le modèle sans constante pousse à accepter l hypothèse H : a 6=, mais le modèle testé semble manifestement faux. Au vu du test de Dickey-Fuller, on rejette l hypothèse de présence de racine unité. 4.4 Examen de /4 Exercise 7 On considère (Y t ) un processus véri ant où (" t ) est un bruit blanc, et où (X t ) véri e Y t = X t + " t, (4) X t = ÁX t + t + µ t ; (5) où ( t) est un bruit blanc tel que E (" t s) = pour tout s;t. On suppose de plus que jáj <, jµj < et µ 6= Á. Montrer que (Y t ) est un processus stationnaire et donner sa fonction d autocorrélation.

102 Le processus (Y t ) peut s écrire Y t = X t + " t = ÁX t + t + µ t + "t = Á [Y t " t ] + t + µ t + " t car Y t = X t + " t ; = ÁY t + " t Á" t + t + µ t {z } = ÁY t + u t : Le processus (u t ) étant un somme de bruits blancs, il doit être possible de montrer que (u t ) est un processus MA (q). (on peut pas utiliser le fait que u t est la somme de deux processus stationnaires et que donc, (u t ) est stationnaire, ce résultat est en général faux (cf examen de /)). Montrons plus particulièremenet que (u t ) est un processus MA (q), en calculant ses autocorrélations, en notant que E (u t ) = (car E (" t ) = E ( t) = ), E u t ³ "t = E Á" t + t + µ t = E " t Á" t + t + µ t "t Á" t + t + µ t = E " t + Á " t + t + µ t Á" t " t + " t t + µ" t t Á" t t Áµ" t t + µ t t : En utilisant la linéarité de l espérance, et en utilisant le fait que E (" t " t ) = ((" t ) est un bruit blanc) E t t =, et E (" t t) = E t " t = E "t t = E ("t t) = ; (par hypothèse E (" t s) = pour tout s;t), cette expression se simpli e en E u t = E " t + Á E " t + E t + µ E t = + Á ¾ " + + µ ¾ ; en notant ¾ " et ¾, respectivement, les variances des deux bruits blancs (et en détaillant outragesement les calculs...). De même E (u t u t ) = E " t Á" t + t + µ t "t Á" t + t + µ t = E(" t " t Á" t " t + " t t + µ" t t Á" t + Á " t " t Á" t t µá" t t +" t t Á" t t + t t + µ t t + µ" t t Áµ" t t + µ t + µ t t ): En utilisant encore une fois la linéarité de l espérance, et le fait que E (" s " t ) = E ( s t) = pour s 6= t (hypothèse de bruit blanc), et que, par hypothèse, E (" t s) = pour tout s;t (même égaux), on note qu il ne reste plus que deux termes non nuls, E (u t u t ) = ÁE " t + µe t = µ¾ Á¾ ": Et de façon plus général, un calcul identique à celui détaillé ci-dessus donne E (u t u t h ) = pour h. On en déduit, tout d abord que, pour tout h, et pour tout t, E (u t u t h ) ne dépend pas de t : le processus (u t ) est e ectivement un processus stationnaire. De plus, compte tenu de la forme particulière des autocorrélations, on peut noter que ½ u (h) = E (u t u t h )=E u t = pour h : le processus (ut ) est un processus MA (q), où q =. Remarque : En fait, on sait juste que q =...il y avait une petite erreur dans l énoncé : il en mentionné que µ 6= Á, ce qui n a ici aucun intérêt...la condition qui aurait pu être utile était plutôt µ¾ Á¾ " 6=, qui s écrirait µ 6= Á dans le cas où les bruits ont même variance : dans ce cas, on peut en déduire que (u t ) est un processus MA () - sinon (u t ) est un bruit blanc. (tout ce qui était mentionné dans cette remarque n était, bien entendu, pas demandé). Aussi, (Y t ) est un processus ARMA (; ). Notons qu il s agit d un vrai ARMA (;) puisque les racines des polynômes autorégressuf et moyenne-mobile sont di érentes. En e et, il existe un bruit blanc v t tel que u t = v t + v t où est solution de + = µ¾ Á¾ " + Á ¾ " + + µ ¾ (ce coe cient étant obtenu en notant que pour un processus MA (), de la forme ut = vt + vt, la première autocorrélation ½ () est égale à = + ). On obtient ainsi une équation de degré, admettant deux racines (l une étant l inverse de l autre - cf exercice ).

103 Aussi, (Y t ) suit un processus ARMA (; ), qui peut d ailleurs s écrire Y t = ÁY t + v t + v t, où (v t ) est un bruit blanc. En utilisant la relation donnée dans les notes de cours (page 6), on en déduit la forme des autocorrélations, à savoir ½ () = ( + Á ) (Á + ) + + Á et ½ (h) = Á h ½ () pour h : Exercise 8 Monter que les deux processus MA () suivant ont la même fonction d autocorrélations, où (" t ) et ( t) sont des bruits blancs au sens L, et où < jµj <. X t = " t + µ" t et Y t = t + µ t, (6) Le cours étant autorisé pendant l examen (il est aussi possible de retrouver la forme des autocorrélations en moins de pages), on obtient facilement que les autocorrélations pour le processus (X t ) est données par (X t étant centré, i.e. EX t = ) et ½ X () = E (X tx t ) E (X t ) ½ X (h) = E (X tx t h ) E (X t ) = = µe " t + µ E (" t ) = µ + µ ; + µ E (" = ; pour h. t ) De façon strictement analogue ((Y t ) étant également un processus MA () que l on notera Y t = t + t, où = =µ ½ Y () = E (Y ty t ) E (Y t ) (en multipliant en haut et en bas par µ ) et E " t = ( + ) E (" t ) = + = =µ + =µ = µ µ + ; ½ Y (h) = E (Y ty t h ) E (Yt ) = = ; pour h. ( + ) E ( t ) C est à dire que pour tout h, ½ Y (h) = ½ X (h) : les deux processus ont la même fonction d autocorrélation. Exercise 9 ) Supposons que (Yt) soit un processus AR () stationnaire, et que (Xt) soit un processus MA (), soit Y t = ÁY t + " t et X t = t µ t, (7) où (" t ) et ( t) sont des bruits blancs. Si pour tout t, Z t = X t + Y t, montrez que (Z t ) suit un processus ARMA (;q) où l on précisera q? ).Soit (X t ) un processus que l on souhaite modéliser, supposé suivre un processus ARIMA (p;d;q), s écrivant ( L) d (L)X t = (L)" t, où (" t ) est un bruit blanc. Malheureusement, ce processus n est pas observable directement, et l on ne peut observer que X t = X t + Y t où (Y t ) est une erreur d observation (erreur de mesure ou bruit exogène) supposé suivre un processus ARMA ( ; ), dont le bruit associé ( t) est supposé indépendant de (" t ). Montrer que (X t ) suit un processus ARIMA (p ;d;q ) où l on précisera p et q.. Le processus (Z t ) est la somme d un processus MA () et d un processus AR (), Z t = X t + Y t = t µ t + [ÁYt + " t ]: Comme Z t = X t + Y t, et que le terme Y t est déjà apparu, faisons apparaître X t (ou plus précisément ÁX t ), Z t = t µ t + ÁY t + " t + ÁX t ÁX t = ÁZ t + µ t + " t ÁX t

104 or X t = t µ t, donc, par substitution, Z t = ÁZ t + µ t + " t Á t µ t = ÁZt + u t ; où u t = " t (µ + Á) t + Áµ t. On retrouve ici une question proche de l exercice, traitée auparavant : de la même façon, comme il est demandé de montrer que Z t est un processus ARMA (; ), montrons que (u t ) est un processus MA (). En notant que (u t ) est centré, on en déduit sa fonction d autocovariance, E u t ³ "t = E Á" t + t + µ t = E " t Á" t + t + µ t "t Á" t + t + µ t = E " t + Á " t + t + µ t Á" t" t + " t t + µ" t t Á" t t Áµ" t t + µ t t : En utilisant la linéarité de l espérance, et en utilisant le fait que E (" t " t ) = ((" t ) est un bruit blanc) E t t =, et E (" t t) = E t " t = E "t t = E ("t t) = ; (par hypothèse E (" t s) = pour tout s;t), cette expression se simpli e en E u t = E " t + Á E " t + E t + µ E t = + Á ¾ " + + µ ¾ ; en notant ¾ " et ¾, respectivement, les variances des deux bruits blancs (et en détaillant outragesement les calculs...). De même E (u t u t ) = E " t Á" t + t + µ t "t Á" t + t + µ t = E(" t " t Á" t " t + " t t + µ" t t Á" t + Á " t " t Á" t t µá" t t +" t t Á" t t + t t + µ t t + µ" t t Áµ" t t + µ t + µ t t ): En utilisant encore une fois la linéarité de l espérance, et le fait que E (" s " t ) = E ( s t) = pour s 6= t (hypothèse de bruit blanc), et que, par hypothèse, E (" t s) = pour tout s;t (même égaux), on note qu il ne reste plus que deux termes non nuls, E (u t u t ) = ÁE " t + µe t = µ¾ Á¾ " : Et de façon plus général, un calcul identique à celui détaillé ci-dessus donne E (u t u t h ) = pour h. On en déduit, tout d abord que, pour tout h, et pour tout t, E (u t u t h ) ne dépend pas de t : le processus (u t ) est e ectivement un processus stationnaire. De plus, compte tenu de la forme particulière des autocorrélations, on peut noter que ½ u (h) = E (u t u t h )=E u t = pour h : le processus (ut ) est un processus MA (). Encore une fois, le fait que q = (et que (u t ) n est alors pas un bruit blanc) est assuré en rajoutant l hypothèse µ¾ 6= Á¾ ". On peut alors conclure que (Y t) est un processus ARMA (; ).. De façon analogue, supposons que (X t ) suive un processus ARIMA (p;d;q) tel que ( L) d (L)X t = (L)" t et que le bruit d observation Y t suive un processus ARMA ( ; ), tel que A (L)Y t = B (L) t. On s intéresse alors à la somme de ces deux processus, X t = X t + Y t. Soit (L) = (L)A (L) de degrés respectif p = p +, et q = q +. Montrons qu alors ( L) d (L)X t suit un processus MA (q ), i.e. (X t ) est un processus ARIMA (p ;d;q ), ou ARIMA (p + ;d;q ). ( L) d (L) X t = ( L) d (L) A (L) [X t + Y t ] i = A (L) h( L) d (L) X t + ( L) d (L) [A (L) Y t ] = A (L) (L) " t + ( L) d (L) B (L) t = u t On notera (L) = A (L) (L) et (L) = ( L) d (L)B (L), de degrés respectifs q = a +q et q = d +p +, et q X i i (L) = µ i j Lj pour i = ;. j=

105 Pour montrer que u t est un processus MA (q ) - pour un certain q - calculons ses autocorrélations, en notant tout d abord que E (u t ) =, et montrons qu elles s annulent à partir d un certain rang. E u ³h i h i t = E A (L) (L) " t + ( L) d (L) B (L) t A (L) (L) " t + ( L) d (L) B (L) t = q X j= q µ X j E " t j + µ j E t j j= tous les autres termes étant nuls car ils sont soit de la forme E (" t j " t k ) ou E t j t k avec j 6= k, soit E "t j t k. Dans le premier cas, les termes sont nuls car (" t ) et ( t) sont des bruits blancs (et donc non-autocorrélés), et dans le second cas, les termes sont nuls car les deux bruits sont supposés indépendants (on utilise encore une fois les mêmes résultats que dans la question précédante, ainsi que dans l exercice ). ³h i E (u t u t ) = E A (L) (L)" t + ( L) d (L) B (L) t iha (L) (L)" t + ( L) d (L)B (L) t = q X j= q µ j µ j E " X t j + µ j µ j E t j j= en utilisant encore et toujours les mêmes arguments : bruits blancs indépendants entre eux. De façon plus générale, on en déduit ³h i E (u t u t k ) = E A (L) (L)" t + ( L) d (L)B (L) t iha (L) (L)" t k + ( L) d (L) B (L) t k = q X µ j µ j ke q X " t j + µ j µ j ke t j j=k j=k à condition que ces sommes soient bien dé nies, c est à dire q k et q k, sinon, ces sommes valent. En particulier, E ³h i h i u t u t q = E A (L) (L)" t + ( L) d (L)B (L) t A (L) (L)" t q + ( L) d (L)B (L) t q q X = + µ j µ j ke t j j=k et de même pour q + : aussi, on en déduit facilement que max q ;q ª + =, et de façon plus générale max q ;q ª + h = pour h. Aussi, (u t ) est un processus MA (q ) où q = maxfa + q;d + p + g. Notons que des racines communes peuvent apparaître, aussi de façon plus rigoureuse, on peut juste conclure que (X t ) est un processus ARIMA (p ;d;q ), où p p + et q maxfa + q;d + p + g. Exercise Supposons que (X t ) et (Y t ) soient deux processus tels que ½ Xt = X t + Y t + " t Y t = ±Y t + X t + t (8) où (" t ) et ( t) sont des bruits blancs mutuellement indépendants (i.e. E" t t+h = pour tout h Z), montrer que (X t ) et (Y t ) suivent tout deux des processus ARMA (; ) dont on donnera la forme (en indiquant les hypothèses éventuelles). (indice : il sera intéressant d écrire (8) sous forme matricielle M (L) Z t = " t où M est une matrice de polynômes d opérateurs retards, puis de noter qu en multipliant une matrice carrée par une autre matrice carrée (bien choisie) il est possible d obtenir une matrice diagonale). En notant Z t = (X t ;Y t ), notons que Z t véri e Z t = KZ t + u t où K = µ ± et u t = (" t ;v t ) ; soit M (L) Z t = u t où M (L) = µ L L L ±L (9) 4

106 Comme le suggère l indication donnée en n d exercice, notons que µ µ µ d b a b ad bc = : c a c d ad bc L équation (9) s écrit alors et donc µ ±L L L L µ L L L ±L µ L L L ±L Z t = u t Z t = µ ±L L L L soit, compte tenu de la relation matricielle décrite ci-dessus, µ µ ( L) ( ±L) + L ±L L ( L) ( ±L) L Z t = L L u t ; u t ; soit soit [ + ±]L + [ ± ]L µ µ X t ±L L = Y t L L ½ [ + ±]L + [ ± ]L X t = ( ±L)" t + L t [ + ±]L + [ ± ]L Y t = L" t + ( L) t u t ; : En utilisant une nouvelle fois l approche de l exercice (et de l exercice ), on peut noter que les processus ( ±L)" t + L t et L" t +( L) t sont des processus MA (): Et donc, nallement, (X t ) et (Y t ) sont des processus ARMA (; ). L hypothèse la plus important pour que ces deux processus aient e ectivement une forme ARMA (; ) est que ± 6=. Il existe en fait deux autres hypothèses, à savoir que les polynômes autorégressifs et moyenne-mobiles n aient pas de racine commune. Cette condition est toutefois relativement di cile à expliciter de façon analytique. Exercise Le but de cet exercice est de montrer que les modèles ARIMA sont préférables aux modèles AR avec des racines proches du disque unité, pour faire de la prévision. Considérons pour cela la série suivante (X t ) suivante, X ) Au vue de l autocorrélogramme, on hésite entre un modèle AR () et un modèle AR (). Jusiti ez ces deux choix. Commentez les sorties suivantes, et précisez quel modèle vous retiendriez? (les sorties présentes respectivement l estimation des coe cients, l autocorrélogramme des résidus, puis une représentation graphique suivi de l histogramme 5

107 des résidus) Dependent Variable: X Method: Least Squares Sample(adjusted): 8 Included observations: 79 after adjusting endpoints Convergence achieved after iterations Variable Coefficient Std. Error t-statistic Prob. AR() R-squared.98 Mean dependent var Adjusted R-squared.98 S.D. dependent var S.E. of regression.5865 Akaike info criterion.9599 Sum squared resid Schwarz criterion.76 Log likelihood Durbin-Watson stat.8658 Inverted AR Roots. - 5 Series: Residuals Sample 8 Observations Residual Actual Fitted Mean -.74 Median.88 Maximum.868 Minimum -.64 Std. Dev..589 Skewness Kurtosis.46 Jarque-Bera.78 Probability.66 Dependent Variable: X Method: Least Squares Sample(adjusted): 8 Included observations: 78 after adjusting endpoints Convergence achieved after iterations Variable Coefficient Std. Error t-statistic Prob. AR() AR() R-squared Mean dependent var Adjusted R-squared S.D. dependent var 8.87 S.E. of regression.644 Akaike info criterion.986 Sum squared resid Schwarz criterion.966 Log likelihood Durbin-Watson stat.96 Inverted AR Roots Series: Residuals Sample 8 Observations Residual Actual Fitted Mean Median Maximum Minimum Std. Dev..45 Skewness -.46 Kurtosis Jarque-Bera Probability.4498 ) En regardant de plus près l allure de la série, on souhaite véri er que la série n est pas intégrée. L hypothèse de présence de racine unité est-elle véri ée (la sortie du haut présentant le test ADF sans constante, en bas avec)? On 6

108 posera Y t = X t X t (représentée ci-dessous à droite) ADF Test Statistic % Critical Value* % Critical Value % Critical Value *MacKinnon critical values for rejection of hypothesis of a unit root. Augmented Dickey-Fuller Test Equation Dependent Variable: D(X) 4 ADF Test Statistic % Critical Value* % Critical Value % Critical Value *MacKinnon critical values for rejection of hypothesis of a unit root. Augmented Dickey-Fuller Test Equation Dependent Variable: D(X) Y dont on observe l autocorrélogramme suivant (ainsi que le test ADF avec constante à droite) ADF Test Statistic % Critical Value* % Critical Value % Critical Value *MacKinnon critical values for rejection of hypothesis of a unit root. Augmented Dickey-Fuller Test Equation Dependent Variable: D(Y) Quel(s) modèle(s) proposeriez vous pour modéliser la série (Y t )? Après ré exion, on propose de modéliser (Y t ) à l aide d un processus AR () et l on obtient les sorties suivantes Dependent Variable: Y Method: Least Squares Date: // Time: :46 Sample(adjusted): 8 Included observations: 78 after adjusting endpoints Convergence achieved after iterations Variable Coefficient Std. Error t-statistic Prob. AR() R-squared.586 Mean dependent var.6 Adjusted R-squared.586 S.D. dependent var.574 S.E. of regression.5 Akaike info criterion Sum squared resid Schwarz criterion.95 Log likelihood Durbin-Watson stat.9859 Inverted AR Roots Residual Actual Fitted Series: Residuals Sample 8 Observations 78 Mean.845 Median Maximum.4667 Minimum Std. Dev..5 Skewness -.66 Kurtosis.86 Jarque-Bera 6.87 Probability

109 Commentez ces sorties. ) En utilisant ces deux premières questions, proposer deux modèles pour la série (X t ). On écrira les modèles sous la forme ½ () ( L) ( L)Xt = " t (4) () ( L) ( L)X t = t (avec = si l on a retenu un modèle AR () à la première question, 6= sinon). On précisera les valeurs de,,, ainsi que la variance des bruits. 4) Donnez, dans les deux cas, une méthode pour obtenir une prévision, faite à la date T, pour un horizon h, i.e. TX T +h. 5) Donnez, dans les deux cas, la variance de l erreur de prévision, à horizon puis à horizon. Commentez.. Il ne s agissait pas, pour l instant, de commenter la stationnarité (ou non) de la série. En e et, si l on considère les autocorrélations partielles de la série, on peut noter que les deux premières (et seulement les deux premières) sont non-nulles Aussi, un modèle AR () pourrait être étudié. Néanmoins, la seconde corrélation partielle est à la limite de la borne de l intervalle de con ance. Statistiquement, on peut donc aussi considérer que cette seconde autocorrélation est nulle, ce qui pousserait à étudier un modèle AR (). Les premières sorties correspondent à l estimation du modèle AR () : si le coe cient est signi actif, notons que le résidu associé n est pas un bruit blanc. Il su t de considérer le test de Ljjung-Box (colonne de droite de l autocorrélogramme), même s il su sait de noter que les premières autocorrélations sont largement signi cative (b½ () t ;576). Un modèle AR () ne peut pas être retenu. Les dernières sorties correspondent à l estimation du modèle AR () : Les deux coe cients sont signi catifs. De plus, l hypothèse de bruit blanc du résidu peut être ici validée : les autocorrélations sont à l intervalle de con ance, et le test de Ljjung-Box con rme l hypothèse de bruit blanc. On notera d ailleurs également que l hypothèse de normalité est elle aussi validée. Aussi, le modèle à retenir est ici le modèle AR ().. L hypothèse de stationnarité semble di cile à valider en considérant l allure de la série : il est donc légitime de tester la présence, ou non, de racine unité. La série n étant pas centrée autour de, il convient de tester le modèle avec constante, dans le test de Dickey-Fuller. La sortie du bas con rme la présence de racine unité. On notera également pour la série di érenciée Y t = X t X t est stationnaire (con rmé par le test de Dickey-Fuller à droite). En notant que seule la première autocorrélation partielle est signi cative, unmodèle AR () pourrait être testé. Ce modèle est d ailleurs retenu si l on considère les sorties : le coe cient autorégressif est signi catif et l hypothèse de bruit blanc du résidu est elle aussi validée.. Ces deux premières questions nous ont permi de valider deux modèles, ½ ( ; 99L) ( ; 59L) Xt = " t ( L) ( ; 58L) X t = t Compte tenu des di érentes sorties, on peut noter que les variances associées aux deux bruits sont respectivement. Dans les deux cas, notons que la variance du bruit est quasiment unitaire. 4. Pour les deux modèles, on a exactement les mêmes prévisions : en e et, que ce soit la forme AR (Z) ( ; 99L) ( ; 59L) X t = " t ou la forme AR intégrée, ces deux modèles s écrivent, de façon plus "claire" X t = ; 58X t ; 58X t + " t : A la date T, les prévisions à horizon T + ; T +, T +... sont TX T + = ; 58X T ;58X T T X T + = ; 58 T X T+ ; 58X T = ; 58 [; 58X T ;58X T ] ; 58X T = ; 58 ; 58 X T ; 58 ; 58X T = ;9X T ; 9X T 8

110 TX T + = ; 58 T X T + ; 58 T X T+ = ; 58 ; 58 ; 58 X T ; 58 ; 58X T ; 58 [; 58XT ; 58X T ] = ; 58 ; 58 ; 58 ; 58 ;58 X T + ; 58 ; 58 ; 58 X T = ; X T ; X T ; puis TX T +4 = ; 89X T ;X T TX T +5 = ; 7X T ;9X T...etc TX T +9 = 5; 69X T + 4;X T. On retrouve ici le résultat général d un modèle AR (Z), X t = X t + X t + " t ; TX T + = X T + X T TX T + = T X T+ + X T = [ X T + X T ] + X T = + X T + X T TX T + = T X T + + TX T + = + X T + X T + [ XT + X T ] = + X T + + X T T X T +4 = T X T + + TX T + = + X T + + X T + + X T + X T = + X T + + X T et de façon plus générale T X T+k = T X T +k + T X T+k = k + (k ) X T + k + (k ) X T (ce qui peut se montrer par récurence). 5. (i) Calculons l erreur de prévision pour le modèle (), c est à dire le modèle AR (). De façon générale, peut s inverser, de façon à avoir une écriture "MA ()", ( L) ( L) X t = " t Ã! X X X t = ( L) ( L) " t = i L jl j A " t = X! i " t i où! i = i= ix k= i k k (en utilisant des résultats sur les produits de séries entières). Cette expression permet en particulier d en déduire l erreur de prévision (cf cours pour plus de détails). L erreur de prévision à horizon, T T + est " T+, dont la variance est ¾ = V (" T+ ) t. A horizon supérieur, les erreurs de prévision sont respectivement i= j= T T+ = X T + T X T+ = " T + + [ + ]" T + T T + = X T+ T X T + = " T+ + [ + ]" T " T + T T+4 = X 4 T X T +4 = " T+4 + [ + ]" T " T " T + dont les variances respectives sont V 4 = V = ¾, V = ³ + [ + ] ¾, V = ³ + [ + ] ¾ ³ + [ + ] ¾ : 9

111 (ii) Dans le cas du modèle AR () intégré, il n est pas possible d utiliser la forme MA (), puisque le polynôme ( L) n est pas inversible! Toutefois, en reprenant ce qui a été fait dans les notes de cours, on notera que, pour un processus ARIMA (; ; ), de façon formelle, ( L) ( ÁL)X t = t peut se réécrire ( L) X t = ( ÁL) t = t + Á t + Á t + Á t + ::: = X t X t : On a alors T X T+ = ( + Á)X T ÁX T = X T + Á (X T X T ) = X T + Á T + Á T + Á T + Á T + ::: alors que Aussi, De façon analogue, X T + = X T + T + + Á T + Á T + Á T + ::: T T + = X T + T X T + = T +. alors que Aussi, TX T + = ( + Á) T X T+ ÁX T = ( + Á) X T + Á T + Á T + Á T + Á T + ::: ÁX T = X T + Á ( + Á) T + Á T + Á T + Á T + ::: X T + = X T+ + T+ + Á T+ + Á T + Á T + ::: = X T + T+ + Á T + Á T + Á T + ::: + T+ + Á T+ + Á T + Á T + ::: = X T + T + + ( + Á) T+ + Á ( + Á) T + Á ( + Á) T + Á ( + Á) T + ::: T T+ = T + + ( + Á) T+. En itérant une nouvelle fois a n d expliciter clairement le résultat, alors que Aussi, TX T + = ( + Á) T X T+ Á T X T + = ( + Á) X T + Á ( + Á) T + Á T + Á T + Á T + ::: Á X T + Á T + Á T + Á T + Á T + ::: = X T + + Á + Á Á T + Á T + Á T + Á 4 T + ::: X T + = X T + + T + + Á T + + Á T + + Á T + ::: = X T + T + + ( + Á) T+ + Á ( + Á) T + Á ( + Á) T + Á ( + Á) T + ::: + T + + Á T + + Á T + + Á T + ::: = X T + T+ + ( + Á) T Á + Á T+ + Á + Á + Á T + Á + Á + Á T + ::: T T + = T + + ( + Á) T Á + Á T +. De façon générale, on en déduit que T T +h = T +h + ( + Á) T +h + + Á + Á T +h + :::: + ³ h + Á + ::: + Á On en déduit alors les variances respectives sont V = V = ¾, V = ³ + [ + Á] ¾, ³ + [ + Á] + + Á + Á ¾ T+

112 V 4 = ³ + [ + Á] + + Á + Á + + Á + Á + Á ¾ : (iii) si l on e ectue les calculs, on notera que les chi res sont ici grosso modo égaux, dans les deux cas. En fait, on peut noter que l on est dans un cas où ( L) ( L) t ( L) ( ÁL), soit + t + Á et t Á. Aussi, dans le cas (i) - forme AR (), si l on suppose avoir la même variance dans les deux cas (ce qui est d ailleurs le cas à près), V (i) = ³ + [ + ] ¾ t ³ + [ + Á] ¾ = V (ii) V (i) 4 V (i) V (i) V (i) = + + ¾ = ³ t [ + Á] Á = ¾ = ³ t [ + Á] Á ( + Á) ³ [ + ] ¾ ¾ = + Á + Á ¾ = V (ii) V (ii) h i ( + ) ( + ) ¾ ¾ = + Á + Á + Á ¾ = V (ii) 4 V (ii) Du point de vue de la prévision, il est donc équivalent de considérer un modèle AR () ou de supposer que la série di érenciée suit un modèle AR () : les prévision et les intervalles de con ances associés sont quasiment identiques. Exercise On dispose de T observations d une série temporelle, X ;:::;X T. On suppose que l on se trouve à la date T et que l on souhaite prévoir la valeur X T+h. On notera T X T+h une telle prévision, e ectuée à la date T pour un horizon h N. Une méthode proposée pour fournir une prévision est la suivante : soit une constante, appelée constante de lissage, appartenant à ]; [, et considérons T X TX T + = ( ) jx T j : (44) ) Donner une interprétation du coe cient, en particulier que signi e proche de et proche de? ) On supposera alors que T X T +h = T X T +. Montrer que la prévision T X T +h peut s écrire comme une moyenne pondérée entre la prévision faite à la date précédante (en T, i.e. T X T +h ) et la dernière observation X T. Réécrire cette expression comme la dernière prévision corrigée d un terme proportionnel à la dernière erreur de prévision, Donner l expression du coe cient. ) On considèrera ¹ dé nit par Donner l expression de ¹. Montrer en particulier que j= TX T +h = T X T +h + (X T T X T ). (45) T X ¹ = arg min j (X T j ¹) : (46) ¹ j= TX T +h = T ¹. (47) De cette dernière relation, on notera que pour T su sement grand (c est à dire si l on a beaucoup d observations), TX T +h t ¹, c est à dire que T X T +h peut être interprété comme la constante qui s ajuste le mieux à la série au voisinage de X T. 4) Comme on peut le voir, cette méthode de prévision pose un gros problème : le choix de la constante de lissage. On dira que la prévision est optimale si " T = X T T X T est l innovation du processus (X t ). Montrer que sous cette hypothèse, en utilisant la relation (45), c est à dire que (X t ) est un processus ARIMA (; ; ). ( L) X T+ = ( L)" T +,

113 . est ici un coe cient permettant de pondérer plus ou moins les observations plus ou moins lontaines. Aussi, si!, on notera que toutes les observations, ormis la première (j = ) seront très peu pondérées : dans cas, on préviligera les toutes dernières observations, au détriment des plus anciennes, dont le poids sera très très faible. De façon analogue, si!, même les anciennes observations auront un poids non négligeables.. A la date T, une prévision a horizon h a été e ectuée, en posant T X T X T +h = ( ) jx T j = ( ) X T + X T + X T + :::. De façon analogue, la prévision faite à la date T, en considérant j= T X TX T +h = ( ) jx T j = ( ) X T + X T + X T + X T + ::: j= = ( ) X T + ( ) X T + X T + X T + :::: {z } = T X T+h aussi, T X T+h est obtenu comme moyenne pondérée, avec respectivement des poids ( ) et, de la dernière observation X T, et de l ancienne prévision T X T +h. On retrouve d ailleurs ici que si!, on ne prend en compte que la dernière observation et pas la dernière prévision (on n intègre plus le passé "lointain"), alors que si!, on est assez peu sensible à la toute dernière observation, compte tenu du poids important du passé "lointain". On peut d ailleur réécrire TX T +h = ( )X T + T X T +h = ( )X T + [ ( )] T X T+h = T X T+h + ( ) [X T T X T+h ]; soit = : est alors le poids donné à la correction pour erreur de prédiction.. On note ici T X ¹ = arg min j (X T j ¹) : ¹R j= On sait (cf cours d économétrie de licence) que la moyenne est la constante minimisant l erreur quadratique : en e et, si T X h : ¹ 7! j (X T j ¹) ; alors j= T dh (¹) d¹ = X j (X T j ¹): Aussi, dh(¹)=d¹ = si et seulement si T X T X j (X T j ¹) = soit j= j= j= j T X A = j= jx T j d où nallement On peut déduire de cette expression que ¹ = T T X jx T j : j= TX T +h = T X j= jx T j = T ¹ ; aussi, avec un long historique (T grand), on note que T X T+h t ¹ (d autant plus que est petite) : cette prévision est alors la constante qui s ajuste au mieux (au sens de l erreur quadratique) à la série au voisinage de X T.

114 4. Sous l hypothèse de prévision optimale, l erreur de prévision " T = X T T X T est l innovation du processus (X t ). Et donc, en utilisant (8), T X T+h = T X T +h + ( ) [X T T X T +h ]: En remplaçant T X T par X T " T, ou, de façon plus générale, T X T +h = T X T + par X T+ " T+, on peut réécrire cette expression sous la forme soit TX T + = T X T + ( ) [X T T X T ] ou X T + " T + = X T " T + ( )" T X T + X T = " T+ " T, soit ( L) X T+ = ( L) ² T + aussi, le processus (X t ) est un processus ARMA (; ;). 5 Compléments : simulation de séries temporelles Simulation de processus en temps discret Avant de parler de simulation de processus, il convient de rapeler quelques méthodes de simulations de variables aléaoires, en particulier des lois gaussiennes. On supposera ici qu il est possible de générer les nombres aléatoires (ou pseudo aléatoires) suivant une loi uniforme sur [; ] (cf Fishman (996)) 5.. Simulation d un bruit blanc gaussien La méthode la plus simple (et la plus e cace) pour simuler des variables gaussiennes indépendantes consiste à utiliser l algorithme de Box-Müller, reposant sur le résultat suivant Lemme Si U et V sont des variables aléatoires uniformes sur [;] et indépendantes, alors X = p logu cos (¼V ) et Y = p logu sin (¼V ) suivent des loi gaussienne N (; ) indépendantes. Ceci permet de simuler aisément un vecteur "» N (; I) R d en simulant d variables uniformes indépendantes. Pour information, si l on cherche à simuler un vecteur X» N (m; ) où la matrice est une matrice de covariance (i.e. dé nie positive) que l on supposera inversible, l algorithme est le suivant : (i) trouver une matrice racine carrée de, i.e. T telle que TT = (ex: décomposition de Cholesky ) : comme est inversible, T aussi, On peut noter que Z = T (X m)» N (; I), et donc (ii) simuler n variables gaussiennes centrées réduites et indépendantes, que l on notera Z (iii) poser X = m + TZ, et alors X» N (m; ). Exemple 9 Le graphique ci-dessous correspond à la simulation d un bruit blanc, respectivement pour observations, et pour IID IID

115 5.. Simulation d un processus ARMA Simulation d un processus MA (q) Nous avons vu dans la partie précédante comment simuler une échantillon i.i.d. gaussien, " ;:::;" n correspondant à notre bruit blanc. De façon générale, pour simuler un processus MA (q) l algorithme est le suivant : (i) simuler q + n valeurs initiales d un bruit blanc " q+ ;:::;" ;" ;::::;" n (ii) à l étape i +, on pose x i+ = " i+ + µ " i + µ " i + ::: + µ q " i q+ : Exemple Les graphiques suivant correspondent à la simulation d un processus MA () de coe cient µ = :8, avec n = en haut et n = 5 en bas, et avec x t à gauche, et " t à droite, MA IID MA IID Simulation d un processus AR (p) Un processus AR (p) étant un processus Markovien, simuler un processus AR (p) revient à simuler une chaîne de Markov (d ordre p) Lemme Une chaîne de Markov d ordre sur R (ou plus généralement sur E, un espace mesurable) est une suite de variables aléatoires (X t ), t N telle qu il exsite (i) une suite (" t ) de variables indépendantes et de même loi à valeurs (ii) une application mesurable telle que pour tout t N, X t+ = (t;x t ;" t ) Pour simuler un processus AR (p) l algorithme est le suivant : (i) choisir ou simuler une valeur initiale x et simuler un bruit blanc " ;::::;" n (ii) à l étape i +, on pose x i+ = Á x i + " i+. Exemple Les graphiques suivant correspondent à la simulation d un processus AR () de coe cient Á = :8, 4

116 avec n = en haut et n = 5 en bas, et avec x t à gauche, et " t à droite, AR IID AR IID De façon générale, pour simuler un processus AR (p) l algorithme est le suivant : (i) choisir ou simuler p valeurs initiales x ;x ;:::;x p+ et simuler un bruit blanc " ;::::;" n (ii) à l étape i +, on pose x i+ = Á x i + Á x i + ::: + Á p x i p+ + " i+. Simulation d un ARMA (p;q) Un processus ARMA (p;q), de la forme (L)X t = (L) " t peut se voir comme un processus AR (p) où le bruit associé suit un processus MA (q) : il convient alors de simuler un processus MA (q) tout d abord, puis d utiliser l algorithme de simulation d un processus AR (p) en remplaçant le bruit blanc par le processus MA (q). 5.. Simulation d un processus ARC H [A INSERER] 5. Introduction à la simulation de processus en temps continu Les processus de di usion qu il peut être intéressant de simuler, en particulier en nance, sont généralement de la forme dx t = b (X t ) dt + a (X t )dw t, X = x: (48) On suppose que b et a sont lipschitziennes, i.e. il existe K > tel que ka (x) a (y)k + kb (x) b (y)k K kx yk pour tout x;y. Par exemple, dans le cadre du modèle de Black et Scholes, la dynamique des prix, sous la probabilité risque neutre s écrit dx t = rx t dt + X t ¾dW t dont la solution est X t = X exp µ r ¾ t + ¾W t Pour simuler X t, il su t alors de simuler la valeur de (W t ) à la date t, i.e. une loi normale N (;t). Pour simuler (X t ), on a recours à une approximation de (X t ), correspondant à une discretisation de l équation (48). Pour cela, considérons une partition de [;T ] en n subdivision, de taille T=n, et notons t i = it=n. Soit ± n = T=n le pas de temps, et on noter Wn i = W ti W ti. La discrétisation d Euler consiste à écrire X ti = X ti + Z ti t i b (X s )ds + Z ti t i a (X s )dw s ¼ X ti + b (X ti ) ± n + a (X ti ) W i n 5

117 ce qui conduit à considérer le processus suivant ( ex = X ex ti = ex ti + b³ X eti ± n + a³ X eti Wn i (49) ³ et simuler X et revient à simuler les accroissement Wn i» N (;± n) ; i.e ce qui revient à simuler les lois gaussienne indépendantes, centrées, de variance ± n. Sous l hypothèse où a et b sont lipschitziennes, il est alors possible de montrer (application du lemme de Gronwall ) que, pour p, Ã =p p! E sup X t ex t Cp t[;t ] n ³ c est à dire que l on a une convergence uniforme, dans L p, du processus discretisé ext vers le processus (Xt) en = p n. Ou de façon plus générale, en rajoutant des conditions de régularité sur a;b et g, on a que (en utilisant le théorème d Ito). E g (X T ) g ³ e X T C n Remarque L approximation utilisée ici, correspondant au schéma d Euler, repose sur l approximation Z ti t i a (X s )dw s ¼ a (X ti ) W i n mais une apprxomiation à un ordre supérieure est également possible. En utilisant le fait que R t i t W i i ndw s = h W i i n ±n, peut approximer Z ti t i a (X s )dw s ¼ a (X ti ) Wn i + h W a i i (X ti )a(x ti ) n ±n Aussi, le schéma d approximation (49) peut se réécrire ( e X = X ex ti = ex ti + b³ e X ti h ± n + a³ X eti Wn i + a (X ti )a (X ti ) W i i n ±n (en fait, le terme de dérive b ayant une contribution inférieure dans l erreur d approximation par rapport au terme de di usion, il est inutile de le corriger). On peut alors noter que dans le cas de cette approximation, on a, pour a et b deux fois continuement dérivables, et pour p ³ max E Xti p =p C ex ti i=;:::;n n c est à dire que la convergence L p se fait ici en =n, et non plus en = p n (dans le cas du schéma d Euler). Les références sur ce sujet sont Peter E. Kloeden et Eckhard Platen, Numerical Solution of Stochasstic Di erential Equations Springer-Verlag (995) ou encore Peter E. Kloeden, Eckhard Platen et Henri Schurz, Numerical Solution of SDE Through Computer Experiment, Springer-Verlag (997): 6 Compléments : Logiciels de séries temporelles 6. Introduction à EViews La version.de EViews semble pouvoir être téléchargée gratuitement sur le site La page étant en chinois, je décline toute responsabilité sur l usage de cette version n est pas autorisée par les éditeurs. 6

118 6.. Les données sous EViews La work le La première étape consiste à créer un work le, qui contiendra l ensemble des séries chronologiques. La démarche à suivre est de cliques sur File puis New, puis de donner un nom à la base. Il est alors nécessaire d indiquer le format des données des séries qui seront utilisées (comme cela est présenté ci-dessous à gauche) : données annuelles (annual : ), données trimestrielles (quarterly 95: 994:4), données mensuelles (monthly95: 994:), données journalières (daily :5:95 :7:994), ou sans date (undated or irregular 74). Par défaut, deux séries seront alors créees, c qui correspondra, par défaut à la constante, et resid qui correspondra (lors de régressions) à la série des résidus. Une fois créée cette work le, deux alternatives existent pour travailler avec des données : importer des données (sous format texte ou excel, par exemple), ou les générer. L importation est relativement simple, à condition que les séries soient présentées sous forme de colonnes. La procédure d importation est présentée ci-dessus à droite : il su t de cliquer sur File puis Import, puis d indiquer le format de la base à importer. Dans l exemple présenté, il s agit d importer une série au format txt : on choisit Read Text Lotus-Excel puis on va chercher la base dans le répertoire où elle se trouve (par défaut dans le répertoire où est installé Eviews ). Une fois sélectionné le chier, une autre fenêtre demande de nommer les séries dans l ordre où elle apparaissent : dans l exemple considéré, il n y avait qu une série, que nous avons appelée Serie 8. Pour générer une série, deux alternatives sont possibles : - générer une série à partir d une autre série X t : ceci arrive lorsque l on souhaite créer une série di érencier. En cliquant sur Generate Series, il su t de taper alors Z=X-X(-) pour générer la série Z t = X t X t, encore. Z=X- pour générer la série Z t = X t. On peut alors générer, de façon générale, toute série Z t = (L)X t où est un polynôme. - générer une série aléatoire : il est assez facile de simuler un échantillon gaussien, centré, de variance unitaire. A partir de ces deux méthodes, il est possible de simuler et de générer toutes sortes de séries. Une fois générée la série, il est possible de la visualiser en cliquant dessus. 6.. Les graphiques sous Eviews Plusieurs types de représentations sont possibles sous Eviews. Pour générer le graphique (standard) d une série temporelle, il su t de cliquer sur Line Graph (ci-dessous à gauche). Une fois le graphique obtenu (ci-dessous au centre ), il est possible d obtenir la fenêtre associée au module graphique, permettant de changer les di érents 8 Dans le cas de l importation de séries d un chier MSExcel, EViews demande à quelle cellule comme les bases : en commençant en B par exemple, il prendra les séries B:Bn, C:Cn, D:Dn,... oùncorrespond au nombre de valeurs des séries de la work le (nombre des valeurs+ en fait). Là encore les séries sont toujours en colonne. 7

119 paramètres, En particulier, le type de graphique peut être modi é (lignes simples, lignes avec points pour les valeurs, histogramme...etc), les échelles...etc Il peut être alors intéressant de copier un graphique dans un document Word (ou tout autre traitement de texte). Le plus simple est de cliquer sur Edit puis Copy a n de copier le graphique en mémoire (plusieurs options sont néanmoins possibles : copier en couleur, copier en noir et blanc - cette dernière option étant la plus intéressant si l on est amené à imprimer en noir et blanc, les traits de di érentes couleurs étant alors tranformés en traits de forme di érentes : traits plein, pointillés, di érentes épaisseurs...). Il est alors soit d enregistrer le chier en tant que chier wmf, soit de le copier, avant de le coller dans un document externe, 8

120 Il su t, une fois copier le graphique, de retrourner sur le document Word et d y coller l image. 6. La régression linéaire sous Eviews Considérons la sortie suivante, obtenue sous EViews, LS // Dependent Variable is Y Sample: 4 Included observations: 4 Variable Coefficient Std. Error T-Statistic Prob. () () () (4) C X X X R-squared.7687 (5) Mean dependent var () Adjusted R-squared.649 (6) S.D. dependent var () S.E. of regression (7) Akaike info criterion.47 () Sum squared resid (8) Schwartz criterion.6 (4) Log likelihood -.87 (9) F-statistic (5) Durbin-Watson stat () Prob(F-statistic).545 (6) Ce type de sortie correspond à des sorties obtenues en économétrie, lors de l estimation des paramètres du modèle linéaire Y i = X i + X i + X i + 4X 4 i + " i qui se réécrit de façon matricielle Y i = X i + " i. Supposons que nous avons un échantillon Y ;:::;Y n et X i ;:::;Xi n de n observations. On supposera l hypothèse (H) sur les résidus " t ; de stationnarité au second ordre : - les résidus sont centrés E (" i ) = - la variance des résidus est constante : V (" i ) = (homoscédasticité) - les résidus sont non-autocorrélés : cov (" i ;" i h ) = pour tout h 6= Dans les procédures de tests, nous ajouterons une hypothèse supplémentaire : - les résidus sont gaussiens : " i s N ;¾ Dans l exemple développé ci-dessus, les résidus, et la courbe by i ajustée sont représentés ci-dessous à gauche. La sortie de droite donne di érentes statistiques sur b" i = Y i by i, Residual Actual Fitted Series: RESID Sample 4 Observations 4 Mean -.7E-5 Median.9658 Maximum Minimum Std. Dev Skewness.467 Kurtosis.8694 Jarque-Bera.946 Probability.86 Pour information, les observations étaient les suivantes, Y X X X by :6 5:6 6:8 7:6 : : 9:8 9:4 5:49 :4 :8 : 7:9 :4 b" :84 :6 :8 :6 :7 : : :4 4:49 :76 :8 :9 :9 :4 (Source : Bourbonnais,998). 9

121 6.. Estimation des paramètres () () L estimation par la méthode des moindre carrés ordinaires donne La valeur de cette estimation est donnée en (). b = (X X) X Y Propriété b est un estimateur sans biais, linéaire, de Preuve. E³ b = (X X) X E (Y ) puisque la matrice X est supposée constante, et que l espérance est un opérateur linéaire. Et puisque E (" t ) = par hypothèse, alors E (Y ) = X et donc E³ b = (X X) X X = Théorème Gauss-Markov - b est l estimateur, linéaire en Y, sans biais de, dont la variance est minimale Cet estimateur sera quali é de BLUE - Best Linear Unbiaised Estimator (meilleur estimateur linéaire sans biais). Sous l hypothèse où (" t ) est gaussien, soit " t s N ;¾, on a le résultat suivant Propriété b est un estimateur gaussien, centré en de variance (X X) ¾ La variance ¾ des résidus peut être estimée par s = n p ky X k = n p b" b" où p est le nombre de paramètres. Cet estimateur est alors sans biais. L écart-tpye des estimateurs, donné en () est alors estimé par ³ r s b = n p (X X) ky X k On notera par la suite b Y t = X t b. Exemple Dans l exemple présenté dans l introduction, on a 45 4 X = B.... A, X X = dont l inverse est Aussi (X X) = :7 :5 : :76 :5 : : : : : : : :76 : : : :7 :5 : :76 :5 : : : : : : : :76 : : : {z } (X X ) CB A@ C A {z } Exemple Toujours dans cet exemple, la variance des résidus est estimée par s X4 = b" i 4 = 67:45 = 6:745 La matrice de variance-covariance des estimateurs est alors estimée par b = s (X X) = i= X Y = :66 :9 :5 :5 C A :89 :8 :8 :7 C A C A {z } b les valeurs sur la diagonale correspondant aux variances des coe cients de la régression. C A

122 6.. Statistique de Student F () (4) La statistique de Student Le but est de tester ici le caractère signi catif des coe cients de la régression. On teste, pour chaque coe cient, H : i = contre l hypothèse alternative i 6=. Pour cela, utilisons le théorème de Pythagore, correspondant de la décomposition de la variance X Yi Y = X³Y i by i + X ³ Y bi Y n {z } n {z } n {z } variance totale variance résiduelle variance expliquée qui peut aussi s écrire kb" t k = Y Xb + X Xb On peut alors montrer (théorème de Cochran ) que Y X b ¾ suit un Â (n p ) Donc, en remplaçant ¾ par son estimateur, on peut montrer, toujours sous l hypothèse de normalité de " t que ³ i b i t n p = r P h ip n p ³Y i by i (X X) i;i suit r un t de Student à n p degrés de liberté. En e et, sous H, b i suit une loi normale centrée, de variance h i ¾ (X X). i;i La statistique t n p doit alors être comparée à la valeur donnée dans la table de Student. Dans le cas où t n p est supérieur à la valeur indiquée dans le tableau, on rejette H : le coe cient est signi cativement non nul.

123 Exemple 4 En reprenant l exemple de l introduction, la T -stat étant le ratio de la valeur estimée sur l écart-type estimé, on obtient t () = :89 :66 = :868 et t() = :89 :9846 = :687 t () = :86 :5658 = :45564 et t(4) = :7 :5 = :7768 Ces valeurs sont alors à comparer avec le quantile de la loi de Student à n p = degrés de liberté. D après la table ci-dessus, t 5% = :8 : si les premiers coe cients (la constante, X et X ) sont signi catifs, le dernier (X ) ne semble pas l être. Il conviendrait alors d enlever cette variable du modèle, et de refaire une estimation sans cette variable Puissance d un test, ou p-value La variable (4) correspond à la p-value (ou puissance) du test. Considérons deux hypothèses, dont une seule est véri ée, H (hypothèse à tester) et H (hypothèse alternative). Il y a 4 cas possibles à distinguer, suivant la décision prise (valider H ou rejetter H ) et la vérité (H était, ou n était pas, véri ée) : (i) valider H et H était vraie : bonne décision (ii) valider H alors que H n était pas vraie : mauvaise décision (iii) rejeter H (et valider H ), alors que H était vraie : mauvaise décision (iv) rejeter H et H n était pas véri ée : bonne décision Deux types d erreurs sont alors possible : - rejeter à tort H : cas (iii) ; erreur de première espèce - probabilité - accepeter à tort H : cas (ii), erreur de seconde espèce - probabilité Dé nition 4 On appelera puissance du test, ou p-value, la probabilité, probabilité de rejetter H en ayant raison. On peut montrer que et varie en sens inverse, aussi, plus sera petit, plus sera petit : miniser la puissance revient à minimiser le risque de première espèce. Dans le cas de la régression linéaire, et du test de signi cativité des coe cients, une très faible p-value signi e que l on a peu de chance de rejeter H à tort. Exemple 5 En reprenant l exemple de l introduction, les T-stats sont t () = :868, t () = :687, t () = :45564 et t (4) = :7768 Ces valeurs sont à comparer avec les quantiles de la loi de Student à n p = degrés de liberté : º :6 :5 :4 : : : :5 : : :54 :7 :879 :9 :7 :8 :8 :764 :69 Pour le dernier coe cient t = :7768 : ceci correspond à une probabilité comprise entre :4 (t = :879) et :5 (t = :7). t étant proche de :7, on peut e ectivement s attendre à avoir une p-value proche de :5. Pour le premier coe cient (la constante), t = :8 : ceci correspond à une probabilité comprise entre : (t = :69) et : (t = :764). t étant proche de :76, on peut e ectivement s attendre à avoir une p-value proche de :. Remarque 4 La p-value peut servir pour savoir si l on accepte ou si l on rejette l hypothèse H : une faible valeur de p pousse à rejetter H. Pour savoir si c est bien ou pas d avoir une faible valeur, il est important de rappeler l hypothèse H : - pour le test de Student (T -stat), H correspond à la nullité du coe cient : si p est faible, le coe cient peut être jugé comme signi catif - pour le test de Fisher (F -stat), H correspond à la nullité de tous les coe cients : si p est faible, le modèle peut être jugé comme signi catif - pour le test de Box-Pierce, H correspond à l hypothèse de bruit blanc : si p est faible, on rejette l hypothèse de bruit blanc des résidus

124 6.. Coe cient R (5) (6) Coe cient R Le coe cient R est le coe cient de corrélation entre la série Y ;:::;Y n et la série estimée by ;:::; by n. Le carré de ce coe cient s interprète alors en termes de variance expliquée : R = Variance expliquée par la régression Variance totale de Y = P Yi Y P ³ Y i by i P Y Y Y Y q Ŷ EL(Y,X X k ) = Constantes Le coe cient R est le cosinus de l angle formé par Y Y et b Y Y dans R n, où Y est le vecteur Y I. Remarque 5 Il est toujours possible d augmenter arti ciellement un R : considérons p + variables Xt i, alors on a toujours ³ R Xt ;:::;Xt p ;Xt p+ R Xt ;:::;Xt p Pour augmenter un R, il su t de rajouter une variable explicative. Si l on se xe uniquement un critère de maximisation de R dans le cadre d une modélisation, le meilleur modèle prendra en compte toutes les variables possibles. Le coe cient R peut être calculé à l aide de la relation suivante P n R i= = b" i P n i= Yi Y Il faut toutefois prendre des précaution lors de l utilisation du R : un coe cient ne mesure que de la dépendance linéaire. Exemple 6 Considérons X i = i et Y i = i pour i = ;:::;n. Pour n =, on obtient le modèle Y i = 5:9 (8:5) + : (9:8) X i avec un R = :94 Ce modèle peut paraître très signi catif (R = 94%) mais ne peut pas être utilisé pour autant : Durbin Watson :DW = :57. Coe cient R ajusté - R dans le modèle, Le R ajusté, noté R, permet de prendre en compte le nombre de variables utilisées R = (n ) R p n p = n P n i= b" i n p P n i= Yi Y où n est le nombre d observations, et p le nombre de variables explicatives (y compris la constante). Ce coe cient ajusté est plus intéressant que le R puisqu il prend en compte le nombre de variables explicatives. Exemple 7 En reprenant l exemple de l introduction, en notant que P n i= b" i = 67:45 et que P n i= Yi Y = 6:86, on alors R = 67:45 6:86 = :7 et le R ajusté est R = n R = 4 ( :7) = :6 n p 4 4

125 6..4 Somme des carrés (7) (8) La variable (8) est la somme des carrés des résidus, SQR = SCR = s = La variable (7) est l écart-type de la régression, c est à dire ¾, écart-type des erreurs " i. Cette valeur est estimé par SER = p s où s 4X = b" i 4 = 67:45 = 6:745 Exemple 8 En reprenant l exemple de l introduction, on a SCR = P n i= b" i = 67:45 et donc i= nx i= b" i SER = s où s = 4 X4 i= b" i = 67:45 = 6:745 donc SER = p 6:745 = : Log-vraissemblance du modèle (9) La valeur donnée en (9) correspond à la log-vraissemblance du modèle. On suppose là encore que les erreurs " i sont normalement distribuées, centrées, de variance ¾. L idépendance des " i implique que " = (" ;:::;" n ) suit une vecteur gaussien, N ;¾ I n n. Aussi, Y suit un vectuer gaussien Y s N X ;¾ n n I. Aussi, conditionnellement aux vecteurs X j, j = ;:::;p, aux vecteurs des coe cients de la régression, et à ¾, la distribution des Y i est normale : f " Y i jx ;i ;:::;X p;i ; ;¾ = p exp (Y # i X i ) ¼¾ ¾ en notant X i = (X ;i ;:::;X p;i ) : Les observations étant supposées indépendantes, la distribution jointe des Y i est f (Y ;Y ;:::;Y n ) = f (Y ) f (Y ) ::: f (Y n ) = exp (Y X ) (Y X ) (¼¾ n= ) ¾ Aussi, la vraissemblance du modèle est ` ;¾ jy;x = (¼¾ ) n= exp (Y X ) (Y X ) ¾ et la log-vraissemblance s écrit alors log` ;¾ jy;x = n log ¼ n log¾ (Y X ) (Y X ) ¾ Aussi, la log-vraissemblance empirique du modèle, donnée dans (9), est L = n log ¼ n logs (Y X ) (Y X ) s où s = n p Exemple 9 En reprenant l exemple de l introduction, on a s = 6:745 et donc L = 4 log ¼ 4 log 6:745 4 nx b" i = n p (Y X ) (Y X ) i= = :87 Remarque 6 Lors d une comparaison entre modèles, un critère de choix peut être basé sur cette vraissemblance : le meilleur modèle aura une plus grande vraissemblance, ce qui revient à minimiser L (L étant toujours négatif par construction). 4

126 6..6 Test du Durbin-Watson () Le test du Durbin-Watson permet de détecter une autocorrélation des résidus d ordre, sous la forme et le test d hypothèse s écrit " t = ½" t + t où t s N ;¾ H : ½ = contre H : ½ 6= Pour tester l hypothèse H, la statistique de Durbin Watson utilisée est DW = P n t= [b" t b" t ] P n t= b" t où les b" t sont les résidus de l estimation du modèle. De part sa construction, cette statistique est comprise entre et 4. On peut aussi montrer que DW = lorsque b½ = (b½ étant le ½ observé). A n de tester H, Durbin et Watson ont tabulé les valeurs critiques de DW au seuil de 5% en fonction de la taille de l échantillon de la taille de l échantillon n et du nombre de variables explicatives p (k dans le tableau ci-dessous ). La lecture de la table permet de déterminer deux valeurs d et d comprises entre et qui peuvent délimiter les régions suivantes : r> r= r<?? d d 4-d 4-d 4 Selon la position de DW on peut conclure : - si d DW 4 d : on accepte l hypothèse H : ½ = - si DW d : on rejette H : ½ > - si 4 d DW 4 : on rejette H : ½ < Dans le cas où d < DW < d ou 4 d < DW < 4 d, nous sommes dans un cas d indétermination : il est impossible de conclure dans un sens ou dans un autre. Ces règles de décision sont illustrée ci-dessous, 5

127 Les coe cients de Durbin & Watson sont indiqués ci-dessous Toutefois, règles doivent être véri ées (voir construction et démonstration du test : Gourieroux & Monfort ), - le modèle doit comporter un terme constant (sinon d autres tables existent ) - la variable à expliquer ne doit pas gurer parmi les variables explicatives (en tant que variable retardée) Cette statistique ne permet de tester que la forme AR () des résidus. Là aussi, d autres tests existent pour tester une forme " t = ½" t h + t pour h 6= Dependent var () () Les valeurs () et () sont des informations sur la variable Y à expliquer : sa moyenne empirique () et son écart-type () Critère d Aikaïké () et de Schwarz (4) Le critère d Akaike - AIC Ce critère est utilisé pour choisir un modèle, et comparer des modèles. Ce critère mesure la distance entre les densités de probabilité observée et estimée. Dans le cas d une estimation par moindre carrés, ce critère mesurera l écart entre les résidus et la distribution gaussienne. Ã! nx AIC = log b" i + p n n Le critère de Schwarz - BIC ou SC par Akaike, i= Le critère de Schwarz est un critère légèrment di érent de celui introduit SC = log Ã n nx i= b" i! + p logn n De la même façon que pour la vraissemblance, un critère de choix peut être de minimiser SC ou AIC Statistique de Fisher F (5) (6) Ce test est une généralisation des tests de Student, vus dans la partie (6::) : on va tester ici la nullité de l ensemble des coe cients de la régression : H : = ::: = p = contre H : il existe j tel que j 6=. 6

128 Ce test est un cas particulier des tests de relation linéaire entre les coe cients, de la forme A = µ où A est une matrice de rang q. On pose b Y la solution des moindres carrés ordinaires, soit b Y = X (X X) X Y, et b Y la solution des moindres carrés ordinaires contraints (contrainte A = µ). On peut alors montrer que si H est vraie, n p p Y b Y Y b Y Y by = F (p ;n p) où p est le nombre de variables, incluent la constante. Ce test permet en particulier de faire un test simultané de tous les coe cients de la régression : Les valeurs F sont alors à comparer à Exemple 4 En reprenant l exemple de l introduction, la statistique de Fisher, permettant de tester la signi cativité globale de la regression à variables 9 (X ;X ;X ), est donnée par F = n p p R R = :7 :7 = 7:878 Cette valeur est à comparer avec le F de Fisher à et degré de liberté : t 5% ; = :7. F étant plus grande que t 5% ;, nous rejetons l hypothèse de nullité de tous les coe cient : la régression est globalement signi cative. La puissance du test est obtenue de la même façon que pour le test de Student : elle permet de con rmer que la regression est globalement signi cative. 6.. Statistique sur les résidus Dans la partie intiale, nous avons montré des sorties statistiques sur les résidus. Parmi les di érentes statistiques, en plus des 4 premiers moments (moyenne, variance/dispersion, skewness/asymétrie, kurtosis/épaisseur des queues), un test de normalité est donné. La variance b¾ n est pas ici exactement la même que s. En e et, s = n p nx b" t = i= 4 9 Ce test inclus toujours la constante comme variable explicative. 4X i= b" i = 67:45 = 6:745 7

129 alors que s = n nx i= b" t = 4 X4 i= b" i = 67:45 = 5:88 Test de Jarque-Berra Un test possible est celui de Bera et Jarque (984), basé sur le skewness (coe cient d asymétrie de la distribution) et la kurtosis (aplatissement - épaisseur des queues). En notant ¹ k le moment d ordre k de la distribution, ¹ k = E ³[X k E (X)], on appelle skewness le coe cient s = ¹ =¹ = et kutosis k = ¹ 4 =¹. Sous des hypothèses de normalités, on a normalité des estimateurs du skewness et de la kurtosis, ³ s! L N ; p ³ 6=n et k! L N ; p 4=n quand n! Le test de Bera & Jarque repose sur le fait que, si la distribution suit une loi normale, alors la quantité BJ = n 6 s + n [k ] 4 suit asymptotiquement une loi du Â à degrés de liberté. Aussi, si BJ Â () on rejette l hypothèse H de normalité des résidus au seuil. Exemple 4 En reprenant une dernière fois l exemple développé dans l introduction, le skewness empirique vaut :467 et la kurtosis empirique :8694. La statistique de Bera-Jarque est alors BJ = 4 6 : [:8694 ] = :4 + :966 = :9 Cette valeur est alors à comparer au quantile de la loi du Â. 6.. Copier/coller des sorties dans un rapport Les écrans présentés ci-dessous montrer comment estimer un modèle AR () (sans constante : pour rajouter la constante, il su t de rajouter c dans l équation à estimer). Il su t de cliquer sur Quick et Extimate Equation. La méthode est toujours la même : on écrit l équation linéaire économétrique que l on cherche à estimer (Z = Y + X + + "), avec comme première variable la variable à expliquer (Z), puis la liste de toutes les autres variales (Y, X et la constante) : on tape alors Z Y X c. De la même façon en série temporelle, pour estimater un modèles 8

130 ARMA pour une série (X t ), tape X t puis les composantes AR et MA que l on souhaite prendre en compte : par exemple, l écriture X AR() AR(5) MA() MA() permettra de tester et d identi er le modèle X t = X t + X t 5 + " t + " t + ±" t Dans le cas présenté ci-dessous (SERIE AR()) on estime un modèlear (), ne prenant en compte que le ème retard, sur la série Serie (présentée dans l introduction sur EViews ) Il est possible, de la même façon que nous avions vu comment coller un graphique (quel qu il soit ), de coller des sorties chi rées (sortie d une régression dans l exemple qui nous intéresse, mais aussi sorties de di érents tests proposés sous EViews ). La méthode la plus simple est alors de sélectionner le texte de la sortie (ci-dessous à gauche), de le copier en cliquant sur Edit et Copy, et de sélectionner les options adéquates proposées dans la fenêtre représentée en bas, L option la plus utile est ici Formatted (à moins de souhaiter les valeurs des paramètres et des statistiques avec chi res signi catifs ). Une fois copiée la sortie, il su t là encore de retourner sous le traitement de texte, et d y copier les informations copiées (ci-dessus à droite). A n d avoir une sortie sous un format proche de celui obtenu sous EViews, il est alors générallement possible de changer la police de caractère (en général Time New Roman par défaut ) et de sélectionner une police plus proche de celle utilisée sous Eviews ( Courier New par exemple). La sortie reformattée est présentée ci-dessous. Il est toutefois possible que les espaces ne soient pas ajustés de façon optimale, et il su t de 9

131 quelques suppression d espaces pour avoir une sortie présentable. 6.. La régression linéaire sur d autres logiciels Les parties précédantes ont montré comment lire des sorties d estimations de modèles linéaires, obtenues sous Eviews. Les sorties obtenues sont relativement générales, et tous les logiciels fournissent les mêmes informations en sortie. Nous allons présenter tout d abord les sorties sous S-Plus, qui peuvent être obtenues, comme sous EViews, sans ligne de programmation, en utilisant uniquement les menus déroulants. Nous évoquerons ensuite les sorties sous SAS et sous RATS. La régression linéaire sous S-Plus forme suivante Les sorties sous S-Plus se présentent (toujours sur l exemple initial) sous la *** Linear Model *** Call: lm(formula = Y ~ X + X + X, data = data.exemple.reg, na.action = na.omit) Residuals: Min Q Median Q Max Coefficients: Value Std. Error t value Pr(> t ) (Intercept) X X X Residual standard error:.597 on degrees of freedom Multiple R-Squared:.77 F-statistic: on and degrees of freedom, the p-value is.545 La variableintercept correspond (comme sous SAS) à la constante. La première partie donne des informations quantitatives sur le résidu de la régression (moyenne, quartiles, médiane...). L estimation est la même que celle sous EViews, avec l estimateur des coe cients, son écart-type estimé, la statistique de Student, et sa p-value. En n, S-Plus donne la residual standard error, le R du modèle, la statistique de Fisher, et sa p-value. La régression linéaire sous SAS La régression linéaire se fait à l aide de la commande suivante PROC REG; MODEL Y = X X X;

132 SAS fournit alors la sortie suivante Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE.5977 R-square.77 Dep Mean Adj R- sq.65 C.V Parameter Estimates Parameter Standard T for H: Variable DF Estimate Error Parameter = Prob > T INTERCEP X X X Là encore, la sortie est assez proche de celles obtenues à l aide des autres logiciels. En particulier, le tableau du bas correspond à ceux déjà obtenus (estimateur des coe cients, son écart-type estimé, la statistique de Student, et sa p-value). Tout un ensemble d indicateurs est toutefois donné auparavant, dans la partie Analyse de la Variance : - la somme des carrés de erreurs (SCR) : ligne Error, colonne Squares = 67: la statistique de Fisher : F Value = 7:878, ainsi que la p-value associée (Prob>F) = :55 - l écart-type de la régression : Root MSE = : la moyenne de la variable Y : Dep Mean = 7:749 - le coe cient de variation : C.V. = 4:6687. Ce coe cient correspond au rapport Root MSE/Dep Mean exprimé en pourcentage, CV = :5977=7:49 - le R : R-square = :77 - le R ajusté, R : Adj R-sq = :65 La régression linéaire sous RATS La régression linéaire se fait à l aide de la commande suivante RATS fournit alors la sortie suivante linreg Y residus; #constant X X X; Dependent Variable Y - Estimation by Least Squares Usable Observations 4 Degrees of Freedom Total Observations 4 Skipped/Missing Centered R**.7687 R Bar **.649 Uncentered R**.9854 T x R**.796 Mean of Dependent Variable Std Error of Dependent Variable Standard Error of Estimate Sum of Squared Residuals Regression F(,) Significance Level of F.545 Durbin-Watson Statistic Q(6-) Significance Level of Q.4876 Variable Coeff Std Error T-Stat Signif ************************************************************************. Constant X X X Là encore, la sortie est assez proche de celles obtenues à l aide des autres logiciels. En particulier, le tableau du bas correspond à ceux déjà obtenus (estimateur des coe cients, son écart-type estimé, la statistique de Student, et sa p-value). Tout un ensemble d indicateurs est toutefois donné auparavant :

133 - le R : Centred R** = : le R ajusté, R : R Bar** = :649 - un R non centré : Uncentred R** = : la variable N R : T x R** = : = :769 - la moyenne de la variable Y : Mean of Dependent Variable = 7:749 - l écart-type de la variable Y : Std Error of Dependent Variable = 4: l écart-type de la régression : Standard Error of Estimate = :5977 (=s - indiqué en (7)) - la somme des carrés de erreurs (SCR) : Sum of Squared Residuals = 67: la statistique de Fisher : Regression F(,) = 7:878, ainsi que la p-value associée (Significance Level of F) = :545 - la statistique de Durbin Watson : Durbin Watson Statistic = : la statistique Q de : Q(6-) = 5:898588, ainsi que la p-value associée (Significance Level of Q) = :4876 Cette statistique Q correspond à celle de Box-Pierce, Statistique de Box-Pierce Q, ou test de portmanteau Le test de Box-Pierce permet d identi er les processus de bruit blanc (i.e. les processus aléatoires de moyenne nulle, de variance constante et non autocorrélés ) Cette statistique permet de tester cov (" t ;" t k ) = pour tout k, soit ½ (k) = pour tout k. Ce test s écrit ½ H : ½ () = ½ () = ::: = ½ (h) = H a : il existe i tel que ½ (i) 6= Pour e ectuer ce test, on utilise la statistique de Box et Pierce (97) Q, donnée par Q h = T où h est le nombre de retards, T est le nombre d observations et b½ k l autocorrélation empirique. Asymptotiquement, sous H, Q h suit un Â à h degrés de liberté. Nous rejetons l hypothèse de bruit blanc au seuil h si Q est supérieure au quantile d ordre ( ) de la loi du Â à h degrés de liberté. Une statistique ayant de meilleurs propriétés asymptotiques peut être utilisée : Q h = T (T + ) hx k= b½ k hx k= b½ k T k qui suit asymptotiquement, sous H une loi du Â à h degrés de liberté. Ces tests sont appelés par les anglo-saxons portmanteau tests, soit littéralement tests fourre-tout. RATS e ectue le test pour h = 6. Exemple 4 Dans l exemple précédant, Q 6 = 5: qui est à comparer avec la quantile de la loi de Â à 6 degrés de liberté : :645, ce qui conduit à rejeter H, hypothèse de bruit blanc des résidus. Ce rejet est con rmé par le faible niveau de la p-value. 6. Lecture de l autocorrélogramme sous Eviews Sous EViews, les autocorrélogrammes se présentent sous la forme suivante () () () (4)

134 Les courbes à gauche correpondent à l autocorrélogramme de la série, et à son autocorrélogramme partiel. Les valeurs des séries sont données respectivement en () et en (). L autocorrélogramme () correspond à ½ (h) = corr (X t ;X t h), estimé à partir de l échantillon par c½ T (h) = c T (h) c T () où c T (h) = T h T X h t= Xt X T Xt h X T La fonction d autocorrélation partielle () correspond à Ã X (h) dé ni parpar Ã X (h) = corr (X t h EL (X t h jx t ;:::;X t h+ );X t EL (X t jx t ;:::;X t h+ )) Le test () est la valeur du test de Ljung-Box, et la valeur (4) étant la puissance de ce test. Remarque 7 Contrairement aux sorties de régression et aux graphiques, il est assez di cile de copier les données de l autocorrélogramme, qui ne correspondent ni à un image (comme pouvait l être un graphique : les autocorrélations ou la Q-stat sont présentés sous format texte : il est possible de copier dans un document la valeur exacte de l autocorrélation), ni à du texte (les graphiques de gauche - autocorrélogrammes - seraient alors copiés sous une forme di cilement exploitable). La méthode la plus simple semble alors être d utiliser la copie d écran. Pour cela, il su t générallement de cliquer simultanément sur les touches XXX et Impr écran sur le clavier, et de coller l image dans le traitement de texte. 6.4 Estimation d un modèle ARM A sous Eviews Considérons la série Z t (représentée à gauche), et considérons la modélisation ARMA (; ), dont l estimation donne les résultats ci-dessous à droite Z LS // Dependent Variable is Z Sample: 798 Included observations: 796 after adjusting endpoints Convergence achieved after 5 iterations Variable Coefficient Std. Error T- Statistic Prob. AR() AR() MA() R-squared.74 Mean dependent var.77 Adjusted R- squared.6895 S.D. dependent var.9 S.E. of regression. Akaike info criterion.4586 Sum squared resid Schwartz criterion.6 Log likelihood -4.8 F-statistic 8.85 Durbin-Watson stat.555 Prob(F-statistic). Inverted AR Roots i.8+.57i (7) Inverted MA Roots.5 Cette sortie (obtenue sous EV iews) est très proche de la sortie d une régression linéaire que nous avions déjà commenté en (6:). Seule la ligne (7) n apparait pas lors d une simple régression linéaire 6.4. Racines des polynômes AR et MA (7) L information supplémentaire, correspondant à la sortie (7) correspond à l inverse des racines du polynôme ARMA. Dans l exemple que nous avons considéré ici, les inverses des racines du polynôme AR sont :8 :57i, et l inverse de la racine de la composante MA est :5. Deux résultats importants sont à noter : - les racines sont à l extérieur du disque unité (les inverses étant à l intérieur), et ne sont pas de module égal à - les racines du polynôme AR et du polynôme MA sont distinctes La sortie ci-dessous à gauche correspond à l estimation d un modèle ARMA (; ), et à droite, d un modèle ARMA (; ) Toute autre suggestion de méthode sera la bienvenue.

135 Comme nous pouvons le noter, nous retrouvons des racines très proches de celle obtenu dans le cas ARMA (; ), mais nous obtenons une racine commune ( :45) aux deux polynômes : le processus ARMA n est alors plus sous la forme minimale. Dans ce cas, aucun des coe cient n apparait comme signi catif, même si les R et la statistique de Fisher sont identiques pour les modèle. En fait, toutes les statistiques sont identiques pour les deux modèles : nous obtenons exactement le même modèle Tests sur les erreurs " t Un grand nombre de tests et d information peuvent être obtenus sur le processus " t, Residual Actual Fitted Les écrans ci-dessous montrent l ensemble des tests qu il est possible de faire sur les résidus. Autocorrélogramme des erreurs L autocorrélogramme permet de tester l hypothèse de bruit blanc des erreurs, ou plutôt le caractère non-autocorrélé des erreurs. Dans notre exemple, les premières valeurs de la p-value de la statistique Q de Ljung Box n apparait pas, correspondant aux termes du modèles ARMA (; ) ( coe cients autorégressifs et coe cient moyenne mobile). Sur l exemple ci-dessous, la p-value (toujours très élevée) permet de valider l hypothèse de bruit-blanc de l errreur " t, 4

136 Distribution (marginale) des erreurs Les statistique de la distribution des erreurs permettent de tester l hypothèse de normalité des erreurs " t. Encore une fois, si cette hypothèse ne fait pas partie des hypothèses de base des modèles ARMA, cette hypothèse est nécessaire pour faire tous les tests de validation du modèle (Student, Fisher, vraissemblance). Tests LM et modélisation ARCH des résidus Test LM - test de Breusch-Godfrey Ce test est (de même que le test de Durbin Watson ) un test d autocorrélation des erreurs " t. Toutefois, cette procédure permet de tester l autocorrélation à des ordres plus élevés que l ordre, comme c était le cas pour le test de Durbin Watson. Supposons que nous ayons testé le modèle (L)X t = (L) " t, et que l on souhaite tester une autocorrélation des erreurs de la forme mx " t = Ã i " t i = ª (L) " t i= Le test du multiplicateur de Lagrange mis en place par Breusch et Godfrey vise à tester l hypothèse H : Ã i = pour tout i. Pour cela, on considère le modèle( ) (L)X t = (L) ª (L) " t : sous l hypothèse H, alors (n m)r suit un chi-deux à m degrés de liberté. En l occurence, EViews teste une forme MA () pour les erreurs "t. Sur l exemple étudié, on peut noter que la statistique de Fisher du modèle ( ) vaut :6, avec une p-value de 87%, et le la statistique (n m) R est nulle. Ce test permet de rejeter l hypothèse où les erreurs " t suivent un modèle MA () : 5

137 Modélisation ARCH () des erreurs Il est également possible de tester si les erreurs " t suivent un modèle ARCH (). La sortie obtenue sous EViews présentent la statistique de Fisher et le R du modèle (L) X t = (L)" t où " t suit un processus ARCH (). De plus, EViews donne les résultats de l estimation des paramètres du modèle ARCH () ajusté sur la série " t ; q " t s t c + " t où t est un bruit blanc Si la constante est signi cative sur l exemple présenté, le paramètre l est nettement moins (statistique de Student valant :8, correspondant à une p-value de 4%) : l hypothèse ARCH () des erreurs est rejetée. 6.5 Les sorties de la procédurearima soussas Les sorties ci-dessous correspondent à l estimation à l aide de la procédure ARIMA de SAS d un modèle de type ( L) L 4 ( L)Z t = L L " t pourune variable Z. La première sortie correspond à l autocorrélogramme de la série Z t comme cela est rappelé par la ligne (). Les lignes () et () rappellent la moyenne et l écart type empiriques que la série Z t. En n (5) donne le nombre de observations utilisables : si l on part de observations et que l on considère la série di érenciée Y t = ( L) L 4, on ne pourra travailler que sur 95 observations. La colonne de gauche (4) indique le retard h (allant ici de à 5), la colonne (5) donne les autocovariances empiriques b (h) et la colonne (6) les autocorrélations empiriques b½ (h) = b (h) =b (). Les points (7),. donnent l intervalle de con ance de la série des autocorrélations empiriques : ils donnent la limite de la région d acceptation du test ½ (h) =. L écart-type de l estimateur b½ (h) est donné colonne (9). En n, les barres (8) ; **** représentent les autocorrélations. ARIMA Procedure Name of variable = Z. () Mean of working series =.45 () Standard deviation =.798 () Number of observations = 75 () Autocorrelations (4) (5) (6) (9) Lag Covariance Correlation Std.8. ******************** ******* ** **** * ***** (8) ** * (7). ** **** * **** ** ** *** "." marks two standard errors La sortie suivante donne l autocorrélogramme inverse () et l autocorrélogramme partiel () de la série Z t, ARIMA Procedure Inverse Autocorrelations () Lag Correlation ***************.64. ************ ********** ******** ****** ***** ***** ****** 9.7. ***** Partial Autocorrelations () Lag Correlation ******* ***** ******** ****** * * *** *. 6

138 Le tableau suivant donne letest de Portmanteau (autocorrelation checkfor white noise ) permettant de tester l hypothèse de bruit blanc des résidus. La statistique considérée est Q K = N (N + ) KX h= b½ (h) N h qui suit un Â à k p q degrés de liberté sous l hypothèse H de bruit blanc. La colonne () donne la valeur de K, nombre de retards considérés, et la colonne () donne La colonne (4) indique le nombre de degrés de liberté associé au test du Â. En n, la colonne (5) donne la probabilité que le Â (K p q) soit supérieur à Q K. En n, (6) rappelle les autocorrélations empiriques (soit (6)), ARIMA Procedure Autocorrelation Check for White Noise () () To Chi (4) (5) Autocorrelations (6) Lag Square DF Prob ARIMA Estimation Optimization Summary (7) Estimation Method: Unconditional Least Squares Parameters Estimated: 4 Termination Criteria: Maximum Relative Change in Estimates Iteration Stopping Value:. Criteria Value:.58 Maximum Absolute Value of Gradient:.7577 R-Square (Relative Change in Regression SSE) from Last Iteration Step: Objective Function: Sum of Squared Residuals Objective Function Value: Marquardt's Lambda Coefficient:. Numerical Derivative Perturbation Delta:. Iterations: 4 Warning Message: Estimates may not have converged. La colonne (7) [A FINIR] ARIMA Procedure Unconditional Least Squares Estimation (9) (8) Approx. () () () Parameter Estimate Std Error T Ratio Lag MU MA, MA, AR, Constant Estimate = () Variance Estimate =.848 (4) Std Error Estimate = (5) AIC = 6.59 (6) SBC = (7) Number of Residuals= 75 (8) Correlations of the Estimates (9) Parameter MU MA, MA, AR, MU MA, MA, AR,

139 ARIMA Procedure To Chi Autocorrelations () Lag Square DF Prob Model for variable Z Estimated Mean = () Autoregressive Factors () Factor : B**() Moving Average Factors () Factor : B**() B**() 6.6 Utilisation de SAS avec des séries chronologiques Nous allons reprendre ici exemples (sample programs ) de SAS, le premier montrant comment mettre en place la méthode de Holt-Winters, et la seconde montrant comment faire de la modélisation à l aide de processus ARIMA, title 'Intervention Data for Ozone Concentration'; title '(Box and Tiao, JASA 975 P.7)'; data air; input label ozone = 'Ozone Concentration' x = 'Intervention for post 96 period' summer = 'Summer Months Intervention' winter = 'Winter Months Intervention'; date = intnx( 'month', 'dec54'd, _n_ ); format date monyy.; month = month( date ); year = year( date ); x = year >= 96; summer = ( 5 < month < ) * ( year > 965 ); winter = ( year > 965 ) - summer; cards; ; proc arima data=air; identify var=ozone() crosscorr=( x() summer winter ) noprint; estimate q=()() input=( x summer winter ) noconstant method=ml itprint; forecast lead= id=date interval=month; title "Sales of Passenger Cars"; symbol i=spline v=plus; proc gplot data=sashelp.usecon; plot vehicles * date = / haxis= 'jan8'd to 'jan9'd by year; where date >= 'jan8'd; format date year4.; run; proc forecast data=sashelp.usecon interval=month method=winters seasons=month lead= out=out outfull outresid outest=est; id date; var vehicles; where date >= 'jan8'd; run; title 'The OUT= Data Set'; proc print data=out; run; proc print data=est; run; title 'Plot of Residuals'; symbol i=needle; proc gplot data=out; plot vehicles * date = / vref= haxis= 'jan8'd to 'jan9'd by year; where _type_ = 'RESIDUAL'; format date year4.; run; title 'Plot of Forecast from WINTERS Method'; symbol i=none v=star h=; /* for _type_=actual */ symbol i=spline v=plus h=; /* for _type_=forecast */ symbol i=spline l=; /* for _type_=l95 */ symbol4 i=spline l=; /* for _type_=u95 */ proc gplot data=out; plot vehicles * date = _type_ / href= '5dec9'd haxis= 'jan9'd to 'jan9'd by qtr; where _type_ ^= 'RESIDUAL' & date >= 'jan9'd; run; run; quit; 8

140 6.7 Méthode de lissage exponentiel : Holt-Winters Le programme ci-dessus donne les sorties suivantes 6.8 Modèles ARIMA sous SAS 6.8. Syntaxe de la procédure ARIMA sous SAS La procédure ARIMA contient trois phase successives, / la phase d identi cation (IDENTIFY) pour dé nir la série à étudier et obtenir des statistiques descriptives (en particulier les autocorrélogrammes ), / la phase d estimation (ESTIMATE) pour e ectuer l estimation des paramètres intervenant une fois la spéci cation du modèle e ectuée, / la phase de prévision (FORECAST) pour e ectuer la prévision de la série considérée à l aide du modèle estimé dans la phase. La synthaxe générale de cette procédure est de la forme suivante proc ARIMA data=nom_base; identify var=n_serie nlag=4; estimate p= q=; forecast lead=4 interval=month id=date out=resultats; run; Pour créer une série en di érenciant la série autant de fois qu on le souhaite identify var=n_serie; on travaille sur la série X t identify var=n_serie(); on travaille sur la série Y t = LX t = X t identify var=n_serie(); on travaille sur la série Z t identify var=n_serie(,); on travaille sur la série U t identify var=n_serie(,); on travaille sur la série V t La forme du modèle ARIMA à estimer peut être assez complexe. Pour cela, di érentes notation sont possibles sous SAS estimate P=; on considère le poylnôme AR (L) = ( Á L) estimate P=4; on considère le poylnôme AR (L) = Á L Á L Á L Á 4 L 4 estimate P=( 4); on considère le poylnôme AR (L) = Á L Á 4 L 4 estimate P=()(4); on considère le poylnôme AR (L) = ( Á L) Á 4 L 4 estimate P=()( 4); on considère le poylnôme AR (L) = ( ÁL) Á L Á 4 L 4 De plus, un grand nombre d options sont disponibles pour chacunes des étapes identify CENTER la série est centré identify NOMISS les valeurs manquantes sont exclues identify ALPHA= permet de spéci er le niveau de signi cativité des tests identify ESACF a che les résultats de la procédure ESAC F identify SCAN a che les résultats de la procédure SCAN identify P= détermine la dimension AR dans les méthodes ESACF et SCAN identify Q= détermine la dimension MA dans les méthodes ESACF et SCAN identify NLAG= permet de spéci er le nombre des retards dans les autocorrélogrammes identify STATIONARITY permet d e ectuer des tests de stationnarité sur la série 9

141 estimate METHOD= détermine la méthode utilisée pour l estimation estimate PLOT a che le graphique des résidus estimate AR= permet de spéci er la valeur initiale du modèle AR estimate MA= permet de spéci er la valeur initiale du modèle MA estimate MU= permet de spéci er la constante Tous les détails sur la procédure ARIMA sont disponibles dans la doc SAS ou sur internet La lecture des sorties SAS Les sorties SAS sont les suivantes ARIMA Procedure Conditional Least Squares Estimation MA, MA, NUM NUM Iteration SSE NUM Lambda R Crit ARIMA Estimation Optimization Summary Estimation Method: Maximum Likelihood Parameters Estimated: 5 Termination Criteria: Maximum Relative Change in Estimates Iteration Stopping Value:. Criteria Value:.9544 Maximum Likelihood Estimation Iter Loglike MA, MA, NUM NUM NUM Lambda R Crit Alternate Criteria: Relative Change in Objective Function Alternate Criteria Value:.477E-8 Maximum Absolute Value of Gradient:.74 R-Square (Relative Change in Regression SSE) from Last Iteration Step:.7 Objective Function: Log Gaussian Likelihood Objective Function Value: Marquardt's Lambda Coefficient: E-9 Numerical Derivative Perturbation Delta:. Maximum Likelihood Estimation Approx. Parameter Estimate Std Error T Ratio Lag Variable Shift MA, OZONE MA, OZONE NUM X NUM SUMMER NUM WINTER Variance Estimate = Std Error Estimate = AIC = SBC = Number Residuals= 4 of Forecasts for variable OZONE Forecast Std Error Lower 95% Obs Upper 95%

Montrer encore