V- UN EXEMPLE DE CHOIX DE FILTRE L exemple que nous allons considérer est celui du filtrage par ARMA(p,q) du taux d épargne au Royaume-Uni sur la période trim1-1970 à trim3-1996. Le graphe de la série est donné ci-dessous. Précisons que nous limitons nos choix de filtres à la seule famille ARMA, on suppose en particulier a priori que la série est stationnaire. 15.0 12.5 10.0 7.5 5.0 1970 1973 1976 1979 1982 1985 1988 1991 1994 V-A : SELON LA PROCEDURE BOX-JENKINS On commence par examiner les autocorrélations totales et partielles. Les résultats obtenus sont les suivants : Correlations of Series TSUK Quarterly Data From 1970:01 To 1996:03 Autocorrelations 1: 0.7649983 93010 0.6342485 0.6200365 76234 0.4224772 7: 0.3200295 0.2620822 0.1569958 0.1239963 0.0727961-20567 13: -0.0297779-0.0957884-0.0777596-0.1186588-0.0920525-0.1392406 19: -0.1487188-0.1579870-0.1512861-0.1678854-0.1703590-0.1986762 Partial Autocorrelations 1: 0.7649983 0.4196914-0.0699260 0.0914825-0.0994466-0.1682851 7: -0.0922209 11068-0.1072940 0.0622966 0.0863256-0.1528400 13: 0.0306164-0.0669894 0.0527897 0.0140560 0.0794814-0.0951776 19: -0.1148520 0.0345238-0.0480078-0.0271684 90644-0.0644698 Les graphes de ces fonctions ainsi que l indication des bornes ± 2 / T = ± 2 / 107 =± 0. 19335 sont donnés ci-après. On peut identifier une décroissance assez régulière sur les autocorrélations et ce qui ressemble à une rupture après l ordre deux sur les autocorrélations partielles. En d autres termes, on retiendrait un processus AR(2).
Autocorrélations Autocorrélations Partielles L estimation de ce processus sous RATS 4.31 à l aide de la commande Boxjenk donne les résultats suivants : Dependent Variable TSUK - Estimation by Box-Jenkins Iterations Taken 3 Quarterly Data From 1970:03 To 1996:03 Usable Observations 105 Degrees of Freedom 102 Centered R**2 0.673270 R Bar **2 0.666864 Uncentered R**2 0.987506 T x R**2 103.688 Mean of Dependent Variable 10.149761905 Std Error of Dependent Variable 2.033524600 Standard Error of Estimate 1.173708634 Sum of Squared Residuals 140.51437968 Durbin-Watson Statistic 1.934757 Q(26-2) 15.632922 Significance Level of Q 0.90086777 Variable Coeff Std Error T-Stat Signif ******************************************************************************* 1. CONSTANT 10.339553779 0.903985723 11.43774 000000 2. AR{1} 0.457018687 0.088924725 5.13939 000133 3. AR{2} 0.415404797 0.088611535 4.68793 000857 Les deux coefficients de la partie autorégressive sont significatifs. Précisons que la normalisation des écritures sous RATS conduit à l estimation non pas du terme constant du processus mais à celle de l espérance de la série. Ainsi, dans le cas présent, cette moyenne estimée est de 10.340. Sous une forme plus habituelle, nous écririons : tsukt = 0.457 tsukt 1+ 0.415 tsukt 2 + 1319. + u t, avec 1319. = ( 1.457.415) 10. 340 Les racines du polynôme caractéristique de ce processus sont z 1 = -2.19626 et z 2 = 1. 09609. La stationarité stricte exige qu elles soient de module supérieur à l unité. Cela est vérifié sur ces estimations et compte-tenu de la logique admise a priori ici, même si la valeur de la seconde indique qu une étude plus fine du problème mériterait d être effectuée, nous admettrons la conformité du modèle à l exigence de stationarité. Les matrices estimées de variance-covariance (sur et au-dessous de la diagonale principale) et de corrélation (audessus de la diagonale principale) des estimateurs sont : Covariance\Correlation Matrix of Coefficients CONSTANT AR{1} AR{2} CONSTANT 0.81719018730 0.0157863226 0.0614519063 AR{1} 126901009 790760671-0.7701957507 AR{2} 492251660-606895486 785200408
On notera une corrélation relativement élevée entre les deux coefficients autorégressifs, ce qui résulte naturellement des autocorrélations fortes observées précédemment entre tsuk t et tsuk t 1, et traduit un problème de colinéarité. La statistique de Box-Ljung ne détecte pas d autocorrélation dans la série résiduelle. De même, les tests de Lagrange réalisés à partir des régressions du type : p u = β + β tsuk + β tsuk + α u + v sur H t 0 1 t 1 2 t 2 i t i i= 1 0:α = = α = 0 au moyen de la statistique TR 2 mènent à : 1 p Chi-Squared(p=2)= 1.759192 with Significance Level 0.41495060 Chi-Squared(p=4)= 5.042969 with Significance Level 0.28291691 et ne détectent également pas de problème, ce que confirme aussi les représentations des autocorrélations partielles et totales sur la série résiduelle : t Autocorrélations Autocorrélations Partielles Nous avons également réalisé des tests d absence d effets ARCH de la forme TR 2 sur 2 2 u = α + α u + v t 0 p i= 1 i t i et on obtient pour p valant respectivement 2 et 4 : t Chi-Squared(p=2)= 0.318911 with Significance Level 0.85260804 Chi-Squared(p=4)= 3.733805 with Significance Level 0.44322828 Les résidus seraient donc exempts de tels effets. La variance résiduelle paraît toutefois être plus faible sur la fin de la période d observation comme on peut le voir sur le graphe de la série u 2 t ci-dessous. Si on coupe l échantillon en deux parties égales et que l on teste l égalité des deux variances (variance supposée constante au sein de chaque sous-échantillon), on obtient : F(52,53)= 2.82341 with Significance Level 012129 1 2 1 0 8 6 4 2 0 1 9 7 0 1 9 7 3 1 9 7 6 1 9 7 9 1 9 8 2 1 9 8 5 1 9 8 8 1 9 9 1 1 9 9 4 Graphe des résidus au carré
Dans cet exemple nous avons décidé d ignorer cette complication. En fait, un traitement plus complet de la série tsuk imposerait aussi que l on revienne, ainsi que déjà signalé auparavant, sur l hypothèse de stationnarité, or on se limite pour l instant à une recherche au sein de la seule classe ARMA(p,q). On peut encore estimer des processus surdimensionnés par rapport au processus de base, soit respectivement un AR(3) et un ARMA(2,1). Les résultats sont les suivants : - Processus AR(3) Variable Coeff Std Error T-Stat Signif ******************************************************************************* 1. CONSTANT 10.31638586 0.84748617 12.17293 000000 2. AR{1} 0.48947836 0.09972672 4.90820 000358 3. AR{2} 0.44367552 0.10049407 4.41494 002559 4. AR{3} -0.07080929 0.09848797-0.71896 0.47383991 Covariance\Correlation Matrix of Coefficients CONSTANT AR{1} AR{2} AR{3} CONSTANT 0.71823280977-23157218 0.0118056671 0.0574722787 AR{1} -019571790 994541967-0.4535208556-0.4205412195 AR{2} 100545724-454516099 0.01009905881-0.4311250536 AR{3} 479704971-413050648 -426704177 969988004 Le symptôme de multicolinéarité s estompe mais le coefficient relatif à tsuk t 3 est non significatif, ce qui nous ramène à l AR(2). - Processus ARMA(2,1) Variable Coeff Std Error T-Stat Signif ******************************************************************************* 1. CONSTANT 10.321251449 0.814517608 12.67161 000000 2. AR{1} 0.238050005 0.168270259 1.41469 0.16023543 3. AR{2} 0.581747791 0.131677848 4.41796 002509 4. MA{1} 0.277087052 0.204714259 1.35353 0.17890754 Covariance\Correlation Matrix of Coefficients CONSTANT AR{1} AR{2} MA{1} CONSTANT 0.66343893336 0.0286371409 0.0277211916-0.0157141213 AR{1} 392498045 0.02831488018-0.8597208704-0.8803572189 AR{2} 297320662-0.01904923560 0.01733905557 0.7988638999 MA{1} -262022552-0.03032594813 0.02153444134 0.04190792790 Ici, seul le coefficient de tsuk t 2 reste significatif (en dehors du terme constant), en particulier le premier coefficient autorégressif et le coefficient de la moyenne mobile ne le sont individuellement plus et dans le même temps on observe une augmentation des corrélations entre les estimateurs par rapport à celle révélée dans le modèle de référence. L exacerbation du problème de colinéarité conduit à ne pas privilégier ce dernier processus relativement à l AR(2) initial.
Pour finir, nous avons essayé d apprécier la qualité du processus AR(2) dans une utilisation en prévision. Pour cela on calcule la statistique U de Theil sur la base de prédicteurs construits pour des horizons de 1,2,3 et 4 trimestres, le modèle étant réestimé pour chaque sous-échantillon [1970 :I, date_fin] et date_fin allant de 1992 :4 à 1996 :2 par pas de un trimestre. On dispose donc d échantillons constitués d erreurs de prévisions pour chacun des quatre horizons considérés de tailles respectives 15, 14, 13 et 12 points. Les résultats sont : Forecast Statistics for Series TSUK Step Mean Error Mean Abs Error RMS Error Theil U N.Obs 1 0.091560950 1551760 0.684074779 0.9235263 15 2 0.123559820 0.646391850 0.792985615 0.8787734 14 3 0.181995700 0.777786437 0.895480834 0.9194888 13 4 0.337840214 0.876109595 1.044521016 0.9389546 12 Sans être extraordinaires, les valeurs obtenues montrent que le processus AR(2) retenu fait mieux qu une marche au hasard, ce qui n est jamais acquis d avance. V-B : RECOURS AUX CRITERES DE SELECTION Nous utilisons les deux critères les plus populaires : AIC d Akaike d une part et BIC de Schwarz d autre part, avec : AIC = 2 l + 2k = n log( RSS ) + 2k à une constante près i i i i i BIC = 2 l + k log( n) = n log( RSS ) + k log( n) à une constante près i i i i i et : l i =log-vraisemblance du modèle i, k i = nombre de paramètres à estimer au sein du modèle i, RSS i = somme des carrés des résidus du modèle i n= nombre d observations utilisé dans les estimations des différents modèles, invariant avec i. Dans ce qui suit nous avons recherché le modèle ARMA(p,q) optimal, avec p q {,,2,,} 01 34 {,,2,,} 01 34. Les estimations ont toutes été effectuées sur la période 1971/1 1996/3, soit n = 103. Les résultats sont présentés dans les deux tableaux ci-après. On sait que le critère AIC conduit en moyenne à une surestimation des ordres vrais, ce qui n est pas le cas (asymptotiquement) pour le critère BIC. Dans le cas présent on peut voir que les deux techniques retiennent le même processus, à savoir un AR(2), confirmant ainsi le choix effectué selon la méthode de Box-Jenkins. On remarquera aussi la non convergence de l algorithme pour les processus les plus complexes à estimer (à la fois les moins parcimonieux et surtout possédant un nombre relativement élevé de paramètres MA), ce qui souligne la nécessité, pour de tels filtres, de disposer d un nombre d observations conséquent.
AIC i q 0 1 2 3 4 0 625.99150 586.91395 548.45049 546.50278 537.83741 1 532.54283 519.57510 518.30713 519.96300 515.02551 p 2 514.90660 516.34980 517.94329 519.81439 516.81946 3 516.19943 515.78867 517.77232 516.55377 516.75292 4 516.80447 518.79060 Non convergence BIC i q 0 1 2 3 4 0 628.62623 592.18340 556.35467 557.04169 551.01105 1 537.81229 527.47929 528.84605 533.13664 530.83388 p 2 522.81079 526.88871 531.11694 535.62276 535.62276 3 526.73834 528.96231 533.58070 534.99687 537.83076 4 529.97812 534.59898 Non convergence