ARMA models Laurent Ferrara Master 2 EIMPC Université Paris Ouest Octobre 2011
Overview 1. Définition 2. Spécification 3. Estimation 4. Tests 5. Prévision 6. Applications 6.1 Stock prices : BNP-Paribas 6.2 Intervention analysis on traffic series
Modèles ARMA Definition Un processus du second ordre (X t ) t Z est défini comme étant un processus ARMA(p, q), s il est stationnaire et si et seulement si, pour tout t Z, il vérifie l équation aux différences suivante : φ(b)(x t µ) = θ(b)ε t, (1) où µ est la moyenne du processus, où B est l opérateur retard tel que, t, BX t = X t 1 et pour tout entier b, B b X t = X t b, où φ(z) = I φ 1 z... φ p z p et θ(z) = I + θ 1 z +... + θ q z q sont deux polynômes et où (ε t ) t Z est un processus bruit blanc centré de variance σ 2 ε.
Modèles ARMA Definition Soit (X t ) t Z un processus ARMA(p, q) défini par la définition 3. (i) Si le polynôme φ(z) ne s annule pas sur le cercle défini par z = 1, alors le processus (X t ) t Z est un processus linéaire stationnaire. (ii) Si le polynôme φ(z) ne s annule pas sur le cercle défini par z 1, alors le processus (X t ) t Z possède une représentation causale. (iii) Si le polynôme θ(z) ne s annule pas sur le cercle défini par z 1, alors le processus (X t ) t Z possède une représentation inversible.
Modèles ARMA ARMA à trous. Exemple de AR(4) : (I φ 1 B φ 4 B 4 )X t = ε t,
Choix de p et q Definition Soit (X t ) t Z un processus faiblement stationnaire. (i) Si (X t ) t Z AR(p), alors r X (k) = 0, si k > p. (ii) Si (X t ) t Z MA(q), alors ρ X (k) = 0, si k > q. On cherche alors le retard k à partir duquel ˆr X (k) = 0 ou ˆρ X (k) = 0. Cette recherche se fait à l aide du test de Bartlett qui permet de tester statistiquement l hypothèse H 0 : ρ X (k) = 0 contre l hypothèse H 1 : ρ X (k) 0. De même le test de Quenouille permet de tester statistiquement l hypothèse H 0 : r X (k) = 0 contre l hypothèse H 1 : r X (k) 0.
Spécification Théorème de Bartlett Soit (X t ) t Z un processus MA(q) stationnaire. Sous l hypothèse H 0 : ρ X (k) = 0, pour k q + 1, on a quand T : T 1/2 ˆρ X (k) N(0, 1 + 2 q ˆρ X (i)) (2) Théorème de Quenouille Soit (X t ) t Z un processus AR(q) stationnaire. Sous l hypothèse H 0 : r X (k) = 0, pour k p + 1, on a quand T : i=1 T 1/2ˆr X (k) N(0, 1) (3)
Ainsi, en se plaçant au retard k, sous l hypothèse H 0 : ρ X (k) = 0, les bornes de confiance asymptotiques de ˆρ X (k) au risque α = 5% sont données par : ˆρ X (k) [0 ± 1.96 (1 + 2 k 1 i=1 ˆρ X (i)) 1/2 T 1/2 ]. (4) De même, en se plaçant au rang k, sous l hypothèse H 0 : r X (k) = 0, les bornes de confiance asymptotiques de ˆr X (k) au risque α = 5% sont données par : ˆr X (k) [0 ± 1.96 1 ]. (5) T 1/2
Critères d Information Critère d information d Akaike (1977), dénoté AIC, défini de la manière suivante : AIC = T log(ˆσ 2 ε) + 2(p + q), (6) où ˆσ 2 ε est la variance résiduelle estimée.
Exemples de simulations Voir exemple sous R
Estimation On suppose donc que le processus considéré est Gaussien et θ = (µ, σ 2 ε, φ 1,..., φ p, θ 1,..., θ q ) est le paramètre à estimer. On utilise le fait que : f (X 1, X 2 ) = f (X 2 X 1 )f (X 1 ) On conditionne la vraisemblance du processus sur les p premières valeurs observées du processus (X t ) t, X 1,..., X p, et sur les q valeurs du processus (ε t ) t, telles que : ε p = ε p 1 =... = ε p q+1 = 0.
à partir de X 1,..., X T, on calcule par itérations ε p+1, ε p+2,..., ε T, de la manière suivante, pour t = p + 1,..., T, : ε t = µ(1 p φ i )+X t φ 1 X t 1... φ p X t p θ 1 ε t 1... θ q ε t q. i=1 (7) La log-vraisemblance conditionnelle est alors donnée par l équation suivante : L BJ (θ) = log f (X T,..., X p+1 X p,..., X 1, ε p =... = ε p q+1 = (8) 0) = T p log(2π) T p T log(σ 2 ε 2 t 2 2 ε). (9) 2σ 2 t=p+1 ε
Estimation L estimateur du maximum de vraisemblance (EMV), noté ˆθ EMV, est le paramètre qui maximise la log-vraisemblance, i.e. : ˆθ EMV = Arg max L(θ) (10) θ La résolution numérique de ce problème de maximisation se fait à l aide d un algorithme du gradient conjugué de type Newton-Raphson. Ces algorithmes effectuent une recherche de maximum global, par descente vers ce maximum à partir d une valeur initiale.
Validation Significativité des paramètres Il est important de déterminer si les paramètres du modèles sont significativement différent de zéro. Pour cela on effectue un test de Student en comparant la valeur absolue de chacun des paramètres estimés avec sa variance. Ainsi, si la valeur absolue du paramètre est plus grande que 1.96 l écart-type du paramètre, alors on rejette, au risque α = 0.05, l hypothèse de nullité du paramètre.
Analyse des résidus Trajectoire des résidus Validation ACF des résidus Si l ACF des résidus sort de l intervalle de confiance pour un certain retard k 0, avec 1 k 0 < p ou 1 k 0 < q, alors cela signifie qu il faut rajouter une partie MA(k 0 ) au processus spécifié initialement. Si k 0 p ou k 0 q, alors cela signifie que les ordres de parties AR et/ou MA ont été mal choisis lors de l étape de spécification du processus. PACF des résidus Si la PACF des résidus sort de l intervalle de confiance pour un certain retard k 0, avec 1 k 0 < p ou 1 k 0 < q, alors cela signifie qu il faut rajouter une partie AR(k 0 ) au processus spécifié initialement. Si k 0 p ou k 0 q, alors cela signifie que les ordres de parties AR et/ou MA ont été mal choisis lors de l étape de spécification du processus.
Analyse des résidus Validation Test Portmanteau Significativité globale des ACF, à l aide d une statistique Portmanteau de Ljung-Box, basée sur Q K = T (T + 2) K k=1 ˆρ 2 (k) T k. (11) Sous l hypothèse de non corrélation des K premières autocorrélations des perturbations (H 0 : ρ ε (1) = ρ ε (2) =... = ρ ε (K) = 0), cette statistique suit asymptotiquement une loi du Chi-2 à (K p q) degrés de liberté. L adéquation du modèle est rejetée au risque α, si : Q K > X 2 1 α(k p q). Le choix de l entier K est à discuter.
Validation Analyse des résidus Test de Gaussianité On vérifie que (ε t ) t Z suit bien une loi Normale. La statistique de Jarque-Bera est définie par l équation suivante : JB = T (Sk)2 + T (Ku)2, (12) 6 24 où Sk et Ku sont respectivement le Skewness et le Kurtosis.
Prévision On note alors ˆX T (h) le prédicteur pour l horizon h. Il est connu que le prédicteur linéaire qui minimise l erreur quadratique moyenne à l horizon h = 1, définie par E( ˆX T (1) X T +1 ) 2, est l espérance conditionelle de X T +1, sachant le passé de la série, donné par : ˆX T (1) = E(X T +1 X s, s T ). (13) Dans le cas d un processus ARMA défini par l équation (2.1), ce prédicteur est donné par l égalité suivante : ˆX T (1) = φ 1 X T +... + φ p X T p+1 + θ 1 εˆ T +... + θ q ˆε T q. (14)
Application Exemple de la série de prix d action sous R
Analyse d intervention Le modèle d intervention proposé par Box et Tiao (1975) se présente alors ous la forme suivante : X t = C + ω(b)bb δ(b) ξ t + N t, (15) où (N t ) t Z est supposé suivre un processus ARMA, où ω(z) est un polynôme de degré l tel que : ω(z) = ω 0 + ω 1 z +... + ω l B l, où δ(z) est un polynôme de degré r tel que : δ(z) = 1 δ 1 z... δ r B r et b est un entier qui représente un retard à determiner.
Analyse d intervention Cette variable est en général modélisée par deux classes de fonctions : une fonction en forme de saut : ξ t = S (t ) t = une fonction en forme d impulsion : ξ t = P (t ) t = { 0 si t < t, 1 si t t (16) { 0 si t t, 1 si t = t (17)
Analyse d intervention Plus généralement, la série chronologique peut être perturbée par k interventions de natures différentes. Avec les notations précédentes, le modèle d intervention (2.16) a alors une représentation plus générale donnée par : X t = C + k j=1 ω j (B)b b j δ j (B) ξ (T j ) t + N t, (18) où, pour j = 1,..., k, ω j (z) est un polynôme de degré l j, où δ j (z) est un polynôme de degré r j et b j est un entier qui représente un retard à determiner.
Analyse d intervention Exemple sous RATS de la série de trafic