Estimation ARMA Un processus ARMA est la solution stationnaire de l équation récurrente : X t = p φ k X t k + k=1 q θ k Z t k + Z t k=1 où Z t BB(0, σ 2 ) et où φ(z) = 1 + p k=1 φ kz k 0 pour z = 1. Paramètre à estimer : { {φ k } 1 k p, {θ k } 1 k q, σ 2}. Identifiabilité à partir des propriétés du second ordre X t défini par φ(z)x t = θ(z)z t et X t défini par φ(z) X t = θ(z) Z t ont les mêmes f.a.c. 1
1 Estimation AR Un processus AR causal est la solution stationnaire de l équation récurrente : X t = p φ k X t k + Z t k=1 où Z t BB(0, σ 2 ) et où φ(z) 0 pour z 1. Elle s écrit : X t = + k=0 ψ k Z t k où 1/φ(z) = + k=0 ψ kz k. 2
1.1 Eqs de Yule-Walker (rappels) Les coefficients du prédicteur optimal ˆX t,m = (X t Ht 1,m) X = φ 1,m X t 1 + + φ m,m X t m sont donnés par : [ C m φ m = ρ et E X t ˆX t,m 2] ) = γ(0) (1 ρ T φ m (1) où C m = ρ(0)... ρ(m 1) ρ(1).. ρ(m 1)... ρ(0), φ m = φ 1,m. φ m,m et ρ = ρ(1). ρ(m) On rappelle que pour un AR-p causal on a, pour tout m p, ˆXt,m = ˆX t,p et [ T [ φ m = φ 1 φ p 0 0] et E X t ˆX t,m 2] = σ 2 3
La résolution des Eqs de Yule-Walker à l ordre m p fournit pour un AR-p les coefficients de sa représentation causale. 4
1.2 Méthode des moments Pour m = p, les équations (1) définissent une bijection entre les (p + 1) paramètres du modèle et la suite des (p + 1) premières valeurs de la f.a.c. : S : r = γ(0) λ = σ2 ρ La méthode des moments consiste à remplacer dans λ = S(r), les moments r par une suite consistante d estimateurs, cad ˆr n P r. φ p 5
On remplace γ(h) par : ˆγ n (h) = 1 n puis on fait pour m p : n h t=1 (X t+ h ˆµ n )(X t ˆµ n ) ˆφ n,m = Ĉ 1 n,mˆρ n,m et ˆσ2 n = ˆγ n (0) On a vu que si ˆγ n (0) 0 : 1. Ĉ n,m est positive de rang plein, 2. ˆφm,n (z) 0 pour z 1, ( ) 1 ˆρ T ˆφ n,m n,m 6
Une conséquence immédiate est que, partant de la suite ˆγ(0) 0,, ˆγ(p), il existe toujours un processus AR-p causal ayant cette suite pour (p + 1) premiers coefficients de covariance. Pour un MA cette propriété ne tient pas. Considérons en effet une suite d observations donnant pour m = 1, ˆγ(0) = 1 et ˆγ(1) = 0.7. Alors il n existe pas de processus MA-1 ayant pour f.a.c en 0 et 1 ces deux valeurs 7
Exercice 1 1. Montrer que la matrice Ĉn,m s écrit : Ĉ n,m = 1 nˆγ n (0) DT D où D est une matrice de dimension (n + m 1) m construite à partir des données X c t = X t ˆµ n. 2. On suppose que le nombre de valeurs de X t non nulles est supérieur à m. Montrer que D est de rang plein (indication : on note t 0 la plus petite valeur de t telle que X t 0 et on considère la matrice carrée extraite de D à partir du rang t 0.). En déduire que Ĉn,m est de rang plein. 8
Taches solaires (Sunspots) 1750 1850 1950 2000 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0 50 100 150 200 250 Fig. 1 haut : relevé annuel moyen du nombre de taches solaires entre 1750 et 2000. Milieu : en bleu, spectre moyenné en fréquence ; en rouge, spectre de l AR2. Bas : innovation estimée sous l hypothèse AR2. 9
1.3 Comportement asymptotique Théorème 1 Soit X t un processus AR(p) causal où Z t IID(0, σ 2 ) et soit un échantillon {X 1,..., X n } de taille n. On note ˆφ m,n = ( Ĉ 1 m,nˆρ et m,n ˆσ n 2 = ˆγ n (0) 1 ˆρ T ˆφ n,m n,m ). On suppose m > p. Alors quand n : n(ˆφm,n φ m ) d N (0, σ 2 Γ 1 ˆσ n 2 P σ 2 [ T où φ m = φ 1 φ p 0 0] et où Γm est la matrice de corrélation de dimension m m de X t. m ) 10
Simulation (Monte Carlo) AR(4) causal avec σ 2 = 1 et φ(z) = 1 0.6z + 0.1z 2 0.38z 3 + 0.72z 4. La séquence est de longueur 300 et les moyennes sont effectuées sur L = 1000 simulations. σ 2 φ 1 φ 2 φ 3 φ 4 vraies valeurs 1 0.6000 0.1000 0.3800 0.7200 biais estimé 0.0013 0.0061 0.0003 0.0070 0.0164 ect estimé 0.0840 0.0416 0.0503 0.0486 0.0408 ect = ect asymtotique 0.0816 0.0401 0.0482 0.0482 0.0401 E [(Û U)2 ]. 11
Propriété 1 (continuité) Soit X n une suite de vecteurs aléatoires à valeurs dans R k asymptotiquement normale de moyenne µ et de covariance Σ : n(xn µ) d N (0, Σ) Soit g : R k R m une fonction différentiable au point x = µ, de différentielle g µ (de dimension m k) au point µ telle que g µ Σ 0. Alors : n(g(xn ) g(µ)) d N (0, g µ Σ g T µ ) Exercice 2 On considère un processus AR(p). 1. Montrer par récurrence que, pour m p, det(c m+1 ) = 1. 2. En utilisant le théorème 1 et la propriété de continuité, montrer que le m-ème coefficient de réflexion ˆk n (m) = ˆφ m,m vérifie : n ˆkn (m) d N (0, 1) (2) 3. En déduire un test d ordre pour un modèle AR. 12
1.4 Test d ordre 1 0.5 0 0.5 m 1 1 2 3 4 5 6 7 8 9 10 Fig. 2 Suites, obtenues au cours de 7 simulations, des coefficients de réflexion en fonction de m, pour un échantillon de longueur n = 500 d un processus AR(2) défini par φ 1 = 1.6, φ 2 = 0.9 et σ 2 = 1. 13
1.5 Méthode du maximum de vraisemblance Considérons un AR(p) causal où Z t IID(0, σ 2 ) gaussien log p Xp+1,...,X n X 1,...,X p (x 1,..., x n ; θ) = n p 2 log(2πσ 2 ) 1 X X φ 2 2σ2 où X = [x p+1... x n ] T et : X = x p x 1 x p+1 x 2.. x n 1 x n p L estimateur du maximum de vraisemblance est ˆφ MV = (X T X ) 1 X T X. La stabilité n est pas assurée. 14
2 Estimation MA X t = Z t + θ 1 Z t 1 + + θ q Z t q où Z t BB(0, σ 2 ) et θ(z) = 1 + q k=1 θ kz k 0 pour z < 1. 2.1 Méthode des moments Exemple q = 1. Partant de l expression des moments : σ 2 (1 + θ1) 2 pour h = 0 γ(h) = σ 2 θ 1 pour h = ±1 0 pour h 2 Contrairement au cas de l AR, prendre un nombre de covariances empiriques fixe indépendant de n ne conduit pas au meilleur estimateur. 15
2.2 Méthode de Durbin (1) Soit X t = θ(b)z t un processus MA(q) où θ(z) 0 pour z 1. Alors : ψ(z) = 1 θ(z) = 1 + k=1 ψ k z k Propriété 2 On note ψ p (z) = 1 p k=1 ψ kz k. Alors il existe p 0, t.q. p p 0 l équation récurrente : p X t = Z t + ψ k X t k k=1 définit un AR(p) causal et on a E [ X t X ] t 2 p 0. D où l idée d approcher un processus MA inversible par un AR causal suffisamment long. 16
Méthode de Durbin (2) On choisit p suffisamment grand de telle façon que les observations puissent être considérées comme celles d un AR(p). On en estime les coefficients ˆψ 1,..., ˆψ p. Partant de l identité, θ(z)ψ(z) = 1, on calcule ˆθ 1,..., ˆθ q en fonction de ˆψ 1,..., ˆψ p. Il vient : ˆψ = ˆΨ ˆθ + ɛ où ˆα = ˆθ. La méthode des moindres carrés donne : ˆθ = ( ˆΨ T ˆΨ) 1 ˆΨT ˆψ La solution coïncide avec celle de l estimation d un processus AR d ordre q dont les observations seraient constituées par les valeurs de la suite ψ k. 17
Méthode de Durbin (3) En conclusion on choisit p d autant plus grand que les racines de θ(z) sont proches du cercle unité (vallées profondes). on estime les p coefficients ψ 1,..., ψ p, du prédicteur linéaire optimal, on estime les q coefficients du prédicteur linéaire optimal obtenu à partir des données : 1 ψ 1,..., ψ p. remarque : on estime ainsi la solution à phase minimale. 18
Méthode de Durbin (4) Le tableau donne la moyenne, la variance et le risque, estimés empiriquement à partir de 200 réalisations, de l estimateur de θ 1 = 0.95 selon la méthode de Durbin pour un échantillon de longueur 300 d un processus MA(1) où θ 1 = 0.95 et σ 2 = 1 et pour différentes valeurs de p. On observe que, quand p augmente, la variance augmente, tandis que la moyenne et le risque passent par un minimum. p 20 40 70 120 250 biais 0.1008 0.0863 0.0841 0.0840 0.0939 variance 0.0007 0.0009 0.0012 0.0016 0.0018 risque 0.0108 0.0083 0.0082 0.0087 0.0106 L estimateur est biaisé car un polynôme de degré fini ne peut pas être égal à l inverse d un autre polynôme. 19
2.3 Maximum de vraisemblance approché X t = Z t + θ 1 Z t 1 + + θ q Z t q où Z t BB(0, σ 2 ) gaussien. On a : X 1. X n = L(θ) Dans le cas gaussien on a : Z 1. Z n + L (θ) 0 Z 0. Z (q 1) L(θ) log p X1,...,X n (x 1,..., x n ; θ, σ 2 ) n 2 log(2πσ2 ) 1 2σ 2 xt L T (θ) L 1 (θ)x }{{} ẑ {t=1:n} La maximisation donne : ˆθ n = arg min θ Θ n k,m=1 c km(θ)x k X m et ˆσ 2 n = 1 n Z 1. Z n n k,m=1 c km(ˆθ n )X k X m Ce qui revient à tronquer le développement de 1/θ(z) pour ensuite engendrer une estimée de l innovation Z t. 20
2.4 Méthode d estimation de l innovation Propriété 3 Soit le processus ARMA(p, q) : X t = Z t + q θ k Z t k + k=1 p φ k X t k k=1 un processus ARMA(p, q) causal et inversible, cad φ(z) 0 et θ(z) 0 pour z 1. On note ɛ t,m = X t (X t H t 1,m ) l innovation partielle. Alors on a : Z t [ est l innovation de X t, soit Z t = X t (X t H t 1 ), E Z t ɛ t,m 2] m 0. L idée est d approcher, pour m suffisamment grand, Z t par l innovation partielle déduite de la prédiction linéaire. 21
Méthode d estimation de l innovation (2) on choisit m, on estime les m coefficients de prédiction (algorithme de Levinson). On en déduit par filtrage (réponse impulsionnelle finie) une estimation ˆɛ t,m du processus de prédiction, on minimise par la méthode des moindres carrés l écart entre X t et ɛ t,m + q k=1 θ kɛ t k,m. 22