Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université Montpellier II par Pierre Lafaye de Micheaux 16 décembre 2002 < R > 1/35
PLAN DE LA PRÉSENTATION Goodness-of-fit tests of normality for the innovations in ARMA models Objectifs Notion de test lisse de Neyman d ordre K Conditions sur le processus ARMA(p,q) La stratégie du test lisse appliquée au modèle ARMA Choix de l ordre K du test lisse A multivariate empirical characteristic function test of independence with normal marginals Objectifs et notations Tester l indépendance : cas non sériel Tester l indépendance : cas sériel Propriétés du processus limite Perspectives de recherche < R > 2/35
1. Goodness-of-fit tests of normality for the innovations in ARMA models 1.1. Objectifs Problème : On cherche à construire un test d ajustement de la normalité des innovations d un modèle ARMA(p, q) de moyenne connue. < R > 3/35
Le modèle ARMA(p,q) Processus stationnaire (Y t ; t Z) p q Y t ϕ i Y t i = θ i ɛ t i + ɛ t, t Z i=1 i=1 où les ϕ i et les θ i sont des réels et où (ɛ t ; t Z) est un bruit blanc de variance σ 2. Intéressant de tester la normalité de ce modèle? Intervalles de confiance pour une valeur prédite Y T +h. Efficacité des estimateurs des paramètres. Test de la validité du modèle (Pierce (1985), Brockett et al. (1988)). < R > 4/35
Autres tests existants? Tests basés sur la propriété : Y t Normale ɛ t Normale. perte de puissance. Utilisation de tests standards développés pour des observations i.i.d dans lesquels on injecte les résidus ɛ t. Ex : (Brockwell & Davis, 1991, p.314) suggèrent d appliquer le test de Shapiro-Francia aux résidus du modèle. Prendre des précautions. Simulations par Gasser (1975) qui montrent que le niveau et la puissance des tests du χ 2, d applatissement et d asymétrie peuvent être sérieusement affectés lorsqu ils sont utilisés dans le cadre des modèles ARMA. < R > 5/35
Notre approche : Test d ajustement de la normalité des innovations d un modèle ARMA(p, q) de moyenne connue, basé sur l approche des tests lisses de Neyman. < R > 6/35
1.2. Notion de test lisse de Neyman d ordre K Échantillon X 1,..., Xn de f.r. F : on veut tester H 0 : F = F 0 Transformation des données : U i = 2F 0 (X i ) 1 de densité g. On est ramené à tester H 0 : g = g 0 = Unif[ 1, 1] Emboîtement de la densité g 0 par la forme supposée de la densité g K g g K (y, η) = C(η) exp η i π i (y) 1l[ 1, 1] i=1 On est ramené à tester H 0 : η = 0 vs H 1 : η 0. < R > 7/35
Application du test du score de Rao : Rn = na T n,η 0 I 1 η 0 an,η 0 L χ 2 K sous H 0 où anη = 1 n Log(g K (U i, η)),..., 1 n Log(g K (U i, η)) n η i=1 1 n η i=1 K est le vecteur du score et où la matrice Iη 0 définie par n Iη 0 (i, j) = Eη=η 2 0 Log(g η l=1 i η K (U l, η)) j est l information de Fisher évaluée en η 0. Ici bien sûr, η 0 = 0. < R > 8/35 T
1.3. Conditions sur le processus ARMA(p,q) Causalité Inversibilité Les polynômes 1 ϕ 1 z... ϕpz p et 1 + θ 1 z +... + θqz q n ont pas de racines communes. Sous ces conditions, on a les deux écritures : et Y t = ψ j ɛ t j j=0 ɛ t = δ j Y t j. j=0 < R > 9/35
1.4. La stratégie du test lisse appliquée au modèle ARMA On dispose d un échantillon {Y 1,..., Y T } que l on ajuste par Maximum de vraisemblance à un ARMA(p,q) de bruit blanc (ɛ t, t Z). Soit Φ la f.r. d une N(0,1). Nous définissons ) ( ɛt Û t = 2Φ 1 t = 1,..., T σ avec ɛ t = δ j Y t j j=0 et où δ j est fonction des EVM ϕ et θ. < R > 10/35
Le vecteur du score pour la famille d emboîtement K g K (y, ω) = C(ω) exp ω k L k (y) 1l[ 1, 1] k=1 s écrit alors L = 1 T où T L t t=1 L t = (L 1 (Ût ),..., L K (Ût ))T. < R > 11/35
Nous avons alors pu démontrer le théorème suivant. Théorème R K = T L T ( I K 1 2 b K bt K ) 1 L L χ 2 K où b K = (b 1,..., b k ) T avec b k = R L k (2Φ(x) 1)x2 φ(x)dx. < R > 12/35
En utilisant la décomposition de Choleski, nous avons montré ( I K 1 2 b K bt K) 1 = P P T avec P = (p ij ). En posant L k (Ût ) = k l=1 p lk L l (Ût ), nous avons pu écrire R K = K 1 T 2 L T k (Ût). k=1 t=1
En utilisant la décomposition de Choleski, nous avons montré ( I K 1 2 b K bt K) 1 = P P T avec P = (p ij ). En posant L k (Ût ) = k l=1 p lk L l (Ût ), nous avons pu écrire R K = K 1 T 2 L T k (Ût). k=1 t=1 } {{ } L χ 2 1 < R > 13/35
1.5. Choix de l ordre K du test lisse Posons K = min [ Argmax{Rs slog(t)} d s D ] d = 2 et D = 10 Nous avons démontré le Théorème Sous H 0, K P d et R K(d) L χ 2 d. Simulations g K(, ω) < R > 14/35
2. A multivariate empirical characteristic function test of independence with normal marginals 2.1. Objectifs et notations Objectif 1 : Soit ɛ = (ɛ (1),..., ɛ (p) ) T R pq. On veut construire un test d indépendance des composantes ɛ (j), j = 1,..., p. Conditions : On suppose que ces composantes sont de loi normale Nq(µ, Σ). < R > 15/35
Objectif 2 : Soit u 1, u 2,... une suite stationnaire de vecteurs aléatoires de loi Nq(µ, Σ). On veut construire un test d indépendance de ces u i. < R > 16/35
Les marginales ɛ (1),..., ɛ (p) sont indépendantes si et seulement si µ A 0, pour tout A {1,..., p}, A > 1. µ A (t) = ( 1) A\B Cp(t B ) C (j) (t (j) ), B A j A\B (t B ) (i) { = t (i), i B; 0, i Ip\B. < R > 17/35
Cas p = 3. µ {1,2} (t) = Cp(t {1,2} ) C (1) (t (1) )C (2) (t (2) ). On voit que µ {i,j} = 0 ɛ (i) ɛ (j), i, j = 1, 2, 3; i < j. µ {1,2,3} (t) = Cp(t {1,2,3} 3 ) + 3 C (j) (t (j) ) j=1 Cp(t {1,2} )C (3) (t (3) ) Cp(t {1,3} )C (2) (t (2) ) Cp(t {2,3} )C (1) (t (1) 3 ) C (j) (t (j) ). j=1 On voit que µ {1,2,3} = 0 {ɛ (1), ɛ (2), ɛ (3) } indépendants. < R > 18/35
2.2. Tester l indépendance : cas non sériel On pose e (k) = S 1 2(ɛ (k) ɛ), où ɛ = j j np 1 nj=1 p k=1 ɛ(k) j et S = np 1 nj=1 p k=1 (ɛ(k) ɛ)(ɛ (k) ɛ) j j T. Le processus que l on considère, pour un sous-ensemble A de {1,..., p}, est R n,a (t) = n ( 1) A\B φn,p(t B ) φ(t (i) ) B A i A\B où φn,p(t) = 1 n n exp(i t, e j ) j=1 et où φ est la fonction caractéristique d une Nq(0, Iq). < R > 19/35
En utilisant la formule multinomiale, on peut écrire R n,a (t) = 1 n n j=1 [exp(i t (k), e (k) ) φ(t (k) )]. j k A < R > 20/35
Nous avons alors démontré le Théorème Si ɛ (1) 1,..., ɛ(p) 1 sont indépendants, les processus { R n,a : A > 1} convergent dans C(R pq, C) vers des processus complexes Gaussiens indépendants de moyenne 0 {R A : A > 1} ayant pour fonction d autocovariance C A définie par C A (s, t) = [ φ(t (k) s (k) ) φ(t (k) )φ(s (k) ] ) k A et pour fonction de pseudo-autocovariance C A (s, t) = E[R A (s)r A (t)] = C A ( s, t). < R > 21/35
La statistique de test de Cramér-von Mises que nous proposons, pour un ensemble A donné, est T n,b,a = 1 n R pq R n,a (t) 2 ϕ b (t)dt où ϕ b est la densité d une Npq(0, b 2 I). < R > 22/35
Nous avons alors pu écrire cette statistique sous la forme { [ 1 n n n 2 exp b2 ] l=1 l 2 e(k) e (k) l l 2 =1 k A [ (b 2 + 1) q 2 exp 1 b 2 ] 2 b 2 + 1 e(k) 2 l [ (b 2 + 1) q 2 exp 1 b 2 ] } 2 b 2 + 1 e(k) l 2 + (2b 2 + 1) q 2 Invariance par les transformations affines (distance de Mahalanobis). < R > 23/35
La fonctionnelle de Cramér-von Mises n est pas continue ; on ne peut donc pas utiliser le Théorème principal de Billingsley (1968). Nous avons donc démontré le théorème suivant. Théorème (Généralisation de Kellermeier (1980)) Soient y n et y des éléments aléatoires de C(R pq, C) 2 tels que D y n y sur toutes les boules compactes. Soit f : C 2 R une fonction continue et soit G une mesure de probabilité sur R pq. On définit wn = f(y n (t))dg(t) et w = f(y(t))dg(t). Supposons que wn et w sont bien définies avec probabilité 1. De plus, supposons qu il existe α 1 tel que pour tout ɛ > 0, lim lim sup j n R pq \R pq j E f(y n (t)) α dg(t) = 0. Alors wn D w quand n. < R > 24/35
En utilisant le théorème précédent, nous avons montré le Théorème ( R n,a (t) 2, R n,b (t) 2) ϕ b (t)dt D ( R A (t) 2, R B (t) 2) ϕ b (t)dt. On peut alors considérer tous les ensembles A simultanément en utilisant les statistiques de test Sn = n T n,b,a A >1 ou Mn = n max A >1 T n,b,a. < R > 25/35
2.3. Tester l indépendance : cas sériel On veut tester l indépendance des u i qui sont supposés de loi Nq(µ, Σ). On définit ɛ i = (u i,..., u i+p 1 ) R pq et e i = (û i,..., û i+p 1 ) R pq, i = 1,..., n p + 1. On définit aussi û i = S 1 2(u i u), S = n 1 nj=1 (u j u)(u j u) T et u = 1 n nj=1 u j. Encore une fois, le processus que nous utilisons est R n,a (t) = n ( 1) A\B φn,p(t B ) φ(t (i) ), B A i A\B où φn,p(t) = 1 n n p+1 j=1 exp(i t, e j ). < R > 26/35
Théorème Si les u i sont indépendants, les processus { R n,a : A > 1} convergent dans C(R pq, C) vers des processus complexes Gaussiens indépendants de moyenne 0 {R A : A > 1} ayant pour fonction d auto et de pseudo-covariance C A et C A comme précédemment. Les mêmes statistiques de test que dans le cas non sériel sont alors utilisable et on obtient les mêmes résultats. Test universel pour détecter toute forme de dépendance. Test convergent. < R > 27/35
2.4. Propriétés du processus limite Notons k = A. R pq R A (t) 2 ϕ b (t)dt T b,a = (i 1,...,i k ) N k λ (i1,...,i k ) Z 2 (i 1,...,i k ) où les Z (i1,...,i k ) i.i.d. sont des variables aléatoires réelles N(0, 1) < R > 28/35
On a λ (i1,...,i k ) = k l=1 λ il où les λ j sont les valeurs propres de l opérateur intégral O défini par O(f)(s) = R q f(t)k(s, t)ϕ b (t)dt avec K(s, t) = exp( 1 2 s t 2 ) exp( 1 2 ( s 2 + t 2 )). Le problème est donc de résoudre, en λ (et f), l équation linéaire intégrale de Fredholm homogène d ordre 2 λf(s) = R q f(t)k(s, t)ϕ b (t)dt. Noyau possédant de bonnes propriétés. < R > 29/35
Calcul explicite des valeurs propres impossible. Calcul approché possible en discrétisant le problème. q R q f(ν)(2π) 2e ν 2 N 2 dν = B j f(ν j ) j=1 où les paramètres B j et ν j = (ν j,1,..., ν j,q ), j = 1,..., N peuvent être respectivement les coefficients et les points d une formule de cubature, ou alors peuvent être obtenus par une simulation de Monte-Carlo auquel cas B j = N 1 et ν j N(0, I), j = 1,..., N. Connaissant les valeurs propres on peut utiliser l algorithme de Davies (1973, 1980), consistant en une inversion de la fonction caractéristique, pour obtenir les valeurs critiques du test. < R > 30/35
Une autre possibilité pour obtenir les valeurs critiques du test est de calculer tous les cumulants de T b,a et ensuite d appliquer la méthode de Cornish-Fisher. Nous avons pu obtenir les cumulants de façon explicite grâce à une formule de récurrence. Vérification de la méthode utilisant les valeurs propres. < R > 31/35
3. Perspectives de recherche Extension des résultats du test lisse pour le modèle ARMA au cas d autres modèles comme les ARIMA, SARIMA, etc... Généralisation du test basé sur la fonction caractéristique à des marginales de loi non fixée. < R > 32/35
Table des matières 1 Goodness-of-fit tests of normality for the innovations in ARMA models 3 1.1 Objectifs...................... 3 1.2 Notion de test lisse de Neyman d ordre K.... 7 1.3 Conditions sur le processus ARMA(p,q)...... 9 1.4 La stratégie du test lisse appliquée au modèle ARMA 10 1.5 Choix de l ordre K du test lisse.......... 14 2 A multivariate empirical characteristic function test of independence with normal marginals 15 2.1 Objectifs et notations............... 15 2.2 Tester l indépendance : cas non sériel....... 19 2.3 Tester l indépendance : cas sériel......... 26 2.4 Propriétés du processus limite.......... 28 3 Perspectives de recherche 32 < R > 33/35
Références BILLINGSLEY, P. (1968). Convergence of probability measures. New York : John Wiley & Sons Inc. BROCKETT, P. L., HINICH, M. J. & PATTERSON, D. (1988). Bispectral-based tests for the detection of gaussianity and linearity in time series. Journal of the American Statistical Association 83, 657 664. BROCKWELL, P. J. & DAVIS, R. A. (1991). Time series : Theory and Methods. Springer-Verlag New York, 2nd ed. DAVIES, R. B. (1973). Numerical inversion of a characteristic function. Biometrika 60, 415 417. DAVIES, R. B. (1980). [Algorithm AS 155] The distribution of a linear combination of χ 2 random variables (AS R53 : 84V33 p366-369). Applied Statistics 29, 323 333. GASSER, T. (1975). Goodness-of-fit tests for correlated data. Biometrika 62, 563 570. < R > 34/35
KELLERMEIER, J. (1980). The empirical characteristic function and large sample hypothesis testing. J. Multivariate Anal. 10, 78 87. PIERCE, D. (1985). Testing normality in autoregressive models. Biometrika 72, 293 297. < R > 35/35
Formule multinomiale Soit A = {k 1,..., k A } un ensemble fini ( A désigne le cardinal de A) et u, v R A. On adopte la notation u = (u 1,..., u A ) T N = (u (k 1 ) (k,..., u A ) ) T. Alors u (i) v (j) = (u (i) + v (i)) B A i B j A\B i A < R > 36/35
Pour aller à la page k : CTRL+N puis k puis Enter. Pour aller à la page suivante : Page Down (ou cliquer sur > en bas de page). Pour revenir à la page précédente : Page Up (ou cliquer sur < en bas de page). On peut cliquer sur le texte écrit en rouge sur certaines pages pour accéder à la cible qu il désigne. Ensuite cliquer sur R (ou taper CTRL+<-) en bas de page pour revenir à la page d où l on vient. Pour fermer le document, taper sur la touche Esc (ou Echap). Pour mettre en plein écran, taper CTRL+L. < R > 37/35