Tests d homogénéité dans les modèles de mélange

Tests d homogénéité dans les modèles de mélange A. Autin, C. Pouet Université de Provence Rennes, 29 Août 2008

Plan 1. 2. non-adaptatifs et adaptatifs 3. Idées des preuves 4.

Modèle de mélange Modèle Cadre général Problème de test Soit X une variable aléatoire dont la densité est f (x) = M ω u p u (x), u=1 où M est le nombre de sous-populations, p u la densité de la sous-population u et ω u la proportion de cette sous-population dans la population totale. Problème d identifiabilité : Hall et Zhou (2003). Quelques domaines d application : médecine, biologie, enquêtes en sciences humaines,...

Cadre général Modèle Cadre général Problème de test Problème de test d homogénéité avec deux échantillons : Butucea et Tribouley (2006) Y 1,...,Y n avec Y i f i ( ) = Z 1,...,Z n avec Z i g i ( ) = M ω u (i)p u ( ) u=1 M σ u (i)q u ( ). u=1 Problème de test d homogénéité avec un échantillon : Maiboroda (2000) Propriété : Maiboroda (2000), Pokhyl ko (2005) Les jeux de poids ω u (i) et σ u (i) varient en fonction de i.

Problème de test Modèle Cadre général Problème de test H 0 contre H 1 : l = 1,...,M, p l = q l S(R) = L (R) L 2 (R) M : p l q l B2, s (R), p l q l 2 2 C2 ψ (n) 2. l=1 Approche minimax La suite ψ s (n) est la vitesse de test si pour tout γ > 0 : (i) il existe une constante C 0 et un test n tels que C > C 0 : lim P 0 ( n + n = 1) + (ii) il existe une constante c 0 telle que [ C < c 0 : lim inf n + n P 0 ( n = 1) + sup f Λ n(s,r,c,ψ s(n)) sup f Λ n(s,r,c,ψ s(n)) P f ( n = 0) γ. P f ( n = 0) ] γ.

Modèle Cadre général Problème de test Perte en adaptation (Spokoiny, 1997) Soit T un ensemble non-vide pour le paramètre s. La perte en adaptation est définie comme la suite t n tendant vers 0 telle que Si lim t n tn = 0, alors [ ] lim inf n + n P 0 ( n = 1) + sup s T sup P f ( n = 0) f Λ(s,R,C,ψ s(nt n )) Il existe une constante C 1 et un test n tels que lim P 0 ( n + n = 1) + sup sup s T f Λ n(s,r,c 1,ψ s(nt n)) P f ( n = 0) = 0. = 1.

Hypothèses Hypothèses Tests Théorèmes Soient Ω = (Ω jl ) 1 j n,1 l M = (ω l (j)) 1 j n,1 l M et Σ = (Σ jl ) 1 j n,1 l M = (σ l (j)) 1 j n,1 l M. Alors H.1 Le rang des matrices Ω et Σ est M. H.2 La plus petite des valeurs propres des matrices ΩΩ et ΣΣ est supérieure à K n. On définit a l (i) et b l (i) tels que 1 n 1 n n ω k (i)a l (i) = δ kl, i=1 n σ k (i)b l (i) = δ kl. i=1

Statistique de test Hypothèses Tests Théorèmes Soit ψ s (n) = n 2s 4s+1. Pour un paramètre j, on définit le test { 1 si Tj > t ψ j = s (n) 2, 0 si T j t ψ s (n) 2. La statistique de test est T j = 1 M n 2 l=1 [a l (i 1 )φ jk (Y i1 ) b l (i 1 )φ jk (Z i1 )] k i 1 i 2 [a l (i 2 )φ jk (Y i2 ) b l (i 2 )φ jk (Z i2 )].

Test adaptatif Hypothèses Tests Théorèmes Soient une grille de taille O (lnn) pour le paramètre s et la grille équivalente pour le paramètre j. On définit le test adaptatif n = { 1 si il existe j tel que T j > t ψ s (n(lnlnn) 1 2) 2, 0 si pour tout j,t j < t ψ s (n(lnlnn) 1 2) 2.

Théorèmes Hypothèses Tests Théorèmes Théorème non-adaptatif : Soit j n le plus petit entier tel que 2 jn n 2 4s+1. Soient C0 et t les solutions de 2K T ( ) 2 = γ 2 ; t 8LMR2 K 3K T γ ( ) 2 = Cγ 2 8LR2 KM MR t 2. Alors la vitesse minimax asymptotique de test est ψ s (n) = n 2s 4s+1 et le test jn est le test minimax. Théorème adaptatif : Si les jeux de poids sont égaux, alors le test n est adaptatif et la perte en adaptation est t n = (lnlnn) 1 2.

Borne supérieure Borne supérieure Borne inférieure Cas non-adaptatif : inégalité de Bienaymé-Chebyshev E f,g (T j ) = Var f,g (T j ) = K T M ( ) 2 (p l q l )φ jk l=1 k R 1 M n ( ) 2 n 2 (a l (i)f i b l (i)g i )φ jk, l=1 k i=1 R 2j n 2 + 1 n M p l q l 2 2 + l=1 2 j n 3 M Cas adaptatif : inégalité de Berry-Esseen adaptée (voir Petrov, 1995) afin de contrôler l erreur de 1ère espèce. l=1 p l q l 2.

Borne inférieure Borne supérieure Borne inférieure Cas non-adaptatif : preuve classique avec une loi a priori sur les fonctions de l alternative. Cas adaptatif : utilisation d une famille de taille K 1 lnn de lois a priori indexée par le paramètre j. γ n 1 1 2 P f,f 1 P πj K 1 lnn j 1 1 1 2K 2 lnlnn J P f,f K 2 lnlnn P πj K 1 lnn j J 1 1 1 2K 2 lnlnn P f,f K 2 lnlnn P πj K 1 lnn. 2 J j J

Cas du problème de test non-adaptatif pour un mélange de 2 lois gaussiennes. Taille Loi I de Y Loi II de Y Loi I de Z Loi II de Z Erreur Puissance 500 (1) N(0, 1) N(2, 1) N(2, 1) N(0, 1) 0.07 0.87 500 (1) N(1, 1) N(2, 1) N(2, 1) N(0, 1) 0.09 0.47 1000 (1) idem idem idem idem 0.09 0.63 5000 (1) idem idem idem idem 0.09 0.85 5000 (2) N(5, 1) N(2, 1) N( 1, 1) N(0, 1) 0.07 0.89 5000 (2) N(5, 1) N(2, 1) N(5, 1) N(0, 1) 0.09 0.3 Essai Poids I de Y Poids II de Y Poids I de Z Poids II de Z 1 0.8 0.2 0.75 0.25 1 0.25 0.75 0.3 0.7 2 0.5 0.5 0.75 0.25 2 0.25 0.75 0.3 0.7