1 / 46 Package CAPUSHE pour le logiciel R Vincent Brault (1,2) & Jean-Patrick Baudry (3) & Cathy Maugis-Rabusseau (4) & Bertrand Michel (3) 1 Université Paris-Sud 11 2 INRIA Saclay Île de France Projet SELECT 3 LSTA Paris 6 4 Institut de Mathématiques de Toulouse http://www.math.univ-toulouse.fr/ maugis/capushe.html 1 er juillet 2012
2 / 46 Introduction Cadre : Sélection de modèle par minimisation d un critère pénalisé. Hypothèse : La pénalité est connue à une constante près. Objectif : Capushe permet de calibrer cette dernière.
3 / 46 Plan 1 Théorie 2 Heuristique de pente 3 DDSE 4 Djump 5 Capushe
4 / 46 Introduction
5 / 46 Plan 1 Théorie 2 Heuristique de pente 3 DDSE 4 Djump 5 Capushe
6 / 46 n-échantillon X 1,..., X n de X Paramètre d intérêt s S Fonction de contraste γ : S X R telle que Exemple : n = 1000 et X = R 3 s argmin t S s la densité de l échantillon γ(s, X) = log s(x) E X [γ(t, X)]
7 / 46 Contraste empirique t S, γ n (t) = 1 n Exemple : n γ(t, X i ) i=1 ( n ) γ n (s m ) = log s(x i ; θ) = i=1 n log s(x i ; θ) i=1
8 / 46 Famille de modèles (S m ) m M de complexité respective C m. Estimateur ŝ m de s dans S m : Exemple : ŝ m argmin t S m γ n (t). S m ensemble des mélanges sphériques avec m composantes. X m ) p i N (µ i, σi 2 I 3 i=1 C m = 4m + (m 1) nombre de paramètres libres de tout mélange de S m [ γ n (s m ) = 1 n m ( )] log p i (2π) 3/2 σ 3 n i exp 1 2σi 2 X i µ i 2 2 i=1 i=1
9 / 46 Modèle oracle : m argmin m M où l (s, t) = E X [γ(t, X)] E X [γ(s, X)] l est la divergence de Kullback-Leibler E X [ l ( s, ŝm )]
10 / 46 Modèle oracle : m argmin m M où l (s, t) = E X [γ(t, X)] E X [γ(s, X)] l est la divergence de Kullback-Leibler E X [ l ( s, ŝm )] crit(m) = γ n (ŝ m )
11 / 46 Modèle oracle : m argmin m M où l (s, t) = E X [γ(t, X)] E X [γ(s, X)] l est la divergence de Kullback-Leibler E X [ l ( s, ŝm )] Fonction de pénalité pen : M R + telle que le modèle m minimisant le critère pénalisé associé crit(m) = γ n (ŝ m ) + pen(m) ait un risque E X [ l(s, ŝ m ) ] proche de celui de l oracle.
12 / 46 Plan 1 Théorie 2 Heuristique de pente 3 DDSE 4 Djump 5 Capushe
13 / 46 Pénalité optimale argmin m M La pénalité idéale serait : crit opt (m) = argmin m M l(s, ŝ m ) crit opt (m) = l(s, ŝ m ) γ n (ŝ m ) + pen opt (m) = l(s, ŝ m ) pen opt (m) = l(s, ŝ m ) γ n (ŝ m )
14 / 46 Pénalité optimale pen opt (m) = l(s, ŝ m ) γ n (ŝ m ) = (E X [γ(ŝ m, X)] E X [γ(s m, X)]) } {{ } =v m + (E X [γ(s m, X)] E X [γ(s, X)]) + (γ n (s m ) γ (ŝ m )) } {{ } = v m (γ n (s m ) γ n (s)) γ n (s) = v m + v m + n (s m ) γ n (s)
15 / 46 Heuristique de pente [SH1] pen κ = κ v m crit κ (m) = γ n (ŝ m ) + κ v m = γ n (ŝ m ) + κ ( γ n (s m ) γ ( ŝ m )) = (1 κ)γ n (ŝ m ) + κγ n (s m ) Birgé et Massart (2006) : pen min (m) v m
Heuristique de pente [SH2] v m v m n (s m ) 0 Nous obtenons : pen opt (m) = v m + v m + n (s m ) v m + v m 2 pen min (m) 16 / 46
17 / 46 Forme de la pénalité pen shape La pénalité à calibrer est de la forme pen shape (m) = κˆv m pen min (m) = κ min pen shape (m) Pour les mélanges gaussiens : pen shape (m) = C m
18 / 46 Données
19 / 46 Plan 1 Théorie 2 Heuristique de pente 3 DDSE 4 Djump 5 Capushe
20 / 46 DDSE pen min (m) ˆv m γ n (s m ) γ n (ŝ m ) γ n (s m ) γ n (s) + γ n (s) γ n (ŝ m ) E X [l(s, s m )] + γ n (s) γ n (ŝ m )
21 / 46 Plot γ n (ŝ m ) γ n (s) E X [l(s, s m )] κ min pen shape (m)
22 / 46 Commande
23 / 46 Commande
24 / 46 Commande
25 / 46 Validation
26 / 46 Validation
27 / 46 Validation
28 / 46 Validation
29 / 46 Validation
30 / 46 Plan 1 Théorie 2 Heuristique de pente 3 DDSE 4 Djump 5 Capushe
31 / 46 Djump C m(κ) la complexité du modèle minimisant le critère crit κ ( ) κ C m(κ) doit faire un saut au voisinage du κ min
32 / 46 C tresh
33 / 46 C tresh
34 / 46 C AreaJump
35 / 46 C AreaJump
36 / 46 Commande
37 / 46 Commande
38 / 46 Commande
39 / 46 Plan 1 Théorie 2 Heuristique de pente 3 DDSE 4 Djump 5 Capushe
40 / 46 Commande
41 / 46 Commande
42 / 46 Commande
43 / 46 Plot
44 / 46 Plot
45 / 46
46 / 46 Birgé, L. et Massart, P. (2001). Gaussian model selection. Journal of the European Mathematical Society, 3(3) :203-268. Birgé, L. et Massart, P. (2006). Minimal penalties for Gaussian model selection. Probability Theory and Related Fields, 138(1-2) :33-73. Lebarbier, E. (2005). Detecting multiple change-points in the mean of Gaussian process by model selection. Signal Processing, 85(4) :717-736. Massart, P. (2007). Concentration Inequalities and Model Selection. École d été de Probabilités de Saint-Flour 2003. Lecture Notes in Mathematics. Springer. Maugis, C. et Michel, B. (2011). A non asymptotic penalized criterion for Gaussian mixture model selection. ESAIM : P & S, 15, p 41-68. Baudry, J.-P., Maugis, C. and Michel, B. (2011) Slope Heuristics : Overview and Implementation. Statistics and Computing, 22(2), 455-470.