Prévisio pac-bayésiee pour le modèle additif sous cotraite de parcimoie Bejami Guedj 1, Pierre Alquier 2, Gérard Biau 1 3 et Éric Moulies 1 LSTA, Uiversité Pierre et Marie Curie Paris VI Boîte 158, Tour 15-25, 2ème étage 4 place Jussieu, 75252 Paris Cedex 05, Frace bejami.guedj@upmc.fr gerard.biau@upmc.fr 2 LPMA, Uiversité Paris Diderot Paris VII Boîte 188, 175 rue du Chevaleret 75013 Paris, Frace alquier@math.jussieu.fr 3 LTCI, Telecom ParisTech 37/39 rue Dareau, 75014 Paris, Frace moulies@telecom-paristech.fr Résumé. Nous ous itéressos das ce travail à la costructio et à la mise e oeuvre d ue méthode de prévisio das le modèle additif, sous cotraite de parcimoie. L estimateur de Gibbs est au coeur de otre approche. Cet estimateur est costruit à l aide d ue loi a priori favorisat les solutios parcimoieuses. Nous justifios otre démarche e fourissat ue iégalité oracle PAC-bayésiee origiale et ue implémetatio faisat appel à des techiques MCMC récetes. Mots-clés. Modèles additifs, régressio, théorie PAC-bayésiee, parcimoie, iégalité oracle, algorithmes MCMC. Abstract. We adress the issue of predictio i high dimesioal additive models, uder a sparsity costrait. Our method strogly relies o the Gibbs estimator, which origiates from a prior distributio favorig sparse estimates. We provide the reader with a PAC-bayesia oracle iequality ad a explicit implemetatio usig recet MCMC techiques. Keywords. Additive models, regressio, PAC-bayesia theory, sparsity, oracle iequality, MCMC algorithms. 1
1 Itroductio Au cours des derières aées, de ombreuses méthodes d estimatio et de sélectio de variables ot été proposées pour résoudre des problèmes de régressio e grade dimesio sous cotraite de parcimoie. La méthode des moidres carrés avec ue péalité l 1 (LASSO) a de loi été la plus étudiée ; ses propriétés statistiques sot aujourd hui bie comprises. Plusieurs autres méthodes ot été itroduites (Elastic et, Datzig selector, etc.). Ces estimateurs sot obteus comme solutios d u problème covexe (ou liéaire), qui admettet des solutios umériquemet efficaces. E particulier, Hastie, Tibshirai et Friedma (2008), Meier, va de Geer et Bühlma (2009) et Ravikumar, Rafferty, Liu et Wasserma (2009) présetet de telles stratégies pour le modèle additif qui est le cadre de ce travail. Ces différetes procédures ot des propriétés statistiques itéressates essetiellemet sous des coditios techiques restrictives. Ces coditios, das u cotexte de régressio liéaire, impliquet typiquemet que tous les sous-esembles de régresseurs sot approximativemet orthogoaux. Ces hypothèses sot relativemet aturelles lorsque l objectif est de détermier les variables sigificatives das u esemble de régresseurs. Elles le sot beaucoup mois lorsque l objectif est de costruire des algorithmes de prévisio. D u poit de vue théorique, il existe des estimateurs optimaux pour la prévisio qui e requièret aucue hypothèse sur la matrice de régressio. C est le cas e particulier de l estimateur des moidres carrés sous la péalité l 0. Toutefois, le calcul d u tel estimateur est u problème NP-difficile ; ce problème a suscité u grad ombre de recherches visat à costruire des estimateurs ayat de boes propriétés théoriques pour la prévisio tout e restat umériquemet implémetables. Das ce travail, ous ous itéressos à l étude théorique et à la mise e oeuvre d ue stratégie obéissat à ces cosidératios, pour le modèle additif. Le modèle additif est u avatar importat de la statistique cotemporaie, voir par exemple Friedma et Stuetzle (1981) et Hastie et Tibshirai (1990) pour ue formalisatio. Notre stratégie se déclie e trois axes. L estimateur de Gibbs, qui déped du choix d ue distributio a priori favorisat les estimateurs parcimoieux (voir Catoi (2004)). La théorie PAC-bayésiee, amorcée par Shawe-Taylor et Williamso (1997) et McAllester (1999), et formalisée par Catoi (2007), ous fourit ue iégalité oracle. L algorithme Subspace Carli & Chib, issu de Petralias et Dellaportas (2011), permet d échatilloer efficacemet des lois de grades dimesios. Ce travail s iscrit das le prologemet théorique et méthodologique de Alquier et Biau (2011). 2
2 Notatios Nous cosidéros ue collectio D = {(X 1, Y 1 ),..., (X, Y )} de copies i.i.d. d ue variable (X, Y ) à valeurs das R p R, avec la otatio X i = (X i1,..., X ip ) pour tout i {1,..., }. Nous ous plaços das le paradigme p. Le modèle additif s écrit Y i = Ψ (X i ) + W i = p Ψ j(x ij ) + W i, (1) j=1 où W = (W 1,..., W ) est ue collectio de bruits i.i.d., dot ous sauros cotrôler les déviatios des momets successifs. Rappelos que otre objectif est de costruire ue stratégie d estimatio de Ψ. Hypothèse 1. Il existe deux costates positives L et σ 2 telles que pour tout etier k 2 et tout i {1,..., }, E [ W k X ] k! 2 σ2 L k 2. (2) Il est à oter que cette hypothèse est particulièremet faible : e particulier, elle est satisfaite si W est u bruit gaussie. La foctio de régressio Ψ se décompose additivemet sur chacu des régresseurs. La secode hypothèse cosistera à supposer que Ψ est borée (au ses du supremum). Hypothèse 2. Il existe ue costate C > max(1, σ) telle que Ψ < C. Efi, ous adjoigos à ce modèle ue cotraite de parcimoie, c est-à-dire que ous supposos que la dimesio effective p de Ψ est iférieure à p. E d autres termes, u grad ombre des Ψ j sot idetiquemet ulles. Nous sommes maiteat e mesure de détailler otre procédure d estimatio. Cosidéros u dictioaire de foctios cou, oté {ϕ k } K k=1, avec K u ombre etier cou. Les estimateurs de Ψ = p j=1 Ψ j que ous evisageros serot de la forme suivate : ˆΨ θ = p ˆΨ j = j=1 m p j ˆθ jk ϕ k, j=1 k=1 où m j désige, pour tout j {1,..., p}, l ordre du développemet de ˆΨ j das le dictioaire, et ˆθ est ue matrice de taille p K de ombres réels. Par coséquet, u modèle sera la doée d u sous-esemble S de {1,..., p}, désigat les régresseurs actifs, et d u vecteur m S de taille S, des ordres de développemet das le dictioaire de chacu des estimateurs ˆΨ j. La cotraite de parcimoie ous poussera aturellemet à sélectioer des estimateurs avec u esemble S de petit cardial. 3
E lie avec la méthodologie bayésiee classique, ous défiissos ue loi a priori π, chargeat avec ue plus grade probabilité les estimateurs parcimoieux. Plus précisémet, π(θ) α S ) l S m l π (S,mS )(θ), (3) S {1,...,p} ( p S m S {1,...,K} S β où α, β > 0 sot des paramètres de péalisatio, et π (S,mS ) la distributio uiforme sur la boule de rayo C das le modèle (S, m S ). Pour u certai paramètre de température δ > 0, ous cosidéros esuite la loi a posteriori de Gibbs ˆρ δ défiie comme suit : dˆρ δ dπ (θ) = exp( δr ( ˆΨ θ )), (4) où R désige le risque empirique. Notre estimateur ˆΨ Gibbs est alors ue réalisatio d ue variable tirée suivat la loi ˆρ δ. 3 Iégalité oracle PAC-bayésiee et implémetatio Nous présetos ici otre pricipal résultat théorique. Nous désigos par R le risque quadratique classique. Théorème. Soit w = 8C max(l, C) et δ =. Pour tout réel ε ]0, 1[, avec 2w probabilité au mois 1 2ε, { R( ˆΨ Gibbs ) R(Ψ ) Ξ if if R( ˆΨ θ ) R(Ψ ) + S S {1,...,p} θ + log() m j m {1,...,K} S j S + 1 log ( 1 ε) }, où Ξ est ue costate positive e dépedat que de σ, C, L, α et β. Ce théorème admet l iterprétatio suivate : le risque théorique de otre estimateur est boré par le meilleur risque atteigable sur l esemble des modèles, plus u terme j S m j dépedat de la taille du modèle. S + log() Il s agit efi d échatilloer selo la loi ˆρ δ. Cette loi, de dimesio très grade, représete ue gageure pour les algorithmes MCMC classiques, pour lesquels la vitesse de covergece chute drastiquemet lorsque la dimesio de la loi à échatilloer augmete. Nous proposos doc ue versio de l algorithme Subspace Carli & Chib, dot l idée essetielle cosiste à échatilloer, tout au log de la chaîe, das des voisiages correctemet choisis du modèle courat. L algorithme (codé à l aide du logiciel R) aisi que ses performaces sur doées simulées et réelles serot présetés oralemet. 4
Bibliographie [1] Alquier, P. ad Biau, G. (2011), Sparse Sigle-Idex Model, preprit. http://www. lsta.upmc.fr/biau/ab.pdf [2] Catoi, O., Statistical Learig Theory ad Stochastic Optimizatio, Lectures o Probability Theory ad Statistics, École d été de Probabilités de Sait-Flour XXXI, Spriger, 2004. [3] Catoi, O., PAC-Bayesia Supervised Classificatio: The Thermodyamics of Statistical Learig, volume 56 of IMS Lecture Notes Moograph Series. Istitute of Mathematical Statistics, 2007. [4] Friedma, J. H. ad Stuetzle, W. (1981), Projectio Pursuit Regressio, Joural of the America Statistical Associatio, 76:817 823. [5] Hastie, T. J. ad Tibshirai, R. J., Geeralized Additive Models, Chapma & Hall/CRC, 1990. [6] Hastie, T. J., Tibshirai, R. J., ad Friedma, J. H., The Elemets of Statistical Learig, 2d Editio, Spriger-Verlag, 2008. [7] McAllester, D. (1999), Some PAC-Bayesia Theorems, COLT 98 Proceedigs, Machie Learig 37(3): 355-363. [8] Meier, L., va de Geer, S. ad Bühlma, P. (2009), High-dimesioal Additive Modelig, The Aals of Statistics, 37: 3779-3821. [9] Petralias, A. ad Dellaportas, P. (2011), A MCMC model search algorithm for regressio problems, preprit. http://stat-athes.aueb.gr/~apet/model_choice_17_ website.pdf [10] R Developmet Core Team (2011), R: A laguage ad eviromet for statistical computig, R Foudatio for Statistical Computig, Viea, Austria. ISBN 3-900051-07-0, URL http://www.r-project.org/. [11] Ravikumar, P., Lafferty, J., Liu, H. ad Wasserma, L. (2009), Sparse Additive Models, Joural of the Royal Statistical Society, Series B, 71(5):1009-1030. [12] Shawe-Taylor, J. ad Williamso, R. C. (1997), A PAC Aalysis of a Bayes Estimator, COLT 97 Proceedigs. 5