Prévision pac-bayésienne pour le modèle additif sous contrainte de parcimonie



Documents pareils
1 Mesure et intégrale

Chapitre 3 : Fonctions d une variable réelle (1)

STATISTIQUE : TESTS D HYPOTHESES

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

Chapitre 3 : Transistor bipolaire à jonction

Les Nombres Parfaits.

Statistique descriptive bidimensionnelle

EXERCICES : DÉNOMBREMENT

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Etude de la fonction ζ de Riemann

Processus géométrique généralisé et applications en fiabilité

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

Limites des Suites numériques

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

Processus et martingales en temps continu

Séquence 5. La fonction logarithme népérien. Sommaire

CHAPITRE 2 SÉRIES ENTIÈRES

SÉRIES STATISTIQUES À DEUX VARIABLES

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

20. Algorithmique & Mathématiques

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

55 - EXEMPLES D UTILISATION DU TABLEUR.

Les algorithmes de tri

Comportement d'une suite

14 Chapitre 14. Théorème du point fixe

Cours 5 : ESTIMATION PONCTUELLE

STATISTIQUE AVANCÉE : MÉTHODES

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Dénombrement. Chapitre Enoncés des exercices

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Séries réelles ou complexes

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

4 Approximation des fonctions

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

c. Calcul pour une évolution d une proportion entre deux années non consécutives

PROBLEMES DIOPTIMISATION EN NOMBRES ENTIERS J. L. NICOLAS

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Statistique Numérique et Analyse des Données

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Gérer les applications

Probabilités et statistique pour le CAPES

Cours de Statistiques inférentielles

Risque de longévité et détermination du besoin en capital : travaux en cours

Module 3 : Inversion de matrices

Des résultats d irrationalité pour deux fonctions particulières

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

INTRODUCTION AUX MATRICES ALÉATOIRES. par. Djalil Chafaï

2 ième partie : MATHÉMATIQUES FINANCIÈRES

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Tableaux Croisés et Diagrammes en Mosaïque : Pour Voir Les Probabilités Marginales et Conditionnelles.

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Dares Analyses. Plus d un tiers des CDI sont rompus avant un an

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

Suites et séries de fonctions

Chap. 5 : Les intérêts (Les calculs financiers)

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Compte Sélect Banque Manuvie Guide du débutant

Le Sphinx. Enquêtes, Sondages. Analyse de données. Internet :

Initiation à l analyse factorielle des correspondances

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

Échantillonnage et estimation

Neolane Leads. Neolane v6.0

Solutions particulières d une équation différentielle...

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Le chef d entreprise développe les services funéraires de l entreprise, en

Principes et Méthodes Statistiques

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Formation d un ester à partir d un acide et d un alcool

sçíêé=ã~áëçå L ABC des fenêtres

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Sommaire Chapitre 1 - L interface de Windows 7 9

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Présentation & organisation du cours. Introduction : décider en milieu industriel. Les méta-heuristiques. Le travail à réaliser

RECHERCHE DE CLIENTS simplifiée

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Lorsque la sécurisation des paiements par carte bancaire sur Internet conduit à une concurrence entre les banques et les opérateurs de réseau

SyGEMe: Géo-Monitoring et gestion de l eau potable

Principe de symétrisation pour la construction d un test adaptatif

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes

LE WMS EXPERT DE LA SUPPLY CHAIN DE DÉTAIL

Nous imprimons ce que vous aimez!

Les solutions mi-hypothécaires, mi-bancaires de Manuvie. Guide du conseiller

Opérations bancaires avec l étranger *

Transcription:

Prévisio pac-bayésiee pour le modèle additif sous cotraite de parcimoie Bejami Guedj 1, Pierre Alquier 2, Gérard Biau 1 3 et Éric Moulies 1 LSTA, Uiversité Pierre et Marie Curie Paris VI Boîte 158, Tour 15-25, 2ème étage 4 place Jussieu, 75252 Paris Cedex 05, Frace bejami.guedj@upmc.fr gerard.biau@upmc.fr 2 LPMA, Uiversité Paris Diderot Paris VII Boîte 188, 175 rue du Chevaleret 75013 Paris, Frace alquier@math.jussieu.fr 3 LTCI, Telecom ParisTech 37/39 rue Dareau, 75014 Paris, Frace moulies@telecom-paristech.fr Résumé. Nous ous itéressos das ce travail à la costructio et à la mise e oeuvre d ue méthode de prévisio das le modèle additif, sous cotraite de parcimoie. L estimateur de Gibbs est au coeur de otre approche. Cet estimateur est costruit à l aide d ue loi a priori favorisat les solutios parcimoieuses. Nous justifios otre démarche e fourissat ue iégalité oracle PAC-bayésiee origiale et ue implémetatio faisat appel à des techiques MCMC récetes. Mots-clés. Modèles additifs, régressio, théorie PAC-bayésiee, parcimoie, iégalité oracle, algorithmes MCMC. Abstract. We adress the issue of predictio i high dimesioal additive models, uder a sparsity costrait. Our method strogly relies o the Gibbs estimator, which origiates from a prior distributio favorig sparse estimates. We provide the reader with a PAC-bayesia oracle iequality ad a explicit implemetatio usig recet MCMC techiques. Keywords. Additive models, regressio, PAC-bayesia theory, sparsity, oracle iequality, MCMC algorithms. 1

1 Itroductio Au cours des derières aées, de ombreuses méthodes d estimatio et de sélectio de variables ot été proposées pour résoudre des problèmes de régressio e grade dimesio sous cotraite de parcimoie. La méthode des moidres carrés avec ue péalité l 1 (LASSO) a de loi été la plus étudiée ; ses propriétés statistiques sot aujourd hui bie comprises. Plusieurs autres méthodes ot été itroduites (Elastic et, Datzig selector, etc.). Ces estimateurs sot obteus comme solutios d u problème covexe (ou liéaire), qui admettet des solutios umériquemet efficaces. E particulier, Hastie, Tibshirai et Friedma (2008), Meier, va de Geer et Bühlma (2009) et Ravikumar, Rafferty, Liu et Wasserma (2009) présetet de telles stratégies pour le modèle additif qui est le cadre de ce travail. Ces différetes procédures ot des propriétés statistiques itéressates essetiellemet sous des coditios techiques restrictives. Ces coditios, das u cotexte de régressio liéaire, impliquet typiquemet que tous les sous-esembles de régresseurs sot approximativemet orthogoaux. Ces hypothèses sot relativemet aturelles lorsque l objectif est de détermier les variables sigificatives das u esemble de régresseurs. Elles le sot beaucoup mois lorsque l objectif est de costruire des algorithmes de prévisio. D u poit de vue théorique, il existe des estimateurs optimaux pour la prévisio qui e requièret aucue hypothèse sur la matrice de régressio. C est le cas e particulier de l estimateur des moidres carrés sous la péalité l 0. Toutefois, le calcul d u tel estimateur est u problème NP-difficile ; ce problème a suscité u grad ombre de recherches visat à costruire des estimateurs ayat de boes propriétés théoriques pour la prévisio tout e restat umériquemet implémetables. Das ce travail, ous ous itéressos à l étude théorique et à la mise e oeuvre d ue stratégie obéissat à ces cosidératios, pour le modèle additif. Le modèle additif est u avatar importat de la statistique cotemporaie, voir par exemple Friedma et Stuetzle (1981) et Hastie et Tibshirai (1990) pour ue formalisatio. Notre stratégie se déclie e trois axes. L estimateur de Gibbs, qui déped du choix d ue distributio a priori favorisat les estimateurs parcimoieux (voir Catoi (2004)). La théorie PAC-bayésiee, amorcée par Shawe-Taylor et Williamso (1997) et McAllester (1999), et formalisée par Catoi (2007), ous fourit ue iégalité oracle. L algorithme Subspace Carli & Chib, issu de Petralias et Dellaportas (2011), permet d échatilloer efficacemet des lois de grades dimesios. Ce travail s iscrit das le prologemet théorique et méthodologique de Alquier et Biau (2011). 2

2 Notatios Nous cosidéros ue collectio D = {(X 1, Y 1 ),..., (X, Y )} de copies i.i.d. d ue variable (X, Y ) à valeurs das R p R, avec la otatio X i = (X i1,..., X ip ) pour tout i {1,..., }. Nous ous plaços das le paradigme p. Le modèle additif s écrit Y i = Ψ (X i ) + W i = p Ψ j(x ij ) + W i, (1) j=1 où W = (W 1,..., W ) est ue collectio de bruits i.i.d., dot ous sauros cotrôler les déviatios des momets successifs. Rappelos que otre objectif est de costruire ue stratégie d estimatio de Ψ. Hypothèse 1. Il existe deux costates positives L et σ 2 telles que pour tout etier k 2 et tout i {1,..., }, E [ W k X ] k! 2 σ2 L k 2. (2) Il est à oter que cette hypothèse est particulièremet faible : e particulier, elle est satisfaite si W est u bruit gaussie. La foctio de régressio Ψ se décompose additivemet sur chacu des régresseurs. La secode hypothèse cosistera à supposer que Ψ est borée (au ses du supremum). Hypothèse 2. Il existe ue costate C > max(1, σ) telle que Ψ < C. Efi, ous adjoigos à ce modèle ue cotraite de parcimoie, c est-à-dire que ous supposos que la dimesio effective p de Ψ est iférieure à p. E d autres termes, u grad ombre des Ψ j sot idetiquemet ulles. Nous sommes maiteat e mesure de détailler otre procédure d estimatio. Cosidéros u dictioaire de foctios cou, oté {ϕ k } K k=1, avec K u ombre etier cou. Les estimateurs de Ψ = p j=1 Ψ j que ous evisageros serot de la forme suivate : ˆΨ θ = p ˆΨ j = j=1 m p j ˆθ jk ϕ k, j=1 k=1 où m j désige, pour tout j {1,..., p}, l ordre du développemet de ˆΨ j das le dictioaire, et ˆθ est ue matrice de taille p K de ombres réels. Par coséquet, u modèle sera la doée d u sous-esemble S de {1,..., p}, désigat les régresseurs actifs, et d u vecteur m S de taille S, des ordres de développemet das le dictioaire de chacu des estimateurs ˆΨ j. La cotraite de parcimoie ous poussera aturellemet à sélectioer des estimateurs avec u esemble S de petit cardial. 3

E lie avec la méthodologie bayésiee classique, ous défiissos ue loi a priori π, chargeat avec ue plus grade probabilité les estimateurs parcimoieux. Plus précisémet, π(θ) α S ) l S m l π (S,mS )(θ), (3) S {1,...,p} ( p S m S {1,...,K} S β où α, β > 0 sot des paramètres de péalisatio, et π (S,mS ) la distributio uiforme sur la boule de rayo C das le modèle (S, m S ). Pour u certai paramètre de température δ > 0, ous cosidéros esuite la loi a posteriori de Gibbs ˆρ δ défiie comme suit : dˆρ δ dπ (θ) = exp( δr ( ˆΨ θ )), (4) où R désige le risque empirique. Notre estimateur ˆΨ Gibbs est alors ue réalisatio d ue variable tirée suivat la loi ˆρ δ. 3 Iégalité oracle PAC-bayésiee et implémetatio Nous présetos ici otre pricipal résultat théorique. Nous désigos par R le risque quadratique classique. Théorème. Soit w = 8C max(l, C) et δ =. Pour tout réel ε ]0, 1[, avec 2w probabilité au mois 1 2ε, { R( ˆΨ Gibbs ) R(Ψ ) Ξ if if R( ˆΨ θ ) R(Ψ ) + S S {1,...,p} θ + log() m j m {1,...,K} S j S + 1 log ( 1 ε) }, où Ξ est ue costate positive e dépedat que de σ, C, L, α et β. Ce théorème admet l iterprétatio suivate : le risque théorique de otre estimateur est boré par le meilleur risque atteigable sur l esemble des modèles, plus u terme j S m j dépedat de la taille du modèle. S + log() Il s agit efi d échatilloer selo la loi ˆρ δ. Cette loi, de dimesio très grade, représete ue gageure pour les algorithmes MCMC classiques, pour lesquels la vitesse de covergece chute drastiquemet lorsque la dimesio de la loi à échatilloer augmete. Nous proposos doc ue versio de l algorithme Subspace Carli & Chib, dot l idée essetielle cosiste à échatilloer, tout au log de la chaîe, das des voisiages correctemet choisis du modèle courat. L algorithme (codé à l aide du logiciel R) aisi que ses performaces sur doées simulées et réelles serot présetés oralemet. 4

Bibliographie [1] Alquier, P. ad Biau, G. (2011), Sparse Sigle-Idex Model, preprit. http://www. lsta.upmc.fr/biau/ab.pdf [2] Catoi, O., Statistical Learig Theory ad Stochastic Optimizatio, Lectures o Probability Theory ad Statistics, École d été de Probabilités de Sait-Flour XXXI, Spriger, 2004. [3] Catoi, O., PAC-Bayesia Supervised Classificatio: The Thermodyamics of Statistical Learig, volume 56 of IMS Lecture Notes Moograph Series. Istitute of Mathematical Statistics, 2007. [4] Friedma, J. H. ad Stuetzle, W. (1981), Projectio Pursuit Regressio, Joural of the America Statistical Associatio, 76:817 823. [5] Hastie, T. J. ad Tibshirai, R. J., Geeralized Additive Models, Chapma & Hall/CRC, 1990. [6] Hastie, T. J., Tibshirai, R. J., ad Friedma, J. H., The Elemets of Statistical Learig, 2d Editio, Spriger-Verlag, 2008. [7] McAllester, D. (1999), Some PAC-Bayesia Theorems, COLT 98 Proceedigs, Machie Learig 37(3): 355-363. [8] Meier, L., va de Geer, S. ad Bühlma, P. (2009), High-dimesioal Additive Modelig, The Aals of Statistics, 37: 3779-3821. [9] Petralias, A. ad Dellaportas, P. (2011), A MCMC model search algorithm for regressio problems, preprit. http://stat-athes.aueb.gr/~apet/model_choice_17_ website.pdf [10] R Developmet Core Team (2011), R: A laguage ad eviromet for statistical computig, R Foudatio for Statistical Computig, Viea, Austria. ISBN 3-900051-07-0, URL http://www.r-project.org/. [11] Ravikumar, P., Lafferty, J., Liu, H. ad Wasserma, L. (2009), Sparse Additive Models, Joural of the Royal Statistical Society, Series B, 71(5):1009-1030. [12] Shawe-Taylor, J. ad Williamso, R. C. (1997), A PAC Aalysis of a Bayes Estimator, COLT 97 Proceedigs. 5