Séminaire ES Andrés SÁNCHEZ PÉREZ October 8th, 03 Présentation du sujet Le problème de régression non-paramétrique se pose de la façon suivante : Supposons que l on dispose de n couples indépendantes de v.a. X, Y,..., X, Y telles que : Y i = θ X i + ξ i, X i 0, ], où E ξ i = 0 pour tout i et la fonction dite de régression θ : 0, ] R est inconnue. On cherche à estimer θ qui appartient à un ensemble non-paramétrique infinidimensionnel Θ. Ça fait partie d une classe plus large de problèmes, celle de la estimation non paramètrique. On utilisera comme ensemble Θ la classe de Hölder Σ β, L. Definition Classe de Hölder Pour I R, soient β > 0, L > 0. La classe de Hölder sur I est l ensemble de toutes les fonctions f : I R telles que la dérivée f l, l = β existe et vérifie f l x f l x L x x β l, x, x I. Il y a trois éléments qui caracterisent un problème d estimation non-paramétrique : Une classe non-paramètrique de fonctions Θ contenant la vraie fonction θ. Une famille {P θ, θ Θ} de mesures de probabilité sur un espace mesurable X, A associé à un échantillon. Une semi-distance d sur Θ utilisée pour définir le risque. La performance d un estimateur ˆθ de θ est mesurée par son risque maximal sur θ : r ˆθ = sup E ˆθ θ d, θ ]. Si pour certains estimateurs on a des inégalités du type : sup E ˆθ θ d, θ ] Cψ, avec ψ 0 et C <, on serait intérésés à obtenir des bornes inférieures correspondantes : Definition Risque minimax ˆθ, sup E ˆθ θ d, θ ] cψ. R = inf ˆθ sup E ˆθ θ d, θ ]
RAPPELS DE HÉORIE DE LA MESURE Definition 3 Vitesse optimale de convergence La suite {ψ } est dite vitesse optimale de convergence des estimateurs sur Θ, d si et sont verifiées. Un estimateur θ qui vérifie : sup E θ d θ, θ ] C ψ, est dit estimateur optimal en vitesse de convergence sur Θ, d. On peut considérer un cadre plus général où le risque maximal es défini par r w ˆθ = sup E θ w ψ d ˆθ, θ ], avec une fonction perte w : R + R + monotone croissante, non idéntiquement nulle et telle que w 0 = 0. Exemple : w u = u p, p > 0. Rappels de théorie de la mesure Definition 4 Soit ν une mesure positive sur X, A et soit ρ, ρ des mesures positives resp. réelles, resp. complexes sur X, A. On dit que ρ est absolument continue par rapport à ν, et l on note ρ ν, si pour tout A A tel que ν A = 0, on a également ρ A = 0. Si ν et ρ sont σ finies ρ ν ρ A = dρ dρ dν. est la densité de ρ par rapport à ν, qui, dans ce A dν dν cas est une fonction mesurable positive resp. -intégrable réelle, resp. -intégrable complexe. On dit que ρ est concentrée sur E A si pour tout A A on a ρ A = ρ A E, ou bien encore ρ A\E = 0. On dit que ρ et ρ sont étrangères, et l on note ρ ρ, s il existe E A telle que ρ soit portée par E et ρ soit portée par E c. heorem. Radon-Nikodym-Lebesgue Soient ν une mesure positive σ finie sur X, A et µ une mesure positive σ finie resp. réelle, resp. complexe sur X, A. Alors : i Il existe un unique couple de mesures positives σ finies resp. réelles, resp. complexes tel que : µ = µ + µ, µ ν, µ ν Cette décomposition s appelle la décomposition de Lebesgue de µ. ii Il existe une unique à égalité -presque partout près fonction h, ν -intégrable mesurable positive resp. réelle, resp. complexe, telle que pour tout A A on ait : µ A = hdν = A hdν A Cette fonction s appelle la dérivée de Radon-Nykodym de µ par rapport à ν. Supposons que ν est une mesure σ finie sur X, A telle que P 0 ν, P ν, on définit p 0 = dν, p = dp dν. ν existe toujours, par exemple, ν = P 0 + P. X
RAPPELS DE HÉORIE DE LA MESURE Definition 5 Divergence de Kullback-Leibler Entre P 0 et P est définie par : log dp K P 0, P = 0, si P 0 P dp +, sinon. Si P 0 P, on a {p > 0} {p 0 > 0}, {p 0 p > 0} = {p 0 > 0}. De plus, l intégrale dans la définition 5 est calculée sur l ensemble {p 0 > 0}. On en déduit que si P 0 P : K P 0, P = p 0 log p 0 dν. p p 0 p >0 Lemma Inégalité de Le Cam, 973 p0 p dν min p 0, p dν Proof du Lemme p0 p dν = p 0 p p0 p dν + p 0 <p p0 p dν p0 p dν + p0 p dν p 0 p p 0 <p p 0 dν p dν + p dν p 0 dν p 0 p p 0 <p = min p 0, p dν Lemma min p 0, p dν exp K P 0, P. Proof du lemme Grâce à l inégalité de Jensen, p0 p dν = exp log p 0 p >0 = exp log p 0 p >0 = exp log p 0 p >0 p0 p dν p p 0 dν p 0 dp 3
3 SCHÉMA GÉNÉNAL DE RÉDUCION exp p 0 p >0 = exp K P 0, P dp log On complète la preuve en utilisant l Inégalité de Le Cam. 3 Schéma génénal de réduction a Réduction aux bornes en probabilité : Soit A une constante telle que w A > 0, l inégalité de Markov conduit à : inf ˆθ sup E θ w ψ d ˆθ, θ ] w A inf ˆθ sup P θ d ˆθ, θ s avec s = Aψ. b Réduction au problème de test d un nombre fini d hypothèses : inf max P θ d ˆθ, θ s 3 ˆθ θ {θ 0,...,θ M } sup P θ d ˆθ, θ s inf ˆθ where {θ 0,..., θ M } Θ. Cet ensemble doit etre convenablement choisi. c Choix des hypothèses séparées d une distance d au moins s : Si : d θ j, θ k s, k j, soit ψ = arg min d ˆθ, θ k le test du minimum de distance, alors 0 k M ψ j d θ ψ, ˆθ + d ˆθ, θ j d θψ, θ j s d ˆθ, θ j s, et donc P θ j d ˆθ, θ j s Pθ j ψ j, j = 0,..., M. inf ˆθ max θ {θ 0,...,θ M } P θ d ˆθ, θ s inf ψ max P θ j ψ j. 4 0 j M L infimum dans le terme de droite est pris dans l ensemble de tous les tests, i.e. fonctions Y,..., Y mesurables ψ à valeurs dans {0,..., M}. On note : p e,m = inf ψ max P θ j ψ j. 0 j M L objectif est d obtenir une borne inférieure pour p e,m qui soit indépendante de. Dans la pratique 3 conditions sont cherchées afin de borner p e,m :. Assurer 3 : θ j Θ, j = 0,..., M.. Assurer 4 : d θ j, θ k s > 0, 0 j < k M. 3. Assurer que p e,m c > 0 : heorem 3. Soient P 0, P deux mesures de probabilité sur A. Si K P 0, P α <, alors : p e, exp α 4
4 BORNE INFÉRIEURE POUR LA RÉGRESSION EN UN POIN heorem 3. Supposons que Θ contient M éléments θ 0,..., θ M tels que : i d θ j, θ k s > 0, 0 j < k M, ii P j P 0, j < k M, et M iii K P θ M j, P θ0 α log M, avec α 0,. 4 Alors, j= Proof du héorème 3. p e,m α α log M > 0. p e, = inf max P j ψ j ψ j=0, inf P0 ψ 0 + P ψ ] ψ A ] = inf p 0 + A c p dν A A = min p 0, p dν = P 0 ψ 0 + P ψ L ensemble A où l infimum est atteint est A = {p 0 p } et en conséquence ψ = A. On utilise le lemme et cela donne : min p 0, p dν p e, exp K P 0, P exp α. 4 Borne inférieure pour la régression en un point Exemple d application des bornes basées sur deux hypothèses dans le modèle de régression vérifiant les conditions suivantes. Le modèle statistique est celui de régression non-paramétrique : Y i = f X i + ξ i,, i =,..., où f : 0, ] R. Les variables aléatoires ξ i sont i.i.d., de densité p ξ par rapport à la mesure de Lebesgue sur R, vérifiant : p > 0, v 0 > 0 : pour tout v v 0. Les X i 0, ] sont déterministes. p ξ u log p ξ u p ξ u + v du p v, 5
4 BORNE INFÉRIEURE POUR LA RÉGRESSION EN UN POIN Il existe un a 0 R tel que, pour tout intervalle A 0, ] et tout, {Xi A} a 0 max Leb A, La deuxième condition est satisfaite si, par exemple, p ξ est la densité de la loi normale N 0, σ, σ > 0. Notre objectif est d établir une borne inférieure pour le risque minimax sur Θ, d, où Θ = Σ β, L est une classe de Hölder et pour la semi-distance d, la distance en un point fixé x 0, ] : d f, g = f x 0 g x 0. La vitesse qu on veut obtenir est ψ = β β+, la meme que dans les bornes supérieures des estimateurs par polynomes locaux par exemple page 36. Il nous suffira de prendre M = hypothèses : θ 0 x 0, θ x = Lh β K x x0 h, x 0, ], où h = c 0 β+, c0 > 0, L > 0 et la fonction K : R 0, + vérifie : K Σ β, C R, K u > 0 u,. Les fonctions K vérifiants cette condition existent. Par exemple, on peut prendre, avec un a > 0 suffisamment petit, K u = ak 0 u, où K 0 u = exp u u. Pour pouvoir utiliser le héorème 3. on doit vérifier trois conditions : La condition θ j Σ β, L, j = 0,. Pour l = β, la dérivée l ème de θ vaut θ l θ l x θl Donc θ Σ β, L Σ β, L. La condition d θ 0, θ s. x = Lh β l x x = Lhβ l K l x0 x x0 Kl h Lhβ l x x 0 x x 0 h h = L x x β l h K l x x 0 β l d θ 0, θ = θ x 0 = Lh β K 0 = Lcβ 0K 0 β n Et la condition est satisfaite avec A = Lcβ 0 K 0. β+ h et alors : La condition K P 0, P α. Notons que P j la loi de Y,..., Y pour θ j admet une densité par rapport à la mesure de Lebesgue sur R de la forme p j u,..., u = p ξ ui θ j X i, j = 0, 6
4 BORNE INFÉRIEURE POUR LA RÉGRESSION EN UN POIN Il existe un entier 0 tel que pour tout > 0 on a h et Lh β K max v 0 où K max = max K u et 0 ne dépend que de c 0, L, β, K max, v 0. Donc : u K P 0, P = log dp p ξ u i ] =... log pξ u i du i p ξ u i θ X i p ξ y = log p ξ y θ X i p ξ y dy p θ X i = p L h β p L h β K max K Xi x 0 h X i x 0 h p a 0 L Kmaxh β max h, = p a 0 L Kmaxh β+. β+ α Si on choisit c 0 =, on obtient K P0, P p a 0 L Kmax α. 7