Perforamances statistiques d estimateurs non-linéaires

Transcription

1 Perforamances statistiques d estimateurs non-linéaires Micael Cicignoud To cite tis version: Micael Cicignoud. Perforamances statistiques d estimateurs non-linéaires. Matématiques [mat]. Université de Provence - Aix-Marseille I, Français. <tel > HAL Id: tel ttps://tel.arcives-ouvertes.fr/tel Submitted on 29 Nov 2010 HAL is a multi-disciplinary open access arcive for te deposit and dissemination of scientific researc documents, weter tey are publised or not. Te documents may come from teacing and researc institutions in France or abroad, or from public or private researc centers. L arcive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recerce, publiés ou non, émanant des établissements d enseignement et de recerce français ou étrangers, des laboratoires publics ou privés.

2 UNIVERSITÉ DE PROVENCE U.F.R. M.I.M. ÉCOLE DOCTORALE DE MATHÉMATIQUES ET INFORMATIQUE E.D. 184 THÈSE présentée pour obtenir le grade de Docteur de l Université de Provence Spécialité : Matématiques par Micaël CHICHIGNOUD sous la direction du Pr. Oleg LEPSKI Titre : Performances statistiques d estimateurs non-linéaires soutenue publiquement le 25 novembre 2010 JURY M. Laurent CAVALIER Université de Provence Examinateur Mme Béatrice LAURENT INSA de Toulouse Examinatrice M. Oleg LEPSKI Université de Provence Directeur M. Pascal MASSART Université Paris-Sud Rapporteur Mme Dominique PICARD Université Paris-Diderot Examinatrice M. Alexandre TSYBAKOV Université Pierre et Marie Curie Examinateur M. Aad Van der VAART Vrije Universiteit Rapporteur

3

4 A mes grands parents, Jacqueline et Robert, une pensée pour eux.

5

6 REMERCIEMENTS Mes premières pensées vont à mon directeur de tèse, Oleg Lepski, qui m a fait l immense onneur de m accompagner pendant ces trois longues années. Il est difficile en quelques lignes d exprimer tous mes remerciements et mon estime pour lui. J ai souvent mis à contribution ses nombreuses qualités umaines, mais son soutien et ses conseils avisés m ont permis de réaliser ce manuscrit. Par ses connaissances scientifiques et son extraordinaire niveau en matématiques, qui m impressionne toujours, il a su me lancer sur un sujet très ouvert et je le remercie très sincèrement. Dans les années futures, j espère pouvoir répondre aux nombreuses questions ouvertes, qu il m a posé et auxquelles je n ai pas su répondre, sur des problèmes qui occuperont certainement une place importante dans les statistiques de demain. J exprime tous mes remerciements à Pascal Massart et Aad Van der Vaart pour avoir gentiment accepté de rapporter cette tèse. Je suis très toucé qu ils aient pris le temps de relire mes modestes travaux. Je tiens également à remercier Laurent Cavalier, Béatrice Laurent, Dominique Picard et Alexandre Tsybakov, de l immense onneur qu ils me font de participer à ce jury de tèse d une très grande qualité scientifique. Un grand merci à tous les membres de l équipe Probabilités/Statistiques, notamment à Florent Autin, Yuri Golubev, Grégory Maillard, Cristope Pouet et Tomas Willer pour leurs conseils avisés, leur sympatie et leur engouement pour les matématiques. Je voudrais remercier aussi les personnes qui ont contribué à la réalisation de cet ouvrage, notamment Cristope Pouet et Tomas Willer. Ma sincère gratitude et mon amitié vont à Josep Salmon, futur docteur lui aussi. Un petit clin d oeil à Adrien Saumard, qui a su, en peu de temps, me poser des questions très ouvertes sur mon sujet et me donner quelques conseils de rédaction. Je tiens à remercier les enseignants qui m ont le plus marqué au cours de mes études, et qui m ont fait aimer les matématiques : M. Fournier Professeur de matématiques en Première pour son entousiasme et son dé à 28 faces, Dominique Barbolosi Professeur en Licence pour la qualité de ses cours sans support papier, et enfin Laurent Cavalier Professeur en Master pour ses cours dynamiques effectués avec beaucoup de rigueur. Ces trois années passées au CMI m ont permis de rencontrer des gens extraordinaires. Je remercie le personnel administratif pour leur disponibilité et leur sympatie, les carges 5

7 M. CHICHIGNOUD administratives étaient bien peu lourdes grâce à leur présence. Je suis eureux d avoir fait partie de la Team des doctorants du Cmi et je remercie cacun d entre eux pour les nombreuses discussions que nous avons eu sur divers domaines des matématiques. Je remercie sincèrement Hamis Sort directeur de l école doctorale et Etienne Pardoux ex-directeur de l école doctorale pour tout ce qu ils ont fait pour moi, en particulier pour l obtention d une bourse doctorale. Un grand merci aux membres du bureau 114 que j ai pu côtoyés au quotidien, notamment Clément Marteau, Sébastien Loustau et Santi Gibert. Leur présence fût caleureuse et indispensable durant toutes ces années. J exprime mes plus sincères remerciements à ma famille pour son accompagnement dans ce long parcours. Ma mère, mon frère et mes grands parents ont été d un soutien sans faille. En particulier, un immense merci à mon père qui à force de patiente et d encouragements, m a communiqué son pencant pour les matématiques et la logique. Du fond du coeur Merci! Et pour finir, tous mes sentiments vont à ma future femme Mylène, qui a accepté de me dire oui pour me rendre le plus eureux des ommes. Sans elle et son caleureux soutien, je ne serais pas là aujourd ui. Merci mon amour! 6

8 SOMMAIRE Le tème de cette tèse est l estimation non-paramétrique, en particulier l étude des performances téoriques de l estimation de fonctions de régression, une partie importante d un des domaines matématiques connue sous le nom de statistique matématique. Une partie de cette tèse est rédigée en anglais, car ce sont des preprints ou des articles soumis. Les capitres 1 et 2 sont quant à eux rédigés en français. C est pourquoi nous avons fait précéder caque capitre d un court résumé en français. Ce manuscrit est organisé comme suit : Le capitre 1 est une introduction aux modèles de régression, aux critères de performance en vigueur et aux métodes adaptatives avec sélection de fenêtres. Dans le capitre 2, le lecteur peut trouver les principaux résultats de cette tèse pour deux nouveaux types d estimateurs. Notons qu un lecteur non-spécialiste du domaine aura recours au capitre 1 pour sa compréension. Nous proposons aussi quelques perspectives à ce travail. Notamment, une liste d une quinzaine de problèmes ouverts est donnée à la fin de ce capitre. Les capitres 3 et 4 traitent de l estimation bayésienne. Le capitre 5 introduit l estimateur de Huber et quelques résultats sur ses performances. Les résultats téoriques sont accompagnés d expériences numériques. En particulier, on pourra comparer les estimateurs bayésien et de Huber avec les estimateurs linéaires. Les capitres 3 à 5 peuvent être lus indépendamment des autres ce qui est à l origine de quelques répétitions. Il reste néanmoins quelques liens limités aux outils probabilistes et à des résultats tecniques communs. Nous avons fait tout notre possible pour uniformiser nos notations, que nous définissons avant le capitre 3 et qui sont redéfinies ensuite pour caque capitre. La version électronique de cette tèse à télécarger sur la page web de l auteur : ttp :// cicign/doku.pp?id=acceuil comprend des liens yperref qui permettent de se retrouver au capitre, à la section, à la formule ou à la citation en un simple clic sur la référence. Nous incitons le lecteur à l utiliser pour une recerce

9 M. CHICHIGNOUD bibliograpique ou un résultat tecnique, bien que la version papier reste la plus agréable à lire. 8

10 Table des matières 1 Régression Non-Paramétrique Objet de la Tèse Modèles de Régression et Espaces Fonctionnels Espaces de Hölder Isotropes Régression Générale Régression Additive Régression Gaussienne et de Caucy Régression Inomogène de Poisson Régression α Régression Multiplicative Uniforme Approce Localement Paramétrique Estimateur Bayésien Estimateur de Huber Mesure de l Erreur Approce Minimax Ponctuelle Approce Minimax Adaptative Adaptation Généralités Coix de la Fenêtre : Métode de Lepski Résultats et Perspectives Approce Bayésienne Recerce de la Vitesse Minimax Procédure Adaptative

11 TABLE DES MATIÈRES M. CHICHIGNOUD Grandes Déviations Exemples de Modèles avec des Vitesses Différentes Critère de Huber Adaptation Grandes Déviations Inégalités Maximales pour les processus empiriques Expériences numériques Perspectives Approce Bayésienne Critère de Huber General Locally Bayesian Approac Introduction Minimax Estimation Adaptive Rule Applications Gaussian Regression Inomogeous Poisson Regression α Regression Multiplicative Uniform Regression Proofs of Main Results Auxiliary Results: Large Deviations Proof of Teorem Proof of Teorem Proof of Proposition Appendix Locally Bayesian Approac for Multiplicative Uniform Regression Introduction Minimax estimation on isotropic Hölder class Adaptive estimation on isotropic Hölder classes Simulation study Proofs of main results: upper bounds

12 M. CHICHIGNOUD TABLE DES MATIÈRES Auxiliary results Proof of Proposition Proof of Proposition Proof of Teorem Proof of Teorem Proofs of lower bounds Proof of Teorem Proof of Teorem Proof of Proposition Appendix Huber Estimation Introduction Maximal Risk on H d β, L, M Bandwidt Selector of Huber Estimator Proofs of Main Results: Upper Bounds Auxiliary Results: Large Deviations for M-estimators Proof of Proposition Proof of Teorem Proof of Teorem Appendix

13 TABLE DES MATIÈRES M. CHICHIGNOUD 12

14 Capitre 1 Régression Non-Paramétrique Nous présentons, dans ce capitre introductif, les modèles de régression non-paramétriques que nous étudions. Nous introduirons l approce localement paramétrique, le risque minimax et la notion d adaptation. Les estimateurs, utilisés dans cette tèse, sont présentés dans la section 1.3. Une partie importante de l introduction est consacrée à une présentation détaillée de la métode dite de Lepski voir Section Objet de la Tèse Dans cette tèse, nous étudions un domaine de la statistique matématique : l estimation non-paramétrique. Ceci consiste à estimer des fonctions objets de dimensions infinies à partir d observations bruitées. Ce genre d approce s est considérablement développé ces dernières années dans le monde scientifique. L imagerie médicale ou astronomique, l étude du génome puces à ADN en grande dimension ou encore les problèmes inverses pysique des matériaux, tomograpie en imagerie médicale, etc. ont recours à l estimation non-paramétrique. Les statistiques ont un attrait particulier du fait qu elles utilisent des téories matématiques pour modéliser des problèmes réels. En particulier, l introduction, de la notion d aléa en anglais : random dans les observations, permet au statisticien de construire des métodes d estimation fiables en téorie. La modélisation de problème se fait de la manière suivante. On dispose d un nombre n de données, notées Y = Y 1, Y 2,..., Y n R n, issues d une expérience réelle. On modélise les observations en utilisant deux téories matématiques, l analyse fonctionnelle et les probabilités. On peut décomposer les observations Y de la façon suivante : Y i = fx i + bruit, i = 1,..., n, X i R d, que l on appele modèle additif, où f est une fonction régulière à d variables de R d R. Nous supposerons pour toute cette tèse que la fonction f est dans un certain espace fonctionnel noté F β de dimension infinie où β est un paramètre de régularité.

15 1.1. OBJET DE LA THÈSE M. CHICHIGNOUD On suppose également que nos observations sont dégradées par un aléa inconnu que nous modélisons par une variable aléatoire comme nous le voyons souvent en statistique voir Section 1.2. A partir de ce modèle matématique, on veut résoudre le problème suivant : Estimer ou reconstruire la fonction f à partir des observations Y 1, Y 2,..., Y n. Pour cela nous développons des outils matématiques adéquats. Dans les modèles additifs, comme le modèle gaussien, des métodes d estimation ont été largement développées depuis un demi-siècle et sont devenus un outil courant de l estimation non-paramétrique : estimateurs à noyau voir Rosenblatt [1956], Parzen [1962], Nadaraya [1964], Watson [1964] et Borovkov [1987] ou plus récemment la décomposition en bases d ondelettes Donoo, Jonstone, Kerkyacarian, et Picard [1995] et Härdle, Kerkyacarian, Picard, et Tsybakov [1998]. Il est bien connu que les estimateurs linéaires par rapport aux observations, voir Définition 4 ne sont pas robustes non-sensibles aux valeurs extrêmes, en anglais outliers. Par exemple, si le bruit est une variable aléatoire de Caucy sans moment d ordre 1, ces estimateurs sont inefficaces Voir Exemple 1.1. Si les observations admettent un moment d ordre deux EY 2 <, on sait, d après le téorème central limite, que la moyenne empirique converge en probabilité vers son espérance à la vitesse 1/ n. Ainsi, les estimateurs linéaires ne feront jamais mieux que cette vitesse. Ce qui implique que les estimateurs linéaires ne sont pas optimaux pour certains modèles voir Exemple 1.1 et Section 1.2. L utilisation du pénomène de Stein [1981] repose sur le fait que le bruit est gaussien. En effet, Stein [1981] met au évidence la contraction de Stein dans le modèle de suites gaussiennes qui n est valable seulement si le bruit est gaussien ou sous-gaussien. Bien que l estimateur de James/Stein soit meilleur que la moyenne empirique, ces propriètés téoriques sont valables seulement dans le cas Gaussien. L adaptation, en estimation non-paramétrique, est aussi très gourmande en bruit gaussien, notamment pour l obtention d inégalités exponentielles de concentration. Par exemple pour l estimateur à noyau, ceci est nécessaire voir Section 1.5. Exemple 1. Dans le cas paramétrique, on peut trouver des modèles dans lesquels les estimateurs linéaires ne sont pas optimaux. Par exemple, si les observations suivent une loi uniforme continue sur l intervalle [0, θ], Y i U [0,θ], i = 1,..., n, alors la moyenne empirique notée Ȳ permet d estimer θ 0 avec la vitesse 1/ n, 2Ȳ n 1/2 θ, en probabilité. n On peut construire un estimateur plus rapide dans ce modèle, max θ, en probabilité, Y n 1 i i n un estimateur non-linéaire qui atteint la vitesse 1/n. Nous étudions certains modèles avec cette particularité dans le cas non-paramétrique et nous développons un estimateur bayésien 14

16 M. CHICHIGNOUD 1.1. OBJET DE LA THÈSE non-linéaire. Celui-ci nous permet d atteindre les vitesses de convergence optimales Voir Définition de l optimalité, Section 1.4. Exemple 2. On regarde maintenant le modèle de Caucy, pour lequel, beaucoup d estimateurs ont écoué, notamment les estimateurs linéaires. On prend les variables Y i = θ+c i, i = 1,..., n avec C i une variable de Caucy Définition Il est facile de voir que la moyenne empirique Ȳ n est pas convergente. Dans ce cas, on utilise la médiane empirique MedY et sa normalité asymptotique voir par exemple Brown, Cai, et Zou [2008]. Ainsi, la médiane empirique converge vers θ à la vitesse 1/ n, MedY n 1/2 θ, en probabilité. n Pour le cas non-paramétrique, nous proposons un estimateur fondé sur cette idée que nous appelons estimateur de Huber. Nous venons de présenter deux exemples où les estimateurs linéaires ne sont pas efficaces voir inutilisables. Ces remarques motivent le travail de cette tèse avec l introduction de nouveaux estimateurs non-linéaires. Dans cette tèse, nous développons de nouveaux estimateurs localement paramétriques capables sous certaines conditions de s adapter aux différents bruits gaussien, Caucy, etc. et à la forme du modèle additif ou multiplicatif. Ainsi, nous présentons deux types d estimateurs : estimateur bayésien et estimateur de Huber. Nous montrons que pour différents modèles de régression, ces estimateurs sont optimaux au sens minimax Définition 8 sur les espaces de Hölder isotropes Définition 1. La notion d adaptation, introduite depuis une vingtaine d années, est un point incontournable en estimation non-paramétrique Stone [1982] et Efromovic et Pinsker [1984]. Nous proposons plusieurs procédures adaptatives reposant sur la métode dite de Lepski pour le coix de la fenêtre. Ces procédures permettent aux estimateurs considérés d atteindre des vitesses de convergences adaptatives optimales en un certain sens voir Section 4.3. L utilisation de la métode dite de Lepski est fréquente dans cette tèse. De ce fait, nous présentons dans ce capitre, l idée de la métode ainsi que les conditions suffisantes à la mise en oeuvre de la procédure. L intérêt de l estimation dépasse largement le cadre pratique et algoritmique. Il y a un vrai intérêt à développer des procédures qui sont optimales en téorie et de pouvoir les utiliser dans différents domaines d applications. Ainsi, les performances téoriques de nos estimateurs adaptatifs reposent sur le contrôle des grandes déviations. Ce contrôle peut être obtenu par des inégalités de type inégalités de concentration pour les processus empiriques qui ont été très développées, entre autres par Talagrand [1995,1996a,1996b], Ledoux [1997], Birgé et Massart [1998], Massart [2000, 2007], Bousquet [2002], Bouceron, Bousquet, et Lugosi [2004], Golubev et Spokoiny [2009] et Goldensluger et Lepski [2009b], du fait de leur nécessité. 15

17 1.2. MODÈLES DE RÉGRESSION ET ESPACES FONCTIONNELSM. CHICHIGNOUD 1.2 Modèles de Régression et Espaces Fonctionnels Dans cette section, nous présentons les espaces fonctionnels utilisés espaces de Hölder, ainsi que les différents modèles de régression étudiés dans cette tèse. Dans un premier temps, nous parlerons du modèle de régression générale, et différents exemples de celui-ci, comme la régression additive avec densité inconnue, la régression gaussienne, la régression α et la régression avec bruit multiplicatif uniforme. Un rapide survol est donné sur les modèles des statistiques non-paramétriques en fin de section Espaces de Hölder Isotropes Tout au long de ce manuscrit, nous travaillerons exclusivement avec les espaces de Hölder isotropes, i.e. la fonction de régression inconnue est supposée à plusieurs variables avec la même régularité ölderienne dans caque direction par rapport à caque variable. Pour tout p 1,..., p d N d nous notons p = p 1,..., p d et p = p p d. Définition 1. Soient β > 0, L > 0, M > 0, d N et β le plus grand entier strictement inférieur à β. La classe de Hölder isotrope H d β, L, M est l ensemble des fonctions f : [0, 1] d R ayant sur [0, 1] d toutes ses dérivées d ordre β et telles que x, y [0, 1] d β sup m=0 p =m x [0,1] d p fx x p 1 1 x p d d p fx x p 1 1 x p d M, d p fy y p 1 1 y p d L x y β β 1, p = β. d La téorie Minimax repose essentiellement sur le fait que la fonction à estimer est dans un espace fonctionnnel, ici H d β, L, M. Les résultats minimax présentés dans la suite peuvent être étendus aux espaces anisotropes. Mais nous verrons dans la section 2.4 que les métodes adaptatives ne sont pas conçues pour les espaces anisotropes dans le cas où l estimateur est non-linéaire. Pour étudier les modèles de régression inomogène de Poisson et de régression multiplicative uniforme, une contrainte supplémentaire doit être rajoutée sur le support de f H d β, L, M, A où H d β, L, M, A = { f H d β, L, M : } inf fx A x [0,1] d, A > 0. Remarque 1. Cette ypotèse est suffisante pour l utilisation de l estimateur bayésien pour les régressions inomogène de Poisson et multiplicative uniforme, celle-ci est purement téorique nécessaire et n est pas justifiée en pratique. Si on prend la régression multiplicative uniforme définie dans la section 1.2.7, et si f admet des points de nullité, alors 16

18 M. CHICHIGNOUD1.2. MODÈLES DE RÉGRESSION ET ESPACES FONCTIONNELS Y i = 0. Avec cette observation, il est difficile de dire si cela est dû à la fonction ou au bruit qui a une probabilité non-négligeable d être proce de 0. Pour la régression inomogène de Poisson, le paramètre de la loi de Poisson est toujours positif. Ainsi en pratique, on prendra A proce de 0 pour minimiser cette restriction. Sans cette restriction, le problème est ouvert. La classe des fonctions de Hölder est incluse dans les espaces de Besov qui sont souvent utilisés dans l approce maxiset ou avec les estimateurs par ondelettes Autin [2004]. Nous donnons la définition de ces espaces ci-dessous. Les espaces de Besov Multidimensionnels. Nous rappelons la définition des espaces de Besov pour les fonctions unidimensionnelles et quelques inclusions avec les espaces de Hölder et Sobolev. On définit les espaces de Besov, dans le cas de fonctions de [0, 1] d dans R. Il faut pour cela caratériser le module de continuité d une fonction f de L p [0, 1] d. Pour tout x dans [0, 1] d, notons fx = fx fx, et pour tout entier u, on note l itérée u f = f. On définit alors le u e module de continuité pour la norme p avec p [1, ] et pour tout t > 0 de la manière suivante ω p f, t = sup 2 t J u, u fx p dx 1/p, où J u, = {x [0, 1] d, x + u [0, 1] d } et. 2 est la norme l 2 sur R d. Définition 2. Soient p [1, ], q [1, ], s ]0, [ et u = s où s est le plus petit entier strictement plus grand que s. On dit qu une fonction f appartenant à L p [0, 1] d est dans l espace de Besov Bp,q s [0, 1] d, quand γ spq f < où γ spq f = 0 t s ω p f, t q dt t, si 1 q <, sup t s ω p f, t, si q =. t On note B s p,ql une boule de Besov de rayon L, munie de la norme : f J s p,q = f p + γ spq f. Les espaces de Besov constituent une très grande famille de fonctions. En particulier, rappelons que l espace de Sobolev S s correspond précisément à l espace B s 2,2 et l espace de Hölder H d s, L avec 0 < s / N à l espace B s, L où L est le rayon de la boule de Besov. Ces espaces sont très utilisés dans l approce par ondelettes. En effet, il est possible de définir les espaces de Besov à partir des coefficients dans la base d ondelettes voir Härdle, Kerkyacarian, Picard, et Tsybakov [1998]. Pour plus de détails sur ces espaces, on se référera aux travaux de Berg et Löfström [1976], Peetre [1976], Meyer [1992] ou DeVore et Lorentz [1993]. 17

19 1.2. MODÈLES DE RÉGRESSION ET ESPACES FONCTIONNELSM. CHICHIGNOUD Régression Générale Dans notre modèle, on observe les couples de variables aléatoires indépendantes X 1, Y 1,..., X n, Y n notées Z n = X i, Y i i=1,...,n, où X i est un vecteur dit de variables explicatives appelé design qui détermine la distribution de l observation Y i. Le vecteur X i [0, 1] d de dimension d peut être vu comme une variable temporelle ou spatiale et Y i R l observation au point X i. Notre modèle suppose que les valeurs X i peuvent être aléatoires ou fixées et que la distribution de caque Y i est déterminée par un paramètre f i qui peut dépendre de la position X i, f i = fx i. Dans beaucoup de cas, la paramétrisation naturelle est coisie de la façon suivante f i = E Y i X i E est l espérance matématique. On note g., f i la densité sur R de l observation Y i par rapport à la mesure de Lebesgue. Pour la régression additive, nous considèrerons le design aléatoire de loi uniforme sur [0, 1] d. Le problème d estimation est de reconstruire la fonction f en tout point y. Ce modèle que nous appelons Régression générale, sera traité dans le Capitre 3. Un estimateur dit bayésien est construit pour ce modèle très général. Nous verrons que sous certaines conditions voir ypotèses 3, cet estimateur atteint les vitesses de convergence adaptatives optimales. Dans cette tèse, cette approce introduite par Has minskii et Ibragimov [1981], pour l estimation paramétrique, est généralisée à l adaptation. Certains modèles, où la densité g des observations est discontinue, sont étudiés Régression Additive Dans ce modèle, on observe les couples de variables aléatoires indépendantes X i, Y i i qui vérifient l équation : Y i = fx i + ξ i, i = 1,..., n, où le bruit est une variable aléatoire de densité g ξ.. X i est le design aléatoire de loi uniforme sur [0, 1] d et X i est indépendant de ξ i. La fonction de régression f est supposée appartenir à une boule de Hölder H d β, L, M. Nous supposerons vérifiées les ypotèses suivantes : Hypotèses g ξ est paire, 2. g ξ 0 A > 0, 3. g ξ est continue en 0. Remarque 2. La symétrie du bruit ypotèse 1.1 est une supposition assez faible. En général, on suppose que les effets du bruit sont les mêmes à gauce et à droite de la médiane qui vaut 0. Notons qu un grand nombre de densités, utilisées dans cette tèse, vérifient cette 18

20 M. CHICHIGNOUD1.2. MODÈLES DE RÉGRESSION ET ESPACES FONCTIONNELS ypotèse. Les deux autres ypotèses sont nécessaires pour contrôler les grandes déviations de l estimateur de Huber voir Capitre 5. Elles permettent aussi de vérifier l assertion suivante. Avec ces ypotèses, on peut voir que ξ admet une médiane téorique unique égale à 0, i.e. 0 est unique solution de l équation Pξ < x = 1/2. Noter qu il existe de nombreux modèles classiques vérifiant ces ypotèses Régressions gaussienne, de Caucy et α. On peut remarquer que la régression additive est un cas particulier de la régression générale. En effet, il suffit de prendre g., fx i = g ξ. fx i. L étude de ce modèle nécessite la construction d un estimateur fondé sur l idée de la médiane estimateur de Huber, voir Capitre 5. En particulier, nous développons une procédure adaptative dans le cas où la régularité de la fonction cible est inconnue. Hall et Jones [1990] ont utilisé une métode de Validation croisée voir Tsybakov [2008] sur une famille d estimateurs robustes pour obtenir des résultats adaptatifs avec le risque L 2. Peu après, Härdle et Tsybakov [1992] ont étandu ce résultat, avec une métode de Plugin introduit par Woodroofe [1970], pour des fonctions de contrast plus générales, avec un coix aléatoire local de la fenêtre, mais seulement des résuultats de normalité asymptotique sont donnés. L adaptation dans la régression additive a fait l objet d un autre travail. En effet, Brown, Cai, et Zou [2008] utilisent la normalité asymptotique de la médiane pour approximer ce modèle par le modèle gaussien avec une métode de médiane par blocs. Une étape intermédiaire est de projeter les nouvelles observations dans une base d ondelettes. Ensuite, la métode de Stein par blocs voir Cai [1999] est utilisée pour l adaptation en estimation globale. En revance, cette approce nécessite des ypotèses plus fortes que les ypotèses 1 qui sont suffisantes pour l utilisation de l estimateur de Huber. Plus récemment, Reiss, Rozenolc, et Cuenod [2009] utilise la métode de Lepski pour développer un estimateur de Huber adaptatif dans le modèle additif. Les résultats obtenus sont pour l estimation ponctuelle mais pour les fonctions localement constante i.e. β 1. Dans la suite, nous présentons plusieurs cas particuliers où les estimateurs bayésien et de Huber peuvent être utilisés. En effet nous vérifions dans le cas de la régression gaussienne, si nos estimateurs sont applicables. Pour le bruit de Caucy, l estimateur de Huber est tout désigné pour estimer la fonction de régression voir Capitre 5. Nous présentons des modèles peu connus dans la littérature voir Régressions α et multiplicative uniforme. Nous utilisons l estimateur bayésien dans le cadre du modèle inomogène de Poisson très utilisé en imagerie, voir notamment Polzel et Spokoiny [2006] et Katkovnik et Spokoiny [2008]. Ici la vitesse de convergence est la même que pour le modèle gaussien qui peut être obtenu avec un estimateur linéaire. Les régressions, dites α et multiplicative uniforme, sont de très bons exemples dans lesquels la vitesse de convergence devient meilleure que la vitesse des estimateurs linéaires. Pour plus de détails, voir Section

21 1.2. MODÈLES DE RÉGRESSION ET ESPACES FONCTIONNELSM. CHICHIGNOUD Régression Gaussienne et de Caucy Les régressions gaussienne ou de Caucy sont des cas particuliers de la régression additive où la densité g ξ. prend respectivement les formes suivantes Densité gaussienne : g ξ x = 2πσ 2 { } 1/2 exp x2, σ > 0, 2σ 2 Densité de Caucy : g ξ x = 1 a π a 2 + x, a > 0. 2 a Fonction de régression. b Régression Gaussienne c Régression de Caucy. Figure 1.1 Observations dans les régressions gaussiennes et de caucy. Néanmoins, elles suscitent un intérêt particulier. En effet le bruit gaussien est utilisé de façon systématique dans le domaine des statistiques et le bruit de Caucy est une variable aléatoire sans moment d ordre 1. Pour le bruit gaussien, on peut trouver une multitude d articles qui l étudient. Citons deux livres de Nemirovski [2000] et Tsybakov [2008] pour une introduction à ce modèle et aux métodes classiques d estimation non-paramétrique. Nous introduisons ce modèle standard pour vérifier que les estimateurs développés dans cette tèse fonctionnent correctement dans ce modèle classique voir Capitres 3 et 5. L estimateur de Huber est particulièrement bien adapté aux bruits dont les densités sont à queues lourdes par exemple bruit de Caucy, voir Capitre 5. On peut constater une différence notable, entre les bruits gaussien et de Caucy, dans la figure 1.1. En effet pour le bruit de Caucy, on constate un nombre plus important de valeurs extrêmes. Ceci explique l inefficacité des estimateurs linéaires pour ce bruit Régression Inomogène de Poisson Considérons la régression générale, cette fois avec la particularité que les observations sont discrètes Y i N. Nous supposons que Y i suit une loi de Poisson de paramètre fx i 20

22 M. CHICHIGNOUD1.2. MODÈLES DE RÉGRESSION ET ESPACES FONCTIONNELS Y i P fx i. On écrit la densité gk, fx i = P f Y i = k = [ fxi ] k exp { fx i }, k N, f H d β, L, M, A. k! Les points du design X i i 1,...,n sont déterministes et sans perte de généralité nous supposons qu ils sont répartis de manière uniforme sur la grille suivante : X i { 1/n 1/d, 2/n 1/d,..., 1 } d, i = 1,..., n. Remarquons la restriction de f à l espace H d β, L, M, A, cette restriction f A est retrouvée dans la régression multiplicative uniforme. Ce modèle est très utilisé en imagerie, en particulier pour modéliser la potométrie des appareils poto numérique. On le trouve aussi en tomograpie, il modélise la résonance magnétique des positons utilisée pour obtenir des IRM d une ou plusieurs parties du corps umain. Les travaux de Anscombe [1948] permettent de passer approximativement de la régression de Poisson à la gaussienne par une transformation des observations par la fonction x 2 x + 3/8. Dans la figure 1.2, nous donnons des exemples de densités de Poisson et un écantillon d observations simulé à partir d une fonction de régression. a Densités d une loi de Poisson de paramètre t. b Observations de Poisson. Figure 1.2 Densité de la loi de Poisson de paramètre t > 0 et observations. 21

23 1.2. MODÈLES DE RÉGRESSION ET ESPACES FONCTIONNELSM. CHICHIGNOUD Image Originale. Bruit de Poisson. Bruit Gaussien. Figure 1.3 Illustration d images issues d observations de Poisson zoomer sur la version numérique Régression α Le modèle de régression α est le suivant Y i = fx i + ɛ i, i = 1,..., n, où ɛ i a pour densité g α x = Cα exp { x α } avec 0 < α < 1/2. Cα est une constante coisie pour que g α soit bien une densité. Ici le design X i est coisi comme dans et f H d β, L, M. La particularité de ce modèle est que pour α < 1/2 la vitesse de convergence cange en fonction de α voir Capitre 3. La figure 1.4 présente les observations de ce modèle pour α = 1/4. On constate qu il y a un très grand nombre d observations éloignées de la fonction de régression f. Mais un petit nombre est très proce de f à comparer avec la figure 1.1, cela nous donne une information très précieuse qui peut se vérifier en téorie à travers de meilleures vitesses de convergence. En effet, nous verrons que l estimateur bayésien est plus rapide au sens des vitesses de convergence que les estimateurs linéaires voir Sections 2.1 et Nous donnons la figure 1.5 pour illustrer ce comportement. En effet, la queue de distribution ne joue pas un rôle majeur entre les densités. Le comportement de la densité, à mettre en avant, est la concentration du bruit au voisinage de 0. Le voisinage de la gaussienne on parle de l intervalle [ 3, 3] est assez large, tandis que le voisinage de g α est plus concentré autour de 0 on constate un pic en 0 de la fonction g α. Donc bien que la queue de distribution gaussienne soit la plus faible, le comportement autour de 0, andicape cette loi. Nous avons aussi fait apparaître la loi de Caucy qui a le même comportement que la gaussienne au voisinage de 0, mais une queue de distribution lourde. Dans la figure 1.5, nous avons coisi les paramètres de caque densité, pour que toutes soient égales à 1 au point 0. Ceci est utilisé comme critère de comparaison de la dispersion ou la variance, mais n existe pas pour la loi de Caucy de caque densité. 22

24 M. CHICHIGNOUD1.2. MODÈLES DE RÉGRESSION ET ESPACES FONCTIONNELS a Régression Gaussienne. b Régression α. Figure 1.4 Comparaison entre des observations gaussiennes et des observations issues de la régression α pour α = 1/4. Figure 1.5 Densités gaussienne, de Caucy et α, α = 1/4 23

25 1.2. MODÈLES DE RÉGRESSION ET ESPACES FONCTIONNELSM. CHICHIGNOUD Régression Multiplicative Uniforme Soit l expérience statistique générée par les observations Z n = X i, Y i i=1,...n, n N, où X i, Y i satisfont à l équation Y i = fx i U i, i = 1,..., n, où f H d β, L, M, A. Les variables aléatoires U i i 1,...,n sont supposées indépendantes et uniformément distribuées sur [0, 1]. Le design X i est coisi comme dans Ce modèle est étudié dans le capitre 4 pour lequel on utilise l estimateur bayésien pour estimer la fonction de régression. Ce type de modèle peut être utilisé dans le cadre des modèles de frontière développés par Simar et Wilson [2000]. Outre le cadre pratique, il est intéressant de voir que les estimateurs linéaires sont inefficaces dans ce modèle voir Section 2. Nous verrons que pour ce modèle, la vitesse de convergence minimax est très rapide. Elle est meilleure que toutes celles des modèles précédents. Visuellement, on peut le constater à l aide de la figure 1.6. En effet, toutes les observations sont en dessous de la fonction de régression f. Et on voit distinctement apparaître la fonction cible, en regardant le maximum par morceaux des observations. L estimateur bayésien sera, dans ce modèle, beaucoup plus rapide que les estimateurs linéaires Voir Sections 2.1 et Figure 1.6 Observations d une fonction bruitée avec un bruit multiplicatif uniforme. 24

26 M. CHICHIGNOUD1.2. MODÈLES DE RÉGRESSION ET ESPACES FONCTIONNELS Autres Modèles. On peut citer d autres modèles des statistiques non-paramétriques : le modèle du bruit blanc et les problèmes inverses. Le modèle de bruit blanc gaussien est défini par l équation différentielle stocastique : dy t = ftdt + σ n dw t, t R d, où f est la fonction à estimer à partir des observations Y t t R d, W t est un camp Brownien sur R d Processus de Wiener, σ > 0 et n N. Le modèle de bruit blanc gaussien joue un rôle important en Statistiques voir Has minskii et Ibragimov [1981]. L avantage de ce modèle est qu il est simple à utiliser et qu il approce d autres modèles statistiques, en particulier la régression gaussienne Brown et Low [1996] et Nussbaum [1996]. Pour ce modèle, les estimateurs à noyau sont utilisés pour l adaptation voir les travaux les plus récents de Kerkyacarian, Lepski, et Picard [2001], Klutcnikoff [2005], Goldensluger et Lepski [2008], Goldensluger et Lepski [2009a]. Les problèmes inverses sont le résultat de l équation suivante : dy t = Aftdt + σ n dw t, t R d, où A est un opérateur linéaire défini sur un espace fonctionnel. L euristique de ce modèle est que l on observe indirectement la fonction cible, à travers une transformation de celleci, par l opérateur A connu mais pas forcément inversible. Les problèmes inverses sont très connus pour leurs applications en pratique équation de la caleur, tomograpie aux rayons X, etc.. Depuis ces dix dernières années, de nombreuses métodes ont été développées pour l estimation adaptative de la fonction f voir par exemple Cavalier et Tsybakov [2002] et Cavalier, Golubev, Picard, et Tsybakov [2002]. Par exemple, la métode de Stein par blocs est fréquemment utilisée. Le modèle est projeté dans une base et on obtient le modèle de suite gaussienne. On observe alors les coefficients de la fonction f, multipliés par les valeurs singulières de l opérateur A, auxquels on ajoute un bruit gaussien. Une autre métode, développée pour les problèmes inverses très mal posés l opérateur A n est pas inversible, est appelée enveloppe du risque et introduite par Cavalier et Golubev [2006], Cavalier [2008] et Marteau [2009]. 25

27 1.3. APPROCHE LOCALEMENT PARAMÉTRIQUE M. CHICHIGNOUD 1.3 Approce Localement Paramétrique Dans cette section, nous présentons l approce localement paramétrique en anglais : local parametric fitting. Plus précisemment, nous traitons l approce polynomiale locale qui nous permet d approximer localement la fonction f par un polynôme noté f θ lui-même inconnu. Ensuite, nous proposons deux estimateurs permettant d estimer les coefficients du polynôme d approximation f θ. Cette tecnique est appelée Métode des polynômes locaux, elle a été utilisée pour la première fois par Katkovnik [1985] pour plus de détails voir Tsybakov [2008]. Notons que, en pratique, le degré du polynôme d approximation est coisi assez petit degré = 0, 1 ou encore 2, ceci est dû au temps de calculs qui est exponentiellement grand par rapport au nombre de coefficients à estimer. L approce localement paramétrique ne s arrête pas qu aux polynômes. On peut imaginer approximer la fonction f par tout autre objet paramétrique. Par exemple, on peut décomposer f dans une base ortogonale où l on ne gardera qu un nombre fini de coefficients. Métode des Polynômes Locaux. On se place dans le modèle de régression générale défini dans Soit f H d β, L, M avec L, M > 0 et β [0, b[ où b N peut être coisi arbitrairement grand b est la régularité maximale des fonctions que l on étudie. Soit { d [ V y = X i yj /2, y j + /2 ] } [0, 1] d, j=1 un voisinage de y tel que V y [0, 1] d, où est 0, 1 un scalaire donné. Soit D b = b m + d 1. d 1 m=0 Soit Kz, z R d le vecteur de dimension D b des polynômes du type suivant : d K z = z p j j, p 1,..., p d N d : 0 p p d b, j=1 où le signe représente la fonction tranposition. Ensuite, pour tout t R D b, où t = tp1,...,p d, p 1,..., p d N d : 0 p p d b, on définit le polynôme local x y f t x = t K I V yx, x [0, 1] d, où I est la fonction indicatrice. Notons que f t y = t 0,...,0. Introduisons l ensemble des coefficients Θ M = { t R D b : t 1 M } R D b, 26

28 M. CHICHIGNOUD 1.3. APPROCHE LOCALEMENT PARAMÉTRIQUE où. 1 est la norme l 1 sur R D b. Remarquons que pour tout f Hd β, L, M θ = θf, y, Θ M : sup fx f θ x Ld β. x V y Figure 1.7 Illustration d une approximation locale d une fonction ligne par une droite ou un polynôme d ordre 1 pointillé. Le polynôme local f θ peut être vu comme une approximation localement paramétrique de la fonction de régression f sur le voisinage V y. Par exemple, on peut coisir pour f θ le polynôme de Taylor de la fonction f au point y voir Figure 1.7. Comme nous l avons précisé en début de capitre, la restriction aux polynômes locaux n est pas nécessaire, si l on trouve un autre objet paramétrique capable d approcer la fonction cible par exemple, une décomposition en base d ondelettes à coefficients finis. L idée principale est que si est coisi suffisament petit, les observations originales sont bien approximées par le modèle paramétrique Y i de densité g., f θ X i dans lequel, sous certaines conditions sur g., les estimateurs de Huber et bayésien sont optimaux au sens des vitesses de convergences. Dans la suite nous présentons les estimateurs qui nous permettent d estimer θ, en rappelant pour commencer, la définition d un estimateur. Définition 3. On dit que f est un estimateur si f. = f., Z n est une fonction mesurable des observations. Définition 4. On dit que f est un estimateur linéaire si il existe K : [0, 1] d [0, 1] d R telle que : d fy = K X i, y Y i, f H d β, L, y [0, 1] d. i=1 On peut trouver cette définition dans les notes de Nemirovski [2000]. 27

29 1.3. APPROCHE LOCALEMENT PARAMÉTRIQUE M. CHICHIGNOUD Définition 5. On appelle fˆθ estimateur par polynômes locaux si ˆθ est solution du problème de minimisation suivant : min l Z n, f t, t ΘM où l.,. est un critère à coisir. Dans cette tèse, on rencontre les critères bayésien, des moindres carrés, des valeurs absolues et de Huber voir ci-dessous Estimateur Bayésien Considérons, dans cette section, le modèle de régression générale définie dans la section et soit E f = E n f l espérance matématique par rapport à la loi de probabilité P f = P n f des observations Z n. Définissons la pseudo vraisemblance L t, Z n = g Y i, f t X i, t Θ M, et le critère bayésien π t = ΘM X i V y t u 1 [ L u, Zn ] 1/m du, t Θ M. où m est une constante positive coisie dans la suite voir Hypotèses 1, Capitre 3. Soit ˆθ la solution du problème de minimisation suivant : ˆθ = arg min t ΘM π t, où. 1 est la norme l 1 sur R D b. L estimateur localement bayésien ˆf y de fy est défini maintenant comme ˆf y = ˆθ 0,...,0. Nous constatons que la vraisemblance joue le rôle de la loi a priori sur le paramètre à estimer. Il est possible de rajouter un autre a priori sur le paramètre. En effet, on a l abitude de voir Has minskii et Ibragimov [1981] un critère de la forme t u 1 L uqudu où q. est une densité sur ΘM dans notre cas q. 1. Dans l approce bayésienne, le but est de coisir de façon optimale cette densité. Ici, nous nous intéressons seulement au problème d optimalité des vitesses de convergence. On remarque aussi que la vraisemblance est élevée à la puissance 1/m m est à coisir. C est une nouvelle façon de considérer l estimateur de type bayésien, traditionnellement m = 1. Le coix de m permet d affaiblir les ypotèses sur la densité g. et d avoir une meilleure compréension de la démonstration. Dans le capitre 4 nous prenons m = 1, en revance dans le capitre 3 nous considérons m à coisir par exemple m = 2 pour la régression gaussienne. Le capitre 4 est un cas particulier du capitre 3 du point de vue des modèles, mais les démonstrations sont plus complexes dans le capitre 4 car m = 1 est mal ajusté. 28

30 M. CHICHIGNOUD 1.3. APPROCHE LOCALEMENT PARAMÉTRIQUE Le coix de la fonction de perte, ici la norme l 1, n est pas restrictif. Ceci nous permet d améliorer les constantes de majoration du risque. On peut prendre notamment la norme l 2 qui permet de donner une forme explicite de ˆθ pour l estimation paramétrique unidimensionnelle Has minskii et Ibragimov [1981] : ˆθ = u [ ] 1/m L ΘM u, Zn du [ ] 1/m. L v, Zn dv ΘM Cet estimateur est aussi connu sous le nom d estimateur de Pitman voir Has minskii et Ibragimov [1981]. Cette version de l estimateur bayésien donne un estimateur linéaire pour la régression gaussienne. Mais cela ne dépend pas de la norme l 2 utilisée ici. En effet la forme de l estimateur bayésien dépend directement de la densité g.,. des observations et non de la fonction de perte utilisée pour sa construction. Notons que cette métode est similaire à une approce localement paramétrique établie à partir d estimateurs du maximum de vraisemblance récemment développés par Polzel et Spokoiny [2006] et Katkovnik et Spokoiny [2008] pour les modèles statistiques réguliers. Le principal avantage de ce nouvel estimateur bayésien, est qu il atteint la vitesse de convergence optimale du modèle. Par exemple, pour les régressions gaussienne et multiplicative uniforme, notre estimateur atteint respectivement les vitesses minimax voir Définition 8 n β 2β+d et n β β+d sous les ypotèses 3. Nous pouvons dire que l estimateur bayésien concurrence fait mieux ou aussi bien que les estimateurs linéaires dans certains modèles voir Section 2.1. Estimateur du Maximum de Vraisemblance Il est très important de se poser la question suivante : existe-t-il d autres estimateurs optimaux comme l estimateur bayésien? La réponse à cette question est positive. En effet, l exemple le plus connu est l estimateur du maximum de vraisemblance. Cet estimateur concurrence les estimateurs linéaires au même titre que l estimateur bayésien. On peut expliquer ce pénomène par le fait que ces deux estimateurs utilisent l information contenue dans la vraisemblance du modèle et donc sont capables d améliorer la vitesse. Définissons cet estimateur f y = arg max t ΘM L t, Z n Dans le cas paramétrique, si l on considère le modèle Y i U [0,θ], i = 1,..., n, l estimateur du maximum de vraisemblance correspondant est max i=1,...,n Y i. Comme cet estimateur est basé sur le maximum des observations, donc non-linéaire, il est possible d améliorer la vitesse de convergence. Ainsi, l estimateur max i=1,...,n Y i converge vers θ à la vitesse 1/n contre 1/ n pour les estimateurs linéaires. 29

31 1.3. APPROCHE LOCALEMENT PARAMÉTRIQUE M. CHICHIGNOUD On peut généraliser cette approce au cas non-paramétrique en utilisant comme estimateur max Xi V y Y i estimateur localement constant. Il semble très difficile de pouvoir généraliser cette approce pour un estimateur localement polynômial d ordre D b quelconque. Un autre problème est qu il faut supposer une ypotèse supplémentaire par rapport à l estimateur bayésien de continuité sur la vraisemblance. Has minskii et Ibragimov [1981] voir Capitre 1, Section 5, Téorème 5.1 supposent cette ypotèse pour l estimation paramétrique. Mais jusqu à présent, on ne trouve pas dans la littérature une extension de l estimateur du maximum de vraisemblance local comme nous l avons fait pour l estimateur bayésien dans le problème non-paramétrique. Polzel et Spokoiny [2006] utilisent l estimateur du maximum de vraisemblance dans les modèles de famille exponentielles dans le cadre localement paramétrique fonctions localement constantes. Les auteurs donnent des résultats très généraux sur ces modèles en supposant l existence de l information de Fiser modèle régulier. Mais les vitesses de convergences ne sont pas améliorées et restent les mêmes que pour les estimateurs linéaires. Ainsi, pour la régression multiplicative uniforme non-paramétrique, il n est pas prouvé que l on peut utiliser l estimateur du maximum de vraisemblance et cela semble un objectif difficile. Comme on vient de le voir, les raisons de l utilisation de l estimateur bayésien préféré à l estimateur du maximum de vraisemblance sont essentiellement tecniques Estimateur de Huber On se place, dans cette section, dans le cadre de la régression additive avec la densité g ξ inconnue definie dans 1.2.2, Nous supposons vraies les ypotèses 1 sur la densité g ξ. Nous introduisons une variante de l estimateur de la médiane, plus communément appelé estimateur de Huber, développé pour l estimation non-paramétrique par Tsybakov [1982a, 1982b, 1983, 1986] et Härdle et Tsybakov [1988, 1992]. Ce dernier donne une règle de sélection locale pour la fenêtre basée sur la métode Plug-in avec des résultats en normalité asymptotique. Un peu plus tôt Hall et Jones [1990] propose d utiliser la validation croisée pour le risque L 2. Plus récemment, Reiss, Rozenolc, et Cuenod [2009] ont développé l adaptation d estimateurs robustes, en particulier le critère de Huber mais seulement pour les estimateurs localement constants. Considérons la fonction de Huber, Qz = z2 2 I z 1 + z 1 2 I z >1, où I est la fonction indicatrice. Définissons le critère de Huber m t = m t, Zn := 1 n d n Q Y i f t X i I {Xi V y} i=1 30

32 M. CHICHIGNOUD 1.3. APPROCHE LOCALEMENT PARAMÉTRIQUE Fonction Carrée z 2. Fonction Valeur Absolue z. Fonction de Huber Qz. Dérivée Carrée 2z. Dérivée Valeur Absolue Signz. Dérivée de Huber Q z. Figure 1.8 Courbes des fonctions carré, valeur absolue, de Huber et leurs dérivées. On introduit le critère de Huber qui allie les propriétés pratiques robustesse du critère l 1 et les propriétés téoriques du critère l 2 dérivabilité. On parle d estimateur robuste si l estimateur en question n est pas sensible aux valeurs extrêmes, voir Rousseeuw et Leroy [1987] et Huber et Roncetti [2009]. Ce critère fait partie de la famille des critères par polynômes locaux. Par exemple, on peut utiliser le critère l 2 appelée moindres carrés Qz = z 2, voir Tsybakov [2008], Capitre 1, ou bien le critère l 1 appelé valeurs absolues Qz = z. Le critère l 2, qui donne un estimateur fondé sur la moyenne, est beaucoup plus sensible aux valeurs extrêmes voir Figure 1.8, la dérivée de la fonction carrée. En pratique, quand on cerce un estimateur robuste, on utilise le critère l 1 qui conduit à une estimateur fondé sur la médiane. Mais en estimation non-paramétrique, cela pose un problème car la fonction valeur absolue n est pas dérivable en 0 voir Figure 1.8. L avantage de la fonction de Huber est que sa dérivée est continue sur R, tandis que la dérivée de la fonction valeur absolue n est pas continue en 0 voir Figure 1.8. On peut voir dans le capitre 5, que le contrôle des grandes déviations Proposition 7 est démontré à l aide d un argument de caînage, celui-ci nécessite la continuité de la dérivée de la fonction Q utilisée dans le critère. Soit θ la solution du problème de minimisation suivant : θ = arg min t ΘM m t. L estimateur de Huber local f y de fy est défini comme f y = θ 0,...,0. 31

33 1.3. APPROCHE LOCALEMENT PARAMÉTRIQUE M. CHICHIGNOUD La fonction de Huber a été introduite par Huber [1964,1981] dans l idée de développer des estimateurs robustes par rapport aux valeurs extrêmes. Cette idée a été reprise en pratique par Petrus [1999] pour la régression gaussienne dans le cadre de la reconstruction d images, et par Cang et Guo [2005] dans le modèle paramétrique gaussien pour l estimation du positionnement par satellite. Nous proposons dans le captire 5 de démontrer les performances statistiques de cet estimateur. En outre, nous démontrons que la vitesse de convergence atteinte est n β 2β+1 pour toute densité gξ vérifiant les ypotèses 1. Tsybakov [1982a] a démontré que cette vitesse est minimax pour le risque en probabilité avec la condition suivante sur g ξ. p > 0, v 0 > 0 : R g ξ u ln g ξ u g ξ u + v du p v 2, pour tout v v 0. Cette condition n est autre qu un contrôle de la distance de Kullback entre les deux probabilités Voir Tsybakov [2008], Capitre 2. On peut montrer que les densités gaussienne et de caucy vérifient cette condition. Mais par exemple, pour la régression α α < 1/2, cette condition n est pas vérifiée. Un cadre plus général est développé par Arias-Castro et Donoo [2009] pour les médianes locales itérées, justement plébiscitée pour leur capacité à traiter les sauts, et pas uniquement les zones omogènes. Leurs résultats sont aussi de type minimax pour des fonctions localement Lipscitz dans le cadre unidimensionnel et bidimensionnel. Arias-Castro et Donoo [2009] montrent que le risque est du même ordre de grandeur pour les métodes par moyennes locales ou par médianes locales dans le cadre régulier fonctions globalement lipscitziennes. En revance, si la fonction cible est discontinue et si les courbes régulières sont suffisamment séparées, ils montrent qu une double itération de la métode par médianes locales permet de diminuer la vitesse du risque par rapport au cas par moyennes ou médianes locales. Ce dernier article motive le fait que le critère l 1 est plus performant que le critère l 2, notamment quand celui-ci écoue par exemple, fonctions discontinues ou bruit sans moment. Notons que la fonction de Huber utilise deux régimes, l un reposant sur le critère l 1 et l autre sur le cirtère l 2. En effet, on constate que le critère l 2 traite les petits résidus sur l intervalle [ 1, 1] et le critère l 1 les résidus plus importants notamment les valeurs extrêmes. La norme l 1 permet d obtenir un estimateur plus robuste que les estimateurs linéaires par exemple. L utilisation du critère l 2 au voisinage de 0 implique que la dérivée de la fonction de Huber existe et est C 0 en 0. Ce dernier point est nécessaire pour contrôler les grandes déviations Proposition 7 de l estimateur de Huber. Mais, on peut utiliser le critère l 2 sur n importe quel intervalle [ K, K] où K est un paramètre de transition entre les deux normes. En effet, il est facile d observer que les résultats téoriques sont vérifiés pour toute constante K > 0. En pratique le problème du coix de cette constante est un problème ouvert. L avantage, de cette approce, est que l on peut estimer la fonction de régression dans le modèle de régression additive avec densité inconnue, i.e. l estimateur de Huber ne dépend pas de la densité g ξ du bruit. 32

34 M. CHICHIGNOUD 1.4. MESURE DE L ERREUR Dans le capitre 2 Section 2.2, nous proposons un estimateur de Huber adaptatif, construit à l aide de la métode de Lepski. Cette métode nécessite un nouveau type d inégalité de concentration de cet estimateur, développé dans le capitre Mesure de l Erreur Après avoir développé les métodes de construction d estimateurs, on veut désormais coisir celui qui se sera le plus performant dans un modèle donné. Pour cela, il nous faut introduire des outils matématiques permettant d évaluer la performance des estimateurs et de les comparer pour coisir le meilleur. L approce minimax est le premier outil développé voir Stone [1980], Has minskii et Ibragimov [1981] et Stone [1982] dans ce sens pour l estimation non-paramétrique. Pour l adaptation, nous parlerons d adaptation au sens minimax voir Efromovic et Pinsker [1984], Lepski [1990]. Ces deux notions sont présentées dans les sections suivantes et sont utilisées tout au long de cette tèse. Notons qu un paragrape est consacré à l approce oracle et aux inégalités oracle Approce Minimax Ponctuelle Pour mesurer les performances des procédures d estimation sur l espace H d β, L, M, on utilise l approce minimax. Fixons les paramètres de l espace β, L, M > 0. Rappelons que E f = E n f est l espérance matématique par rapport à la loi de probabilité P f = P n f des observations Z n satisfaisant le modèle de régression générale Premièrement nous définissons le risque maximal sur H d β, L, M correspondant à l estimation de la fonction f en un point donné y [0, 1] d. On parlera d estimation ponctuelle. Deuxièmement, on définit le risque minimax, et enfin les notions, de vitesse de convergence minimax et estimateurs minimax, sont données. Soit f un estimateur construit à partir des observations Z n et coisi de façon arbitraire. Définition 6. Soit q > 0, on appelle risque maximal de l estimateur f sur H d β, L, M la quantité suivante R n,q [ f, Hd β, L, M ] = sup E f fy fy q. f H d β,l,m En général, on s intéresse à la vitesse de convergence ψ n vers 0 du risque maximal d un estimateur f, nous cercons un estimateur qui atteint la meilleure vitesse de convergence pour le risque maximal. Remarquons que cette vitesse sera donnée pour la pire fonction à estimer dans la classe de Hölder H d β, L, M, cette approce est souvent considérée comme pessimiste, mais elle est nécessaire lorsque l on suppose que la fonction f appartient à un espace fonctionnel. Il est bon de noter que le risque maximal est utilisé dans cette tèse avec la semi-norme ponctuelle. L avantage principale de ce risque est de coisir de façon locale la fenêtre d estimation. Donc on aura un estimateur qui s adapte localement à la régularité de 33

35 1.4. MESURE DE L ERREUR M. CHICHIGNOUD la fonction f à estimer. Les résultats de type borne supérieure pour ce risque sont souvent les plus tecniques à établir, il est possible d obtenir le risque global en norme L p en intégrant le risque ponctuel et en utilisant le téorème de Fubini. Définition 7. On appelle risque minimax sur H d β, L, M la quantité suivante R n,q [ Hd β, L, M ] = inf f R n,q [ f, Hd β, L, M ], où inf est pris sur l ensemble des estimateurs fonctions mesurables des observations. Cette quantité peut être décrite de la façon suivante : on mesure de manière téorique le risque du meilleur estimateur possible pour la pire fonction à estimer dans une boule de Hölder. Définition 8. La suite de normalisations ψ n β est appelée vitesse de convergence minimax et l estimateur ˆf est dit minimax asymptotiquement minimax si lim inf n ψ q n β R n,q [ ˆf, Hd β, L, M ] > 0; [ lim sup ψn q β R n,q ˆf, Hd β, L, M ] <. n Pour un modèle donné, notre but est de construire l estimateur minimax celui qui atteint la vitesse minimax. Tecniquement, il nous faut montrer une borne supérieure du risque maximal et une borne inférieure pour le risque minimax. Ces deux bornes doivent être égales à constante près. Pour la borne inférieure, de nombreuses tecniques ont été mises en place, on renvoie le lecteur au livre de Tsybakov [2008] pour une présentation de ces métodes. Plus récemment, dans l article Cicignoud [2010a] Capitre 4, Section 4.2, nous utilisons le critère introduit par Klutcnikoff [2005] pour obtenir la borne inférieure du risque minimax voir Capitre 4. Pour les bornes supérieures, la forme de l estimateur en question et des tecniques classiques sont utilisées comme la décomposition biais-variance. Dans la majorité des cas, les estimateurs minimax dépendent des paramètres de régularité β et L, ˆf = ˆf β,l. En pratique, le problème est que les paramètres de régularité β, L ne sont pas connus par le statisticien. De plus, ces paramètres ne peuvent pas être estimés au préalable à l inverse de la borne supérieure M. Dans ce sens, l adaptation a été développée dans les années 90 par Efromovic et Pinsker [1984], Lepski [1990], Donoo et Jonstone [1994], Barron, Birgé, et Massart [1999], etc. Ces métodes permettent de construire des estimateurs qui ne dépendent pas de la régularité de la fonction cible et qui ont une bonne performance. Approce Maxiset. Plus récemment, la notion de maxiset a été introduite par Kerkyacarian et Picard [2002] et largement développée par Autin [2006], Autin, Picard, et Rivoirard [2006] et Autin [2008]. Cette approce est complémentaire aux motivations énoncées 34

36 M. CHICHIGNOUD 1.4. MESURE DE L ERREUR dans ce paragrape. Etant donnés un estimateur ˆf et une vitesse de convergence ϕ n, l idée est de cercer l espace fonctionnel le plus grand possible sur lequel ˆf atteint la vitesse ϕ n. Cette notion est beaucoup moins pessimiste que le risque minimax puisqu un estimateur n est plus défini par la plus mauvaise performance sur un espace préalablement fixé, mais par l ensemble des fonctions pouvant être estimées par ˆf à la vitesse ϕ n. Cette approce peut être utilisée pour une large gamme de modèles. Cette approce, qui peut être intéressante pour les praticiens, dans le sens où elle exibe les fonctions bien estimées à vitesse coisie par un estimateur coisi. L inconvénient est que deux estimateurs ne sont pas toujours comparables si leurs maxisets ne sont pas emboîtés par exemple, seuillage par blocs et seuillage par arbre Approce Minimax Adaptative Dans cette section, nous présentons les contraintes de l adaptation et les résultats attendus. Le but de l adaptation au sens minimax est de coisir un estimateur ˆf qui ne dépend pas de β, L et qui atteint la meilleure vitesse de convergence pour tout β, L. Nous verrons qu il est souvent nécessaire de payer un prix pour l adaptation, c est-à-dire que l on peut construire un estimateur qui ne dépend pas de β, L mais qui atteint seulement la vitesse ψ p n minimax pénalisée. La question que l on se pose naturellement est la suivante : Existe-t-il un estimateur ˆf qui ne dépend pas de β, L et qui atteint la vitesse minimax ψ n? Pour les risques L p la réponse à cette question est positive, voir Efromovic et Pinsker [1984], Lepski [1991], Donoo, Jonstone, Kerkyacarian, et Picard [1995], Lepski, Mammen, et Spokoiny [1997], Goldensluger et Nemirovski [1997], Juditsky [1997] et Goldensluger et Lepski [2008]. Pour le risque ponctuel, le prix à payer n est pas nul, Lepski [1990,1992a,1992b], Brown et Low [1996], Spokoiny [1996], Lepski et Spokoiny [1997], Tsybakov [1998], Klutcnikoff [2005], Cicignoud [2010a,2010b,2010c]. En général, le prix à payer est une puissance de ln n. Définition 9. On appelle {ψ p nβ} β,l une famille de normalisations indexée par les paramètres de régularité. On dit que l estimateur ˆf est ψ-adaptatif si et seulement si β, L on a lim sup ψ p n β q [ Rn,q ˆf, H d β, L, M ] <. n Remarquons que la vitesse de convergence ne dépend pas de L. C est en effet souvent le cas : la constante de Lipscitz intervient de façon polynômiale dans les constantes de la borne supérieure. La recerce de la meilleure famille de normalisations celle qui tend le plus vite vers 0 est une priorité. L optimalité de ces familles a été étudiée par Lepski [1992a], Lepski [1992b], Lepski et Spokoiny [1997], Tsybakov [1998], Klutcnikoff [2005] et Cicignoud [2010a]. Pour obtenir les bornes supérieures, le recours à des inégalités de concentration exponentielles est nécessaire voir Section 1.5. On renvoie le lecteur au livre de Massart [2007] sur les inégalités maximales et de concentration. Rappelons que notre estimateur ˆf est adaptatif pour la pire fonction dans la boule de Hölder. Ce point de vue est souvent considéré comme pessimiste. 35

37 1.5. ADAPTATION M. CHICHIGNOUD Approce Oracle. Il est possible de construire des métodes adaptatives à toutes fonctions dans un espace de Hilbert H. Etant données une métode ˆf et une famille d estimateurs Λ, une inégalité du type : E f ˆf f ρ n inf E f f f 2 + T n, f H, f Λ et ρ n 0 est appelée inégalité oracle. On appelle oracle l estimateur ˆf 0 = arg min f Λ E f f f 2. Connaissant la fonction f, ˆf 0 correspond au meilleur estimateur possible dans la famille Λ. T n est un terme résiduel à contrôler. Dans de nombreuses situations, une inégalité oracle est un très bon moyen d obtenir des résultats d adaptation au sens minimax, i.e. en utilisant le fait que l oracle dans la famille est un estimateur minimax résultat à démontrer au préalable, on peut montrer que l estimateur ˆf est adaptatif optimal atteint la vitesse minimax et ne dépend pas de la régularité de l espace considéré. Noter qu en général ceci est possible seulement dans le cas de l estimation globale en norme L p, les inégalités d oracle pour la semi-norme ponctuelle n apparaissent pas dans la littérature, notamment pour leur différence prix à payer pour l adaptation avec la norme L p. Ce type de résultat est cependant beaucoup plus fort, il est établi sans aucune restriction sur la fonction f. Par ailleurs, une inégalité oracle présente un caractère non-asymptotique dans la mesure où elle permet de comparer les performances d une métode à un estimateur idéal ˆf 0, et ce, quelque soit le nombre d observations. L estimation en grande dimension est aussi très étudiée aujourd ui. En outre, la notion de parcimonie en anglais : sparsity est systématiquement utilisée pour obtenir des résultats du type inégalités oracle voir par exemple, Bunea, Tsybakov, et Wegkamp [2007]. Dans cette tèse, les résultats présentés sont asymptotiques par souci de présentation. Néanmoins, au vu des preuves, il est possible d obtenir des résultats non-asymptotiques, c est-à-dire que notre borne supérieure sera composée de la vitesse ψn, p plus un reste T n. En général, on coisit n assez grand pour que le reste soit négligeable. Nous verrons dans la section que la métode de Lepski n a nullement un caractère asymptotique. Pour l approce oracle, rappelons que la norme. est une norme L p. Il est souvent difficile d obtenir des inégalités oracle avec une semi-norme ponctuelle. Seuls les travaux de Plancade [2008], sur l estimation de la densité du bruit dans le modèle de régression omoscédastique, vont dans ce sens. Nos résultats sont tous donnés avec le risque ponctuel. Nous verrons que la principale difficulté est d obtenir un contrôle des grandes déviations avec la semi-norme ponctuelle. 1.5 Adaptation Cette partie contient un panorama sur les métodes adaptatives développées ces vingt dernières années. Nous utilisons, dans cette tèse, la métode de Lepski pour l adaptation. 36

38 M. CHICHIGNOUD 1.5. ADAPTATION Une section y est consacrée pour présenter l idée générale et les conditions nécessaires à l application de la métode Généralités Une des premières métodes adaptatives a été développée par Lepski [1990]. Nous la présentons dans la section On citera, sans plus de détails, une autre approce possible pour l adaptation, les métodes dites d agrégation d estimateurs voir notamment Nemirovski [2000], Rigollet et Tsybakov [2007] et Lecué et Mendelson [2009]. Dans la suite, nous présentons deux métodes d adaptation très populaires : le seuillage par ondelettes et la sélection de modèles Seuillage par ondelettes. Suite à la création des ondelettes par Meyer [1992], les premières métodes adaptatives fondées sur les ondelettes sont apparues sous l impulsion de Donoo et Jonstone [1994] et Donoo, Jonstone, Kerkyacarian, et Picard [1995]. L idée est de projeter la fonction de régression dans une base d ondelettes et d estimer les coefficients. On procède par un seuillage déterministe ou aléatoire des coefficients pour ne retenir que les plus grands coefficients à savoir ceux qui contiennent l information. D un point de vue maxiset, les métodes de seuillage par arbre ou par blocs ont été jugées très performantes par Autin [2004]. En particulier, leur maxiset contient les espaces de Besov. Sélection de modèles. On souaite construire une procédure établie à partir des observations Y i i qui permet de coisir un estimateur parmi la collection { ˆf m : m M} où ˆf m est un minimiseur de γ n sur S m, {S m : m M} une collection de modèles. L objectif est de coisir un estimateur dont le risque est aussi proce que possible de celui de l oracle. Pour faire ce coix, on procède par pénalisation. On coisit l estimateur adaptatif ˆf ˆm tel que ] ˆm = arg min [γ n ˆfm + penm, où γ n. est un contraste empirique et penm est une pénalité à coisir. Les premiers résultats obtenus par critère pénalisé sont dûs à Akaike [1973] pour l estimation de densité par vraisemblance pénalisée et à Mallows [1973] pour l estimation de la fonction de régression dans un cadre gaussien. Pour la pénalité pen Akaike m = D m où D m est la dimension de S m, Akaike a obtenu le critère AIC et, pour la pénalité pen Mallows m = 2σD m, le critère s appelle C p de Mallows. Birgé et Massart [2001] ont montré que ces critères sont asymptotiquement optimaux à condition que la taille de M ne soit pas trop grande. Dans un cadre non-asymptotique, Birgé et Massart [2001] ont introduit des pénalités plus générales que celle de Mallows pen bm = C σ 2 D m 1 + 2L m 2, m M, 37

39 1.5. ADAPTATION M. CHICHIGNOUD où C > 1 et { L m : m M } une collection de poids positifs. Birgé et Massart ont obtenu un contrôle sur le risque de f quelque soit la taille de la collection de modèles. La construction de leur procédure se base sur des résultats de concentration de la mesure gaussienne. La qualité d une procédure de sélection de modèle correspond à sa capacité à coisir un estimateur f parmi une collection { ˆf m : m M} qui ait un risque faible. Afin d évaluer cette qualité, on peut considérer les inégalités de type oracle pour valider téoriquement la qualité de l estimateur f. Il nous faut donc établir des inégalités de la forme { } E f lf, f K inf m M inf l f, f + penm f S m + R, f, où l.,. est une fonction de perte, K est une constante universelle et R un terme de reste. En général, la fonction de perte est celle des moindres carrées ou la divergence de Kullback- Leibler. Le principal avantage est qu elle n impose aucune restriction sur la fonction à estimer f. En pratique, cette métode pose la question du coix de la constante C, qui est une constante de régularité. Plus récemment, les travaux de Cavalier et Golubev [2006] et Marteau [2009] utilisent une métode dite d enveloppe du risque, fondée sur la sélection de modèles, pour les problèmes inverses très mal-posés Coix de la Fenêtre : Métode de Lepski Comme nous l avons vu, les métodes utilisant une fenêtre fixe ne peuvent rendre compte de la géométrie ou de régularité de la fonction. Une amélioration possible est alors de coisir le voisinage de manière locale, en s appuyant sur les données observées. L idée de ce type d approce est de sélectionner le voisinage le plus pertinent possible à partir des observations. Cette idée bien connue sous le nom de métode dite de Lepski Lepski [1990] permet de sélectionner la fenêtre de façon adaptative parmi une grille, cette métode repose sur la comparaison d estimateurs appartenant à une grille finie. Cette opération est souvent très cère en complexité de calcul. Cronologie. La première procédure adaptative fût donnée par Efromovic et Pinsker [1984]. Stone [1982] avait posé, sans la résoudre, la question de l existence d un estimateur ne dépendant pas de la régularité de la fonction cible. Lepski [1990] donna une nouvelle procédure qui portera plus tard son nom. Il construit un estimateur adaptatif pour coisir la régularité de Hölder dans le modèle du bruit blanc gaussien pour l estimation ponctuelle. Il démontra qu il n existe pas d estimateur adaptatif efficace. En effet, il est fréquent de payer un prix ln ε 1 pour l adaptation. C est-à-dire que l on ne peut pas faire mieux que la vitesse εsqrtln ε 1 2β 2β+1. Dans l article Lepski [1991], une procédure plus générale est donnée pour n importe quel type d estimateurs d une fonction. On peut trouver dans cet article les conditions suffisantes 38

40 M. CHICHIGNOUD 1.5. ADAPTATION pour obtenir un estimateur adaptatif efficace pour le risque L p. Dans les deux articles Lepski [1992a,1992b], on peut trouver des exemples où il n existe pas d estimateurs efficaces. Cela dépend généralement de la fonction de perte utilisée dans le risque norme L p, semi-norme ponctuelle ou encore norme infinie. Ces trois articles traitent entre autres le modèle du bruit blanc, d estimateurs à noyau et d estimateurs par polynômes locaux. Plusieurs articles ont ensuite utilisé la métode de Lepski pour l adaptation et ont contribué à l amélioration de celle-ci. Un coix de la fenêtre est proposé dans Lepski, Mammen, et Spokoiny [1997] pour les estimateurs à noyau. Ils obtiennent sur les espaces de Besov les vitesses adaptatives efficaces, qui étaient déjà connues par Donoo, Jonstone, Kerkyacarian, et Picard [1995] avec les ondelettes. A noter que dans cet article, le coix de la fenêtre est fait avec une métode ponctuelle et les vitesses sont obtenues en norme L p. La régression gaussienne à design fixe a fait l objet d un article de Goldensluger et Nemirovski [1997], où l estimateur des polynômes locaux est utilisé avec le risque ponctuel et L p sur les espaces de Sobolev. Spokoiny [1998] a étudié les fonctions discontinues et propose une métode adaptative reposant sur l idée de Lepski. Lepski et Levit [1999] et Kerkyacarian, Lepski, et Picard [2001] proposent des métodes adaptatives pour les fonctions anisotropes. La nouveauté est dans le caractère multidimensionnel de la fenêtre d estimation, avec l introduction d un estimateur artificiel dans la procédure de Lepski. On note la présence d inégalités oracle dans Kerkyacarian, Lepski, et Picard [2001] avec le risque L p. Citons les travaux de Klutcnikoff [2005] sur l estimation ponctuelle de fonctions de Hölder anisotropes. Plus récemment, l article de Goldensluger et Lepski [2008] donne une procédure s appuyant sur l idée de Lepski pour un large coix d estimateurs linéaires sans condition sur le modèle régression gaussienne, bruit blanc gaussien et modèle de densité. Goldensluger et Lepski [2009a] donnent une procédure qui permet d obtenir des inégalités oracle sur une très large famille d estimateurs linéaires. Il est possible d utiliser la règle de Lepski pour les métodes de seuillage des coefficients d ondelettes. En effet, Autin [2004] a mis en place une procédure dite procédure ard tree, qui utilise la règle de Lepski pour coisir les coefficients à seuiller dans l arbre. Dans le modèle du bruit blanc gaussien, cette métode permet d avoir un maxiset plus important que pour les métodes de seuillage classiques. La métode de Lepski a aussi été utilisée pour les problèmes inverses. L article de Maté [2006] est une très bonne description de la métode dans le cas des problèmes inverses déterministes et aléatoires. Plus récemment, on peut citer une nouvelle procédure de test introduite par Spokoiny et Vial [2009] pour les problèmes inverses. En pratique, on retrouve souvent la règle de Lepski du fait de son implémentation assez simple, malgré le coût important de la complexité. En effet, il est nécessaire de calculer tous les estimateurs dans la famille que nous considérons. Les travaux de Polzel et Spokoiny [2000,2003] ont considéré la métode de Lepski pour le débruitage d images. L estimateur du maximum de vraisemblance local est utilisé pour l adaptation dans les modèles dits réguliers dans les articles de Polzel et Spokoiny [2006] et Katkovnik et Spokoiny [2008], notamment pour les modèles poissonniens adaptés aux images. Dans le même temps, Katkovnik [1999] et, 39

41 1.5. ADAPTATION M. CHICHIGNOUD par la suite Astola, Egiazarian, et Katkovnik [2002] et Astola, Egiazarian, Foi, et Katkovnik [2010], donnent une très bonne illustration de comment utiliser la règle de Lepski en pratique. Par exemple, ils introduisent une nouvelle interprétation de cette métode que Katkovnik [1999] nomme ICI en anglais : Intersection of Confidence Intervals et utilisent des voisinages anisotropes circulaires, ce qui améliore le débruitage de l image. Cette métode, explicitée plus loin, permet de réduire considérablement la complexité de la métode tout en gardant ces bonnes propriétés téoriques. Figure 1.9 Illustration de l effet poivre et sel sur une image traitée avec la métode de Kervrann et Boulanger [2006] voir par exemple le coin en bas à droite Kervrann et Boulanger [2006] ont utilisé la métode de Lepski pour le coix de la zone de recerce pour les Moyennes Non Locales en anglais : Non-Local Means ou encore NL- Means, voir Buades, Coll, et Morel [2005]. Ces articles mettent en avant un inconvénient, en pratique, de la métode : l image obtenue après traitement a une tendance à être dégradée par un bruit de type poivre et sel Figure 1.9. Ceci est dû à la procédure, qui avec une probabilité faible, s arrête trop tôt voir Description. Pour combler cette défaillance, l utilisation de filtres médians est souvent préférée à celle des filtres linéaires voir Astola, Egiazarian, Foi, et Katkovnik [2010]. L idée de cette section est de comprendre comment on peut utiliser la métode de Lepski, donner les idées de la preuve, étayées par quelques calculs, et expliquer les conditions 40

42 M. CHICHIGNOUD 1.5. ADAPTATION suffisantes à rassembler pour garantir la performance de la procédure. Description. Comme nous l avons précisé ci-dessus, l approce développée par Lepski [1991] est conçue pour l adaptation au sens minimax. On peut cependant développer une approce oracle voir Goldensluger et Lepski [2009a]. Dans cette partie, nous considérons la régression généralisée définie dans la section et l estimateur localement paramétrique f y = θ 0,...,0 tel que θ = arg min δ t, Z n, t ΘM où δ.,. est un contraste empirique. Par exemple, δ.,. peut être le critère des moindres carrés ou bien le critère bayésien ou encore le critère de Huber Rappelons que f appartient à une boule de Hölder H d β, L voir Définition 1, où β et L sont inconnus pour le statisticien. Supposons que nous connaissons déjà la vitesse minimax que nous noterons ψ n,γ β = n β γβ+d, 1 γ 2. Nous verrons que, dans le modèle de régression gaussienne, la vitesse est ψ n,2 β et dans le modèle de régression multiplicative uniforme la vitesse est ψ n,1 β voir Section 3.4. Nous supposons aussi connue la construction de l estimateur minimax noté f β,l où β, L est l argument qui permet d équilibrer le biais et la variance de notre estimateur que l on peut écrire comme la solution du problème de minimisation suivant : β, L = L γ n 1 γβ+d = arg min >0 Ldβ + n d 1 γ. L estimateur f β,l dépend explicitement de β, L à travers la fenêtre β, L. Coisir la régularité de façon adaptative revient alors à coisir la fenêtre. La procédure que nous présentons est celle développée par Lepski, Mammen, et Spokoiny [1997] que l on appelle abusivement métode de Lepski. Cette procédure a été donnée spécialement pour le coix de la fenêtre, et donc pour les estimateurs localement paramétriques. Néanmoins, l idée peut être utilisée dans un autre contexte. Spokoiny et Vial [2009] utilisent le principe de Lepski pour les problèmes inverses. Leur estimateur est la somme successive des coefficients bruitées de la fonction cible. Cet estimateur s arrête au N-ième coefficient. La question est de savoir à quel rang s arrêter. Les auteurs développent une métode pour tester si l on peut passer au rang supérieur ou non. Ceci est fait à partir de l idée de Lepski [1990]. } L idée de l adaptation est la suivante : on dispose d une famille d estimateurs { f H n, où H n [0, 1] tel que β, L H n. Cette famille contient un oracle, ici l estimateur minimax f β,l. Nous supposons inconnues les quantités β et L, et on admet connaître l information supplémentaire que β ]0, b] et L > 0 où b N est connu. Pour la contante L, aucune restriction n est imposée, en effet, son rôle est minimisé dans le coix de la fenêtre, du fait qu elle n intervient pas dans la vitesse de convergence. Notons H n = [ min, max ] où min < max sont à coisir pour que β, L H n. La procédure de Lepski commence par la construction d une grille sur l ensemble H n des 41

43 1.5. ADAPTATION M. CHICHIGNOUD fenêtres, soit k = 2 k max, k = 0,..., k n, où k n est le plus grand entier tel que kn H n. Soit F = { f k y = f } k y, k = 0,..., k n, la grille construit sur notre famille d estimateurs localement paramétriques. Objectif. Le but de l adaptation est de coisir un estimateur f ˆk F où ˆk est une fonction mesurable des observations Z n. Une fois la procédure établie, il nous faut vérifier que notre estimateur est bien adaptatif voir Définition 9. C est-à-dire qu il atteint simultanément sur caque espace H d β, L la vitesse ψ p nβ, β [0, b[. Notons que cette famille de normalisations doit être optimale voir par exemple Capitre 4. On peut écrire la vitesse adaptative de la façon suivante : ψ p nβ = n 1 ρ n β β γβ+d, où ρ n β est un terme dit de pénalité ou de prix à payer pour l adaptation. En général, pour l estimation ponctuelle, on coisit la pénalité égale à [ 1 + b β ln n ] 1/γ voir Lepski [1990,1992a,1992b], Brown et Low [1996], Spokoiny [1996], Lepski et Spokoiny [1997], Tsybakov [1998], Klutcnikoff [2005], Cicignoud [2010a,2010b,2010c], la description de la procédure permettra d expliquer ce coix. En norme L p, la pénalité est souvent égale à 1 voir Efromovic et Pinsker [1984], Lepski [1991], Donoo, Jonstone, Kerkyacarian, et Picard [1995], Lepski, Mammen, et Spokoiny [1997], Goldensluger et Nemirovski [1997], Juditsky [1997] et Goldensluger et Lepski [2008]. Règle de sélection pour deux fenêtres. Pour commencer considérons la métode dans le cas simple du coix entre deux estimateurs. Notons les f 1 = f 1, 0 < 1 < 1 et f 2 = f 2, 1 < 2 < 1, on est dans le cas où CardF = 2. On dispose de l information supplémentaire : un des deux estimateurs est minimax sur H d β, L par construction de F. Nous allons construire une procédure pour coisir un estimateur parmi les deux pour atteindre la vitesse adaptative. Soit la règle de sélection suivante : f = f 2, f 1, f 1 y f 2 y C σp 1 f 1 y f 2 y > C σp 1 Nous appelons écart-type σ = n d 1/γ et écart-type pénalisé σp = pen σ avec pen une pénalisation à coisir en fonction du problème. C est une constante que l on peut voir comme un paramètre de seuillage de la métode. Nous coisirons celle-ci plus tard. Nous pouvons garantir la performance de notre estimateur par le résultat suivant. 42

44 M. CHICHIGNOUD 1.5. ADAPTATION Proposition 1. Pour tout β, L [0, b[ R + on a sup E f f y fy 2c1 + c 2 ψnβ p + R n, f H d β,l où c 1, c 2 sont des constantes positives et R n est un terme de reste que l on définira dans la suite. Avec ce proposition, l estimateur f atteint la vitesse ψ p nβ pour tout β, L [0, b[ R +. 1 Idée de la preuve. Soit p β, L = ρnβ γβ+d la fenêtre minimax pénalisée. Dans ce L γ n paragrape, nous expliquons comment fonctionnne la métode de Lepski. On peut comprendre comment coisir la vitesse pénalisée, la constante C et la variance pénalisée. 1er cas : f 1 est minimax pénalisé, c est-à-dire que 1 = p β, L. Définissons l événement { A = f 1 y f 2 y } C σp 1. 1 Si A c est réalisé alors la règle de sélection donne f = f 1 la règle a coisi le bon estimateur. Comme f 1 est minimax, on a E f f y fy IA c E f f 1 y fy c1 ψ p nβ. 2 Si A est réalisé alors f = f 2 ici la procédure s est trompée d estimateur, nous allons regarder quelle est la perte dûe à cette erreur. E f f y fy IA = E f f 2 y fy IA E f f 2 y f 1 y IA + E f f 1 y fy IA. Sous l événement A, le premier terme est contrôlé par C σ p 1 et comme f 1 est minimax, il existe une constante c 1 telle que E f f y fy IA C σ p 1 + c 1 ψ p nβ. Nous pouvons montrer que si pen p β,l = ρ n β alors il existe une constante c 2 telle que σ p 1 = σ p p β, L c 2 ψ p nβ, ainsi on obtient avec les deux inégalités ci-dessus. E f f y fy IA c 1 + c 2 ψ p nβ. 2ème cas : f 2 est minimax pénalisé 2 = p β, L. Dans ce cas, la probabilité que l événement A c se réalise est faible. 43

45 1.5. ADAPTATION M. CHICHIGNOUD 1 Si A est réalisé alors f = f 2 la procédure donne le bon estimateur. Ainsi E f f y fy IA E f f 2 y fy c1 ψ p nβ. 2 Si A c est réalisé alors la règle de sélection donne f = f 1 la procédure s est trompée. En utilisant l inégalité de Caucy-Scwarz, on obtient : E f f y fy IA c E f f 1 y fy 2 1/2 P f {A c }. Le premier facteur risque de l estimateur f 1 tend vers 0 car c est un estimateur de la fonction f avec une mauvaise fenêtre mais pas à la bonne vitesse. Il est facile de montrer que ce facteur est néanmoins borné par une constante K. Dans certains exemples, on peut le calculer explicitement et connaître sa vitesse. Le second terme P f {A c } va compenser la perte. Nous pouvons donner une condition suffisante pour que la règle de sélection à deux fenêtres fonctionne. S il existe une constante c 3, une pénalité pen, une constante C et une contante a = ac > 1 telles que pen p β,l = ρ n β et { P f f 1 y f 2 y 1/2 > C σp 1 } c3 n a. Alors d après les cas traités ci-dessus, on a E f f y fy 2c 1 + c 2 ψ p nβ + Kc 3 n a, β, L [0, b[ R +. où R n = Kc 3 n a est le terme de reste. Le proposition 1 est démontré. Nous pouvons donner un scéma qui permet de contrôler la probabilité Rappelons que nous sommes dans le cas où 1 < 2 = p β, L, et que 1 < 2 σ p 1 > σ p 2 si pen est décroissante en. On peut écrire { P f f 1 y f 2 y } { > C σp 1 P f f 1 y fy } C > 2 σ p 1 = +P f { fy f 2 y > C 2 σ p 1 j=1,2 } P f { f j y fy > C 2 σ p j Contrôler la probabilité revient à contrôler les grandes déviations de l estimateur f j. Une grande partie de cette tèse est consacrée à la recerce de ce contrôle pour les estimateurs non-linéaires voir Sections et Dans la suite, un exemple de contrôle des grandes déviations est donné pour l estimateur de la moyenne locale dans le modèle de la régression gaussienne. La décomposition biais-variance joue un rôle particulièrement important, notamment sur le fait que le biais soit croissant et que la variance soit décroissante en. 44 }.

46 M. CHICHIGNOUD 1.5. ADAPTATION Grandes déviations : Moyenne locale. Considérons les observations Z n dans le cadre de la régression gaussienne avec design fixe uniforme comme définie dans la section Supposons que n d N pour simplifier les écritures et définissons l estimateur de la moyenne locale : f = 1 Y n d i, [0, 1]. X i V y Dans ce cas, l estimation de la fonction f revient à approximer celle-ci par une constante sur un voisinage. Ici, nous prendrons b = 1, si β ]0, 1], les fonctions f Hβ, L sont approcées par des polynômes de degré nul. On est en présence d un estimateur linéaire. Dans cette exemple la décomposition biaisvariance est immédiate. f y fy Ld β + 1 ξ n d i, ξ i N 0, σ 2. X i V y Supposons ici que la fenêtre p β, L. Ainsi, par croissance du biais, décroissance de la variance et compromis biais-variance, on a Ld β Ld p β, L β = σp p β, L σ p. On obtient { P f f y fy } C > 2 σ p P f 1 n d X i V y ξ i > C 2 σ p 2. Dans le cas gaussien γ = 2 ainsi il existe une constante c 5 = c 5 σ 2 > 0 telle que P f 1 { ξ n d i > C 2 } 2 C 2 σ p 2 c 5 exp pen 2. X i V y Cette inégalité s obtient en intégrant la probabilité. Si nous coisissons la pénalité pen = 1 + ln max, on a { P f f y fy } C 2 C > 2 σ max 2 2 p c 5. Si l on coisit, max telles que max 1 n c 6 2, on obtient le résultat avec C = 2 c

47 1.5. ADAPTATION M. CHICHIGNOUD Nous venons de voir que la métode de Lepski repose sur des inégalités exponentielles de concentration, qui permettent de contrôler les grandes déviations. Ceci a été une difficulté importante qu il a fallu surmonter dans cette tèse, notamment pour les estimateurs non-linéaires. Regardons maintenant la règle de sélection générale pour une grille finie d estimateurs f k. Règle de Sélection Générale Reconsidérons la famille des estimateurs F. Nous pouvons maintenant donner la procédure de Lepski établie à partir de la règle de sélection à deux fenêtres. On prend f y = f ˆk y, où f ˆk y est sélectionné dans F suivant la règle suivante : ˆk = inf { k = 0, k n : f k y f l y } Cσp l, l = k + 1, k n, où k n est définie dans 1.5.2, 0, k n = 0,..., k n et la constante C est à coisir comme dans le cas précédent. Pour des exemples, on peut regarder les sections 2.1 et 2.2. k n et F sont définis respectivement par et Notons que la fenêtre l est une fonction décroissante en l et la variance pénalisée σ p l est croissante en l. Interprétation de la règle de Lepski La règle de Lepski peut être expliquée par la description suivante. Considérons les fenêtres 0 < min kn <... < 0 = max, on en déduit l inclusion = V kn y... V 1 y. Dans ce cas, la variance de notre estimateur f k est croissante V ar f k V ar f k+1, k = 1,..., k n 1. En d autres termes, le bias est en général décroissant quand le voisinage diminue V k y. La métode de Lepski peut être interprétée comme une procédure de tests multiples où l ypotèse, que f est une polynôme sur V k y, qui est testé contre le fait que l écart entre les estimateurs est important. Notons cette ypotèse H 0 k : f θ V k y = f Vk y, où θ est la suite des coefficients des polynômes de Taylor. Supposons H 0 k n est vraie, nous testons successivement si H 0 k 1 is acceptable à condition que l ypotèse H 0 l soit vérifiée pour tout l k. Une fois le test de H 0 k 1 rejeté, nous coisissons l estimateur f k correspondant à la dernière ypotèse. Le point principal est donc de bien définir les tests d acceptation pour H 0 k 1 : la métode de Lepski accepte H 0 k 1 si l événement f k 1 y f l y CSn l est vrai pour tout l k 1 avec des valeurs de seuillage CS n l appropriées. Cette quantité CS n l peut être vu comme l écart-type pénalisé de f l à une constante C-près. Implémentation de la règle de Lepski { Soit A j,l = f j y f l y } Cσp l. Pour l implémentation, on constate qu il est nécessaire de calculer tous les estimateurs f l de la grille F. Ceci donne la règle suivante : 46

48 M. CHICHIGNOUD 1.5. ADAPTATION on dit qu un estimateur f j est admissible si l événement j<l k n A j,l est réalisé. 1. On commence par vérifier si l estimateur f 0 est admissible,, 2. si il est admissible, on coisit f = f 0, sinon on passe au suivant f on s arrête au premier instant où l estimateur f j est admissible et tous les précédents f 0,..., f j 1 ne le sont pas. Ainsi, on prend f = f j où j = ˆk est la plus petite des valeurs admissibles. 0 Donc, dès le début de l algoritme, pour vérifier que f est admissible ou non, on construit tous les estimateurs de la grille F. Pour contourner ce problème, on peut utiliser l implémentation de Katkovnik [1999] avec les ICI en anglais : Intersection of Confidence Intervals, qui ne nécessite pas de calculer tous les estimateurs f l de la grille F. La règle ICI est la suivante : Implémentation des ICI 1. Classons par odre croissant les fenêtres kn < kn 1 <... < 1 < Considérons les intersections des intervalles de confiance I j = j i=k n D i {k n, k n 1,..., 1, 0}, avec D i = [ f j y Cς j, f ] j y + Cς j, pour j ς j = Std f j y est l écart-type de f j y. 3. Soit j + l entier tel que pour tout j > j + on a I j, I j + et I j + 1 =. Ainsi, l estimateur adaptatif est f j+ y. Une illustration des ICI est donnée par la figure On constate que si j diminue, alors l écart-type associé ς j diminue. Ainsi, les intervalles de confiance diminuent quand j diminue. L idée générale, cacée derrière les ICI, est que l estimation du biais est plus petite, à constante près, que la variance tant que les intersections sont non-vides. La règle s arrête quand l estimation du biais et la variance sont proces. La figure 1.11 permet de constater quelle fenêtre la métode a coisie. La fenêtre k 1 est trop petit, elle n est pas optimale, nous pouvons encore l agrandir. On passe à la fenêtre supérieure, on voit que celle-ci convient. La fenêtre k 3 est trop grande et implique que I k 3 est vide. Si f j est un estimateur à noyau avec un noyau K, l écart-type ς j peut facilement être calculé par ς K j 2 norme l 2 du noyau, ς est l écart-type du bruit. Dans les autres cas, on peut remplacer ς j par σ p j. Asymptotiquement, on peut démontrer que l estimateur ICI-adaptatif est proce de f, f j+ y f y voir Goldensluger et Nemirovski [1997]. Pour les calculs téoriques, nous utiliserons l estimateur f coisi par la règle de Lepski. En pratique, nous utiliserons f j+ l estimateur coisi par la règle des ICI. 47

49 1.5. ADAPTATION M. CHICHIGNOUD Figure 1.10 Illustration de la règle ICI développée par Katkovnik [1999] f j = f j y et + = j +. Figure 1.11 Coix de la fenêtre + = j + fonction est localement constante. en traçant la fonction cible exemple où la Comme nous venons de le voir, l interprétation de la métode de Lepski par les tests statistiques et son implémentation très simple par la métode ICI ont fait le succès de cette métode. Nous pouvons démontrer que l estimateur f est adaptatif. 48

50 M. CHICHIGNOUD 1.5. ADAPTATION Proposition 2. Pour tout β, L [0, b[ R + on a sup E f f y fy Cc 1 + c 2ψnβ p + T n, f H d β,l où c 1, c 2 sont des constantes positives et T n est un terme de reste que l on définira dans la preuve. Dans la procédure 1.5.6, on peut remplacer C par une constante C telle que C > C. Le résultat du Proposition 2 reste vrai en remplaçant C par C dans la borne supérieure voir Preuve. Idée de la preuve. Soit l entier κ défini de la façon suivante. 2 κ max p β, L < 2 κ+1 max. On a aussi E f f ˆk y fy E f f ˆk y fy Iˆk κ + E f f ˆk y fy Iˆk>κ := R 1 f + R 2 f. Premièrement, nous contrôlons R 1. Ainsi La définition de ˆk entraîne que f ˆk y fy f ˆk y f κ y + f κ y fy. f ˆk y f κ y Iˆk κ Cσ p κ. Par définition de κ, l estimateur f κ est le plus proce de l estimateur minimax pénalisé dans la grille F. Il est facile de démontrer qu il existe une constante c 1 telle que σ p κ c 1 ψ p β et une constante c 2 telle que D où R 1 f Cc 1 + c 2ψ p β. E f f κ y fy c 2 ψ p β. Maintenant, il nous faut borner R 2. Appliquons l inégalité de Caucy-Scwarz R 2 f = k n k>κ k>κ E f f k y fy I [ˆk=k,G ] Ef f k y fy 2 1/2 P f {ˆk = k }. 49

51 1.5. ADAPTATION M. CHICHIGNOUD Remarquons que l indice ˆk est aléatoire, nous le contrôlons à l aide de la somme qui rend l indexation déterminisme. Cela va nous permettre d utiliser un contrôle des grandes déviations pour l estimateur en question. Car si le paramètre l de l estimateur localement polynômial f k est aléatoire coisi à partir des données, alors cet estimateur n est plus localement paramétrique. Ainsi le contrôle des grandes déviations est plus difficile à obtenir. Par exemple, les inégalités de concentration dit de Bernstein ou de Berstein que l on peut trouver dans Bouceron, Bousquet, et Lugosi [2004] peuvent être utilisées pour les estimateurs linéaires seulement si la fenêtre est déterministe. Notons que pour tout k κ + 1 et par définition de ˆk {ˆk = k } = l k { f k 1 y f l y > Cσp l }. Notons que σ p l est strictement croissant en l, donc, {ˆk = k } { f k 1 y fy > 2 1 Cσ p k 1 } [ { l k f l y fy }] > 2 1 Cσ p l. On arrive à l inégalité suivante : pour tout k κ + 1 P f ˆk = k Pf { f k 1 y fy > 2 1 Cσ p k 1 } + l k P f { ˆf l y fy > 2 1 Cσ p l }. A ce moment de la preuve, nous pouvons donner une ypotèse pour finir la démonstration. Hypotèses 2. Pour tout k κ, il existe une constante c 3 telle que { P f ˆf k y fy } { C c > 2 1 Cσ p k c 3 exp 4 2 Dans cette tèse, nous prendrons la pénalité pen k k ln 2 1/γ. Avec l ypotèse précédente, nous contrôlons pen k γ }. = 1 + ln [ ] max 1 1/γ k = 1 + { P f ˆk = k c C c γ 5 exp 4 k 1 ln 2}, 2 où c 5 = c + 3 l=0 { exp C c γ } 4 2 l ln 2. Ainsi, il est facile de contrôler le risque suivant. Il existe une constante c 6 telle que Ef f k y fy 2 1/2 c 6 σ p k. 50

52 M. CHICHIGNOUD 1.5. ADAPTATION On obtient ce résultat en intégrant la probabilité de l ypotèse 2. D où R 2 f { c 6σ p k c 5 exp 1 C c γ 4 k 1 ln 2}. 2 2 k>κ Avec le coix de C = 22d 1/γ + c 4, on obtient R 2 f T n = 1 n d 1/γ max k>0 { c 6 c 1/γ k ln 2 exp 1 2 Avec cette inégalité, l assertion du proposition est démontrée. C c γ 4 k 1 ln 2}. 2 La recerce, du contrôle des grandes déviations, est une partie tecnique mais indispensable pour démontrer les résultats d adaptation. Cette tèse consacre une partie importante à la recerce de ce type d inégalités notamment pour les estimateurs non-linéaires. De nombreux papiers sont consacrés à ces résultats dans le but de l adaptation voir notamment Talagrand [1994], Ledoux [1997], Massart [2000, 2007], Bouceron, Bousquet, et Lugosi [2004] et Goldensluger et Lepski [2009b]. Nous insistons sur le fait que le biais et la variance de notre estimateur doivent être respectivement croissant et décroissante voir l équation Pour les fonctions anisotropes, le biais n est pas monotone. Dans ce sens, les articles de Kerkyacarian, Lepski, et Picard [2001], Klutcnikoff [2005], Goldensluger et Lepski [2008] et Goldensluger et Lepski [2009a] utilisent une métode s appuyant sur une comparaison des biais. La notion d emboîtement est inévitable. En effet il est nécessaire de trouver un ordre sur l ensemble des fenêtres pour que la variance soit monotone. En général, pour l approce localement paramétrique, le nombre d observations appartenant à V y augmente quand la fenêtre augmente, d où la diminution de la variance. Dans cette procédure, nous avions un point d appui, f κ l estimateur minimax pénalisé, qui est notre oracle. Ainsi, la métode de Lepski peut donner des inégalités oracle voir Goldensluger et Lepski [2009a], mais cela demande des résultats un peu plus tecniques bornes uniformes de fonctions aléatoires, voir Goldensluger et Lepski [2009b]. La métode de Lepski Lepski, Mammen, et Spokoiny [1997] nous a permis de construire des estimateurs bayésien et de Huber adaptatifs optimaux. Nous présentons dans le capitre suivant les résultats obtenus dans cette tèse notamment grâce à cette métode. Dans la section 2.3, la performance de cette métode est évaluée par rapport à l oracle. Une illustration de la calibration de la constante C est aussi présentée. 51

53 1.5. ADAPTATION M. CHICHIGNOUD 52

54 Capitre 2 Résultats et Perspectives Après avoir défini les modèles, les nouvelles métodes d estimation et la procédure adaptative, nous présentons les différents téorèmes qui mesurent les performances des estimateurs proposés. D un point vue minimax dans un premier temps, nous développons ensuite des procédures adaptatives basée sur l idée de Lepski. Comme nous l avons déjà souligné ci-dessus, nos résultats sont déduits du contrôle des grandes déviations de nos différents estimateurs. Ces inégalités font l objet de sous-sections pour caque métode d estimation, et peuvent être étudiées de façon indépendante des autres résultats. En fin de paragrape, nous parlerons des suites à donner à ces travaux, ainsi que des problèmes ouverts. 2.1 Approce Bayésienne Nous donnons les résultats obtenus pour l estimateur bayésien dans le modèle de la régression générale. Tout d abord nous précisons quelques ypotèses : la vitesse de convergence minimax est supposée connue ϕ n,γ β = n β γβ+d sur les espaces de Hölder Hd β, L, où 1 γ 2 est une constante qui dépend de la densité g.,. des observations. Une propriété remarquable de l estimateur bayésien est qu il s adapte à la densité du modèle pour être optimal au sens des vitesses de convergence minimax. Comme tout estimateur localement paramétrique, le coix de la fenêtre est primordial pour construire un estimateur qui ne dépend pas de la fonction à estimer. Nous proposons une procédure adaptative pour le coix de la fenêtre, basée sur l idée de Lepski, qui construit un estimateur adaptatif optimal. Nous verrons quelques exemples d optimalité pour certains modèles section 4.3. Comme nous l avons vu dans la section 1.5.2, le contrôle des grandes déviations pour l estimateur bayésien indexé par doit être obtenu pour tout. Ici, l estimateur bayésien n est pas linéaire et on ne connaît pas sa forme explicite. Nous utiliserons le fait qu il minimise un critère particulier pour contrôler les grandes déviations. Une fois les résultats énoncés pour le modèle de régression générale, nous étudions quelques exemples comme la régression gaussienne et la régression inomogène de Poisson avec la vitesse ϕ n,2 β, la régression α avec ϕ n,1+2α β et

55 2.1. APPROCHE BAYÉSIENNE M. CHICHIGNOUD la régression multiplicative uniforme avec ϕ n,1 β. Nous proposons une procédure adaptative pour l estimateur bayésien. Cette procédure permet un coix à partir des observations de la fenêtre d estimation en anglais : bandwidt. Les résultats obtenus sont de type minimax adaptatifs pour le risque ponctuel. En particulier notre estimateur adaptatif atteint la vitesse ϕ n,γ β, β ]0, b], nous verrons plusieurs modèles dans lesquels cette vitesse est optimale. Notons toutefois que l adaptation pour l approce bayésienne est déjà apparue, par exemple dans les travaux de Gosal, Lember, et Van der Vaart [2008] et Van der Vaart et Van Zanten [2009] Recerce de la Vitesse Minimax Rappelons le cadre dans lequel on travaille. 1. Le modèle est celui de la régression générale défini dans avec une densité g.,., 2. f H d β, L, M Définition 1, 3. on utilise l estimateur bayésien ˆf défini dans 1.3.7, avec la constante m à coisir qui correspond à l inverse de la puissance du rapport de vraisemblance, 4. on suppose que la vitesse minimax est connue et égale à ϕ n,γ β = n β γβ+d connue. avec γ Pour obtenir la borne supérieure du risque maximal Définition 6, nous avons besoin des ypotèses suivantes. Pour cela, on introduit les notations suivantes. Pour tout θ ΘM, [ ] soit U n = N Θ M θ. Donnons aussi N = n d 1/γ où γ 1 et u Un le pseudo rapport de vraisemblance Z n,θ u = L θ + u N 1, Z n L θ, Zn Soit H n, n > 1 le sous-intervalle suivant de 0, H n = [ min, max ], min = ln n 1 γd+d 2 n 1/d, max = ln n 1 γb+d. Dans la suite, nous considérons seulement les valeurs de appartenant à H n. Soit f θ x, avec θ Θ M, le polynôme local d approximation de f sur V y et soit b l erreur d approximation correspondante, i.e b = sup x V y Finalement, définissons N = b N γ et f θ x fx E = exp {N }. Soit le sous-intervalle Γ δ Θ M tel que Γ δ du = δ D b, δ > 0. 54

56 M. CHICHIGNOUD 2.1. APPROCHE BAYÉSIENNE Hypotèses 3. On suppose qu il existe plusieurs constantes τ, m > 0 et c 1, c 2, c 3, C 1, C 2, s 1, s 2 > 0 telles que pour tout n > 1, f H d β, L, M, θ Θ M et H n, on a 1. Γ δ E f [ 1 Z 1/m n,θ u ] + du C 1 E c 1 δd b+τ, δ < s 1, 2. E f Z 1/m n,θ u C 2 E c 2 exp { c 3 u γ 1}, u U n : u 1 s 2 N. où a + = maxa, 0, a R. Remarque 3. On suppose aussi connues les constantes c 3, s 2, τ, m and γ, l existence des autres constantes est suffisante. Notons que le processus Z n,θ. n est pas toujours défini, par exemple si la mesure de probabilité P fθ+un 1 n est pas absolument continue par rapport à P fθ. Dans ce cas, le problème est ouvert. Par le passé, Has minskii et Ibragimov [1981] ont énoncé des ypotèses similaires pour les modèles paramétriques. Ils utilisent l estimateur bayésien t u Ludu mais sans la puissance 1/m. Ainsi, les ypotèses ci-dessus sont plus faibles que celles de Has minskii et Ibragimov [1981] et Cicignoud [2010a] voir Capitre 4. Ces ypotèses sont données par Cicignoud [2010b] Capitre 3. La continuité du processus Z n,θ., et donc de la vraisemblance, n est pas nécessaire pour l approce bayésienne. En revance, Z n,θ est défini comme le rapport de deux mesures de probabilités, il est donc nécessaire que P fθ+un 1 absolument continue par rapport à P fθ. Le procain téorème montre qu avec un coix judicieux de la fenêtre, l estimateur bayésien local est optimal d un point de vue minimax sur les espaces de Hölder. Posons = L γ n et avec =. soit γβ+d et soit f y = ˆθ 0,...,0 donné par 1.3.4, Téorème 1. Soient β > 0, L > 0 et M > 0 fixées. Supposons que les ypotèses 3 sont vérifiées. Alors, il existe une constante C telle que pour tout n N satisfaisant N 1, [ ] ϕ q n,γβr n,q f y, H d β, L, M C, q 1. Remarque 4. Sous les ypotèses 3, nous savons construire un estimateur minimax. Nous verrons dans les sections et 3.4 dans quels modèles ces ypotèses sont vérifiées. Les estimateurs de type bayésien ou de Pitman ont été introduits dans le livre de Has minskii et Ibragimov [1981] pour l estimation paramétrique, dans le but d atteindre la vitesse optimale pour différents modèles où la vitesse varie. Dans la preuve section 3.5, la constante C est exprimée de façon explicite. Notons que la borne inférieure n est pas calculée car nous avons supposé la vitesse minimax connue. Dans les exemples section 2.1.4, les bornes inférieures du risque minimax sont calculées. 55

57 2.1. APPROCHE BAYÉSIENNE M. CHICHIGNOUD Procédure Adaptative { Cette section } est vouée à l estimation adaptative sur la collection de classes H d β, L, M. Nous n allons pas imposer de restriction sur les valeurs possibles de β,l,m L, M. En effet, L, M joue un rôle secondaire en intervenant dans les constantes, à l inverse de β qui a une influence sur la vitesse. Nous supposerons que β 0, b], où b, est un entier coisi arbitrairement a priori. Notons aussi que la constante M peut être estimée par un estimateur non nécessairement optimal voir Cicignoud [2010a] ou Capitre 4, Section 4.3. En revance, il n existe aucune métode capable d estimer β et L. Soit Φ la famille de normalisations suivante : ρn,γ β φ n,γ β = n β γβ+d, ρn,γ β = [ 1 + ] 1 γb β γb + dγβ + d ln n γ, β 0, b]. On remarque que φ n,γ b = ϕ n,γ b et ρ n,γ β ln n 1 γ pour tout β b. On constate une perte dans la vitesse adaptative. Ceci est en général toujours vrai pour l estimation ponctuelle voir notamment Lepski [1990], Tsybakov [1998], Klutcnikoff [2005] et Cicignoud [2010a]. Nous verrons que cette perte est nécessaire pour contrôler les grandes déviations pour l estimateur bayésien local. Construction de l estimateur Φ-adaptatif. Comme mentionné dans la section 1.5.2, la construction de notre procédure d estimation comprend deux étapes. Premièrement, nous définissons la famille des estimateurs bayésiens locaux. Ensuite, s appuyant sur la métode de Lepski, nous proposons une sélection adaptative pour cette famille. 1ère étape : Collection d estimateurs bayésiens locaux. k = 2 k max, k = 0,..., k n, Posons où k n est le plus grand entier tel que kn H n défini dans Soit { ˆF = ˆf k y = ˆθ } 0,...,0 k, k = 0,..., k n, où ˆθ 0,...,0 k est donné par 1.3.4, et avec = k. 2ème étape : Sélection parmi la collection ˆF. On pose ˆf y = ˆf ˆk y, où ˆf ˆk y est sélectionné dans ˆF avec la règle de décision suivante : { ˆk = inf k = 0, k n : ˆf k y ˆf l y } CSn l, l = k + 1, kn. Ici, on a utilisé les notations suivantes, pour q 1 : 1 [ ] C = s γ 2 22γ+2 γ γ γ + dq c 3 γ 1 + l ln 2 1 τ D 1, S n l = b n d, l = 0, 1,..., k n. l 56

58 M. CHICHIGNOUD 2.1. APPROCHE BAYÉSIENNE Téorème 2. Soit b > 0 fixé. Supposons que les ypotèses 3 soient vérifiées, alors pour tout β 0, b], L > 0, M > 0 et q 1 [ ] lim sup φ q n,γβr n,q ˆf y, H d β, L, M <. n Remarque 5. Ce téorème correspond au téorème 5 dans le capitre 3. L assertion de ce téorème montre que l estimateur proposé ˆf y est Φ-adaptatif. Cela implique que la famille de normalisations Φ est admissible. Par exemple, nous pouvons démontrer l optimalité de Φ dans la régression multiplicative uniforme avec le critère de Klutcnikoff [2005] voir Section 4.6. Nous avons coisi d écrire le téorème de façon asymptotique pour simplifier la présentation, au vue de la preuve section 3.5 nous pourrions écrire la borne supérieure sous la forme φ n,γ + R n comme présentée dans la section La connaissance des constantes s 2, γ, c 3 est nécessaire pour construire la constante C intervenant dans la procédure. En pratique, on peut calibrer la constante C sur des jeux de données et ainsi éviter ce problème Grandes Déviations Nous avions précisé dans la section que le contrôle des grandes déviations est indispensable pour obtenir l adaptation. Ainsi, nous avons pu établir un nouveau type d inégalités exponentielles. Il existe ε 0, ω 1, ω 2 et ω 3 des constantes positives. Pour tout n > 1, H n et f H d β, L, M, alors ε ε 0 N P f N ˆf y fy ε ω 1 E ω 2 exp { ω 3ε γ }, où l estimateur bayésien ˆf y est donné par 1.3.4, et Ce résultat est énoncé dans la proposition 3, la preuve est disponible dans la section La nouveauté ici est la puissance γ dans l exponentielle. En effet la puissance conditionne la vitesse φ n,γ β voir aussi Has minskii et Ibragimov [1981]. A noter aussi l apparition du terme E = exp{b N }. Ce terme peut éventuellement tendre vers l infini si le nombre d observations augmente. Pour le contrôler, nous utiliserons le compromis biais-variance, i.e. N = b N Ld β n d 1/γ, nous pouvons voir ce terme comme le rapport biais/variance. Pour l estimateur minimax, la borne supérieure du risque s obtient par intégration de cette probabilité. Dans la suite, nous donnons quelques idées essentielles de la preuve. Notamment comment utiliser les ypotèses 3 et le critère bayésien. Idée de la preuve. La définition de ˆθ et θ = θf, y, les coefficients du polynôme de Taylor associé à f, impliquent que ε > 0 P f N ˆf y fy ε P f N ˆθ0 θ 0 ε P f N ˆθ θ 1 ε. 57

59 2.1. APPROCHE BAYÉSIENNE M. CHICHIGNOUD Quelques remarques sont à faire. Premièrement, par définition on a θ ΘM. Rappelons que ˆθ minimise π défini par et donc, l inclusion suivante est vraie si ˆθ ΘM. { } { } N ˆθ θ 1 ε inf π t π θ. N t θ 1 ε En outre, π t = N 1 Θ = N D b 1 = N D b 1 [ ] 1/m N t u 1 L u, Zn du U n N t θ u 1 [ L θ + un 1, Z n] 1/m du [ L θ, Zn ] 1/m Un N t θ u 1 Z 1/m n,θ udu. D où, τ n = N ˆθ θ est le minimiseur de χ n s = s u 1 U n 1/m Zn,θ u du, U n Z 1/m n,θ vdv et on obtient avec et pour tout ε > 0 { } { } N P f ˆθ θ > ε P f inf χ ns χ n 0. 1 s 1 >ε Soient ν > 0 et 0 < r < ε/3 deux paramètres à coisir, après quelques minorations et majorations de χ n., on obtient } { } P f {χ n 0 inf χ ns > 0 2P f u 1 Z 1/m n,θ udu > r ν/4 s 1 >ε U n u 1 >r { } +2P f Z 1/m n,θ vdv < ν/2. U n En utilisant l inégalité de Markov, le premier terme peut être contrôlé par une inégalité exponentielle avec l ypotèse 3.2. L ypotèse 3.1 est utilisée pour contrôler le deuxième terme en retrancant vz 1/m n,θ 0 dans l inégalité. Ainsi, le contrôle des grandes déviations avec la puissance γ est obtenu pour l estimateur bayésien dans le modèle de régression générale. Plus de détails sont donnés dans la preuve de la proposition Exemples de Modèles avec des Vitesses Différentes Dans cette partie, nous précisons les modèles de régression gaussienne, inomogène de Poisson, α et multiplicative uniforme où les ypotèses 3 sont vérifiées. Pour caque modèle, 58

60 M. CHICHIGNOUD 2.1. APPROCHE BAYÉSIENNE on construit un estimateur bayésien local minimax. A l aide de la procédure adaptative, nous donnons un estimateur bayésien adaptatif optimal pour caque modèle. Nous nous intéressons à trouver des modèles dans lequels les estimateurs linéaires ne sont pas optimaux au sens minimax et adaptation minimax. Par exemple, dans les régressions α et multiplicative uniforme, les vitesses minimax sont respectivement ϕ n,1+2α β et ϕ n,1 β et donc bien meilleures que ϕ n,2 β la vitesse des estimateurs linéaires. Nous pouvons dire que la famille des estimateurs bayésiens indexés par la fenêtre est plus rice que celle des estimateurs linéaires. Nous ne précisons pas encore, à ce stade, comment vérifier les ypotèses 3. Ce travail est présenté dans la section 3.4. Les démonstrations doivent être faites à la main, i.e. pour une densité g.,. donnée, on doit recercer les constantes qui vérifient les ypotèses 3. Régression Gaussienne. La régression gaussienne est très connue en statistiques nonparamétriques. Beaucoup d estimateurs linéaires ont déjà été développés et sont optimaux. On veut vérifier que notre estimateur bayésien fait aussi bien que les estimateurs linéaires dans ce cadre très classique. Rappelons le modèle additif gaussien Y i = fx i + ξ i, ξ i N 0, σ 2, i = 1,..., n, où f Hβ, L, M et σ > 0. Ici la densité des observations s écrit g., fx i = g ξ. fx i = 2πσ 2 1/2. fxi exp { } 2. 2σ 2 On peut vérifier les ypotèses 3 avec γ = 2. Ainsi, l estimateur bayésien local atteint les vitesses minimax ϕ n,2 β = n β 2β+d et adaptative φn,2 β pénalisée voir Térorème 6 avec un ln n qui est optimale pour la régression gaussienne. Le coix des fenêtres minimax et adaptatives est donné respectivement dans les sections et Régression Inomogène de Poisson. densité Nous sommes ici dans le cas discret, avec une gk, fx i = P f Y i = k = [fx i] k exp { fx i }, k N, f H d β, L, M, A. k! Dans ce cadre, on peut dire que Y i P fx i. Les ypotèses 3 sont vérifiés avec γ = 2 Lemma 2. Ainsi, l estimateur bayésien local atteint les vitesses minimax ϕ n,2 β = n 2β+d et adaptative φ n,2 β pénalisée avec un ln n Térorème 7. Les coix des fenêtres minimax et adaptatives sont données respectivement dans les sections et Les vitesses de convergence sont les mêmes que celles de la régression gaussienne. Ce qui est naturel par équivalence asymptotique entre ces deux modèles voir Anscombe [1948]. 59 β

61 2.1. APPROCHE BAYÉSIENNE M. CHICHIGNOUD Régression α. La régression α justifie la construction de l estimateur bayésien. En effet, la vitesse de convergence dépend de α et s améliore dès que α < 1/2. Rappelons le modèle Y i = fx i + ɛ i, i = 1,..., n, où ɛ i a pour densité g α x = Cα exp { x α } avec 0 < α < 1/2. Cα est une constante coisie pour que g α soit bien une densité. Ici le design X i est déterministe uniformément réparti sur [0, 1] d et f H d β, L, M. Nous démontrons que l estimateur bayésien atteint la vitesse ϕ n,1+2α β = n 1+2αβ+d si l on connaît β. La procédure adaptative, donnée dans la section 2.1.2, permet de construire un estimateur bayésien adaptatif qui atteint la vitesse φ n,1+2α β pénalisée avec un 1 ln n 1+2α. On remarque que pour α < 1/2, on a la vitesse de convergence ϕ n,1+2α β < ϕ n,2 β. Ainsi, dans ce modèle, l estimateur bayésien est meilleur converge plus vite que les estimateurs linéaires. Has minskii et Ibragimov [1981] démontrent, dans le cas paramétrique, que pour α > 1/2 la vitesse est n 1/2 et pour α = 1/2 on a la vitesse n ln n 1/2. Donc 1/2 est la frontière avec la pire vitesse ϕ n,2 β. On remarque que si α 0 alors ϕ n,1+2α β ϕ n,1 β où ϕ n,1 β est apparemment la meilleure vitesse que l on peut atteindre en estimation. β Régression Multiplicative Uniforme. Le modèle est Y i = fx i U i, i = 1,..., n, où f H d β, L, M, A. Les variables aléatoires U i i 1,...,n sont supposées indépendantes et uniformément distribuées sur [0, 1] et les points du design X i i 1,...,n sont déterministes. L étude de ce modèle est l objet du capitre 4. L approce bayésienne développée ne peut pas s appliquer directement. Premièrement, nous avons construit deux estimateurs Â et ˆM de A et de M, et introduit l estimateur bayésien construit sur l ensemble des coefficients aléatoires. Deuxièmement, le processus Z n,θ n est pas toujours défini les mesures de probabilité ne sont pas absolument continues. Il nous a fallu coisir de façon judicieuse le polynôme d approximation f θ avec la condition f θ f. Ainsi nous prouvons que la vitesse minimax est ϕ n,1 β = n β β+d Téorème 10 et que notre estimateur bayésien est minimax voir Téorème 11, Section 4.2. Dans le cadre adaptatif, nous donnons une procédure plus spécifique que celle présentée ci-dessus, qui nous permet de trouver un estimateur φ n,1 β-adaptatif Téorème 14 où la pénalité est en ln n. Nous démontrons à l aide du critère de Klutcnikoff [2005] que cette famille de normalisations est adaptative optimale voir Téorème 13. On rappelle qu il y a toujours un prix à payer pour l adaptation en estimation ponctuelle. On rappelle que pour utiliser l estimateur bayésien, les ypotèses 3 doivent être vérifiées, en particulier pour les exemples ci-dessus. On peut trouver plus de détails dans la section 3.4 Capitre 3. 60

62 M. CHICHIGNOUD 2.2. CRITÈRE DE HUBER 2.2 Critère de Huber Cette partie présente un estimateur robuste peu sensibles aux valeurs extrêmes, en anglais outliers de type M-estimateur que nous appelons estimateur de Huber. Comme nous l avons vu dans la section précédente, l estimateur bayésien recerce la vitesse optimale pour un modèle donné. L inconvénient de l approce bayésienne est qu il faut supposer connue la densité des observations g.,. pour vérifier les ypotèses 3. Nous proposons un estimateur qui ne dépend pas de la densité g ξ des observations avec g ξ vérifiant les ypotèses 1. En revance, l estimateur de Huber n est pas toujours optimal par exemple régression α ou régression additive uniforme. Rappelons dans quel cadre on travaille. 1. Le modèle est celui de la régression additive avec design aléatoire indépendant du bruit défini dans la section avec une densité g ξ. vérifiant les ypotèses 1, 2. f H d β, L, M Définition 1, Y i = fx i + ξ i, i = 1,..., n, 3. on utilise l estimateur de Huber f défini dans , 4. on ne regarde pas le point de vue minimax dans ce paragrape, mais plutôt la vitesse du risque maximal Définition 6 de notre estimateur de Huber. L adaptation dans la régression additive a déjà fait l objet d un travail. En effet, Brown, Cai, et Zou [2008] utilisent la normalité asymptotique de la médiane pour approximer ce modèle par le modèle gaussien avec une métode de médiane par blocs. Une étape intermédiaire est de projeter les nouvelles observations dans une base d ondelettes. Ensuite, la métode de Stein par blocs voir Stein [1981] et Cai [1999] est utilisée pour l adaptation. En revance, cette approce nécessite des ypotèses plus fortes que les ypotèses 1 qui sont suffisantes pour l utilisation de l estimateur de Huber. Tsybakov [1982a, 1982b, 1983, 1986] fût le premier à introduire l idée de Huber [1981] pour l estimation non-paramétrique locale et plus généralement pour l estimation robuste Adaptation Grâce au critère de Huber, on démontre que { notre estimateur } f est φ n,2 β-adaptatif sur la collection des espaces de Hölder isotropes H d β, L, M pour l estimation ponctuelle. Pour l estimateur de Huber, citons les papiers de Hall et Jones [1990] et Härdle et Tsybakov [1992], avec les métodes adaptatives de validation croisée et de Plug-in. Reiss, Rozenolc, et Cuenod [2009] développe un estimateur adaptatif pour les fonction localement constantes. Dans la suite, nous proposons une généralisation de cette approce à toutes fonctions qui peuvent être, localement, approcées par un objet paramétrique. 61 β,l

63 2.2. CRITÈRE DE HUBER M. CHICHIGNOUD Nous supposons que β ]0, b] b est la borne supérieure de la régularité et aucune restriction sur les constantes L et M. Soit Φ la famille de normalisations suivantes : ρn β φ n β = n β 2β+d, ρn β = 1 + 1/2 2b β 2β + d2b + d ln n, β 0, b]. On remarque que φ n b = ϕ n b et ρ n β b βln n 1/2 pour tout β b. Il est facile de démontrer que cette famille de normalisations est adaptative optimale sous le critère de Klutcnikoff [2005] pour la régression gaussienne. Construction de l estimateur Φ-adaptatif. Premièrement, nous déterminons la famille des estimateurs de Huber locaux. Ensuite, basée sur la métode de Lepski, nous proposons une règle de sélection dans cette famille à partir des données. On prend f l estimateur défini par 1.3.4, et Ainsi, on définit la famille des estimateurs de Huber locaux F. Posons max = n 1 2b+d et k = 2 k max, k = 0,..., k n, où k n est le plus grand entier tel que kn min = n 1/d ln d2b+d n. Soit F = { f k y = θ 0,...,0 k, k = 0,..., k n }. b On pose f y = f ˆk y, où f ˆk y est sélectionné à partir de F avec la règle de sélection suivante : { ˆk = inf k = 0, k n : f k y f l y } CSn l, l = k + 1, kn. Avec les notations suivantes : C = 2 D b 48λrd, Sn l = [ ] 1/2 1 + l ln 2 n d, l = 0, 1,..., k n, l où λ > 0 est la plus petite des valeurs propres de la matrice du design définie dans le lemme 13 et D b est le nombre de dérivées partielles d ordre plus petit ou égal à b Téorème 3. Soit b > 0. Alors, pour toute densité g ξ. vérifiant les ypotèses 1, pour tout β 0, b], L > 0, M > 0 et r 1 [ ] lim sup φ r n,2βr n,r f y, H d β, L, M <. n 62

64 M. CHICHIGNOUD 2.2. CRITÈRE DE HUBER Remarque 6. Ce téorème correspond au téorème 5 dans le capitre 3. La constante M sert à la construction de l ensemble des coefficients ΘM , on peut remplacer M par ln n ou l estimer avec une métode de médiane locale. La constante λ dépend de 1 1 g ξzdz voir Preuve du lemme 13, inconnue en pratique, mais on peut l estimer à l aide de l estimateur Ĝ = 1 n n I [ 1,1] Y i fx i, i=1 où f est un estimateur de f par exemple l estimateur de la médiane locale. Il est facile de voir par construction que Ĝ estime la quantité P f 1 ξ 1 = 1 g 1 ξzdz. Une solution, très utilisée en pratique, est de calibrer la constante C avec un jeu de données. Ce résultat est valable dans le modèle de régression additive sous les ypotèses 1, en particulier l estimateur de Huber adaptatif f y atteint la vitesse φ n,2 β pour les régressions gaussienne, de Caucy, régression α et additive uniforme. Comme pour l approce bayésienne, nous donnons le résultat sous forme asymptotique. Nous pouvons une nouvelle fois préciser que la borne supérieure peut s écrire comme la vitesse plus un reste voir Section 5.4. Maintenant, nous allons nous intéresser à contrôler les grandes déviations de l estimateur de Huber Grandes Déviations Nous expliquons ici comment obtenir le contrôle des grandes déviations avec l estimateur de Huber. Les idées de la preuve reposent sur la différentielle du critère de Huber en t, du processus limite de celle-ci M-estimation et d un argument de caînage combiné avec l inégalité de Bernstein Bouceron, Bousquet, et Lugosi [2004]. Tout d abord, énonçons le résultat. Pour tout n N, H n, f H d β, L, M, alors ε D b ε 0 / λ on a P f N f y fy ε Σ exp ε λd 1 b ε ε λd 1 n d b, où ε 0 = 1 b N. Notons que ce résultat est conditionné par un événement dont son complémentaire a une probabilité exponentiellement petite de se réaliser pour plus de précisions, voir Section 5.4. Idée de la preuve. Posons la dérivée de la fonction de Huber qz := Q z = I ]1,+ [ z I ], 1[ z + z I [ 1,1] z, z R. 63

65 2.2. CRITÈRE DE HUBER M. CHICHIGNOUD Il est facile de voir que cette fonction est continue et bornée par 1. Notons D. la différentielle du critère de Huber m. défini par Remarquons que caque coordonnée de D. est une somme de variables aléatoires bornées et D θ = 0,..., 0 q est continue. Soit D. = E f D., l idée principale de cette preuve repose sur le fait que D t +N 1 D t n en probabilité uniformément en t, alors on a θ +N 1 θ où θ ΘM est l unique solution de D θ = 0 et est le terme de biais est vaut environ Lβ. C est l idée générale de n la m-estimation : regarder si le processus limite admet comme solution le paramètre que l on cerce à estimer voir par exemple le livre de Van de Geer [2000]. Pour obtenir la bonne vitesse de convergence, il suffit d utiliser les sémas classiques du compromis du biais Lβ et de la variance 1/sqrtn d. On donne le diagramme suivant qui résume ces explications Figure 2.1. Figure 2.1 Illustration des principe des M-estimateurs La définition de θ et θ = θf, y, les coefficients du développement de Taylor impliquent que ε D b ε 0 / λ P f N f y fy ε P f N θ0 θ 0 ε P f N Db θ θ 2 ε. 64

66 M. CHICHIGNOUD 2.2. CRITÈRE DE HUBER En démontrant que la jacobienne de D. est inversible, on peut écrire Lemme 13 que P f N f y fy Db D ε P f N θ D θ ε. λ 2 Maintenant, rappelons que D θ = 0,..., 0 et D θ = 0,..., 0 et D θ D θ 2 = D θ 2 = D θ D θ 2 sup t ΘM D t D t 2. Ainsi P f N f y fy ε P f N Db λ sup t ΘM D t D t 2 ε En utilisant un argument de caînage et l inégalité de Bernstein voir Lemme 15, on obtient le résultat P f N f y fy ε 2 λd 1 ε Σ exp b ε λd 1 n d b. Pour plus de détails, regarder la proposition 7 dans la section 5.4. On peut voir D t D t comme une somme de variable aléatoires indépendantes et bornées n i=1 W tx i, ξ i processus empirique. Deux nombreux outils ont été développés ces quinze dernières années et peuvent remplacer l utilisation d un argument de caînage et d une inégalité de concentration classique Inégalités Maximales pour les processus empiriques Cette sous-section a pour but de présenter la notion de processus empirique et les inégalités de concentration du maxima de ces processus que l on peut trouver dans la littérature. Ces inégalités sont très utilisées en statistique matématique notamment pour l adaptation Voir l exemple ci-dessus. Elles sont couramment appelées inégalités maximales en anglais : maximal inequalities. Posons les notations pour définir un processus empirique. Soit G une classe de fonctions bornées de Ω R où Ω, A, P est un espace de probabilité et E désigne l espérance matématique par rapport à P. Notons Z 1,..., Z n une suite de variables aléatoires indépendantes à valeurs dans Ω. On appelle processus empirique n i=1 gz i et maxima d un processus empirique Z = sup n g G i=1 gzi EgZ i. Inégalité de Talagrand : 65

67 2.2. CRITÈRE DE HUBER M. CHICHIGNOUD Pour la première fois, Talagrand [1994, 1995, 1996a, 1996b] donne des inégalités de concentration pour le maxima d un processus empirique. Soient b > 0 tel que g b pour tout g G et v = E sup n g G i=1 g2 Z i, alors pour tout réel positif { } x 2 P Z E[Z] + x K exp, 2c 1 v + c 2 bx où c 1, c 2 et K sont des constantes universelles. On peut remarquer que si G est restreint à une seule fonction, alors on obtient l inégalité de Bernstein P n i=1 gzi EgZ i x 2 exp { x 2 2v + bx/3 Dans ce cas, les constantes correspondantes c 1 et c 2 sont connues explicitement. L inégalité de Talagrand permet de prouver l existence d inégalités exponentielles, mais pose le problème de la connaissance des constantes. En effet, les procédures adaptatives contiennent des paramètres qui, une fois optimisés, dépendent des constantes c 1 et c 2 Voir le paramètre C dans la procédure de Lepski. De plus, il n est pas toujours évident de calculer l espérance de E[Z] pour plus de détails, voir Massart [2007], Capitre 6. En fait, cela demande l utilisation d un argument de caînage et donc du calcul de l entropie de l espace G considéré. Inégalité de Massart 1 : Pour résoudre les problèmes que pose l inégalité de Talagrand, Ledoux [1997] propose une démonstration de cette inégalité, en utilisant des inégalités d entropie sur des mesures produit. Puis Massart [2000] donne une inégalité de type Bennett avec des constantes connues. On peut toujours écrire une inégalité de type Bennett comme une inégalité de type Bernstein qui est souvent priviliègée pour l adaptation. Soit σ 2 = sup n g G i=1 V ar gz i, alors pour tous réels strictement positifs z et ε { } x 2 P Z 1 + εe[z] + x exp, 2κσ 2 + κεbx où κ = 4 et κε = ε 1. La connaissance des constantes est très importante pour l adaptation. Le problème, qui vient ensuite, est l optimisation de ces constantes les plus petites possibles. Inégalité de Bousquet : Contrairement à l inégalité de Massart 1, Bousquet [2002] montre que l on peut obtenir les constantes optimales comme dans l inégalité de Bernstein avec des variables aléatoires Z 1,..., Z n indépendantes et identiquement distribuées. Supposons que sup g G g 1, alors pour tout x 0 { P Z E[Z] + x exp 66 x 2 2σ 2 + x/3 }. }.

68 M. CHICHIGNOUD 2.2. CRITÈRE DE HUBER Même avec les constantes optimales, il reste un problème de taille à résoudre : le calcul ou la majoration de E[Z] l espérance du maxima de la somme de variables aléatoires indépendantes et bornées. On peut utiliser un résultat disponible dans le livre de Van der Vaart et Wellner [1996] pour les processus X t t T dit sub-gaussiens quand ils vérifient P X s X t > x 2 exp { x 2 /2d 2 s, t }, s, t T, x > 0, où d, est une semi-métrique sur T. Dans le capitre 2 Empirical processes, Section 2 Maximal inequalies, corollaire 2.2.8, on y trouve une majoration de l espérance du maxima du processus X t : pour t 0 T fixé arbitrairement, on a E sup X t E X t0 + K t T 0 ln Nr/2, ddr, pour K une constante universelle et Nr, d est le nombre minimal de boules de rayon r avec la semi-métrique d nécessaire pour recouvrir l espace T. ln Nr/2, d est appelée entropie de l espace T. La démonstration de ce corollaire nécessite l utilisation d un argument de caînage et donc le calcul de l entropie de l espace considéré. Mais ici, la constante K est inconnue. Ceci pose encore le problème de l adaptation dans lequel les paramètres des procédures adaptatives doivent être connues. Dans ce sens, Massart [2007] développa des inégalités maximales qui nécessitent seulement le calcul de l entropie. Inégalité de Massart 2 : On peut trouver dans le livre de Massart [2007] au Capitre 6 Maximal Inequalities, Section 6.2 Function-indexed empirical processes, des inégalités exponentielles pour le maxima de processus empiriques somme de variables aléatoires indépendantes et bornées. Nous expliquerons dans la suite que si le supremum du processus empirique i W tx i, ξ i est indéxé en t alors il est nécessaire que W t, soit continue en t. Ainsi, le résultat énoncé par Massart [2007] dans le corollaire 6.9 se présente comme suit. L auteur introduit la fonction Hδ comme l entropie de G avec une notion de Bracketing un peu plus rafinée que l entropie abituelle. Soit σ 2 = sup n g G i=1 Eg2 Z i et b = sup g G g, alors, pour tout ε ]0, 1] et x 0 { P Z E + x exp où pour une constante absolue κ = 27 x ε 2 nσ 2 + 4bx/3 E = κ εσ n Hu ndu + 2b/3 + σhσ ε 0 Ici tout le travail a été fait, en particulier la majoration de EZ par E qui contient l intégrale de l entropie avec les contantes connues. 67 },

69 2.2. CRITÈRE DE HUBER M. CHICHIGNOUD Revenons au cas de l estimateur de Huber, avec le maxima du processus empirique sup t Θ i W tx i, ξ i Θ = ΘM est un compact de R D b où Wt x, z = q z + fx f t x x y Ix V y, et q est la dérivée de la fonction de Huber definie dans Comme nous l avons précisé ci-dessus, le calcul de l entropie sur l espace G = W Θ = { W = W t : t Θ } est assez difficile voir impossible. Ainsi, il est souvent coisi de se ramener à l entropie de l espace Θ qui est plus facile à calculer. Ceci nécessite la continuité de W t en t et donc de la continuité de la fonction q dérivée de Huber dans notre exemple à nous. L inégalité de Massart 2 convient parfaitement pour le contrôle des grandes déviations de l estimateur de Huber. Mais dans notre démonstration Capitre 5, Preuve de la proposition 7, nous avons coisi de faire les calculs à la main avec l utilisation d un argument de caînage et l inégalité de Bernstein l inégalité de Hoeffding est suffisante si le design est déterministe. 68

70 M. CHICHIGNOUD 2.3. EXPÉRIENCES NUMÉRIQUES 2.3 Expériences numériques Dans cette section, nous donnons quelques résultats pratiques avec le logiciel Matlab pour toutes les métodes développées. Nos simulations sont effectuées sur 3 fonctions f 1, f 2 et f 3. Figure 2.2 Fonctions utilisées pour nos simulations. Notre étude se limite aux fonctions unidimensionnelles. En fait, les comportements, que l on peut observer sur les fonctions isotropes à plusieurs variables, sont semblables à ceux observés sur les trois fonctions ci-dessus. Rappelons que notre estimateur est un polynôme dont on estime les coefficients. Pour des raisons de complexité, nous nous limiterons aux polynômes de degré 1, i.e. que nous n étudierons que les fonctions f H d β, L, M avec β 2. Nous testons nos estimateurs dans les différents modèles étudiés dans cette tèse. Pour cacun d entre eux, nous allons comparer les estimateurs bayésiens et de Huber avec leurs oracles. Définition 10. L estimateur f y = f y est appelé oracle de la famille { f y} si est appelée fenêtre oracle. = arg min >0 E f f y fy. Notons que pour caque point y, on y associe un oracle. L oracle peut être interprété comme le meilleur estimateur dans la famille connaissant la fonction f. Nous présentons les résultats de la façon suivante : nous calculons les rapports rby = E f ˆf B y fy E f ˆf + B B y fy, r Hy = E f f H y fy E f f + H H y fy, où ˆf B y et f { } H y sont respectivement les oracles des familles d estimateurs bayésiens ˆf y { } et de Huber f y. + B et + H sont respectivement les fenêtres adaptatives des estimateurs bayésien et de Huber, données par les procédures et L espérance de >0 la 69 >0 >0

71 2.3. EXPÉRIENCES NUMÉRIQUES M. CHICHIGNOUD fonction de perte est approcée par une métode de Monte-Carlo avec T = itérations. On construit la suite finie d éléments y 1, y 2,..., y v uniformément répartis sur l intervalle [0, 1]. On appelle oracle bayésien / estimateur bayésien et oracle de Huber / estimateur de Huber les rapports suivants : r B = 1 v v rby j, j=1 r H = 1 v v rhy j. j=1 Nous coisirons v = 200 pour l implémentation. Ces rapports permettent d évaluer la qualité des procédures adaptatives que nous avons introduit dans cette tèse voir Sections 2.1 et 2.2. Rappelons que ces procédures contiennent un paramètre de seuillage, noté C voir et Nous proposons un coix téorique connu de ce paramètre, mais en pratique, on peut le coisir de façon optimale. La figure 2.3 illustre le coix optimal de ce paramètre. En effet, il suffit de le calibrer par rapport à un jeu de données ou de fonctions fantômes pour calculer l oracle et regarder la distance qui sépare notre estimateur à cet oracle. Figure 2.3 Illustration de la calibration de la constante C à travers un jeu de données connu. Ici, le modèle est celui de la régression gaussienne avec la fonction f 1, avec n = 1000 observations. Nous itérons T = séries d observations pour approximer l espérance du risque. La fenêtre de l estimateur bayésien adaptatif est coisie avec la procédure donnée dans la section 2.1. Nous avons remarquer que le C t est cinq à dix fois plus grand que le C opt. 70

72 M. CHICHIGNOUD 2.3. EXPÉRIENCES NUMÉRIQUES Nous constatons ici une nette différence entre le risque de notre estimateur et celui de l oracle avec un rapport légérement supérieur à 1/2. Ceci met en évidence les points faibles de l approce adaptative au sens minimax et de l estimation ponctuelle prix à payer. En effet, Nous aimerions que notre rapport r soit le plus proce possible de 1, au minimum en C opt. Une perspective serait d utiliser une métode adaptative pour obtenir des inégalités oracle Voir Section 2.4. Nous donnons aussi, quand cela est possible, les rapports oracle linéaire / estimateur bayésien et oracle linéaire / estimateur de Huber, notés rlb et r LH, où l oracle Linéaire est celui d une famille d estimateurs à noyau classique noyau d Epanecnikov. Cela nous permet de comparer la qualité des nouveaux estimateurs, développés dans cette tèse, avec les plus classiques comme les estimateurs linéaires. Rappelons que la complexité des estimateurs bayésien et de Huber est plus grande que celle des estimateurs linéaires. Pour le critère de Huber qui est convexe, cela peut se faire avec une métode de descendte du gradient. En revence, le critère bayésien n est pas du tout évident à minimiser surtout si la densité des observations est discontinue. Ceci est le point faible de ces nouveux estimateurs non explicites. En revance, avec le même d observations, l estimateur bayésien est plus rapide dans certains cas, ce qui entraîne un besoin moins important en observations. En pratique, la construction d observations peut coûter cer en temps et en argent. Un autre aspect est de considérer les modèles où les estimateurs linéaires ne sont pas consistants par exemple, modèle de Caucy. Ainsi, nous pouvons utiliser l estimateur de Huber pour construire un estimateur au moins consistant. Légende. Pour caque modèle, nous illustrons nos simulations en traçant les courbes rb, rh, r LB et r LH en fonction de n jusqu à n = Ceci est effectué pour caque fonction de régression f 1, f 2 et f 3. Dans le même temps, nous calculons la probabilité P f < + pour caque estimateur adaptatif. Cette probabilité correspond aux grandes déviations de l estimateur en question. Le coix du paramètre de seuillage C est fait de façon optimale voir Figure 2.3 et est donné pour caque modèle. Régression Gaussienne On peut voir sur la figure 2.4 que l oracle bayésien fait aussi bien que l oracle linéaire. Ce qui confirme les résultats téoriques obtenus pour ce modèle voir Section A une constante près, les deux estimateurs ont la même vitesse φ n,2. La famille d estimateurs bayésiens est donc aussi rice que celle des estimateurs linéaires. On constate sur cette illustration Figure 2.5 que le risque de l estimateur adaptatif est deux fois plus grand que celui de l oracle. Ceci est classique en estimation ponctuelle du fait du prix à payer ln 1/γ n pour l adaptation Voir Téorème 2. Il faudrait prendre un nombre d observations n bien plus grand que pour voir le rapport tendre vers 1. Ce pénomène s explique en particulier par le fait que les grandes déviations sont environ égales à 4%. 71

73 2.3. EXPÉRIENCES NUMÉRIQUES M. CHICHIGNOUD r LB,f 1 r LB,f 2 r LB,f 3 Figure 2.4 Rapport oracle linéaire / oracle bayésien modèle gaussien. r B,f 1 r B,f 2 r B,f 3 Figure 2.5 Rapport oracle bayésien / bayésien adaptatif : C opt = 1.2 and P ĥ < modèle gaussien. r LH,f 1 r LH,f 2 r LH,f 3 Figure 2.6 Rapport oracle Linéaire / oracle Huber modèle gaussien. De même que l oracle bayésien, l oracle de Huber fait aussi bien que l oracle linéaire Figure 2.6. Nous signalons que le rapport est légèrement en-dessous de 1 plutôt 0.9. Ceci est dû aux constants de la borne supérieure pour l estimateur de Huber. Cette constante est en effet plus grande que celle que l on peut obtenir pour un estimateur linéaire. Ce 72

74 M. CHICHIGNOUD 2.3. EXPÉRIENCES NUMÉRIQUES pénomène se retrouve entre la médiane et la moyenne empirique. 73

75 2.3. EXPÉRIENCES NUMÉRIQUES M. CHICHIGNOUD r H,f 1 r H,f 2 r H,f 3 Figure 2.7 Rapport oracle Huber / Huber adaptatif : C opt = 1.2 and P ĥ < modèle gaussien. Nous constatons le même effet que dans le cas précédent. L estimateur adaptatif de Huber est deux fois moins bon que l oracle de Huber Figure 2.7. Comme cette remarque a déjà été faite pour l estimateur bayésien adaptatif, nous pensons que cela est dû au modèle avec des grandes déviations égales à 6.5%. La forme de l estimateur en question ne joue aucun rôle, nous mettrons en avant la sensibilité de la métode de Lepski par rapport au modèle. Nous verrons dans la suite d autres modèles où les valeurs des rapports oracle / estimateur adaptatif cangent. Régression Inomogène de Poisson r LB,f 1 r LB,f 2 r LB,f 3 Figure 2.8 Rapport oracle linéaire / oracle bayésien Modèle de Poisson. Le modèle de Poisson est asymptotiquement équivalent au modèle gaussien voir Anscombe [1948]. De ce fait, on retrouve les mêmes caractéristiques que le modèle gaussien. L oracle bayésien est aussi bon que l oracle linéaire Figure 2.8. Le rapport oracle bayésien / bayésien adaptatif vaut environ 1/2 avec P ĥ < Figure

76 M. CHICHIGNOUD 2.3. EXPÉRIENCES NUMÉRIQUES r B,f 1 r B,f 2 r B,f 3 Figure 2.9 Rapport oracle bayésien / bayésien adaptatif : C opt = 1.2 and P ĥ < Modèle de Poisson. Régression α = 1/4 Nous avons coisi pour nos simulations α = 1/4. r LB,f 1 r LB,f 2 r LB,f 3 Figure 2.10 Rapport oracle linéaire / oracle bayésien modèle α. Comme nous l avons vu dans la section 2.1.4, la vitesse atteinte par l estimateur bayésien est φ n,1.5. Elle est donc meilleure que la vitesse des estimateurs linéaires φ n,2. Nous constatons ce pénomène sur les simulations du rapport oracle linéaire / oracle bayésien Figure Ici, le rapport peut atteindre la valeur de 10 pour n = 10000, i.e que l oracle bayésien est dix fois plus rapide que l oracle linéaire. L étude de la performance de la métode adapatative métode de Lepski pour la régression α, révèle que celle-ci est assez faible. En effet, le rapport oracle bayésien / bayésien adaptatif est quasiment égal à 0.1 Figure Ce qui veut dire que le risque de l estimateur adapatif est 10 fois moins bon que celui de l oracle. On l explique par le fait que les grandes déviations sont relativement élevées par rapport aux modèles précédents, égales à 17%. Ce modèle comporte un certain nombre de valeurs extrêmes qui peut nous laisser penser que celles-ci mettent à mal la métode de Lepski. En effet, nous avons mentionné dans la section que cette métode s arrête trop tôt en précence de valeurs extrêmes. 75

77 2.3. EXPÉRIENCES NUMÉRIQUES M. CHICHIGNOUD r B,f 1 r B,f 2 r B,f 3 Figure 2.11 Rapport oracle bayésien / bayésien adaptatif : C opt = 2 and P ĥ < modèle α. Régression Multiplicative Uniforme r LB,f 1 r LB,f 2 r LB,f 3 Figure 2.12 Rapport oracle linéaire / oracle bayésien modèle multiplicatif uniforme. Dans cette illustration Figure 2.12, on constate un net avantage pour l oracle bayésien. En effet, pour la fonction f 1, le rapport oracle linéaire / oracle bayésien atteint 250. Ensuite, pour les fonctions irrégulières f 2 et f 3, nous avons des valeurs qui sont de l ordre de 10 5 et Remarquons que pour la fonction f 3, nous nous sommes arrêté à n = 3000, à cause des valeurs trop petites du risque de l oracle bayésien que le logiciel Matlab arrondit à 0. Deux remarques permettent d expliquer les bonnes performances de l estimateur bayésien. Premièrement, la vitesse atteinte φ n,1 est meilleure que φ n,2. Deuxièmement, pour les fonctions irrégulières, l estimateur bayésien est plus performant pour l estimation au voisinage des points de discontinuité, tandis que l estimateur linéaire devient très mauvais pour ce genre de fonctions. 76

78 M. CHICHIGNOUD 2.3. EXPÉRIENCES NUMÉRIQUES r B,f 1 r B,f 2 r B,f 3 Figure 2.13 Rapport oracle bayésien / bayésien adaptatif : C opt = 2 and P ĥ < 0 modèle multiplicatif uniforme. En constatant que l estimateur adaptatif fait aussi bien que son oracle Figure 2.13, nous pouvons souligner une nouvelle fois la robustesse de notre estimateur, car les grandes déviations sont nulles. Ce dernier modèle souligne une nouvelle fois, l intérêt de trouver la vitesse optimale et l estimateur qui l atteigne. Dans ce sens, l estimateur bayésien joue pleinement son rôle. Régression de Caucy Pour le modèle de Caucy, il n est pas possible de construire les estimateurs linéaires, du fait qu ils ne sont pas consistants. Nous donnons, pour évaluer la performance de notre estimateur de Huber, le risque de l estimateur adaptatif en moyenne pour les trois fonctions n = : 1 v v j=1 E f f + H H y j fy j r B,f 1 r B,f 2 r B,f 3 Figure 2.14 Rapport oracle de Huber / Huber adaptatif : C opt = 3 and P ĥ < 4.7% modèle de Caucy. 77

79 2.3. EXPÉRIENCES NUMÉRIQUES M. CHICHIGNOUD Ceci est une bonne performance si on prend en compte les constantes de la borne supérieure et la vitesse qui vaut environ 1/ = 10 2 pour les fonctions discontinues. Pour la partie adaptation, nous constatons que le rapport oracle de Huber / Huber adaptatif vaut 0.6 pour les trois fonctions Figure Nous soulignons le caractère robuste de l estimateur de Huber qui, malgré un bruit de Caucy avec un grand nombre de valeurs extrêmes, rend stable la procédure de Lepski avec seulement P ĥ < 0.047%. 78

80 M. CHICHIGNOUD 2.4. PERSPECTIVES 2.4 Perspectives Nous avons présenté dans cette tèse deux nouvelles métodes d estimation : l une qui recerce la vitesse optimale bayésienne et l autre qui est robuste et qui ne dépend pas de la densité du bruit Huber. Nous donnons, dans la suite, une quinzaine de problèmes ouverts relatifs à ces deux approces Approce Bayésienne 1. L approce bayésienne est déduite des travaux de Has minskii et Ibragimov [1981] pour les modèles paramétriques. Nous avons insisté sur le fait que le processus Z n,θ. rapport de vraisemblance doit vérifier les ypotèses 3. Mais en réalité, on peut prendre n importe quel processus qui vérifie ces ypotèses. Par exemple, dans le modèle de la régression additive uniforme définie par Y i = fx i + U i, U i U [ 1,1], i = 1,..., n. Avec ce modèle, nous ne pouvons pas définir le processus Z n,θ. car les mesures de probabilité ne sont absolument pas continues. Problème Ouvert 1. Coisir un processus Z n,θ qui vérifie les ypotèses 3 et qui permet de démontrer que l estimateur bayésien atteint la vitesse minimax n β β+d pour la régression additive uniforme ci-dessus. Ensuite, montrer que l estimateur bayésien adaptatif atteint la vitesse φ n,γ. 2. Pour le modèle multiplicatif uniforme, nous avons émis des ypotèses supplémentaires 0 < A f M. La borne supérieure de la fonction f est une ypotèse classique. En revance, l ypotèse de positivité de celle-ci est absolument nécessaire pour l approce bayésienne mais non justifiée. Problème Ouvert 2. Pour le modèle de régression multiplicatif uniforme, affaiblir l ypotèse de positivité de la fonction f à estimer, i.e. supposer seulement que f <. 3. Nous pensons que l on peut atteindre la vitesse n β β+d pour tout modèle où la densité des observations admet un nombre fini de points de discontinuité. Cela a déjà été démontré dans le cas paramétrique par Has minskii et Ibragimov [1981] Capitre 5, Section 1. Problème Ouvert 3. Soit le modèle de régression générale voir 1.2.2, où la densité g admet un nombre fini de points de discontinuité. Démontrer que 79

81 2.4. PERSPECTIVES M. CHICHIGNOUD la vitesse n β β+d est atteinte par l estimateur bayésien, i.e. que les ypotèses 3 sont vérifiées avec γ = Dans cette tèse, nous avons supposé une ypotèse d indépendance des observations, mais celle-ci n est pas nécessaire. On pourra alors traiter des modèles avec des observations dépendantes. Problème Ouvert 4. Utiliser l approce bayésienne développée dans cette tèse pour des modèles où les observations ne sont pas indépendantes par exemple, faiblement dépendantes. 5. L étude des modèles étéroscedastiques i.e. la variance n est pas constante, Y i = fx i + σx i ξ i est une perspective intéressante. Nous pensons que l estimateur bayésien peut être appliqué à ce genre de modèles. Problème Ouvert 5. Peut-on utiliser l estimateur bayésien dans des modèles étéroscedastiques? 6. Dans notre travail, nous nous sommes restreints aux espaces isotropes. Cela est dû à l adaptation et à la métode de Lepski. Il est possible d atteindre la vitesse n β γ β+1 β est la moyenne armonique sur les espaces de Hölder anisotropes avec l estimateur bayésien dans le modèle de régression générale. En revance, pour l adaptation sur ces espaces, la métode développée par Kerkyacarian, Lepski, et Picard [2001] ne convient pas pour les estimateurs non-linéaires. Problème Ouvert 6. Existe-t-il une métode adaptative capable d estimer de façon optimale atteindre la vitesse φ n,γ β les fonctions anisotropes avec l estimateur bayésien? 7. Le point de vue minimax adaptatif est souvent vu comme pessimiste. La recerce d inégalités de type oracle permet d éliminer ce problème. Problème Ouvert 7. Obtenir des inégalités oracle pour la famille des estimateurs bayésiens indéxés par la fenêtre. Par exemple, l approce de Goldensluger et Lepski [2009a] peut convenir pour l étude des fonctions isotropes. 8. Les ypotèses 3 sont suffisantes pour montrer que l estimateur bayésien est adaptatif et optimal dans certains modèles. La question peut se formuler comme suit. 80

82 M. CHICHIGNOUD 2.4. PERSPECTIVES Problème Ouvert 8. Existe-t-il des ypotèses nécessaires pour montrer que l estimateur bayésien est adaptatif optimal? Plus généralement, peut-on trouver les ypotèses nécessaires pour l existence d un estimateur adaptatif optimal? 9. Nous avons montré que l estimateur bayésien atteignait la vitesse φ n,γ pour la régression générale sous les ypotèses 3. De façon générale, il n est pas prouvé que cette vitesse est optimale. On peut seulement montrer son optimalité modèle par modèle. Une perspective est de le démontrer pour n importe quel modèle. Problème Ouvert 9. Démontrer, avec le critère de Klutcnikoff [2005], que la vitesse φ n,γ est optimale pour tout modèle sous les ypotèses Un autre problème ouvert est celui des ypotèses. Nous constatons que les conditions sur la densité g.,. se font à travers les ypotèses 3 sur le rapport de vraisemblance Z n,θ. Nous aimerions trouver les conditions nécessaires sur la densité à l aide de la distance d Hellinger pour construire un estimateur bayésien adaptatif optimal. Problème Ouvert 10. Peut-on donner des ypotèses sur la densité g qui impliquent les ypotèses 3? 11. L approce bayésienne consiste à mettre une loi a priori sur le paramètre à estimer. Dans ce cas, le critère bayésien devient t u d a udu, où d a u remplace la vraisemblance L u 1/m utilisée dans cette tèse. Il est possible de démontrer nos résultats pour n importe quel a priori d a u sous les ypotèses 3. Problème Ouvert 11. Remplacer Z n,θ par un a priori et donner une métode pour coisir l a priori optimal sous les ypotèses 3 voir par exemple Gosal, Lember, et Van der Vaart [2008] et Van der Vaart et Van Zanten [2009] Critère de Huber L approce de Huber est nouvelle pour l adapatation. Seuls les résultats de Reiss, Rozenolc, et Cuenod [2009] traîtent du sujet pour l estimateur localement constant et non localement polynômial avec un degré quelconque. 1. Pour cette approce, nous nous sommes aussi restreints aux espaces isotropes. En effet, les approces développées par Kerkyacarian, Lepski, et Picard [2001], Goldensluger et Lepski [2008] et Goldensluger et Lepski [2009a] ne conviennent pas pour les estimateurs non-linéaires on ne peut pas comparer les biais avec des estimateurs non-linéaires. Nous avons espoir de trouver de nouvelles métodes qui permettent de traiter les fonctions anisotropes. La recerce d inégalités oracle est aussi une perspective. 81

83 2.4. PERSPECTIVES M. CHICHIGNOUD Problème Ouvert 12. Existe-t-il une métode adaptative pour obtenir des inégalités oracle pour les fonctions anisotropes avec la famille des estimateurs de Huber indéxés par la fenêtre? 2. Comme pour l approce bayésienne, nous pensons pouvoir utiliser l approce de Huber pour les modèles étéroscedastiques. En effet, le contrôle des grandes déviations repose sur l inégalité de Bernstein qui peut être établie dans le cas étéroscedastique. En revance, l indépendance des observations est absolument nécessaire pour utiliser cet estimateur. Problème Ouvert 13. Peut-on utiliser l estimateur de Huber dans des modèles étéroscedastiques? 3. Nous pensons aussi que les ypotèses 1 peuvent être affaiblies. Notamment, il serait intéressant d étudier le problème ouvert suivant. Problème Ouvert 14. Peut-on obtenir les mêmes résultats avec l approce de Huber avec seulement l ypotèse de symétrie du bruit? Dans le cas où le bruit est symétrique et g0 = 0, peut-on trouver une vitesse de convergence meilleure que celle obtenue jusqu ici par l estimateur de Huber? l information de Fiser est égale à l infinie. 4. Il est important de prouver que la vitesse φ n,2 atteinte par l estimateur de Huber, est optimale. Par exemple, pour le bruit gaussien ou de Caucy, il est possible de le démontrer avec les travaux de Klutcnikoff [2005], dans le cas minimax voir Tsybakov [2008], Capitre 2. En revance, dans le modèle du bruit additif uniforme, cette vitesse n est pas optimale, car déjà dans le cas minimax, on a n β β+d. Problème Ouvert 15. A l aide des travaux de Klutcnikoff [2005], donner les conditions nécessaires sur g ξ, pour que la vitesse adaptative φ n,2 soit optimale. 5. Remarquons que la fonction de Huber mélange la norme l 1 et la norme l 2. La norme l 1 est là pour contrôler les valeurs extrêmes cela utilise les avantages de la médiane et la norme l 2 est utilisée autour de 0 pour rendre le critère continu dans son comportement. La taille du voisinage autour de 0 où est utilisée la norme l 2 peut être cangée dans notre cas, la taille est égale à 1. Cela ne cange rien en téorie mais en pratique, ce voisinage est à calibrer. Les estimateurs robustes sont de plus en plus demandés en imagerie pour leur stabilité voir Arias-Castro et Donoo [2009] ou Astola, Egiazarian, Foi, et Katkovnik [2010]. Développer cette approce pour l imagerie ou d autres domaines est une perspective intéressante. 82

84 M. CHICHIGNOUD 2.4. PERSPECTIVES Problème Ouvert 16. En pratique, est-ce que la taille du voisinage, de la norme l 2 dans le critère de Huber, améliore la performance? 6. Au vue des preuves du capitre 5, il est possible d utiliser d autre critère que celui de Huber. Problème Ouvert 17. Trouver les conditions nécessaires sur le critère par exemple, convexité, dérivée bornée, etc. pour construire un estimateur adaptatif qui atteigne la vitesse φ n,2 dans le modèle de régression additive voir Section

85 2.4. PERSPECTIVES M. CHICHIGNOUD 84

86 Capter 3 General Locally Bayesian Approac Ce capitre traite du modèle de régression générale présenté dans la section 1.2. Nous développons un estimateur Bayésien déjà présenté en section Le contenu de ce capitre peut être trouvé dans l article de Cicignoud [2010b], qui généralise le capitre 4 et l article de Cicignoud [2010a]. Sous certaines ypotèses 1 sur la densité du modèle, nous montrerons que notre estimateur Bayésien est optimal au sens minimax et minimax adaptatif voir sections 3.2 et 3.3. Dans la section 3.4 nous présentons des exemples de modèles de régression, nous donnons en particulier les preuves qui permettent de vérifier les ypotèses 1 pour ces exemples et ainsi établir les vitesses de convergences minimax pour caque modèle. Le contenu de ce capitre généralise les résultats du capitre 4. Les résultats de ce capitre permettent de conclure le fait suivant : la famille des estimateurs Bayésiens est plus rice que les estimateurs linéaires. 3.1 Introduction Let statistical experiment { [[0, G n = 1] d R ] } n, B n, P n f, f F, n N, be generated by independent random observations Z n = X i, Y i i=1,...n, were te d-dimensional vector X i [0, 1] d can be viewed as a location in time or space and Y i as te observation at X i.here f : [0, 1] d R is unknown function and we are interested in estimating f at a given point y [0, 1] d from observation Z n. Te design points X i i 1,...,n are deterministic and witout loss of generality, we will assume tat X i { 1/n 1/d, 2/n 1/d,..., 1 } d, i = 1,..., n.

87 3.1. INTRODUCTION M. CHICHIGNOUD Te design can be considered random and te proof is te same. But, we coose te deterministic design to simplify te notation. Our model assumes tat te values X i are given and a distribution g., f i of eac Y i is determined by a parameter f i, wic may depend on te location X i, f i = fx i. Te estimation problem is to reconstruct fy from te data Z n. Let us illustrate tis set-up by few special cases. 1. Gaussian regression. Let Z i = X i, Y i wit X i [0, 1] d and Y i R obeying te regression equation Y i = fx i + ξ i wit a regression function f and i.i.d. Gaussian errors ξ i N 0, Inomogeneous Poisson regression. Here te observation is discrete Y i N and X i [0, 1] d is deterministic. Te law of probability of Y i can be written gk, f i = P f Y i = k = [fx i] k exp { fx i }, k N. k! Tis is te Poisson distribution wit parameter fx i. Te goal is to estimate te function f at a given point y. 3. α Regression Let 0 < α < 1/2 and Z i = X i, Y i satisfied te regression equation Y i = fx i + ɛ i were ɛ i i are i.i.d. random variables of density gx = Cα e x α, x R. 4. Multiplicative uniform regression. Here Z i = X i, Y i satisfied te regression equation Y i = fx i U i were U i U [ 0,1]. Along tis tesis, te unknown function f is supposed to be smoot, in particular, it belongs to te Hölder ball of isotropic functions F = H d β, L, M see Definition 11 below. Here β > 0 is te smootness of f, M is te upper bound of f and its partial derivatives and L > 0 is Lipsitz constant. We assume tat we know te minimax rate of convergence See Definition 12 given by te sequence ϕ n,γ β = n β γβ+d, were te parameter γ is known and depend on te function g.. For example, if Z n satisfied te gaussian regression ten γ = 2 and if Z n satisfied te multiplicative uniform regression ten γ = 1. Minimax estimation. Te first part of tis capter is devoted to te minimax over H d β, L, M estimation. Tis means, in particular, tat te parameters β, L and M are supposed to be known a priori. We propose te estimator being optimal in minimax sense see Definition 12, i.e. te estimator attaining te normalising sequence To construct te minimax estimator we use so-called locally bayesian estimation construction wic consists in te following. Let { d [ V y = i = 1,..., n : X i [0, 1] d yj /2, y j + /2 ]}, 86 j=1

88 M. CHICHIGNOUD 3.1. INTRODUCTION be te neigborood around y, were 0, 1 be a given scalar. Fix b > 0 witout loss of generality we will assume tat b is integer and let D b = b m + d 1. d 1 m=0 Let Kz, z R d be te D b -dimensional vector of polynomials of te following type te sign below means te transposition: d K z = z p j j, p 1,..., p d N d : 0 p p d b. For any t R D b j=1 we define te local polynomial x y f t x = t K I V yx, x [0, 1] d, were I denotes te indicator function. Te local polynomial f t can be viewed as an approximation of te regression function f inside of te neigborood V y. Introduce te following subset of R D b Θ M = { t R D b : t 1 M }, were. 1 is l 1 -norm on R D b. For any i = 1,..., n remark tat g., fxi is te density of te observation Y i. Let E f = E n f be te matematical expectation wit respect to te probability law P f = P n f of te observation Z n. Consider te pseudo likeliood ratio L t, Z n = g Y i, f t X i, t Θ M, Set also π t = ΘM X i V y t u 1 [ L u, Zn ] 1/m du, t Θ M. were m is a positive constant cosen in Assumptions 1. Let ˆθ be te solution of te following minimization problem: ˆθ = arg min t ΘM π t. Te locally bayesian estimator f y of fy is defined now as f y = ˆθ 0,...,0. We note tat similar locally parametric approac based on maximum likeliood estimators was recently proposed in Polzel and Spokoiny [2006] and Katkovnik and Spokoiny [2008] for regular statistical models. 87

89 3.1. INTRODUCTION M. CHICHIGNOUD As we see our construction contains an extra-parameter to be cosen. To make tis coice, we use quite standard arguments. First, we note tat in view of f H d β, L, M θ = θf, y, Θ M : sup fx fθ x Ld β. x V y Tus, if is cosen sufficiently small our original observation is well approximated inside of V y by te parametric observation Y i wit te density g. f θ X i in wic te bayesian estimator ˆθ is rate-optimal See Teorem 4. Finally, n β, L is cosen as te solution of te following minimization problem N 1 + Ld β min and we sow tat corresponding estimator f nβ,l y is minimax for fy on H d β, L, M if β b. Since te parameter b > 0 can be cosen on arbitrary way, te proposed estimator is minimax for any given value of te parameter β > 0. Adaptive estimation. Te second part of tis capter is devoted to te adaptive minimax estimation over collection of isotropic functional classes. To our knowledge, te problem of optimal adaptive estimation in te general regression, wit no-linear estimators, is not studied in te literature. Well-known drawback of minimax approac is te dependence of te minimax estimator on te parameters describing functional class on wic te maximal risk is determined. In particular, te locally bayesian estimator f depends obviously on te parameter M via te solution of te minimization problem Moreover, n β, L optimally cosen in view of depends explicitly on β and L. To overcome tis drawback te minimax adaptive approac was proposed see Lepski [1990], Lepski [1991], Lepski, Mammen, and Spokoiny [1997]. Te first question arising in te adaptation reduced to te problem at and can be formulated as follows. Does tere exist an estimator wic would be minimax on H d β, L, M simultaneously for all values of β, L and M belonging to some given subset of R 3 +? In section 3.3, we determine tat te answer on tis question is negative, tat is typical for te estimation of te function at a given point Lepski and Spokoiny [1997]. Tis answer { can be reformulated } in te following manner: te family of rates of convergence ϕn,γ β, β R + is unattainable for te problem under consideration. Tus, we need to find anoter family of normalizations for maximal risk wic would be attainable and, moreover, optimal in view of some criterion of optimality. Nowadays, te most developed criterion of optimality is due to Klutcnikoff [2005]. We can sow tat te family of normalizations, being optimal in several models gaussian 88

90 M. CHICHIGNOUD 3.2. MINIMAX ESTIMATION γ = 2, uniform γ = 1 or α regression γ = 1 + 2α in view of tis criterion, is ρn,γ β φ n,γ β = n β [ γβ+d, ρn,γ β = 1 + ] 1 γb β γb + dγβ + d ln n γ, wenever β ]0, b]. Te factor ρ n,γ can be considered as price to pay for adaptation Lepski [1990]. Te most important step in proving te optimality of te family is to find an estimator, called adaptive, wic attains te optimal family of normalizations. Obviously, we seek an estimator wose construction is parameter-free, i.e. independent of β and L. In order to explain our estimation procedure, let us make several remarks. First, we note tat te role of te constants β, L in te construction of te minimax estimator is quite different. Indeed, te constant M is used in order to determine te set Θ M needed for te construction of te locally bayesian estimator, see and However, tis set does not dependent on te localisation parameter > 0, in oter words, te quantity M is not involved in te selection of optimal size of te local neigborood given by Contrary to tat, te constants β, L are used for te derivation of te optimal size of te local neigborood 3.1.8, but tey are not involved in te construction of te collection of locally bayesian estimators { ˆf, > 0 }. In order to select an optimal estimator from te family { ˆf, > 0 } we use general adaptation sceme due to Lepski [1990,1992a]. Lepski s procedure is typically applied to te selection from te collection of linear estimator kernel estimators, locally polynomial estimator, etc.. In te present paper, we apply tis metod to a very complicated family of non-linear estimators, obtained by te use of bayesian approac on te random parameter set. It required, in particular, to establis te exponential inequality for te deviation of locally bayesian estimator from te parameter to be estimated Proposition 3. It generalizes te inequality proved for te parametric model Has minskii and Ibragimov [1981]. Tis results seems to be new. 3.2 Minimax Estimation In tis section we present a upper bound concerning minimax estimation. First, we establis lower bound for minimax risk defined on H d β, L, M for any β, L and M. For any p 1,..., p d N d we denote p = p 1,..., p d and p = p p d. Definition 11. Fix β > 0, L > 0 and M > 0 and let β be te largest integer strictly less tan β. Te isotropic Hölder class H d β, L, M is te set of functions f : [0, 1] d R aving on [0, 1] d all partial derivatives of order β and suc tat x, y [0, 1] d 89

91 3.2. MINIMAX ESTIMATION M. CHICHIGNOUD β sup m=0 p =m x [0,1] d p fx x p 1 1 x p d d p fx x p 1 1 x p d M, d p fy y p 1 1 y p d L [ ] β β, x y 1 p = β. d Maximal and Minimax Risk on H d β, L, M. To measure te performance of estimation procedures on H d β, L, M we will use minimax approac. First, we define te maximal risk on H d β, L, M corresponding to te estimation of te function f at a given point y [0, 1] d. Let f be an arbitrary estimator built from te observation Z n. Let q > 0 R n,q [ f, Hd β, L, M ] = sup E f fy fy q. f H d β,l,m Te quantity R n,q [ f, Hd β, L, M ] is called maximal risk of te estimator f on H d β, L, M and te minimax risk on H d β, L, M is defined as R n,q [ Hd β, L, M ] = inf f were inf is taken over te set of all estimators. R n,q [ f, Hd β, L, M ], Definition 12. Te normalising sequence ψ n is called minimax rate of convergence and te estimator ˆf is called minimax asymptotically minimax if lim inf n ψ q n R n,q [ ˆf, Hd β, L, M, A ] > 0; [ lim sup ψn q R n,q ˆf, Hd β, L, M, A ] <. n We remember tat te first assumption of tis capter is tat ϕ n,γ defined in is te minimax rate of convergence. To obtain te upper bound of minimax risk, we need to te following assumptions. Let us introduce te following notations. For any θ ΘM, let U n = N [ Θ M θ ]. Put also N = N γ = n d 1/γ were γ 1 and u Un Z n,θ u = L θ + u N 1, Z n L θ, Zn Let H n, n > 1 be te following subinterval of 0, H n = [ min, max ], min = ln n 1 γd+d 2 n 1/d, max = ln n 1 γb+d. 90

92 M. CHICHIGNOUD 3.3. ADAPTIVE RULE Later on we will consider only te values of belonging to H n. Let f θ x, wit θ Θ M, be te local polynomial approximation of f inside V y and let b be te corresponding approximation error, i.e b = sup x V y Put finally N = b N γ and define fθ x fx E = exp {N }. Let te subset Γ δ Θ M suc tat Γ δ du = δ D b, δ > 0. Assumptions 1. We suppose tat it exists several constants τ, m > 0 and c 1, c 2, c 3, C 1, C 2, s 1, s 2 > 0 suc tat for any n > 1, f H d β, L, M, θ Θ M and H n, we ave 1. Γ δ E f [ 1 Z 1/m n,θ u ] 2. E f Z 1/m n,θ u C 2 E c 2 + du C 1 E c 1 δd b+τ, δ < s 1, exp { c 3 u γ 1}, u U n : u 1 s 2 N. were a + = maxa, 0, a R. We also assume te acknowledgement of constants c 3, s 2, τ, m and γ. Te next teorem sows ow to construct te minimax estimator basing on locally bayesian approac. Put = L γ n 1 γβ+d and let f y = ˆθ 0,...,0 is given by 3.1.4, and wit =. Teorem 4. Let β > 0, L > 0 and M > 0 be fixed. Assume tat Assumptions 1 are verified. Ten it exists te constant C suc tat for any n N satisfying N 1, [ ] ϕ q n,γβr n,q f y, H d β, L, M C, q Adaptive Rule { Tis section } is devoted to te adaptive estimation over te collection of te classes H d β, L, M. We will not impose any restriction on possible values of L, M, but we β,l,m will assume tat β 0, b], were b, as previously, is an arbitrary a priori cosen integer. Let Φ be te following family of normalizations: β [ ] 1 ρn,γ β γβ+d γb β φ n,γ β =, ρn,γ β = 1 + n γb + dγβ + d ln n γ, β 0, b]. We remark tat φ n,γ b = ϕ n,γ b and ρ n,γ β ln n 1 γ for any β b. 91

93 3.4. APPLICATIONS M. CHICHIGNOUD Construction of Φ-Adaptive Estimator. As it was already mentioned in Introduction te construction of our estimation procedure consists of two steps. First, we define te family of locally bayesian estimators. Next, based on Lepski s metod, we propose datadriven selection from tis family. First step: Collection of locally bayesian estimators. Put k = 2 k max, k = 0,..., k n, were k n is largest integer suc tat kn H n defined in Set { ˆF = ˆf k y = ˆθ } 0,...,0 k, k = 0,..., k n, were ˆθ 0,...,0 k is given by 3.1.4, and wit = k. Second step: Data-driven selection from te collection ˆF. We put ˆf y = ˆf ˆk y, were ˆf ˆk y is selected from ˆF in accordance wit te rule: ˆk = inf { k = 0, k n : Here we ave used te following notation C = s γ 2 22γ+1 2γ + 2dq c 3 γ 1 τ D 1 b ˆf k y ˆf l y } CSn l, l = k + 1, kn. 1 [ γ, S n l = ] 1 γ 1 + l ln 2 n d l, l = 0, 1,..., k n. Teorem 5. Let b > 0 be fixed. Assume tat Assumptions 1 are verified, ten for any β 0, b], L > 0, M > 0 and q 1 [ ] lim sup φ q n,γβr n,q ˆf y, H d β, L, M <. n Remark 7. Te assertion of te teorem means tat te proposed estimator ˆf y is Φ- adaptive. It implies in particular tat te family of normalizations Φ is admissible. For example Section 4.6, we can state te optimality of Φ in view of Klutcnikoff criterion. 3.4 Applications In tis section, we sow ow te upper bounds of Teorems 4 and 5 can be used for te derivation of minimax and adaptive minimax results for different additive models of type In particular, in following sections, we consider four particular problems: 1. g. f i is te normal distribution N 0, 1, 92

94 M. CHICHIGNOUD 3.4. APPLICATIONS 2. gk, f i = P f Y i = k = [fx i] k k! exp { fx i }, k N, 3. gx, f i = Cα exp { x fi α}, x R, 4. g., f i is te uniform distribution on [0, f i ]. Our goal ere is to sow ow te assumption on g. leads to bayesian estimators wit optimal statistical properties. Note tat in eac particular case for adaptation, te bayesian estimators are obtained by te same selection rule presented in Section 3.3. Here, we always assume tat te unknown f H d β, L, M Gaussian Regression Consider te model wit gx, f i = 2π 1 exp { x fi 2 /2}, we obtain te following model: Y i = fx i + ξ i, i = 1,..., n. According to Tsybakov [2008], it is well-known tat te minimax rate is n 2β+d, tus ere we take γ = 2. By definition te process Z n,θ can be formulate like Z n,θ u = { exp 2 1 Y i f θ+un 1X i Y i f θ X i } 2 X i V y Put λ n te smallest eigenvalue of te matrix M n y = 1 n d n Xi y K K Xi y I V yx i, i=1 wic is completely determined by te design points and by te number of observations. We will prove tat it exists λ > 0, suc tat λ n λ for any n 1 and any [ min, max ] see Lemma 9 in Capter 4. Let us give te following lemma wic verified Assumptions 1 on Z n,θ. Lemma 1. For any f H d β, L, M, n 1, H n, θ ΘM [ ] 1. E f 1 Z 1/2 n,θ u du 2E δ Db+2, δ < 1, [0,δ] D b + { 2. E f Z 1/2 n,θ u exp D } bλ n u 2 1, u U n : u D b λ n N. Te proof is given in Appendix. We use te adaptive bayesian estimator noted ˆf 1 y and developed in Section 3.3 wit model 3.4.1, by identification we take constants γ = 2, τ = 2, m = 2, s 2 = 8 D 1 b λ 1 n, c 3 = 2 4 D b λ n. 93 β

95 3.4. APPLICATIONS M. CHICHIGNOUD Teorem 6. Let b > 0 be fixed, ten for any β 0, b], L > 0, M > 0 and q 1 [ ] lim sup φ q n,2βr n,q ˆf 1 y, H d β, L, M <. n Remark 8. Te proof of te teorem is omitted; it is a straigtforward consequence of Teorem 5 and Lemma 1. We can deduced te minimax result to take b = β and remark tat φ n,2 b = ϕ n,2 b. Wit Klutcnikoff criterion, we can prove tat {φ n,2 β} β ]0,b] is adaptive optimal for te Gaussian regression and te pointwise estimation See Klutcnikoff [2005] Inomogeous Poisson Regression Consider te model wit gk, f i = P f Y i = k = [fx i] k exp { fx k! i }, k N. Assume tat f H β, L, M, A, M A > 0, were H β, L, M, A = { f H β, L, M : By definition te process Z n,θ can be formulate like Z n,θ u = X i V y X i 1 + f un 1 f θ X i Yi { exp } inf fx A. x [0,1] d f un 1 } X i, N = n d 1/2. Put λ n given in te previous section. Let us give te following lemma wic verified Assumptions 1 on Z n,θ. Let us introduce te following notation Θ A, M = { t R D b : 2t 0,...,0 t 1 A, t 1 M }. Lemma 2. For any f H d β, L, M, n n 0, H n, θ Θ A, M [ ] 1. E f 1 Z 1/2 2 + M + 2A n,θ u du E 1/2 [0,δ] D b + 2A δd b+1/2, δ < 1, { 2. E f Z 1/2 n,θ u e1 exp λ } na u 2 8M 2 1, u U n : u 1 4M 2 λ n N. Here, U n = N Θ A, M θ. Te proof is given in Appendix. Remark tat tis result is given for n n 0, tis do not cange te final result wic is asymptotic. We use te adaptive bayesian estimator noted ˆf 2 y and developed in Section 3.3, by identification we take constants γ = 2, τ = 0.5, m = 2, s 2 = 4M 2 λ 1 n, c 3 = 2 3 M 2 λ n A. 94

96 M. CHICHIGNOUD 3.4. APPLICATIONS Teorem 7. Let b > 0 be fixed, ten for any β 0, b], L > 0, M A > 0 and q 1 [ ] lim sup φ q n,2βr n,q ˆf 2 y, H d β, L, M, A <. n Remark 9. Te proof of te teorem is omitted; it is a straigtforward consequence of Teorem 5 and Lemma 2. We can deduced te minimax result to take b = β and remark tat φ n,2 b = ϕ n,2 b. A good exercice is to prove tat {φ n,2 β} β ]0,b] is adaptive optimal for te Poisson regression and te pointwise estimation See Klutcnikoff [2005]. In tis case, te constant c 3 depends explicitly of A, M, unknown in practice. We can construct no-optimal estimators of A, M to coose te constant C in te Lepski s procedure. Few examples of estimators are given for te multiplicative uniform regression Capter α Regression We call α regression te following model Y i = fx i + ɛ i, i = 1,..., n, were ɛ i as for density g α x = Cα exp { x α } wit 0 < α < 1/2. Cα is a constant cosen so tat g α density is well. Here te design X i is deterministic uniform on [0, 1] d and f H d β, L, M. In tis model, we want to acieve te rate of convergence n 1+2αβ+d given by Has minskii and Ibragimov [1981] in te parametric estimation. Tus, we take γ = 1+2α. By definition te process Z n,θ can be formulate like Z n,θ u = { exp Yi f θ+un 1X i α + Yi f θ X i α} X i V y Put λ n given in Section Let us give te following lemma wic verified Assumptions 1 on Z n,θ. Lemma 3. For any f H d β, L, M, it exists c 1, C, n 0 suc tat for n n 0, H n, θ ΘM, we ave [ ] 1. E f 1 Z 1/2 n,θ u du CE c 1 δd b+α+1/2, δ < 1, [0,δ] D b 2. E f Z 1/2 1+Cα n,θ u E 21+α exp { } c 3 u 1+2α 1, u Un, were c 3 = λ n 2 α 4 Cα1 + 2α 1 exp { 12 } 2Mα. + Te proof is given in Appendix. Remark tat we do not know values of c 1, C, it is not necessary to construct te adaptive estimator. We use te adaptive bayesian estimator noted ˆf 3 y and developed in Section 3.3 wit model β

97 3.4. APPLICATIONS M. CHICHIGNOUD Teorem 8. Let b > 0 be fixed, ten for any β 0, b], L > 0, M > 0 and q 1 [ ] lim sup φ q n,1+2αβr n,q ˆf 3 y, H d β, L, M <. n Remark 10. Te proof of te teorem is omitted, it is a straigtforward consequence of Teorem 5 and Lemma 3. Te optimality of φ n,1+2α β is not proved, it is a open problem. Here Lemma 3 is given wit n n 0, it will not be a problem because Teorem 8 is a asymptotic result. We can construct te minimax estimator wit Teorem 4, because in te case minimax, te term E in Assumptions 1 is a constant for = Multiplicative Uniform Regression We consider te following model: Y i = fx i U i, i = 1,..., n, were U i i is a sequence independent identically distributed of uniform law on [0, 1]. Tis capter 4 is devoted to te study of tis model. So, we can find te minimax rate n β β+d, tus, ere we take γ = 1. Te proof of Assumptions 1 is a consequence of Lemma 8 in Capter 4 and we give te following lemma Lemma 4. For any f H d β, L, M, A, n 1, H n, θ Θ A, M [ ] 1. E f 1 Z 1/2 n,θ u du 3 [0,δ] D b + 2A δd b+1, δ < 1, { 2. E f Z 1/2 1/A n,θ u E exp λ } n u 1, u N Θ A, M θ. 18MD b were Z n,θ u = f θ X i f θ+un 1X i I{ }. Y i f θ+un 1 X i X i V y Tis case requires us to several restrictions on te function f. Indeed, we assume tat f A > 0 f H d β, L, M, A and te polynomial approximation is constructed wit te constraint f θ f. We find a lot of details in Capter 4, in particular tis lemma is a consequence of Lemma 8. We use te adaptive bayesian estimator noted ˆf 4 y and developed in Section 3.3 wit model By identification, we take constants γ = 1, τ = 1, m = 2, s 2 = 0, c 3 = λn 18MD b. Teorem 9. Let b > 0 be fixed, ten for any β 0, b], L > 0, M > 0 and q 1 [ ] lim sup φ q n,1βr n,q ˆf 4 y, H d β, L, M, A <. n 96

98 M. CHICHIGNOUD 3.5. PROOFS OF MAIN RESULTS Remark 11. Te proof of te teorem is omitted, it is a straigtforward consequence of Teorem 5 and Lemma 4. Wit Klutcnikoff criterion, we can prove tat {φ n,1 β} β ]0,b] is adaptive optimal for te multiplicative uniform regression and te pointwise estimation See Teorem 13 in Capter Proofs of Main Results In tis section we give te proofs of Teorems 4 and Auxiliary Results: Large Deviations For te sequel we fixe, for any > 0 satisfying and f H d β, L, M, θ = θf, y, = { θ p : p N d : 0 p b } suc tat b Ld β and θ Θ M. For example, we can take θ te coefficients of expansion Taylor series. Te next proposition is te milestone for all results proved in te paper. Introduce te following notations ω 2 = c c 2, + ω 1 = 16 C 2 z + 1e c 3z γ dz + 4 C 1, ω 3 = c 3 2 2γ 1 1 τ, D b 0 were C 1, C 2, c 1, c 2, c 2, c 3 are defined in section 3.2. Put Mf = b m=0 p p d =m m fy x p 1 1 x p d. Te following agreement will be used in te sequel: if te function f and m 1 be suc tat m f does not exist we will put formally m f = 0 in te definition of Mf. Proposition 3. Let ε 0 = 4 s 2 c γ+1 + 1/γ. M ln s 1 For any n > 1, Hn and any f suc tat Mf <, ten ε ε 0 N P f N ˆf y fy ε ω 1 E ω 2 exp { ω 3ε γ }, were ˆf y is given by 3.1.4, and and s 1, s 2 are defined in Assumptions 1 in Section 3.2. Te proof of tis proposition is given in section d

99 3.5. PROOFS OF MAIN RESULTS M. CHICHIGNOUD Proof of Teorem 4 By integration of te inequality of Proposition 3, we obtain for any n > 1, H n and any f suc tat Mf < [ ] E f ˆf y fy q q ω 2 ω 3 ε 0 /2 C q E N q, were C q = 2ε q 0 + 4qω 1 ω 3 sup η 0 [η q 1 exp{ ω 3 η γ /2}]. By definition of = Ln 1 ave Ldn γβ+d = d, = L γqd γβ+d ϕ q n,γ β. N q Using and last equalities, we obtain for any f H d β, L, M E f f y fy [ ] q C q e d q ω 2 ω 3 ε 0 /2 L qdγ γβ+d ϕ q n,γ β. β+d Hn, we Teorem 4 is proved Proof of Teorem 5 We start te proof wit formulating some auxiliary results wose proofs are given in Appendix 3.6. Define J 1 = ω 2 and and let te integer κ be defined as follows. [ c ρ γ ] 1 n,γ β γβ+d =, c < 2J1 γ. L γ d γ n κ max < 2 κ+1 max. Lemma 5. For any f H d β, L, M and any k κ + 1 were J 2 = ω γ+2dq γ P ˆk = k J2 exp { J 1 n γβ+d} 2γ+2dq k 1 2 γ, 1. Proof of Teorem 5. Note tat H n and l H n, l = 0,..., k n. Te definition of and κ in implies tat by integration of te inequality obtained in Proposition 3 wit = k, we obtain: E f ˆf k y fy q C q 1 + k ln 2 q γ 98 N q k, k κ,

100 M. CHICHIGNOUD 3.5. PROOFS OF MAIN RESULTS were C q = 2 1 c 1/γ q q + ω2 ε q ω 1 η + 1 q 1 e ω 3η γ dη. We also ave ω 3 0 E f ˆf ˆk y fy q E f ˆf ˆk y fy q Iˆk κ + E f ˆf ˆk y fy q Iˆk>κ := R 1 f + R 2 f. First, we control R 1. Obviously ˆf ˆk y fy ˆf ˆk y ˆf κ y + ˆf κ y fy. Te definition of ˆk yields ˆf ˆk y ˆf κ y Iˆk κ Cs n κ, were C = ω 1 3 1/γ 4γ + 4dq. In view of we also get γ E f ˆf κ y fy q C q s n κ. s n k = 1 + k ln 2 q γ N q k, Noting tat te rigt and side of te obtain inequality is independent of f and taking into account te definition of κ and we obtain lim sup n sup f H d β,l,m φ q n βr 1 f <. Now let us bounded from above R 2. Applying Caucy-Scwarz inequality we ave in view of Lemma 5 R 2 f = k n k>κ k>κ E f ˆf k y fy q I [ˆk=k,G ] Ef ˆf k y fy 2q 1/2 P f {ˆk = k } = k>κ Ef ˆf k y fy 2q 1/22 k 1 γ+dq γ, were we ave put = J 2 exp { J 1 n γβ+d}. We obtain from and R 2 f J 3 N q max exp { J 1 n γβ+d}, were J 3 = J 2 2 γ+dq γ C1/2 2q 1 + s ln 2 q γ 2 s. s 0 99

101 3.5. PROOFS OF MAIN RESULTS M. CHICHIGNOUD It remains to note tat te definition of implies tat lim sup n φ q n βn q max exp { J 1 n γβ+d} < and tat te rigt and side of is independent of f. Tus, we ave lim sup n sup f H d β,l,m tat yields togeter wit and lim sup n sup f H d β,l,m φ q n βr 2 f <. φ q n βe f ˆf ˆk y fy q < Proof of Proposition 3 Auxiliary Lemmas. Set for any a > 0 Q a = { } u 1 Z 1/m n,θ udu. U n u 1 >a were U n := N Θ θ, Θ defined in and Zn,θ defined in Remember tat γ > 0 is te constant wic defined te minimax rate of convergence ϕ n,γ and depends on te density g.. Lemma 6. For any f suc tat Mf < and H n, if te assumption 1 is verified, ten { P f Z 1/m n,θ udu < 1 } U n 2 δd b < 2C 1 E c 1 δτ, δ ] 0, 1 M ]. Lemma 7. For all H n and any f suc tat Mf <, if te assumption 1.2 is verified, ten for any a > s 2 N were s 2 is defined in Section 3.2 and E f { Qa } 2C2 a E c 2 I 1 e c 3a γ, I 1 = + Tis lemmas are proved in section z + 1e c 3z γ dz 100

102 M. CHICHIGNOUD 3.5. PROOFS OF MAIN RESULTS Proof of Proposition 3. Te definition of ˆθ and θ = θf, y, implies ε > 0 P f N ˆf y fy ε P f N ˆθ0 θ 0 ε P f N ˆθ θ 1 ε. Let us do some remarks. First, by definition we ave θ Θ M. Remind also tat ˆθ minimizes π defined in and, terefore, te following inclusion olds since ˆθ Θ. { } { } N ˆθ θ 1 ε inf π t π θ. N t θ 1 ε Moreover, π t = N 1 Θ = N D b 1 = N D b 1 [ ] 1/m N t u 1 L u, Zn du U n N t θ u 1 [ L θ + un 1, Z n] 1/m du [ L θ, Zn ] 1/m Un N t θ u 1 Z 1/m n,θ udu. Hence, τ n = N ˆθ θ is te minimizer of χ n s = s u 1 z n udu, z n u = U n Z 1/m n,θ u U n Z 1/m n,θ vdv, and we obtain from and for any ε > 0 { } { } N P f ˆθ θ > ε P f inf χ ns χ n 0. 1 s 1 >ε Let 0 < r < ε/3, a number wose will be done later. We ave χ n 0 r z n udu + u 1 z n udu. U n u 1 r U n u 1 >r Note also tat [ inf χ ns inf s 1 >ε s 1 >ε ε r U n u 1 r U n u 1 r ] s 1 u 1 zn udu z n udu. 101

103 3.5. PROOFS OF MAIN RESULTS M. CHICHIGNOUD It yields in particular χ n 0 inf χ ns ε 2r z n udu + u 1 z n udu. s 1 >ε U n u 1 r U n u 1 >r Tus, r 0, ε/ } P f {χ n 0 inf χ ns > 0 s 1 >ε { P f u 1 z n udu > ε 2r P f { U n u 1 >r U n u 1 >r +P f {ε 2r } u 1 z n udu > r/2 U n u 1 r } z n udu < r/2. U n u 1 r } z n udu We note tat te second term in can be to control by te first one wenever 0 < r < ε/3. Indeed, putting U n r = U n u 1 > r we get P f {ε 2r P f {r P f {r P f { U n Z 1/m U nr U nr U n u 1 r n,θ vdv r Z 1/m n,θ udu > r 2 Te last inequality and yield } z n udu < r/2 U nr u 1 z n udu > r/2 Z 1/m n,θ udu < r } Z 1/m n,θ 2 vdv U } n Z 1/m n,θ vdv U } n. } { } P f {χ n 0 inf χ n s > 0 2P f u 1 z n udu > r/2. s 1 >ε U nr Let ν > 0 te parameter wose coice will be done later, ten by definition of z n and te last inequality, we obtain } P f {χ n 0 inf χ n s > 0 s 1 >ε 2P f { U nr u 1 Z 1/m n,θ udu > r ν/4 } { } +2P f Z 1/m n,θ vdv < ν/2. U n 102

104 M. CHICHIGNOUD 3.6. APPENDIX In view of Lemma 7 and te Markov inequality, coosing r = ε/4 s 2 we get { } P f u 1 Z 1/m εν n,θ udu > 8C 2 I 1 E c 2 16 ν 1 e c 32 2γ ε γ. U n u 1 >ε/4 Applying Lemma 6, we ave for ν M { P f U n Z 1/m n,θ vdv < ν/2 } In view of , , we establis tat } P f {χ n 0 inf s 1 >ε χ ns > 0 Coosing ν = e c 32 2γ 1 ε γ, we obtain } P f {χ n 0 inf s 1 >ε χ ns > 0 2C 1 E c 1 ν τ D b 16C 2 I 1 E c 2 ν 1 e c 32 2γ ε γ + 4C 1 E c 1 E c 1 ν τ D b. 16C 2 I 1 E c 2 e c 32 2γ 1 ε γ + 4C 1 E c 2 2γ 1 τ 1 e c 3 ε D γ b. Te assertion of te teorem follows now from 3.5.9, and te definitions of ω 1, ω 2, ω Appendix In tis part, we consider n d N, in order to simplify te proofs. Proof of Lemma 1. Z n,θ u = Let us give te notation Σ = 1. By definition of model 3.4.1, we ave u U n { exp 1 Yi f 2 θ+u N 1 X i V y X i V y 1 4 Yi f θ+u N 1 X i Yi f θ X i 2 2 X i 2 1 Yi f θ X i 2. 4 Applying 1 e ρ ρ, ρ R and Caucy-Scwarz inequality, we obtain for any u : u 1 < 1 1/2 E f 1 Z n,θ u + = E f 1 e Σ I [0,+ [ Σ E f Σ I [0,+ [ Σ 2E u }.

105 3.6. APPENDIX M. CHICHIGNOUD Using te last inequality and define Γ δ = [0, δ] D b, we establis [ ] E f 1 Z 1/2 n,θ u du 2E δ Db+2, δ < 1. [0,δ] D b 2. Using Ee λε = e λ2 /2, wit ε N 0, 1 and λ R, we ave E f Z 1/2 n,θ u = exp 1 f 2 X 8 u N 1 i Remark tat f u N 1 X i V y + X i V y X i u 1 N 1, fx i f θ X i b and X i V y f 2 X u N 1 i = u M n y u. f u N 1 X i fx i f θ X i. In view of Lemma 9 in Capter 4, λ > 0 suc tat λ n λ and u M n yu λ n u u. Applying 3.6.1, we ave { E f Z 1/2 n,θ u exp λ n u u } N, By equivalence between te l 1 -norm and l 2 -norm, we obtain { E f Z 1/2 n,θ u exp D bλ n u u } N { exp D } bλ n u 2 1, u U n : u D b λ n N. Proof of Lemma Remember tat we ave u U n = N Θ A, M θ Z n,θ u = X i V y X i 1 + f un 1 f θ X i Yi { exp f un 1 Using te Caucy-Scwarz inequality, we obtain for u U n : u 1 < 1 } X i, N = n d 1/ E f 1 Z 1/2 n,θ u + E f 1 Z 1/2 n,θ u 2 1/2 = E f 1 + Zn,θ u 2Z 1/2 n,θ u 1/2. It is easy to sow tat for n n 0 E f Z n,θ u 1 + A + N u 1. A 104

106 M. CHICHIGNOUD 3.6. APPENDIX So, using we ave 1/2 A + N E f 1 Z n,θ u u /2 1 E f Z 1/2 n,θ A u. It remains to calculate te term E f Z 1/2 n,θ u = E f 1 + f un 1 X i f θ X i X i V y = = X i V y k=0 X i V y fxi k exp k! Yi /2 { exp 1 + f un 1 f θ X i fx i 1 2 f un 1 f un 1 k/2 { X i exp } X i /2 fx i 1 2 f un 1 X i X i + fx i 1 + f 1/2 un 1 X i f θ X i Using te Taylor expansion series, for n n 0 we get 1 + f 1/2 un 1 X i = f un 1X i 1 2 fun 1X i + O f θ X i 2 f θ X i 4 f θ X i were Oρ 3 ρ 0 0. Applying last equality and 3.6.4, we ave { E f Z 1/2 n,θ u = exp 1 2 f un 1 X i f θx i fx i 1 f θ X i 4 X i V y 3 fun 1X i fx i O f θ X i. fun 1 3 X i, f θ X i f un 1X i fx i f θ X i Using te inequality 1 e ρ ρ, ρ 0, 3.6.3, and 3.6.5, we ave for n n 0, 1/2 2 + M + 2A E f 1 Z n,θ u E 1/2 + 2A u 1/2 1, u [0, δ] D b, δ < 1. By integration,te first assertion of te lemma is proved. 2. Using we ave for n n 0 and u U n : u 1 4M 2 λ n N, in view of Lemma 9 in Capter 4, { E f Z 1/2 n,θ u e1 exp λ } na u 2 8M 2 1, were λ n is defined in Section } 105

107 3.6. APPENDIX M. CHICHIGNOUD Proof of Lemma 3. Remember tat we ave u U n = N Θ M θ Z n,θ u = L = θ + u N 1, Z n L θ, Zn X i V y { exp Yi f θ+un 1 X i α + Yi f θ X i α}, N = n d 1/1+2α. It is easy to see tat for m 1 E f Z 1/m n,θ u = X i V y R Cα exp { 1m y b i v i α + 1m } y b i α y α, were b i = f θ X i fx i and v i = f un 1X i. Remark tat if we coose te approximation polynomial f θ suc tat f θ f for construction, see Capter 4, ten b i 0, i. Witout loss of generality we coose v i 0. Introduce G m v = R Cα exp { 1m y b v α + 1m } y b α y α, v 0, b 0. We will prove tat G m v 1 T 1 v 1+2α for m > 1. Indeed, we use standard scema suc tat G m v = G m 0 + v 0 G mṽdṽ. It remains to prove tat G mṽ T 2 ṽ 2α. For it, we decompose te function G m of te following way G m v = v v 0 0 Cα exp { 1m y vα + 1m } yα y + b α dy b b Cα exp { 1m v yα + 1m yα y + b α } dy Cα exp { 1m v yα + 1m } yα y + b α dy Cα exp { 1m v yα + 1m } yα y + b α dy 106

108 M. CHICHIGNOUD 3.6. APPENDIX Te derivative of G m can be formulate like { v G mv α = Cα exp m + v v 0 0 b b v + bα } { } v α + Cα exp v + bα m { 1m y vα + 1m } yα y + b α Cα α m y vα 1 exp dy Cα α m v yα 1 exp { 1m v yα + 1m } yα y + b α dy Cα α m v yα 1 exp { 1m v yα + 1m } yα y + b α dy Cα α m v yα 1 exp { 1m v yα + 1m } yα y + b α dy. By canging variables and summation of integrals, we obtain G mv = + v+b Cα α m zα 1 exp { 1m } [ { } 1 zα exp m z + vα z + v + b α { }] 1 exp m z vα z v b α dz Cα α m zα 1 exp { 1m } [ { 1 zα exp m z + vα z + v + b α { }] 1 exp m z vα v z + b α dz v+b v v + 0 Cα α m zα 1 exp exp { 1m zα } [ exp { 1 m v zα v z + b α { } 1 m z + vα z + v + b α }] dz. } By expansion Taylor series of order 1 and for any n n 0, te term can be controlled by v 0 Cα α m zα 1 exp { 1m } b α zα m m 1 m v z + bα m 1 m z + v + bα + O b 2α dz 1 + Cα v α b α m

109 3.6. APPENDIX M. CHICHIGNOUD Te second term can be bounded by 1 + Cα v α b α. We note tat te first term is m 2 te integral of a negative function, so we can increase it by 2v+b v+b Cα α m zα 1 exp { 1m } zα m 1 2v+b v+b Cα α { m zα 1 exp 1 } m 1 m zα v 2α 2 α 2 Cα m 1 m 2 So we obtain exp G mv Cα v α b α { 1m vα }. m z v bα m 1 m 2zα dz + O v 3α m 2 2α 2 Cα m 1 m 2 Using 3.6.6, te last inequality implies tat m > 1 m z + v + bα + O v 2α dz exp { 1m } vα v 2α, G m v Cα b α v 1+α 1 + αm m 1 2 2α 2 Cα { 1 + 2αm exp 1m } 2 vα v 1+2α, wit G m 0 = 1. We can also sow tat it exists positive constants T 3, T 4 suc tat G 1 v 1 + T 3 v 1+2α + T 4 v 1+α b α, v R. 1. Let us prove te first assumption, 1/2 E f 1 Z n,θ u E + f 1 Z 1/2 n,θ u 1 = E f θ, Zn L 1/2 L 1/2 1/2 θ, Zn L θ + u, Zn. Let us note p x, f = X i V y g α xi, fx i, were x R nd. By integration and Caucy- Scwarz inequality, we obtain tat 1/2 E f 1 Z n,θ u + R nd p 1/2 p 1/2 R nd x, fθ+u N 1 x, fθ+u N 1 p 1/2 p 1/2 p x, f x, fθ dx x, fθ p 1/2 x, fθ 2 dx Rnd p 2 x, f p x, fθ dx 1/2. Introduce H P 2 fθ+u N 1, P fθ = R nd p 1/2 x, fθ+u N 1 1/2 2 p x, fθ dx, 108

110 M. CHICHIGNOUD 3.6. APPENDIX were H.,. is te Hellinger distance between probability measures. More details are given in Tsybakov [2008] Capter 2. Remark tat P fθ is a product measure P fθ = Xi V yp i f θ were P i f θ = P fθ X i te probability law of Y i. By property of Hellinger distance, we obtain H 2 P fθ+u N 1, P fθ = 2 1 X i V y 1 12 H2 P i f θ+u N 1, P i f θ, were H P 2 i f, P i θ+u N 1 f θ = = gα 1/2 R gα 1/2 R x fθ+u N 1 x fu N 1 X i gα 1/2 x fθ X i 2 dx, X i g 1/2 α x 2 dx, i : X i V y. Has minskii and Ibragimov [1981] sowed tat g α possess singularities of order 2α for α < 1/2. In particular tey gave te following result on g α : g 1/2 α x η gα 1/2 x 2 dx = O η 1+2α, η 0. R For more details, see Has minskii and Ibragimov [1981] Capter 6, section 1, Teorem 1.1. Using , and , ten it exists a constant C suc tat for n n 0 1/ E f 1 Z n,θ u + C u α+1/2 1 R nd 1/2 p2 x, f dx. p x, fθ In order to sow te assumption 1.1, it remains to prove te following assertion For it, we note tat R nd 1/2 { } p2 x, f T3 + T 4 dx exp N 1+2α. p x, fθ 2 Rnd p 2 x, f dx = p x, fθ X i V y G 1 b i. So, applying wit v = b i, we obtain Using , te first assertion of te lemma is proved. 2. Using wit m = 2 and v = u i, we obtain E f Z 1/2 n,θ u exp 1 + Cα 21 + α N 2 α 4 Cα 1 + 2α exp { 1 2 2Mα} 109 X i V y f u X i 1+2α n d.

111 3.6. APPENDIX M. CHICHIGNOUD Remark tat X i V y f u X i 1+2α n d X i V y X i V y f u X i 2 n d u 1 2α 1 and f 2 X u N 1 i = u M n y u. In view of Lemma 9 in Capter 4 and last inequality, we ave { } { } E f Z 1/2 1 + Cα n,θ u exp 21 + α N λ n 2 α 4 Cα exp 1 + 2α exp { 2Mα} u 1+2α 1 1, 2 were λ n is defined in Section 3.4. Proof of Lemma 5. Note tat for any k κ + 1 and by definition of ˆk {ˆk = k } = l k { ˆf k 1 y ˆf l y > Sn l}. Note tat S n l is monotonically increasing in l and, terefore, {ˆk = k } { ˆf k 1 y fy > 2 1 S n k 1} [ { l k ˆf l y fy }] > 2 1 S n l. We come to te following inequality: for any k κ + 1 { P f ˆk = k Pf ˆf k 1 y ˆfy } > 2 1 S n k l k { P f ˆf l y fy } > 2 1 S n l. Note tat te definition of S n l yields N l S n l = 1 γ s γ 2 22γ+1 2γ + 2dq c 3 γ [ ] 1/γ. 1 + ln max/ 1 τ D 1 l b Tus, applying Proposition 3 wit J 1 = Ldω 2 and ε = N l S n l, we obtain l k 1 { P f ˆf l y fy } > 2 1 S n l ω 1 E ω 2 l [ max / l ] 2γ+2dq γ = ω 1 E ω 2γ+2dq 2 l l 2 γ.

112 M. CHICHIGNOUD 3.6. APPENDIX Note tat b l Ld β l and l κ since f H d β, L, M and, terefore, N l L d n l γβ+d L d n γβ+d, l k 1. Here we ave also used tat k κ + 1. We obtain from , and tat k κ + 1 were J 2 = ω γ+2dq γ P f ˆk = k J2 exp { J 1 n γβ+d} 2γ+2dq k 1 2 γ, 1. Proof of Lemma 6. Applying Markov inequality, Fubini teorem and assumption 1.1 { P f Z 1/m n,θ udu < 1 } U n 2 δd b, G { 1/m = P f Z n,θ u 1 du < 1 } Γ δ 2 δd b, { 1/m P f 1 Z n,θ u du > 1 } + Γ δ 2 δd b 2δ D b 1/m E f 1 Z n,θ u du + Γ δ 2C 1 E c 1 δτ. Proof of Lemma 7. E f U n u 1 >a Simplifying te last inequality, we ave Applying te assumption 1.2 we obtain u 1 Z 1/m n,θ u du C 2E c 2 u 1 exp { c 3 u γ 1} du. E f { Qa } 2C2 a E c 2 exp { c 3a γ } U n u 1 >a + 0 z + 1 exp { c 3 z γ } dz. 111

113 3.6. APPENDIX M. CHICHIGNOUD 112

114 Capter 4 Locally Bayesian Approac for Multiplicative Uniform Regression Ce capitre correspond à l article Cicignoud [2010a]. Dans cet article, nous présentons l estimateur Bayésien sous une forme différente que celle dans le capitre précédent. La démonstration des grandes déviations est plus complexe et longue que dans le capitre précédent. Pour le lecteur ce capitre contient la preuve des ypotèses 1 pour le modèle de régression avec un bruit multiplicatif uniforme Voir lemme 8, ainsi que la borne inférieure du risque minimax Section 4.2 et l optimalité de la vitesse adaptative Section 4.3 pour ce modèle. 4.1 Introduction Let statistical experiment be generated by te couples of observations Y n = X i, Y i i=1,...n, n N were X i, Y i satisfies te equation Y i = fx i U i, i = 1,..., n. Here f : [0, 1] d R is unknown function and we are interested in estimating f at a given point y [0, 1] d from observation Y n. Te random variables noise U i i 1,...,n are supposed to be independent and uniformly distributed on [0, 1]. Te design points X i i 1,...,n are deterministic and witout loss of generality we will assume tat X i { 1/n 1/d, 2/n 1/d,..., 1 } d, i = 1,..., n. Along te paper te unknown function f is supposed to be smoot, in particular, it belongs to te Holder ball of functions H d β, L, M see Definition 13 below. Here β > 0 is te smootness of f, M is te upper bound of f and its partial derivatives and L > 0 is Lipscitz constant.

115 4.1. INTRODUCTION M. CHICHIGNOUD Moreover, we will consider only te functions f separated away from zero by some positive constant. Tus, from now on we will suppose tat tere exists 0 < A < M suc tat f H d β, L, M, A, were H d β, L, M, A = { g H d β, L, M : } inf gx A. x [0,1] d Motivation. Te multiplicative regression model is quite popular in various domains of applications, in particular, in volatility estimation Härlde and Tsybakov [1997] or in noise speckle imaging Aubert and Aujol [2008]. Anoter source of te interest to multiplicative regression is so-called nonparametric frontier model see Simar and Wilson [2000], were te reconstruction of te regression function f can be viewed as te estimation a production set P. Indeed, Y i fx i, i, and, terefore, te estimation of f is reduced to finding te upper boundary of P. In tis context one can also cite Korostelëv and Tsybakov [1993] dealing wit te estimation of function s support. Te teoretical interest to te multiplicative regression model wit discontinuous noise is dictated by te following fact. Te typical approac to te study of te models wit multiplicative noise consists in teir transformation into te model wit an additive noise and in te application, after tat, te linear smooting tecnique, based on standard metods like kernel smooting, local polynomials etc. Let us illustrate te latter approac by te consideration of one of te most popular non-parametric model namely multiplicative gaussian regression Y i = σx i ξ i, i = 1,..., n. Here ξ i, i = 1,..., n are i.i.d. standard gaussian random variables and te goal is to estimate te variance σ 2. Putting Y i = Yi 2 and η i = ξi 2 1 one can transform te model into te eteroscedastic additive regression: Y i = σ 2 X i + σ 2 X i η i, i = 1,..., n, were, obviously, Eη i = 0. Applying any of te linear metods mentioned above to te estimation of σ 2 one can construct an estimator wose estimation accuracy is given by n β 2β+d and wic is optimal in minimax sense See Definition 14. Te latter result is proved under assumptions on σ 2 wic are similar to te assumption imposed on te function f. In particular, β denotes te regularity of te function σ 2. Te same result can be obtained for any noise variables ξ i wit known, continuously differentiable density, possessing sufficiently many moments. Te situation canges dramatically wen one considers te noise wit discontinuous distribution density. Altoug, te transformation of te original multiplicative model to te additive one is still possible, in particular, te model can be rewritten as Y i = fx i + fx i η i, Y i = 2Y i, η i = 2u i 1, i = 1,..., n, 114

116 M. CHICHIGNOUD 4.1. INTRODUCTION te linear metods are not optimal anymore. As it is proved in Teorem 10 te optimal accuracy is given by n β β+d. To acieve tis rate te non-linear estimation procedure, based on locally bayesian approac, is proposed in Section 4.2. Te interesting feature of te model is tat te uniform distribution leads to an improved estimation rate, it is always te case wit a discontinuous density of te noise see Has minskii and Ibragimov [1981], Capter 6. Te parameter of a uniform [0, θ] distribution is easier to estimate. Indeed, it is well known tat we can use te maximum likeliood estimator based on te maximum of observations nonlinear. For instance, if f is known to be Lipsitz β, ten its approximation by a constant function in an ypercube of lengt gives a bias of order d β, and te constant can be estimated at te order 1/n d, because tere are n d observations in te interval. Te latter improved rate improved over 1/ n d as usual leads to an optimal bandwidt of = β = n 1 β+d, and ence estimation rate n β β+d, faster tan usual. Typically, in any model, it is possible to improve te rate of convergence if te Fiser information is not finite. In regular statistical models, te locally maximum likeliood approac is ideal see Has minskii and Ibragimov [1981] Capter 1, Section 5 and recently Polzel and Spokoiny [2006], Katkovnik and Spokoiny [2008]. But wen te density of observations is discontinuous, an bayesian approac is often preferred see Has minskii and Ibragimov [1981], Capter 1, Section 5. Te study of local maximum likeliood estimator for model stays an open problem. Recently several approaces to te selection from te family of linear estimators were proposed, see for instance Goldensluger and Lepski [2008], Goldensluger and Lepski [2009a], Juditsky, Lepski, and Tsybakov [2009] and te references terein. Tese tecnologies are used in te construction of data-driven adaptive procedures and tey are eavily based on te linearity property. As we already mentioned te locally bayesian estimators are non-linear and in Section 4.3 we propose te selection rule from tis family. It requires, in particular, to develop new non-asymptotical exponential inequalities, wic may ave an independent interest. Minimax estimation. Te first part of te paper is devoted to te minimax over H d β, L, M, A estimation. Tis means, in particular, tat te parameters β, L, M and A are supposed to be known a priori. We find te minimax rate of convergence on H d β, L, M, A and propose te estimator being optimal in minimax sense see Definition 14. Our first result in tis direction consists in establising a lower bound for maximal risk on H d β, L, M, A. We sow tat for any β R +, te minimax rate of convergence is bounded from below by te sequence ϕ n β = n β β+d. Next, we propose te minimax estimator, i.e. te estimator attaining te normalizing sequence To construct te minimax estimator we use so-called locally bayesian 115

117 4.1. INTRODUCTION M. CHICHIGNOUD estimation construction wic consists in te following. Let V y = d [ yj /2, y j + /2 ], j=1 be te neigborood around y suc tat V y [0, 1] d, were 0, 1 is a given scalar. Fix an integer number b > 0 and let D b = b m + d 1. d 1 m=0 Let P b = {p = p 1,..., p d : p i N, 0 p b}, p = p p d, we define te local polynomial f t x = p x y t p I Vyx, x R d, t = t p : p P b, p P b were z p = z p 1 1 z p d d for z = z 1,..., z d and I denotes te indicator function. Te local polynomial f t can be viewed as an approximation of te regression function f inside of te neigborood V and D b te number of coefficients of tis polynomial. Introduce te following subset of R D b Θ A, M = { t R D b : 2t 0,...,0 t 1 A, t 1 M }, were. 1 is l 1 -norm on R D b. ΘA, M can be viewed as te set of coefficients t suc tat A f t x M for all t ΘA, M and for all x in te neigbourood V y. Consider te pseudo likeliood ratio L t, Y n = Set also π t = i: X i V y ΘA,M [ ft X i ] 1 I [ ] Y i, t Θ A, M. 0,f tx i t u 1 L u, Y n du, t Θ A, M. Let ˆθ be te solution of te following minimization problem: ˆθ = arg min t ΘA,M π t. Te locally bayesian estimator f y of fy is defined now as f y = ˆθ 0,...,0. Note tat tis local approac allows to estimate successive derivatives of function f. In tis paper, only te estimation of f at a given point is studied. 116

118 M. CHICHIGNOUD 4.1. INTRODUCTION We note tat similar locally parametric approac based on maximum likeliood estimators was recently proposed in Polzel and Spokoiny [2006] and Katkovnik and Spokoiny [2008] for regular statistical models. As we see our construction contains an extra-parameter to be cosen. To make tis coice we use quite standard arguments. First, we note tat in view of f H d β, L, M, A θ = θf, y, Θ A, M : fx fθ x L β. sup x V y For example, f θ can be cosen like te Taylor polynomial defined in Wit te property of isotropic Holder functions see Definition 13, te last assertion is trivial. Tus, if is cosen sufficiently small our original model is well approximated inside of V y by te parametric model Y i = f θ X i U i, i = 1,..., n d, n d N in wic te bayesian estimator ˆθ is rate-optimal See Teorem 11. It is wort mentioning tat te analysis of te deviation of X i, Y i i=1,...n d from Y nd is not simple. Namely ere requirements 0 < A fx M, x [0, 1] d, are used. Tis assumption, wic seems not to be necessary, allows us to make te presentation of basic ideas clear and to simplify routine computations see also Remark 12. Witout tis assumption, te problem is open. Finally, n β, L is cosen as te solution of te following minimization problem n d 1 + L β min and we sow tat corresponding estimator f nβ,l y is minimax for fy on H d β, L, M, A if β b. Since te parameter b > 0 can be cosen in arbitrary way, te proposed estimator is minimax for any given value of te parameter β > 0. Adaptive estimation. Te second part of te paper is devoted to te adaptive minimax estimation over collection of isotropic functional classes in te model At our knowledge, te problem of adaptive estimation in te multiplicative regression wit te noise, aving discontinuous density, is not studied in te literature. Well-known drawback of minimax approac is te dependence of te minimax estimator on te parameters describing functional class on wic te maximal risk is determined. In particular, te locally bayesian estimator f depends obviously on te parameters A and M via te solution of te minimization problem Moreover n β, L optimally cosen in view of depends explicitly on β and L. To overcome tis drawback te minimax adaptive approac was proposed see Lepski [1990],Lepski [1991],Lepski, Mammen, and Spokoiny [1997]. Te first question arising in te adaptation reduced to te problem at and can be formulated as follows. 117

119 4.1. INTRODUCTION M. CHICHIGNOUD Does tere exist an estimator wic would be minimax on Hβ, L, M, A simultaneously for all values of β, L, A and M belonging to some given subset of R 4 +? In section 4.3, we sow tat te answer to tis question is negative, tat is typical for te estimation of te function at a given point Lepski and Spokoiny [1997]. Tis answer can be reformulated in te following manner: te family of rates of convergence { } ϕ n β, β R + is unattainable for te problem under consideration. Tus, we need to find anoter family of normalizations for maximal risk wic would be attainable and, moreover, optimal in view of some criterion of optimality. Nowadays, te most developed criterion of optimality is due to Klutcnikoff Klutcnikoff [2005]. We sow tat te family of normalizations, being optimal in view of tis criterion, is ρn β φ n β = n β β+d, ρn β = 1 + ln ϕn β ϕ n b wenever β ]0, b]. Te factor ρ n can be considered as price to pay for adaptation Lepski [1990]. Te most important step in proving te optimality of te family is to find an estimator, called adaptive, wic attains te optimal family of normalizations. Obviously, we seek an estimator wose construction is parameter-free, i.e. independent of β, L, A and M. In order to explain our estimation procedure let us make several remarks. First we note tat te role of te constants A, M and β, L in te construction of te minimax estimator is quite different. Indeed, te constants A, M are used in order to determine te set Θ A, M needed for te construction of te locally bayesian estimator, see and However, tis set does not depend on te localization parameter > 0, in oter words, te quantities A and M are not involved in te selection of optimal size of te local neigborood given by Contrary to tat, te constants β, L are used for te derivation of te optimal size of te local neigborood 4.1.9, but tey are not involved in te construction of te collection of locally bayesian estimators { ˆf, > 0 }. Next remark explains ow to replace te unknown quantities A and M in te definition of Θ A, M nβ,l. Our first simple observation consists in te following: te estimator f remains minimax if we replace Θ A, M in and by Θ Ã, M wit any 0 < Ã A and M M <. It follows from obvious inclusion H d β, L, A, M H d β, L, Ã, M. Te next observation is less trivial and it follows from Proposition 4. Put max = n 1 b+d and define for any function f Af = inf fx, Mf = x V max y b m=0 p p d =m, m fy x p 1 1 x p d. Te following agreement will be used in te sequel: if te function f and m 1 be suc tat m f does not exist we will put formally m f = 0 in te definition of Mf. 118 d

120 M. CHICHIGNOUD 4.1. INTRODUCTION Ten, f nβ,l remains minimax if we replace Θ A, M in by Θ Af, Mf. It remains to note tat contrary to te quantities A and M te functionals Af and Mf can be consistently estimated from te observation and let ˆM Â and be te corresponding estimators. Te idea now is to determine te collection of locally bayesian estimators { ˆf, > 0 } by replacing Θ A, M in and by te random parameter set ˆΘ wic is defined as follows. { ˆΘ = t R D b : 2t 0,...,0 t Â, t 1 4 ˆM }. In tis context it is important to empasize tat te estimators Â and ˆM are built from te same observation wic is used for te construction of te family { ˆf, > 0 }. Contrary to all saying above, te constants β and L cannot be estimated consistently. In order to select an optimal estimator from te family { ˆf, > 0 } we use general adaptation sceme due to Lepski Lepski [1990], Lepski [1992a]. To te best of our knowledge it is te first time wen tis metod is applied in te statistical model wit multiplicative noise and discontinuous distribution. Moreover, except already mentioned papers Polzel and Spokoiny [2006] and Katkovnik and Spokoiny [2008], Lepski s procedure is typically applied to te selection from te collection of linear estimators kernel estimators, locally polynomial estimator, etc.. In te present paper we apply tis metod to very complicated family of nonlinear estimators, obtained by te use of bayesian approac on te random parameter set. It required, in particular, to establis te exponential inequality for te deviation of locally bayesian estimator from te parameter to be estimated Proposition 4. It generalizes te inequality proved for te parametric model Has minskii and Ibragimov [1981] Capter 1, Section 5. Tis result seems to be new. Simulations. Te interest to te multiplicative models is explained by teir popularity in te image processing, for example, SAR images Réfrégier [2002]. If te model is parametric ten te use of te maximum likeliood estimator is rater standard at least if te likeliood is convex Battacar and Sundaresan [2000]. In te present paper we adopt te local parametric approximation to a purely non parametric model. As it proved, tis strategy leads to te teoretically optimal statistical decisions. But te minimax as well as te minimax adaptive approac are asymptotical and it seems natural to ceck ow proposed estimators work for reasonable sample size. In te simulation study, we test te bayesian estimator in te parametric and nonparametric cases. We sow tat te adaptive estimator { approaces te oracle estimator. Te oracle estimator is selected from te family ˆf, > 0} under te ypotesis f tat is known. We sow tat te bayesian estimator performs well starting wit n 100. Tis paper is organized as follows. In Section 4.2 we present te results concerning minimax estimation and Section 4.3 is devoted to te adaptive estimation. Te simulations 119

121 4.2. MINIMAX ESTIMATION ON ISOTROPIC HÖLDER CLASS M. CHICHIGNOUD are given in Section 4.4. Te proofs of main results are proved in Section 4.5 upper bounds and section 4.6 lower bounds. Auxiliary lemmas are postponed to Appendix Section 4.7 contains te proofs of tecnical results. 4.2 Minimax estimation on isotropic Hölder class In tis section we present several results concerning minimax estimation. First, we establis lower bound for minimax risk defined on H d β, L, M, A for any β, L, M and A. For any p 1,..., p d N d we denote p = p 1,..., p d and p = p p d. Definition 13. Fix β > 0, L > 0 and M > 0 and let β be te largest integer strictly less tan β. Te isotropic Hölder class H d β, L, M is te set of functions f : [0, 1] d R aving on [0, 1] d all partial derivatives of order β and suc tat x, y [0, 1] d β sup m=0 p =m x [0,1] d p fx x p 1 1 x p d d p fx x p 1 1 x p d M, d p fy y p 1 1 y p d L [ ] β β, x y 1 p = β. d Tis definition implies tat if f H d β, L, M, A, ten A Af and Mf M, were H d β, L, M, A is defined in te beginning of tis paper. Af and Mf are defined in Maximal and minimax risk on H d β, L, M, A. To measure te performance of estimation procedures on H d β, L, M, A we will use minimax approac. Let E f = E n f be te matematical expectation wit respect to te probability law of te observation Y n satisfying We define first te maximal risk on H d β, L, M, A corresponding to te estimation of te function f at a given point y [0, 1] d. Let f be an arbitrary estimator built from te observation Y n. Let q > 0 R n,q [ f, Hd β, L, M, A ] = sup E f fy fy q. f H d β,l,m,a Te quantity R n,q [ f, Hd β, L, M, A ] is called maximal risk of te estimator f on H d β, L, M, A and te minimax risk on H d β, L, M, A is defined as R n,q [ Hd β, L, M, A ] = inf f were inf is taken over te set of all estimators. 120 R n,q [ f, Hd β, L, M, A ],

122 M. CHICHIGNOUD 4.3. ADAPTIVE ESTIMATION ON ISOTROPIC HÖLDER CLASSES Definition 14. Te normalizing sequence ψ n is called minimax rate of convergence MRT and te estimator ˆf is called minimax asymptotically minimax if lim inf n ψ q n R n,q [ ˆf, Hd β, L, M, A ] > 0; [ lim sup ψn q R n,q ˆf, Hd β, L, M, A ] <. n Teorem 10. For any β > 0, L > 0, M > 0, A > 0, q 1 and d 1 lim inf n [ ϕ q n βr n,q Hd β, L, M, A ] > 0, ϕ n β = n β β+d. Remark 12. Te obtained result sows tat on H d β, L, M, A te minimax rate of convergence cannot be faster tan n β β+d. In view of te obvious inclusion Hd β, L, M, A H d β, L, M te minimax rate of convergence on an isotropic Hölder class is also bounded from below by n β β+d. Te next teorem sows ow to construct te minimax estimator basing on locally bayesian approac. Put = Ln 1 β+d and let f y = ˆθ 0,...,0 is given by 4.1.6, and wit =. Teorem 11. Let β > 0, L > 0, M > 0 and A > 0 be fixed. Ten tere exists te constant C suc tat for any n N satisfying n d β + 1 d [ ] ϕ q n βr n,q f y, H d β, L, M, A C, q 1. Te explicit form of C is given in te proof. Remark 13. We deduce from Teorems 10 and 11 tat te estimator f y is minimax on H d β, L, M, A. 4.3 Adaptive estimation on isotropic Hölder classes { Tis section } is devoted to te adaptive estimation over te collection of te classes H d β, L, M, A. We will not impose any restriction on possible values of L, M, A, β,l,m,a but we will assume tat β 0, b], were b, as previously, is an arbitrary a priori cosen integer. We start wit formulating te result sowing tat tere is no optimally adaptive estimator ere we follow te terminology introduced in Lepski [1991], Lepski [1992a]. It means tat tere is no an estimator wic would be minimax simultaneously for several values of parameter β even if all oter parameters L, M and A are supposed to be fixed. Tis result does not require any restriction on β as well. 121

123 4.3. ADAPTIVE ESTIMATION ON ISOTROPIC HÖLDER CLASSES M. CHICHIGNOUD Teorem 12. For any subset of R + \ {0} noted B suc tat cardb 2, for any β 1, β 2 B and any L > 0, M > 0, A > 0 [ ϕ q n β 1 R n,q f, Hd β 1, L, M, A lim inf n inf f were inf is taken over all possible estimators. +ϕ q n β 2 R n,q f, Hd β 2, L, M, A ] = +, Te assertion of Teorem 12 can be considerably specified if B = 0, b]. To do tat we will need te following definition. Let Ψ = {ψ n β} β 0,b] be a given family of normalizations. Definition 15. Te family Ψ is called admissible if tere exist an estimator ˆf n suc tat for some L > 0, M > 0 and A > lim sup n ψn q β R n,q ˆf, Hd β, L, M, A <, β 0, b]. Te estimator ˆf n satisfying is called Ψ-attainable. Te estimator ˆf n is called Ψ- adaptive if olds for any L > 0, M > 0 and A > 0. Note tat te result proved in Teorem 12 means tat te family of rates of convergence {ϕ n β} β 0,b] is not admissible. Let Φ be te following family of normalizations: ρn β φ n β = n β β+d, ρn β = 1 + ln ϕn β ϕ n b We remark tat φ n b = ϕ n b and ρ n β ln n for any β b., β 0, b]. Teorem 13. Let Ψ = {ψ n β} β 0,b] be an arbitrary admissible family of normalizations. I. For any α 0, b] suc tat ψ n α ϕ n α, tere exists an admissible family {υ n β} β 0,b] for wic lim υ nαψn 1 α = 0. n II. If tere exists γ 0, b suc tat lim n ψ n γφ 1 n γ = 0, ten necessarily a b lim ψ n βφ 1 n lim n [ ψn γ φ n γ n β > 0, β 0, γ; ] [ ] φn β = 0, β γ, b]. ψ n β 122

124 M. CHICHIGNOUD 4.3. ADAPTIVE ESTIMATION ON ISOTROPIC HÖLDER CLASSES Several remarks are in order. 1. We note tat if te family of normalizations Φ is admissible, i.e. one can construct Φ-attainable estimator, ten Φ is in an optimal family of normalizations in view of Klucnikoff criterion Klutcnikoff [2005]. It follows from te second assertion of te teorem. We note owever tat a Φ-attainable estimator may depend on L > 0, M > 0 and A > 0, and, terefore, tis estimator ave only teoretical interest. In te next section we construct Φ-adaptive estimator, wic is, by its definition, fully parameterfree. Moreover, tis estimator obviously proves tat Φ is admissible, and, terefore, optimal as it was mentioned above. 2. Te assertions of Teorem 13 allows us to give rater simple interpretation of Klucnikoff criterion. Indeed, te first assertion, wic is easily deduced from Teorem 12, sows tat any admissible family of normalizations can be improved by anoter admissible family at any given point α 0, b] except maybe one. In particular, it concerns te family Φ if it is admissible. On te oter and, te second assertion of te teorem sows tat tere is no admissible family wic would outperform te family Φ at two points. Moreover, in view of b, Φ-adaptive attainable estimator, if exists, as te same precision on H d β, L, M, A, β < γ, as any Ψ-adaptiveattainable estimator wenever Ψ satisfies Additionally, a implies tat te gain in te precision provided by Ψ-adaptive attainable estimator on H d γ, L, M, A leads automatically to muc more losses on H d β, L, M, A for any β > γ wit respect to te precision provided by Φ-adaptiveattainable estimator. We conclude tat Φ-adaptiveattainable estimator outperforms any Ψ-adaptiveattainable estimator wenever Ψ satisfies It remains to note tat any admissible family not satisfying is asymptotically equivalent to Φ. Construction of Φ-adaptive estimator. As it was already mentioned in Introduction te construction of our estimation procedure consists of several steps. First, we determine te set ˆΘ, built from observation, wic is used after tat in order to define te family of locally bayesian estimators. Next, based on Lepski s metod see Lepski [1991] and Lepski, Mammen, and Spokoiny [1997], we propose data-driven selection from tis family. First step: Determination of parameter set. Put max = n 1 b+d and let θ be te solution of te following minimization problem inf t R D b n i:x i V maxy [ ] 2 2Y i t K Xi y, V maxy = V maxy, max were te D b -dimensional vector Kz = z p : p P b and te sign below means te transposition. Tus, θ is te local least squared estimator and its explicit expression is given 123

125 4.3. ADAPTIVE ESTIMATION ON ISOTROPIC HÖLDER CLASSES M. CHICHIGNOUD by θ = 2 n i:x i V maxy were Y = Y 1,..., Y n and K n y = Put Introduce te following quantities K Xi y K max 1 Xi y [Kn y ] Y, max ] [K X i y max I VmaxyX i i=1,...n δ p = p 1!...p d! p max θ p, p b. is te design matrix Â = δ 0...,0, ˆM = δ 1, and define te random parameter set as follows. { ˆΘ = t R D b : 2t 0,...,0 t Â, t 1 4 ˆM } Second step: Collection of locally bayesian estimators. Put ˆπ t = t u 1 L u, Y n du; ˆΘ ˆθ = arg min t ˆΘ ˆπ t. Te family of locally bayesian estimator ˆF is defined now as follows ˆF = { ˆf y = ˆθ 0,...,0, 0, max ] }. Tird step: Data-driven selection from te collection ˆF. Put k = 2 k max, k = 0,..., k n, were k n is smallest integer suc tat kn min = ln db+d n 1/d. Set { ˆF = ˆf k y = ˆθ } 0,...,0 k, k = 0,..., k n. We put ˆf y = ˆf ˆk y, were ˆf ˆk y is selected from ˆF in accordance wit te rule: { ˆk = inf k = 0, k n : ˆf k y ˆf l y } ˆMSn l, l = k + 1, kn. Here we ave used te following notations S n l = 432D 3 b32qd + 16 λ 1 n 124 b [ ] 1 + l ln 2 l n d, l = 0, 1,..., k n, l

126 M. CHICHIGNOUD 4.4. SIMULATION STUDY and λ n is te smallest eigenvalue of te matrix M n y = 1 n K Xi y K n d i=1 Xi y I V yx i, wic is completely determined by te design points and by te number of observations. We will prove tat tere exists a nonnegative real λ, suc tat λ n λ for any n 1 and any [ min, max ] see Lemma 9. Teorem 14. Let an integer number b > 0 be fixed. Ten for any β 0, b], L > 0, M > 0, A > 0 and q 1 [ ] lim sup φ q n βr n,q ˆf y, H d β, L, M, A <. n Remark 14. Te assertion of te teorem means tat te proposed estimator ˆf y is Φ- adaptive. It implies in particular tat te family of normalizations Φ is admissible. Tis, togeter wit Teorem 13 allows us to state te optimality of Φ in view of Klucnikoff criterion see Klutcnikoff [2005]. 4.4 Simulation study We will consider te case d = 1. Te data are simulated accordingly to te model 4.1.1, were we use te following functions Figure 4.1. Figure 4.1: Here f 1 x = cos2πx + 2, f 2 x = 2.I [x 1/3] + 1.I [1/3<x 2/3] + 3.I [2/3<x] and f 3 x = cos2πx sin19πx To construct te family of estimators we use te linear approximation b = 2, i.e. witin te neigbouroods of te given size, te locally bayesian estimator as te form ˆf x = ˆθ 0 + ˆθ 1 x, x [0, 1]. 125

127 4.4. SIMULATION STUDY M. CHICHIGNOUD We define te ideal oracle value of te parameter = f as te minimizer of te risk: = arg inf [1/n,1] E f ˆf y fy. To compute it we apply Monte-Carlo simulations repetitions. Our first objective is to compare te risk provided by te oracle estimator ˆf and wose provided by te adaptive estimator from Section 4.3. Figure 4.2 sows te deviation of te adaptive estimator from te function to be estimated. In several points, for example in y = 1/2, we remark so-called over-smooting penomenon, inerent to any adaptive estimator. Figure 4.2: Oracle-adaptive ratio. We compute te risks of te oracle and te adaptive estimator in 100 points of te interval 0, 1. Te next tabular presents te mean value of te ratio oracle risk/adaptive risk calculated for te functions f 1, f 2, f 3 and n = 100, function adaptive risk n = 100 n = 1000 oracleadaptive adaptive risk ratio oracleadaptive ratio f f f Figure 4.3 presents te oracle risk/adaptive risk ratio as te function of te number of observations n. Adaptation versus parametric estimation. We consider te function f 4 figure 4.4, wic is linear inside te neigborood of size = 1/8 around point 1/2 and simulate n = 1000 observations in accordance wit te model Using only te observations corresponding to te interval [3/8, 5/8] we construct te bayesian estimator ˆf 1/8 1/2. 126

128 M. CHICHIGNOUD 4.4. SIMULATION STUDY Figure 4.3: Figure 4.4: It is important to empasize tat tis estimator is efficient Has minskii and Ibragimov [1981] since te model is parametric. Our objective now is to compare te risk of our adaptive estimator wit te risk provided by te estimator ˆf 1/8 1/2. We also try to understand ow far is te localization parameter ˆk, inerent to te construction of our adaptive estimator, from te true value 1/8. We compute te risk of eac estimator via Monte-Carlo metod wit repetitions. For eac repetition te procedure select te adaptive bandwidt j, j = 1,..., We confirm once again te over-smooting penomenon since ˆk j ˆk > = , j = 1,..., Note owever tat te adaptive procedure selects te neigborood of te size wic is quite close to te true one. We also compute te risks of bot estimators: bayesian risk = and adaptive risk= We conclude tat te estimation accuracy provided by our adaptive procedure is quite satisfactory. 127

129 4.5. PROOFS OF MAIN RESULTS: UPPER BOUNDS M. CHICHIGNOUD 4.5 Proofs of main results: upper bounds Let H n, n > 1 be te following subinterval of 0, 1. 1 b + 1 ln n d+d H n = b+d,. n 1/d ln n Later on we will consider only te values of belonging to H n. We begin by stating te control of large deviations wic is necessary to prove minimax and adaptive results Auxiliary results Introduce te following notations. For any > 0 satisfying put ω = ωf, y, = { ωp : p P b }, were ω0 = ω 0,...,0 = fy and ω p = p fy p y p 1 1 y p d d p 1!...p d!, pp b. Remind te agreement wic we follow in te present paper: if te function f and vector p are suc tat p f does not exist we put ω p = 0. Let f ω x, given by 4.1.5, be te local polynomial approximation of f inside V y and let b be te corresponding approximation error, i.e b = sup fω x fx. x V y It is easy to sow tat b Ld β by definition of ω in Put finally te bias-variance ratio and an oter term wic are necessary for te interpretation of te following results. { } 1 + 6D N = b n d 2, E = exp b N. 6AfDb 2 Introduce te random events G ˆM = { ˆM Mf Mf/2 } and GÂ = { Â Af Af/2 } and put G = G ˆM GÂ were Â and ˆM are defined in in Section 4.3. Recall tat λ n defined in Section 4.3 is te smallest eigenvalue of te matrix M n y = 1 n d n i=1 K Xi y K Xi y I V yx i, and Kz is te D b -dimensional vector of te monomials z p, p P b. Te next proposition is te milestone for all results proved in te paper. 128

130 M. CHICHIGNOUD 4.5. PROOFS OF MAIN RESULTS: UPPER BOUNDS Proposition 4. For any satisfying and any f suc tat Af > 0 and Mf <, ten ε > 0 P f n d ˆf y fy ε, G B Af, Mf { E exp λ } n ε, 432Mf Db 3 were ˆf y ˆF defined in Te explicit expression of te function B, is given in te beginning of te proof of te proposition. In seeking tis type of result control of large deviations, te new point is to control te term E wic can be very large compared to te normalization n d 1. It is a consequence tat te bayesian estimator is non-linear. Te bias-variance ratio N defined in 4.5.4, wic appears in E, allows to obtain similar results wit linear estimators including te coice of te bandwidt. Te next proposition provides us wit upper bound for te risk of a locally bayesian estimator. Proposition 5. For any n N, H n and any f H d β, L, M, A, ten λ > 0 does not depend of n suc tat: [ ] 1 Ld n β+d q, q 1. E f ˆf y fy q I G C q n d were C q = BA, M q q 144Mf + { Db η + 1 q 1 λ η exp Afλ1 + 6Db Mf Db 3 } Proof of Proposition 4 Before beginning tis proof, we introduce several notations wic simplify understanding and we state Lemma 8. Te knowledge of te likeliood L is not directly involved in te proof of Proposition 1, but only in te proof of Lemma 8. In fact, te proof of Proposition 4 requires only Lemma 8 and using te bayesian estimator wit te local non-parametric approac. For it, we use standard arguments like Markov inequality or te following inclusion { n d ˆθ θ } { } 1 ε inf ˆπ t ˆπ θ. n d t θ 1 ε were ˆθ minimizes ˆπ defined in Set for z > 0, u > 0 and v > 0 Define finally for any u > 0, v > 0 Bu, v = sup 16e 1 D b u 1 { Σ v [B z + 6] exp λz z 0 432vDb },

131 4.5. PROOFS OF MAIN RESULTS: UPPER BOUNDS M. CHICHIGNOUD were B z = z Db D b 2z + 2 D b D b z D b + 2z + 2 D b 2 1, λ > 0 is described in Lemma 9 and does not depend of n, and Σ v = c2 v 3 cv 1 cv 3, cv = exp { 54vD 2 b 1}. Auxiliary Lemma. Introduce te vector θ = θf, y, = { θ p : p P b }, were θ 0 = θ 0,...,0 = ω 0 + b, θ p = ω p, p 0, were ω is te coefficients of Taylor polynomial defined in implies obviously Te definition of b f θ x fx, x V y. Tis trivial inequality will be extensively exploited in te sequel. Let U n = { u R D b process : u = n d t θ, t ΘAf/4, 9Mf }. For any u U n, put te Z,θ u = L θ + n d 1 u, Y n L. θ, Y n Note tat in view of 4.5.8, te event Y i f θ X i is always realized, because te multiplicative noise belongs to [0, 1], terefore Y i fx i f θ X i. By definition of L, te process Z,θ can be written as follows Z,θ u = i: X i V y Lemma 8. For any f H d β, L, M, A and H n 1. sup u 1 u E Z,θ f u 1 Z,θ u 2 C, u 1,u 2 U n u 1 2. E f Z 1/2 n,θ u e g, u U n, { } 3. P f Z,θ udu < δd b < 2C δ, δ > 0. 2 were [0,δ] D b f θ X i f θ+un d 1X i I [Y i f θ+un d 1 X i ], u U n. C = 8 1 D b A 1 f exp {1 + N /Af}, g a = λ na 18MfD b N Af. λ n is te smallest eigenvalue of te matrix M n y defined in Te knowledge of te likeliood occurs only in te proof of previous lemma. 130

132 M. CHICHIGNOUD 4.5. PROOFS OF MAIN RESULTS: UPPER BOUNDS Proof of Proposition 4. Tis proof is based on a result, already known in nonparametric estimation, given by Has minskii and Ibragimov [1981] in teir book Capter 1, Section 5, Teorem 5.2. We begin by stating two assertions wic will prove in te first and second parts of tis proof. Finally, we conclude easily wit tese two assertions and te Markov inequality. Let us introduce a new process z wic is te renormalized process Z,θ. z u = Z,θ u Û n Z,θ vdv, u Ûn were Ûn = n d ˆΘ θ were te set ˆΘ is defined in Remind tat θ = θf, y, is defined in Assertion 1. For any ε > 0, and for all r suc tat 0 < r < ε/3, we assume P f n d ˆf y fy ε, G 2P f u 1 z udu > r 2, G. Te proof of Assertion 1 use te definition of te process z and te following inclusion { n d ˆθ θ } { } 1 ε inf ˆπ t ˆπ θ. n d t θ 1 ε were ˆθ minimizes ˆπ defined in Assertion 2. For all H n and any f suc tat Af > 0 and Mf <, ten for any a > 0 [ ] E f } u 1 z u du I G aσ Mf { B a C exp 1 } g a, Û n { u 1 >a 6D b were g. is defined in Lemma 8. Û nr Tis assertion requires Markov inequality and Lemma 8. First step: Proof of Assertion 1. Te definition of ˆθ and θ = θf, y, implies ε > P f n d ˆf y fy ε, G P f n d ˆθ 0 θ 0 ε, G P f n d ˆθ θ 1 ε, G. Some remarks are in order. First, it is easily seen tat θ Θ Af, 3Mf. Terefore, if te event G olds ten θ ˆΘ. Remind also tat ˆθ minimizes ˆπ defined in and, terefore, te following inclusion olds since ˆθ ˆΘ { n d ˆθ θ 1 ε } { G 131 inf ˆπ t ˆπ θ n d t θ 1 ε } G.

133 4.5. PROOFS OF MAIN RESULTS: UPPER BOUNDS M. CHICHIGNOUD Moreover, ˆπ t = n d 1 ˆΘ = n d D b 1 n d t u 1 L u, Y n du Û n n d t θ u 1 L θ + un d 1, Y n du = n d D b 1 L θ, Y n Û n n d t θ u 1 Z,θ udu. Hence, τ n = n dˆθ θ is te minimizer of χ n s = s u 1 Z,θu Û n Û n Z,θ vdv du and we obtain from and for any ε > 0 n P d f ˆθ θ > ε, G P f inf χ ns χ n 0, G. s 1 >ε Let 0 < r < ε/3, be a number wose coice will be done later. We ave χ n 0 r z udu + u 1 z udu. Note also tat It yields in particular Û n u 1 r [ inf χ ns inf s 1 >ε s 1 >ε ε r χ n 0 inf χ ns s 1 >ε ε 2r Û n u 1 >r Û n u 1 r Û n u 1 r Û n u 1 r z udu + Û n u 1 >r ] s 1 u 1 z udu z udu. Tus, r 0, ε/3 P f χ n 0 inf χ ns > 0, G s 1 >ε P f u 1 z udu > ε 2r P f Û n u 1 >r +P f ε 2r u 1 z udu > r/2, G Û n u 1 r Û n u 1 >r Û n u 1 r z udu < r/2, G. 132 u 1 z udu. z udu, G

134 M. CHICHIGNOUD 4.5. PROOFS OF MAIN RESULTS: UPPER BOUNDS We note tat te second term in can be control by te first one wenever 0 < r < ε/3. Indeed, putting Ûnr = Ûn u R D b : u 1 > r we get P f ε 2r z udu < r/2, G Û n u 1 r P f r Z,θ vdv r Z,θ udu < r Z,θ vdv, G Û n Û nr 2 Û n P f r Z,θ udu > r Z,θ vdv, G Û nr 2 Û n P f u 1 z udu > r/2, G. Û nr Te last inequality togeter wit , and yields P f n d ˆf y fy ε, G 2P f Û nr u 1 z udu > r 2, G. Second step: Proof of Assertion 2. Put U n a = U n u R D b : u 1 > a for all a > 0 and Γ υ = U n υ + 1 \ U n υ for any υ > a. Introduce te following notations. I I υ = Z,θ udu, Q υ = υ Γ υ Û n Z,θ udu. We divide te set Γ υ into T D b nonintersecting parts 1, 2,..., T D b suc tat Γ υ = T D b j=1 j, j l =, j, l. Te integer number T will be cosen later. Let u i be te point arbitrary cosen in te set i. Ten S υ = Z,θ u i du. i i In fact, we seek to approac te process I υ wit a process in steps S υ. Obviously Γ υ = du Γ υ and we get for any σ > 0 P f Sυ > σ P f max Z 1/2 i,θ u i Γυ > σ P f Z 1/2,θ u i > Γυ 1/2 σ. i 133

135 4.5. PROOFS OF MAIN RESULTS: UPPER BOUNDS M. CHICHIGNOUD Note tat te number of summands on te rigt-and side of te last inequality is equal to T D b. Applying Markov inequality and Lemma 8.2, we obtain P f Sυ > σ T D b Γυ σ 1/2 e g υ. In view of to Lemma 8.1, E Sυ f I υ E Z,θ f u Z,θ u i du C i i Note tat eac summand does not exceed υt 1 D b +1 and, terefore, E f Sυ I υ C υ D b+1 T 1. One as P f Iυ > 2σ P f Sυ > σ + P f Sυ I υ > σ. Using , and applying Markov inequality, we get Note A = P f Iυ > 2σ T D b Γυ σ 1/2 e g υ + C υ D b+1 T 1 σ 1. i i u u i 1 du. { } Z Ûn,θudu < δd b. Since Q 2 υ 1 we obtain for any δ > 0 and σ > 0 E f Q υ = E f [Q υ I A + Q υ I Iυ>2σ,A c + Q υi c] Iυ 2σ,A P f Z,θ udu < δdb + P f Iυ > 2σ + 4δ D b σ. Û n 2 Using to Lemma 8.3 and te inequality , we ave E f Q υ 2C δ + T D b Γυ σ 1/2 e gυ + C υ Db+1 T 1 σ 1 + 4δ D b σ. { } { } 1 Coosing T = exp 2D b g υ + 1, σ = exp 1 3D b g υ and { } δ = exp 1 g 6Db 2 a, we obtain E f Q υ [ ] { 2C + 2 D b Γυ + C υ Db exp 1 } g 6Db 2 a. Simplest algebra sows tat Γυ 2υ + 2 D b 2, we get E f Q υ [ υ Db D b 2υ + 2 D b ] { C exp 1 } g 6Db 2 a, 134

136 M. CHICHIGNOUD 4.5. PROOFS OF MAIN RESULTS: UPPER BOUNDS Note tat if te event G is realized ten Ûnr U n r and U n a = j=0 Γ a+j. we obtain in view of E f Û n u 1 >a u 1 z u I G du a + j + 1 Ef Q a+j = Σ Mf { a B a C exp 1 } g 6Db 2 a. were we ave put B a = a Db D b 2a + 2 D b D b a D b + 2a + 2 D b 2 1. j=0 Tird step: Conclusion. In view of Assertion 2, coosing r = ε/4 we get E f Û n u 1 >ε/4 u 1 z u I G du ε 4 Σ Mf B ε/4 C e 1 6D b 2 g ε/4. Using te Markov inequality, we ave in view of P f Û n u 1 >ε/4 u 1 z udu > ε 8, G 2Σ Mf B ε/4 C e 1 6D b 2 g ε/4. Te assertion of Pro follows now from te last inequality, Assertion 1 and te definitions of C, g and te function B, Proof of Proposition 5 To prove te proposition it suffice to integrate te inequality obtained in Proposition 4 and to use te following lemma wic will be extensively exploited in te sequel. Lemma 9. Tere exists λ > 0 suc tat n > 1 and H n, we ave λ n λ. were λ n is te smallest eigenvalue of te matrix M n y = 1 n d n i=1 K Xi y K Xi y I V yx i, and Kz is te D b -dimensional vector of te monomials z p, p P b. 135

137 4.5. PROOFS OF MAIN RESULTS: UPPER BOUNDS M. CHICHIGNOUD Proof of Proposition 5. constants c 1 = 1 + 6D2 b, c 6AfDb 2 2 = In order to simplify te proof, let us introduce te following λ. 432Mf Db 3 By definition of Af, Mf, B.,. respectively in , and A, M, we ave te following inequality B Af, Mf BA, M. By integration of Proposition 4 and using Lemma 9, we get for any q 1 and f H d β, L, M, A E f ˆf y fy q I G = + 0 η q 1 P f ˆf y fy η, G + = n d q η q 1 P f ˆf y fy = n d q [ c1 c2 N η q 1 dη η q 1 P f c 1 N c 2 dη η n, G d dη ˆf y fy η n d, G [ n d q c q ] + 1 q c q N q + η q 1 BA, M E e c2η dη. c 2 1 c2 N dη ] In seeking tis type of result Control of te risk, te new point is to control te term E wic can be very large compared to te rate n d 1. It is a consequence tat te bayesian estimator is non-linear. Te bias-variance ratio N defined in 4.5.4, wic appears in E, allows to obtain similar results wit linear estimators. By calculation of te integral in , b and N respectively defined in and 4.5.4, te assertion of Proposition 5 is proved Proof of Teorem 11 By definition of = Ln 1 β+d, we ave Ldn β+d = d, n d q = L qd β+d ϕ q n β. We take ˆM = M and Â = A known in minimax case, by definition of f in 4.1.7, 4.1.8, terefore Proposition 5 can be obtained by replacing ˆf by f. Indeed te event G, defined in Section 4.5.1, is not necessary wen te set of coefficients ΘA, M, in te definition of 136

138 M. CHICHIGNOUD 4.5. PROOFS OF MAIN RESULTS: UPPER BOUNDS f see 4.1.6, is not random. In tis case, te reasoning of proofs of Propositions 4 and 5 remains true for te estimator f, ten Proposition 5 can be applied for te estimator f wit same constants. Using , we obtain E f f y fy q C q d L qd β+d ϕ q n β. were λ is defined in te Lemma 5 in Section Te teorem 11 is proved Proof of Teorem 14 Tis Proof is based on te Lepski sceme developed by Lepski [1991] and adapted for te bandwidt selection by Lepski, Mammen, and Spokoiny [1997]. We start te proof wit formulating auxiliary Lemmas wose proofs are given in Appendix Section 4.7. Define J 1 = Ld1 + 6D 2 b /6AfD2 b and [ ] 1 c1 + b β ln n β+d 1 qdj =, c < 1 1 n b + dβ + d. and let te integer κ be defined as follows κ max < 2 κ+1 max. Te definitions of and κ imply te following Lemmas. Lemma 10. were C q = C q E f ˆf k y fy q I G C q 1 + k ln 2 q β + d1 qdj 1 1 β + d 1Ld 1. n d k q, k κ, Lemma 11. For any f H d β, L, M, A and any k κ + 1 were J 2 = 1 2 8qd+4 1. P f ˆk = k, G J2 BA, M exp { J 1 n β+d} 2 k 18qd+4, Lemma 12. Tere exists a universal constant ϑ > 0 suc tat { } lim sup n sup f H d β,l,m,a exp An b b+d 16Mϑ 2 D 2 b P f G c =

139 4.5. PROOFS OF MAIN RESULTS: UPPER BOUNDS M. CHICHIGNOUD Proof of Teorem 14. We decompose te risk as follows E f ˆf ˆk y fy q I G E f ˆf ˆk y fy q Iˆk κ,g + E f ˆf ˆk y fy q Iˆk>κ,G = R 1 f + R 2 f. First we control R 1. Obviously ˆf ˆk y fy ˆf ˆk y ˆf κ y + ˆf κ y fy. Note tat te realization of te event G implies ˆM 3Mf/2. Tis togeter wit te definition of ˆk yields ˆf ˆk y ˆf κ y Iˆk κ,g Cs n κ, s n k = 1 + k ln 2 q n d k q, were C = 288MD 3 b λ 1 32qd In view of Lemma 10 we also get E f ˆf κ y fy q C q s n κ. Noting tat te rigt and side of te obtain inequality is independent of f and taking into account te definition of κ and we obtain lim sup n sup f H d β,l,a,m φ q n βr 1 f <. Now let us bounded from above R 2. Applying Caucy-Scwartz inequality we ave in view of Lemma 11 R 2 f = k n k>κ k>κ E f ˆf k y fy q I [ˆk=k,G ] Ef ˆf k y fy 2q 1/2 P f {ˆk = k, G } = k>κ Ef ˆf k y fy 2q 1/22 k 14qd+2, were we ave put = J 2 BA, M exp { J 1 n β+d}. We obtain from Lemma 10 and were R 2 f J 3 n d max q exp { J 1 n β+d}, J 3 = J 2 BA, M 2 4qd+2 C1/2 2q s s ln 2 q 2 3sdq

140 M. CHICHIGNOUD 4.6. PROOFS OF LOWER BOUNDS It remains to note tat te definition of implies tat lim sup n φ q n βn d max q exp { J 1 n β+d} < and tat te rigt and side of is independent of f. Tus,we ave lim sup n sup f H d β,l,a,m tat yields togeter wit and lim sup n sup f H d β,l,a,m φ q n βr 2 f <. φ q n βe f ˆf ˆk y fy q I G <. To get te assertion of te teorem it suffices to sow tat lim sup n sup f H d β,l,a,m φ q n βe f ˆf ˆk y fy q I G c <. Note tat ˆf ˆk y 4 ˆM in view of Note also tat te local least square estimator δ is linear function of observation Y n and, moreover 0 Y i M, i = 1,..., n. Tis togeter wit te definition of ˆM, expression allows us to state tat tere exist 0 < J4 < + suc tat ˆf ˆk y fy J4 M. Here we also ave taken into account tat f M. Finally we obtain E f ˆf ˆk y fy q I G c J q 4 M q P f { G c }. and follows now from Lemma Proofs of lower bounds Te proofs of Teorems 10 and 13 are based on te following proposition. Put φ n γ = [ n b γ ln n ] γ γ+d, γ 0, b] and let were v 0 and α, β 0, b] 2. R n q f, [ v = sup E f φ q n α fy ] fy q f H d α,l,m,a [ + sup E f n vq φ q n β fy ] fy q. f H d β,l,m,a Proposition 6. Let Ψ be admissible family of normalizations suc tat ψ n α / φ n α n 0. Ten, for any 0 v < β α/β + 1α + 1 lim inf n Te proof is given in section inf f R q n f, v >

141 4.6. PROOFS OF LOWER BOUNDS M. CHICHIGNOUD Proof of Teorem 10 Using te proposition 6 for β = α, we ave to coose v = 0 and one gets [ R n,q Hd β, L, M, A ] = R n q f, 0 [ = sup E f f H d α,l,m,a n q α α+1 fy ] fy q > 0, f Proof of Teorem 13 I. To proof of te first assertion of te teorem it suffices to consider te family {υ n β} β 0,b], were υ n α = ϕ n α and υ n β = 1 for any β α. Te corresponding attainable estimator is te estimator being minimax on H d α, L, M, A. II. Let us consider te family {φ n β} β ]0,b], wic is admissible in view of Teorem 14. First, we note tat γ = b is not possible since φ n b = ϕ n b te minimax rate of convergence on H d b, L, M, A. Tus we assume tat γ satisfying belongs to δ ]0, b[. Let ˆf Ψ be a Ψ n -attainable estimator. Since ψ n α/φ n α 0, n in view of ten obviously lim sup n sup f H d γ,l,m,a E f [ φ q n γ ˆf Ψ y fy q] = 0. Terefore, applying Proposition 6 wit v = 0 we ave for any β < γ lim sup n sup f H d β,l,m,a E f [ φ q n β ˆf Ψ y fy q] > 0. We conclude tat necessarily ψ n β φ n β for any β < γ. Moreover for anyβ > γ applying Proposition 6 wit an arbitrary 0 v < β γ/β + 1γ + 1 we obtain tat ψ n β n v φ n β, β > γ. It remains to note tat te form of rate of convergence proved in Teorem 10 implies tat φ n γ / ψ n γ = o [ln n] γ γ+d. 140

142 M. CHICHIGNOUD 4.6. PROOFS OF LOWER BOUNDS Proof of Proposition 6 Let κ > 0 te parameter wose coice will be done later. Put β α ln n α+d = κ. n Later on witout loss of generality we will assume tat L > 1. Consider te functions: f 0 1 and f 1 x = 1 L 1 κ α x1 y 1 α+d φn αf,..., x d y d, x [0, 1] d. Here F is a compactly supported positive function belonging to H d α, 1, M, A suc tat F 0 = 1 = max x F x. It is easily seen tat f 1 H d α, L, M, A. Terefore, we ave R q n f, v E 0 n v φ 1 n β fy q φ E1 n α fy f1 y q n E v 0 φ 1 n β fy q φ E1 n α q fy 1 + z, were z = L 1 κ α α+1 F 0. Set were ϱ = λ = φ 1 n α 1 fy, ς n = n v φ nα φ n β = n v β α. We get β+1α+1 R q n f, v E 0 ςn λ q + E1 z λ q ϱ ln n, E 0 ςn λ q I{ λ >z/2} + E 1 z λ q I{ λ z/2} E ςn z 0 q I 2 { λ >z/2} + E 1 z q I 2 { λ z/2}. Noting tat f 1 f 0, since F is positive, and putting c n Y n = I { λ >z/2} we obtain n We ave R q n f, v ς q n n f 1 X i = i=1 z q n i=1 f 1X i 2 q n i=1 f 1X i + zq 2 q 1 n i=1 f 1X i n i=1 f1 X 1 0 f1 X L 1κ α α+d φn αf 1 L 1κ α α+d φn α n d f1 X n 0 f1 X n 0 c n xdx 1... dx n 1 c n xdx 1... dx n. Xi y e L 1κ n L 1κβ α. 141

143 4.6. PROOFS OF LOWER BOUNDS M. CHICHIGNOUD We obtain in view of and R q z q n f, v ςn q 2 q e L 1κ n L 1κβ α 1 n i=1 f 1X i + zq 2 q 1 n i=1 f 1X i f1 X f1 X 1 0 f1 X n... zq 2 q 1 ς q n e L 1κ n L 1κβ α. 0 f1 X n 0 c n xdx 1... dx n 1 c n xdx 1... dx n Case 1: β = α. Coosing κ = 1, and noting tat ς n = 1 and n i=1 f 1X i e L 1, we deduce from tat yields: Case 2: β > α. Put κ = inf f R q n f, v L 1q 2 q e L 1 > 0. q ϱ v t n 1 + L 1β α > 0, t n = q ln n ln β α ln n ϱ n 0. Tis coice provides us wit te following bound ς q ne L 1κ n L 1κβ α = 1 + β α ln n qϱ e L 1κ n qϱ v L 1κβ α 1 + β α ln n qϱ e 2 3 ql 1 n tn e 2 3 ql 1. Tis yields inf f R q n α α+1 f, v L 1q κ q e 2 2 q 3 ql 1 >

144 M. CHICHIGNOUD 4.7. APPENDIX 4.7 Appendix Proof of Lemma 8 Later on witout loss generality we will suppose tat n d N. In order to simplify understanding of tis proof, we note te approximation polynomial A i u = f θ+un d 1X i, i = 1,..., n for all u U n. 1. Note tat for u U n E f Z,θ u i: X i V y A i 0 fx i en /Af. Tis result is te consequence of te definition of Z,θ in and te following calculation i: X i V y E f I [Yi A i = P u] f Yi A i A i u = 1 u fx i. In 4.7.1, te second inequality is obtained wit classical inequality 1 + ρ e ρ, ρ R and recall tat f θ x fx. A i 0 fx i = 1 + Ai 0 fx i exp { b n d /Af } fx i i: X i V y Case 1: If u 1 u 2 1 1, te inequality allows to get E f Z,θ u 1 Z,θ u 2 E f Z,θ u 1 + E f Z,θ u 2 2e N /Af u 1 u 2 1. Case 2: Assume now tat u 1 u 2 1 < 1 and introduce te random events F 1 = { i = 1,..., n : Y i A i u 1 A i u 2 }, F 2 = { i = 1,..., n : Y i A i u 1 A i u 2 } { i : Y i > A i u 1 A i u 2 }, F 3 = { i : Y i > A i u 1 A i u 2 }. We ave used te following notations: a b = mina, b and a b = maxa, b, a, b R. For any u 1, u 2 U 2 n, we ave E f Z,θ u 1 Z,θ u 2 = Ef Z,θ u 1 Z,θ u 2 I[F1 ] +E f Z,θ u 1 Z,θ u 2 I [F2 ] + E f Z,θ u 1 Z,θ u 2 I [F3 ] = K 1 + K 2 + K 3. Te following bound will be extensively exploited in te sequel. f v x 2v 0,...,0 v Af, v ΘAf/4, 9Mf, x [0, 1] d. 143

145 4.7. APPENDIX M. CHICHIGNOUD Control of K K 1 = and P f { F1 } = i: X i V y i: X i V y A i 0 A i u 1 A i 0 A i i: X i V y u 2 P f { Yi A i u 1 A i u 2 } P { } f F1, i: X i V y A i u 1 A i u 2. fx i Terefore, K 1 1 e N /Af i: X i V y 1 exp A i u 1 A i u 2 A i u 1 A i u 2 i: X i V y i: X i V y A i 0 fx i ln Ai u 1 A i u 2. A i u 1 A i u 2 Remember tat A i u1 A i u 2 n d 1 u 1 u 2 1 and A i u Af/4. Let us give te following calculation wit inequality of finite increments ln Ai u 1 A i u 2 A i u 1 A i u 2 = ln A i u 1 A i u 2 ln A i u 1 A i u 2 nd 1 u 1 u 2 1 A i u 1 A i u 2 Using last inequalities, 4.7.2, 4.7.3, and te well known inequality 1 e ρ ρ, we ave K 1 1 Af en /Af u 1 u 2 1. Control of K 2. and define Put F 2 = { } i = 1,..., n : Y i A i u 1 A i u 2 \ { } i = 1,..., n : Y i A i u 1 A i u 2 = G\F 1. G 1 = G 2 = { X i V y : A i u 1 A i u 2 < fx i }, X i V y : A i u 1 A i u 2 < fx i }. 144

146 M. CHICHIGNOUD 4.7. APPENDIX Note tat F 1 G and, terefore, K 2 = i: X i V y i: X i V y A i { } { } 0 Pf G Pf F1 A i u 1 A i u 2 A i 0 Ai u 1 A i u 2 A i u 1 A i u 2 fx i i: X i G 1 i: X i G 2 Ai u 1 A i u 2 fx i Te definition of G 2 implies i: X i V y 1 1 A i u 1 A i u 2 A i i: X i G 2 u 1 A i u 2 i: X i G c 2 1 fx i Since G 1 G 2, u 1 u 2 1 < 1 and f u x u 1, x [0, 1] d, u U n, using te last inequality, we obtain K 2 i: X i V y A i 0 fx i Ai u 1 A i u 2 1 A i i: X i G 2 u 1 A i u 2 4D b e 1+N /Af u 1 u 2 1 /Af. It remains to note tat K 3 bounds of K 1 and K 2. = 0 and te first assertion of te lemma is proved wit te 2. For any u U n, since te random variables Y i i are independent we ave, For any i, we ave E f Z 1/2 n,θ u = i: X i V y A i { 0 P A i f Yi Au} i. u [ ] [ A i { } 0 P A i f Yi A i A i u = 0 1 Ai u Ai 0 u A i u fx i fx i fx i A i 0 A i u ] A i u. A i 0 Remind tat in view of f θ x fx and 0 < f θ x 3Mf for x V y. Moreover, for u U n = n d Θ Af/4, 9Mf θ, 0 < f θ+un d 1x 9Mf. Tus for all i : X i V y, [ ] [ ] A i { } 0 P A i f Yi A i A i u 0 A i A 0 A i u Ai 0 1 Ai 0 A i 1/2 u. u fx i i u A i 0 fx i 9Mf 145

147 4.7. APPENDIX M. CHICHIGNOUD Te last inequality implies E f Z 1/2 n,θ u A i 0 fx i i: X i V y e N/Af exp 1 f un d 1X i 9Mf 1 18Mf n d i: X i V y fu X i. It remains to sow n d i: X i V y fu X i λn D 1 b u 1. Let us remember tat u = u p, p P b were P b is defined in First, we get from te definition of f u x y x y f u x = u K = K u, x [0, 1] d, and, terefore, 1 n d i: X i V y fu X i 1 = n d i: X i V y u Xi y K. Assume u 0 and put v = u/ u 1. Noting tat f v x 1, 1 n d i: X i V y fu X i x [0, 1] d, we ave 1 n d u Xi y K f v X i i: X i V y 1 = u 1 n d u Xi y Xi y K K u i: X i V y 1 u 1 u 1 K Xi y Xi y K u n d. i: X i V y Te bound follows now from Lemma 9. Te assertion of te lemma follows from and In view of Lemma 8.1, we ave E f Z,θ u Z,θ 0 C u 1, u U n. 146

148 M. CHICHIGNOUD 4.7. APPENDIX Taking into account tat Z,θ 0 = 1 we obtain applying 4.7.7, Fubini s teorem and Markov inequality { δ δ P f Z,θ vdv < 1 } δd b { δ δ = P f Z,θ v Z,θ 0 dv < 1 } δd b { δ δ P f Z,θ v Z,θ 0 } 1 dv > 2δ D b 2C δ 0 δ 0 0 δ 0 E f Z,θ v Z,θ 0 dv 2 δd b Proof of Lemma 9 First step: M n y is a nonnegative positive matrix. Let H n, n > 1 is defined in First, we prove tat inf λ n > 0, n > 1. H n Suppose tat n 1 > 1, n1 H n1 suc tat λ n1 n1 = 0. Recall tat ft x = tk 1 x y for all t R D b and note tat τ R D b τ M n1 n1 y τ = = 1 n d n 1 1 n d n 1 i: X i V n1 y i: X i V n1 y [ ] 2 τ K Xi y n1 [ fτ X i ] 2 0. Since λ n1 n1 is te smallest eigenvalue of te matrix Mn1 n1 y te assumption λ n1 n1 = 0 implies tat tere exist τ belonging to te unit spere of R D b suc tat 1 [ fτ X i ] 2 = 0. n d n 1 i: X i V n1 y It obviously implies tat f τ X i = 0 for all X i V n1 y. It remains to note tat n d n 1 d b + 1 since n1 H n and to apply te result obtained in Nemirovski [2000] page 20. It yields τ = 0 and te obtained contradiction proves

149 4.7. APPENDIX M. CHICHIGNOUD Second step: M n y n M. Let λ 0 be te smallest eigenvalue of te matrix M = K x Kx dx [ 1/2,1/2] d wose general term is given by Let us prove tat M p,q = d j= x p j+q j j dx j, 0 p, q b lim sup n sup λ n λ 0 = 0. H n Put m = n 1/d and witout loss of generality we will assume tat m is integer. Remind tat te general term of te matrix M n y is given by were X ij Mn y p,q = 1 n d i: X i V y j=1 d Xij y pj +q j j. = i j /m for all j = 1,..., d and X i = X i1,..., X id. We get 1 n d d i: X i V y j=1 1 n d 1 n d ij i j 1 i: X i V y j=1 ij +1 It yields by cange of variables tat d j= nd 1 x pj+qj i: X i V y j=1 pj +q xj /m y j j dx j d Xij y j d i j j dx j 1 n d d j=1 pj +q j pj +q xj /m y j j dx j, i: X i V y j= nd d Xij y j x p j+q j j dx j, pj +q j Note tat n d ln 1 1+d n for any Hn. Tis togeter wit yields lim sup sup Mn y M p,q p,q = 0, 0 p, q b. n H n 148

150 M. CHICHIGNOUD 4.7. APPENDIX Te last result obviously imply Tird step: Conclusion. First we sow tat λ 0 > 0. Indeed, τ R D b [ τ Mτ = fτ x ] 2 dx 0. [ 1/2,1/2] d Since λ 0 is smallest eigenvalue of te matrix M te assumption λ 0 = 0 would imply tat tere exists τ belonging to te unit spere of R D b suc tat f τ 0. Since f τ is a polynomial te last identity is possible if and only if τ = 0. Te obtained contradiction sows tat λ 0 > 0. Next, note tat in view of tere exists n 0 suc tat n > n 0 and H n, λ n λ 0 /2. On te oter and in view of min n n0 inf Hn λ n > 0. It remains to define λ > 0 as λ = min min inf λ n, λ 0 /2. H n n n 0 Proof of Lemma 10 Remind tat k κ by definition of k, and κ see Using Proposition 5 wit = k, it yields E f ˆf k y fy q I G C q Te control of n β+d requires te following calculation n β+d 1 + C q 1 Ld n β+d k n d k q 1 Ld n β+d q. n d k b β b + dβ + d ln n = ρ nβ were ρ n β is te price to pay for adaptation defined in By definition of k, we ave 1 + κ ln 2 = 1 + ln max 1 + ln max k b β 1 + b + dβ + d ln n 1 β + d ln [ c 1 + b β ln n ]. 149

151 4.7. APPENDIX M. CHICHIGNOUD Using te classical inequality ln1 + x x and c 1/β + db + d, we obtain wit te last inequality β + d 1 β + d ρ nβ 1 + κ ln k ln 2, k κ. According to , and , Lemma 10 is proved. Proof of Lemma 11 Note tat for any k κ + 1 and by definition of ˆk {ˆk = k } = l k { ˆf k 1 y ˆf l y > ˆMSn l}. Note tat S n l is monotonically increasing in l and, terefore, {ˆk = k } { ˆf k 1 y fy > 2 1 ˆMSn k 1} [ { l k ˆf l y fy }] > 2 1 ˆMSn l. Taking into account tat te event G implies te realization of te event ˆM Mf/2 A/2 we come to te following inequality: for any k κ + 1 P ˆk { = k, G P ˆf k 1 y ˆfy } > 4 1 Mf S n k 1, G l k Note tat te definition of S n l yields { P ˆf l y fy } > 4 1 Mf S n l, G. n d l S n l 432D 3 b32qd + 16λ 1 l [ 1 + ln max / l ]. Tus, applying Proposition 4 and Lemma 9 wit J 1 = Ld1 + 6Db 2/6AfD2 b and ε = J 1 λ 1 l [ 1 + ln ] max / l, we obtain l k 1 { P ˆf l y fy } > Mf/4 Sn l, G BA, ME l [ max / l ] 8qd Note tat b l Ld β l since f H d β, L, A, M and, terefore, = BA, ME l 2 l8qd+4. N l Ldn l β+d Ldn κ β+d Ldn β+d, l k 1. Here we ave also used tat k κ + 1. We obtain from , and tat k κ + 1 were J 2 = 1 2 8qd+4 1. P ˆk = k, G J2 BA, M exp { J 1 n β+d} 2 k 18qd+4, 150

152 M. CHICHIGNOUD 4.7. APPENDIX Proof of Lemma 12 Put for any p P b W p ni y = p 1!...p d! d p max n K 0 M 1 n max y K Xi y max I VmaxyX i, and note tat δ p = d i=1 2Y i W p ni y. Te model can be rewritten as 2Y i = fx i + fx i 2U i 1. Tus, putting F X = fx i, V X = fx i=1,...,n i 2U i 1 and i=1,...,n p fy Df = y p 1 1 y p, p P d β, we obtain ˆM Mf δ Df 1 V F X Df 1 + V V X 1. Here V is D b n-matrix of general term V pi = W p ni y and. 1 is te l 1 -norm. Let us prove tat } P f { ˆM } Mf > Mf/2 exp { n b b+d. 8ϑ 2 2Db 2 In view of te result proved in Härlde, Hart, Marron, and Tsybakov [1992] and Tsybakov [2008] tere exist ϑ 1, ϑ 2 > 0 suc tat n V F X Df 1 ϑ 1 β β max, d sup W p ni y ϑ 2, p P i,x n d β. max Remind tat max 0 and, terefore, n 0 suc tat ϑ 1 β β max Mf/4 for any n n 0. Note tat n 0 can be cosen independent on f since Mf/4 A/4. Tus, we get P f { ˆM } Mf > Mf/2 P f fx i 2U i 1W p ni p N d : 0 p β y X i [0,1] > Mf 4D b. d Noting tat fxi 2U i 1W p ni y Mf ϑ 2 n d max, applying Höeffding inequality Bouceron, Bousquet, and Lugosi [2004] and te last inequality, we obtain P f fx i 2U i 1W p ni p N d : 0 p β y X i [0,1] > Mf 4D b d { } } D b exp nd max = D 8ϑ 2 2Db 2 b exp { n b b+d ϑ 2 2Db 2 151

153 4.7. APPENDIX M. CHICHIGNOUD Terefore is proved. Since fy Af Ld β max Af/4 for n n 0 one as { } P f Â Af > Af/2 P f { ˆM } Mf > Af/4. Repeating previous calculations we obtain P f { Â Af > Af/2 } { [ ] 2n } b Af b+d D b exp 16 [ Mf ] 2 ϑ 2 2 Db 2 } D b exp { An b b+d. 16Mϑ 2 2Db 2 Since P f G c P f G câ + Pf G cˆm te assertion of te lemma follows from and

154 Capter 5 Huber Estimation Ce capitre correspond à l article Cicignoud [2010c]. L estimateur de Huber est défini pour la première fois dans le cas non-paramétrique. Une caractéristique importante de cet estimateur est sa robustesse. En effet, nous démontrons que l estimateur de Huber estime la fonction de régression dans le modèle de régression additive défini par pour toute densité g ξ vérifiant les ypotèses 1. Si les paramètres de régularité β, L sont connus, l estimateur atteint la vitesse ϕ n,2 β. Pour l adaptation, la vitesse atteinte est φ n,2 β. Le critère de Huber s appuye sur l idée de la médiane norme l 1 et la moyenne norme l 2 au voisinage de 0, ce qui permet d avoir un comportement plus continu que pour le critère l 1. De plus, celui-ci adopte un comportement robuste. Nous accordons une importance toute particulière à la proposition 7 qui est un résultat sur les grandes déviations de l estimation de Huber. 5.1 Introduction Let statistical experiment is generated by te observation Z n = X i, Y i i=1,...n, n N, were X i, Y i satisfies te equation Y i = fx i + ξ i, i = 1,..., n. Here f : [0, 1] d R is unknown function and we are interested in estimating f at a given point y [0, 1] d from observation Z n. Te random variables noise ξ i i 1,...,n are supposed to be independent and identically distributed of law ξ of unknown density g ξ. wit respect to te Lebesgue s measure R. Te design points X i i 1,...,n are random, independent and uniformly distributed on [0, 1] d. Te random vector X i i 1,...,n is independent of ξ i i 1,...,n. Along te paper, te unknown function f is supposed to be smoot, in particular, it belongs to te Holder ball of functions H d β, L, M see Definition 16 below. Here β > 0

155 5.1. INTRODUCTION M. CHICHIGNOUD is te smootness of f, M is te upper bound of f and its partial derivatives and L > 0 is Lipscitz constant. Te main goal is to estimate f at a given point y [0, 1] d, for it, we assume following conditions on te unknown density g ξ of te noise. Assumptions g ξ is symmetric, 2. g ξ 0 A > 0, 3. g ξ is continuous in 0. Remark tat we do not need te existence of te mean for te noise. We suppose in te first assumption tat te noise is symmetric. It is reasonable in practice. Te oter bot assumptions imply tat it exits an unique teoretical median equals 0 of te noise. i.e. 0 is te unique solution of te equation Pξ < 0 = 1/2. Motivation. In tis paper, we deal wit robust nonparametric estimation, in particular te idea of te median. We searc an estimator wic is not sensitive to outliers. It is well-known tat te median is more robust tan average see Rousseeuw and Leroy [1987] or Huber and Roncetti [2009]. In imaging, people use more and more of median filters to reconstruct images Astola, Egiazarian, Foi, and Katkovnik [2010]. Tis idea as also used by Arias-Castro and Donoo [2009]. Te robustness of te median is studied for estimation of te no-continuous functions, te autors developed a new metod so-called Two-scale median filte to improve te minimax rate of convergence. Te asymptotic normality of te median is used by Brown, Cai, and Zou [2008] to approximate te regression model by te wavelet sequence data and use BlockJS wavelet see Stein [1981] et Cai [1999] for adaptation. But teir conditions on te density g ξ are stronger tan Assumptions 2 and only unidimensional functions are studied. Anoter new point is studied in tis paper : te random design of uniform law on a compact of R d. It is te first time were a estimator, wic does not depend on te density g ξ, is studied from te initial observations. Te principle of te median falls witin te framework of M-estimation Van de Geer [2000]. Indeed, it is well-known tat te median is te solution to te problem of minimization of absolute values. Te main problem is te discontinuity absolutes values of te derivative at 0. In tis sense, Huber developed te so-called Huber function Huber [1964, 1981] for te estimation. Tis teory as been widely taken up by Rousseeuw [1984] in parametric models. Today, many areas of applications use te Huber function in relative GPS positioning Cang and Guo [2005] or imaging Petrus [1999]. In nonparametric estimation, te Huber approac is introduced by Tsybakov [1982a, 1982b, 1983, 1986] and Härdle and Tsybakov [1988, 1992]. Hall and Jones [1990] and Härdle and Tsybakov [1992] used respectively te 154

156 M. CHICHIGNOUD 5.1. INTRODUCTION Cross Validation and Plug-in metod for te L 2 -risk and pointwise asymptotic normality. Only, Reiss, Rozenolc, and Cuenod [2009] proposed te adaptation for te pointwise risk over locally almost constant functions i.e. β 1. Recently, several approaces of te selection from te family of linear estimators were proposed, see for instance Goldensluger and Lepski [2009a, 2009b] and Juditsky, Lepski, and Tsybakov [2009] and te references terein. Tese tecnologies are used in te construction of data-driven adaptive procedures and tey are eavily based on te linearity property. As we already mentioned, te locally Huber estimators are completely non-linear and in Section 5.3 we propose te selection rule from tis family. It requires, in particular, to develop new non-asymptotical exponential inequalities, wic may ave an independent interest Proposition 7. We propose a metod of estimation based on te idea of median estimator wit te Huber function Actually, we use a locally parametric metod, we approximate te function f by a polynomial f θ on a neigborood V y of size d and we estimate te coefficients θ by te Huber estimator We study te maximal risk on te isotropic Hölder spaces and we develop an adaptive procedure based on te Lepski s metod for te pointwise estimation. A possible result of tis work is te study of estimating anisotropic functions. Indeed, te metods developed by Kerkyacarian, Lepski, and Picard [2001], Klutcnikoff [2005] and Goldensluger and Lepski [2008,2009a] are based on te linear properties and tey do not agree to tese estimators. Anoter perspective is looking for an oracle inequality for te family of Huber estimators indexed by te bandwidt. Huber estimation and maximal risk. Te first part of te paper is devoted to estimate over H d β, L, M estimation, in particular, wen te parameters β, L, M and A are supposed to be known a priori. We find te rate of convergence on H d β, L, M and propose te estimator wit a deterministic coice of n β, L wic acieves te rate We sow tat for any β R +, te rate of convergence is bounded from below by te sequence ϕ n β = n β 2β+d. We note tat is te rate of linear estimators. But it is not necessarily optimal according to te density of te noise. For example, if ξ is an uniform random variable, it is well-known tat te minimax rate is n β β+d. In te Gaussian model, we ave te same rate n β 2β+d wic is minimax. To construct our estimator, we use so-called local Huber estimation wic consists in te following. Let d [ V y = yj /2, y j + /2 ], j=1 155

157 5.1. INTRODUCTION M. CHICHIGNOUD be te neigborood around y suc tat V y [0, 1] d, were 0, 1 be a given scalar. Fix b > 0 witout loss of generality we will assume tat b is integer and let D b = b m + d 1. d 1 m=0 Let Kz, z R d be te D b -dimensional vector of polynomials of te following type te sign below means te transposition: K z = d j=1 z p j j, p 1,..., p d N d : 0 p p d b For any t R D b we define te local polynomial x y f t x = t K I V yx, x [0, 1] d, were I denotes te indicator function. Te local polynomial f t can be viewed as an approximation of te regression function f inside of te neigborood V. Introduce te following subset of R D b Θ M = { t R D b : t 1 M }, were. 1 is l 1 -norm on R D b. Consider te Huber function, Qz = z2 2 I z 1 + z 1 2 I z >1, were I denotes te indicator function. Put te Huber criterion m t = m t, Z n := 1 n d n Q Y i f t X i I {Xi V y} i=1 Let θ be te solution of te following minimization problem : θ = arg min t ΘM m t. Te locally Huber estimator f y of fy is defined now as f y = θ 0,...,0. We note tat similar locally parametric approac based on maximum likeliood estimators was recently proposed in Katkovnik and Spokoiny [2008] for regular statistical models or based on bayesian estimators was recently proposed in Cicignoud [2010a] for non-linear models. 156

158 M. CHICHIGNOUD 5.1. INTRODUCTION As we see, our construction contains an extra-parameter to be cosen. To make tis coice, we use quite standard arguments. First, we note tat in view of f H d β, L, M θ = θf, y, Θ M : fx f θ x Ld β. sup x V y Tus, if is cosen sufficiently small our original model is well approximated inside of V y by te parametric model Y i = f θ X i + ξ i, i = 1,..., N, N = n d 1/2, in wic te Huber estimator θ is acieves te rate N 1 See Teorem 15. Finally, n β, L is cosen as te solution of te following minimization problem N 1 + Ld β min. and we sow tat corresponding estimator f nβ,l y acieves for fy on H d β, L, M. For te upper bounds maximal risk and adaptation, we establis majoration of probability: P f f y fy ε } ε C 1 exp { C 2 2. N A + Bε Wit Bernstein inequality, te well known point is Bε. For adaptation, ε can be large n ln n, in general, te term B = B n is suc tat B n ln n 0. Adaptive estimation. Te second part of te paper is devoted to te adaptive minimax estimation over collection of isotropic functional classes in te model To our knowledge, te problem of adaptive estimation, wit Huber estimator in pointwise estimation, is not study in te literature. As we mentioned above we consider only te case β 0, b] and L [l, l ] will be studied. Well-known disadvantage of maximal approac is te dependence of te estimator on te parameters describing functional class on wic te maximal risk is determined. In particular, n β, L optimally cosen in view of depends explicitly on β and L. To overcome tis drawback, te maximal adaptive approac was proposed by Lepski [1990, 1991] and Lepski, Mammen, and Spokoiny [1997]. Te first question arising in te adaptation reduced to te problem at and can be formulated as follows. Does tere exist an estimator wic would be minimax on Hβ, L, M simultaneously for all values of β and L belonging to some given set B [ R + \ 0 ] [ R + \ 0 ]? We can sow tat te answer of tis question is negative, tat is typical for te estimation of te function at a given point Lepski and Spokoiny [1997]. Tis answer can be reformulated in te following manner: te family of rates of convergence { ϕ n β, L, β, L B } is unattainable for te problem under consideration. 157

159 5.2. MAXIMAL RISK ON H D β, L, M M. CHICHIGNOUD Tus, we need to find anoter family of normalizations for maximal risk wic would be attainable and, moreover, optimal in view of some criterion of optimality. Nowadays, te most developed criterion of optimality is due to Klutcnikoff [2005] in te Gaussian model. Te most important step is to find an estimator, called adaptive, wic attains tis family of normalizations: β ρn β, L 2β+d φ n β, L = n 1/2 wit ρ n β, L = 1 + 2b β ln n 2β+d2b+d. Te factor ρn can be considered as price to pay for adaptation Lepski [1990]. In te present paper, we construct suc estimator using general adaptation sceme due to Lepski, Mammen, and Spokoiny [1997] so-called Lepski s metod. To our knowledge, it is te first time tat tis metod is applied wit Huber estimator and in te statistical model wit te unknown density of te noise. However, te limitation concerning te consideration of isotropic classes of functions is also due to te use of Lepski s procedure. It seems tat to be able to treat te adaptation over te scale of anisotropic classes, anoter sceme sould be applied Kerkyacarian, Lepski, and Picard [2001], Klutcnikoff [2005] and Goldensluger and Lepski [2008]. For te model tis problem is still open. Tis paper is organized as follows. In Section 5.2 we present te results concerning maximal risk and Section 5.3 is devoted to te adaptive estimation. Te proofs of main results are given in Section 5.4 upper bound, tecnical lemmas are postponed to Appendix. 5.2 Maximal Risk on H d β, L, M In tis section, we present several results concerning Maximal risk. We propose te estimator wic is bounded te maximal risk on tis class of functions under some additional restrictions imposed on tese parameters. For any p 1,..., p d N d we denote p = p 1,..., p d and p = p p d. Definition 16. Fix β > 0, L > 0, M > 0 and let β be te largest integer strictly less tan β. Te isotropic Hölder class H d β, L, M is te set of functions f : [0, 1] d R aving on [0, 1] d all partial derivatives of order β and suc tat x, y [0, 1] d β sup m=0 p =m x [0,1] d p fx x p 1 1 x p d d p fx x p 1 1 x p d M, d p fy y p 1 1 y p d L [ ] β β, x y 1 p = β. d 158

160 M. CHICHIGNOUD 5.3. BANDWIDTH SELECTOR OF HUBER ESTIMATOR To measure te performance of estimation procedures on H d β, L we will use maximal approac. Let E f = E n f be te matematical expectation wit respect to te probability law of te observation Z n satisfying Firstly, we define te maximal risk on H d β, L corresponding to te estimation of te function f at a given point y [0, 1] d. Let f n be an arbitrary estimator built from te observation Z n. Set r > 0 R n,r [ fn, H d β, L ] = sup E f fn y fy r. f H d β,l Te quantity R n,r [ fn, H d β, L ] is called maximal risk of te estimator f n on H d β, L. Upper bound for maximal risk. based on local Huber estimation. Let Let us start wit te construction of our estimator = L 2 n 1 2β+d, j = 1,..., d. Te next teorem sows ow to construct te estimator basing on locally Huber approac wic acieves te rate Let f y = θ 0,...,0 is given by 5.1.5, and wit =. Teorem 15. Let β > 0, L > 0 and M > 0 be fixed. Ten for any density g ξ Assumptions 2, we ave [ ] lim sup ϕ r n βr n,r f y, H d β, L, M <, r 1, n verified Remark 15. We can see tat, asymptotically, te rate of convergence of risk is ϕ n β. We can sow in some models tat n β 2β+d is minimax gaussian and Caucy models, Tsybakov [2008]. Tsybakov [1982a] sowed lower bounds for minimax probability risk over Hölder classes wit te additive model But if g ξ is te density of uniform random variable, ten te minimax rate is n β β+d, so our Huber estimator is not optimal in tis sense. Te advantage of tis approac is tat we do not assume knowledge of te density g ξ, only a few conditions see Assumptions 2, we talk robust estimation. 5.3 Bandwidt Selector of Huber Estimator { Tis section } is devoted to te adaptive estimation over te collection of te classes H d β, L, M, we suppose M known. We will not impose any restriction on possible β,l 159

161 5.3. BANDWIDTH SELECTOR OF HUBER ESTIMATOR M. CHICHIGNOUD value of L, but we will assume tat β 0, b], were b, as previously, is an arbitrary a priori cosen integer. We start wit formulating te remark sowing tat tere is not optimally adaptive estimator ere we follow te terminology introduced in Lepski [1990, 1992a, 1992b]. It means tat tere is not an estimator wic would be minimax simultaneously for several values of parameter β even if L is supposed to be fixed. Tis result does not require any restriction on β as well. Let Ψ = {ψ n β} β 0,b] be a given family of normalizations. Definition 17. Te family Ψ is called admissible if tere exists an estimator f n suc tat for some L, M > lim sup n ψn r β R n,r fn, H d β, L, M <, β 0, b]. Te estimator f n satisfying is called Ψ-attainable. Te estimator f n is called Ψ- adaptive if olds for any L > 0 and M > 0. Remark 16. Note tat te family of rates of convergence {ϕ n β} β 0,b] is not admissible. We can sow tis assertion wit Lepski and Spokoiny [1997] in Gaussian model. Let Φ be te following family of normalizations: ρn β φ n β = n β 2β+d, ρn β = 1 + We remark tat φ n b = ϕ n b and ρ n β ln n for any β b. 1/2 2b β 2β + d2b + d ln n, β 0, b]. Remark 17. We can sow tat tis family Φ is adaptive optimal using Klutcnikoff s Criterion Klutcnikoff [2005] in Gaussian model. Construction of Φ-adaptive estimator. As it was already mentioned in Introduction, te construction of our estimation procedure consists of several steps. First, we determine family of locally Huber estimators. Next, based on so-called Lepski s metod, we propose data-driven selection from tis family. We take f te estimator given by 5.1.5, and 5.1.8, so te family of locally bayesian estimator F is defined now as follows. Put max = n 1 2b+d and k = 2 k max, k = 0,..., k n, were k n is te largest integer suc tat kn min = n 1/d ln d2b+d n. Set { F = f k y = θ } ,...,0 k, k = 0,..., k n. 160 b

162 M. CHICHIGNOUD 5.4. PROOFS OF MAIN RESULTS: UPPER BOUNDS We put f y = f ˆk y, were f ˆk y is selected from F in accordance wit te rule: { ˆk = inf k = 0, k n : f k y f l y } CSn l, l = k + 1, kn. Here we ave used te following notations C = 8rd D2 b λ λ 3D b, S n l = [ ] 1/2 1 + l ln 2 n d, l = 0, 1,..., k n, l were λ > 0 is a constant defined in Lemma 13 and D b defined in Teorem 16. Let b > 0, M > 0 be fixed. Ten, for any density g ξ verified Assumptions 2, for any β 0, b], L > 0 and r 1 [ ] lim sup φ r n βr n,r f y, H d β, L, M <. n Remark 18. Te assertion of te teorem means tat te proposed estimator f y is Φ- adaptive. It implies in particular tat te family of normalizations Φ is admissible. Remark 19. Remark tat M is involved in construction of te set of coefficients ΘM, for example we can replace M by ln n. Te constant λ depends on g ξ 0 and g ξ see Proof of Lemma 13, unknown in practice, but we can calibrate te constant C. 5.4 Proofs of Main Results: Upper Bounds Let H n, n > 1 be te following subinterval of 0, ln n d H n = 1 2b+d,. n 1/d ln n Later on, we will consider only te values of belonging to H n. Put also N = n d 1/ Auxiliary Results: Large Deviations for M-estimators Let H n, put θ = θf, y, = { θ p : p N d : 0 p b }, were θ 0 = θ 0,...,0 = fy and θ p = p fy p y p 1 1 y p d d p 1!...p d!, p Nd : 0 < p b. Remind te agreement wic we follow in te present paper: if te function f and vector p be suc tat p f does not exist we put θ p =

163 5.4. PROOFS OF MAIN RESULTS: UPPER BOUNDS M. CHICHIGNOUD Let f θ x, given by 5.1.4, be te local polynomial approximation of f inside V y and let b be te corresponding approximation error, i.e. b := fθ x fx. Introduce for any function f Mf = sup x V y b m=0 p p d =m m fy x p 1 1 x p d. Te following agreement will be used in te sequel: if te function f and m 1 be suc tat m f does not exist, we will put formally m f = 0 in te definition of Mf. Put qz := Q z = I ]1,+ [ z I ], 1[ z + z I [ 1,1] z, z R, were Q is te derivative of Huber function Q defined in Set S b = { q N d : q b } and for any t ΘM define te so-called partial derivative of Huber criterion D p t = p m t t p = 1 n d n i=1 d q Y i f t X i p X i y I Xi Vy, p S b, were x p = x p x p d d, x [0, 1]d. Put te expectation of partial derivative of Huber criterion: [ ] E p t := E D p f t = 1 [ p x y + g d ξ zdz V y 1+f tx fx 1+ftx fx + z ft x + fx ] g ξ zdz dx, p S b, 1+f tx fx We decompose E p in two parts: E p t = D p t + p t, were D p t = 1 p [ x y + g d ξ z + ft θ x dz V y z g ξ z + ft θ x ] dz dx, p S b. 1 and to simplify we note 1+ftx fx 1 g ξ zdz g ξ z + ft θ x dz p t = E p t D p t, p S b, 162

164 M. CHICHIGNOUD 5.4. PROOFS OF MAIN RESULTS: UPPER BOUNDS are respectively so-called bias term and deterministic criterion. Finally, let us define te partial derivative of deterministic criterion by te following notation t = p t p S b p, q t = q D p t t q and D t = D p t p S b = 1 d V y We call Jacobian matrix of deterministic criterion J D t = p, q t p+ q x y 1 g ξ z + ft θ x dz dx, p, q Sb 2. 1 p, q S 2 b Te main property of te matrix J D. is tat it exists a neigborood V of θ does not depend on n suc tat J D. is invertible on V see Lemma 13. Te next proposition is te milestone for all results proved in te paper. Put te random sets for any, z > G z = { θ B θ, z }, B θ, z = {t θm : t θ 2 z}. Proposition 7. For any n N, H n, f suc tat Mf < and δ > 0 suc tat B θ, δ V, ten ε D b ε 0 / λ we ave P f N f y fy ε, G δ Σ exp ε λd 1 b ε N ε λd 1 b 2, were ε 0 = 1 b N, f y defined in 5.1.5, 5.1.7, 5.1.8, λ is a positive constant defined in Lemma 13 and Σ is defined in Lemma 15. Te next proposition provides us wit upper bound for te risk of a locally Huber estimator. Put C r = Dr b λ r/ D 1 b λη + 1 r 1 exp η η + L λd 1 dη, r 1. Proposition 8. For any n N, H n, δ > 0 suc tat B θ, δ V and f suc tat Mf <, ten b E f f y fy r I G δ C r ε r 0 N r, r 1. Te proof of tis proposition is elementary by integration of Proposition

165 5.4. PROOFS OF MAIN RESULTS: UPPER BOUNDS M. CHICHIGNOUD Proof of Proposition 7 Auxiliary lemmas. We give te following lemma concerning deterministic criterion. Lemma 13. For any g ξ verified Assumptions 2, ten 1. J D θ is positive definite matrix. 2. θ is unique solution of D. = 0,..., H n, it exists a neigborood V of θ, wic does not depend on n, suc tat θ θ 2 λ 1/2 D θ D θ, θ V, 2 were λ = inf θ V λ θ, λ θ is te smallest eigenvalue of matrix J D θ JD θ and. 2 is te l 2 -norm on R D b. Te proof is given in Appendix. Let us give a lemma wic allows to control te bias term. Lemma 14. For any H n and f suc tat Mf <, we ave p t b, p S b, t θ M., were. is te sup-norm Te next result allows to control te large deviations of partial derivatives of Huber criterion. Lemma 15. For any f suc tat Mf < and H n, we ave z 1 b N P f N sup t ΘM were Σ is defined in te proof. D p t D p t z Σ exp { z b N N z }, p S b, Te proof given in Appendix is based on a caining argument and Bernstein inequality. It is required tat te Huber criterion is C 1. Lemma 16. For any f H d β, L, M, δ > 0 suc tat Bθ, δ V and n N, H n suc tat b κ δ 2, N 2 Db D t 2, κ δ = inf, D b κ δ t ΘM\Bθ,δ 2 ten { } [ P f G c ] n d κ δ δ 2 Db Σ exp 4D b 8 + 4κδ /3 D b, were G δ c is te additional event of G δ, V defined in Lemma

166 M. CHICHIGNOUD 5.4. PROOFS OF MAIN RESULTS: UPPER BOUNDS Proof of Proposition 7. Remark tat D θ = 0,..., 0 were D. = D p. p S b defined in Te main idea of tis proof is tat if D t N 1 n E t in probability uniformly in t ten we ave θ N 1 θ. Tis is te idea of M-estimation Van de Geer n [2000]. Te definition of θ and θ = θf, y, implies tat ε D b λ ε0 P f N f y fy ε, G δ P f N θ0 θ 0 ε, G δ P f N Db θ θ 2 ε, G δ. Under te event G δ we ave θ V, according Lemma 13 we obtain tat P f N f y fy ε, G Db D δ P f N θ D θ ε. λ 2 Remember tat D θ = 0 and D θ = 0. Using te last inequality, we get P f N f y fy ε, G δ Db D P f N θ D θ 2 ε λ P f N sup D p t D p t ε λ. p S b t ΘM D b Applying Lemma 15 wit z = ε λ/d b and last inequality, finally we ave te assertion of Proposition 7 P f N f y fy ε, G δ Σ exp ε λd 1 b ε N ε λd 1 b Proof of Teorem 15 By definition of = L 2 n 1 2β+d, we ave b N = d, N r = L rd 2β+d ϕ r n β. So we obtain tat te term ε 0 defined in Proposition 7 can be written as ε0 = d. We get E f f y fy r = E f f y fy r I G δ + E f f y fy r I G δ c. 165

167 5.4. PROOFS OF MAIN RESULTS: UPPER BOUNDS M. CHICHIGNOUD Te rigt and side is controlled by Lemma 16. Indeed, we can use te Caucy-Scwarz inequality, E f f y fy r I G δ c E f f y fy { 2r P G δ } c 1/2 f { } 2M r n d κδ 2 D b Σ exp 4D b 8 + 4κδ /3 D b. Using Proposition 8, and , we obtain E f f y fy { } r I G δ C r d L rd 2β+d ϕ r n β + 2M r n d κδ 2 D b Σ exp 4D b 8 + 4κδ /3 D b. By passing to te limit in n, te teorem 15 is proved Proof of Teorem 16 We start te proof wit formulating some auxiliary results wose proofs are given in Appendix. Define J 1 = λ/d b and = and let te integer κ be defined as follows. [ ] 1 c ρ 2 2β+d n β, c < 2J1 2. L 2 d 2 n κ max < 2 κ+1 max. Lemma 17. For any f H d β, L, M, A and any k κ + 1 P f ˆk = k, G k δ J2 2 2k 1rd, were J 2 = D b Σ rd 1. Proof of Teorem 16. Tis proof is based on te sceme due to Lepski, Mammen, and Spokoiny [1997]. Te definition of and κ implies tat ε 0 k Db 1 + k ln 2 λ, k κ, were ε 0. defined in Propostion 7. Last inequality yields E f f k y fy r I G k δ C r D r bλ r/2 S r nk, k κ. 166

168 M. CHICHIGNOUD 5.4. PROOFS OF MAIN RESULTS: UPPER BOUNDS To get tis result we ave applied Proposition 8 wit = k. We also ave E f f ˆk y fy r = E f f ˆk y fy r Iˆk κ,g ˆk δ + E f f ˆk y fy r Iˆk>κ,G ˆk δ E f f ˆk y fy r I G ˆk c δ := R 1 f + R 2 f + R 3 f. First we control R 1. Obviously f ˆk y fy r 2 r 1 f ˆk y f κ y r + 2 r 1 f κ y fy r. Te definition of ˆk yields f ˆk y f κ y r Iˆk κ,g ˆk δ C r S r nκ, In view of and definitions of κ and, we also get E f f κ y fy r Iˆk κ,g ˆk δ C r D r bλ r/2 S r nκ. Noting tat te rigt and side of te obtain inequality is independent of f and taking into account te definition of κ and we obtain lim sup n sup f H d β,l,a,m φ r n βr 1 f <. Now, let us bounded from above R 2. Applying Caucy-Scwarz inequality we ave in view of Lemma R 2 f = k n k=κ k>κ = J 2 E f f k y fy r I G k δ E f f k y fy 2r I G k δ k>κ 1/2 E f f k y fy 2r I G k δ P f {ˆk = k, G k δ 1/2 2 k 1rd. } We obtain from and R 2 f N r Cr max D 2r 2 rd J 2 b r 1 + k ln 2 r/2 2 srd. λ s 0 167

169 5.4. PROOFS OF MAIN RESULTS: UPPER BOUNDS M. CHICHIGNOUD It remains to note tat te rigt and side of is independent of f. Tus, we ave lim sup n sup f H d β,l,a,m tat yields togeter wit and lim sup n sup f H d β,l,a,m φ r n βr 2 f <. φ r n βe f f ˆk y fy r I G ˆk δ To get te assertion of te teorem it suffices to sow tat < lim sup n sup f H d β,l,a,m φ r n βe f f ˆk y fy r I G ˆk c <. δ Note tat f ˆk y M by definition. Tis allows us to state tat f ˆk y fy 2M. Here we also ave taken into account tat f M. Finally we obtain { R 3 f 2 r M r P f G ˆk c } δ. and follows now from Lemma

170 M. CHICHIGNOUD 5.5. APPENDIX 5.5 Appendix Proof of lemma 13. p, q θ = 1 d V y So we can write tat 1 Remember tat for any p, q S 2 b J D θ = p+ q x y g ξ z dz dx = g ξ z dz [ ] d x p+ q dx , 1 2 g ξ z dz [ ] d Kx K x dx. 1 2, 1 2 According to Assumptions 2, we ave tat 1 g 1 ξ z dz > 0. Now we sow tat [ ] d Kx K x dx is symmetric definite matrix, indeed for any τ R D b \0 1 2, 1 2 [ τ [ ] d Kx K x dx τ = [ ] d τ Kx ] 2 dx > , , 1 2 As q is almost continuous everywere and by definition of J D. in 5.4.9, it exists a neigborood of θ noted V suc tat te matrix J D θ is invertible for all θ V. 2 Wit Assumptions 2, in particular tat g ξ is even, by definition of D in we ave tat D θ = 0. According to 1, te function D is locally invertible around θ, so D θ = 0 is unique solution on V. Ten, we can see tat eac partial derivative is positive, tus θ is te unique solution of D. = 0,..., 0 on R D b. 3 We can write te following equalities, for any θ V ten θ V suc tat D θ D θ = J D θ θ θ and D θ D θ 2 2 = θ θ JD θ JD θ θ θ. It is elementary to sow tat J D θ JD θ is definite positive matrix if JD θ is invertible. Indeed, for τ R D b \0 suc tat it is a contradiction. Tus wit 1 τ J D θ JD θ τ = 0 JD θ τ = 0 τ = 0, D θ D θ 2 λ θ θ 2, θ V, were λ = inf θ V λ θ and λ θ is te smallest eigenvalue of matrix J D θ JD θ. It follows tat λ >

171 5.5. APPENDIX M. CHICHIGNOUD Proof of lemma 14. By definition of D p and E p 5.4.5, p can be written as p t = 1 [ p x y 1+ft θ x 1+ftx fx g d ξ zdz g ξ zdz 1+f tx fx 1+f t θ x V y 1+ftx fx 1+f t θ x 1+ft θ x 1+f tx fx 1+ft θ x 1+f t θ x z ft x + fx g ξ zdz z ft x + fx g ξ zdz fx fθ x g ξ zdz Wit simple calculations, we bound te bias term p t b. ] dx. Proof of lemma 15. First, let us bound te following term for any p S b sup D p t D p t sup D p t E p t + sup p t, t ΘM t ΘM t ΘM t ΘM were E p and p are respectively defined in and In view of Lemma 14, we get sup D p t D p t sup D p t E p t + b. t ΘM Note te function L. = D p. E p.. To sow te assertion of te lemma, we use a caining argument on L.. Remember tat ΘM is a compact of R D b. Let t0 { ΘM fixed and for any l N put Γ l a a l -net on ΘM were te constant a = exp Introduce te following notations u 0 t = t 0, u l t = arg inf u Γ l u t 1, l N. Te caining argument rests on te following decomposition: 4π 16 e } Lt = Lt 0 + L u l t L u l 1 t, t ΘM. l=1 170

172 M. CHICHIGNOUD 5.5. APPENDIX Using and 5.5.3, we obtain P f N sup Lt z b N t ΘM P f Lt 0 + sup t ΘM l=1 We can control te second term as follows. sup t ΘM L ul t L u l 1 t z N b L ul t L u l 1 t sup Lu Lv, u,v Γ l=1 l=1 l Γ l 1 u v 1 a l were Γ 0 = {t 0 }.Using and last inequality, we get P f N sup Lt z b N t ΘM P f N Lt 0 z/2 b N /2 +P f N l=1 sup u,v Γ l Γ l 1 u v 1 a l Lu Lv z/2 b N /2. We define te function W t x, z = 1 N q z + fx f t x x y p Ix V y, ten te process N L. can be written as an empirical process sum of independent zero-mean random variables N Lt = n W t Xi, ξ i Ef W t Xi, ξ i, i=1 t ΘM At a fixed point t 0, we can use classical exponential inequalities for empirical process. If te design is deterministic, Hoeffding inequality is sufficient. But te random design requires te Bernstein inequality see Bouceron, Bousquet, and Lugosi [2004], for example wic takes into account te variance of random variables. By definition of W t.,. in 5.5.6, we ave n E f Wt 2 X i, ξ i 1, W t.,. 1/N, i=1 were. is te sup-norm. 171

173 5.5. APPENDIX M. CHICHIGNOUD For te first term of 5.5.5, we use Bernstein inequality. Indeed, we are in te presence of independent random variables bounded by 1/N see definition of D p in and wit finite variance see 5.5.7, ten { } P f N D p t 0 E p t 0 z/2 b N /2 2 exp z b N N z b N Secondly, in view of 5.5.5, we write te probability wit te following form, P f N sup Lu Lv z/2 b N /2 Recall tat l=1 N [ Lu Lv ] = u,v Γ l=1 l Γ l 1 u v 1 a l P f u,v Γ l Γ l 1 u v 1 a l π N 2 6 l2 Lu Lv z/2 b N /2. n [ ] W u Xi, ξ i Wv Xi, ξ i Ef Wu Xi, ξ i Wv Xi, ξ i, i=1 ten we ave a sum of independent centred random variables wit finite variance and bounded. Te main property of Huber function is tat its derivative q is Lipsitz, ten we ave te following assertions n E f [W u X i, ξ i W v X i, ξ i ] 2 u v 2 1, W u.,. W v.,. u v 1 /N, i=1 Using Bernstein inequality and last inequalities, we obtain P f N sup Lu Lv z/2 b N / l=1 l=1 u,v Γ l Γ l 1 u v 1 a l exp u,v Γ l Γ l 1 u v 1 a l l=1 { } 36 u v 1 1 z b N 2 π 4 l 4 8 u v N z b N { } 36 al z b N 2 #Γ l #Γ l 1 exp π 4 l , 3N z b N a were #Γ l is te cardinal of Γ l. Recall tat min l l>0 = 1, z 1 b l 4 N and Σ = { l=1 #Γ 18 al l #Γ l 1 exp <, using 5.5.4, 5.5.5, and te last π 4 l 4 } 172

174 M. CHICHIGNOUD 5.5. APPENDIX inequality, we ave Te lemma is proved. P f N sup t ΘM D p t E p t z Σ exp { z b N N z }. Proof of Lemma 16. Remember tat te event G c δ can be written as G c δ = { θ / Bθ, δ } and θ and θ are respectively te unique solutions of equations D θ = 0 and D θ = 0. We can remark te following inclusion { } } { θ / Bθ, δ sup D t D t 2 κ δ. t ΘM\Bθ,δ D t 2 were κ δ = inf. In view of Lemma 13, κ δ is strictly positive and does not t ΘM\Bθ,δ 2 depend on n. Applying te last inclusion, we obtain P f G c δ N sup D p t D p t N κ δ > Db p S b P f t ΘM\Bθ,δ Te assumptions on n, in Lemma 16 allow to sow tat N κ δ 2 D b 1 b N. Using Lemma 15, we ave { } P f G c n d κ δ δ 2 Db Σ exp 4D b 8 + 4κδ /3 D b. Te lemma is proved. Proof of Lemma 17. Note tat for any k κ + 1 and by definition of ˆk {ˆk = k } = l k { f k 1 y f l y > C Sn l}. Note tat S n l is monotonically increasing in l and, terefore, {ˆk = k } { f k 1 y fy > 2 1 C S n k 1} [ { l k f l y fy }] > 2 1 C S n l. 173

175 5.5. APPENDIX M. CHICHIGNOUD We come to te following inequality: for any k κ + 1 { P ˆk = k, G k δ P f k 1 y fy } > 2 1 C S n k 1, G k δ + { P f l y fy } > 2 1 C S n l, G k δ. l k Note tat te definition of S n l yields N l S n l [ 1 + ln max / l ] 1/2. Tus, applying Proposition 7 wit ε = C [ 1 + ln max / l ] 1/2, we obtain l k { P f l y fy } > 2 1 C S n l, G k δ D b Σ [ max / l ] 2rd = D b Σ 2 2rd l. Here, we ave also used tat k κ + 1. We obtain from and tat k κ + 1 P ˆk = k, G k δ J 2 2 2k 1rd, were J 2 = D b Σ rd

176 Bibliograpy Akaike H. Information teory and an extension of te maximum likeliood principle. In Second International Symposium on Information Teory Tsakadsor, 1971, pages Akadémiai Kiadó, Budapest, cf. pages: 37 Anscombe F.J. Te transformation of poisson, binomial and negative-binomial data. Biometrika, 35: , cf. pages: 21, 59, 74 Arias-Castro E. et Donoo D. L. Does median filtering truly preserve edges better tan linear filtering? Ann. Statist., 373: , cf. pages: 32, 82, 154 Astola J., Egiazarian K., et Katkovnik V. Adaptive window size image de-noising based on intersection of confidence intervals ici rule. J. Mat. Imaging Vis., 163: , ISSN cf. pages: 40 Astola J., Egiazarian K., Foi A., et Katkovnik V. From local kernel to nonlocal multiplemodel image denoising. Int. J. Comput. Vision, 861:1 32, cf. pages: 40, 82, 154 Aubert G. et Aujol J. A variational approac to removing multiplicative noise. SIAM J. Appl. Mat., 684: , cf. pages: 114 Autin F. Point de vue Maxiset en estimation non paramétrique. PD tesis, Université Paris 7, cf. pages: 17, 37, 39 Autin F. Maxiset for density estimation on R. Mat. Metods Statist., 152: , cf. pages: 34 Autin F., Picard D., et Rivoirard V. Large variance Gaussian priors in Bayesian nonparametric estimation: a maxiset approac. Mat. Metods Statist., 154: , cf. pages: 34 Autin Florent. Maxisets for µ-tresolding rules. TEST, 172: , cf. pages: 34 Barron A., Birgé L., et Massart P. Risk bounds for model selection via penalization. Probab. Teory Related Fields, 1133: , cf. pages:

177 BIBLIOGRAPHY M. CHICHIGNOUD Berg J. et Löfström J. Interpolation spaces. An introduction. Springer-Verlag, Berlin, Grundleren der Matematiscen Wissenscaften, No cf. pages: 17 Battacar S. et Sundaresan M.K. Super-resolution of sar images using bayesian and convex set-teoretic approaces. SPIE proceding series, 4053: , cf. pages: 119 Birgé L. et Massart P. Gaussian model selection. J. Eur. Mat. Soc. JEMS, 33: , cf. pages: 37 Birgé L. et Massart P. Minimum contrast estimators on sieves : exponential bounds and rate of convergences. Bernoulli, 43: , cf. pages: 15 Borovkov A. Statistique matématique. Mir, Moscou, cf. pages: 14 Bouceron S., Bousquet O., et Lugosi G. Concentration inequalities. Springer, cf. pages: 15, 50, 51, 63, 151, 171 Bousquet O. A Bennett concentration inequality and its application to suprema of empirical processes. C. R. Mat. Acad. Sci. Paris, 3346: , cf. pages: 15, 66 Brown L. et Low M. Asymptotic equivalence of nonparametric regression and wite noise. Ann. Statist., 246: , cf. pages: 25, 35, 42 Brown L.D., Cai T. Tony, et Zou H.H. Robust nonparametric estimation via wavelet median regression. Ann. Statist., 365: , cf. pages: 15, 19, 61, 154 Buades A., Coll B., et Morel J-M. A review of image denoising algoritms, wit a new one. Multiscale Model. Simul., 42: , cf. pages: 40 Bunea F., Tsybakov A., et Wegkamp M. Sparsity oracle inequalities for te Lasso. Electron. J. Stat., 1: electronic, cf. pages: 36 Cai T. Adaptive wavelet estimation: a block tresolding and oracle inequality approac. Ann. Statist., 273: , cf. pages: 19, 61, 154 Cavalier L. Nonparametric statistical inverse problems. Inverse Problems, 243:034004, 19, cf. pages: 25 Cavalier L. et Golubev Y. Risk ull metod and regularization by projections of ill-posed inverse problems. Ann. Statist., 344: , cf. pages: 25, 38 Cavalier L. et Tsybakov A. B. Sarp adaptation for inverse problems wit random noise. Probab. Teory Related Fields, 1233: , cf. pages:

178 M. CHICHIGNOUD BIBLIOGRAPHY Cavalier L., Golubev G. K., Picard D., et Tsybakov A. B. Oracle inequalities for inverse problems. Ann. Statist., 303: , Dedicated to te memory of Lucien Le Cam. cf. pages: 25 Cang X.W. et Guo Y. Huber s m-estimation in relative gps positioning: computational aspects. Journal of Geodesy., cf. pages: 32, 154 Cicignoud M. Minimax and minimax adaptive estimation in multiplicative regression : locally bayesian approac. Revision, 2010a. cf. pages: 34, 35, 42, 55, 56, 85, 113, 156 Cicignoud M. Minimax adaptive estimation via locally bayesian approac. Preprint, 2010b. cf. pages: 35, 42, 55, 85 Cicignoud M. Adaptive uber m-estimation in nonparametric regression. Preprint, 2010c. cf. pages: 35, 42, 153 DeVore R. et Lorentz G. Constructive approximation, volume 303 of Grundleren der Matematiscen Wissenscaften [Fundamental Principles of Matematical Sciences]. Springer- Verlag, Berlin, cf. pages: 17 Donoo D., Jonstone I., Kerkyacarian G., et Picard D. Wavelet srinkage: asymptopia? J. Roy. Statist. Soc. Ser. B, 572: , Wit discussion and a reply by te autors. cf. pages: 14, 35, 37, 39, 42 Donoo D. L. et Jonstone I. M. Ideal spatial adaptation by wavelet srinkage. Biometrika, 813: , cf. pages: 34, 37 Efromovic S. Yu. et Pinsker M. S. A self-training algoritm for nonparametric filtering. Avtomat. i Telemek., 11:58 65, cf. pages: 15, 33, 34, 35, 38, 42 Gosal Subasis, Lember Jüri, et Van der Vaart Aad. Nonparametric Bayesian model selection and averaging. Electron. J. Stat., 2:63 89, cf. pages: 54, 81 Goldensluger A. et Lepski O.V. Universal pointwise selection rule in multivariate function estimation. Bernoulli, 143: , cf. pages: 25, 35, 39, 42, 51, 81, 115, 155, 158 Goldensluger A. et Lepski O.V. Structural adaptation via lp-norm oracle inequalities. Probab. Teory and Related Fields, 143:41 71, 2009a. cf. pages: 25, 39, 41, 51, 80, 81, 115, 155 Goldensluger A. et Lepski O.V. Uniform bounds for norms of sums of independent random functions. 2009b. cf. pages: 15, 51, 155 Goldensluger A. et Nemirovski A. On spatially adaptive estimation of nonparametric regression. Mat. Metods Statist., 62: , cf. pages: 35, 39, 42,

179 BIBLIOGRAPHY M. CHICHIGNOUD Golubev Y. et Spokoiny V. Exponential bounds for minimum contrast estimators. Electron. J. Stat., 3: , cf. pages: 15 Hall Peter et Jones M. C. Adaptive M-estimation in nonparametric regression. Ann. Statist., 184: , cf. pages: 19, 30, 61, 154 Härdle W. et Tsybakov A.B. Robust nonparametric regression wit simultaneous scale curve estimation. Ann. Statist., 161: , cf. pages: 30, 154 Härdle W. et Tsybakov A.B. Robust locally adaptive nonparametric regression. In Data analysis and statistical inference, pages Eul, Bergisc Gladbac, cf. pages: 19, 30, 61, 154 Härdle W., Kerkyacarian G., Picard D., et Tsybakov A. B. Wavelets, approximation, and statistical applications, volume 129 of Lecture Notes in Statistics. Springer-Verlag, New York, ISBN cf. pages: 14, 17 Härlde W. et Tsybakov A.B. Local polynomial of te volatility function in nonparametric autoregression. J. Econometrics, 1: , cf. pages: 114 Has minskii R.Z. et Ibragimov I.A. Statistical Estimation, Asymptotic Teory. Springer- Verlag, Applications of Matematics, cf. pages: 18, 25, 28, 29, 30, 33, 55, 57, 60, 79, 89, 95, 109, 115, 119, 127, 131 Huber P. et Roncetti E. Robust statistics. Wiley Series in Probability and Statistics. Jon Wiley & Sons Inc., Hoboken, NJ, second edition, cf. pages: 31, 154 Huber P.J. Robust estimation of a location parameter. Ann. Mat. Statist., 35:73 101, cf. pages: 32, 154 Huber P.J. Robust statistics. Wiley, New York., cf. pages: 32, 61, 154 Härlde W., Hart J., Marron J.S., et Tsybakov A.B. Bandwidt coice for average derivative estimation. journal of te American Statistical Association, 87:417, cf. pages: 151 Juditsky A. Wavelet estimators: adapting to unknown smootness. Mat. Metods Statist., 61:1 25, cf. pages: 35, 42 Juditsky A.B., Lepski O.V., et Tsybakov A.B. Nonparametric estimation of composite functions. Ann. Statist., 373: , cf. pages: 115, 155 Katkovnik V. Nonparametric identification and data smooting. Nauka, Moscow in Russian, Te metod of local approximation. cf. pages: 26 Katkovnik V. A new metod for varying adaptive bandwidt selection. IEEE Trans. Image Process., 479: , cf. pages: 39, 40, 47,

180 M. CHICHIGNOUD BIBLIOGRAPHY Katkovnik V. et Spokoiny V. Spatially adaptive estimation via fitted local likeliood tecniques. IEEE Trans. Image Process., 563: , cf. pages: 19, 29, 39, 87, 115, 117, 119, 156 Kerkyacarian G. et Picard D. Minimax or maxisets? Bernoulli, 82: , cf. pages: 34 Kerkyacarian G., Lepski O.V., et Picard D. Non linear estimation in anisotropic multiindex denoising. Probab. Teory and Related Fields, 121: , cf. pages: 25, 39, 51, 80, 81, 155, 158 Kervrann C. et Boulanger J. Optimal spatial adaptation for patc-based image denoising. IEEE Trans. Image Process., 1510: , cf. pages: 40 Klutcnikoff N. On te adaptive estimation of anisotropic functions. PD tesis, Aix- Masrseille 1, cf. pages: 25, 34, 35, 39, 42, 51, 56, 57, 60, 62, 81, 82, 88, 94, 95, 118, 123, 125, 155, 158, 160 Korostelëv A. P. et Tsybakov A. B. Minimax teory of image reconstruction, volume 82 of Lecture Notes in Statistics. Springer-Verlag, New York, ISBN cf. pages: 114 Lecué G. et Mendelson S. Aggregation via empirical risk minimization. Probab. Teory Related Fields, : , cf. pages: 37 Ledoux M. On talagrand s deviation inequalities product measures. ESAIM: Probability and Statistic, 1:63 87, cf. pages: 15, 51, 66 Lepski O. V., Mammen E., et Spokoiny V. G. Optimal spatial adaptation to inomogeneous smootness: an approac based on kernel estimates wit variable bandwidt selectors. Ann. Statist., 253: , ISSN cf. pages: 35, 39, 41, 42, 51, 88, 117, 123, 137, 157, 158, 166 Lepski O.V. On a problem of adaptive estimation in gaussian wite noise. Teory of Probability and its Applications, 353: , cf. pages: 33, 34, 35, 37, 38, 41, 42, 56, 88, 89, 117, 118, 119, 157, 158, 160 Lepski O.V. Asymptotically minimax adaptive estimation i. upper bounds. optimally adaptive estimates. Teory Probab. Appl., 36: , cf. pages: 35, 38, 41, 42, 88, 117, 121, 123, 137, 157 Lepski O.V. Asymptotically minimax adaptive estimation ii. statistical models witout optimal adaptation. adaptive estimators. Teory of Probability and its Applications, 37: , 1992a. cf. pages: 35, 39, 42, 89, 119, 121,

181 BIBLIOGRAPHY M. CHICHIGNOUD Lepski O.V. On problems of adaptive estimation in wite gaussian noise. In Topic in Nonparametric Estimation, 12:87 106, 1992b. cf. pages: 35, 39, 42, 160 Lepski O.V. et Levit B.Y. Adaptive nonparametric estimation of smoot multivariate functions. Matematicals metods of statistics, cf. pages: 39 Lepski O.V. et Spokoiny V.G. Optimal pointwise adaptive metods in nonparametric estimation. Annals of statistics, 256: , cf. pages: 35, 42, 88, 118, 157, 160 Mallows C. Some comments on c p. Tecnometrics., 15: , cf. pages: 37 Marteau C. On te stability of te risk ull metod for projection estimators. J. Statist. Plann. Inference, 1396: , cf. pages: 25, 38 Massart P. Some applications of concentration inequalities to statistics. Probability Teory, volume spécial dédié à Micel Talagrand2: , cf. pages: 15, 51, 66 Massart P. Concentration inequalities and model selection, volume 1896 of Lecture Notes in Matematics. Springer, Berlin, Lectures from te 33rd Summer Scool on Probability Teory eld in Saint-Flour, July 6 23, 2003, Wit a foreword by Jean Picard. cf. pages: 15, 35, 51, 66, 67 Maté P. Te Lepskiĭ principle revisited. Inverse Problems, 223:L11 L15, cf. pages: 39 Meyer Y. Wavelets and operators, volume 37 of Cambridge Studies in Advanced Matematics. Cambridge University Press, Cambridge, Translated from te 1990 Frenc original by D. H. Salinger. cf. pages: 17, 37 Nadaraya E.A. On estimating regression. Teory of Probability and its Applications, 91: , cf. pages: 14 Nemirovski A. Topics in non-parametric statistics, volume 1738 of Lecture Notes in Mat. Springer, Berlin, cf. pages: 20, 27, 37, 147 Nussbaum M. Asymptotic equivalence of density estimation and Gaussian wite noise. Ann. Statist., 246: , cf. pages: 25 Parzen E. On te estimation of a probability density function and mode. Annals of Matematical Statistics, 33: , cf. pages: 14 Peetre J. New tougts on Besov spaces. Matematics Department, Duke University, Duram, N.C., Duke University Matematics Series, No. 1. cf. pages:

182 M. CHICHIGNOUD BIBLIOGRAPHY Petrus P. Robust uber adaptive filter. IEEE Transactions on Signal Processing., 47: , cf. pages: 32, 154 Plancade Sandra. Nonparametric estimation of te density of te regression noise. C. R. Mat. Acad. Sci. Paris, : , cf. pages: 36 Polzel J. et Spokoiny V. Adaptive weigts smooting wit applications to image restoration. J. R. Stat. Soc. Ser. B Stat. Metodol., 622: , ISSN cf. pages: 39 Polzel J. et Spokoiny V. Image denoising: pointwise adaptive approac. Ann. Statist., 31 1:30 57, cf. pages: 39 Polzel J. et Spokoiny V. Propagation-separation approac for local likeliood estimation. Probab. Teory Related Fields, 1353: , cf. pages: 19, 29, 30, 39, 87, 115, 117, 119 Reiss M., Rozenolc Y., et Cuenod C. Pointwise adaptive estimation for robust and quantile regression Source: Arxiv. cf. pages: 19, 30, 61, 81, 155 Rigollet P. et Tsybakov A. B. Linear and convex aggregation of density estimators. Mat. Metods Statist., 163: , cf. pages: 37 Rosenblatt M. Remarks on som nonparametric estimates of a density function. Annals of Matematical Statistics, 23: , cf. pages: 14 Rousseeuw P. et Leroy A. Robust regression and outlier detection. Wiley Series in Probability and Matematical Statistics: Applied Probability and Statistics. Jon Wiley & Sons Inc., New York, cf. pages: 31, 154 Rousseeuw P.J. Least median of squares regression. J. Amer. Statist. Assoc., 79388: , cf. pages: 154 Réfrégier P. Téorie du bruit et applications en pysique. Hermès Science Publications, cf. pages: 119 Simar L. et Wilson P. Statistical inference in nonparametric frontier models: Te state of te art. Journal of Productivity Analysis, 13:49 78, cf. pages: 24, 114 Spokoiny V. Estimation of a function wit discontinuities via local polynomial fit wit an adaptive window coice. Ann. Statist., 264: , cf. pages: 39 Spokoiny V. et Vial C. Parameter tuning in pointwise adaptation using a propagation approac. Ann. Statist., 375B: , cf. pages: 39,

183 BIBLIOGRAPHY M. CHICHIGNOUD Spokoiny V. G. Adaptive ypotesis testing using wavelets. Ann. Statist., 246: , cf. pages: 35, 42 Stein C. M. Estimation of te mean of a multivariate normal distribution. Ann. Statist., 9 6: , cf. pages: 14, 61, 154 Stone C. Optimal rates of convergence for nonparametric estimators. Ann. Statist., 86: , cf. pages: 33 Stone C. Optimal global rates of convergence for nonparametric regression. Ann. Statist., 104: , cf. pages: 15, 33, 38 Talagrand M. Sarper bounds for Gaussian and empirical processes. Ann. Probab., 221: 28 76, cf. pages: 51, 66 Talagrand M. Concentration of measure and isoperimetric inequalities in product spaces. Publications Matématiques de l I.H.E.S, 81:73 205, cf. pages: 15, 66 Talagrand M. New concentration inequalities in product spaces. Inventiones Matematicae, 126: , 1996a. cf. pages: 15, 66 Talagrand M. A new look at independence. Annals of Probability, 24:1 34, 1996b. cf. pages: 15, 66 Tsybakov A. B. Introduction to Nonparametric Estimation. Springer Publising Company, Incorporated, cf. pages: 19, 20, 26, 31, 32, 34, 82, 93, 109, 151, 159 Tsybakov A. B. Robust estimates of a function. Problems of Information Transmission, 18 3:39 52, 1982b. cf. pages: 30, 61, 154 Tsybakov A. B. Convergence of nonparametric robust algoritms of reconstruction of functions. Automation and Remote Control, 12:66 76, cf. pages: 30, 61, 154 Tsybakov A. B. Robust reconstruction of functions by a local approximation metod. Problems of Information Transmission, 222:69 84, cf. pages: 30, 61, 154 Tsybakov A.B. Nonparametric signal estimation wen tere is incomplete information on te noise distribution. Problems of Information Transmission, 182: , 1982a. cf. pages: 30, 32, 61, 154, 159 Tsybakov A.B. Pointwise and sup-norm sarp adaptive estimation of function on te sobolev classes. Annals of statistics, 266: , cf. pages: 35, 42, 56 Van de Geer S. Applications of empirical process teory, volume 6 of Cambridge Series in Statistical and Probabilistic Matematics. Cambridge University Press, Cambridge, cf. pages: 64, 154,

184 M. CHICHIGNOUD BIBLIOGRAPHY Van der Vaart A. W. et Van Zanten J. H. Adaptive Bayesian estimation using a Gaussian random field wit inverse gamma bandwidt. Ann. Statist., 375B: , cf. pages: 54, 81 Van der Vaart Aad W. et Wellner Jon A. Weak convergence and empirical processes. Springer Series in Statistics. Springer-Verlag, New York, Wit applications to statistics. cf. pages: 67 Watson G. Smoot regression analysis. Sankya, Ser.A, 26: , cf. pages: 14 Woodroofe M. On coosing a delta-sequence. Ann. Mat. Statist., 41: , cf. pages:

185

186

187 Résumé On se place dans le cadre de l estimation non paramétrique dans le modèle de régression. Dans un premier temps, on dispose des observations Y dont la densité g est connue et dépend d une fonction de régression fx inconnue. Dans cette tèse, cette fonction est supposée régulière, i.e. appartenant à une boule de Hölder. Le but est d estimer la fonction f à un point y estimation ponctuelle. Pour cela, nous développons un estimateur local de type bayésien, construit à partir de la densité g des observations. Nous proposons une procédure adaptative s appuyant sur la métode de Lepski, qui permet de construire un estimateur adaptatif coisi dans la famille des estimateurs bayésiens locales indexés par la fenêtre. Sous certaines ypotèses suffisantes sur la densité g, notre estimateur atteint la vitesse adaptative optimale en un certain sens. En outre, nous constatons que dans certains modèles, l estimateur bayésien est plus performant que les estimateurs linéaires. Ensuite, une autre approce est considérée. Nous nous plaçons dans le modèle de régression additive, où la densité du bruit est inconnue, mais supposée symétrique. Dans ce cadre, nous développons un estimateur dit de Huber reposant sur l idée de la médiane. Cet estimateur permet d estimer la fonction de régression, quelque soit la densité du bruit additif par exemple, densité gaussienne ou densité de Caucy. Avec la métode de Lepski, nous sélectionnons un estimateur qui atteint la vitesse adaptative classique des estimateurs linéaires sur les espaces de Hölder. Mots Clés : Approce Bayésienne Locale, Critère de Huber, Estimation Robuste, Métode de Lepski, Adaptation Minimax, Régression Multiplicative, Sélection de la Fenêtre, Vitesses Adaptatives Optimales. Abstract We work in te context of nonparametric estimation in te regression model. Firstly, we consider observations Y were te density g is known and depends on a regression function fx unknown. In tis tesis, tis function is assumed regular, i.e. belonging to a Hölder ball. Te goal is to estimate te function f to a point y pointwise estimation. For it, we develop a local bayesian estimator, constructed from te density g of te observations. We propose an adaptive procedure based on te Lepski s metod, wic allows to construct an adaptive estimator cosen from te family of local bayesian estimators indexed by te bandwidt. Under some sufficient assumptions on te density g, our estimator acieves te adaptive optimal rate in a particular sense. In addition, we remark tat, in some models, te bayesian estimator is more efficient tan linear estimators. Secondly, anoter approac is considered. We consider te additive regression model, were te density of te noise is unknown and assumed to be symmetric. In tis framework, we develop te so-called Huber estimator based on te idea of te median l 1 criterion. Tis estimator allows to estimate te regression function, for any density of te additive noise for example : Gaussian density or Caucy density. Wit te Lepski s metod, we select an estimator tat acieves te rate of conventional adaptive linear estimators on Hölder spaces witout depends on te symmetric density of te noise. Keywords : Bandwidt Selector, Adaptive Optimal Rate, Huber Criterion, Lepski s Metod, Local Bayesian Fitting, Minimax Adaptation, Multiplicative Regression, Robust Estimation. AMS 2000 subject classification: 62G08, 62G20.

Montrer encore