Condition nécessaire et suffisante de convergence en loi de l estimateur des plus proches voisins Rémi Servien Laboratoire Jean Kuntzmann INP Grenoble Neuvième Colloque Jeunes Probabilistes et Statisticiens Mai 2010 Le Mont Dore 1 / 19
Plan de la présentation 1 Estimateur classique des k n plus proches voisins 2 Point de Lebesgue et ρ-régularité 3 Indice de régularité 4 Simulations 5 Conclusion 2 / 19
Estimateur classique des k n plus proches voisins S n = {X 1,..., X n } de v.a. iid sur R d tiré à partir d une mesure de probabilité µ Estimateur de la densité des k n -plus proches voisins : f kn (x) = k n nλ(b kn (x)) où B kn (x) est la plus petite boule de centre x contenant k n points de l échantillon. Estimateur convergent 3 / 19
Théorème (Moore et Yackel, 1977) Si f est continue et à dérivées bornées dans un voisinage de x avec f (x) > 0 et sous les conditions de convergence de f kn lim k n = et n et sous la condition supplémentaire alors la variable aléatoire lim n converge vers une loi N (0, 1). k n lim n n = 0 k n n 2/3 = 0 T n (x) = k n f kn (x) f (x) f (x) 4 / 19
Définitions x est un point de Lebesgue de la mesure µ si µ(b δ (x)) lim = f (x) existe. δ 0 + λ(b δ (x)) x est un point ρ-régulier de la mesure µ si µ(b δ (x)) λ(b δ (x)) f (x) ρ(δ), (1) où ρ est une fonction mesurable telle que lim δ 0 + ρ(δ) = 0 (Berlinet et Levallois, 2000). 5 / 19
Exemple On définit, pour x [ 1, 1] et x 0, la densité f 1 (x) = f 1(x) 0.2 0.3 0.4 0.5 0.6 x + 2 cos(1/x) + 2x sin(1/x) c 1.0 0.5 0.0 0.5 1.0 Condition nécessaire et suffisante de convergence x en loi de l estimateur des plus proches voisins 6 / 19
Exemple Discontinuité du 2nd ordre en 0. Mais µ 1 (B h (0)) 2h = 2 c + 2 3c h1/2 + o(h 1/2 ) 0 est un point de Lebesgue de la mesure µ 1 de densité f 1 7 / 19
Théorème (Berlinet et Levallois, 2000) Sous les conditions de convergence de f kn, si x est un point ρ-régulier de la mesure µ avec f (x) > 0, alors la condition kn ρ(r n (x)) P 0 lorsque n tend vers l infini implique la convergence en distribution de la variable aléatoire vers une loi N (0, 1). T n (x) = k n f kn (x) f (x) f (x) 8 / 19
Indice de régularité Si en x, point de Lebesgue de la mesure µ, nous avons µ(b δ (x)) λ(b δ (x)) = f (x) + C xδ αx + o(δ αx ) quand δ 0 +, (2) où C x 0 et α x > 0. L indice α x est appelé indice de régularité de la mesure µ au point x. 9 / 19
Exemple 1 f 1 (x) = x + 2 cos(1/x) + 2x sin(1/x) c µ 1 (B h (0)) 2h = 2 c + 2 3c h1/2 + o(h 1/2 ) 0 est un point de Lebesgue de la mesure µ 1 de densité f 1 avec un indice de régularité α 0 = 1/2. 10 / 19
Exemple 2 f 2 (x) = 1 2/3 + x si x [ 0.5, 0.5] f 2(x) 0.6 0.7 0.8 0.9 1.0 1.1 1.2 Pour µ 2 (x) on a : α x = 1 si x 0 α x = 0.5 si x = 0 0.4 0.2 0.0 0.2 0.4 x Caractère très fortement local de l indice de régularité 11 / 19
Exemple 3 1 f 3 (x) = + 1 a si x [ 0.5, 0.5]\0 log x = 1 a si x = 0 f 3(x) 0.4 0.6 0.8 1.0 1.2 1.4 1.6 0 est un point de Lebesgue de la mesure µ 3 On a ρ-régularité avec ρ(δ) = 1/ log δ Il n y a pas d indice de régularité en 0. 0.4 0.2 0.0 0.2 0.4 x 12 / 19
Théorème Si x est un point de Lebesgue où (2) est vérifié avec f (x) > 0, et sous les conditions de convergence de f kn, la variable aléatoire T n (x) = k n f kn (x) f (x) f (x) converge en loi si et seulement si la suite ( ) k 1+1/2αx n n a une limite finie κ. Lorsque cette condition est vérifiée, la loi asymptotique de T n (x) est ( ( ) ) C x κ αx 1 αx +1 N, 1. 2 αx f (x) 13 / 19
Exemple f 2 (x) = 1 2/3 + x si x [ 0.5, 0.5] Pour µ 2 (x) on a : α x = 1 si x 0 α x = 0.5 si x = 0 Sans prendre en compte la spécificité de f 2 en 0, on choisit k n = n pour n = 10000. 14 / 19
Exemple 0.0 0.1 0.2 0.3 0.4 x= 0.25 x= 0.125 x=0 x=0.125 x=0.25 2 0 2 4 6 15 / 19
f 2 (x) = 1 Simulations 2 3 + x, x [ 0.5, 0.5] Hypothèses du théorème : en 0 : k n << n 0.5 et k n << n 2/3 sinon. x = 0.25 0.125 0 0.125 k n = n 1/3 [0.74 ;1.25] [0.72 ;1.22] [0.34 ;0.55] [0.63,1.06] k n = n 2/5 [0.90 ;1.32] [0.66 ;0.96] [0.37 ;0.53] [0.65,0.94] k n = n 0.6 [1.02 ;1.05] [0.85 ;0.87] [0.55 ;0.56] [0.85 ;0.88] f 2 (x) 1.03 0.88 0.53 0.88 TABLEAU: Estimations de f 2 en différents points x pour n = 500000 points 16 / 19
Autre utilisation de l indice de régularité Estimateur de la densité des k n -plus proches voisins : f kn (x) = k n nλ(b kn (x)). Estimateur récursif (Beirlant, Berlinet et Biau (2008)) : f (r) k n (x) = f kn (x) a(d, k n, α x ). 17 / 19
Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Estimation de f 4 (x) = 0.5 exp( x ) en x = 0 0.0 0.2 0.4 0.6 0.8 1.0 0 200 400 600 800 1000 kn 18 / 19
Conclusion Condition nécessaire et suffisante pour la convergence en loi de f kn Problèmes : Pas d indice de régularité exact pour certaines fonctions ρ-régulières Indice de régularité difficile à calculer Définition inutilisable pour un rapport de mesures d ensembles non centrés au point d estimation x et n étant pas forcément des boules Nouvelle définition de l indice de régularité 19 / 19
Nouvelle définition On définit l ensemble E x par { E x = α 0 tel que C > 0, λ 0 > 0, tels que I I x vérifiant λ(i) < λ 0 } on ait µ(i) λ(i) f (x) Cλ(I) α où I x est l ensemble des intervalles contenant x. S il existe un réel α x vérifiant α x = sup E x (1) alors α x sera l indice de régularité de la mesure µ au point x. Si sup E x = + alors nous aurons α x = +. Estimation de régularité locale 1 / 6
Exemple 2 cos(1/x)+2x sin(1/x) f 4 (x) = c définie sur R pour x [ 1, 1]\0 avec c = 4 + 2 sin 1 et µ 1 sa mesure de probabilité associée. f 4(x) 0.2 0.3 0.4 0.5 0.6 1.0 0.5 0.0 0.5 1.0 x Estimation de régularité locale 2 / 6
En 0 : Point de Lebesgue ρ-régularité avec ρ(δ) = δ/c Pas d indice de régularité exact car µ 4 ([ h, h]) 2h f 4 (0) = 1 c h sin ( 1 h ) Utilisation de la nouvelle définition : α 0 = 1 Estimation de régularité locale 3 / 6
Théorème Si x est un point de Lebesgue où (1) est vérifié avec f (x) > 0 et α x E x, et sous les conditions de convergence de f kn, la condition supplémentaire lim n k 1+1/2αx n n = 0 implique la convergence asymptotique de la variable aléatoire vers une loi N (0, 1). T n (x) = k n f kn (x) f (x) f (x) Estimation de régularité locale 4 / 6
Application à l histogramme L histogramme s écrit f h (x) = ν nq nh n avec x Π nq, ν nq étant le nombre de points dans la qème cellule, q Z et h n un nombre réel positif dépendant de n. Si lim h n = 0 et lim nh n = +. (2) n n alors f h (x) L2 f (x). Estimation de régularité locale 5 / 6
Théorème Si x est un point de Lebesgue où (1) est vérifié avec f (x) > 0 et α x E x, et sous les conditions (2), la condition supplémentaire +1 lim nh2αx n n = 0 implique la convergence asymptotique de la variable aléatoire H n (x) = nh n f h (x) f (x) f (x) vers une loi N (0, 1). Estimation de régularité locale 6 / 6