Problème d estimation aux bornes Introduction d un biais près d une borne (pour x = ph, 0 p < 1 ) si f(x) 0. Soit a l (p) = p 1 ul K(u) du, notons que a 0 (p) < 1 E[ f(x)] = a 0 (p)f(x) h a 1 (p)f (x)+ h2 2 a 2(p)f (x)+o (h 2 ) Rectification : utilisation des "boundary kernels", par exemple : B(x) = a 2(p) a 1 (p)x a 0 (p)a 2 (p) a 2 1(p) K(x), ou, plus généralement, pour un autre noyau L K, B(x) = c 1(p)K(x) a 1 (p)l(x) a 0 (p)c 1 (p) a 1 (p)c 0 (p), (avec c l (p) = p 1 ul L(u) du ), ce qui implique E[ f B (x)] = f(x) + O (h 2 ). Prix : augmentation de la variance. Recherches recentes : "beta-kernels",... 40
"Higher order kernels" But : réduction du biais Hypothèse : f (r) (x) = dr dx r f(x) continue en x Définition : Kernel K est de l ordre r si 1, j = 0 u j K(u) du = 0, j = 1,...,r 1 µ r < j = r Si K est de l ordre r, f est r fois continûment différentiable, et sous les conditions "habituelles" au kernel, Biais( f(x)) = hr r! µ r f (r) (x) + O (h r+1 ), mais la variance de f(x) ne change pas. Car pour n grand, h r < h 2 si r > 2, le biais peut être réduit ainsi. Minimisation de l AMISE par rapport à h donne et h opt = O(n 1/(2r+1) ) AMISE( ˆf) = O(n 2r/(2r+1) ) Note : Plus r est choisi grand, plus on s approche au taux "paramétrique" n 1. Mais, f(x) doit être très régulière et l estimateur f peut devenir négative. 41
Régression non paramétrique : Introduction Considérer le modèle de régression Y = m(x) + ε où ε i.i.d.(0,σ 2 ), X variable (aléatoire) explicative and Y la response. La fonction m( ) est de forme inconnue. Ceci est une généralisation de la régression linéaire avec m(x) = IE[Y X = x]. Comment estimer m, en observant l échantillon (X i,y i ) n? Dans la suite, distinguez deux cas: - le design fixé (souvent equidistant) - le design stochastique (aléatoire) 42
43
Régression non paramétrique avec "fixed design" Y i = m(x i ) + ε i i = 1,...,n, où x 1,...,x n sont non aléatoires (fixés par l utilisateur) et ε 1,...,ε n sont des v.a. indépendantes avec E(ε i ) = 0 et var(ε i ) = σ 2 (x i ). Variance : cas homoscédastique σ 2 (x i ) = σ 2 i sinon hétéroscédastique Cas particulaire : "design régulaire" avec densité f X connue x i = F 1 X (i/n) où F X(x) = et x 1... x n,x i [0, 1]. x f X (t) dt, Souvent, f X densité uniforme, donc x i = F 1 X (i/n) = i/n (donc x i+1 x i constante pour tout i) : "design équidistant" 44
Régression non paramétrique avec "stochastic design" Y i = m(x i ) + σ(x i ) ε i i = 1,...,n, où {ε i } sont indépendantes conditionellement aux X 1,...X n avec E(ε i X = x) = 0 et var(ε i X = x) = 1. Donc, m(x) est l espérance conditionnelle de Y sachant X E[Y X = x] = m(x) + σ(x) E(ε X = x) = m(x), et σ 2 (X) est la variance conditionnelle sachant X : var(y X = x) = E[Y 2 X = x] m 2 (x) =... = σ 2 (x). L évaluation d un estimateur m(x) via MSE conditionnelle MSE( m(x) X 1,...,X n ) = E[( m(x) m(x)) 2 X 1,...,X n ] (ou avec la MISE, intégrale de MSE( m(x)) par rapport à x). 45
Régression np: Deux estimateurs à noyau L estimateur Nadaraya Watson : n m NW (x) = K ( X i x h n K ( ) X i x h ) Yi proposé Nadaraya (1964) et Watson (1964). On peut écrire cet estimateur sous forme m NW (x) = W i (x) Y i, avec des "poids" W i (x) = K ( ) X i x h n K ( X i ) x h et donc "une règle de lissage linéaire". Sa motivation provient de m(x) = E[Y X = x] = y f Y X (y x) dy = 1 f X (x) avec un estimateur pour le numérateur 1 ( ) Xi x K nh h et un estimateur à noyau de densité pour le dénominateur 1 ( ) Xi x K. nh h Y i y f X,Y (x,y) dy 46
Comment interpréter cet estimateur? Moyenne locale Moindres carrés pondérés Vraisemblance locale Moyenne locale Soit n nombres d observations X i proche de x (c.à.d. d une distance h de x) et I x l ensemble des indices de ces observations. On peut écrire n = et Y i = i I x I(x h < X i < x + h) I(x h < X i < x + h) Y i Ceci résulte en l estimateur NW avec noyau uniforme : m(x) = 1 n Y n i = I(x h < X i < x + h) Y i n i I x I(x h < X i < x + h) Observez que n nh "taille d échantillonage effective" 47
Moindres carrés pondérés L estimateur NW peut être obtenu comme minimisation du critère ( ) (Y i m) 2 Xi x K h par rapport à m pour un x donné. Vraisemblance locale Sous l hypothèse de normalité, l estimateur NW peut être obtenu comme maximisation d une fonction log vraisemblance locale : ( ) L(m, σ 2,x) = l(m,σ 2 Xi x ) K h par rapport à m pour un x donné, avec la log vraisemblance gaussienne l( ) l(m,σ 2 ) = 1 2 log σ2 n (Y i m) 2 2σ 2. 48
Exemple : Food expenditure (Y) en fonction du net-income (X) en Royaume-Uni, 1973. Estimator NW avec quatre bandwidths différentes : h=0.05 h=0.2 Food 0.5 1 1.5 0.5 1 1.5 2 2.5 Net-income h=0.1 Food 0.5 1 1.5 Food 0.5 1 1.5 0.5 1 1.5 2 2.5 Net-income h=0.5 Food 0.5 1 1.5 0.5 1 1.5 2 2.5 Net-income 0.5 1 1.5 2 2.5 Net-income 49
Exemple : Food expenditure (Y) en fonction du net-income (X) en Royaume-Uni, 1973. valeurs des poids effectifs W i (x) pour l estimateur NW: 50
L estimateur Gasser-Müller a) L estimateur de Priestley et Chao (1972) m PC (x) = K h (x X (i) ) (X (i) X (i 1) ) Y [i], où Y [i] est la valeur associée à X (i) (échantillon ordonné). b) L estimateur de Gasser et Müller (1979) m GM (x) = si s i 1 K h (x u) du Y [i] =: W i (x)y [i], avec s 0 =, s n =, (pour que n W i(x) = 1) et X (i) s i X (i+1), i = 1,...,n 1. Meilleur choix de s i : s i = 1/2 (X (i) + X (i+1) ), i = 1,...,n 1. Comparaison avec l estimateur NW : NW : les poids W i sont proportionnels à l hauteur du noyau normalisé GM : les poids sont proportionnels à la surface (air en dessous du noyau intégré) 51
Biais et variance pour la régression np (1) Design stochastique - estimateur NW : Biais[ m NW (x)] = 1 2 var[ m NW (x)] = σ2 (x) f(x) nh ( ) m (x) + 2 m (x)f (x) f(x) (2) Design stochastique - estimateur GM : µ 2 h 2 +o (h 2 ). K 2 (u) du + o ( 1 nh ). Biais[ m GM (x)] = 1 2 m (x) µ 2 h 2 + o (h 2 ). var[ m GM (x)] = 3/2 σ2 (x) f(x) nh K 2 (u) du + o ( 1 nh ). Donc, l estimateur GM à un meilleur comportement quant au biais mais une variance (asymptotique) plus élevée (facteur 3/2) au cas du "design stochastique". (3) Le cas du design fixe équidistant : Biais[ m NW (x)] = Biais[ m GM (x)] = 1 2 m (x) µ 2 h 2 +o (h 2 ). var[ m NW (x)] = var[ m GM (x)] = σ2 (x) nh MSE[ m ( x)] = h 4 /4 µ 2 2 (m (x)) 2 + σ2 (x) nh K 2 (u) du + o ( 1 nh ). K 2 (u) du +o (h 4 +(nh) 1 ) 52