Examen du cours d Apprentissage statistique Enseignants : Francis Bach Olivier Catoni Rémi Lajugie Guillaume Obozinski Session de juin 2013 Les exercices qui suivent sont indépendants et peuvent donc être abordés dans un ordre arbitraire. Ils ne sont pas classés par ordre de difficulté. Merci de rendre chaque exercice sur une feuille séparée! Durée : 3 heures Tous documents autorisés
1 Fonction de perte de Huber et régression quadratique bornée Soit (X, Y ) un couple de variables aléatoires, où X R d et Y R. On considère n copies indépendantes (X i, Y i ), 1 i n du couple (X, Y ). On suppose que E(Y 2 ) < + et qu il existe un réel positif R tel que P( X R) = 1. Introduisons la fonction de Huber ψ : R R définie par { z 2 /2, z 1, ψ(z) = z 1/2, z 1. Pour tout paramètre d échelle S R +, on définit de même ψ S (z) = S 2 ψ(z/s). On s intéresse à la fonction de perte L(x, y, θ) = ψ S ( y θ, x ), où x R d, θ R d, y R, θ, x = Soit B d = {θ R d : θ = 1} la boule unité de R d et θ arg min E [ L(X, Y, θ) ] le minimiseur du risque de Huber sur la boule unité. Considérons l estimateur θ B d de θ défini par θ arg min L(X i, Y i, θ). d θ j x j. 1. Montrer que la proposition 2.5 page 12 du cours s applique (cette proposition est rappelée à la page suivante). Plus précisément, montrer que pour tout x R d tel que x R, tout y R, θ R d, L(x, y, θ ) L(x, y, θ) RS θ θ, L(x, y, θ ) L(x, y, θ) L(x, y, θ), θ θ R2 2 θ θ 2, où L(x, y, θ) = Sψ [ S 1( y θ, x )] x. On pourra considérer la fonction g(t) = L [ x, y, (1 t)θ+tθ ] et borner successivement g(1) g(0) et g(1) g(0) g (0) en utilisant la formule de Taylor avec reste intégral. 2. On suppose de plus que P( Y R) = 1 et que S = 2R. (a) Montrer que (b) Montrer que pour tout θ B d, θ = arg min E [( Y θ, X ) 2]. E [ L(X, Y, θ) ] E [ L(X, Y, θ ) ] 1 2 E[ θ θ, X 2]. Pour cela, on pourra considérer la fonction g(t) = E [ L(X, Y, tθ + (1 t)θ ) ] et montrer que g (0) 0. Enseignants : Bach, Catoni, Lajugie, Obozinski 2
(c) Soit λ min = inf { E ( θ, X 2), θ R d, θ = 1 } la plus petite valeur propre de la forme quadratique θ E ( θ, X 2). On suppose que λ min > 0 et on introduit comme dans la proposition 2.5 la fonction ( h χ(h) = sup 2 θ θ 2 E [ L(X, Y, θ) + E [ L(X, Y, θ ) ] ), h R +. Montrer que χ(λ min ) = 0. (d) Pour tout ε > 0, en déduire des majorants de valables avec probabilité 1 ε. E [( Y θ, X ) 2] E [( Y θ, X ) 2] et de θ θ 2 Rappel de la proposition 2.5 du cours Proposition 2.5 Considérons n variables aléatoires indépendantes X i, 1 i n à valeurs dans un espace mesurable X, l espace des paramètres Θ = R d et une fonction mesurable f : X Θ R telle que E [ f(x i, θ) 2] < +, θ Θ, 1 i n. Posons M(θ) = 1 n m(θ) = 1 n f(x i, θ), E [ f(x i, θ) ]. Supposons qu il existe une fonction mesurable (x, θ) f(x, θ) R d et des constantes positives g et H telles que f(x, θ) f(x, θ ) g θ θ, f(x, θ ) f(x, θ) f(x, θ), θ θ H 2 θ θ 2, x X, θ, θ R d. Soit θ arg min m(θ). Introduisons pour tout h > 0 la fonction h χ(h) = sup 2 θ θ 2 m(θ) + m(θ ), Dans ces conditions, le minimiseur empirique θ arg min M(θ) de m sur la boule unité vérifie avec probabilité au moins 1 ε θ θ 2 8g2 nh 2 et m( θ) m(θ ) 4g2 nh [( ) 8H h + 1 d + 2 log ( ε 1)] + 4χ(h) h [( ) 8H h + 1 d + 2 log ( ε 1)] + χ(h). Enseignants : Bach, Catoni, Lajugie, Obozinski 3
2 Apprentissage du noyau Dans ce problème, une approche pour apprendre le noyau directement à partir des données sera étudiée. Etant donné n observations (x i, y i ) X R et une application Φ : X R d ( feature map ), on considère le problème de la régression ridge : 1 min w R d 2n (y i w Φ(x i )) 2 + λ 2 w w. (1) (a) En introduisant des variables auxiliaires u i = w Φ(x i ), déterminer un problème dual à (1) et montrer qu il y a dualité forte. On montrera notamment que le problème fait intervenir la matrice de noyau K, qui est de taille n n et telle que K ij = Φ(x i ) Φ(x j ). (b) On appelle F (K) la valeur optimale commune pour le problème (1) et son dual. Sans calculer F (K), montrer que F est une fonction convexe. Résoudre le problème dual pour obtenir F (K). (c) On suppose maintenant que m matrices de noyau K 1,..., K m sont disponibles. Montrer que pour tout η S = { η R m, η 0, 1 η = 1 }, K(η) = m η jk j est une matrice semi-définie positive. On note G(η) = F (K(η)) et on va maintenant chercher à minimiser G(η) par rapport à η. (d) Calculer le gradient de G. On pourra montrer (en utilisant une méthode de démonstration vue en cours) et utiliser que la différentielle de la fonction M M 1 en une certaine matrice symmétrique définie positive M est égale à N M 1 NM 1. (e) Décrire un algorithme pour la projection orthogonale sur le simplexe S, i.e., pour 1 determiner le minimum global de min η S 2 η ζ 2. On introduira un Lagrangien et une variable duale uniquement pour la contrainte 1 η = 1, et on utilisera (en le montrant) un résultat intermédiare min ηi 0 1 2 (η i ζ i ) 2 + λη i = 1 2 ζ2 i 1 2 (ζ i λ) 2 +, où c + = max{c, 0}. (f) Décrire un algorithme pour la minimisation de G sur S. Enseignants : Bach, Catoni, Lajugie, Obozinski 4
3 Apprentissage d une fonction Lipschitz en design fixe Soit f : [0, 1] R une fonction Lipschitz de constante L, c est-à-dire telle que x, y [0, 1], f (x) f (y) L x y. On souhaite apprendre f à partir d observations bruitées en des points x i qui prennent la forme Y i = f (x i ) + ε i, (2) où les variables aléatoires ε i sont indépendantes et vérifient E[ε i ] = 0 et E[ε 2 i ] = σ2 <. Plus précisément on souhaite minimiser le risque quadratique correspondant à une loi uniforme des données d entrées sur l intervalle [0, 1], ou de façon équivalente, l excès de risque que l on peut écrire E(f) := R(f) R(f ) = 1 0 (f(x) f (x)) 2 dx. On suppose néanmoins, qu au lieu d obtenir des données d entrées tirées aléatoirement, on obtient des observations bruitées Y i selon l équation (2) pour des données d entrée déterministes de la forme x i = i n pour i {1,..., n}, donc régulièrement espacées sur l intervalle [0, 1]. Le risque empirique est donc ˆR n (f) = 1 (Y i f( n i n ))2. Soit F m l ensemble des fonctions en escalier : { m } F m := f R [0,1] f(x) = c j 1 {x Ij,m } avec I j,m = [ j 1 m, j m). On notera D j = { } 1 n 1,..., n n,1 Ij,m et N j = D j. On supposera que n > m et on pourra n utiliser que, par construction, m 1 N j < n m + 1. On considère le minimiseur du risque empirique : m ˆf = ĉ j 1 {x Ij,m } = argmin f Fm ˆRn (f). (a) Explicitez le minimiseur du risque empirique ˆf. (b) Soit f(x) = m c j1 {x Ij,m } = E[ ˆf(x)]. Montrez que E( f) ( L 2. m) (c) Proposez une borne supérieure à 1 0 Var( ˆf(x))dx dépendant de σ 2, m et n. (d) En déduire une borne supérieure pour l espérance de l excès de risque E[E( ˆf)]. En supposant n L σ, quelle valeur m choisir pour minimiser approximativement cette borne supérieure? (e) On suppose désormais que ε i b 2 pour tout i. Montrer qu avec probabilité au moins 1 1 2m, on a m log(2m) max ĉ j c j 2b j n m. (f) En déduire que pour n m + m 3 log(2m), on a avec probabilité 1 1 2m, que x [0, 1], ˆf(x) f(x) κ(b, L) m, pour κ(b, L) une constante dépendant de b et L. A n fixé, quel est le meilleur choix de m pour optimiser la convergence uniforme de ˆf vers f? Enseignants : Bach, Catoni, Lajugie, Obozinski 5