Examen du cours d Apprentissage statistique

Documents pareils
Apprentissage non paramétrique en régression

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

3. Conditionnement P (B)

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

LES MÉTHODES DE POINT INTÉRIEUR 1

Optimisation Discrète

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Programmation linéaire

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

4. Martingales à temps discret

Image d un intervalle par une fonction continue

Résolution d équations non linéaires

Programmation linéaire

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

RO04/TI07 - Optimisation non-linéaire

Programmation linéaire et Optimisation. Didier Smets

MESURE ET INTÉGRATION EN UNE DIMENSION. Notes de cours

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Chp. 4. Minimisation d une fonction d une variable

3 Approximation de solutions d équations

Exercice : la frontière des portefeuilles optimaux sans actif certain

4.2 Unités d enseignement du M1

Espérance conditionnelle

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Fonctions de deux variables. Mai 2011

Cours d introduction à la théorie de la détection

Économetrie non paramétrique I. Estimation d une densité

Différentiabilité ; Fonctions de plusieurs variables réelles

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Théorie des sondages : cours 5

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Modèles et Méthodes de Réservation

Approximations variationelles des EDP Notes du Cours de M2

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Introduction à l optimisation de forme et application à la mécanique des fluides

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Cours d analyse numérique SMI-S4

Principe de symétrisation pour la construction d un test adaptatif

Commun à tous les candidats

Lagrange, où λ 1 est pour la contrainte sur µ p ).

Calcul différentiel. Chapitre Différentiabilité

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Simulation de variables aléatoires

Chapitre 7 : Intégration sur un intervalle quelconque

I. Polynômes de Tchebychev

Intégration et probabilités TD1 Espaces mesurés Corrigé

Méthodes de Simulation

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Approximation diophantienne uniforme et dimension de Hausdorff

Programmation Linéaire - Cours 1

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Amphi 3: Espaces complets - Applications linéaires continues

Fonctions de plusieurs variables. Sébastien Tordeux

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

EXERCICE 4 (7 points ) (Commun à tous les candidats)

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Sujet 4: Programmation stochastique propriétés de fonction de recours

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Sur certaines séries entières particulières

Chapitre VI Fonctions de plusieurs variables

Master Modélisation Aléatoire Paris VII, Cours Méthodes de Monte Carlo en nance et C++, TP n 2.

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

Chapitre VI - Méthodes de factorisation

Calcul différentiel sur R n Première partie

Travaux dirigés d introduction aux Probabilités

Quantification Scalaire et Prédictive

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Une méthode heuristique pour l ordonnancement de projets avec contraintes de ressources et chevauchement d activités

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Correction du Baccalauréat S Amérique du Nord mai 2007

Couples de variables aléatoires discrètes

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Fonctions de plusieurs variables

FIMA, 7 juillet 2005

Moments des variables aléatoires réelles

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

RECHERCHE OPERATIONNELLE

Relation d ordre. Manipulation des relations d ordre. Lycée Pierre de Fermat 2012/2013 Feuille d exercices

1.1 Codage de source et test d hypothèse

Texte Agrégation limitée par diffusion interne

F411 - Courbes Paramétrées, Polaires

Décomposition de Föllmer-Schweizer. explicite d un passif d assurance vie. au moyen du calcul de Malliavin

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Plus courts chemins, programmation dynamique

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Continuité en un point

Transcription:

Examen du cours d Apprentissage statistique Enseignants : Francis Bach Olivier Catoni Rémi Lajugie Guillaume Obozinski Session de juin 2013 Les exercices qui suivent sont indépendants et peuvent donc être abordés dans un ordre arbitraire. Ils ne sont pas classés par ordre de difficulté. Merci de rendre chaque exercice sur une feuille séparée! Durée : 3 heures Tous documents autorisés

1 Fonction de perte de Huber et régression quadratique bornée Soit (X, Y ) un couple de variables aléatoires, où X R d et Y R. On considère n copies indépendantes (X i, Y i ), 1 i n du couple (X, Y ). On suppose que E(Y 2 ) < + et qu il existe un réel positif R tel que P( X R) = 1. Introduisons la fonction de Huber ψ : R R définie par { z 2 /2, z 1, ψ(z) = z 1/2, z 1. Pour tout paramètre d échelle S R +, on définit de même ψ S (z) = S 2 ψ(z/s). On s intéresse à la fonction de perte L(x, y, θ) = ψ S ( y θ, x ), où x R d, θ R d, y R, θ, x = Soit B d = {θ R d : θ = 1} la boule unité de R d et θ arg min E [ L(X, Y, θ) ] le minimiseur du risque de Huber sur la boule unité. Considérons l estimateur θ B d de θ défini par θ arg min L(X i, Y i, θ). d θ j x j. 1. Montrer que la proposition 2.5 page 12 du cours s applique (cette proposition est rappelée à la page suivante). Plus précisément, montrer que pour tout x R d tel que x R, tout y R, θ R d, L(x, y, θ ) L(x, y, θ) RS θ θ, L(x, y, θ ) L(x, y, θ) L(x, y, θ), θ θ R2 2 θ θ 2, où L(x, y, θ) = Sψ [ S 1( y θ, x )] x. On pourra considérer la fonction g(t) = L [ x, y, (1 t)θ+tθ ] et borner successivement g(1) g(0) et g(1) g(0) g (0) en utilisant la formule de Taylor avec reste intégral. 2. On suppose de plus que P( Y R) = 1 et que S = 2R. (a) Montrer que (b) Montrer que pour tout θ B d, θ = arg min E [( Y θ, X ) 2]. E [ L(X, Y, θ) ] E [ L(X, Y, θ ) ] 1 2 E[ θ θ, X 2]. Pour cela, on pourra considérer la fonction g(t) = E [ L(X, Y, tθ + (1 t)θ ) ] et montrer que g (0) 0. Enseignants : Bach, Catoni, Lajugie, Obozinski 2

(c) Soit λ min = inf { E ( θ, X 2), θ R d, θ = 1 } la plus petite valeur propre de la forme quadratique θ E ( θ, X 2). On suppose que λ min > 0 et on introduit comme dans la proposition 2.5 la fonction ( h χ(h) = sup 2 θ θ 2 E [ L(X, Y, θ) + E [ L(X, Y, θ ) ] ), h R +. Montrer que χ(λ min ) = 0. (d) Pour tout ε > 0, en déduire des majorants de valables avec probabilité 1 ε. E [( Y θ, X ) 2] E [( Y θ, X ) 2] et de θ θ 2 Rappel de la proposition 2.5 du cours Proposition 2.5 Considérons n variables aléatoires indépendantes X i, 1 i n à valeurs dans un espace mesurable X, l espace des paramètres Θ = R d et une fonction mesurable f : X Θ R telle que E [ f(x i, θ) 2] < +, θ Θ, 1 i n. Posons M(θ) = 1 n m(θ) = 1 n f(x i, θ), E [ f(x i, θ) ]. Supposons qu il existe une fonction mesurable (x, θ) f(x, θ) R d et des constantes positives g et H telles que f(x, θ) f(x, θ ) g θ θ, f(x, θ ) f(x, θ) f(x, θ), θ θ H 2 θ θ 2, x X, θ, θ R d. Soit θ arg min m(θ). Introduisons pour tout h > 0 la fonction h χ(h) = sup 2 θ θ 2 m(θ) + m(θ ), Dans ces conditions, le minimiseur empirique θ arg min M(θ) de m sur la boule unité vérifie avec probabilité au moins 1 ε θ θ 2 8g2 nh 2 et m( θ) m(θ ) 4g2 nh [( ) 8H h + 1 d + 2 log ( ε 1)] + 4χ(h) h [( ) 8H h + 1 d + 2 log ( ε 1)] + χ(h). Enseignants : Bach, Catoni, Lajugie, Obozinski 3

2 Apprentissage du noyau Dans ce problème, une approche pour apprendre le noyau directement à partir des données sera étudiée. Etant donné n observations (x i, y i ) X R et une application Φ : X R d ( feature map ), on considère le problème de la régression ridge : 1 min w R d 2n (y i w Φ(x i )) 2 + λ 2 w w. (1) (a) En introduisant des variables auxiliaires u i = w Φ(x i ), déterminer un problème dual à (1) et montrer qu il y a dualité forte. On montrera notamment que le problème fait intervenir la matrice de noyau K, qui est de taille n n et telle que K ij = Φ(x i ) Φ(x j ). (b) On appelle F (K) la valeur optimale commune pour le problème (1) et son dual. Sans calculer F (K), montrer que F est une fonction convexe. Résoudre le problème dual pour obtenir F (K). (c) On suppose maintenant que m matrices de noyau K 1,..., K m sont disponibles. Montrer que pour tout η S = { η R m, η 0, 1 η = 1 }, K(η) = m η jk j est une matrice semi-définie positive. On note G(η) = F (K(η)) et on va maintenant chercher à minimiser G(η) par rapport à η. (d) Calculer le gradient de G. On pourra montrer (en utilisant une méthode de démonstration vue en cours) et utiliser que la différentielle de la fonction M M 1 en une certaine matrice symmétrique définie positive M est égale à N M 1 NM 1. (e) Décrire un algorithme pour la projection orthogonale sur le simplexe S, i.e., pour 1 determiner le minimum global de min η S 2 η ζ 2. On introduira un Lagrangien et une variable duale uniquement pour la contrainte 1 η = 1, et on utilisera (en le montrant) un résultat intermédiare min ηi 0 1 2 (η i ζ i ) 2 + λη i = 1 2 ζ2 i 1 2 (ζ i λ) 2 +, où c + = max{c, 0}. (f) Décrire un algorithme pour la minimisation de G sur S. Enseignants : Bach, Catoni, Lajugie, Obozinski 4

3 Apprentissage d une fonction Lipschitz en design fixe Soit f : [0, 1] R une fonction Lipschitz de constante L, c est-à-dire telle que x, y [0, 1], f (x) f (y) L x y. On souhaite apprendre f à partir d observations bruitées en des points x i qui prennent la forme Y i = f (x i ) + ε i, (2) où les variables aléatoires ε i sont indépendantes et vérifient E[ε i ] = 0 et E[ε 2 i ] = σ2 <. Plus précisément on souhaite minimiser le risque quadratique correspondant à une loi uniforme des données d entrées sur l intervalle [0, 1], ou de façon équivalente, l excès de risque que l on peut écrire E(f) := R(f) R(f ) = 1 0 (f(x) f (x)) 2 dx. On suppose néanmoins, qu au lieu d obtenir des données d entrées tirées aléatoirement, on obtient des observations bruitées Y i selon l équation (2) pour des données d entrée déterministes de la forme x i = i n pour i {1,..., n}, donc régulièrement espacées sur l intervalle [0, 1]. Le risque empirique est donc ˆR n (f) = 1 (Y i f( n i n ))2. Soit F m l ensemble des fonctions en escalier : { m } F m := f R [0,1] f(x) = c j 1 {x Ij,m } avec I j,m = [ j 1 m, j m). On notera D j = { } 1 n 1,..., n n,1 Ij,m et N j = D j. On supposera que n > m et on pourra n utiliser que, par construction, m 1 N j < n m + 1. On considère le minimiseur du risque empirique : m ˆf = ĉ j 1 {x Ij,m } = argmin f Fm ˆRn (f). (a) Explicitez le minimiseur du risque empirique ˆf. (b) Soit f(x) = m c j1 {x Ij,m } = E[ ˆf(x)]. Montrez que E( f) ( L 2. m) (c) Proposez une borne supérieure à 1 0 Var( ˆf(x))dx dépendant de σ 2, m et n. (d) En déduire une borne supérieure pour l espérance de l excès de risque E[E( ˆf)]. En supposant n L σ, quelle valeur m choisir pour minimiser approximativement cette borne supérieure? (e) On suppose désormais que ε i b 2 pour tout i. Montrer qu avec probabilité au moins 1 1 2m, on a m log(2m) max ĉ j c j 2b j n m. (f) En déduire que pour n m + m 3 log(2m), on a avec probabilité 1 1 2m, que x [0, 1], ˆf(x) f(x) κ(b, L) m, pour κ(b, L) une constante dépendant de b et L. A n fixé, quel est le meilleur choix de m pour optimiser la convergence uniforme de ˆf vers f? Enseignants : Bach, Catoni, Lajugie, Obozinski 5