Apprentissage non paramétrique en régression
|
|
- Clementine Prudhomme
- il y a 9 ans
- Total affichages :
Transcription
1 1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus classiques : estimation par des polynômes, estimation sur des bases de splines, estimateurs à noyau et par projection sur des bases orthonormées Fourier, ondelettes). Des contrôles du risque quadratique et des calculs de vitesses de convergences sont effectués. ous présentons également les modèles additifs généralisés ainsi que les arbres de régression CART et la méthode KRLS kernel regression least square). Retour au plan du cours 1 Introduction On se place dans le cadre d un modèle de régression : Y i fx i ) + ε i, i 1,... n. ous supposerons que les variables X i appartiennent à R d, les Y i sont réelles. Soit les X i sont déterministes, et nous supposerons les variables ε i sont i.i.d., centrées, de variance σ 2. Soit les X i sont aléatoires et nous supposerons les variables ε i indépendantes des X i, i.i.d., centrées, de variance σ 2. En l absence de toute hypothèse sur la fonction de régression f, nous sommes dans un cadre non paramétrique. ous allons proposer plusieurs types de méthodes d apprentissage pour la fonction f : l estimation par des splines, les estimateurs à noyaux et les estimateurs par projection sur des bases orthonormées, notamment des bases d ondelettes. ous verrons également une méthode qui permet de contourner le fléau de la dimension dans le cas des modèles additifs, enfin nous introduirons les arbres CART. 2 Estimation par des polynômes par morceaux. Dans ce chapitre, on suppose que les X i appartiennent à un compact de R, que l on peut supposer égal à [, 1]. 2.1 Estimation par des constantes par morceaux On peut estimer la fonction f par une fonction constante par morceaux sur une partition de [, 1]. Ces estimateurs sont les analogues en régression des estimateurs par histogramme en densité, on les appelle régressogrammes). On découpe [, 1] en D intervalles de même taille : I k,d 1 ]k/d,k+1)/d], k,..., D 1. Il est naturel d estimer la fonction f sur l intervalle I k,d par la moyenne des valeurs de Y i qui sont telles que X i I k,d, soit pour tout x I k,d, on pose i,x ˆf D x) i I k,d Y i {i, X i I k,d } si {i, X i I k,d } et ˆf D x) si {i, X i I k,d }. On peut aussi écrire ˆf D x) sous la forme n ˆf D x) Y i1 Xi I k,d n 1. X i I k,d On suppose dans la suite que D < n, si pour tout i, X i i/n, ceci entraîne que pour tout k, {i, X i I k,d }. Cet estimateur correspond à l estimateur des moindres carrés de f sur le modèle paramétrique des fonctions constantes par morceaux sur les intervalles I k,d : D S D {fx) a k 1 x Ik,D }.
2 2 Apprentissage non paramétrique en régression En effet, si on cherche à minimiser ha 1,..., a D ) ) 2 D Y i a k 1 Xi I k,d la minimisation est obtenue pour i,x â l i I l,d Y i {i, X i I l,d }, 2.2 Polynômes par morceaux l. D i,x i I k,d Y i a k ) 2, L estimation par des polynômes par morceaux de degré m sur la partition définie par les intervalles I k,d, 1 k D correspond à la minimisation du critère : ) 2 D Y i a k, + a k,1 X i a k,m Xi m )1 Xi I k,d D i,x i I k,d Y i a k, a k,1 X i... a k,m X m i ) 2. Sur tout intervalle I k,d, on ajuste un polynôme de degré m, par la méthode des moindres carrés en minimisant le critère : i,x i I k,d Y i a k, a k,1 X i... a k,m X m i ) 2. Il s agit simplement d un modèle linéaire en les paramètres a k,,..., a k,m ), il y a donc une solution explicite. Le problème du choix des paramètres D et m se pose. 2.3 Ajustement des paramètres Revenons au cas de l estimation par des constantes par morceaux, et considérons le problème du choix du paramètre D. On peut alors distinguer deux cas extrêmes : 1) Si D est de l ordre de n, on a un seul point X i par intervalle I k,d et on estime f par Y i sur chaque intervalle I k,d. On a une fonction très irrégulière, qui reproduit simplement les observations. On fait alors du sur-ajustement. Si D 1, on estime f sur [, 1] par la moyenne de toutes les observations Y i. Si f est très loin d être une fonction constante, l estimateur sera mal ajusté. Il faut donc trouver un bon compromis entre ces deux situations extrêmes pour le choix de D. 2.4 Performances de l estimateur. ous allons majorer le risque quadratique de l estimateur, pour un choix convenable de D, dans le cas où la fonction de régression f est Lipschitzienne : on suppose que f est dans la classe de fonctions S 1,R {f L 2 [, 1]), x, y [, 1], fx) fy) R x y }. THÉORÈME 1. Dans le modèle l estimateur avec vérifie Y i f i n ) + ε i, i 1,..., n, n ˆf D x) Y i1 Xi I k,d n 1, X i I k,d D Dn) [nr 2 ) 1/3 ] sup E f [ ˆf D f 2 2] Cσ)R 2 3 n 2 3. f S 1,R Bien entendu, ce résultat est purement théorique, car en pratique, on ne sait pas si la fonction f appartient à la classe S 1,R. ous verrons à la Section 1 des méthodes pratiques de choix de D par validation croisée. Démonstration.
3 3 Apprentissage non paramétrique en régression Calcul de l espérance Pour tout x I k,d, ) E f ˆfD x) i,x i I k,d fx i ) {i, X i I k,d }. ) i,x E f ˆfD x) fx) i I k,d fx i ) fx)). {i, X i I k,d } Si on fait l hypothèse que f S 1,R alors pour x et X i dans le même intervalle I k,d, x X i 1/D, ce qui implique fx) fx i ) RD 1. Ainsi Biais ˆf ) D x)) E f ˆfD x) fx) R D. Calcul de la variance Var ˆf D x)) E f [ ˆf D x) E f ˆf D x))) 2 ] σ 2 {i, X i I k,d }. On utilise comme critère pour mesurer les performances de notre estimateur le risque L 2 [, 1], dx) c est-à-dire Puisque X i i/n, on remarque aisément que {i, X i I k,d } [n/d] n/2d) si on suppose D n/2. Ceci implique : L ˆf D, f) 2σ2 D n + R 2 D 2. Il reste à choisir D pour optimiser ce risque quadratique. En posant et on obtient D [nr 2 ) 1/3 ], L ˆf D, f) Cσ)R 2 3 n Estimation sur des bases de splines ous supposons ici que les X i appartiennent R. Les estimateurs de la section précédente ne sont pas continus, pour obtenir des estimateurs qui sont des polynômes par morceaux et qui ont des propriétés de régularité, on utilise les bases de splines. 3.1 Splines linéaires et cubiques On a aussi Or, L ˆf D, f) E f [ L ˆf D, f) 1 1 ˆf D x) fx)) 2 dx]. E f [ ˆf D x) fx)) 2 ]dx. E f [ ˆf D x) fx)) 2 ] E f [ ˆfD x) E f ˆf D x)) + E f ˆf D x)) fx)) 2] E f [ ˆf D x) E f ˆf D x))) 2 ] + [E f ˆf D x)) fx)] 2 Var ˆf D x)) + Biais 2 ˆf D x)) σ 2 {i, X i I k,d } + R2 D 2. fx) β + β 1 x + β 2 x a) + + β 3 x b) + + β 4 x c) où < a < b < c... sont les points qui déterminent les intervalles de la partition appelés les nœuds). fx) β + β 1 x si x a β + β 1 x + β 2 x a) + si a x b β + β 1 x + β 2 x a) + + β 3 x b) + si b x c La fonction f est continue, si on veut imposer plus de régularité par exemple f de classe C 2 ), on utilise des splines cubiques. fx) β +β 1 x+β 2 x 2 +β 3 x 3 +β 4 x a) 3 ++β 5 x b) 3 ++β 4 x c)
4 4 Apprentissage non paramétrique en régression La fonction x a) 3 s annule ainsi que ses dérivées d ordre 1 et 2 en a donc f est de classe C 2. Pour éviter les problèmes de bords, on impose souvent des contraintes supplémentaires aux splines cubiques, notamment la linéarité de la fonction sur les deux intervalles correspondant aux extrémités. On se place sur [, 1]. ξ < ξ 1 <... < ξ K < 1. fx) β + β 1 x + β 2 x 2 + β 3 x 3 + K θ k x ξ k ) 3 +. On impose f ) f 3) ), f ξ K ) f 3) ξ K ). On en déduit : β 2 β 3, fx) β + β 1 x + K θ k ξ K ξ k ), K θ k. K θ k [x ξ k ) 3 + x ξ K ) 3 +] K 1 β + β 1 x + θ k ξ K ξ k )[ x ξ k) 3 + x ξ K ) 3 + ] ξ K ξ k ) On pose γ k θ k ξ K ξ k ) et d k x) x ξ k) 3 + x ξ K) 3 + ξ K ξ k ). K 1 γ k. K 2 fx) β + β 1 x + γ k d k x) d K 1 x)). On obtient la base de splines naturels : 1 x) 1, 2 x) x, 1 k K 2, k+2 x) d k x) d K 1 x). On doit choisir la position et le nombre de nœuds. 3.2 Méthodes de régularisation On se place dans un modèle de régression : Y i fx i ) + ɛ i, 1 i n. On minimise parmi les fonctions f splines naturels de nœuds en les X i fx) n θ k k x)) le critère pénalisé : Cf, λ) Y i fx i )) 2 + λ où λ >. En notant Ω l,k 1 à minimiser est La solution est : et THÉORÈME 2. On note k 1 f t)) 2 dt, x) l x)dx et i,j j X i ), le critère Cθ, λ) Y θ 2 + λθ Ωθ. ˆθ + λω) 1 Y ˆfx) ˆθ k k x). 2) F {f, C 2 [, 1]), 1 f 2 t)dt < + }. On se donne n 2, < X 1 <... < X n < 1 et y 1,..., y n ) R n. Pour f F, et λ >, on note Cf, λ) Y i fx i )) 2 + λ 1 f t)) 2 dt. Pour tout λ >, il existe un unique minimiseur dans F de Cf, λ), qui est la fonction définie en 2).
5 5 Apprentissage non paramétrique en régression 4 Estimateurs à noyau On considère le modèle Y i fx i ) + ε i, i 1,..., n 3) où les X i appartiennent à R d, les ε i sont i.i.d. centrées de variance σ 2, les X i et les ε i sont indépendantes. 4.1 Définition des estimateurs a noyau. DÉFIITIO 3. On appelle noyau une fonction K : R d R telle que K 2 < + et K 1. DÉFIITIO 4. On se donne un réel h > appelé fenêtre) et un noyau K. On appelle estimateur à noyau de f dans le modèle 3) associé au noyau K et à la fenêtre h la fonction ˆf h définie par : n ˆf h x) Y ik x X i ) h n K ) x X i. h Dans le cas où les X i sont de loi uniforme sur [, 1] d, on trouve aussi la définition suivante : ˆf h x) 1 ) x Xi nh d Y i K. 4) h Si par exemple d 1 et Ku) 1/2)1 u 1, ˆfh x) est la moyenne des Y i tels que X i x h. Il s agit d un estimateur constant par morceaux. Cas extrêmes : Supposons d 1 et les X i équirépartis sur [, 1]. -Si h 1/n, l estimateur est très irrégulier et reproduit simplement les observations. -Si h 1, pour tout x, ˆf h x) n Y i/n. Il faut donc, ici encore chercher une valeur de h qui réalise un bon compromis entre le terme de biais et le terme de variance. Remarque : on utilise plus généralement des noyaux réguliers, ce qui permet d obtenir des estimateurs réguliers. Exemples de noyaux en dimension 1 : -Le noyau triangulaire Kx) 1 x )1 x 1. -Le noyau gaussien Kx) 1 2π e x2 /2. -Le noyau parabolique Kx) x2 )1 x Propriétés des estimateurs à noyau. Pour simplifier les calculs, on se place dans un modèle où les X i sont aléatoires, de loi uniforme sur [, 1], et on considère l estimateur défini en 4). THÉORÈME 5. On suppose que f Σβ, R) définie par { Σβ, R) f C l [, 1]), x, y [, 1], f l) x) f l) y) R x y α}, où β l + α avec l entier et α ], 1]. On fait les hypothèses suivantes sur K : H1 u j Ku)du pour j 1,..., l. H2 u β Ku) du < +. En choisissant h de sorte que h nr 2 ) 1/1+2β), on obtient, f Σβ, R), 1 ) E f ˆf h x) fx)) 2 Démonstration. Calcul du biais : en notant K h 1/h)K./h), E f ˆf h x)) 1 Cβ, σ, s )R 2 1+2β n 2β 1+2β. fy)k h x y)dy f K h x). On a alors, puisque K 1, E f ˆf h x)) fx) fx uh) fx))ku)du.
6 6 Apprentissage non paramétrique en régression On utilise un développement de Taylor : fx uh) fx) f x)uh + f x) uh)2 2 avec τ 1. En utilisant l hypothèse H1, E f ˆf h x)) fx) f l) x τuh) uh)l l! f l) x τuh) uh)l Ku)du l! f l) x τuh) f l) x)) uh)l Ku)du. l! Puisque f Σβ, R), et en utilisant l hypothèse H2, on obtient Calcul de la variance : E f ˆf h x)) fx) Rτ α h β 1 l! V ar ˆf h x)) 1 n n 2 V ary i K h x X i )). De plus, 1 n 2 n E s [Y 2 i K 2 hx X i )] u β Ku) du. 1 n n 2 E[f 2 X i )Khx 2 X i ) + ε 2 i Khx 2 X i )]. E[f 2 X i )K 2 hx X i )] f 2 y) 1 h 2 K2 x y h )dy f 2 x uh) 1 h K2 u)du f 2 1 K 2. h Il en résulte que Puisque E f 1 on obtient E f 1 1 E[ε 2 i Khx 2 X i )] σ 2 h 2 K2 x y h )dy σ2 K 2. h ) ˆf h x) fx)) 2 dx V ar ˆf h x)) C f, σ) 1 nh. ) ˆf h x) fx)) 2 dx En choisissant h de sorte que 1 Biais 2 ˆf h x)) + V ar ˆf ) h x)) dx, Cβ, σ, f ) R 2 h 2β + 1 ). nh R 2 h 2β 1 nh, c est-à-dire h nr 2 ) 1/1+2β), on obtient le résultat souhaité. 5 Estimation ponctuelle par des polynômes locaux Dans la section 2, nous nous étions donné une partition à priori, elle ne dépendait pas des observations. L estimation de la fonction de régression en un point x était construite à partir des observations pour lesquelles X i était dans le même intervalle de la partition que x, ce qui conduit à des estimateurs irréguliers. Une idée naturelle est d estimer la fonction de régression en un point x à partir des observations pour lesquelles X i est "proche" de x. Plus généralement, on introduit une fonction de poids w i x)) construite à partir
7 7 Apprentissage non paramétrique en régression d un noyau : w i x) KX i x)/h) qui va attribuer un poids plus important aux observations pour lesquelles X i est "proche" de x, et on minimise en a) la somme des carrés pondérée : La solution est donnée par w i x)y i a) 2. a ˆf n x) n w ix)y i n w ix), 5) ce qui correspond à l estimateur à noyau de la fonction de régression! On peut généraliser la formule ci-dessus en remplaçant la constante a par un polynôme de degré p : on se donne un point x en lequel on souhaite estimer la fonction de régression. Pour u dans un voisinage de x, on considère le polynôme P x u, a) a + a 1 u x) a p p! u x)p. On cherche à estimer la fonction de régression au voisinage de x par le polynôme P x u, a) où le vecteur a a,... a p ) est obtenu par minimisation de la somme des carrés pondérée : w i x)y i a a 1 X i x)... a p p! X i x) p ) 2. La solution obtenue est le vecteur âx) â x),... â p x)), l estimateur local de la fonction de régression f est ˆf n u) â x) + â 1 x)u x) âpx) u x) p. p! Au point x, où l on souhaite réaliser l estimation, on obtient : ˆf n x) â x). Attention, cet estimateur ne correspond pas à celui que l on obtient en 5), qui correspond à p c est l estimateur à noyau). Si p 1, on parle de régression linéaire locale. On peut expliciter la valeur de â x) à partir d un critère des moindres carrés pondérés : soit X x la matrice X 1 X 1 x... 1 x) p p! X 1 X 2 x... 2 x) p p! X x X n x... X n x) p p! Soit W x la matrice diagonale de i-ème élément sur la diagonale w i x). On a alors : w i x)y i a a 1 X i x)... a p p! X i x) p ) 2 Y X x a) W x Y X x a). Minimiser l expression ci-dessus conduit à l estimateur des moindres carrés pondérés : âx) X xw x X x ) 1 X xw x Y, et l estimateur par polynômes locaux au point x correspond à ˆf n x) â x), c est-à-dire au produit scalaire du vecteur Y avec la première ligne de la matrice X xw x X x ) 1 X xw x. On obtient le théorème suivant : THÉORÈME 6. L estimateur par polynômes locaux au point x est où lx) l 1 x),..., l n x)), avec e 1 1,,..., ). ˆf n x) l i x)y i lx) e 1X xw x X x ) 1 X xw x, E ˆf n x)) l i x)fx i ) Var ˆf n x)) σ 2 n l 2 i x).
8 8 Apprentissage non paramétrique en régression 6 Estimateurs par projection On se place dans le modèle Y i fx i ) + ε i, i 1,..., n. 6) Soit φ j, j 1) une base orthonormée de L 2 [, 1]). On se donne D 1 et on pose S D Vect{φ 1,..., φ D }. On note f D la projection orthogonale de f sur S D dans L 2 [, 1]) : où Il est naturel d estimer θ j par f D D f, φ j φ j, j1 θ j f, φ j ˆθ j 1 n En effet, si les X i sont déterministes, Eˆθ j ) 1 n 1 fx)φ j x)dx. Y i φ j X i ). fx i )φ j X i ), et si fφ j est régulière et les X i équirépartis sur [, 1], ceci est proche de θ j. Si les X i sont aléatoires, de loi uniforme sur [, 1], on a On introduit alors l estimateur ˆf D x) Eˆθ j ) θ j. D ˆθ j φ j x), j1 appelé estimateur par projection. Exemple de la base Fourier On note φ j, j 1) la base trigonométrique de L 2 [, 1]) : φ 1 x) 1 [,1], φ 2k x) 2 cos2πkx) k 1 φ 2k+1 x) 2 sin2πkx) k 1. On obtient pour tout D 1, l estimateur ˆf D x) 1 D Y i φ j X i )φ j x). n j1 ous allons énoncer les performances de l estimateur, lorsque la fonction de régression f appartient à une classe de fonctions périodiques, régulières. DÉFIITIO 7. Soit L > et β l + α avec l et α ], 1]. On définit la classe Σ per β, R) par { Σ per β, R) f C l [, 1]), j,..., l, f j) ) f j) 1), x, y [, 1], f l) x) f l) y) R x y α}. THÉORÈME 8. Dans le modèle Y i f i n ) + ε i, i 1,..., n, où les ε i sont i.i.d. de loi, σ 2 ), l estimateur ˆf D défini pour tout x [, 1] par : ˆf D x) 1 D Y i φ j X i )φ j x) n j1 avec D [nr 2 ) 1/1+2β) ], vérifie pour tout β > 1, R >, sup E f ˆf ) D f 2 2 Cβ, σ)r 2 f Σ per β,r) 2β 1+2β n 1+2β. ous introduisons, dans le chapitre suivant, la définition des bases d ondelettes, qui sont utilisées en particulier si la fonction à estimer est très irrégulière.
9 9 Apprentissage non paramétrique en régression 7 Bases d ondelettes et estimation par seuillage Dans ce chapitre, on s intéresse à l estimation de fonctions spatialement inhomogènes, c est-à-dire qui peuvent être très régulières dans certaines zones puis très irrégulières présentant des pics) dans certaines parties de l espace. Les bases d ondelettes sont des bases orthonormées, qui sont bien adaptées pour l estimation de fonctions de ce type. ous supposerons ici que les X i appartiennent à [, 1], mais nous traiterons également en TP des exemples en dimension 2 dans le cadre du traitement d images. 7.1 Bases d ondelettes Base de Haar La base de Haar est la base d ondelettes la plus simple. L ondelette père ou fonction d échelle) est définie par φx) 1 si x [, 1[, sinon. L ondelette mère ou fonction d ondelette) est définie par Pour tout j, k, on pose ψx) 1 si x [, 1/2], φ j,k x) 2 j/2 φ2 j x k), 1 si x ]1/2, 1]. ψ j,k x) 2 j/2 ψ2 j x k). THÉORÈME 9. Les fonctions φ, ψ j,k, j, k {,..., 2 j 1}) forment une base orthonormée de L 2 [, 1]). Il résulte de ce théorème que l on peut développer une fonction de L 2 [, 1]) dans cette base : fx) αφx) + 2 j 1 j k β j,k ψ j,k x). α 1 fx)φx)dx est appelé "coefficient d échelle" et les β j,k 1 fx)ψ j,kx)dx sont appelés "détails". On appelle approximation de f au niveau de résolution J la fonction J 1 f J αφx) + 2 j 1 j k β j,k ψ j,k x). Cette expression comporte 2 J coefficients. Comme l espace engendré par les fonctions φ, ψ j,k, j J 1, k 2 j 1) est l espace des fonctions constantes par morceaux sur les intervalles de longueur 1/2 J, c est-à-dire l espace engendré par les fonctions φ J,k, k 2 J 1), on a aussi f J où α J,k 1 fx)φ J,kx)dx. 2 J 1 k α J,k φ J,k x), La base de Haar est simple à définir, les fonctions sont à support compact, néanmoins cette base fournit des approximations qui ne sont pas régulières. Il existe d autres bases d ondelettes à la fois à support compact et régulières, par exemple les ondelettes de Daubechies voir Daubechies 1992) : Ten Lectures on wavelets). 7.2 Estimation d une fonction de régression avec des ondelettes Les ondelettes sont bien adaptées pour l analyse des signaux recueillis sur une grille régulière, dyadique. On les utilise en traitement du signal et de l image. On considère le modèle Y k f k ) + ɛ k, k 1,..., 2 J,
10 1 Apprentissage non paramétrique en régression On considère les 2 J premières fonctions d une base d ondelettes sur [, 1] : φ, ψ j,k, j J 1, k 2 j 1). On note W la matrice W 1 φ1/) ψ, 1/)... ψ J 1,2J 11/).... φi/) ψ, i/)... ψ J 1,2 J 1i/).... φ/) ψ, /)... ψ J 1,2J 1/) Dans le cas de la base de Haar, W est une matrice orthogonale la base est orthonormée pour le produit scalaire discret). On note W la transposée de W et ˆθ W Y, la tranformée en ondelettes du vecteur Y. Il s agit de l estimateur des moindres carrés de θ dans le modèle Y W θ + ε si W est orthogonale. Débruitage par approximation linéaire : On approxime la fonction de régression f par projection orthogonale de f sur V J : f J αφ + J 1 j 2 j 1 k β j,k ψ j,k, ce qui correspond à regarder seulement les 2 J premiers coefficients d ondelettes. Pour estimer f J, dans ˆθ, on ne garde que les 2 J premiers coefficients, les autres sont annulés, cela forme le vecteur noté ˆθ J, puis on reconstruit le signal débruité : Ŷ J W ) 1 ˆθJ. La fonction de régression f est alors estimée par ˆf J x) 1 φx), ψ, x),..., ψ J 1,2 J 1x))ˆθ J. ˆθ j,k 1 l1 ψ j,k l )Y l 1 l1 β j,k + ɛ l ψ j,k l )f l ) + ɛ l ˆf J x) ˆαφx) + J 1 j 2 j 1 k ˆβ j,k ψ j,k x) où ɛ l 1 l1, σ2 ψ j,k l )ɛ l ψj,k 2 l )). Dans le cas de la base de Haar, σ2 l1 ψ2 j,k l ) σ2. On peut reconstruire le signal à partir de sa transformée en ondelettes par la transformation inverse : l1 Y W ) 1 ˆθ. Y W ˆθdans le cas de la base de Haar. où ˆθ J ˆα, ˆβ j,k, j,... J 1, k,..., 2 j 1,,..., ). Il faut choisir le paramètre J de manière optimale. Débruitage par approximation non linéaire via le seuillage : La méthode de seuillage consiste à minimiser en θ R le critère pénalisé avec une pénalité de type l 1 : Cθ) Y W θ 2 + 2λ θ 1, avec θ 1 θ i. ous supposerons ici que la matrice W est orthogonale, ce qui permet de trouver une solution explicite. Cθ) Y 2 + W θ 2 2 Y, W θ + 2λ θ 1, Y 2 + θ 2 2θ W Y + 2λ θ 1.
11 11 Apprentissage non paramétrique en régression Minimiser Cθ) équivaut à minimiser en θ C θ) θ 2 2θ W Y + 2λ θ 1 2 θ i ˆθi + 2λ θ i + θi 2. Ceci est minimal si pour tout i, θ i est du même signe que ˆθ i. On a donc θ i ˆθi θ i ˆθ i. C θ) 2 θ i ˆθ i + 2λ θ i + Minimiser ce critère en θ équivaut à minimiser La solution est donc : ) 2 θ i ˆθ i λ) ˆθ i λ) 2. θ i ˆθ i λ)) 2. θ i ˆθ i λ si ˆθ i λ si ˆθ i λ θ i signeˆθ i ) ˆθ i λ)1 ˆθi λ. Il s agit du seuillage dit "doux" soft thresholding), on applique une fonction continue à ˆθ i. Le seuillage dur "soft thresholding") consiste à poser on reconstruit le signal débruité : θ i ˆθ i 1 ˆθi λ. Ỹ W θ. La fonction de régression f est estimée par ˆf x) 1 φx), ψ, x),..., ψ J 1,2J 1x)) θ. θ 2 i En notant θ α, β j,k, j,..., J 1, k,... 2 j 1 ), on obtient J 1 ˆf x) αφx) + 2 j 1 j k β j,k ψ j,k x). En pratique, il faut choisir le seuil λ, on prend généralement λ σ 2 log). avec On peut montrer que ˆθ W Y 1 l1 ψ j,k l )f l ) + ɛ l ɛ W ɛ, σ 2 I ). ) E sup 1 i ɛ i σ 2 log). Les coefficients qui sont inférieurs à σ 2 log) sont considérés comme du bruit et sont annulés. Ces méthodes de seuillages fournissent des estimateurs permettant d estimer des signaux très irréguliers notamment des fonctions avec des pics). 8 Modèles additifs généralisés Les méthodes d estimation présentées précédemment vont se heurter au fléau de la dimension. Sous certaines hypothèses de structure sur la fonction de régression, on peut contourner ce problème. ous allons nous intéresser ici à des fonctions de régression additives. ous nous plaçons dans le modèle Y i fx i ) + ε i, où les ε i sont i.i.d. centrées de variance σ 2, et les X i R d. ous supposons que la fonction de régression f est additive, c est-à-dire que fx i,1,..., X i,d ) α + f 1 X i,1 ) f d X i,d ).
12 12 Apprentissage non paramétrique en régression Pour assurer l unicité d une telle écriture, on impose que f j x j )dx j, j 1,..., d. R ous allons décrire dans ce chapitre une méthode d estimation des composantes de ce modèle additif, il s agit des modèles GAM Generalized Additive Models). ous supposerons que chacune des fonctions unidimensionnelles est estimée à l aide de Splines comme dans la section 3.2. On introduit alors le critère pénalisé : Critα, f 1, f 2,..., f p ) + Y i α d λ j j1 d f j X i,j ) j1 f j ) 2 x j )dx j, où les λ j sont des paramètres de régularisation. On peut montrer que la solution de la minimisation de ce critère est un modèle de additif de splines cubiques, chaque fonction ˆf j étant un spline cubique de la variable x j, dont les nœuds correspondent aux valeurs différentes des X i,j, i 1,... n. Pour garantir l unicité du minimiseur, on impose les contraintes j 1,..., d, f j X i,j ). Sous ces conditions, on obtient ˆα n Y i/n, et si la matrice des variables d entrées X i,j n est pas singulière, on peut montrer que le critère est strictement convexe, et admet donc un unique minimiseur. L algorithme suivant, appelé algorithme de backfitting, converge vers la solution : Algorithme de backfitting pour les modèles GAM : 1. Initialisation : ˆα n Y i/n, ˆf j j. 2. Pour l 1 à iter Pour j 1 à d 2 ˆf j minimise Y i ˆα ˆf k X i,k ) f j X i,j ) k j ˆf j : ˆf j 1 n n ˆf j X i,j ). 2 + λ j Arrêt lorsque toutes les fonctions ˆf j sont "stabilisées". f j ) 2 x j )dx j, Le même algorithme peut être utilisée avec d autres méthodes d ajustement que les splines : estimateurs par polynômes locaux, à noyaux, par projection.. Les modèles additifs généralisés sont une extension des modèles linéaires, les rendant plus flexibles, tout en restant facilement interprétables. Ces modèles sont très largement utilisés en modélisation statistique, néanmoins, en très grande dimension, il est difficile de les mettre en œuvre, et il sera utile de les combiner à un algorithme de sélection pour réduire la dimension). 9 Kernel Regression Least Square Un exemple élémentaire de machine à noyau. L objectif est ici de présenter une méthode qui fournit des prédicteurs non linéaires. Le point commun avec les méthodes présentées précédemment est qu il s agit d une méthode de régularisation basée sur un critère des moindres carrés pénalisés. On note X i, Y i ) 1 i n les observations, avec X i R p, Y i R. On se donne un noyau k défini sur R p, symétrique, semi-défini positif : kx, y) ky, x); c i c j kx i, X j ). i,j1 Exemples de noyaux sur R p : Linéaire : kx i, X j ) X i X j X i, X j Polynomial : kx i, X j ) X i X j + 1) d
13 13 Apprentissage non paramétrique en régression Gaussien : Xi X j 2 ) kx i, X j ) exp. On cherche un prédicteur de la forme fx) c j kx j, x), c R n. On note K la matrice définie par K i,j kx i, X j ). La méthode consiste à minimiser pour f de la forme ci-dessus le critère des moindres carrés pénalisés : Y i fx i )) 2 + λ f 2 K, où f 2 K σ 2 c i c j kx i, X j ). i,j1 De manière équivalente, on minimise pour c R n le critère La solution est explicite : On obtient le prédicteur Y Kc 2 + λc Kc. ĉ K + λi n ) 1 Y. ˆfx) ĉ j kx j, x). j1 Ŷ Kĉ. Avec le noyau correspondant au produit scalaire, on retrouve un estimateur linéaire : K XX, ĉ XX + λi n ) 1 Y, ˆfx) ĉ j X j, x. j1 La méthode fournit des estimateurs non linéaires pour les noyaux polynomiaux ou gaussiens par exemple. Un intérêt important de la méthode précédente est la possibilité de généralisation à des prédicteurs X i qui ne sont pas nécessairement dans R p mais qui peuvent être de nature complexe graphes, séquence d AD..) dès lors que l on sait définir un noyau kx, y) symétrique et semi-défini positif agissant sur ces objets. Ceci fait appel à la théorie des RKHS Reproducing Kernel Hilbert Spaces ou Espaces de Hilbert à noyau reproduisant. 1 Arbres de régression CART Les méthodes basées sur les arbres reposent sur une partition de l espace des variables d entrée, puis on ajuste un modèle simple par exemple un modèle constant) sur chaque élément de la partition. On suppose que l on a un échantillon de taille n : X i, Y i ) 1 i n avec X i R d et Y i R. L algorithme CART permet de définir, à partir de l échantillon d apprentissage, une partition automatique de l espace des variables d entrées X i. Supposons que l espace où varient les X i soit partitionné en M régions, notées R 1,... R M. On introduit la classe F des fonctions constantes par morceaux sur chacune des régions : M F {f, fx) c m 1 x Rm }. m1 L estimateur des moindres carrés de la fonction de régression f sur la classe F minimise le critère M Y i fx i )) 2, m1 parmi les fonctions f F. La solution est ˆfx) M ĉ m 1 x Rm, m1 où ĉ m est la moyenne des observations Y i pour lesquelles X i R m. Pour construire la partition, CART procède de la manière suivante : étant donné
14 14 Apprentissage non paramétrique en régression une variable de séparation X j) et un point de séparation s, on considère les demi-espaces R 1 j, s) {X X 1),..., X d) )/X j) s} et R 2 j, s) {X/X j) > s}. La variable de séparation X j) et un point de séparation s sont choisis de manière à résoudre min [ Y i ĉ 1 ) 2 + Y i ĉ 2 ) 2 ]. j,s i,x i R 1j,s) i,x i R 2j,s) Ayant déterminé j et s, on partitionne les données en les deux régions correspondantes, puis on recommence la procédure de séparation sur chacune des deux sous-régions, et ainsi de suite sur chacune des sous-régions obtenues. La taille de l arbre est un paramètre à ajuster, qui va gouverner la complexité du modèle : un arbre de trop grande taille va conduire à un sur-ajustement trop grande variance), au contraire un arbre de petite taille va mal s ajuster à la fonction de régression biais trop élevé). Il est donc nécessaire de choisir une taille "optimale" de manière adaptative à partir des observations. La stratégie adoptée consiste à construire un arbre de grande taille, puis à l élaguer en introduisant un critère pénalisé. On dira que T est un sous-arbre de T si T peut être obtenu en élaguant T, c est-à-dire en réduisant le nombre de nœuds de T. On note T le nombre de nœuds terminaux de l arbre T et R m, m 1,... T, la partition correspondant à ces nœuds terminaux. On note m le nombre d observations pour lesquelles X i R m. On a donc et on introduit le critère C λ T ) ĉ m 1 m T m1 i,x i R m Y i, i,x i R m Y i ĉ m ) 2 + λ T. Pour tout λ, on peut montrer qu il existe un unique arbre minimal T λ qui minimise le critère C λ T ). Pour trouver l arbre T λ, on supprime par étapes successives le nœud interne de l arbre T qui réduit le moins le critère m i,x i R m Y i ĉ m ) 2. Ceci donne une succession de sous-arbres, dont on peut montrer qu elle contient l arbre T λ. Le paramètre de régularisation λ doit à son tour être calibré pour réaliser un bon compromis entre le biais et la variance de l estimateur ainsi obtenu, ou de manière équivalente entre un bon ajustement aux données et une taille pas trop importante pour l arbre. La méthode de validation croisée, décrite en annexe, peut être utilisée. Annexe : Choix d un paramètre de lissage par validation croisée Dans le cas des estimateurs à noyaux, et pour les estimateurs par polynômes locaux, on doit choisir la fenêtre h ; pour les estimateurs constants par morceaux ou polynômes par morceaux), ainsi que pour les estimateurs par projection, on doit choisir un paramètre D nombre de morceaux de la partition ou dimension de l espace de projection sur lequel on réalise l estimation), pour les arbres CART, on doit choisir le paramètre λ de la procédure d élaguage. Dans ce chapitre, nous allons décrire la méthode de validation croisée, qui est une méthode possible pour choisir ces paramètres, ce qui correspond à sélectionner un estimateur dans une collection d estimateurs. otons λ le paramètre à choisir. Soit ˆfn,λ l estimateur de la fonction de régression f associé à ce paramètre λ. On considère l erreur quadratique moyenne : ) 1 Rλ) E n ˆf n,λ X i ) fx i )) 2. Idéalement, on souhaiterait choisir λ de manière à minimiser Rλ), mais cette quantité dépend de la fonction inconnue f. Une première idée est d estimer Rλ) par l erreur d apprentissage : 1 n Y i ˆf n,λ X i )) 2, mais cette quantité sous-estime Rλ) et conduit à un sur-ajustement. Ceci est dû au fait que l on utilise les mêmes données pour construire l estimateur ˆf n,λ
15 15 Apprentissage non paramétrique en régression qui est construit pour bien s ajuster à l échantillon d apprentissage) et pour estimer l erreur commise par cet estimateur. Pour avoir une meilleure estimation du risque, on doit construire l estimateur du risque avec des observations qui n ont pas été utilisées pour construire l estimateur ˆf n,λ. Idéalement, si on avait assez d observations, on pourrait les séparer en un échantillon d apprentissage et un échantillon test. Ce n est généralement pas le cas, et on souhaite utiliser l ensemble des données d apprentissage pour la construction de l estimateur. On va alors avoir recours à la validation croisée. On partitionne l échantillon d apprentissage en V blocs, notés B 1,... B V, de tailles à peu près identiques. v) Pour tout v de 1 à V, on note ˆf n,λ l estimateur obtenu en supprimant de l échantillon d apprentissage les données appartenant au bloc B v. DÉFIITIO 1. On définit le score de validation croisée V -fold par : ˆf vi)) CV ˆRλ) 1 Y i ˆf vi)) n,λ X i )) 2, où n,λ est l estimateur de f obtenu en enlevant les observations du bloc qui contient l observation i. Le principe de la validation croisée est de choisir une valeur ˆλ de λ qui minimise la quantité ˆRλ). Un cas particulier correspond à la validation croisée leave-one-out, obtenue quand on considère n blocs, chacun réduits à une observation. DÉFIITIO 11. par : où Le score de validation croisée leave-one-out est défini CV ˆRλ) 1 n Y i ˆf i) n,λ X i)) 2, ˆf i) n,λ est l estimateur de f obtenu en enlevant l observation X i, Y i ). L idée de la validation croisée leave-one-out vient du calcul suivant : EY i i) ˆf n,λ X i)) 2 i) ) EY i fx i ) + fx i ) ˆf n,λ X i)) 2 ) σ 2 + EfX i ) ˆf i) n,λ X i)) 2 ) σ 2 + EfX i ) ˆf n,λ X i )) 2 ). On obtient donc E ˆRλ)) σ 2 + Rλ). Le calcul de ˆRλ) peut s avérer long, mais dans certains cas, il n est pas nécessaire de recalculer n fois un estimateur de la fonction de régression. Pour la plupart des méthodes traitées dans ce chapitre, l estimateur correspond à un algorithme de moyennes locales, c est-à-dire est de la forme ˆf n,λ x) Y j l j x), j1 avec n j1 l jx) 1, et on peut montrer que avec ˆf i) n,λ x) n j1 l i) j x) si j i Y j l i) j x), l j x) k i l si j i. kx) THÉORÈME 12. Sous les hypothèses ci-dessus concernant l estimateur, le score de validation croisée leave-one-out est égal à : CV ˆRλ) 1 n Y i ˆf ) 2 n,λ X i ). 1 l i X i ) On trouve également dans les logiciels une définition légèrement différente : DÉFIITIO 13. quantité : On appelle score de validation croisée généralisée la GCV λ) 1 n où ν/n n l ix i )/n. Y i ˆf ) 2 n,λ X i ), 1 ν/n
16 16 Apprentissage non paramétrique en régression Dans cette définition, l i X i ) est remplacé par la moyenne des l i X i ). En pratique, les deux méthodes donnent généralement des résultats assez proches. En utilisant l approximation 1 x) x pour x proche de, on obtient : GCV λ) 1 n Y i ˆf n,λ X i )) 2 + 2νˆσ2 n, où ˆσ 2 1 n n Y i ˆf n,λ X i )) 2. Cela correspond au critère C p de Mallows.
3 Approximation de solutions d équations
3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle
Plus en détailOptimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante
Plus en détailCours d Analyse. Fonctions de plusieurs variables
Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........
Plus en détailLa Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Plus en détailFonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre
IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables
Plus en détailRésolution d équations non linéaires
Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique
Plus en détailI. Polynômes de Tchebychev
Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire
Plus en détailMéthodes de quadrature. Polytech Paris-UPMC. - p. 1/48
Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation
Plus en détailThéorème du point fixe - Théorème de l inversion locale
Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion
Plus en détailChapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
Plus en détailProgrammation linéaire
1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit
Plus en détailSimulation de variables aléatoires
Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo
Plus en détailChapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Plus en détailÉconometrie non paramétrique I. Estimation d une densité
Économetrie non paramétrique I. Estimation d une densité Stéphane Adjemian Université d Évry Janvier 2004 1 1 Introduction 1.1 Pourquoi estimer une densité? Étudier la distribution des richesses... Proposer
Plus en détailSouad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailTests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA
Plus en détailExercices - Fonctions de plusieurs variables : corrigé. Pour commencer
Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy
Plus en détail3. Conditionnement P (B)
Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte
Plus en détailContinuité d une fonction de plusieurs variables
Chapitre 2 Continuité d une fonction de plusieurs variables Maintenant qu on a défini la notion de limite pour des suites dans R n, la notion de continuité s étend sans problème à des fonctions de plusieurs
Plus en détailRésolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détail1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
Plus en détailDérivées d ordres supérieurs. Application à l étude d extrema.
Chapitre 5 Dérivées d ordres supérieurs. Application à l étude d extrema. On s intéresse dans ce chapitre aux dérivées d ordre ou plus d une fonction de plusieurs variables. Comme pour une fonction d une
Plus en détailMéthodes de Simulation
Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents
Plus en détail3. Caractéristiques et fonctions d une v.a.
3. Caractéristiques et fonctions d une v.a. MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v2) MTH2302D: fonctions d une v.a. 1/32 Plan 1. Caractéristiques d une distribution 2. Fonctions
Plus en détailChp. 4. Minimisation d une fonction d une variable
Chp. 4. Minimisation d une fonction d une variable Avertissement! Dans tout ce chapître, I désigne un intervalle de IR. 4.1 Fonctions convexes d une variable Définition 9 Une fonction ϕ, partout définie
Plus en détailApproximations variationelles des EDP Notes du Cours de M2
Approximations variationelles des EDP Notes du Cours de M2 Albert Cohen Dans ce cours, on s intéresse à l approximation numérique d équations aux dérivées partielles linéaires qui admettent une formulation
Plus en détailSujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détailCCP PSI - 2010 Mathématiques 1 : un corrigé
CCP PSI - 00 Mathématiques : un corrigé Première partie. Définition d une structure euclidienne sur R n [X]... B est clairement symétrique et linéaire par rapport à sa seconde variable. De plus B(P, P
Plus en détailCours d analyse numérique SMI-S4
ours d analyse numérique SMI-S4 Introduction L objet de l analyse numérique est de concevoir et d étudier des méthodes de résolution de certains problèmes mathématiques, en général issus de problèmes réels,
Plus en détailCapes 2002 - Première épreuve
Cette correction a été rédigée par Frédéric Bayart. Si vous avez des remarques à faire, ou pour signaler des erreurs, n hésitez pas à écrire à : mathweb@free.fr Mots-clés : équation fonctionnelle, série
Plus en détailPremière partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015
Énoncé Soit V un espace vectoriel réel. L espace vectoriel des endomorphismes de V est désigné par L(V ). Lorsque f L(V ) et k N, on désigne par f 0 = Id V, f k = f k f la composée de f avec lui même k
Plus en détailSéminaire TEST. 1 Présentation du sujet. October 18th, 2013
Séminaire ES Andrés SÁNCHEZ PÉREZ October 8th, 03 Présentation du sujet Le problème de régression non-paramétrique se pose de la façon suivante : Supposons que l on dispose de n couples indépendantes de
Plus en détailCours 02 : Problème général de la programmation linéaire
Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailProgrammes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Plus en détailFormes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions
Formes quadratiques Imen BHOURI 1 Ce cours s adresse aux étudiants de niveau deuxième année de Licence et à ceux qui préparent le capes. Il combine d une façon indissociable l étude des concepts bilinéaires
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailContinuité et dérivabilité d une fonction
DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité
Plus en détailFonctions de plusieurs variables
Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme
Plus en détailLimites finies en un point
8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,
Plus en détailExercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.
14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,
Plus en détailEspérance conditionnelle
Espérance conditionnelle Samy Tindel Nancy-Université Master 1 - Nancy Samy T. (IECN) M1 - Espérance conditionnelle Nancy-Université 1 / 58 Plan 1 Définition 2 Exemples 3 Propriétés de l espérance conditionnelle
Plus en détailDe même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que
Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer
Plus en détailLa problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites
La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur
Plus en détailPrincipe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Plus en détailLa programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique
La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation
Plus en détailCalcul différentiel. Chapitre 1. 1.1 Différentiabilité
Chapitre 1 Calcul différentiel L idée du calcul différentiel est d approcher au voisinage d un point une fonction f par une fonction plus simple (ou d approcher localement le graphe de f par un espace
Plus en détailAnalyse en Composantes Principales
Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées
Plus en détailProbabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Plus en détailContinuité en un point
DOCUMENT 4 Continuité en un point En général, D f désigne l ensemble de définition de la fonction f et on supposera toujours que cet ensemble est inclus dans R. Toutes les fonctions considérées sont à
Plus en détailFonctions de plusieurs variables
Maths MP Exercices Fonctions de plusieurs variables Les indications ne sont ici que pour être consultées après le T (pour les exercices non traités). Avant et pendant le T, tenez bon et n allez pas les
Plus en détailOptimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Plus en détailModèles et Méthodes de Réservation
Modèles et Méthodes de Réservation Petit Cours donné à l Université de Strasbourg en Mai 2003 par Klaus D Schmidt Lehrstuhl für Versicherungsmathematik Technische Universität Dresden D 01062 Dresden E
Plus en détailTESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun
Plus en détailPrécision d un résultat et calculs d incertitudes
Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................
Plus en détailFONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)
FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) Bernard Le Stum Université de Rennes 1 Version du 13 mars 2009 Table des matières 1 Fonctions partielles, courbes de niveau 1 2 Limites et continuité
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailFonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples
45 Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples Les espaces vectoriels considérés sont réels, non réduits au vecteur nul et
Plus en détailBaccalauréat ES Pondichéry 7 avril 2014 Corrigé
Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailDifférentiabilité ; Fonctions de plusieurs variables réelles
Différentiabilité ; Fonctions de plusieurs variables réelles Denis Vekemans R n est muni de l une des trois normes usuelles. 1,. 2 ou.. x 1 = i i n Toutes les normes de R n sont équivalentes. x i ; x 2
Plus en détailCorrection du baccalauréat ES/L Métropole 20 juin 2014
Correction du baccalauréat ES/L Métropole 0 juin 014 Exercice 1 1. c.. c. 3. c. 4. d. 5. a. P A (B)=1 P A (B)=1 0,3=0,7 D après la formule des probabilités totales : P(B)=P(A B)+P(A B)=0,6 0,3+(1 0,6)
Plus en détailEchantillonnage Non uniforme
Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas
Plus en détailExercices - Polynômes : corrigé. Opérations sur les polynômes
Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)
Plus en détailLA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE
LA PHYSIQUE DES MATERIAUX Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE Pr. A. Belayachi Université Mohammed V Agdal Faculté des Sciences Rabat Département de Physique - L.P.M belayach@fsr.ac.ma 1 1.Le réseau
Plus en détailModèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes
de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz
Plus en détailMoments des variables aléatoires réelles
Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................
Plus en détailBaccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé
Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue
Plus en détailLa fonction exponentielle
DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction
Plus en détailMesures gaussiennes et espaces de Fock
Mesures gaussiennes et espaces de Fock Thierry Lévy Peyresq - Juin 2003 Introduction Les mesures gaussiennes et les espaces de Fock sont deux objets qui apparaissent naturellement et peut-être, à première
Plus en détailLe modèle de Black et Scholes
Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un
Plus en détailTests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailRO04/TI07 - Optimisation non-linéaire
RO04/TI07 - Optimisation non-linéaire Stéphane Mottelet Université de Technologie de Compiègne Printemps 2003 I Motivations et notions fondamentales 4 I1 Motivations 5 I2 Formes quadratiques 13 I3 Rappels
Plus en détailModélisation et simulation
Modélisation et simulation p. 1/36 Modélisation et simulation INFO-F-305 Gianluca Bontempi Département d Informatique Boulevard de Triomphe - CP 212 http://www.ulb.ac.be/di Modélisation et simulation p.
Plus en détailIntégration et probabilités TD1 Espaces mesurés Corrigé
Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.
Plus en détailCorrection du Baccalauréat S Amérique du Nord mai 2007
Correction du Baccalauréat S Amérique du Nord mai 7 EXERCICE points. Le plan (P) a une pour équation cartésienne : x+y z+ =. Les coordonnées de H vérifient cette équation donc H appartient à (P) et A n
Plus en détailProbabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur
Plus en détailLoi binomiale Lois normales
Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli
Plus en détailChapitre VI Fonctions de plusieurs variables
Chapitre VI Fonctions de plusieurs variables 6. 1 Fonctions différentiables de R 2 dans R. 6. 1. 1 Définition de la différentiabilité Nous introduisons la différentiabilité sous l angle des développements
Plus en détailIntroduction à l étude des Corps Finis
Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur
Plus en détailIV- Equations, inéquations dans R, Systèmes d équations
IV- Equations, inéquations dans R, Systèmes d équations 1- Equation à une inconnue Une équation est une égalité contenant un nombre inconnu noté en général x et qui est appelé l inconnue. Résoudre l équation
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailde calibration Master 2: Calibration de modèles: présentation et simulation d
Master 2: Calibration de modèles: présentation et simulation de quelques problèmes de calibration Plan de la présentation 1. Présentation de quelques modèles à calibrer 1a. Reconstruction d une courbe
Plus en détailBaccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Plus en détailExamen optimisation Centrale Marseille (2008) et SupGalilee (2008)
Examen optimisation Centrale Marseille (28) et SupGalilee (28) Olivier Latte, Jean-Michel Innocent, Isabelle Terrasse, Emmanuel Audusse, Francois Cuvelier duree 4 h Tout resultat enonce dans le texte peut
Plus en détailCapacité d un canal Second Théorème de Shannon. Théorie de l information 1/34
Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second
Plus en détailProgrammation linéaire
Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire
Plus en détailSTATISTIQUES. UE Modélisation pour la biologie
STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres
Plus en détailCalcul fonctionnel holomorphe dans les algèbres de Banach
Chapitre 7 Calcul fonctionnel holomorphe dans les algèbres de Banach L objet de ce chapitre est de définir un calcul fonctionnel holomorphe qui prolonge le calcul fonctionnel polynômial et qui respecte
Plus en détail* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours
Exo7 Continuité (étude globale). Diverses fonctions Exercices de Jean-Louis Rouget. Retrouver aussi cette fiche sur www.maths-france.fr * très facile ** facile *** difficulté moyenne **** difficile *****
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détailFonctions de plusieurs variables. Sébastien Tordeux
Fonctions de plusieurs variables Sébastien Tordeux 22 février 2009 Table des matières 1 Fonctions de plusieurs variables 3 1.1 Définition............................. 3 1.2 Limite et continuité.......................
Plus en détailCHAPITRE 5. Stratégies Mixtes
CHAPITRE 5 Stratégies Mixtes Un des problèmes inhérents au concept d équilibre de Nash en stratégies pures est que pour certains jeux, de tels équilibres n existent pas. P.ex.le jeu de Pierre, Papier,
Plus en détailwww.h-k.fr/publications/objectif-agregation
«Sur C, tout est connexe!» www.h-k.fr/publications/objectif-agregation L idée de cette note est de montrer que, contrairement à ce qui se passe sur R, «sur C, tout est connexe». Cet abus de langage se
Plus en détailÉvaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Plus en détail