Optimisation Différentiable Théorie et Algorithmes Exemple de résumé du cours J. Ch. GILBERT 5 janvier 2015
Informations pratiques Objectif du cours : l optimisation aspects théoriques : convexité, CO, dualité,..., aspects pratiques : algorithmes. Organisation : 14 séances, dont 1 pour l examen. CM : 12 séances d 1h15++, TD + TP : 9+5 séances d 1h45--, TP : projet d optimisation (Matlab/Scilab), travail personnel. Supports de cours syllabus [pdf] : ne pas voir les sections avec, planches [pdf] : points importants du cours [ ], wikipédia : pour certaines parties signalées par [WP], exercices : en TD, dans le syllabus. Contrôle des connaissances TP : contrôle continu + petit rapport Séance 14 : résolution de problèmes (3h). 2
Plan du cours 1. Introduction : optimisation et analyse convexe 2. Conditions d optimalité I : méthode et outils 3. Conditions d optimalité II : égalités 4. Conditions d optimalité III : inégalités 5. Méthodes de descente : RL et RC 6. Méthodes newtoniennes : N et qn 7. Pénalisation 8. Optimisation quadratique successive (OQS) 9. Dualité 10. Séance de TD Consolidation 11. Optimisation linéaire : simplexe et PI 12. Conjugaison 13. Sous-différentiabilité 3
I Introduction Vocabulaire de l optimisation ( 1.1) Le problème à résoudre : (P X ) inf x X f(x). Quelques définitions et conventions : f : X R est appelée critère ou fonction-coût ou fonction-objectif, X est appelé ensemble admissible, un point de X est dit admissible, val(px ) := inf x X f(x) est la valeur optimale, (PX ) est dit réalisable si X, convention : infx f(x) = +, (PX ) est dit non borné si val(p X ) =, i.e., {x k } X telle que f(x k ). Si X, il existe une suite minimisante {x k } : {xk } X, f(xk ) val(p X ). 4
On dit que x est solution de (P X ) si x X, x X:f(x ) f(x). On dit aussi minimum ou minimiseur. On note l ensemble des solutions Sol(P X ) ou argmin x X On dit que x est solution stricte de (P X ) si x X, x X \{x }:f(x ) < f(x). f(x). Si X topologique, on dit que x est solution locale de (P X ) s il existe un voisinage V de x tel que x X, x X V: f(x ) f(x). Si X topologique, on dit que x est solution locale stricte de (P X ) s il existe un voisinage V de x tel que x X, x (X V)\{x }:f(x ) < f(x). 5
Existence de solution ( 1.2) Le problème à résoudre (f : X R {+ }) : inff(x) (P X ) x X. On dit que f est fermée si (epif) est fermé. Si f est fermée sur X, X est compact et non vide, alors(p X ) a (au moins) une solution. En dimension finie (c est notre cas) : X compact X fermé borné. On peut remplacer l hypothèse par X compact X fermé et f coercive sur X. 6
Unicité de solution ( 3.1) Soient X un convexe deeet f : X R. Définitions : f est convexe sur X si pour tout x,y X,x y, et t ]0,1[ : f((1 t)x+ty) (1 t)f(x)+tf(y). f est strictement convexe si on a inégalité stricte ci-dessus. Le problème à résoudre : minf(x) (P X ) x X. Si X est convexe, f est strictement convexe surx, alors(p X ) a au plus une solution. 7
Différentiabilité première ( C.1, C.2, C.2.1) Soient E et F deux espaces normés, Ω un ouvert de E et f : Ω F. 1. Différentiabilité directionnelle suivant h E : f 1 ( ) (x;h) := lim f(x+th) f(x) existe. t 0+ t 2. Différentiabilité au sens de Gâteaux : f (x;h) existe pour tout h E et h f (x;h) est linéaire (continue). On notef (x) l application linéaire (continue). 3. Différentiabilité au sens de Fréchet : il existe L : E F, linéaire (continue) : f(x+h) = f(x)+lh+o( h ). On note f (x) := L (même opérateur qu en 2). Soit, un produit scalaire sur E et F = R. On définit le gradient def en x comme l unique vecteur f(x) E: f(x),h = f (x) h, h E. 8
Différentiabilité seconde ( C.2.2, C.2.2) Supposons que f : Ω F soit 2 fois différentiable (pour une définition rigoureuse, voir le syllabus). Propriétés : f (x) (h,k) est la dérivée directionnelle de x f (x) h dans la direction k: f (x) (h,k) = lim t 0+ l application 1 t (f (x+tk) h f (x) h). (h,k) f (x) (h,k) est bilinéaire symétrique. Soit, un produit scalaire sur E et F = R. On définit le hessien def en x comme l unique opérateur linéaire symétrique 2 f(x) suretel que 2 f(x)h,k = f (x) (h,k), (h,k) E 2. 9
II Analyse convexe Dfn. Soient x,y E. Un segment dee : [x,y] := {(1 t)x+ty : t [0,1]}. Dfn. Un ensemble C E est convexe si x,y C = [x,y] C. x x y y convexe non convexe x y convexe non convexe 10
Cône asymptotique ( 2.2.4, [WP]) Soit C un convexe fermé non vide de E. Dfn : Le cône asymptotique C de C est C := t>0 C x, t oùx C. Prop : C est un cône, convexe, fermé, non vide, C ne dépend pas de x C, d C {x k } C, {t k } : C est borné C = {0}. x k t k d. 11
Polyèdre convexe ( 2.4) Soit E un espace vectoriel (E = R n parfois). Dfn. Description primale d un polyèdre conv. : P := co{x 1,...,x p }+cone{y 1,...,y q }. Description duale d un polyèdre convexe : P := {x E : Ax b}. Dfn : ˆx est un sommet de P si x 1,x 2 P, ˆx = x 1 +x 2 2 = ˆx = x 1 = x 2. L ensemble des sommets est noté extp. Prop. SoitP := {x : Ax = b,x 0}, ˆx P. 1) ˆx extp A B est injective, où B = {i : x i > 0} et A B formée des colonnes i B dea. 2) P a au moins un sommet et au plus2 n. 12
Projection sur un convexe fermé ( 2.5.2) E muni d un produit scalaire, = 2. SiC E convexe fermé non vide et x E, alors le problème min{ y x : y C} (1) a une unique solution. Dfn : l unique solution de (1) est appelée la projection de x sur C et est notée P C x. Prop : Soit x C. Alors a x = P C x y C, y x, x x 0 y C, y x,y x 0 = y C, y x, x x 0. a La réciproque de la dernière implication est fausse. 13
Séparation des convexes ( 2.5.3) E muni d un produit scalaire,. Dfn : On peut séparer C 1, C 2 E s il existe ξ E non nul tel que sup x 1 C 1 ξ,x 1 inf x 2 C 2 ξ,x 2. La séparation est stricte si l inégalité ci-dessus est stricte (alors ξ est nécessairement non nul). Théor (Hahn-Banach) : Si C 1 et C 2 convexes, non vides, disjoints, dime <, alors on peut séparer C 1 et C 2. Si C 1 et C 2 convexes, non vides, disjoints, C 1 ouc 2 est d intérieur non vide, alors on peut séparer C 1 et C 2. Si C 1 et C 2 convexes, non vides, disjoints, l un est fermé, l autre est compact, alors on peut séparer C 1 et C 2 strictement. 14
Enveloppe convexe fermée ( 2.5.4) Soient E un e.v. avec, et P E. Dfn. L enveloppe convexe dep,cop, est le plus petit convexe contenant P. P fermé co P fermé. Dfn. L enveloppe convexe fermée dep,cop, est le plus petit convexe fermé contenant P. Dfn. Un demi-espace fermé de E : H (ξ,α) := {x E : ξ,x α}, oùξ E est non nul et α R. Prop. cop est l intersection de tous les demi-espaces fermés contenant P. 15
Cône dual ( 2.5.6, [WP]) E muni d un produit scalaire,. Dfn : Le cône dual de P E est défini par P + := {y E : y,x 0, x P}. C est un cône, convexe, fermé, non vide. Lemme de Farkas (généralisé) Si E et F deux espaces euclidiens, K un cône convexe dee, A : E F linéaire, alors {y F : A y K + } + = A(K). Cas particulier : Soit A une matrice. Alors {Ax : x 0} = cône, convexe, fermé, {y : A y 0} + = {Ax : x 0}. ( ) + = dual pour le produit scalaire euclidien. [c est une généralisation de N(A ) = R(A)] 16
Fonction convexe ( 3.1) Soient E un espace vectoriel et f : E R. Dfn. Le domaine de f est l ensemble domf := {x E : f(x) < + }. On peut avoirf(x) = pour x domf. Dfn. L épigraphe de f est l ensemble epif := {(x,α) E R : f(x) α}. Dfn.f est convexe epif est convexe. f est convexe x,y domf, t ]0,1[ : ( ) f (1 t)x+ty (1 t)f(x)+tf(y). 17
Enveloppe supérieure ( 3.4.2) Enveloppe supérieure d une famille de f i : E R,i I (quelconque) : ( ( ) supf i )(x) := sup f i (x). i I i I epi(sup i I f i ) = i I (epif i). f i convexes = sup i I f i convexe. f i fermées = sup i I f i fermée. 18
Reconnaître une fonction convexe par ses dérivées ( 3.3.3) Soient X un convexe deeet f : X R. Si f est 1 fois dérivable et X ouvert Les propriétés suivantes sont équivalentes : f est convexe sur X [resp. strictement convexe], x,y X,x y : f(y) f(x)+f (x) (y x) [resp. >], x,y X,x y : (f (y) f (x)) (y x) 0 [resp. >]. 19
Si f est 2 fois dérivable et X ouvert : f est convexe surx x X, h E,f (x) h 2 0, f est strictement convexe sur X = x X, h E non nul,f (x) h 2 > 0. Contre-exemple: f(x) = x 4. 20
Fonction asymptotique ( 3.3.4, [WP]) Soit f Conv(E), l ensemble des fonctions E R {+ } convexes fermées propres. Dfn : La fonction asymptotique def est la fonction f : E R {+ } telle que epi(f ) = (epif). Prop : 1) x domf, d E : f (d) = lim t + 2) f Conv(E). 3) ν R tel que N ν (f) : f(x+td) f(x) t (N ν (f)) = {d E : f (d) 0}. 4) Si f Conv(E), g Conv(R) croissante et vérifiant g (1) > 0, alors d E : (g f) = g (f (d)).. 21
Fonction conjuguée ( 3.4.8, [WP]) Soient E un espace vectoriel, muni de, et f : E R {+ } propre avec minorante affine. Dfn. Conjuguée f : E R {+ } def : ( ) f (x ) := sup x,x f(x). x E Biconjuguée f : E R {+ } de f : ( ) f (x) := sup x,x f (x ). x E Prop. Quelle que soit f : E R, on a 1) f f. Si f est propre et a une minorante affine, on a 2) f Conv(E) et f Conv(E). 3) f est l enveloppe supérieure des minorantes affines de f. 4) f = f f Conv(E). 22
Interprétation de f (x ) et f R f f (x ) pente x 0 x R f f 0 x 23
Sous-différentiel des fonctions convexes E un e.v. muni de,. Différentiabilité directionnelle [WP] f Conv(E),x domf et d E. 1) t ]0,+ [ f(x+td) f(x) t 2) f (x;d) existe dans R, 3) f (x; ) est convexe, 4) x (domf) = est croissante, f (x; ) Lipschitz, f (x; ) Conv(E). 24
Sous-différentiel [WP] Dfn Le sous-différentiel f(x) de f Conv(E) enx domf est l ensemble des x E vérifiant les propriétés équivalentes : (S 1 ) d E : f (x;d) x,d, (S 2 ) y E : f(y) f(x)+ x,y x, (S 3 ) x argmax( x, f( )), (S 4 ) f(x)+f (x ) x,x, (S 5 ) f(x)+f (x ) = x,x. Si x / domf, alors f(x). Dfn et Prop f est sous-différentiable enx f(x) y (domf) : f (x;y x) >. 25
Prop 1) ˆx argminf 0 f(ˆx), 2) si f Conv(E) : x f(x) x f (x ), 3) f(x) est un convexe fermé, 4) x (domf) = f(x) compact non vide, f (x;d) = max x f(x) x,d, 5) f différen. enx f(x) = { f(x)}. Calcul Si f 1,...,f m : E R convexes et α i 0 ( m α i f i )(x) = i=1 m α i f i (x). i=1 26
Exemple 1D 2.5 2 1.5 1 0.5 0 0.5 1 0 1 2 4 3 2 1 0 1 2 1 0 1 2 Figure 1: f(x) = max(x,x 2 ) et f(x) (en bas) 27
Exemple 2D x 1 + f(x 1 ) x 1 x 2 x 3 x 3 + f(x 3 ) x 2 + f(x 2 ) Figure 2: f = sup(q 1,q 2,q 3 ) et f 28
Deux applications emblématiques Sous-différentiel de la fonction valeur Pour un problème convexe, la fonction valeur v(p) = inf c E (x)+p E =0 c I (x)+p I 0 f(x) est telle que l ensemble des multiplicateurs optimaux enp = 0 est donné par Λ = v(0). Sous-différentiel de la fonction duale Pour le problème (non néc. convexe) inf f(x) c(x) 0 x X et une fonction duale δ(λ) = inf x X ( l(x,λ) := f(x)+λ c(x) propre, on af Conv(R m ) et ( ) c arg minl(x, λ) δ(λ). x X ) 29
III Conditions d optimalité (CO) [WP] Le problème à résoudre : (P X ) minf(x) x X, où X E (espace euclidien, produit scalaire, ). Ce sont des=et décrivant les solutions de (P X ). Utilité des CO : donner des renseignements sur (P X ), vérifier qu un point est solution, calculer la solution analytiquement (parfois), définir des algorithmes de résolution. Il y a des CO nécessaires (notées CN) et des CO suffisantes (notées CS). Il y a des CO du 1 er ordre (CN1, CS1) et des CO du 2 ième ordre (CN2, CS2). 30
CO sans contrainte (rappel, 4.2, [WP]) Le problème à résoudre : minf(x) x E. On note f(x) et 2 f(x) les gradient et hessien de f en x pour,. CN1 : f(x ) = 0. (Si f est convexe, c est une CS1 globale.) CN2 : f(x ) = 0 2 f(x ) 0. CS2 pour un minimum local strict : f(x ) = 0 2 f(x ) 0. 31
CN1 générale ( 4.1, [WP]) Le problème à résoudre : (P X ) minf(x) x X. Dfn : Cône tangent [WP]. X 1 x 2 X 2 x 1 T x1 X 1 N x2 X 2 0 0 T x2 X 2 N x1 X 1 32
CN1. On exprime plus ou moins le fait quef croît si on se déplace vers l intérieur de X : f (x ) d 0, d T x X, (2) oùt x X est le cône tangent àx en x. CN1. Lorsque X est convexe, la relation (2) se simplifie en : f (x ) (x x ) 0, x X. (3) (Si X est convexe et f est convexe, (3) est une CS1 pour que x soit un minimum global.) 33
CO avec contraintes d = ( 4.3, [WP]) Le problème en x E (e.v. euclidien) à résoudre : minf(x) (P E ) c(x) = 0 F (e.v. euclidien). Le lagrangien du problème : l(x,λ) = f(x)+ λ,c(x). CN1 : si c (x ) est surjective, il existe λ F, unique, tel que x l(x,λ ) = 0 c(x ) = 0. (4) (Si c affine,λ existe, pas néc. unique.) (Si f est convexe et c est affine, ce sont des CS1 globales.) Si F = R m, la première condition de(4) s écrit f(x )+ m (λ ) i c i (x ) = 0. i=1 34
CN2 : si c (x ) est surjective, on a x l(x,λ ) = 0 c(x ) = 0 2 xxl(x,λ ) 0 surn(c (x )). CS2 pour un minimum local strict : x l(x,λ ) = 0 c(x ) = 0 2 xxl(x,λ ) 0 surn(c (x )). 35
CO avec contraintes d = et d ( 4.4, [WP]) Le problème à résoudre enx E : (P EI ) minf(x) c E (x) = 0 R m E c I (x) 0 R m I. Le lagrangien du problème (c := (c E,c I )) : l(x,λ) = f(x)+λ c(x). On notei 0 (x) := {i I : c i (x) = 0}. CN1 : si les contraintes sont qualifiées en x, il existe λ R m tel que (KKT) x l(x,λ ) = 0 c E (x ) = 0 0 (λ ) I c I (x ) 0. (Si f et c I sont convexes et c E est affine, ce sont des CS1 globales.) 36
Qualification des contraintes ( 4.4.2, [WP]) Dfn : on dit que les contraintes de (PEI ) sont qualifiées enxsi T x X = T xx, (5) où T xx := {d : c E(x) d = 0, c I 0 (x)(x) d 0}. On a toujours : T x X T xx. Conditions suffisantes de qualification des contraintes. Régularité + l une des conditions suivantes : (QC-A) c E I 0 (x) est affine dans un voisinage dex. (QC-S) c E est affine avec c E surjective, les composantes de c I 0 (x) sont convexes, ˆx X tel quec I 0 (x)(ˆx) < 0. (QC-IL) les gradients { c i (x)} i E I 0 (x) sont linéairement indépendants. (QC-MF) i E I 0 (x) α i c i (x) = 0 et α I 0 (x) 0 = α E I 0 (x) = 0. (QC-MF ) c E (x) surjective et d E tel que c E (x) d = 0 et c Ix(x) d 0 < 0. 37
Démarche suivie pour obtenir (KKT) On part de (2) [i.e., f croît de x vers l intérieur dex]. On suppose que les contraintes sont qualifiées en x (on a(5) avec x = x ). Dès lors f(x ) ( T x X ) +. (6) Lemme de Farkas : Données : A : E F linéaire et K cône de E. {y F : A y K + } + = A(K). C est une généralisation de N(A) = R(A ). Le lemme de Farkas permet d exprimer (6) autrement : λ R m tel que l on ait (KKT). 38
Conditions du deuxième ordre Dfn : le cône critique enx X est l ensemble (il dépend aussi def!) C(x):= {d : c E(x) d = 0, c I 0 (x)(x) d 0, On note C := C(x ). f (x) d 0} T xx. Soit x une solution de(p EI ). On note Λ := {λ : (x,λ ) vérifie (KKT)} l ensemble des multiplicateurs optimaux. CN2 : si (QC-MF) en x, on a (KKT) et d C, λ Λ : d 2 xxl(x,λ )d 0. CS2 pour un minimum local strict : Λ et d C \{0}, λ Λ : d 2 xxl(x,λ )d > 0. 39
Signification des multiplicateurs optimaux ( 4.7.1) Problème perturbé : pour p R m, on définit min f(x) (P p EI ) c E (x)+p E = 0 c I (x)+p I 0. Dfn. La fonction valeur associée à(p p EI ) est v : p R m R définie par v(p) = inf x X p f(x), oùx p est l ensemble admissible de(p p EI ). (P EI ) convexe = v convexe. Cas différentiable régulier. Si (x,λ ) solution PD de(p EI ), ( x(p), λ(p)) solution PD de (P p EI ), p x(p) différentiable en 0, x(0) = x, p λ(p) continue en 0, λ(0) = λ, alors λ = v(0) = (f x)(0). 40
On note Λ := {λ R m : λ I 0}. Dfn. On dit que(x,λ ) R n Λ est un point-selle de l sur R n Λ, si (x,λ) R n Λ : l(x,λ) l(x,λ ) l(x,λ ). Cas convexe non différentiable. Si x est solution de(p EI ), v Conv(R m ), alors v(0) = {λ : (x,λ ) est point-selle delsur R m Λ}. Remarque : Ci-dessus, v(0) peut être vide! Avec qualification de Slater : v(0). 41
CN et CS d existence de solution PD globale. CN d optimalité (cas convexe non diff.). Si (P EI ) convexe (avec f et c finies), (Slater) : c E surjective, ˆx X t.q.c I(ˆx) < 0, x solution de(p EI ), alors 1) v est loc. lipschitzienne dans un vois. de 0, 2) v(0). CS d optimalité globale. Peu de chance d être applicable si (P EI ) non convexe. Si (x,λ ) R n Λ est un point-selle de l sur R n Λ, alors x solution (globale) de(p EI ). 42
IV Méthodes à directions de descente [WP] Schéma des algorithmes ( 6.1) Dfn [WP] : d est direction de descente def en x si f (x) d < 0. = f décroît enxle long de d. Algorithme à directions de descente : il génère une suite{x k } E comme suit Calcul d une direction de descente d k ; Recherche linéaire : on détermine un pas α k > 0 le long de d k ; Nouvel itéré : x k+1 := x k +α k d k. d k x k+1 x k+2 d k+1 x k d k+2 43
Exemples d algorithmes à DD ( 6.2, [WP]) On note g k := f(x k ). Algorithme du gradient. d k = g k. Algorithme du gradient conjugué. g 1 si k = 1 d k = g k +β k d k 1 si k 2. Algorithme de Newton. d k = 2 f(x k ) 1 g k. Algorithme de quasi-newton. d k = M 1 k g k. Algorithme de Gauss-Newton pour f(x) = 1 2 r(x) 2 2 et J(x) := r (x) injective : d k = (J(x k ) J(x k )) 1 J(x k ) r(x k ). 44
La recherche linéaire ( 6.3) Deux techniques souvent utilisées : RL d Armijo et RL de Wolfe. Soient d k une direction de descente et h k (α) := f(x k +αd k ). RL d Armijo (0 < ω 1 < 1 2, 0 < τ < 1) h k (α k ) h(0)+ω 1 α k h k(0), α k = τ i k, oùi k est le plus petit dans {0,1,2,...}. 0 pas d Armijo τ 4 τ 3 τ 2 τ h k (α) 1 α pente h k (0) penteω 1 h k (0) Valeurs typiques : ω 1 = 10 4 et τ = 1 2. 45
RL de Wolfe (0 < ω 1 < 1 2, ω 1 < ω 2 < 1) h k (α k ) h(0)+ω 1 α k h k (0), h k (α k) ω 2 h k (0). pas de Wolfe h k (α) 0 α pente h k (0) penteω 1 h k (0) penteω 2 h k (0) Valeurs typiques : ω 1 = 10 4 et ω 2 = 0.99. 46
Convergence avec la RL de Wolfe Dfn : Théor : cosθ k := g k,d k g k d k. Si f C 1,1, RL de Wolfe C, k 0, f(x k ) C, alors g k 2 cos 2 θ k < +. k 0 Convergence : Algo du gradient : θ k = 0, donc g k 0. Plus généralement : cosθ k c > 0, donc g k 0. 47
V Méthodes à régions de confiance [WP] Principe de l algorithme ( 8.1.1) Le problème : min x E f(x). Modèle quadratique de f autour d un itéré x k : f(x k +s) f(x k )+ψ(s), où ψ k (s) := g k,s + 1 2 M ks,s. Région de confiance : région dans laquelle ce modèle est considéré comme bon. Le plus souvent B(0, k ) := {s E : s k }. k > 0 est le rayon de confiance du modèle. 48
Schéma d un algorithme à RC : il génère une suite {x k } par 1. Déplacement : s k argmin s k ψ k (s); 2. Appréciation du déplacement : si la concordance ρ k := f(x k +s k ) f(x k ) ψ(s k ) n est pas bonne (ρ k ω 1 ), diminuer k et retour en 1. 3. Nouvel itéré : x k+1 = x k +s k. 4. Nouveau modèle : nouveau rayon de confiance [τ 2 k, k ] si ρ k ω 2 k+1 [ k,τ 3 k ] sinon. calculer g k+1 := f(x k+1 ),M k+1. 49
Itérés générés par RC dans le contre-exemple de Powell 2 Parameter space 1.5 1 x 1 0.5 0 x * 0.5 1 d N 1 1.5 d C 1 2 0 0.5 1 1.5 2 2.5 3 3.5 4 Figure 3: RC dans le contre-exemple de Powell 50
Résolution du problème quadratique ( 8.3.1, 8.4) Le problème : min g,s + 1 2 Ms,s s. CNS d optimalité : ˆλ R tel que (M + ˆλI)ŝ = g ŝ, ˆλ 0 ˆλ( ŝ ) = 0 (M + ˆλI) 0. Résolution approchée : algorithme dogleg de Powell algorithme du GC tronqué. Résolution fine : algorithme de Moré-Sorensen. 51
Comparaison avec la RL RL On se donne une direction de descente d k de f enx k On adapte le pas α k > 0 le long de d k pour faire décroîtref Le déplacement s k = α k d k est aligné sur d k (recherche linéaire) Facile à mettre en œuvre Résultats de convergence faibles RC On se donne un modèle ψ k de f enx k On adapte le rayon de confiance k > 0 pour faire décroître f Le déplacement s k change d orientation avec k (recherche curviligne) Difficile à mettre en œuvre Résultats de convergence renforcés 52
VI Méthodes newtoniennes pour équations Vitesse de convergence des suites ( 5.1.1, [WP]) Soit {x k } une suite convergeant vers x E. On suppose que x k x, pour tout k 1. Convergence linéaire : il existe une norme, un indice k 0 et r [0,1[ tels que k k 0 : x k+1 x x k x r. Convergence superlinéaire : x k+1 x x k x 0. Convergence quadratique : il existe une constante C > 0 telle que k 1 : x k+1 x x k x 2 C. 53
σ k = nombre de chiffres significatifs corrects. superlinéaire quadratique k x k σ k x k σ k 1 2.00000000000000 0 2.00000000000000 0 2 1.50000000000000 0 0.86666666666667 1 3 0.61224489795918 1-0.32323745064862 1 4-0.16202797536640 1-0.92578663808031 1 5-0.92209500449059 1-0.82332584261905 2 6-0.78540447895661 1-0.81774699537697 5 7-0.81609056319699 3-0.81773167400186 9 8-0.81775774021392 5-0.81773167388682 15 9-0.81773165292101 8 10-0.81773167388656 13 11-0.81773167388682 15 Linéaire = σ > 0, k grand : σ k+1 σ k σ. Superlinéaire = σ k+1 σ k. Quadratique σ k+1 = lim inf 2. k σ k 54
Algorithme de Newton pour systèmes non linéaires ( 9.1.1, [WP]) Soit F : E F, avec dime = dimf <. On cherche à résoudre enx : F(x) = 0. Algorithme de Newton. De x k à x k+1 : Résoudre end k l équation de Newton : Nouvel itéré : F (x k )d k = F(x k ). (7) Exemple 1D. x k+1 = x k +d k. 6 5 1+x+x 3 /3 4 3 2 1 0 x 4 x 3 x 2 x 1 1 1.5 1 0.5 0 0.5 1 1.5 2 2.5 55
Propriétés de l algorithme de Newton. Convergence quadratique locale : Si x vérifie F(x ) = 0, F est C 1,1 dans un voisinage de x, F (x ) est inversible, alors il existe un voisinage V de x tel que si x 1 V, l algorithme de Newton (7) est bien défini et génère une suite {x k } V qui converge quadratiquement versx. En général ne converge pas si x 1 n est pas proche d une solution. Il faut calculer les dérivées premières de F. 56
Globalisation de l algorithme de Newton par recherche linéaire ( 9.3.1) Dfn : «globaliser»=forcer la convergence lorsque x 1 n est pas voisin d une solution. Une solution miracle? Si F(x) 0, la direction de Newton enx, d N = F (x) 1 F(x), est une direction de descente de f(x) = 1 2 F(x) 2 2. On a f (x) d N = F(x) 2 2 < 0. RL sur f le long de d N : x + := x+αd N, avec α > 0 tel que (ici ω 1 ]0, 1 2 [) f(x + ) f(x)+αω 1 f (x) d N. 57
Un résultat de convergence : Si {F (x k )} et {F (x k ) 1 } sont bornées, alors l algorithme de Newton avec une RL «convenable» converge vers un point stationnaire de f : f(x k ) 0. Cette approche ne converge pas toujours...! 58
Un cas favorable On considère la fonction F : R 2 R 2 définie par x 1 F(x) = (x 1 2) 2 +x 2 +4 F 1 0 (x) =. 2(x 1 2) 1 x x 1 d 1 La fonction F a un unique zéro en x = 0. 59
Cas défavorable I F(x) = F (x) = x 1, (x 1 2) 2 +(x 2 1) 2 +3 1 0. 2(x 1 2) 2(x 2 1) d 1 x x 1 60
Cas défavorable II F(x) = F (x) = x 1, (x 1 2) 2 +e x 2 +3 1 0. 2(x 1 2) e x 2 x x 1 d 1 61
Globalisation de l algorithme de Newton par régions de confiance ( 9.3.2) Principes : 1. On ne s intéresse plus qu aux points stationnaires de f(x) = 1 2 F(x) 2 2. Remarque : la RL n est pas toujours capable d en trouver. 2. On prend comme modèle quadratique de f enx k : ϕ k (s) := 1 2 F(x k)+f (x k )s 2 2. (8) Avantage : minimiseur s k est défini même si F (x k ) n est pas inversible (c est l origine de l affaiblissement des hypothèses). 3. On minimise ϕ k sur une région de confiance : min s ϕ k (s) (9) s 2 k. 62
Résultat de convergence : Si {F (x k )} est bornée, alors l algorithme de Newton avec RC converge vers un point stationnaire de f : f(x k ) 0. Remarque : on n a plus besoin d hypothèse sur F (x) 1! 63
VII Méthodes newtoniennes en optimisation ( 9.1.2) Soit le problème min x E f(x). On se déclare satisfait avec x vérifiant f(x ) = 0. La relation F = f permet d adapter l algorithme de Newton (F (x) = 2 f(x) est symétrique). Algorithme de Newton. De x k à x k+1 : Résoudre end k l équation de Newton : Nouvel itéré : 2 f(x k )d k = f(x k ). (10) x k+1 = x k +d k. 64
Le problème quadratique osculateur. Le pas de Newton d k est aussi un point stationnaire du problème quadratique ( f(x k )+ f(x k ) d+ 1 2 d 2 f(x k )d min d E ). f=1+x+x 2 /2+x 4 /12 x 4 x 3 x 2 x 1 65
Propriétés de l algorithme de Newton. Convergence quadratique locale : Si x vérifie f(x ) = 0, f est C 2,1 dans un voisinage de x, 2 f(x ) est inversible, alors il existe un voisinage V de x tel que si x 1 V, l algorithme de Newton est bien défini et génère une suite {x k } V qui converge quadratiquement versx. En général ne converge pas si x 1 n est pas proche d un point stationnaire. Pas de distinction entre min, max, point stationnaire. Les directions ne sont pas nécessairement de descente. Il faut calculer les dérivées secondes def. 66
Algorithmes de quasi-newton ( 10) Soit le problème min x R nf(x). Les algorithmes de qn génèrent 2 suites : {x k } R n et {M k } R n n sym. dfn. pos. 1) d k := M 1 k g k; 2) α k > 0 par recherche linéaire; 3) x k+1 := x k +α k d k ; 4) M k+1 := U(M k,y k,s k ), oùy k := g k+1 g k et s k := x k+1 x k. Mise à jour dem k. On cherche à ce quem k+1 soit proche de M k (stabilité), tout en vérifiant : l équation de qn : y k = M k+1 s k ; la symétrie : M k+1 = M k+1; la définie positivité :M k+1 dfn. pos. Cela conduit à la formule de BFGS. M k+1 = M k + y ky k y k s k M ks k s k M k s k M ks k. 67
VIII Problèmes de moindres-carrés Ce sont des problèmes de la forme min x R n F(x), oùf : R n R m. En général m n. Exemple : la régression linéaire. 3 2.5 2 1.5 1 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 68
Moindres-carrés linéaires ( 16.1) Problème : on cherche une solution de où A est m netb R m. min Ax b 2, (11) x R n Équation normale : x est solution ssi A Ax = A b. (12) Existence de solution : Le problème (11) a toujours une solution. Solution unique A est injective. Ensemble des solutions = x p +N(A). Méthodes numériques : Factorisation de Cholesky de A A. GC sur (12). Factorisation QR de A. Factorisation SVD de A. 69
Moindres-carrés non linéaires ( 16.2) Problème : on cherche une solution de ( min f(x) := 1 ) x R n 2 r(x) 2 2, (13) oùr : R n R m est non linéaire (les résidus). Jacobienne J J(x) r (x), qui est m n. Algorithme de Gauss-Newton : RL le long de 1 dk GN argmin d R n 2 r(x k)+j(x k )d 2 2. On a f (x k ) d GN k 0 (< 0 si f(x k) 0). Résultat de convergence : Si {J(x k )} est bornée et unif. injective, i.e., C > 0, k 1, v R n : C v 2 J(x k )v 2 C 1 v 2, alors l algorithme de Gauss-Newton avec RL converge vers un point stationnaire de f (c est-à-direj(x k ) r(x k ) 0). 70
Algorithme de Levenberg-Marquardt (révisé) : RC avec le modèle quadratique ϕ k (s) := 1 2 r(x k)+j(x k )s 2 2. Résultat de convergence : Si {J(x k )} est bornée, alors l algorithme de Levenberg-Marquardt avec RC converge vers un point stationnaire de f (c est-à-direj(x k ) r(x k ) 0). 71
IX Pénalisation ( 15, [WP]) À quoi ça sert? En optimisation avec contraintes : pour la théorie: obtenir des propriétés à partir de problèmes approchés sans contrainte, pour l algorithmique: résoudre un problème avec contraintes «sans trop en faire». Transformation typique. SoitX E (un espace vectoriel). On passe du problème avec contrainte (P X ) inf x X f(x) au problème pénalisé sans contrainte ( ) (P r ) inf Θ r (x) := f(x)+rp(x), x E oùr R est un paramètre de pénalisation et p : E R est une fonction de pénalisation (on va voir ce que c est). 72
Deux résultats généraux ( 15.1) Monotonie en pénalisation Si r considéré, (P r ) a une solution, notée x r. Alors lorsquer croît : 1) p( x r ) décroît, 2) f( x r ) croît, sir 0, 3) Θ r ( x r ) croît, sip( ) 0. Point d adhérence lorsque r 0 Si f et p sont continues, S := argmin f(x), r > 0 petit, (Pr ) a une solution, notée x r. Alors tout point d adhérence de{ x r } r 0 est solution de inf p(x). x S 73
Pénalisation extérieure ( 15.2) Exemple. On veut résoudre min f(x) (P) c(x) 0. On approche ce problème par (r > 0) (P r ) min f(x)+ r 2 c(x)+ 2 2, que l on résout par un algorithme de descente, pour une suite der. 74
Pénalisation l 2 en 1D 6 5 r = 5 4 r = 3 3 r = 2 2 1 r = 1.5 r = 1.2 f(x) = 1 + x + 1 3 x3 0 r = 1 x r x 1 2.5 2 1.5 1 0.5 0 0.5 1 1.5 Figure 4: Pénalisation quadratique 75
Plus généralement, on suppose que r 0 et que la fonction de pénalisation vérifie p est continue sure (H p ) p(x) 0, x E p(x) = 0 x X. Résultat d approximation Si X est fermé et non vide, p : E R vérifie(hp ), f est s.c.i., r0 0 tel queθ r0 (x) + quand x, alors 1) r r 0, (P r ) a au moins 1 solution x r, 2) { x r } r est bornée, 3) tout point d adhérence de la suite{ x r } r est solution de (P X ). 76
r et de la pénalisation extérieure Facile à mettre en œuvre (avec algo. sans contrainte). Suite de problèmes non linéaires (bon r inconnu, premier r très grand ne convient pas). Le mauvais conditionnement augmente avec r (i.e., les courbes de niveau s allongent). r=0 r=1 1 1 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0 0.2 0.4 0.6 0.8 0 1 0 0.2 r=10 1 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0.2 0.4 0.6 0.8 1 0.8 1 r=100 1 0 0.4 0.6 0.8 0 1 0 0.2 0.4 0.6 Figure 5: Chemin des minimiseurs 77
X Optimisation quadratique successive (OQS, 14) Le problème à résoudre enx E : (P EI ) minf(x) c E (x) = 0 R m E c I (x) 0 R m I. Le lagrangien du problème (c := (c E,c I )) : l(x,λ) = f(x)+λ c(x). 78
L algorithme OQS local ( 14.1) De (x,λ) E R m à (x +,λ + ) E R m : 1. Test d arrêt : si (x,λ) vérifie les conditions d optimalité, arrêt de l algorithme. 2. Déplacement : calculer une solution primale-duale (d,λ PQ ) du problème quadratique osculateur min d f(x) d+ 1 2 d 2 xxl(x,λ)d c E (x)+c E(x)d = 0 c I (x)+c I(x)d 0. (14) 3. Mise à jour des variables : le nouvel itéré(x +,λ + ) est donné par x + := x+d et λ + := λ PQ. C est évidemment l étape 2 qui est la plus coûteuse. 79
Newton pour résoudre F(x) = 0 (rappel) Si x vérifief(x ) = 0, F est C 1,1 dans un voisinage de x, F (x ) est inversible, alors il existe un voisinage V de x tel que si x 1 V, l algorithme de Newton est bien défini et génère une suite {x k } V qui converge quadratiquement versx. Résultat de convergence locale de OQS Si (x,λ ) solution primale-duale de (P EI ), f et c sontc 2,1 près de x, complémentarité stricte, régularité : 2 xxl(x,λ ) c E I 0 (x ) est inversible, c E I (x 0 ) 0 alors il existe un voisinage V de (x,λ ) tel que, si (x 1,λ 1 ) V, l algorithme OQS démarrant en (x 1,λ 1 ) et calculant d k comme point stationnaire de norme minimale du PQO (14) 1) est bien défini, 2) génère une suite {(x k,λ k )} V qui converge quadratiquement vers(x,λ ), 3) identifie les contraintes actives de(p EI ) (ce sont celles du PQO). 80
XI Dualité ( 13) Un premier problème : inf x 2 x 2 X (P) x X x 1 = 0. x x 1 Un second problème : x 2 X (D) sup λ R δ(λ) pente λ δ(λ) pente λ x 1 (P) et (D) sont duaux l un de l autre. Intérêts de la dualité : obtenir des propriétés sur un problème à partir des propriétés d un pbl dual (e.g., une borne sur la valeur optimale); construire des pbls duaux équivalents au pbl primal, mais plus faciles à résoudre; algorithmique : recherche de point-selle, du multiplicateur optimal. 81