Optimisation Différentiable Théorie et Algorithmes J.Ch. GILBERT Résumé du cours
Informations pratiques Plan du cours Objectif du cours : l optimisation aspects théor. : convexité, CO, dualité,... aspects pratiques : algorithmes. Organisation : 14 séances, dont 2 pour l examen. cours magistral : 1h15++, TD + TP : 7+5 séances d 1h45--, TP : projet d optimisation (Matlab/Scilab), travail personnel. Supports de cours syllabus : ne pas voir les sections étoilées, transparents : points importants du cours, exercices : en TD, dans le syllabus. Contrôle des connaissances Séance 13 : exposés des projets de TP. Séance 14 : résolution de problèmes (3h). 1. Rappels, différentiabilité, convexité 2. Conditions d optimalité I : égalités 3. Conditions d optimalité II : inégalités 4. Méthodes de descente : RL et RC 5. Méthodes newtoniennes : N et qn 6. Pénalisation 7. Dualité 8. Conjugaison 9. Sous-différentiabilité 10. Programmation quadratique successive (SQP) 11. Optimisation linéaire I : simplexe 12. Optimisation linéaire II : points intérieurs 2 3
I Rappels Unicité de solution ( 3.1) Existence de solution ( 1.2) Le problème à résoudre (f : X R {+ }) : min f(x) (P X ) x X. On dit que f est fermée si (epi f) est fermé. Si f est fermée sur X, X est compact et non vide, alors (P X ) a (au moins) une solution. En dimension finie (c est notre cas) : X compact X fermé borné. On peut remplacer l hypothèse Soient X un convexe de R n et f : X R. Définitions : f est convexe sur X si pour tout x, y X, x y, et t ]0, 1[ : f((1 t)x + ty) (1 t)f(x) + tf(y). f est strictement convexe si on a inégalité stricte ci-dessus. Le problème à résoudre : min f(x) (P X ) x X. par X compact X fermé et lim f(x) = +. x X x Si X est convexe, f est strictement convexe sur X, alors (P X ) a au plus une solution. 4 5
Différentiabilité première ( C.1, C.2, C.3) Soient E et F deux espaces normés, Ω un ouvert de E et f : Ω F. 1. Différentiabilité directionnelle suivant h E : f 1 ( ) (x; h) := lim f(x + th) f(x) existe. t 0+ t 2. Différentiabilité au sens de Gâteaux : f (x; h) existe pour tout h E et h f (x; h) est linéaire (continue). On note f (x) l application linéaire (continue). 3. Différentiabilité au sens de Fréchet : il existe L : E F, linéaire (continue) : f(x + h) = f(x) + Lh + o( h ). On note f (x) := L (même opérateur qu en 2). Soit, un produit scalaire sur E et F = R. On définit le gradient de f en x comme l unique vecteur f(x) E: f(x), h = f (x) h, h E. Différentiabilité seconde ( C.4) Supposons que f : Ω F soit 2 fois différentiable (pour une définition rigoureuse, voir le syllabus). Propriétés : f (x) (h, k) est la dérivée directionnelle de x f (x) h dans la direction k: f 1 (x) (h, k) = lim t 0+ t (f (x + tk) h f (x) h) l application (h, k) f (x) (h, k) est bilinéaire symétrique. Soit, un produit scalaire sur E et F = R. On définit le hessien de f en x comme l unique opérateur linéaire symétrique 2 f(x) sur E tel que 2 f(x)h, k = f (x) (h, k), (h, k) E 2. 6 7
II Analyse convexe Polyèdre convexe ( 2.4) Dfn. Soient x, y E. Un segment de E : [x, y] := {(1 t)x + ty : t [0, 1]}. Dfn. Un ensemble C E est convexe si x, y C = [x, y] C. Soit E un espace vectoriel (E = R n parfois). Dfn. Description primale d un polyèdre conv. : P := conv{x 1,..., x p } + cone{y 1,..., y q }. Description duale d un polyèdre convexe : P := {x R n : Ax b}. y x convexe convexe x y non convexe x y non convexe Dfn : ˆx est un sommet de P si x 1, x 2 P, ˆx = x 1 + x 2 2 = ˆx = x 1 = x 2. L ensemble des sommets est noté ext P. Prop. Soit P := {x : Ax = b, x 0}, ˆx P. 1) ˆx ext P A B est injective, où B = {i : x i > 0} et A B formée des colonnes i B de A. 2) P a au moins un sommet et au plus 2 n. 8 9
Projection sur un convexe fermé ( 2.5.2) Séparation des convexes ( 2.5.3) E muni d un produit scalaire, = 2. Si C E convexe fermé non vide et x E, alors le problème min { y x : y C} (1) a une unique solution. Dfn : l unique solution de (1) est appelée la projection de x sur C et est notée P C x. Prop : Soit x C. Alors a x = P C x y C, y x, x x 0 y C, y x, y x 0 = y C, y x, x x 0. a La réciproque de la dernière implication est fausse. E muni d un produit scalaire,. Dfn : On peut séparer C 1, C 2 E s il existe ξ E non nul tel que sup x 1 C 1 ξ, x 1 inf x 2 C 2 ξ, x 2. La séparation est stricte si l inégalité ci-dessus est stricte. Théor (Hahn-Banach) : Si C 1 et C 2 convexes, non vides, disjoints, dim E <, alors on peut séparer C 1 et C 2. Si C 1 et C 2 convexes, non vides, disjoints, C 1 ou C 2 est d intérieur non vide, alors on peut séparer C 1 et C 2. Si C 1 et C 2 convexes, non vides, disjoints, l un est fermé, l autre est compact, alors on peut séparer C 1 et C 2 strictement. 10 11
Enveloppe convexe fermée ( 2.5.4) Cône dual ( 2.5.6) Soient E un e.v. avec, et P E. Dfn. L enveloppe convexe de P, conv P, est le plus petit convexe contenant P. P fermé conv P fermé. Dfn. L enveloppe convexe fermée de P, conv P, est le plus petit convexe fermé contenant P. Dfn. Un demi-espace fermé de E : H (ξ, α) := {x E : ξ, x α}, où ξ E est non nul et α R. Prop. conv P est l intersection de tous les demiespaces fermés contenant P. E muni d un produit scalaire,. Dfn : Le cône dual de P E est défini par P := {x E : x, y 0, y P }. C est un cône, convexe, fermé, non vide. Lemme : Soit A une matrice. Alors {Ax : x 0} est un cône, convexe, fermé, non vide. Lemme (Farkas) : Soit A une matrice. Alors {x : Ax 0} = {A y : y 0}. ( ) = dual pour le produit scalaire euclidien. [c est une généralisation de N(A) = R(A )] 12 13
Caractérisations de la convexité d une fonction à partir de ses dérivées ( 3.3.3) Enveloppe supérieure ( 3.2.4) Soient X un convexe de R n et f : X R. Si f est 1 fois dérivable et X ouvert Enveloppe supérieure d une famille de f i : E R, i I (quelconque) : ( ) sup f i (x) := sup f i (x). i I i I epi (sup i I f i ) = i I (epi f i). f i convexes = sup i I f i convexe. f i fermées = sup i I f i fermée. Les propriétés suivantes sont équivalentes : f est convexe sur X [resp. strictement convexe], x, y X, x y : f(y) f(x) + f (x) (y x) [resp. >], x, y X, x y : (f (y) f (x)) (y x) 0 [resp. >]. 14 15
Fonction conjuguée ( 3.4) Soient E un espace vectoriel, muni de, et f : E R {+ } propre avec minorante affine. Si f est 2 fois dérivable et X ouvert : f est convexe sur X x X, h R n, f (x) h 2 0, f est strictement convexe sur X = x X, h R n non nul, f (x) h 2 > 0. Contre-exemple: f(x) = x 4. Dfn. Conjuguée f : E R {+ } de f : ( ) f (x ) := sup x E x, x f(x). Biconjuguée f : E R {+ } de f : ( ) f (x) := sup x E x, x f (x ). Prop. 1) f Conv(E) et f Conv(E). 2) f est l enveloppe supérieure des minorantes affines de f. 3) f f. 4) f = f f Conv(E). 16 17
Interprétation de f (x ) et f R f Sous-différentiel des fonctions convexes ( 3.5) f (x ) pente x E un e.v. muni de,. Différentiabilité directionnelle 0 x f Conv(E), x dom f et d E. R f f 1) t ]0, + [ f(x+td) f(x) t est croissante; 2) f (x; d) existe dans R; 3) f (x; ) est convexe; 4) f bornée dans un voisinage de x = f (x; ) Lipschitz, f (x; ) Conv(E). 0 x 18 19
Sous-différentiel Dfn. Le sous-différentiel f(x) de f en x dom f est l ensemble des x E vérifiant les propriétés équivalentes : (S 1 ) d E : f (x; d) x, d, (S 2 ) y E : f(y) f(x) + x, y x, (S 3 ) f(x) + f (x ) = x, x. Prop. 1) ˆx arg min f 0 f(ˆx). 2) f(x) est un convexe fermé. 3) f continue en x = f(x) compact non vide, f (x; d) = max x f(x) x, d. 5) f G-diff. en x f(x) = { f(x)}. Calcul. Si f 1,..., f m : E R convexes et α i 0 ( m ) m α i f i (x) = α i f i (x). i=1 i=1 2.5 2 1.5 1 0.5 0 Exemple 1D 0.5 1 0 1 2 4 3 2 1 0 1 2 1 0 1 2 Figure 1: f(x) = max(x, x 2 ) et f(x) (en bas) 20 21
Exemple 2D x 1 + f(x 1 ) frag replacements x 1 x 2 x 3 x3 + f(x 3 ) x 2 + f(x 2 ) Figure 2: f = sup(q 1, q 2, q 3 ) et f 22
III Conditions d optimalité (CO) Le problème à résoudre : min f(x) (P X ) x X. Ce sont des = et décrivant les solutions de (P X ). Utilité des CO : Donner des renseignements sur (P X ) (calculer la solution analytiquement?). Vérifier qu un point est solution. Définir des algorithmes de résolution. Conditions nécessaires (CN) et conditions suffisantes (CS). Conditions du 1 er ordre (CN1, CS1) et du 2 ième ordre (CN2, CS2). CO sans contrainte (rappel, 4.2) Le problème à résoudre : min f(x) x R n. CN1 : f(x ) = 0. (Si f est convexe, c est une CS1 globale.) CN2 : f(x ) = 0 2 f(x ) est semi-dfn. pos. CS2 pour un minimum local strict : f(x ) = 0 2 f(x ) est dfn. pos. 24 25
CN1 générale ( 4.1) Le problème à résoudre : (P X ) Dfn : Cône tangent. min f(x) x X. CN1. On exprime le fait que f croît si on se déplace vers l intérieur de X : f (x ) d 0, d T x X, (2) où T x X est le cône tangent à X en x. X 1 x 1 T x1 X 1 x 2 X 2 CN1. Lorsque X est convexe, la relation (2) se simplifie en : f (x ) (x x ) 0, x X. N x2 X 2 (Si f est convexe, c est une CS1 globale.) 0 0 T x2 X 2 N x1 X 1 26 27
CO avec contraintes d = ( 4.3) Le problème à résoudre : min f(x) (P E ) c(x) = 0 R m. Le lagrangien du problème : l(x, λ) = f(x) + λ c(x). CN1 : si A := c (x ) est surjective, il existe λ R m, unique, tel que x l(x, λ ) = 0 (3) c(x ) = 0. (Si c affine, λ existe, pas néc. unique.) (Si f est convexe et c est affine, ce sont des CS1 globales.) CN2 : si A := c (x ) est surjective, on a x l(x, λ ) = 0 c(x ) = 0 2 xxl(x, λ ) est semi-dfn. pos. sur N(A ). CS2 pour un minimum local strict : x l(x, λ ) = 0 c(x ) = 0 2 xxl(x, λ ) est dfn. pos. sur N(A ). La première condition de (3) s écrit aussi : m f(x ) + (λ ) i c i (x ) = 0. i=1 28 29
CO avec contraintes d = et d ( 4.4) Le problème à résoudre : 8 >< min f(x) (P EI ) c E (x) = 0 R m E >: c I (x) 0 R m I. Le lagrangien du problème (c := (c E, c I )) : l(x, λ) = f(x) + λ c(x). On note I 0 (x) := {i I : c i (x) = 0}. CN1 : si les contraintes sont qualifiées en x, il existe λ R m tel que 8 x l(x, λ ) = 0 (KKT) >< >: c E (x ) = 0 c I (x ) 0 (λ ) I 0 (λ ) I c I (x ) = 0. (Si f et c I sont convexes et c E est affine, ce sont des CS1 globales.) Qualification des contraintes ( 4.4.2) Dfn : on dit que les contraintes de (P EI ) sont qualifiées en x si où T x X = T xx, (4) T xx := {d : c E(x) d = 0, c I 0 (x)(x) d 0}. On a toujours : T x X T xx. Conditions suffisantes de qualification des contraintes. Régularité + l une des conditions suivantes : (QC-A) c E I 0 (x) est affine dans un voisinage de x. (QC-S) c E est affine avec c E surjective, les composantes de c I 0 (x) sont convexes, ˆx X tel que c I 0 (x)(ˆx) < 0. (QC-IL) les gradients { c i (x)} i E I 0 (x) sont linéairement indépendants. (QC-MF) P i E I 0 (x) α i c i (x) = 0 et α I 0 (x) 0 = α E I 0 (x) = 0. 30 31
Démarche suivie pour obtenir (KKT) On part de (2) [i.e., f croît de x vers l intérieur de X]. On suppose que les contraintes sont qualifiées en x (on a (4) avec x = x ). Dès lors Lemme de Farkas : f(x ) ( T x X ). (5) {d : Ad 0} = {A λ : λ 0}. C est une généralisation de N(A) = R(A ). Le lemme de Farkas permet d exprimer (5) autrement : λ R m tel que l on ait (KKT). Signification des multiplicateurs optimaux ( 4.6.1) Problème perturbé : pour p R m, on définit min f(x) (P p EI ) c E (x) + p E = 0 c I (x) + p I 0. Dfn. La fonction valeur associée à (P p EI ) est v : p R m R définie par v(p) = inf x X p f(x), où X p est l ensemble admissible de (P p EI ). (P EI ) convexe = v convexe. Cas différentiable régulier. Si (x, λ ) solution PD de (P EI ), ( x(p), λ(p)) solution PD de (P p EI ), p x(p) différentiable en 0, x(0) = x, p λ(p) continue en 0, λ(0) = λ, alors λ = v(0) = (f x)(0). 32 33
Dfn. (x, λ ) est une solution primale-duale globale si x arg min l(, λ ) c E (x ) = 0, c I (x ) 0 (λ ) I 0, (λ ) I c I(x ) = 0. Cas convexe non différentiable. Si x est solution de (P EI ), v est convexe, v(0), alors v(0) = {λ : (x, λ ) solution PD globale}. Remarque : Ci-dessus, v(0) peut être vide! Avec qualification de Slater : v(0). CN et CS d existence de solution PD globale. CN d optimalité (cas convexe non diff.). Si (P EI ) convexe (avec f et c finies), (Slater) : c E surjective, ˆx X t.q. c I(ˆx) < 0 x solution de (P EI ), alors 1) v est loc. lipschitzienne dans un vois. de 0 2) v(0). CS d optimalité globale. Peu de chance d être applicable si (P EI ) non convexe. Si (x, λ ) solution PD globale, alors x solution de (P EI ). 34 35
IV Méthodes à directions de descente Schéma des algorithmes ( 6.1) Exemples d algorithmes à DD ( 6.2) On note g k := f(x k ). Algorithme du gradient. Dfn : d est une direction de descente de f en x si f (x) d < 0. = f décroît en x le long de d. Algorithme à directions de descente : il génère une suite {x k } comme suit Calcul d une direction de descente d k ; Recherche linéaire : on détermine un pas α k > 0 le long de d k ; Nouvel itéré : x k+1 := x k + α k d k. d k x k+1 x k+2 d k+1 d k = g k. Algorithme du gradient conjugué. g 1 si k = 1 d k = g k + β k d k 1 si k 2. Algorithme de Newton. d k = 2 f(x k ) 1 g k. Algorithme de quasi-newton. d k = M 1 k g k. Algorithme de Gauss-Newton pour f(x) = 1 2 r(x) 2 2, J(x) := r (x). d k = ( J(x k ) J(x k ) ) 1 J(xk ) r(x k ). x k d k+2 Pour une comparaison de ces algorithmes, voir page??. 36 37
La recherche linéaire ( 6.3) Deux techniques souvent utilisées : RL d Armijo et RL de Wolfe. Soient d k une direction de descente et h k (α) := f(x k + αd k ). RL de Wolfe (0 < ω 1 < 1 2, ω 1 < ω 2 < 1) h k (α k ) h(0) + ω 1 α k h k (0), h k (α k) ω 2 h k (0). RL d Armijo (0 < ω 1 < 1 2, 0 < τ < 1) pas de Wolfe h k (α) 0 h k (α k ) h(0) + ω 1 α k h k(0), α k = τ i k, où i k est le plus petit dans {0, 1, 2,...}. pas d Armijo τ 4 τ 3 τ 2 τ h k (α) 1 α 0 pente h k (0) α pente ω 1 h k ( pente h k (0) pente ω 1 h k (0) pente ω 2 h k (0) Valeurs typiques : ω 1 = 10 4 et ω 2 = 0.99. Valeurs typiques : ω 1 = 10 4 et τ = 1 2. 38 39
IV Méthodes à régions de confiance Principe de l algorithme ( 8.1.1) Le problème : min x R n f(x). Modèle quadratique de f autour d un itéré x k : f(x k + s) f(x k ) + ψ(s), où ψ k (s) := g k s + 1 2 s M k s. Région de confiance : région dans laquelle ce modèle est considéré comme bon. Le plus souvent B(0, k ) := {s R n : s k }. k > 0 est le rayon de confiance du modèle. Schéma d un algorithme à RC : il génère une suite {x k } par 1. Déplacement : s k arg min s k ψ k (s); 2. Appréciation du déplacement : si la concordance ρ k := f(x k + s k ) f(x k ) ; ψ(s k ) n est pas bonne (ρ k ω 1 ), diminuer k et retour en 1. 3. Nouvel itéré : x k+1 = x k + s k. 4. Nouveau modèle : nouveau rayon de confiance [τ 2 k, k ] si ρ k ω 2 k+1 [ k, τ 3 k ] sinon. calculer g k+1 := f(x k+1 ), M k+1. 40 41
Itérés générés par RC dans le contre-exemple de Powell Résolution du problème quadratique ( 8.3.1, 8.4) 2 1.5 1 Parameter space x 1 Le problème : min g s + 1 2 s Ms s. 0.5 0 0.5 1 x * CNS d optimalité : ˆλ R tel que (M + ˆλI)ŝ = g ŝ, ˆλ 0 ˆλ( ŝ ) = 0 (M + ˆλI) est semi-définie positive. d N 1 1.5 2 0 0.5 1 1.5 2 2.5 3 3.5 4 Figure 3: RC dans le contre-exemple de Powell d C 1 Résolution approchée : algorithme dogleg de Powell algorithme du GC tronqué. Résolution fine : algorithme de Moré-Sorensen. 42 43
V Méthodes newtoniennes pour équations χ k = nombre de chiffres significatifs corrects. Vitesse de convergence des suites ( 5.1.1) Soit {x k } une suite convergeant vers x R n. On suppose que x k x, pour tout k 1. Convergence linéaire : il existe une norme, un indice k 0 et r [0, 1[ tels que x k+1 x x k x r, k k 0. Convergence superlinéaire : x k+1 x x k x 0. Convergence quadratique : il existe une constante C > 0 telle que x k+1 x C, k 1. x k x 2 superlinéaire quadratique k x k χ k x k χ k 1 2.00000000000000 0 2.00000000000000 0 2 1.50000000000000 0 0.86666666666667 1 3 0.61224489795918 1-0.32323745064862 1 4-0.16202797536640 1-0.92578663808031 1 5-0.92209500449059 1-0.82332584261905 2 6-0.78540447895661 1-0.81774699537697 5 7-0.81609056319699 3-0.81773167400186 9 8-0.81775774021392 5-0.81773167388682 15 9-0.81773165292101 8 10-0.81773167388656 13 11-0.81773167388682 15 Linéaire = 8 < χ > 0, k grand : : χ k+1 χ k χ. Superlinéaire = χ k+1 χ k. χ k+1 Quadratique = lim inf 2. k χ k 44 45
Algorithme de Newton pour systèmes non linéaires ( 9.1.1 Soit F : R n R n. On cherche à résoudre en x : F (x) = 0. Algorithme de Newton. De x k à x k+1 : Résoudre en d k l équation de Newton : F (x k ) d k = F (x k ). (6) Nouvel itéré : x k+1 = x k + d k. Exemple 1D. Propriétés de l algorithme de Newton. Convergence quadratique locale : Si x vérifie F (x ) = 0, F est C 1,1 dans un voisinage de x, F (x ) est inversible, alors il existe un voisinage V de x tel que si x 1 V, l algorithme de Newton (6) est bien défin et génère une suite {x k } V qui converg quadratiquement vers x. 6 5 4 1+x+x 3 /3 En général ne converge pas si x 1 n est pas proche d une solution. 3 2 Il faut calculer les dérivées premières de F. 1 0 x 4 x 3 x 2 x 1 1 1.5 1 0.5 0 0.5 1 1.5 2 2.5 46 47
Globalisation de l algorithme de Newton par recherche linéaire ( 9.2) Dfn : globaliser = forcer la convergence lorsque x 1 n est pas voisin d une solution. Une solution miracle? Si F (x) 0, la direction de Newton en x, d N = F (x) 1 F (x), est une direction de descente de f(x) = 1 2 F (x) 2 2. Un résultat de convergence : Si {F (x k )} et {F (x k ) 1 } sont bornées, alors l algorithme de Newton avec une RL convenable converge vers un point stationnaire de f : f(x k ) 0. Cette approche ne converge pas toujours...! On a f (x) d N = F (x) 2 2 < 0. RL sur f le long de d N : x + := x + αd N, avec α > 0 tel que (ici ω 1 ]0, 1 2 [) f(x + ) f(x) + α ω 1 f (x) d N. 48 49
Globalisation de l algorithme de Newton par régions de confiance ( 9.4) Principes : 1. On ne s intéresse plus qu aux points stationnaires de f(x) = 1 2 F (x) 2 2. Remarque : la RL n est pas toujours capable d en trouver. 2. On prend comme modèle quadratique de f en x k : ϕ k (s) := 1 2 F (x k) + F (x k )s 2 2. (7) Résultat de convergence : Si {F (x k )} est bornée, alors l algorithme de Newton avec RC converge vers un point stationnaire de f : f(x k ) 0. Remarque : on n a plus besoin d hypothèse sur F (x) 1! Avantage : minimiseur s k est défini même si F (x k ) n est pas inversible (c est l origine de l affaiblissement des hypothèses). 3. On minimise ϕ k sur une région de confiance : 8 < min s ϕ k (s) (8) : s 2 k. 50 51
V Méthodes newtoniennes en optimisation ( 9.1.2) Soit le problème min f(x). x R n On se déclare satisfait avec x vérifiant f(x ) = 0. La relation F = f permet d adapter l algorithme de Newton (F (x) = 2 f(x) est symétrique). Le problème quadratique tangent. Le pas de Newton d k est aussi un point stationnaire du problème quadratique ( f(x k ) + f(x k ) d + 1 2 d 2 f(x k )d min d R n f=1+x+x 2 /2+x 4 /12 ). Algorithme de Newton. De x k à x k+1 : Résoudre en d k l équation de Newton : 2 f(x k ) d k = f(x k ). (9) Nouvel itéré : x 4 x 3 x 2 x 1 x k+1 = x k + d k. 52 53
Propriétés de l algorithme de Newton. Convergence quadratique locale : Si x vérifie f(x ) = 0, f est C 2,1 dans un voisinage de x, 2 f(x ) est inversible, alors il existe un voisinage V de x tel que si x 1 V, l algorithme de Newton est bien défini et génère une suite {x k } V qui converge quadratiquement vers x. En général ne converge pas si x 1 n est pas proche d un point stationnaire. Pas de distinction entre min, max, point stationnaire. Les directions ne sont pas nécessairement de descente. Il faut calculer les dérivées secondes de f. Soit le problème Algorithmes de quasi-newton min f(x). x R n Les algorithmes de qn génèrent 2 suites : {x k } R n et {M k } R n n sym. dfn. pos. 1) d k := M 1 k g k; 2) α k > 0 par recherche linéaire; 3) x k+1 := x k + α k d k ; 4) M k+1 := U(M k, y k, s k ), où y k := g k+1 g k et s k := x k+1 x k. Mise à jour de M k. On cherche à ce que M k+1 soit proche de M k (stabilité), tout en vérifiant : l équation de qn : y k = M k+1 s k ; la symétrie : M k+1 = M k+1; la définie positivité : M k+1 dfn. pos. Cela conduit à la formule de BFGS. M k+1 = M k + y ky k y k s k M ks k s k M k s k M ks k. 54 55
Moindres-carrés linéaires ( 16.1) VI Problèmes de moindres-carrés Problème : on cherche une solution de Ce sont des problèmes de la forme min F (x), x Rn où F : R n R m. En général m n. Exemple : la régression linéaire. 3 2.5 2 1.5 où A est m n et b R m. Équation normale : Existence de solution : min x R n Ax b 2, (10) A Ax = A b. (11) Le problème (10) a toujours une solution. Solution unique A est injective. Ensemble des solutions = x p + N(A). 1 Méthodes numériques : 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Factorisation de Choleski de A A. GC sur (11). Factorisation QR de A. Factorisation SVD de A. 56 57
Moindres-carrés non linéaires ( 16.2) Problème : on cherche une solution de ( min f(x) := 1 ) x R n 2 r(x) 2 2, (12) où r : R n R m est non linéaire (les résidus). Jacobienne J J(x) r (x), qui est m n. Algorithme de Gauss-Newton : RL le long de d GN k 1 arg min d R n 2 r(x k) + J(x k )d 2 2. On a f (x k ) d GN k 0 (< 0 si f(x k) 0). Résultat de convergence : Si {J(x k )} est bornée et unif. injective, i.e., Algorithme de Levenberg-Marquardt (révisé) : RC avec le modèle quadratique ϕ k (s) := 1 2 r(x k) + J(x k )s 2 2. Résultat de convergence : Si {J(x k )} est bornée, alors l algorithme de Levenberg-Marquardt avec RC converge vers un point stationnaire de f (c est-à-dire J(x k ) r(x k ) 0). C > 0, k 1, v R n : C v 2 J(x k )v 2 C 1 v 2, alors l algorithme de Gauss-Newton avec RL converge vers un point stationnaire de f (c est-à-dire J(x k ) r(x k ) 0). 58 59
VII Pénalisation Pénalisation l 2 en 1D À quoi ça sert? En optimisation avec contraintes : pour la théorie: obtenir des propriétés à partir de problèmes approchés sans contrainte, pour l algorithmique: résoudre un problème avec contraintes sans trop en faire. Exemple. On veut résoudre min f(x) (P ) c(x) 0. On approche ce problème par (r > 0) (P r ) min f(x) + r 2 c(x)+ 2 2, PSfrag replacements 6 5 4 3 2 1 0 r = 3 r = 2 r = 1.5 r = 1.2 r = 1 r = 5 1 2.5 2 1.5 1 0.5 0 0.5 1 1.5 x r Figure 4: Pénalisation quadratique x f(x) = 1 + x + 1 3 x3 que l on résout par un algorithme de descente, pour une suite de r. 60 61
P enalisation ext erieure ( 12.2). Plus g en eralement, on approche (PX ) 8 < min f (x) : x X par une suite de probl`emes sans contrainte (Pr ) min f (x) + rπ(x), o`u la fonction π v erifie (Hπ ) 8 n > > < π est continue sur R π(x) 0, x Rn > > : π(x) = 0 x X. R esultat d approximation. Si f continue et f (x) + lorsque kxk, X est ferm e et non vide, π : Rn R v erifie (Hπ ), r, alors 1) r > 0, (Pr ) a au moins 1 solution x 2) { xr }r est born ee, 3) tout point d adh erence de la suite { xr }r est solution de (PX ). 62 et de l approche par p enalisation Facile a` mettre en œuvre (avec algo. sans contrainte). Suite de probl`emes non lin eaires (bon r inconnu, premier r tr`es grand ne convient pas). Le mauvais conditionnement augmente avec r (i.e., les courbes de niveau s allongent). r=0 1 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0 0.2 0.4 0.6 0.8 0 1 r=10 1 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0.2 0.4 0 0.2 0.6 0.8 0 1 0.4 0.6 0.8 1 0.8 1 r=100 1 0.8 0 r=1 1 0 0.2 0.4 0.6 Figure 5: Chemin des minimiseurs 63
VIII Dualité Dualité min-max ( 13.1) Un premier problème : (P ) 8 >< >: inf x 2 x X x 1 = 0. x 2 x X Soient X un ensemble, f : X R {+ } et (P ) inf x X f(x). Récriture du problème primal. On suppose que x 1 f(x) = sup y Y ϕ(x, y), Un second problème : x 2 X (D) sup δ(λ) λ R δ(λ) pente λ pente λ où ϕ : X Y R {± }. Donc (P ) inf x X sup y Y ϕ(x, y). (P) et (D) sont duaux l un de l autre. Intérêts de la dualité : obtenir des propriétés sur un problème à partir des propriétés d un pbl dual (e.g., une borne sur la valeur optimale); construire des pbls duaux équivalents au pbl primal, mais plus faciles à résoudre; algorithmique : recherche de point-selle, du multiplicateur optimal. x 1 Le problème dual : on inverse l inf et le sup (D) sup y Y On peut aussi l écrire sup y Y δ(y) := inf x X inf ϕ(x, y). x X δ(y), où ϕ(x, y). (13) δ est appelée la fonction duale et (13) est appelé problème de Lagrange en y Y. 64 65
Liens entre (P) et (D) Dualité faible : sup y Y inf ϕ(x, y) inf x X x X sup y Y ϕ(x, y). Saut de dualité = différence entre les deux membres. Il est 0. Dfn : On dit que ( x, ȳ) est un point-selle de ϕ sur X Y, si x X et y Y ϕ( x, y) ϕ( x, ȳ) ϕ(x, ȳ). Théor : ( x, ȳ) est un point-selle de ϕ sur X Y SSI 1) x est solution de (P ), 2) ȳ est solution de (D), 3) il n y a pas de saut de dualité. Dualisation de contraintes fonctionnelles ( 13.4) On cherche à écrire un problème dual du problème d optimisation avec contraintes : min f(x) x X (P X,EI ) c E (x) = 0 c I (x) 0. où X R n, sans qu il y ait de saut de dualité. Coroll : Si ϕ a un point-selle ( x, ȳ), alors les solutions de (P ) sont solutions du pbl de Lagrange en y = ȳ. 66 67
Dualité lagrangienne ( 13.4.1) (problèmes convexes) On considère le problème (P X,EI ). On prend pour ϕ, le lagrangien (ici y λ) Problème primal : l(x, λ) = f(x) + λ c(x). inf x X sup λ:λ I 0 l(x, λ). Résultat de dualisation : Si X = R n, (P X,EI ) est convexe (i.e., f et c I convexes et c E affine), ( x, λ) vérifie (KKT), alors ( x, λ) est point-selle de l sur R n R m +. Dualité lagrangienne augmentée ( 13.4.2) (problèmes non convexes) On considère le problème (P X,EI ). On prend pour ϕ, le lagrangien augmenté l r (x, λ) = f(x) + [λ i c i (x) + r 2 c i(x) 2] i E [ ( λi λ i max r + i I Problème primal : inf x X sup λ R m ( r max 2 Résultat de dualisation : Si X = R n, ( x, λ) vérifie les CS2, l r (x, λ). ( λi r ), c i(x) + )) ] 2, c i(x). alors il existe un voisinage V de x et un seuil r 0 > 0 tels que, pour tout r r 0, ( x, λ) est point-selle de l r sur V R m. 68 69
Algorithme d Uzawa (dans un cas particulier) On considère le problème (supposé convexe) min f(x) c(x) 0. La relaxation lagrangienne consiste à maximiser la fonction duale δ. Soit λ 1 0 donné. Pour k 1 : 1) x k solution du problème de Lagrange : inf x l(x, λ k); 2) choix d un pas α k > 0 (délicat); 3) λ k+1 = [λ k + α k c(x k )] +. Résultat de convergence : Si f fortement convexe et c convexe, ( x, λ) vérifie (KKT), α k > 0 petit, alors x k x. 70
IX Optimisation linéaire : simplexe Structure de l ensemble admissible ( 17.2.1) On considère le problème d optimisation linéaire sur R n (forme standard) min c x (P L ) Ax = b x 0, où c R n, A est m n surjective (m n), b R m. On note X := {x R n : Ax = b, x 0} l ensemble admissible. Pour x X, on note I + (x) := {i : x i > 0} I 0 (x) := {i : x i = 0}. On appelle sommet de X, un point x X tel que x 1, x 2 X, x = (1 t)x 1 + tx 2, t ]0, 1[ = x = x 1 = x 2. Théor (reconnaître un sommet) : x X est un sommet de X les colonnes {A j : x j > 0} sont LI. Un sommet x X est dit non dégénéré, si I + (x) = m (donc A I+ (x) est inversible) Théor (existence de sommet) : X = X a (au moins) un sommet. 72 73
Existence de solution ( 17.2.2) Théor (existence de solution) : (P L ) a une solution (P L ) est réalisable et borné. Théor (existence de solution-sommet) : Théor : (P L ) a une solution = (P L ) a une solution-sommet. Conditions d optimalité ( 17.2.2) (P L ) a une solution y R m, s R n : A y + s = c, s 0, Ax = b, x 0, x s = 0. Algorithme du simplexe ( 17.4) (description géométrique) Hypothèse : A est m n surjective. Phase I : trouver ˆx X, un sommet de X. On prend B I + (ˆx) avec B = m et N = B c I 0 (ˆx). Phase II : on itère de sommet en sommet. Voici une itération. Coût réduit : r := c N A N A B c B. Optimalité : si r 0, ˆx est solution (arrêt); sinon j t.q. r j < 0. Direction de déplacement d : d N = e j N et d B = A 1 B A N e j N. Si d B 0, (P L ) est non borné (arrêt). Nouveau sommet ˆx + : prendre le plus grand α 0 tel que ˆx + := ˆx + αd X (α > 0 si ˆx est non dégénéré). 74 75
Notations X Optimisation linéaire : points intérieurs La une du New York Times (19 novembre 1984) Voici comment l algorithme de Karmarkar (le premier algorithme de points intérieurs) était révélé au grand public : The discovery, which is to be formally published next month, is already circulating rapidly through the mathematics world. It has also set off a deluge of inquiries from brokerage houses, oil companies and airlines, industries with millions of dollars at stake in problems known as linear programming. Le problème et son dual inf c x (P ) Ax = b x 0, Ensembles admissibles (D) F P := {x R n : Ax = b, x 0} sup b y A y + s = c s 0. F D := {(y, s) R m+n : A y + s = c, s 0}. Intérieurs relatifs F o P := {x R n : Ax = b, x > 0} F o D := {(y, s) R m+n : A y + s = c, s > 0}. Conditions d optimalité Ax = b, x 0 A y + s = c, s 0 x s = 0. 76 77
Le chemin central ( 18.1) Conditions d optimalité perturbées par µ > 0 : Ax = b (x > 0) (KKT µ ) A y + s = c (s > 0) Xs = µ e. Existence et unicité : Si F o P, F o D et µ > 0, alors (KKT µ ) a une solution unique. Si µ = 0, il y a existence mais pas néc. unicité! Dfn : le chemin central est l ensemble des solutions de (KKT µ ) : {(x µ, y µ, s µ ) : µ > 0}. Algorithme PD de suivi de chemin (éléments constitutifs, 18.2) On suppose A surjective. Soit z = (x, y, s) l itéré courant admissible. Choix de µ := x s n. Facteur de réduction σ ]0, 1[ de µ. Direction de Newton dz = (dx, dy, ds) 0 A I dx 0 A 0 0 dy = 0. S 0 X dz σµe Xs où X = diag(x i ), S = diag(s i ), e = (1 1). (x, s) > 0 = SL inversible. Nouvel itéré z + = z + αdz. Contrôle du pas α pour que (γ 10 3 ) z + V (γ) := {z F o : Xs γµe}. 78 79
Algorithme PD de suivi de chemin (algorithme des grands déplacements, 18.3.3) Paramètres : 0 < σ min < σ max < 1 et γ ]0, 1[. Donnée : z = (x, y, s) V (γ) primal-dual admissible (i.e., Ax = b et A y + s = c). Une itération : Choix de σ ]0, 1[. Calcul de la direction de Newton dz. Choisir α [0, 1] le plus grand possible pour que z + αdz V (γ). Nouvel itéré z + := z + αdz. 80