Optimisation Différentiable Théorie et Algorithmes. J.Ch. GILBERT

Documents pareils
Optimisation Différentiable Théorie et Algorithmes. Exemple de résumé du cours. J. Ch. GILBERT

3 Approximation de solutions d équations

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

RO04/TI07 - Optimisation non-linéaire

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Programmation linéaire

Résolution d équations non linéaires

Différentiabilité ; Fonctions de plusieurs variables réelles

LES MÉTHODES DE POINT INTÉRIEUR 1

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Optimisation Discrète

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Programmation linéaire et Optimisation. Didier Smets

Amphi 3: Espaces complets - Applications linéaires continues

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Programmation Linéaire - Cours 1

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Cours d analyse numérique SMI-S4

I. Polynômes de Tchebychev

Calcul différentiel sur R n Première partie

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Chp. 4. Minimisation d une fonction d une variable

Programmation linéaire

Image d un intervalle par une fonction continue

Équations non linéaires

Cours 02 : Problème général de la programmation linéaire

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Calcul fonctionnel holomorphe dans les algèbres de Banach

Fonctions de plusieurs variables

Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Cours d Analyse 3 Fonctions de plusieurs variables

Etude de fonctions: procédure et exemple

Optimisation des fonctions de plusieurs variables

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

CCP PSI Mathématiques 1 : un corrigé

Capes Première épreuve

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Quantification Scalaire et Prédictive

Approximations variationelles des EDP Notes du Cours de M2

Chapitre 2 Le problème de l unicité des solutions

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Intégration et probabilités TD1 Espaces mesurés Corrigé

Sujet 4: Programmation stochastique propriétés de fonction de recours

Théorème du point fixe - Théorème de l inversion locale

Résolution de systèmes linéaires par des méthodes directes

Calcul différentiel. Chapitre Différentiabilité

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

3. Conditionnement P (B)

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Théorèmes du Point Fixe et Applications aux Equations Diérentielles

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Coefficients binomiaux

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Rappels sur les suites - Algorithme

M2 IAD UE MODE Notes de cours (3)

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

MESURE ET INTÉGRATION EN UNE DIMENSION. Notes de cours

Cours Fonctions de deux variables

Limites finies en un point

Chapitre 2/ La fonction de consommation et la fonction d épargne

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Fonctions de deux variables. Mai 2011

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Continuité d une fonction de plusieurs variables

Chapitre 5 : Flot maximal dans un graphe

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Algorithmes pour la planification de mouvements en robotique non-holonome

Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Calcul Différentiel. I Fonctions différentiables 3

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

Équations non linéaires

Continuité et dérivabilité d une fonction

Continuité en un point

Table des matières. Introduction Générale 5

OM 1 Outils mathématiques : fonction de plusieurs variables

C1 : Fonctions de plusieurs variables

Groupoïdes quantiques mesurés : axiomatique, étude, dualité, exemples

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Fonctions de plusieurs variables et changements de variables

Master de Recherche première année. Programme de cours

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Correction de l examen de la première session

ENSAE - DAKAR BROCHURE D'INFORMATION SUR LE CONCOURS DE RECRUTEMENT D ÉLÈVES INGÉNIEURS STATISTICIENS ÉCONOMISTES (I S E) Option Mathématiques CAPESA

Introduction à la. Points Critiques. Otared Kavian. et Applications aux Problèmes Elliptiques. Springer-Verlag

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Polynômes à plusieurs variables. Résultant

Fonctions de plusieurs variables et applications pour l ingénieur

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Transcription:

Optimisation Différentiable Théorie et Algorithmes J.Ch. GILBERT Résumé du cours

Informations pratiques Plan du cours Objectif du cours : l optimisation aspects théor. : convexité, CO, dualité,... aspects pratiques : algorithmes. Organisation : 14 séances, dont 2 pour l examen. cours magistral : 1h15++, TD + TP : 7+5 séances d 1h45--, TP : projet d optimisation (Matlab/Scilab), travail personnel. Supports de cours syllabus : ne pas voir les sections étoilées, transparents : points importants du cours, exercices : en TD, dans le syllabus. Contrôle des connaissances Séance 13 : exposés des projets de TP. Séance 14 : résolution de problèmes (3h). 1. Rappels, différentiabilité, convexité 2. Conditions d optimalité I : égalités 3. Conditions d optimalité II : inégalités 4. Méthodes de descente : RL et RC 5. Méthodes newtoniennes : N et qn 6. Pénalisation 7. Dualité 8. Conjugaison 9. Sous-différentiabilité 10. Programmation quadratique successive (SQP) 11. Optimisation linéaire I : simplexe 12. Optimisation linéaire II : points intérieurs 2 3

I Rappels Unicité de solution ( 3.1) Existence de solution ( 1.2) Le problème à résoudre (f : X R {+ }) : min f(x) (P X ) x X. On dit que f est fermée si (epi f) est fermé. Si f est fermée sur X, X est compact et non vide, alors (P X ) a (au moins) une solution. En dimension finie (c est notre cas) : X compact X fermé borné. On peut remplacer l hypothèse Soient X un convexe de R n et f : X R. Définitions : f est convexe sur X si pour tout x, y X, x y, et t ]0, 1[ : f((1 t)x + ty) (1 t)f(x) + tf(y). f est strictement convexe si on a inégalité stricte ci-dessus. Le problème à résoudre : min f(x) (P X ) x X. par X compact X fermé et lim f(x) = +. x X x Si X est convexe, f est strictement convexe sur X, alors (P X ) a au plus une solution. 4 5

Différentiabilité première ( C.1, C.2, C.3) Soient E et F deux espaces normés, Ω un ouvert de E et f : Ω F. 1. Différentiabilité directionnelle suivant h E : f 1 ( ) (x; h) := lim f(x + th) f(x) existe. t 0+ t 2. Différentiabilité au sens de Gâteaux : f (x; h) existe pour tout h E et h f (x; h) est linéaire (continue). On note f (x) l application linéaire (continue). 3. Différentiabilité au sens de Fréchet : il existe L : E F, linéaire (continue) : f(x + h) = f(x) + Lh + o( h ). On note f (x) := L (même opérateur qu en 2). Soit, un produit scalaire sur E et F = R. On définit le gradient de f en x comme l unique vecteur f(x) E: f(x), h = f (x) h, h E. Différentiabilité seconde ( C.4) Supposons que f : Ω F soit 2 fois différentiable (pour une définition rigoureuse, voir le syllabus). Propriétés : f (x) (h, k) est la dérivée directionnelle de x f (x) h dans la direction k: f 1 (x) (h, k) = lim t 0+ t (f (x + tk) h f (x) h) l application (h, k) f (x) (h, k) est bilinéaire symétrique. Soit, un produit scalaire sur E et F = R. On définit le hessien de f en x comme l unique opérateur linéaire symétrique 2 f(x) sur E tel que 2 f(x)h, k = f (x) (h, k), (h, k) E 2. 6 7

II Analyse convexe Polyèdre convexe ( 2.4) Dfn. Soient x, y E. Un segment de E : [x, y] := {(1 t)x + ty : t [0, 1]}. Dfn. Un ensemble C E est convexe si x, y C = [x, y] C. Soit E un espace vectoriel (E = R n parfois). Dfn. Description primale d un polyèdre conv. : P := conv{x 1,..., x p } + cone{y 1,..., y q }. Description duale d un polyèdre convexe : P := {x R n : Ax b}. y x convexe convexe x y non convexe x y non convexe Dfn : ˆx est un sommet de P si x 1, x 2 P, ˆx = x 1 + x 2 2 = ˆx = x 1 = x 2. L ensemble des sommets est noté ext P. Prop. Soit P := {x : Ax = b, x 0}, ˆx P. 1) ˆx ext P A B est injective, où B = {i : x i > 0} et A B formée des colonnes i B de A. 2) P a au moins un sommet et au plus 2 n. 8 9

Projection sur un convexe fermé ( 2.5.2) Séparation des convexes ( 2.5.3) E muni d un produit scalaire, = 2. Si C E convexe fermé non vide et x E, alors le problème min { y x : y C} (1) a une unique solution. Dfn : l unique solution de (1) est appelée la projection de x sur C et est notée P C x. Prop : Soit x C. Alors a x = P C x y C, y x, x x 0 y C, y x, y x 0 = y C, y x, x x 0. a La réciproque de la dernière implication est fausse. E muni d un produit scalaire,. Dfn : On peut séparer C 1, C 2 E s il existe ξ E non nul tel que sup x 1 C 1 ξ, x 1 inf x 2 C 2 ξ, x 2. La séparation est stricte si l inégalité ci-dessus est stricte. Théor (Hahn-Banach) : Si C 1 et C 2 convexes, non vides, disjoints, dim E <, alors on peut séparer C 1 et C 2. Si C 1 et C 2 convexes, non vides, disjoints, C 1 ou C 2 est d intérieur non vide, alors on peut séparer C 1 et C 2. Si C 1 et C 2 convexes, non vides, disjoints, l un est fermé, l autre est compact, alors on peut séparer C 1 et C 2 strictement. 10 11

Enveloppe convexe fermée ( 2.5.4) Cône dual ( 2.5.6) Soient E un e.v. avec, et P E. Dfn. L enveloppe convexe de P, conv P, est le plus petit convexe contenant P. P fermé conv P fermé. Dfn. L enveloppe convexe fermée de P, conv P, est le plus petit convexe fermé contenant P. Dfn. Un demi-espace fermé de E : H (ξ, α) := {x E : ξ, x α}, où ξ E est non nul et α R. Prop. conv P est l intersection de tous les demiespaces fermés contenant P. E muni d un produit scalaire,. Dfn : Le cône dual de P E est défini par P := {x E : x, y 0, y P }. C est un cône, convexe, fermé, non vide. Lemme : Soit A une matrice. Alors {Ax : x 0} est un cône, convexe, fermé, non vide. Lemme (Farkas) : Soit A une matrice. Alors {x : Ax 0} = {A y : y 0}. ( ) = dual pour le produit scalaire euclidien. [c est une généralisation de N(A) = R(A )] 12 13

Caractérisations de la convexité d une fonction à partir de ses dérivées ( 3.3.3) Enveloppe supérieure ( 3.2.4) Soient X un convexe de R n et f : X R. Si f est 1 fois dérivable et X ouvert Enveloppe supérieure d une famille de f i : E R, i I (quelconque) : ( ) sup f i (x) := sup f i (x). i I i I epi (sup i I f i ) = i I (epi f i). f i convexes = sup i I f i convexe. f i fermées = sup i I f i fermée. Les propriétés suivantes sont équivalentes : f est convexe sur X [resp. strictement convexe], x, y X, x y : f(y) f(x) + f (x) (y x) [resp. >], x, y X, x y : (f (y) f (x)) (y x) 0 [resp. >]. 14 15

Fonction conjuguée ( 3.4) Soient E un espace vectoriel, muni de, et f : E R {+ } propre avec minorante affine. Si f est 2 fois dérivable et X ouvert : f est convexe sur X x X, h R n, f (x) h 2 0, f est strictement convexe sur X = x X, h R n non nul, f (x) h 2 > 0. Contre-exemple: f(x) = x 4. Dfn. Conjuguée f : E R {+ } de f : ( ) f (x ) := sup x E x, x f(x). Biconjuguée f : E R {+ } de f : ( ) f (x) := sup x E x, x f (x ). Prop. 1) f Conv(E) et f Conv(E). 2) f est l enveloppe supérieure des minorantes affines de f. 3) f f. 4) f = f f Conv(E). 16 17

Interprétation de f (x ) et f R f Sous-différentiel des fonctions convexes ( 3.5) f (x ) pente x E un e.v. muni de,. Différentiabilité directionnelle 0 x f Conv(E), x dom f et d E. R f f 1) t ]0, + [ f(x+td) f(x) t est croissante; 2) f (x; d) existe dans R; 3) f (x; ) est convexe; 4) f bornée dans un voisinage de x = f (x; ) Lipschitz, f (x; ) Conv(E). 0 x 18 19

Sous-différentiel Dfn. Le sous-différentiel f(x) de f en x dom f est l ensemble des x E vérifiant les propriétés équivalentes : (S 1 ) d E : f (x; d) x, d, (S 2 ) y E : f(y) f(x) + x, y x, (S 3 ) f(x) + f (x ) = x, x. Prop. 1) ˆx arg min f 0 f(ˆx). 2) f(x) est un convexe fermé. 3) f continue en x = f(x) compact non vide, f (x; d) = max x f(x) x, d. 5) f G-diff. en x f(x) = { f(x)}. Calcul. Si f 1,..., f m : E R convexes et α i 0 ( m ) m α i f i (x) = α i f i (x). i=1 i=1 2.5 2 1.5 1 0.5 0 Exemple 1D 0.5 1 0 1 2 4 3 2 1 0 1 2 1 0 1 2 Figure 1: f(x) = max(x, x 2 ) et f(x) (en bas) 20 21

Exemple 2D x 1 + f(x 1 ) frag replacements x 1 x 2 x 3 x3 + f(x 3 ) x 2 + f(x 2 ) Figure 2: f = sup(q 1, q 2, q 3 ) et f 22

III Conditions d optimalité (CO) Le problème à résoudre : min f(x) (P X ) x X. Ce sont des = et décrivant les solutions de (P X ). Utilité des CO : Donner des renseignements sur (P X ) (calculer la solution analytiquement?). Vérifier qu un point est solution. Définir des algorithmes de résolution. Conditions nécessaires (CN) et conditions suffisantes (CS). Conditions du 1 er ordre (CN1, CS1) et du 2 ième ordre (CN2, CS2). CO sans contrainte (rappel, 4.2) Le problème à résoudre : min f(x) x R n. CN1 : f(x ) = 0. (Si f est convexe, c est une CS1 globale.) CN2 : f(x ) = 0 2 f(x ) est semi-dfn. pos. CS2 pour un minimum local strict : f(x ) = 0 2 f(x ) est dfn. pos. 24 25

CN1 générale ( 4.1) Le problème à résoudre : (P X ) Dfn : Cône tangent. min f(x) x X. CN1. On exprime le fait que f croît si on se déplace vers l intérieur de X : f (x ) d 0, d T x X, (2) où T x X est le cône tangent à X en x. X 1 x 1 T x1 X 1 x 2 X 2 CN1. Lorsque X est convexe, la relation (2) se simplifie en : f (x ) (x x ) 0, x X. N x2 X 2 (Si f est convexe, c est une CS1 globale.) 0 0 T x2 X 2 N x1 X 1 26 27

CO avec contraintes d = ( 4.3) Le problème à résoudre : min f(x) (P E ) c(x) = 0 R m. Le lagrangien du problème : l(x, λ) = f(x) + λ c(x). CN1 : si A := c (x ) est surjective, il existe λ R m, unique, tel que x l(x, λ ) = 0 (3) c(x ) = 0. (Si c affine, λ existe, pas néc. unique.) (Si f est convexe et c est affine, ce sont des CS1 globales.) CN2 : si A := c (x ) est surjective, on a x l(x, λ ) = 0 c(x ) = 0 2 xxl(x, λ ) est semi-dfn. pos. sur N(A ). CS2 pour un minimum local strict : x l(x, λ ) = 0 c(x ) = 0 2 xxl(x, λ ) est dfn. pos. sur N(A ). La première condition de (3) s écrit aussi : m f(x ) + (λ ) i c i (x ) = 0. i=1 28 29

CO avec contraintes d = et d ( 4.4) Le problème à résoudre : 8 >< min f(x) (P EI ) c E (x) = 0 R m E >: c I (x) 0 R m I. Le lagrangien du problème (c := (c E, c I )) : l(x, λ) = f(x) + λ c(x). On note I 0 (x) := {i I : c i (x) = 0}. CN1 : si les contraintes sont qualifiées en x, il existe λ R m tel que 8 x l(x, λ ) = 0 (KKT) >< >: c E (x ) = 0 c I (x ) 0 (λ ) I 0 (λ ) I c I (x ) = 0. (Si f et c I sont convexes et c E est affine, ce sont des CS1 globales.) Qualification des contraintes ( 4.4.2) Dfn : on dit que les contraintes de (P EI ) sont qualifiées en x si où T x X = T xx, (4) T xx := {d : c E(x) d = 0, c I 0 (x)(x) d 0}. On a toujours : T x X T xx. Conditions suffisantes de qualification des contraintes. Régularité + l une des conditions suivantes : (QC-A) c E I 0 (x) est affine dans un voisinage de x. (QC-S) c E est affine avec c E surjective, les composantes de c I 0 (x) sont convexes, ˆx X tel que c I 0 (x)(ˆx) < 0. (QC-IL) les gradients { c i (x)} i E I 0 (x) sont linéairement indépendants. (QC-MF) P i E I 0 (x) α i c i (x) = 0 et α I 0 (x) 0 = α E I 0 (x) = 0. 30 31

Démarche suivie pour obtenir (KKT) On part de (2) [i.e., f croît de x vers l intérieur de X]. On suppose que les contraintes sont qualifiées en x (on a (4) avec x = x ). Dès lors Lemme de Farkas : f(x ) ( T x X ). (5) {d : Ad 0} = {A λ : λ 0}. C est une généralisation de N(A) = R(A ). Le lemme de Farkas permet d exprimer (5) autrement : λ R m tel que l on ait (KKT). Signification des multiplicateurs optimaux ( 4.6.1) Problème perturbé : pour p R m, on définit min f(x) (P p EI ) c E (x) + p E = 0 c I (x) + p I 0. Dfn. La fonction valeur associée à (P p EI ) est v : p R m R définie par v(p) = inf x X p f(x), où X p est l ensemble admissible de (P p EI ). (P EI ) convexe = v convexe. Cas différentiable régulier. Si (x, λ ) solution PD de (P EI ), ( x(p), λ(p)) solution PD de (P p EI ), p x(p) différentiable en 0, x(0) = x, p λ(p) continue en 0, λ(0) = λ, alors λ = v(0) = (f x)(0). 32 33

Dfn. (x, λ ) est une solution primale-duale globale si x arg min l(, λ ) c E (x ) = 0, c I (x ) 0 (λ ) I 0, (λ ) I c I(x ) = 0. Cas convexe non différentiable. Si x est solution de (P EI ), v est convexe, v(0), alors v(0) = {λ : (x, λ ) solution PD globale}. Remarque : Ci-dessus, v(0) peut être vide! Avec qualification de Slater : v(0). CN et CS d existence de solution PD globale. CN d optimalité (cas convexe non diff.). Si (P EI ) convexe (avec f et c finies), (Slater) : c E surjective, ˆx X t.q. c I(ˆx) < 0 x solution de (P EI ), alors 1) v est loc. lipschitzienne dans un vois. de 0 2) v(0). CS d optimalité globale. Peu de chance d être applicable si (P EI ) non convexe. Si (x, λ ) solution PD globale, alors x solution de (P EI ). 34 35

IV Méthodes à directions de descente Schéma des algorithmes ( 6.1) Exemples d algorithmes à DD ( 6.2) On note g k := f(x k ). Algorithme du gradient. Dfn : d est une direction de descente de f en x si f (x) d < 0. = f décroît en x le long de d. Algorithme à directions de descente : il génère une suite {x k } comme suit Calcul d une direction de descente d k ; Recherche linéaire : on détermine un pas α k > 0 le long de d k ; Nouvel itéré : x k+1 := x k + α k d k. d k x k+1 x k+2 d k+1 d k = g k. Algorithme du gradient conjugué. g 1 si k = 1 d k = g k + β k d k 1 si k 2. Algorithme de Newton. d k = 2 f(x k ) 1 g k. Algorithme de quasi-newton. d k = M 1 k g k. Algorithme de Gauss-Newton pour f(x) = 1 2 r(x) 2 2, J(x) := r (x). d k = ( J(x k ) J(x k ) ) 1 J(xk ) r(x k ). x k d k+2 Pour une comparaison de ces algorithmes, voir page??. 36 37

La recherche linéaire ( 6.3) Deux techniques souvent utilisées : RL d Armijo et RL de Wolfe. Soient d k une direction de descente et h k (α) := f(x k + αd k ). RL de Wolfe (0 < ω 1 < 1 2, ω 1 < ω 2 < 1) h k (α k ) h(0) + ω 1 α k h k (0), h k (α k) ω 2 h k (0). RL d Armijo (0 < ω 1 < 1 2, 0 < τ < 1) pas de Wolfe h k (α) 0 h k (α k ) h(0) + ω 1 α k h k(0), α k = τ i k, où i k est le plus petit dans {0, 1, 2,...}. pas d Armijo τ 4 τ 3 τ 2 τ h k (α) 1 α 0 pente h k (0) α pente ω 1 h k ( pente h k (0) pente ω 1 h k (0) pente ω 2 h k (0) Valeurs typiques : ω 1 = 10 4 et ω 2 = 0.99. Valeurs typiques : ω 1 = 10 4 et τ = 1 2. 38 39

IV Méthodes à régions de confiance Principe de l algorithme ( 8.1.1) Le problème : min x R n f(x). Modèle quadratique de f autour d un itéré x k : f(x k + s) f(x k ) + ψ(s), où ψ k (s) := g k s + 1 2 s M k s. Région de confiance : région dans laquelle ce modèle est considéré comme bon. Le plus souvent B(0, k ) := {s R n : s k }. k > 0 est le rayon de confiance du modèle. Schéma d un algorithme à RC : il génère une suite {x k } par 1. Déplacement : s k arg min s k ψ k (s); 2. Appréciation du déplacement : si la concordance ρ k := f(x k + s k ) f(x k ) ; ψ(s k ) n est pas bonne (ρ k ω 1 ), diminuer k et retour en 1. 3. Nouvel itéré : x k+1 = x k + s k. 4. Nouveau modèle : nouveau rayon de confiance [τ 2 k, k ] si ρ k ω 2 k+1 [ k, τ 3 k ] sinon. calculer g k+1 := f(x k+1 ), M k+1. 40 41

Itérés générés par RC dans le contre-exemple de Powell Résolution du problème quadratique ( 8.3.1, 8.4) 2 1.5 1 Parameter space x 1 Le problème : min g s + 1 2 s Ms s. 0.5 0 0.5 1 x * CNS d optimalité : ˆλ R tel que (M + ˆλI)ŝ = g ŝ, ˆλ 0 ˆλ( ŝ ) = 0 (M + ˆλI) est semi-définie positive. d N 1 1.5 2 0 0.5 1 1.5 2 2.5 3 3.5 4 Figure 3: RC dans le contre-exemple de Powell d C 1 Résolution approchée : algorithme dogleg de Powell algorithme du GC tronqué. Résolution fine : algorithme de Moré-Sorensen. 42 43

V Méthodes newtoniennes pour équations χ k = nombre de chiffres significatifs corrects. Vitesse de convergence des suites ( 5.1.1) Soit {x k } une suite convergeant vers x R n. On suppose que x k x, pour tout k 1. Convergence linéaire : il existe une norme, un indice k 0 et r [0, 1[ tels que x k+1 x x k x r, k k 0. Convergence superlinéaire : x k+1 x x k x 0. Convergence quadratique : il existe une constante C > 0 telle que x k+1 x C, k 1. x k x 2 superlinéaire quadratique k x k χ k x k χ k 1 2.00000000000000 0 2.00000000000000 0 2 1.50000000000000 0 0.86666666666667 1 3 0.61224489795918 1-0.32323745064862 1 4-0.16202797536640 1-0.92578663808031 1 5-0.92209500449059 1-0.82332584261905 2 6-0.78540447895661 1-0.81774699537697 5 7-0.81609056319699 3-0.81773167400186 9 8-0.81775774021392 5-0.81773167388682 15 9-0.81773165292101 8 10-0.81773167388656 13 11-0.81773167388682 15 Linéaire = 8 < χ > 0, k grand : : χ k+1 χ k χ. Superlinéaire = χ k+1 χ k. χ k+1 Quadratique = lim inf 2. k χ k 44 45

Algorithme de Newton pour systèmes non linéaires ( 9.1.1 Soit F : R n R n. On cherche à résoudre en x : F (x) = 0. Algorithme de Newton. De x k à x k+1 : Résoudre en d k l équation de Newton : F (x k ) d k = F (x k ). (6) Nouvel itéré : x k+1 = x k + d k. Exemple 1D. Propriétés de l algorithme de Newton. Convergence quadratique locale : Si x vérifie F (x ) = 0, F est C 1,1 dans un voisinage de x, F (x ) est inversible, alors il existe un voisinage V de x tel que si x 1 V, l algorithme de Newton (6) est bien défin et génère une suite {x k } V qui converg quadratiquement vers x. 6 5 4 1+x+x 3 /3 En général ne converge pas si x 1 n est pas proche d une solution. 3 2 Il faut calculer les dérivées premières de F. 1 0 x 4 x 3 x 2 x 1 1 1.5 1 0.5 0 0.5 1 1.5 2 2.5 46 47

Globalisation de l algorithme de Newton par recherche linéaire ( 9.2) Dfn : globaliser = forcer la convergence lorsque x 1 n est pas voisin d une solution. Une solution miracle? Si F (x) 0, la direction de Newton en x, d N = F (x) 1 F (x), est une direction de descente de f(x) = 1 2 F (x) 2 2. Un résultat de convergence : Si {F (x k )} et {F (x k ) 1 } sont bornées, alors l algorithme de Newton avec une RL convenable converge vers un point stationnaire de f : f(x k ) 0. Cette approche ne converge pas toujours...! On a f (x) d N = F (x) 2 2 < 0. RL sur f le long de d N : x + := x + αd N, avec α > 0 tel que (ici ω 1 ]0, 1 2 [) f(x + ) f(x) + α ω 1 f (x) d N. 48 49

Globalisation de l algorithme de Newton par régions de confiance ( 9.4) Principes : 1. On ne s intéresse plus qu aux points stationnaires de f(x) = 1 2 F (x) 2 2. Remarque : la RL n est pas toujours capable d en trouver. 2. On prend comme modèle quadratique de f en x k : ϕ k (s) := 1 2 F (x k) + F (x k )s 2 2. (7) Résultat de convergence : Si {F (x k )} est bornée, alors l algorithme de Newton avec RC converge vers un point stationnaire de f : f(x k ) 0. Remarque : on n a plus besoin d hypothèse sur F (x) 1! Avantage : minimiseur s k est défini même si F (x k ) n est pas inversible (c est l origine de l affaiblissement des hypothèses). 3. On minimise ϕ k sur une région de confiance : 8 < min s ϕ k (s) (8) : s 2 k. 50 51

V Méthodes newtoniennes en optimisation ( 9.1.2) Soit le problème min f(x). x R n On se déclare satisfait avec x vérifiant f(x ) = 0. La relation F = f permet d adapter l algorithme de Newton (F (x) = 2 f(x) est symétrique). Le problème quadratique tangent. Le pas de Newton d k est aussi un point stationnaire du problème quadratique ( f(x k ) + f(x k ) d + 1 2 d 2 f(x k )d min d R n f=1+x+x 2 /2+x 4 /12 ). Algorithme de Newton. De x k à x k+1 : Résoudre en d k l équation de Newton : 2 f(x k ) d k = f(x k ). (9) Nouvel itéré : x 4 x 3 x 2 x 1 x k+1 = x k + d k. 52 53

Propriétés de l algorithme de Newton. Convergence quadratique locale : Si x vérifie f(x ) = 0, f est C 2,1 dans un voisinage de x, 2 f(x ) est inversible, alors il existe un voisinage V de x tel que si x 1 V, l algorithme de Newton est bien défini et génère une suite {x k } V qui converge quadratiquement vers x. En général ne converge pas si x 1 n est pas proche d un point stationnaire. Pas de distinction entre min, max, point stationnaire. Les directions ne sont pas nécessairement de descente. Il faut calculer les dérivées secondes de f. Soit le problème Algorithmes de quasi-newton min f(x). x R n Les algorithmes de qn génèrent 2 suites : {x k } R n et {M k } R n n sym. dfn. pos. 1) d k := M 1 k g k; 2) α k > 0 par recherche linéaire; 3) x k+1 := x k + α k d k ; 4) M k+1 := U(M k, y k, s k ), où y k := g k+1 g k et s k := x k+1 x k. Mise à jour de M k. On cherche à ce que M k+1 soit proche de M k (stabilité), tout en vérifiant : l équation de qn : y k = M k+1 s k ; la symétrie : M k+1 = M k+1; la définie positivité : M k+1 dfn. pos. Cela conduit à la formule de BFGS. M k+1 = M k + y ky k y k s k M ks k s k M k s k M ks k. 54 55

Moindres-carrés linéaires ( 16.1) VI Problèmes de moindres-carrés Problème : on cherche une solution de Ce sont des problèmes de la forme min F (x), x Rn où F : R n R m. En général m n. Exemple : la régression linéaire. 3 2.5 2 1.5 où A est m n et b R m. Équation normale : Existence de solution : min x R n Ax b 2, (10) A Ax = A b. (11) Le problème (10) a toujours une solution. Solution unique A est injective. Ensemble des solutions = x p + N(A). 1 Méthodes numériques : 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Factorisation de Choleski de A A. GC sur (11). Factorisation QR de A. Factorisation SVD de A. 56 57

Moindres-carrés non linéaires ( 16.2) Problème : on cherche une solution de ( min f(x) := 1 ) x R n 2 r(x) 2 2, (12) où r : R n R m est non linéaire (les résidus). Jacobienne J J(x) r (x), qui est m n. Algorithme de Gauss-Newton : RL le long de d GN k 1 arg min d R n 2 r(x k) + J(x k )d 2 2. On a f (x k ) d GN k 0 (< 0 si f(x k) 0). Résultat de convergence : Si {J(x k )} est bornée et unif. injective, i.e., Algorithme de Levenberg-Marquardt (révisé) : RC avec le modèle quadratique ϕ k (s) := 1 2 r(x k) + J(x k )s 2 2. Résultat de convergence : Si {J(x k )} est bornée, alors l algorithme de Levenberg-Marquardt avec RC converge vers un point stationnaire de f (c est-à-dire J(x k ) r(x k ) 0). C > 0, k 1, v R n : C v 2 J(x k )v 2 C 1 v 2, alors l algorithme de Gauss-Newton avec RL converge vers un point stationnaire de f (c est-à-dire J(x k ) r(x k ) 0). 58 59

VII Pénalisation Pénalisation l 2 en 1D À quoi ça sert? En optimisation avec contraintes : pour la théorie: obtenir des propriétés à partir de problèmes approchés sans contrainte, pour l algorithmique: résoudre un problème avec contraintes sans trop en faire. Exemple. On veut résoudre min f(x) (P ) c(x) 0. On approche ce problème par (r > 0) (P r ) min f(x) + r 2 c(x)+ 2 2, PSfrag replacements 6 5 4 3 2 1 0 r = 3 r = 2 r = 1.5 r = 1.2 r = 1 r = 5 1 2.5 2 1.5 1 0.5 0 0.5 1 1.5 x r Figure 4: Pénalisation quadratique x f(x) = 1 + x + 1 3 x3 que l on résout par un algorithme de descente, pour une suite de r. 60 61

P enalisation ext erieure ( 12.2). Plus g en eralement, on approche (PX ) 8 < min f (x) : x X par une suite de probl`emes sans contrainte (Pr ) min f (x) + rπ(x), o`u la fonction π v erifie (Hπ ) 8 n > > < π est continue sur R π(x) 0, x Rn > > : π(x) = 0 x X. R esultat d approximation. Si f continue et f (x) + lorsque kxk, X est ferm e et non vide, π : Rn R v erifie (Hπ ), r, alors 1) r > 0, (Pr ) a au moins 1 solution x 2) { xr }r est born ee, 3) tout point d adh erence de la suite { xr }r est solution de (PX ). 62 et de l approche par p enalisation Facile a` mettre en œuvre (avec algo. sans contrainte). Suite de probl`emes non lin eaires (bon r inconnu, premier r tr`es grand ne convient pas). Le mauvais conditionnement augmente avec r (i.e., les courbes de niveau s allongent). r=0 1 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0 0.2 0.4 0.6 0.8 0 1 r=10 1 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0.2 0.4 0 0.2 0.6 0.8 0 1 0.4 0.6 0.8 1 0.8 1 r=100 1 0.8 0 r=1 1 0 0.2 0.4 0.6 Figure 5: Chemin des minimiseurs 63

VIII Dualité Dualité min-max ( 13.1) Un premier problème : (P ) 8 >< >: inf x 2 x X x 1 = 0. x 2 x X Soient X un ensemble, f : X R {+ } et (P ) inf x X f(x). Récriture du problème primal. On suppose que x 1 f(x) = sup y Y ϕ(x, y), Un second problème : x 2 X (D) sup δ(λ) λ R δ(λ) pente λ pente λ où ϕ : X Y R {± }. Donc (P ) inf x X sup y Y ϕ(x, y). (P) et (D) sont duaux l un de l autre. Intérêts de la dualité : obtenir des propriétés sur un problème à partir des propriétés d un pbl dual (e.g., une borne sur la valeur optimale); construire des pbls duaux équivalents au pbl primal, mais plus faciles à résoudre; algorithmique : recherche de point-selle, du multiplicateur optimal. x 1 Le problème dual : on inverse l inf et le sup (D) sup y Y On peut aussi l écrire sup y Y δ(y) := inf x X inf ϕ(x, y). x X δ(y), où ϕ(x, y). (13) δ est appelée la fonction duale et (13) est appelé problème de Lagrange en y Y. 64 65

Liens entre (P) et (D) Dualité faible : sup y Y inf ϕ(x, y) inf x X x X sup y Y ϕ(x, y). Saut de dualité = différence entre les deux membres. Il est 0. Dfn : On dit que ( x, ȳ) est un point-selle de ϕ sur X Y, si x X et y Y ϕ( x, y) ϕ( x, ȳ) ϕ(x, ȳ). Théor : ( x, ȳ) est un point-selle de ϕ sur X Y SSI 1) x est solution de (P ), 2) ȳ est solution de (D), 3) il n y a pas de saut de dualité. Dualisation de contraintes fonctionnelles ( 13.4) On cherche à écrire un problème dual du problème d optimisation avec contraintes : min f(x) x X (P X,EI ) c E (x) = 0 c I (x) 0. où X R n, sans qu il y ait de saut de dualité. Coroll : Si ϕ a un point-selle ( x, ȳ), alors les solutions de (P ) sont solutions du pbl de Lagrange en y = ȳ. 66 67

Dualité lagrangienne ( 13.4.1) (problèmes convexes) On considère le problème (P X,EI ). On prend pour ϕ, le lagrangien (ici y λ) Problème primal : l(x, λ) = f(x) + λ c(x). inf x X sup λ:λ I 0 l(x, λ). Résultat de dualisation : Si X = R n, (P X,EI ) est convexe (i.e., f et c I convexes et c E affine), ( x, λ) vérifie (KKT), alors ( x, λ) est point-selle de l sur R n R m +. Dualité lagrangienne augmentée ( 13.4.2) (problèmes non convexes) On considère le problème (P X,EI ). On prend pour ϕ, le lagrangien augmenté l r (x, λ) = f(x) + [λ i c i (x) + r 2 c i(x) 2] i E [ ( λi λ i max r + i I Problème primal : inf x X sup λ R m ( r max 2 Résultat de dualisation : Si X = R n, ( x, λ) vérifie les CS2, l r (x, λ). ( λi r ), c i(x) + )) ] 2, c i(x). alors il existe un voisinage V de x et un seuil r 0 > 0 tels que, pour tout r r 0, ( x, λ) est point-selle de l r sur V R m. 68 69

Algorithme d Uzawa (dans un cas particulier) On considère le problème (supposé convexe) min f(x) c(x) 0. La relaxation lagrangienne consiste à maximiser la fonction duale δ. Soit λ 1 0 donné. Pour k 1 : 1) x k solution du problème de Lagrange : inf x l(x, λ k); 2) choix d un pas α k > 0 (délicat); 3) λ k+1 = [λ k + α k c(x k )] +. Résultat de convergence : Si f fortement convexe et c convexe, ( x, λ) vérifie (KKT), α k > 0 petit, alors x k x. 70

IX Optimisation linéaire : simplexe Structure de l ensemble admissible ( 17.2.1) On considère le problème d optimisation linéaire sur R n (forme standard) min c x (P L ) Ax = b x 0, où c R n, A est m n surjective (m n), b R m. On note X := {x R n : Ax = b, x 0} l ensemble admissible. Pour x X, on note I + (x) := {i : x i > 0} I 0 (x) := {i : x i = 0}. On appelle sommet de X, un point x X tel que x 1, x 2 X, x = (1 t)x 1 + tx 2, t ]0, 1[ = x = x 1 = x 2. Théor (reconnaître un sommet) : x X est un sommet de X les colonnes {A j : x j > 0} sont LI. Un sommet x X est dit non dégénéré, si I + (x) = m (donc A I+ (x) est inversible) Théor (existence de sommet) : X = X a (au moins) un sommet. 72 73

Existence de solution ( 17.2.2) Théor (existence de solution) : (P L ) a une solution (P L ) est réalisable et borné. Théor (existence de solution-sommet) : Théor : (P L ) a une solution = (P L ) a une solution-sommet. Conditions d optimalité ( 17.2.2) (P L ) a une solution y R m, s R n : A y + s = c, s 0, Ax = b, x 0, x s = 0. Algorithme du simplexe ( 17.4) (description géométrique) Hypothèse : A est m n surjective. Phase I : trouver ˆx X, un sommet de X. On prend B I + (ˆx) avec B = m et N = B c I 0 (ˆx). Phase II : on itère de sommet en sommet. Voici une itération. Coût réduit : r := c N A N A B c B. Optimalité : si r 0, ˆx est solution (arrêt); sinon j t.q. r j < 0. Direction de déplacement d : d N = e j N et d B = A 1 B A N e j N. Si d B 0, (P L ) est non borné (arrêt). Nouveau sommet ˆx + : prendre le plus grand α 0 tel que ˆx + := ˆx + αd X (α > 0 si ˆx est non dégénéré). 74 75

Notations X Optimisation linéaire : points intérieurs La une du New York Times (19 novembre 1984) Voici comment l algorithme de Karmarkar (le premier algorithme de points intérieurs) était révélé au grand public : The discovery, which is to be formally published next month, is already circulating rapidly through the mathematics world. It has also set off a deluge of inquiries from brokerage houses, oil companies and airlines, industries with millions of dollars at stake in problems known as linear programming. Le problème et son dual inf c x (P ) Ax = b x 0, Ensembles admissibles (D) F P := {x R n : Ax = b, x 0} sup b y A y + s = c s 0. F D := {(y, s) R m+n : A y + s = c, s 0}. Intérieurs relatifs F o P := {x R n : Ax = b, x > 0} F o D := {(y, s) R m+n : A y + s = c, s > 0}. Conditions d optimalité Ax = b, x 0 A y + s = c, s 0 x s = 0. 76 77

Le chemin central ( 18.1) Conditions d optimalité perturbées par µ > 0 : Ax = b (x > 0) (KKT µ ) A y + s = c (s > 0) Xs = µ e. Existence et unicité : Si F o P, F o D et µ > 0, alors (KKT µ ) a une solution unique. Si µ = 0, il y a existence mais pas néc. unicité! Dfn : le chemin central est l ensemble des solutions de (KKT µ ) : {(x µ, y µ, s µ ) : µ > 0}. Algorithme PD de suivi de chemin (éléments constitutifs, 18.2) On suppose A surjective. Soit z = (x, y, s) l itéré courant admissible. Choix de µ := x s n. Facteur de réduction σ ]0, 1[ de µ. Direction de Newton dz = (dx, dy, ds) 0 A I dx 0 A 0 0 dy = 0. S 0 X dz σµe Xs où X = diag(x i ), S = diag(s i ), e = (1 1). (x, s) > 0 = SL inversible. Nouvel itéré z + = z + αdz. Contrôle du pas α pour que (γ 10 3 ) z + V (γ) := {z F o : Xs γµe}. 78 79

Algorithme PD de suivi de chemin (algorithme des grands déplacements, 18.3.3) Paramètres : 0 < σ min < σ max < 1 et γ ]0, 1[. Donnée : z = (x, y, s) V (γ) primal-dual admissible (i.e., Ax = b et A y + s = c). Une itération : Choix de σ ]0, 1[. Calcul de la direction de Newton dz. Choisir α [0, 1] le plus grand possible pour que z + αdz V (γ). Nouvel itéré z + := z + αdz. 80