Optimisation Différentiable Théorie et Algorithmes. Exemple de résumé du cours. J. Ch. GILBERT



Documents pareils
3 Approximation de solutions d équations

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

LES MÉTHODES DE POINT INTÉRIEUR 1

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Fonctions de plusieurs variables

RO04/TI07 - Optimisation non-linéaire

Résolution d équations non linéaires

Programmation linéaire

Programmation linéaire et Optimisation. Didier Smets

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Équations non linéaires

Cours d Analyse. Fonctions de plusieurs variables

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Image d un intervalle par une fonction continue

Différentiabilité ; Fonctions de plusieurs variables réelles

I. Polynômes de Tchebychev

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Chp. 4. Minimisation d une fonction d une variable

Calcul différentiel sur R n Première partie

Calcul différentiel. Chapitre Différentiabilité

Approximations variationelles des EDP Notes du Cours de M2

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Fonctions de plusieurs variables

Théorème du point fixe - Théorème de l inversion locale

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Continuité en un point

Programmation linéaire

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Intégration et probabilités TD1 Espaces mesurés Corrigé

Cours d analyse numérique SMI-S4

Capes Première épreuve

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Chapitre 2 Le problème de l unicité des solutions

Optimisation Discrète

Optimisation des fonctions de plusieurs variables


De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Limites finies en un point

Cours 02 : Problème général de la programmation linéaire

Dérivées d ordres supérieurs. Application à l étude d extrema.

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Cours d Analyse 3 Fonctions de plusieurs variables

Continuité d une fonction de plusieurs variables

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Calcul fonctionnel holomorphe dans les algèbres de Banach

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Fonctions de deux variables. Mai 2011

Résolution de systèmes linéaires par des méthodes directes

Développement décimal d un réel

Rappels sur les suites - Algorithme

Fonctions de plusieurs variables. Sébastien Tordeux

Chapitre VI Fonctions de plusieurs variables

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

La mesure de Lebesgue sur la droite réelle

Cours Fonctions de deux variables

Simulation de variables aléatoires

Master de Recherche première année. Programme de cours

Programmation Linéaire - Cours 1

Intégration et probabilités TD1 Espaces mesurés

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

ENSAE - DAKAR BROCHURE D'INFORMATION SUR LE CONCOURS DE RECRUTEMENT D ÉLÈVES INGÉNIEURS STATISTICIENS ÉCONOMISTES (I S E) Option Mathématiques CAPESA

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Correction de l examen de la première session

Programmes des classes préparatoires aux Grandes Ecoles

Quantification Scalaire et Prédictive

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Calcul intégral élémentaire en plusieurs variables

CCP PSI Mathématiques 1 : un corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

MATHÉMATIQUES EN PREMIER CYCLE PRÉSENTATION DU PROGRAMME

F411 - Courbes Paramétrées, Polaires

Filtrage stochastique non linéaire par la théorie de représentation des martingales

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Programme de la classe de première année MPSI

Etude de fonctions: procédure et exemple

Fonctions de plusieurs variables et applications pour l ingénieur

Cours de mathématiques

aux différences est appelé équation aux différences d ordre n en forme normale.

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Équations non linéaires

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Probabilités sur un univers fini

NOTATIONS PRÉLIMINAIRES

Université Paris-Dauphine DUMI2E 1ère année, Applications

Algorithmes pour la planification de mouvements en robotique non-holonome

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Groupoïdes quantiques mesurés : axiomatique, étude, dualité, exemples

Planche n o 22. Fonctions de plusieurs variables. Corrigé

Continuité et dérivabilité d une fonction

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Rupture et plasticité

Transcription:

Optimisation Différentiable Théorie et Algorithmes Exemple de résumé du cours J. Ch. GILBERT 5 janvier 2015

Informations pratiques Objectif du cours : l optimisation aspects théoriques : convexité, CO, dualité,..., aspects pratiques : algorithmes. Organisation : 14 séances, dont 1 pour l examen. CM : 12 séances d 1h15++, TD + TP : 9+5 séances d 1h45--, TP : projet d optimisation (Matlab/Scilab), travail personnel. Supports de cours syllabus [pdf] : ne pas voir les sections avec, planches [pdf] : points importants du cours [ ], wikipédia : pour certaines parties signalées par [WP], exercices : en TD, dans le syllabus. Contrôle des connaissances TP : contrôle continu + petit rapport Séance 14 : résolution de problèmes (3h). 2

Plan du cours 1. Introduction : optimisation et analyse convexe 2. Conditions d optimalité I : méthode et outils 3. Conditions d optimalité II : égalités 4. Conditions d optimalité III : inégalités 5. Méthodes de descente : RL et RC 6. Méthodes newtoniennes : N et qn 7. Pénalisation 8. Optimisation quadratique successive (OQS) 9. Dualité 10. Séance de TD Consolidation 11. Optimisation linéaire : simplexe et PI 12. Conjugaison 13. Sous-différentiabilité 3

I Introduction Vocabulaire de l optimisation ( 1.1) Le problème à résoudre : (P X ) inf x X f(x). Quelques définitions et conventions : f : X R est appelée critère ou fonction-coût ou fonction-objectif, X est appelé ensemble admissible, un point de X est dit admissible, val(px ) := inf x X f(x) est la valeur optimale, (PX ) est dit réalisable si X, convention : infx f(x) = +, (PX ) est dit non borné si val(p X ) =, i.e., {x k } X telle que f(x k ). Si X, il existe une suite minimisante {x k } : {xk } X, f(xk ) val(p X ). 4

On dit que x est solution de (P X ) si x X, x X:f(x ) f(x). On dit aussi minimum ou minimiseur. On note l ensemble des solutions Sol(P X ) ou argmin x X On dit que x est solution stricte de (P X ) si x X, x X \{x }:f(x ) < f(x). f(x). Si X topologique, on dit que x est solution locale de (P X ) s il existe un voisinage V de x tel que x X, x X V: f(x ) f(x). Si X topologique, on dit que x est solution locale stricte de (P X ) s il existe un voisinage V de x tel que x X, x (X V)\{x }:f(x ) < f(x). 5

Existence de solution ( 1.2) Le problème à résoudre (f : X R {+ }) : inff(x) (P X ) x X. On dit que f est fermée si (epif) est fermé. Si f est fermée sur X, X est compact et non vide, alors(p X ) a (au moins) une solution. En dimension finie (c est notre cas) : X compact X fermé borné. On peut remplacer l hypothèse par X compact X fermé et f coercive sur X. 6

Unicité de solution ( 3.1) Soient X un convexe deeet f : X R. Définitions : f est convexe sur X si pour tout x,y X,x y, et t ]0,1[ : f((1 t)x+ty) (1 t)f(x)+tf(y). f est strictement convexe si on a inégalité stricte ci-dessus. Le problème à résoudre : minf(x) (P X ) x X. Si X est convexe, f est strictement convexe surx, alors(p X ) a au plus une solution. 7

Différentiabilité première ( C.1, C.2, C.2.1) Soient E et F deux espaces normés, Ω un ouvert de E et f : Ω F. 1. Différentiabilité directionnelle suivant h E : f 1 ( ) (x;h) := lim f(x+th) f(x) existe. t 0+ t 2. Différentiabilité au sens de Gâteaux : f (x;h) existe pour tout h E et h f (x;h) est linéaire (continue). On notef (x) l application linéaire (continue). 3. Différentiabilité au sens de Fréchet : il existe L : E F, linéaire (continue) : f(x+h) = f(x)+lh+o( h ). On note f (x) := L (même opérateur qu en 2). Soit, un produit scalaire sur E et F = R. On définit le gradient def en x comme l unique vecteur f(x) E: f(x),h = f (x) h, h E. 8

Différentiabilité seconde ( C.2.2, C.2.2) Supposons que f : Ω F soit 2 fois différentiable (pour une définition rigoureuse, voir le syllabus). Propriétés : f (x) (h,k) est la dérivée directionnelle de x f (x) h dans la direction k: f (x) (h,k) = lim t 0+ l application 1 t (f (x+tk) h f (x) h). (h,k) f (x) (h,k) est bilinéaire symétrique. Soit, un produit scalaire sur E et F = R. On définit le hessien def en x comme l unique opérateur linéaire symétrique 2 f(x) suretel que 2 f(x)h,k = f (x) (h,k), (h,k) E 2. 9

II Analyse convexe Dfn. Soient x,y E. Un segment dee : [x,y] := {(1 t)x+ty : t [0,1]}. Dfn. Un ensemble C E est convexe si x,y C = [x,y] C. x x y y convexe non convexe x y convexe non convexe 10

Cône asymptotique ( 2.2.4, [WP]) Soit C un convexe fermé non vide de E. Dfn : Le cône asymptotique C de C est C := t>0 C x, t oùx C. Prop : C est un cône, convexe, fermé, non vide, C ne dépend pas de x C, d C {x k } C, {t k } : C est borné C = {0}. x k t k d. 11

Polyèdre convexe ( 2.4) Soit E un espace vectoriel (E = R n parfois). Dfn. Description primale d un polyèdre conv. : P := co{x 1,...,x p }+cone{y 1,...,y q }. Description duale d un polyèdre convexe : P := {x E : Ax b}. Dfn : ˆx est un sommet de P si x 1,x 2 P, ˆx = x 1 +x 2 2 = ˆx = x 1 = x 2. L ensemble des sommets est noté extp. Prop. SoitP := {x : Ax = b,x 0}, ˆx P. 1) ˆx extp A B est injective, où B = {i : x i > 0} et A B formée des colonnes i B dea. 2) P a au moins un sommet et au plus2 n. 12

Projection sur un convexe fermé ( 2.5.2) E muni d un produit scalaire, = 2. SiC E convexe fermé non vide et x E, alors le problème min{ y x : y C} (1) a une unique solution. Dfn : l unique solution de (1) est appelée la projection de x sur C et est notée P C x. Prop : Soit x C. Alors a x = P C x y C, y x, x x 0 y C, y x,y x 0 = y C, y x, x x 0. a La réciproque de la dernière implication est fausse. 13

Séparation des convexes ( 2.5.3) E muni d un produit scalaire,. Dfn : On peut séparer C 1, C 2 E s il existe ξ E non nul tel que sup x 1 C 1 ξ,x 1 inf x 2 C 2 ξ,x 2. La séparation est stricte si l inégalité ci-dessus est stricte (alors ξ est nécessairement non nul). Théor (Hahn-Banach) : Si C 1 et C 2 convexes, non vides, disjoints, dime <, alors on peut séparer C 1 et C 2. Si C 1 et C 2 convexes, non vides, disjoints, C 1 ouc 2 est d intérieur non vide, alors on peut séparer C 1 et C 2. Si C 1 et C 2 convexes, non vides, disjoints, l un est fermé, l autre est compact, alors on peut séparer C 1 et C 2 strictement. 14

Enveloppe convexe fermée ( 2.5.4) Soient E un e.v. avec, et P E. Dfn. L enveloppe convexe dep,cop, est le plus petit convexe contenant P. P fermé co P fermé. Dfn. L enveloppe convexe fermée dep,cop, est le plus petit convexe fermé contenant P. Dfn. Un demi-espace fermé de E : H (ξ,α) := {x E : ξ,x α}, oùξ E est non nul et α R. Prop. cop est l intersection de tous les demi-espaces fermés contenant P. 15

Cône dual ( 2.5.6, [WP]) E muni d un produit scalaire,. Dfn : Le cône dual de P E est défini par P + := {y E : y,x 0, x P}. C est un cône, convexe, fermé, non vide. Lemme de Farkas (généralisé) Si E et F deux espaces euclidiens, K un cône convexe dee, A : E F linéaire, alors {y F : A y K + } + = A(K). Cas particulier : Soit A une matrice. Alors {Ax : x 0} = cône, convexe, fermé, {y : A y 0} + = {Ax : x 0}. ( ) + = dual pour le produit scalaire euclidien. [c est une généralisation de N(A ) = R(A)] 16

Fonction convexe ( 3.1) Soient E un espace vectoriel et f : E R. Dfn. Le domaine de f est l ensemble domf := {x E : f(x) < + }. On peut avoirf(x) = pour x domf. Dfn. L épigraphe de f est l ensemble epif := {(x,α) E R : f(x) α}. Dfn.f est convexe epif est convexe. f est convexe x,y domf, t ]0,1[ : ( ) f (1 t)x+ty (1 t)f(x)+tf(y). 17

Enveloppe supérieure ( 3.4.2) Enveloppe supérieure d une famille de f i : E R,i I (quelconque) : ( ( ) supf i )(x) := sup f i (x). i I i I epi(sup i I f i ) = i I (epif i). f i convexes = sup i I f i convexe. f i fermées = sup i I f i fermée. 18

Reconnaître une fonction convexe par ses dérivées ( 3.3.3) Soient X un convexe deeet f : X R. Si f est 1 fois dérivable et X ouvert Les propriétés suivantes sont équivalentes : f est convexe sur X [resp. strictement convexe], x,y X,x y : f(y) f(x)+f (x) (y x) [resp. >], x,y X,x y : (f (y) f (x)) (y x) 0 [resp. >]. 19

Si f est 2 fois dérivable et X ouvert : f est convexe surx x X, h E,f (x) h 2 0, f est strictement convexe sur X = x X, h E non nul,f (x) h 2 > 0. Contre-exemple: f(x) = x 4. 20

Fonction asymptotique ( 3.3.4, [WP]) Soit f Conv(E), l ensemble des fonctions E R {+ } convexes fermées propres. Dfn : La fonction asymptotique def est la fonction f : E R {+ } telle que epi(f ) = (epif). Prop : 1) x domf, d E : f (d) = lim t + 2) f Conv(E). 3) ν R tel que N ν (f) : f(x+td) f(x) t (N ν (f)) = {d E : f (d) 0}. 4) Si f Conv(E), g Conv(R) croissante et vérifiant g (1) > 0, alors d E : (g f) = g (f (d)).. 21

Fonction conjuguée ( 3.4.8, [WP]) Soient E un espace vectoriel, muni de, et f : E R {+ } propre avec minorante affine. Dfn. Conjuguée f : E R {+ } def : ( ) f (x ) := sup x,x f(x). x E Biconjuguée f : E R {+ } de f : ( ) f (x) := sup x,x f (x ). x E Prop. Quelle que soit f : E R, on a 1) f f. Si f est propre et a une minorante affine, on a 2) f Conv(E) et f Conv(E). 3) f est l enveloppe supérieure des minorantes affines de f. 4) f = f f Conv(E). 22

Interprétation de f (x ) et f R f f (x ) pente x 0 x R f f 0 x 23

Sous-différentiel des fonctions convexes E un e.v. muni de,. Différentiabilité directionnelle [WP] f Conv(E),x domf et d E. 1) t ]0,+ [ f(x+td) f(x) t 2) f (x;d) existe dans R, 3) f (x; ) est convexe, 4) x (domf) = est croissante, f (x; ) Lipschitz, f (x; ) Conv(E). 24

Sous-différentiel [WP] Dfn Le sous-différentiel f(x) de f Conv(E) enx domf est l ensemble des x E vérifiant les propriétés équivalentes : (S 1 ) d E : f (x;d) x,d, (S 2 ) y E : f(y) f(x)+ x,y x, (S 3 ) x argmax( x, f( )), (S 4 ) f(x)+f (x ) x,x, (S 5 ) f(x)+f (x ) = x,x. Si x / domf, alors f(x). Dfn et Prop f est sous-différentiable enx f(x) y (domf) : f (x;y x) >. 25

Prop 1) ˆx argminf 0 f(ˆx), 2) si f Conv(E) : x f(x) x f (x ), 3) f(x) est un convexe fermé, 4) x (domf) = f(x) compact non vide, f (x;d) = max x f(x) x,d, 5) f différen. enx f(x) = { f(x)}. Calcul Si f 1,...,f m : E R convexes et α i 0 ( m α i f i )(x) = i=1 m α i f i (x). i=1 26

Exemple 1D 2.5 2 1.5 1 0.5 0 0.5 1 0 1 2 4 3 2 1 0 1 2 1 0 1 2 Figure 1: f(x) = max(x,x 2 ) et f(x) (en bas) 27

Exemple 2D x 1 + f(x 1 ) x 1 x 2 x 3 x 3 + f(x 3 ) x 2 + f(x 2 ) Figure 2: f = sup(q 1,q 2,q 3 ) et f 28

Deux applications emblématiques Sous-différentiel de la fonction valeur Pour un problème convexe, la fonction valeur v(p) = inf c E (x)+p E =0 c I (x)+p I 0 f(x) est telle que l ensemble des multiplicateurs optimaux enp = 0 est donné par Λ = v(0). Sous-différentiel de la fonction duale Pour le problème (non néc. convexe) inf f(x) c(x) 0 x X et une fonction duale δ(λ) = inf x X ( l(x,λ) := f(x)+λ c(x) propre, on af Conv(R m ) et ( ) c arg minl(x, λ) δ(λ). x X ) 29

III Conditions d optimalité (CO) [WP] Le problème à résoudre : (P X ) minf(x) x X, où X E (espace euclidien, produit scalaire, ). Ce sont des=et décrivant les solutions de (P X ). Utilité des CO : donner des renseignements sur (P X ), vérifier qu un point est solution, calculer la solution analytiquement (parfois), définir des algorithmes de résolution. Il y a des CO nécessaires (notées CN) et des CO suffisantes (notées CS). Il y a des CO du 1 er ordre (CN1, CS1) et des CO du 2 ième ordre (CN2, CS2). 30

CO sans contrainte (rappel, 4.2, [WP]) Le problème à résoudre : minf(x) x E. On note f(x) et 2 f(x) les gradient et hessien de f en x pour,. CN1 : f(x ) = 0. (Si f est convexe, c est une CS1 globale.) CN2 : f(x ) = 0 2 f(x ) 0. CS2 pour un minimum local strict : f(x ) = 0 2 f(x ) 0. 31

CN1 générale ( 4.1, [WP]) Le problème à résoudre : (P X ) minf(x) x X. Dfn : Cône tangent [WP]. X 1 x 2 X 2 x 1 T x1 X 1 N x2 X 2 0 0 T x2 X 2 N x1 X 1 32

CN1. On exprime plus ou moins le fait quef croît si on se déplace vers l intérieur de X : f (x ) d 0, d T x X, (2) oùt x X est le cône tangent àx en x. CN1. Lorsque X est convexe, la relation (2) se simplifie en : f (x ) (x x ) 0, x X. (3) (Si X est convexe et f est convexe, (3) est une CS1 pour que x soit un minimum global.) 33

CO avec contraintes d = ( 4.3, [WP]) Le problème en x E (e.v. euclidien) à résoudre : minf(x) (P E ) c(x) = 0 F (e.v. euclidien). Le lagrangien du problème : l(x,λ) = f(x)+ λ,c(x). CN1 : si c (x ) est surjective, il existe λ F, unique, tel que x l(x,λ ) = 0 c(x ) = 0. (4) (Si c affine,λ existe, pas néc. unique.) (Si f est convexe et c est affine, ce sont des CS1 globales.) Si F = R m, la première condition de(4) s écrit f(x )+ m (λ ) i c i (x ) = 0. i=1 34

CN2 : si c (x ) est surjective, on a x l(x,λ ) = 0 c(x ) = 0 2 xxl(x,λ ) 0 surn(c (x )). CS2 pour un minimum local strict : x l(x,λ ) = 0 c(x ) = 0 2 xxl(x,λ ) 0 surn(c (x )). 35

CO avec contraintes d = et d ( 4.4, [WP]) Le problème à résoudre enx E : (P EI ) minf(x) c E (x) = 0 R m E c I (x) 0 R m I. Le lagrangien du problème (c := (c E,c I )) : l(x,λ) = f(x)+λ c(x). On notei 0 (x) := {i I : c i (x) = 0}. CN1 : si les contraintes sont qualifiées en x, il existe λ R m tel que (KKT) x l(x,λ ) = 0 c E (x ) = 0 0 (λ ) I c I (x ) 0. (Si f et c I sont convexes et c E est affine, ce sont des CS1 globales.) 36

Qualification des contraintes ( 4.4.2, [WP]) Dfn : on dit que les contraintes de (PEI ) sont qualifiées enxsi T x X = T xx, (5) où T xx := {d : c E(x) d = 0, c I 0 (x)(x) d 0}. On a toujours : T x X T xx. Conditions suffisantes de qualification des contraintes. Régularité + l une des conditions suivantes : (QC-A) c E I 0 (x) est affine dans un voisinage dex. (QC-S) c E est affine avec c E surjective, les composantes de c I 0 (x) sont convexes, ˆx X tel quec I 0 (x)(ˆx) < 0. (QC-IL) les gradients { c i (x)} i E I 0 (x) sont linéairement indépendants. (QC-MF) i E I 0 (x) α i c i (x) = 0 et α I 0 (x) 0 = α E I 0 (x) = 0. (QC-MF ) c E (x) surjective et d E tel que c E (x) d = 0 et c Ix(x) d 0 < 0. 37

Démarche suivie pour obtenir (KKT) On part de (2) [i.e., f croît de x vers l intérieur dex]. On suppose que les contraintes sont qualifiées en x (on a(5) avec x = x ). Dès lors f(x ) ( T x X ) +. (6) Lemme de Farkas : Données : A : E F linéaire et K cône de E. {y F : A y K + } + = A(K). C est une généralisation de N(A) = R(A ). Le lemme de Farkas permet d exprimer (6) autrement : λ R m tel que l on ait (KKT). 38

Conditions du deuxième ordre Dfn : le cône critique enx X est l ensemble (il dépend aussi def!) C(x):= {d : c E(x) d = 0, c I 0 (x)(x) d 0, On note C := C(x ). f (x) d 0} T xx. Soit x une solution de(p EI ). On note Λ := {λ : (x,λ ) vérifie (KKT)} l ensemble des multiplicateurs optimaux. CN2 : si (QC-MF) en x, on a (KKT) et d C, λ Λ : d 2 xxl(x,λ )d 0. CS2 pour un minimum local strict : Λ et d C \{0}, λ Λ : d 2 xxl(x,λ )d > 0. 39

Signification des multiplicateurs optimaux ( 4.7.1) Problème perturbé : pour p R m, on définit min f(x) (P p EI ) c E (x)+p E = 0 c I (x)+p I 0. Dfn. La fonction valeur associée à(p p EI ) est v : p R m R définie par v(p) = inf x X p f(x), oùx p est l ensemble admissible de(p p EI ). (P EI ) convexe = v convexe. Cas différentiable régulier. Si (x,λ ) solution PD de(p EI ), ( x(p), λ(p)) solution PD de (P p EI ), p x(p) différentiable en 0, x(0) = x, p λ(p) continue en 0, λ(0) = λ, alors λ = v(0) = (f x)(0). 40

On note Λ := {λ R m : λ I 0}. Dfn. On dit que(x,λ ) R n Λ est un point-selle de l sur R n Λ, si (x,λ) R n Λ : l(x,λ) l(x,λ ) l(x,λ ). Cas convexe non différentiable. Si x est solution de(p EI ), v Conv(R m ), alors v(0) = {λ : (x,λ ) est point-selle delsur R m Λ}. Remarque : Ci-dessus, v(0) peut être vide! Avec qualification de Slater : v(0). 41

CN et CS d existence de solution PD globale. CN d optimalité (cas convexe non diff.). Si (P EI ) convexe (avec f et c finies), (Slater) : c E surjective, ˆx X t.q.c I(ˆx) < 0, x solution de(p EI ), alors 1) v est loc. lipschitzienne dans un vois. de 0, 2) v(0). CS d optimalité globale. Peu de chance d être applicable si (P EI ) non convexe. Si (x,λ ) R n Λ est un point-selle de l sur R n Λ, alors x solution (globale) de(p EI ). 42

IV Méthodes à directions de descente [WP] Schéma des algorithmes ( 6.1) Dfn [WP] : d est direction de descente def en x si f (x) d < 0. = f décroît enxle long de d. Algorithme à directions de descente : il génère une suite{x k } E comme suit Calcul d une direction de descente d k ; Recherche linéaire : on détermine un pas α k > 0 le long de d k ; Nouvel itéré : x k+1 := x k +α k d k. d k x k+1 x k+2 d k+1 x k d k+2 43

Exemples d algorithmes à DD ( 6.2, [WP]) On note g k := f(x k ). Algorithme du gradient. d k = g k. Algorithme du gradient conjugué. g 1 si k = 1 d k = g k +β k d k 1 si k 2. Algorithme de Newton. d k = 2 f(x k ) 1 g k. Algorithme de quasi-newton. d k = M 1 k g k. Algorithme de Gauss-Newton pour f(x) = 1 2 r(x) 2 2 et J(x) := r (x) injective : d k = (J(x k ) J(x k )) 1 J(x k ) r(x k ). 44

La recherche linéaire ( 6.3) Deux techniques souvent utilisées : RL d Armijo et RL de Wolfe. Soient d k une direction de descente et h k (α) := f(x k +αd k ). RL d Armijo (0 < ω 1 < 1 2, 0 < τ < 1) h k (α k ) h(0)+ω 1 α k h k(0), α k = τ i k, oùi k est le plus petit dans {0,1,2,...}. 0 pas d Armijo τ 4 τ 3 τ 2 τ h k (α) 1 α pente h k (0) penteω 1 h k (0) Valeurs typiques : ω 1 = 10 4 et τ = 1 2. 45

RL de Wolfe (0 < ω 1 < 1 2, ω 1 < ω 2 < 1) h k (α k ) h(0)+ω 1 α k h k (0), h k (α k) ω 2 h k (0). pas de Wolfe h k (α) 0 α pente h k (0) penteω 1 h k (0) penteω 2 h k (0) Valeurs typiques : ω 1 = 10 4 et ω 2 = 0.99. 46

Convergence avec la RL de Wolfe Dfn : Théor : cosθ k := g k,d k g k d k. Si f C 1,1, RL de Wolfe C, k 0, f(x k ) C, alors g k 2 cos 2 θ k < +. k 0 Convergence : Algo du gradient : θ k = 0, donc g k 0. Plus généralement : cosθ k c > 0, donc g k 0. 47

V Méthodes à régions de confiance [WP] Principe de l algorithme ( 8.1.1) Le problème : min x E f(x). Modèle quadratique de f autour d un itéré x k : f(x k +s) f(x k )+ψ(s), où ψ k (s) := g k,s + 1 2 M ks,s. Région de confiance : région dans laquelle ce modèle est considéré comme bon. Le plus souvent B(0, k ) := {s E : s k }. k > 0 est le rayon de confiance du modèle. 48

Schéma d un algorithme à RC : il génère une suite {x k } par 1. Déplacement : s k argmin s k ψ k (s); 2. Appréciation du déplacement : si la concordance ρ k := f(x k +s k ) f(x k ) ψ(s k ) n est pas bonne (ρ k ω 1 ), diminuer k et retour en 1. 3. Nouvel itéré : x k+1 = x k +s k. 4. Nouveau modèle : nouveau rayon de confiance [τ 2 k, k ] si ρ k ω 2 k+1 [ k,τ 3 k ] sinon. calculer g k+1 := f(x k+1 ),M k+1. 49

Itérés générés par RC dans le contre-exemple de Powell 2 Parameter space 1.5 1 x 1 0.5 0 x * 0.5 1 d N 1 1.5 d C 1 2 0 0.5 1 1.5 2 2.5 3 3.5 4 Figure 3: RC dans le contre-exemple de Powell 50

Résolution du problème quadratique ( 8.3.1, 8.4) Le problème : min g,s + 1 2 Ms,s s. CNS d optimalité : ˆλ R tel que (M + ˆλI)ŝ = g ŝ, ˆλ 0 ˆλ( ŝ ) = 0 (M + ˆλI) 0. Résolution approchée : algorithme dogleg de Powell algorithme du GC tronqué. Résolution fine : algorithme de Moré-Sorensen. 51

Comparaison avec la RL RL On se donne une direction de descente d k de f enx k On adapte le pas α k > 0 le long de d k pour faire décroîtref Le déplacement s k = α k d k est aligné sur d k (recherche linéaire) Facile à mettre en œuvre Résultats de convergence faibles RC On se donne un modèle ψ k de f enx k On adapte le rayon de confiance k > 0 pour faire décroître f Le déplacement s k change d orientation avec k (recherche curviligne) Difficile à mettre en œuvre Résultats de convergence renforcés 52

VI Méthodes newtoniennes pour équations Vitesse de convergence des suites ( 5.1.1, [WP]) Soit {x k } une suite convergeant vers x E. On suppose que x k x, pour tout k 1. Convergence linéaire : il existe une norme, un indice k 0 et r [0,1[ tels que k k 0 : x k+1 x x k x r. Convergence superlinéaire : x k+1 x x k x 0. Convergence quadratique : il existe une constante C > 0 telle que k 1 : x k+1 x x k x 2 C. 53

σ k = nombre de chiffres significatifs corrects. superlinéaire quadratique k x k σ k x k σ k 1 2.00000000000000 0 2.00000000000000 0 2 1.50000000000000 0 0.86666666666667 1 3 0.61224489795918 1-0.32323745064862 1 4-0.16202797536640 1-0.92578663808031 1 5-0.92209500449059 1-0.82332584261905 2 6-0.78540447895661 1-0.81774699537697 5 7-0.81609056319699 3-0.81773167400186 9 8-0.81775774021392 5-0.81773167388682 15 9-0.81773165292101 8 10-0.81773167388656 13 11-0.81773167388682 15 Linéaire = σ > 0, k grand : σ k+1 σ k σ. Superlinéaire = σ k+1 σ k. Quadratique σ k+1 = lim inf 2. k σ k 54

Algorithme de Newton pour systèmes non linéaires ( 9.1.1, [WP]) Soit F : E F, avec dime = dimf <. On cherche à résoudre enx : F(x) = 0. Algorithme de Newton. De x k à x k+1 : Résoudre end k l équation de Newton : Nouvel itéré : F (x k )d k = F(x k ). (7) Exemple 1D. x k+1 = x k +d k. 6 5 1+x+x 3 /3 4 3 2 1 0 x 4 x 3 x 2 x 1 1 1.5 1 0.5 0 0.5 1 1.5 2 2.5 55

Propriétés de l algorithme de Newton. Convergence quadratique locale : Si x vérifie F(x ) = 0, F est C 1,1 dans un voisinage de x, F (x ) est inversible, alors il existe un voisinage V de x tel que si x 1 V, l algorithme de Newton (7) est bien défini et génère une suite {x k } V qui converge quadratiquement versx. En général ne converge pas si x 1 n est pas proche d une solution. Il faut calculer les dérivées premières de F. 56

Globalisation de l algorithme de Newton par recherche linéaire ( 9.3.1) Dfn : «globaliser»=forcer la convergence lorsque x 1 n est pas voisin d une solution. Une solution miracle? Si F(x) 0, la direction de Newton enx, d N = F (x) 1 F(x), est une direction de descente de f(x) = 1 2 F(x) 2 2. On a f (x) d N = F(x) 2 2 < 0. RL sur f le long de d N : x + := x+αd N, avec α > 0 tel que (ici ω 1 ]0, 1 2 [) f(x + ) f(x)+αω 1 f (x) d N. 57

Un résultat de convergence : Si {F (x k )} et {F (x k ) 1 } sont bornées, alors l algorithme de Newton avec une RL «convenable» converge vers un point stationnaire de f : f(x k ) 0. Cette approche ne converge pas toujours...! 58

Un cas favorable On considère la fonction F : R 2 R 2 définie par x 1 F(x) = (x 1 2) 2 +x 2 +4 F 1 0 (x) =. 2(x 1 2) 1 x x 1 d 1 La fonction F a un unique zéro en x = 0. 59

Cas défavorable I F(x) = F (x) = x 1, (x 1 2) 2 +(x 2 1) 2 +3 1 0. 2(x 1 2) 2(x 2 1) d 1 x x 1 60

Cas défavorable II F(x) = F (x) = x 1, (x 1 2) 2 +e x 2 +3 1 0. 2(x 1 2) e x 2 x x 1 d 1 61

Globalisation de l algorithme de Newton par régions de confiance ( 9.3.2) Principes : 1. On ne s intéresse plus qu aux points stationnaires de f(x) = 1 2 F(x) 2 2. Remarque : la RL n est pas toujours capable d en trouver. 2. On prend comme modèle quadratique de f enx k : ϕ k (s) := 1 2 F(x k)+f (x k )s 2 2. (8) Avantage : minimiseur s k est défini même si F (x k ) n est pas inversible (c est l origine de l affaiblissement des hypothèses). 3. On minimise ϕ k sur une région de confiance : min s ϕ k (s) (9) s 2 k. 62

Résultat de convergence : Si {F (x k )} est bornée, alors l algorithme de Newton avec RC converge vers un point stationnaire de f : f(x k ) 0. Remarque : on n a plus besoin d hypothèse sur F (x) 1! 63

VII Méthodes newtoniennes en optimisation ( 9.1.2) Soit le problème min x E f(x). On se déclare satisfait avec x vérifiant f(x ) = 0. La relation F = f permet d adapter l algorithme de Newton (F (x) = 2 f(x) est symétrique). Algorithme de Newton. De x k à x k+1 : Résoudre end k l équation de Newton : Nouvel itéré : 2 f(x k )d k = f(x k ). (10) x k+1 = x k +d k. 64

Le problème quadratique osculateur. Le pas de Newton d k est aussi un point stationnaire du problème quadratique ( f(x k )+ f(x k ) d+ 1 2 d 2 f(x k )d min d E ). f=1+x+x 2 /2+x 4 /12 x 4 x 3 x 2 x 1 65

Propriétés de l algorithme de Newton. Convergence quadratique locale : Si x vérifie f(x ) = 0, f est C 2,1 dans un voisinage de x, 2 f(x ) est inversible, alors il existe un voisinage V de x tel que si x 1 V, l algorithme de Newton est bien défini et génère une suite {x k } V qui converge quadratiquement versx. En général ne converge pas si x 1 n est pas proche d un point stationnaire. Pas de distinction entre min, max, point stationnaire. Les directions ne sont pas nécessairement de descente. Il faut calculer les dérivées secondes def. 66

Algorithmes de quasi-newton ( 10) Soit le problème min x R nf(x). Les algorithmes de qn génèrent 2 suites : {x k } R n et {M k } R n n sym. dfn. pos. 1) d k := M 1 k g k; 2) α k > 0 par recherche linéaire; 3) x k+1 := x k +α k d k ; 4) M k+1 := U(M k,y k,s k ), oùy k := g k+1 g k et s k := x k+1 x k. Mise à jour dem k. On cherche à ce quem k+1 soit proche de M k (stabilité), tout en vérifiant : l équation de qn : y k = M k+1 s k ; la symétrie : M k+1 = M k+1; la définie positivité :M k+1 dfn. pos. Cela conduit à la formule de BFGS. M k+1 = M k + y ky k y k s k M ks k s k M k s k M ks k. 67

VIII Problèmes de moindres-carrés Ce sont des problèmes de la forme min x R n F(x), oùf : R n R m. En général m n. Exemple : la régression linéaire. 3 2.5 2 1.5 1 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 68

Moindres-carrés linéaires ( 16.1) Problème : on cherche une solution de où A est m netb R m. min Ax b 2, (11) x R n Équation normale : x est solution ssi A Ax = A b. (12) Existence de solution : Le problème (11) a toujours une solution. Solution unique A est injective. Ensemble des solutions = x p +N(A). Méthodes numériques : Factorisation de Cholesky de A A. GC sur (12). Factorisation QR de A. Factorisation SVD de A. 69

Moindres-carrés non linéaires ( 16.2) Problème : on cherche une solution de ( min f(x) := 1 ) x R n 2 r(x) 2 2, (13) oùr : R n R m est non linéaire (les résidus). Jacobienne J J(x) r (x), qui est m n. Algorithme de Gauss-Newton : RL le long de 1 dk GN argmin d R n 2 r(x k)+j(x k )d 2 2. On a f (x k ) d GN k 0 (< 0 si f(x k) 0). Résultat de convergence : Si {J(x k )} est bornée et unif. injective, i.e., C > 0, k 1, v R n : C v 2 J(x k )v 2 C 1 v 2, alors l algorithme de Gauss-Newton avec RL converge vers un point stationnaire de f (c est-à-direj(x k ) r(x k ) 0). 70

Algorithme de Levenberg-Marquardt (révisé) : RC avec le modèle quadratique ϕ k (s) := 1 2 r(x k)+j(x k )s 2 2. Résultat de convergence : Si {J(x k )} est bornée, alors l algorithme de Levenberg-Marquardt avec RC converge vers un point stationnaire de f (c est-à-direj(x k ) r(x k ) 0). 71

IX Pénalisation ( 15, [WP]) À quoi ça sert? En optimisation avec contraintes : pour la théorie: obtenir des propriétés à partir de problèmes approchés sans contrainte, pour l algorithmique: résoudre un problème avec contraintes «sans trop en faire». Transformation typique. SoitX E (un espace vectoriel). On passe du problème avec contrainte (P X ) inf x X f(x) au problème pénalisé sans contrainte ( ) (P r ) inf Θ r (x) := f(x)+rp(x), x E oùr R est un paramètre de pénalisation et p : E R est une fonction de pénalisation (on va voir ce que c est). 72

Deux résultats généraux ( 15.1) Monotonie en pénalisation Si r considéré, (P r ) a une solution, notée x r. Alors lorsquer croît : 1) p( x r ) décroît, 2) f( x r ) croît, sir 0, 3) Θ r ( x r ) croît, sip( ) 0. Point d adhérence lorsque r 0 Si f et p sont continues, S := argmin f(x), r > 0 petit, (Pr ) a une solution, notée x r. Alors tout point d adhérence de{ x r } r 0 est solution de inf p(x). x S 73

Pénalisation extérieure ( 15.2) Exemple. On veut résoudre min f(x) (P) c(x) 0. On approche ce problème par (r > 0) (P r ) min f(x)+ r 2 c(x)+ 2 2, que l on résout par un algorithme de descente, pour une suite der. 74

Pénalisation l 2 en 1D 6 5 r = 5 4 r = 3 3 r = 2 2 1 r = 1.5 r = 1.2 f(x) = 1 + x + 1 3 x3 0 r = 1 x r x 1 2.5 2 1.5 1 0.5 0 0.5 1 1.5 Figure 4: Pénalisation quadratique 75

Plus généralement, on suppose que r 0 et que la fonction de pénalisation vérifie p est continue sure (H p ) p(x) 0, x E p(x) = 0 x X. Résultat d approximation Si X est fermé et non vide, p : E R vérifie(hp ), f est s.c.i., r0 0 tel queθ r0 (x) + quand x, alors 1) r r 0, (P r ) a au moins 1 solution x r, 2) { x r } r est bornée, 3) tout point d adhérence de la suite{ x r } r est solution de (P X ). 76

r et de la pénalisation extérieure Facile à mettre en œuvre (avec algo. sans contrainte). Suite de problèmes non linéaires (bon r inconnu, premier r très grand ne convient pas). Le mauvais conditionnement augmente avec r (i.e., les courbes de niveau s allongent). r=0 r=1 1 1 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0 0.2 0.4 0.6 0.8 0 1 0 0.2 r=10 1 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0.2 0.4 0.6 0.8 1 0.8 1 r=100 1 0 0.4 0.6 0.8 0 1 0 0.2 0.4 0.6 Figure 5: Chemin des minimiseurs 77

X Optimisation quadratique successive (OQS, 14) Le problème à résoudre enx E : (P EI ) minf(x) c E (x) = 0 R m E c I (x) 0 R m I. Le lagrangien du problème (c := (c E,c I )) : l(x,λ) = f(x)+λ c(x). 78

L algorithme OQS local ( 14.1) De (x,λ) E R m à (x +,λ + ) E R m : 1. Test d arrêt : si (x,λ) vérifie les conditions d optimalité, arrêt de l algorithme. 2. Déplacement : calculer une solution primale-duale (d,λ PQ ) du problème quadratique osculateur min d f(x) d+ 1 2 d 2 xxl(x,λ)d c E (x)+c E(x)d = 0 c I (x)+c I(x)d 0. (14) 3. Mise à jour des variables : le nouvel itéré(x +,λ + ) est donné par x + := x+d et λ + := λ PQ. C est évidemment l étape 2 qui est la plus coûteuse. 79

Newton pour résoudre F(x) = 0 (rappel) Si x vérifief(x ) = 0, F est C 1,1 dans un voisinage de x, F (x ) est inversible, alors il existe un voisinage V de x tel que si x 1 V, l algorithme de Newton est bien défini et génère une suite {x k } V qui converge quadratiquement versx. Résultat de convergence locale de OQS Si (x,λ ) solution primale-duale de (P EI ), f et c sontc 2,1 près de x, complémentarité stricte, régularité : 2 xxl(x,λ ) c E I 0 (x ) est inversible, c E I (x 0 ) 0 alors il existe un voisinage V de (x,λ ) tel que, si (x 1,λ 1 ) V, l algorithme OQS démarrant en (x 1,λ 1 ) et calculant d k comme point stationnaire de norme minimale du PQO (14) 1) est bien défini, 2) génère une suite {(x k,λ k )} V qui converge quadratiquement vers(x,λ ), 3) identifie les contraintes actives de(p EI ) (ce sont celles du PQO). 80

XI Dualité ( 13) Un premier problème : inf x 2 x 2 X (P) x X x 1 = 0. x x 1 Un second problème : x 2 X (D) sup λ R δ(λ) pente λ δ(λ) pente λ x 1 (P) et (D) sont duaux l un de l autre. Intérêts de la dualité : obtenir des propriétés sur un problème à partir des propriétés d un pbl dual (e.g., une borne sur la valeur optimale); construire des pbls duaux équivalents au pbl primal, mais plus faciles à résoudre; algorithmique : recherche de point-selle, du multiplicateur optimal. 81