RO04/TI07 - Optimisation non-linéaire

Documents pareils

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Image d un intervalle par une fonction continue

Cours d Analyse. Fonctions de plusieurs variables

3 Approximation de solutions d équations

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Fonctions de plusieurs variables

Chp. 4. Minimisation d une fonction d une variable

Résolution d équations non linéaires

Calcul différentiel sur R n Première partie

Continuité en un point

Théorème du point fixe - Théorème de l inversion locale

Calcul différentiel. Chapitre Différentiabilité

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Limites finies en un point

Chapitre 2 Le problème de l unicité des solutions

I. Polynômes de Tchebychev

Continuité et dérivabilité d une fonction

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Programmation linéaire et Optimisation. Didier Smets

La fonction exponentielle

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Différentiabilité ; Fonctions de plusieurs variables réelles

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Programmation linéaire

Chapitre VI Fonctions de plusieurs variables

Continuité d une fonction de plusieurs variables

LES MÉTHODES DE POINT INTÉRIEUR 1

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Fonctions de plusieurs variables. Sébastien Tordeux

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Exercices - Polynômes : corrigé. Opérations sur les polynômes

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Correction de l examen de la première session

Nombre dérivé et tangente

Équations non linéaires

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Calcul fonctionnel holomorphe dans les algèbres de Banach

Approximations variationelles des EDP Notes du Cours de M2

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Fonctions de plusieurs variables

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Simulation de variables aléatoires

Polynômes à plusieurs variables. Résultant

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Résolution de systèmes linéaires par des méthodes directes

Calcul Différentiel. I Fonctions différentiables 3

3. Conditionnement P (B)

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

Planche n o 22. Fonctions de plusieurs variables. Corrigé

Texte Agrégation limitée par diffusion interne

Dérivées d ordres supérieurs. Application à l étude d extrema.

Programmation linéaire

Cours Fonctions de deux variables

Cours d Analyse 3 Fonctions de plusieurs variables

Optimisation des fonctions de plusieurs variables

I. Ensemble de définition d'une fonction

Développements limités, équivalents et calculs de limites

Cours 02 : Problème général de la programmation linéaire

Dérivation : cours. Dérivation dans R

Cours de mathématiques

Capes Première épreuve

Intégration et probabilités TD1 Espaces mesurés Corrigé

n N = u N u N+1 1 u pour u 1. f ( uv 1) v N+1 v N v t

CCP PSI Mathématiques 1 : un corrigé

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Problème 1 : applications du plan affine

Rappels sur les suites - Algorithme

Correction du Baccalauréat S Amérique du Nord mai 2007

Développements limités. Notion de développement limité

Université Paris-Dauphine DUMI2E 1ère année, Applications

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Corrigé du baccalauréat S Asie 21 juin 2010

Optimisation Discrète

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Chapitre 2. Matrices

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

F411 - Courbes Paramétrées, Polaires

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Moments des variables aléatoires réelles

Programmes des classes préparatoires aux Grandes Ecoles

Licence de Mathématiques 3

aux différences est appelé équation aux différences d ordre n en forme normale.

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

TSTI 2D CH X : Exemples de lois à densité 1

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

CHAPITRE 5. Stratégies Mixtes

Suites numériques 3. 1 Convergence et limite d une suite

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Introduction à l étude des Corps Finis

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Chapitre 2. Eléments pour comprendre un énoncé

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Précision d un résultat et calculs d incertitudes

Transcription:

RO04/TI07 - Optimisation non-linéaire Stéphane Mottelet Université de Technologie de Compiègne Printemps 2003

I Motivations et notions fondamentales 4 I1 Motivations 5 I2 Formes quadratiques 13 I3 Rappels de calcul différentiel 19 I4 sur la convexité 25 I5 Résultats d existence et d unicité 33 I6 Conditions nécessaires d optimalité en l absence de contraintes 37 du chapitre I 41 du chapitre I 49 II Les méthodes de gradient 54 II1 Les méthodes de descente 55 II2 Les méthodes de gradient 58 du chapitre II 62 III La méthode du gradient conjugué 65 III1 Introduction 66 III2 La méthode du gradient conjugué 72 2

III3 Interprétation de la méthode du gradient conjugué 78 IV Méthodes de recherche linéaire 84 IV1 introduction 85 IV2 Caractérisation de l intervalle de sécurité 88 V Méthodes de Quasi-Newton 98 V1 Introduction 99 V2 Les méthodes de quasi-newton 104 V3 Méthodes spécifiques pour les problèmes de moindres carrés 118 VI Conditions d optimalité en optimisation avec contraintes 121 VI1 Les conditions de Lagrange 122 VI2 Les conditions de Kuhn et Tucker 133 VI3 de problèmes 140 VI4 Conditions suffisantes d optimalité 146 VII Méthodes primales 151 VII1 Contraintes d égalité linéaires 152 VII2 Contraintes d inégalité linéaires 159 VII3 Méthodes de pénalisation 163 VII4 Méthodes par résolution des équations de Kuhn et Tucker 170 du chapitre VII 176 VIII Méthodes utilisant la notion de dualité 178 VIII1 Elements sur la dualité 179 VIII2 Methodes duales 184 3

suivant Chapitre I Motivations et notions fondamentales I1 Motivations 5 I2 Formes quadratiques 13 I3 Rappels de calcul différentiel 19 I4 sur la convexité 25 I5 Résultats d existence et d unicité 33 I6 Conditions nécessaires d optimalité en l absence de contraintes 37 du chapitre I 41 du chapitre I 49 4

chapitre section suivante I1 Motivations I11 Formulation générale des problèmes d optimisation non linéaire 6 I12 Un exemple en régression non-linéaire 8 I13 Un exemple en mécanique 10 5

section suivant I11 Formulation générale des problèmes d optimisation non linéaire La forme générale d un problème d optimisation est la suivante : (P C) min x R f(x), n sous les contraintes (I11) g(x) 0, h(x) = 0, (I12) (I13) où les fonctions f, g et h sont typiquement non-linéaires (c est l objet de cette deuxième partie du cours) L équation (VI12) désigne ce que nous apelleront des contraintes d inégalité et l équation (VI13) des contraintes d égalité L objet de ce cours est la présentation de techniques permettant de résoudre le problème (PC), ainsi que des problèmes où soit un seul des deux types de contraintes est présent, soit des problèmes n y a pas de contraintes du tout Nous noterons ces types de problèmes ainsi : (PC) (PCE) (PCI) (P) problème général, avec contraintes d inégalité et d égalité, problème avec contraintes d égalité, problème avec contraintes d inégalité, problème sans contraintes Il va de soi que la plupart des problèmes réels ou industriels ne sont pas initialement sous une des formes proposées C est pourquoi un des premiers travaux consiste en général à mettre le problème initial sous une forme standard Par exemple, un problème donné sous la forme max x R g(x), n 6

section suivant se mettra sous la forme standard (P) en posant f(x) = g(x)! Cependant, la mise sous forme standard nécéssite en général un peu plus de travail, comme nous allons le voir dans les exemples qui suivent Formulation générale des problèmes d optimisation non linéaire 7

Ο Ο Ο Ο ΟΟ Ο ΟΟ Ο Ο Ο Ο Ο Ο Ο ΟΟ ΟΟ Ο Ο Ο Ο ΟΟΟΟ Ο Ο ΟΟΟ ΟΟ ΟΟ Ο Ο ΟΟ Ο Ο Ο Ο ΟΟΟ Ο Ο Ο ΟΟ précédent section suivant I12 Un exemple en régression non-linéaire 10 06 Ο Ο Ο 02 Ο Ο ΟΟ Ο Ο Ο Ο Ο ΟΟ Ο ΟΟ ΟΟ Ο Ο ΟΟ Ο Ο Ο -02 Ο Ο Ο ΟΟΟ ΟΟ Ο ΟΟ Ο ΟΟΟ Ο Ο Ο Ο -06 Ο Ο -10 0 20 40 60 80 100 On considère un problème d identification des paramètres a, b, c et c d un signal du type f(t) = a exp ( bt) cos (ct + d), à partir d échantillons [t i, y i ] i=1m du signal f(t) (ces échantillons sont représentés par les ronds sur la figure ci-dessus) 8

précédent section suivant On propose de faire cette identification en minimisant la fonction J(a, b, c, d) = 1 2 = 1 2 m (y i f(t i )) 2, i=1 m (y i a exp ( bt i ) cos (ct i + d)) 2 i=1 Un exemple en régression non-linéaire Le choix d élever au carré la distance entre y i et f(t i ) est bien sûr arbitraire : on aurait pu prendre la valeur absolue, mais le carré permet d obtenir une fonction J différentiable (ceci sera bien sûr clarifié dans la suite) Si nous n ajoutons pas de conditions sur les paramètres a, b, c, d le problème posé est donc du type (P ), avec x = [a, b, c, d] R 4 Ce problème est communément appelé un problème de moindres carrés (non linéaire) 9

précédent section I13 Un exemple en mécanique u(x) v(x) On considère une corde horizontale de longueur 1 tendue à ses deux extrémités, avec une tension τ La déviation éventuelle de la corde par rapport à sa position d équilibre est désignée par u(x), pour x [0, 1] Les extrémités étant fixées, on aura toujours u(0) = u(1) = 0 On négligera le poids propre de la corde par rapport à la tension τ, cela permet d affirmer qu en l absence d action extérieure, la corde est au repos et on a donc u(x) = 0, x [0, 1] Supposons maintenant que la corde est écartée de sa position d origine Alors on peut montrer que l énergie potentielle associée à cette déformation (supposée petite) est E(u) = 1 2 1 0 τ ( ) 2 du dx (I14) dx En l absence d obstacle, la position de repos u(x) = 0 minimise cette énergie Il peut alors être intéressant d étudier un problème où un obstacle empèche la corde de prendre la position triviale u(x) = 0 Intuitivement, on voit bien que la corde va toucher l obsctale en certains points, mais pas forcément en tous les points de l intervalle [0, 1] (cela va dépendre de la forme de l obstacle) 10

précédent section Supposons par exemple que cet obstacle peut être représenté par une fonction v(x) 0 Alors la présence de l obstacle se traduit par la condition Un exemple en mécanique u(x) v(x), x ]0, 1[ (I15) Si on veut connaître la déformation u(x) de la corde lorsque l obstacle est présent, on peut donc penser qu il est raisonnable de considérer le problème 1 1 ( ) 2 du min τ dx, u 2 0 dx u(0) = u(1) = 0, u(x) v(x), x ]0, 1[ (I16) Il s agit, techniquement parlant, d un problème de calcul des variations, et donc l inconnue est une fonction (la fonction u(x)) Il parait donc pour l instant impossible de le mettre sous forme standard Cependant, on peut essayer de résoudre un problème approché, en utilisant la méthode des éléments finis : Approximation avec la méthode des éléments finis Puisque l on est en dimension 1 d espace, la méthode est très simple à mettre en oeuvre D une part, on discrétise l intervalle [0, 1] : on considère les abscisses x k = k N, k = 0 N On considère le vecteur U = [U 1,, U N 1 ], ainsi que la fonction u N (x) définie par : u N (x k ) = U k, u N (0) = u N (1) = 0, de plus u N est continue et affine par morceaux On peut alors montrer que E(u N ) = 1 2 U AU, 11

précédent section où A est la matrice (définie positive) A = τn 2 2 1 0 1 2 1 1 2 1 0 1 2 Un exemple en mécanique On peut donc proposer la version approchée du problème (I16) : { 1 min U 2 U AU, v(x k ) U k 0, k = 1 N 1 (I17) Il s agit donc d un problème se mettant assurément sous la forme (P CI) De plus la fonction f(u) = 1 2 U AU est assez particulière : il s agit d une forme quadratique (nous y reviendrons plus tard) La fonction g permettant d exprimer les contraintes d inégalité, définie par g(u) = v(x 1 ) U 1 v(x N 1 ) U N 1 ), est de plus linéaire Nous aborderons des méthodes tenant compte de ces particularités 12

section précédente chapitre section suivante I2 Formes quadratiques I21 Définition d une forme quadratique 14 I22 Propriétés des formes quadratiques définies positives 16 13

section suivant I21 Définition d une forme quadratique Cours : exemple en mécanique L exemple précédent nous donne une idée, à partir d un problème particulier, de la forme que peut prendre la fonction f Une telle fonction s appelle une forme quadratique Nous allons maintenant étudier leurs propriétés Définition I21 Soit A une matrice symétrique n n et b R n On appelle forme quadratique la fonction f : R n R définie par f(x) = 1 2 x Ax b x Lorsque la matrice A possède certaines propriétés, la fonction f peut prendre un nom particulier La propriété à laquelle nous allons nous intéresser est la positivité : Définition I22 Soit A une matrice symétrique n n et b R n On dit que A est semi-définie positive et on note A 0, quand x Ax 0, x R n On dit que A est définie positive et on note A > 0, quand x Ax > 0, x R n, x 0 Cette définition peut être reliée aux valeurs propres de la matrice A : Propriété I23 Soit A une matrice symétrique n n On note {λ i } i=1n ses valeurs propres (réelles) On a les équivalences suivantes : A 0 λ i 0, i = 1 n, 14

section suivant A > 0 λ i > 0, i = 1 n Lorsque la matrice A est définie positive (resp semi-définie positive), on dira que f(x) est une forme quadratique définie positive (resp semi-définie positive) Dans le cas où A est définie positive la fonction f possède un certain nombre de propriétés Nous nous intéressons dans un premier temps aux surfaces f(x) = c où c R Définition d une forme quadratique 15

précédent section I22 Propriétés des formes quadratiques définies positives : Exemple I1 Propriété I24 Soit A une matrice symétrique n n, définie positive et b R n Considérons la forme quadratique On considère la famille de surfaces définie par pour c R, et on définit le vecteur ˆx solution de f(x) = 1 2 x Ax b x γ c = {x R n, f(c) = c}, Aˆx = b Alors γ c est définie de la façon suivante : Si c < f(ˆx) alors γ c = Si c = f(ˆx) alors γ c = {ˆx} Si c > f(ˆx) alors γ c est un ellipsoïde centré en ˆx Démonstration : La matrice A étant diagonalisable, il existe une matrice P (la matrice des vecteurs propres) orthogonale telle que P AP = D, 16

précédent section où D = diag (λ 1,, λ n ) avec λ i > 0 On fait le changement de variable y = x ˆx : cela donne f(ˆx + y) = f(ˆx) + (Aˆx b) y + 1 2 y Ay, et puisque Aˆx = b, on a f(x) = f(ˆx) + 1 2 (x ˆx) A(x ˆx) Propriétés des formes quadratiques définies positives On fait maintenant le changement de variable (x ˆx) = P z, ce qui donne f(x) = f(ˆx) + 1 2 z P AP z, La surface γ c est donc définie par γ c = { = f(ˆx) + 1 2 z Dz, = f(ˆx) + 1 2 z R n, 1 2 n λ i zi 2 i=1 } n λ i zi 2 = c f(ˆx) Si c f(ˆx) < 0 il est clair qu il n y a pas de solution à l équation 1 2 i=1 n λ i zi 2 = c f(ˆx), i=1 puisque le second membre est toujours positif! Si c = f(ˆx) la seule solution est z = 0, c est à dire x = ˆx Si c > f(ˆx) l équation définit bien un ellipsoïde, puisque les λ i sont positifs Nous avons en fait démontré un résultat très intéressant qui caractérise la valeur minimale prise par f(x) quand x parcourt R n : 17

précédent section Théorème I25 Soit A une matrice symétrique n n définie positive et b R n, et soit f la forme quadratique associée, définie par f(x) = 1 2 x Ax b x Soit ˆx le vecteur (unique) vérifiant Aˆx = b, alors ˆx réalise le minimum de f, c est à dire Propriétés des formes quadratiques définies positives f(ˆx) f(x), x R n Ce résultat est une conséquence directe de la propriété I24 18

section précédente chapitre section suivante I3 Rappels de calcul différentiel I31 Définition de la différentiabilité 20 I32 Calcul de la dérivée première 22 I33 Dérivée seconde 24 19

section suivant I31 Définition de la différentiabilité Dans R n on note x le vecteur colonne x = x 1 x n, et la notation désignera, sauf indication du contraire, la norme euclidienne x = ( n k=1 x 2 k ) 1 2 Avant de donner la définition de la différentiabilité, il est important de rappeller celle de la continuité : Définition I31 Soit f : R n R m, on dit que f est continue au point a R n si pour tout réel ɛ > 0 il existe η > 0 tel que x a < η f(x) f(a) < ɛ Voici maintenant la définition de la différentiabilité : Définition I32 Soit f : R n R m représentée dans la base canonique de R m par le vecteur f(x) = f 1 (x) f m (x), (I31) continue en a R n On dit que f est différentiable en a s il existe une application linéaire, notée f (a), telle que pour tout h R n on ait f(a + h) = f(a) + f (a)h + h ɛ(h), (I32) 20

section suivant où ɛ() est une fonction continue en 0 vérifiant lim h 0 ɛ(h) = 0 On appelle f (a) dérivée de f au point a La notation f (a)h doit être prise au sens f (a) appliquée à h Cette notation devient assez naturelle lorsque l on représente f (a) par sa matrice dans les bases canoniques de R n et R m, comme le montre plus bas la proposition I32 Définition de la différentiabilité 21

précédent section suivant I32 Calcul de la dérivée première : Exemple I3 Exemple I2 : Exercice I2 Exercice I1 On peut d ores et déja donner un résultat pratique permettant de calculer directement la dérivée à partir du développement (I32) : Proposition I31 Soit f : R n R m différentiable en a, alors lim t 0 f(a + th) f(a) t = f (a)h Démonstration : On a f(a + th) = f(a) + tf (a)h + t h ɛ(th), d où f (a)h = f(a + th) f(a) t Il suffit de noter que lim t 0 ɛ(th) = 0 pour conclure ± h ɛ(th) La quantité f (a)h est appellée communément dérivée directionnelle de f au point a dans la direction h La proposition suivante fait le lien entre la matrice de f (a) et les dérivées partielles de f au point a : Proposition I32 Soit f : R n R m différentiable en a, alors on peut représenter f (a) par sa matrice dans les bases canoniques de R n et de R m et on a [f (a)] ij = f i x j (a) 22

précédent section suivant Démonstration : On note {e 1,, e n } la base canonique de R n Par définition de la matrice, la j ème colonne de f (a) est obtenue en appliquant f (a) au j ème vecteur de la base canonique de R n On obtient donc le vecteur f (a)e j f(a + te j ) f(a) = lim, t 0 t grâce à la proposition I31 La définition de f donnée par (I31) permet d écrire que Calcul de la dérivée première [f (a)e j ] i = lim t 0 f i (a + te j ) f i (a), t f i (a 1,, a j + t,, a n ) f i (a 1,, a n ) = lim, t 0 t = f i x j (a) On appelle souvent f (a) la matrice jacobienne de f au point a Lorsque m = 1 on adopte une notation et un nom particuliers : le gradient est le vecteur noté f(a) et défini par f (a) = f(a), et on a f(a + h) = f(a) + f(a) h + h ɛ(h) 23

précédent section I33 Dérivée seconde : Exemple I4 : Exercice I4 Exercice I3 On se place maintenant dans le cas m = 1, soit f : R n R Définition I33 L application f : R n R est dite deux fois différentiable s il existe une matrice symétrique 2 f(a) telle que f(a + h) = f(a) + f(a) h + h 2 f(a)h + h 2 ɛ(h) On appelle 2 f(a) matrice hessienne de f au point a Comme l énonce le théorème suivant (non démontré), cette matrice s obtient à partir des dérivées secondes de f : Théorème I34 Soit f : R n R une fonction deux fois différentiable en un point a Si on note g(x) = f(x) alors la matrice hessienne est définie par 2 f(a) = g (a), soit [ 2 f(a)] ij = 2 f x i x j 24

section précédente chapitre section suivante I4 sur la convexité I41 Définition de la convexité 26 I42 Fonctions convexes 28 I43 Caractérisation de la convexité en termes du hessien 30 I44 Caractérisation de la convexité en termes du gradient 32 25

section suivant I41 Définition de la convexité : Exemple I5 La convexité est à la base une propriété géométrique, assez intuitive d ailleurs, qui permet de caractériser certains objets On voit assez bien ce qu est un objet convexe dans un espace à deux ou trois dimensions Nous allons maintenant montrer comment cette propriété peut aussi s appliquer aux fonctions de R n dans R objet convexe objet non convexe x x y y Définition I41 Un ensemble K R n est dit convexe si pour tout couple (x, y) K 2 et λ [0, 1] on a λx + (1 λ)y K Cette définition peut s interpréter en disant que le segment reliant x et y doit être dans K Elle se généralise 26

section suivant de la façon suivante : on dira qu un vecteur y est une combinaison convexe des points {x 1,, x p } si on a p y = λ i x i, i=1 Définition de la convexité avec λ i 0 et p i=1 λ i = 1 On peut citer quelques cas particuliers : R n tout entier est un ensemble convexe, de même qu un singleton {a} Propriété I42 Soit une famille {K i } i=1p d ensembles convexes et S = p i=1 K i Alors S est convexe 27

précédent section suivant I42 Fonctions convexes fonction convexe fonction non-convexe x y x y Définition I43 On dit qu une fonction f : K R, définie sur un ensemble convexe K, est convexe si elle vérifie (x, y) K 2, λ [0, 1], f(λx + (1 λ)y) λf(x) + (1 λ)f(y) On dira que f est strictement convexe si (x, y) K 2, x y, λ ]0, 1[, f(λx + (1 λ)y) < λf(x) + (1 λ)f(y) Lorsque n = 1 cette définition s interprète bien géométriquement : le graphe de la fonction est toujours en dessous du segment reliant les points (x, f(x)) et (y, f(y)) Corollaire I44 On définit pour (x, y) K 2, où K est un ensemble convexe, la fonction ϕ : [0, 1] R par Alors on a l équivalence ϕ(t) = f(tx + (1 t)y) ϕ(t) convexe sur [0, 1], (x, y) K 2 f convexe sur K 28

précédent section suivant Démonstration : Si ϕ(t) est convexe sur [0, 1] on a en particulier ϕ(λ) λϕ(1) + (1 λ)ϕ(0), λ [0, 1], Fonctions convexes ce qui donne exactement La réciproque est admise f(λx + (1 λ)y) λf(x) + (1 λ)f(y) 29

précédent section suivant I43 Caractérisation de la convexité en termes du hessien : Exemple I6 Dans le cas où f : K R R on a le résultat suivant : Propriété I45 Si f : R R est 2 fois continûment dérivable sur K convexe alors f est convexe si et seulement si f (x) 0, x K et strictement convexe si et seulement si f (x) > 0, x K (sauf éventuellement en des points isolés) Ce résultat se généralise pour n > 1 : le résultat suivant fait le lien entre le hessien et la propriété de convexité : Théorème I46 Soit f : K R n R une fonction deux fois différentiable, alors f est convexe si et seulement si 2 f(x) 0, x K, et strictement convexe si et seulement si 2 f(x) > 0, x K Démonstration : La démonstration fait appel à un résultat obtenu dans l exercice I1 : si on définit ϕ(t) = f(x + ty) alors on a ϕ (t) = y 2 f(x + ty)y, et on sait grâce a la propriété I45 que f convexe si ϕ (t) 0, t On aura donc f convexe si et seulement si y 2 f(x + ty)y 0, (x, y) K 2, d où le résultat Le corrolaire suivant est immédiat : 30

précédent section suivant Propriété I47 Soit f une forme quadratique définie par f(x) = 1 2 x Ax b x, alors f est convexe si et seulement si A 0, et strictement convexe si et seulement si A > 0 Caractérisation de la convexité en termes du hessien Cela provient du fait que 2 f(x) = A (voir l exemple I4 ) 31

précédent section I44 Caractérisation de la convexité en termes du gradient Dans le cas où la fonction f n est supposée qu une fois différentiable, on a le résultat suivant : Théorème I48 Soit f : K R n R une fonction une fois différentiable, alors f est convexe si et seulement si f(y) f(x) + f(x) (y x), (x, y) K 2 La fonction f est strictement convexe si et seulement si f(y) > f(x) + f(x) (y x), (x, y) K 2, x y On voit bien l interprétation géométrique de ce dernier resultat quand n = 1 : le graphe d une fonction convexe f se trouve toujours au-dessus de la tangente en un point donné 32

section précédente chapitre section suivante I5 Résultats d existence et d unicité I51 Théoremes généraux d existence 34 I52 Unicité 36 33

section suivant I51 Théoremes généraux d existence Considérons notre problème d optimisation I11 introduit au début du cours, que l on écrira pour l occasion un peu différemment, en mettant les contraintes sous la forme x K R n : min f(x) x K (I51) Nous allons donner deux résultats très généraux d existence d une solution au problème (I51) Auparavant nous avons besoin de la définition d un ensemble compact : Définition I51 Un ensemble K R n est dit compact si, de toute suite {x k }, où x k K, k, on peut extraire une sous-suite convergente Nous donnons le théorème suivant sans démonstration : Théorème I52 Un ensemble K R n est compact si et seulement si il est fermé et borné Dans R, les intervalles fermés du type [a, b] (ou des reunions de tels intervalles) sont compacts La notion de fermeture signifie qu une suite {x k }, où x k K, k, doit converger vers une limite x K Pour illustrer sur un exemple qu un intervalle ouvert dans R ne peut pas être compact, on peut considérer l exemple suivant Soit K =]0, 1] et la suite x k = 1/k, on a bien x k K mais lim k = 0 K Voici maintenant deux résultats d existence, dont les démonstrations peuvent ètre consultées dans les documents Théorème I53 Si f : K R n R est continue et si de plus K est un ensemble compact, alors le problème (I51) admet une solution optimale ˆx K, qui vérifie donc f(ˆx) f(x), x K 34

section suivant Le second résultat est moins général car il considère le cas particulier K = R n : Théorème I54 Soit f : R n R une fonction continue sur R n Si lim f(x) =, x Théoremes généraux d existence alors (I51) admet une solution optimale ˆx Démonstration : f(x) > f(x 0 ), donc Soit x 0 R n Puisque lim x f(x) = il existe M > 0 tel que x > M M > 0, f(x) f(x 0 ) x M Puisque ˆx est caractérisé par f(ˆx) f(x), x R n, on a donc forcément ˆx M Donc ˆx est solution du problème min x M f(x), et le théorème précédent s applique, la boule {x R n, x M} étant compacte 35

précédent section I52 Unicité L unicité résulte en général de propriétés de convexité (de f et de K) Théorème I55 Soit f : K R n R strictement convexe sur K convexe Le minimum de f sur K, s il existe, est unique Démonstration : Soit donc ˆx K tel que f(ˆx) f(x), x K Supposons qu il existe ŷ ˆx tel que f(ŷ) f(x), x K Formons pour λ ]0, 1[ le vecteur u = λŷ + (1 λ)ˆx D après la stricte convexité de f et puisque nécessairement f(ŷ) = f(ˆx) on a f(u) < λf(ŷ) + (1 λ)f(ˆx) = f(ˆx), ce qui contredit le fait que ˆx soit un minimum On a donc ˆx = ŷ 36

section précédente chapitre section suivante I6 Conditions nécessaires d optimalité en l absence de contraintes I61 Conditions nécessaires 38 I62 Conditions nécessaires et suffisantes 39 37

section suivant I61 Conditions nécessaires On va maintenant regarder de plus près le cas où K = R n, c est à dire le problème sans contraintes (P ) Dans le cas où f est différentiable, on a le résultat suivant : Théorème I61 Soit f : R n R différentiable et ˆx vérifiant f(ˆx) f(x), x R n, alors on a nécessairement f(ˆx) = 0 Démonstration : Pour tout t R et pour tout h R n on a On a donc et f(ˆx) f(ˆx + th) f(ˆx) f(ˆx + th) lim t 0 + = f(ˆx) h 0, t f(ˆx) f(ˆx + th) lim t 0 = f(ˆx) h 0, t donc f(ˆx) h = 0, h R n, donc f(ˆx) = 0 (prendre par exemple h = f(ˆx)) 38

précédent section I62 Conditions nécessaires et suffisantes La condition de gradient nul devient suffisante dans le cas où f est convexe : Théorème I62 Soit f : R n R convexe et différentiable Si ˆx vérifie f(ˆx) = 0, alors on a f(ˆx) f(x), x R n Démonstration : Soient x R n et λ [0, 1] Puisque f est convexe on a f(λˆx + (1 λ)x) λf(x) + (1 λ)f(ˆx) On retranche f(ˆx) de chaque côté de l inégalité, on note que λx + (1 λ)ˆx = ˆx + λ(x ˆx), puis in divise par λ, ce qui donne l inégalité Et si on fait tendre λ vers 0 on obtient donc 0 f(x) f(ˆx) f(ˆx + λ(x ˆx)) f(ˆx) λ f(x) f(ˆx) f(ˆx) (x ˆx) f(x) f(ˆx), Lorsque la fonction n est pas convexe, on ne peut donner qu une condition nécessaire et suffisante d optimalité locale On désignera par minimum local (que l on oppose au minimum global) un vecteur vérifiant les conditions suivantes : 39

précédent section Définition I63 On appellera x minimum local de f, s il existe δ > 0 tel que f(x ) f(x), x, x x δ Conditions nécessaires et suffisantes Dans le cas où f est deux fois différentiable on peut alors donner le résultat suivant : Théorème I64 Soit f : R n R deux fois différentiable Si { f(x ) = 0, 2 f(x ) > 0, alors x est un minimum local de f Démonstration : On a f(x + th) = f(x ) + t f(x ) h + t2 2 h 2 f(x )h + t 2 h 2 ε(th), = f(x ) + t2 2 h 2 f(x )h + t 2 h 2 ε(h) On a donc pour t > 0 f(x + th) f(x ) t 2 = 1 2 h 2 f(x )h + h 2 ε(th) Donc si t est suffisamment petit on aura bien f(x + th) f(x ) > 0 puisque 2 f(x ) > 0 40

section précédente chapitre section suivante du chapitre I I1 Courbes de niveau d une forme quadratique dans R 2 42 I2 Gradient d une fonction quadratique 44 I3 Dérivée d une fonction affine 45 I4 Matrice hessienne d une fonction quadratique 46 I5 Combinaison convexe de points dans le plan 47 I6 Convexité d une fonction quadratique 48 41

section suivant Exemple I1 Courbes de niveau d une forme quadratique dans R 2 On considère la fonction f(x) = 1 2 x Ax b x où A est une matrice symétrique 2 2 définie positive On note P la matrice des vecteurs propres et λ 1 > λ 2 > 0 les deux valeurs propres Notons ˆx la solution du système linéaire Aˆx = b On a montré que les courbes iso-valeurs sont définies par l équation 1 2 (λ 1z 2 1 + λ 2 z 2 2) = c f(ˆx), où on a effectué le changement de variable z = P (x ˆx) Si on a c f(ˆx), l équation ci-dessus définit une ellipse dans le repère (z 1, z 2 ), dont l équation canonique est donnée par avec a = z 1 a 2 z 2 2 + = 1, b 2(c f(ˆx)) 2(c f(ˆx)), b = λ 1 λ 2 On sait que l on peut décrire cette ellipse par la courbe paramétrique z(t), t [0, 2π] avec ( ) a cos t z(t) =, b sin t donc l équation paramétrique de la courbe x(t) dans le repère original est ( ) a cos t x(t) = ˆx + P b sin t 42

section suivant Lancer la simulation 1016 810 603 + Exemple I1 Courbes de niveau d une forme quadratique dans R 2 397 190-016 -431-248 -065 117 300 483 665 848 1031 Retour au grain 43

précédent section suivant Exemple I2 Gradient d une fonction quadratique On considère la fonction f(x) = 1 2 x Ax b x où A est une matrice carrée symétrique n n On a on a donc f(x + th) = 1 2 x Ax + 1 2 t2 h Ah + tx Ah + b (x + th), = f(x) + t(x A b )h + 1 2 t2 h Ah, f(x + th) f(x) t Puisque lim t 0 1 2 th Ah = 0, on a donc f(x) = Ax b = (Ax b) h + 1 2 th Ah Retour au grain 44

précédent section suivant Exemple I3 Dérivée d une fonction affine On considère la fonction f(x) = Cx + d où C est une matrice m n On a f(x + h) = Cx + Ch + d = f(x) + Ch Donc f (x) = C, x R n On notera qu ici f est différentiable pour tout x R n, ce qui n est pas forcément le cas quand f est quelconque Retour au grain 45

précédent section suivant Exemple I4 Matrice hessienne d une fonction quadratique n n L exemple précédent nous a donné f(x) = Ax b Puisque la matrice hessienne est la dérivée du gradient on a donc 2 f(x) = A Retour au grain 46

précédent section suivant 47 Exemple I5 Combinaison convexe de points dans le plan Lancer la simulation -187-110 -034 043 119 196-113 -059-005 049 103 157 Ο Ο Ο Ο Ο Ο Ο Ο Ο Ο Ο Ο Considérons un ensemble de points du plan {x 1,, x p } La simulation qui est proposée ici permet de générer aléatoirement un très grand nombre de points de la forme y k = p i=1 λ i x i, en tirant aléatoirement les coefficients {λ i } i=1p suivant une loi uniforme sur [0, 1], renormalisés en les divisant par leur somme, de façon à ce que l on ait toujours p i=1 λ i = 1 Le polygone limite contenant tous les points générés s appelle l enveloppe convexe des points {x 1,, x p } Retour au grain

précédent section Exemple I6 Convexité d une fonction quadratique On considère la fonction f(x) = 1 2 x Ax b x où A est une matrice carrée symétrique Puisque 2 f(x) = A (voir l exemple précédent), f est convexe si et seulement si A 0, strictement convexe lorsque A > 0 Retour au grain 48

section précédente chapitre du chapitre I I1 Calcul d une dérivée composée 50 I2 Calcul du gradient d une fonction quadratique 51 I3 Calcul d une dérivée seconde composée 52 I4 Calcul du hessien d une fonction quadratique 53 49

section suivant Exercice I1 Calcul d une dérivée composée Soit f : R n R définie par et x : R R n On définit la fonction réelle g(t) = f(x(t)) Calculer g (t) Retour au grain 50

précédent section suivant Exercice I2 Calcul du gradient d une fonction quadratique On considère la fonction f(x) = 1 2 x Ax b x où A est une matrice n n Montrer que l on a f(x) = 1 2 (A + A )x b Retour au grain 51

précédent section suivant Exercice I3 Calcul d une dérivée seconde composée Soit f : R n R définie par et x : R R n On définit la fonction réelle g(t) = f(x(t)) Calculer g (t) dans le cas où x(t) = (u + tv) où u et v sont deux vecteurs de R n, puis pour x(t) quelconque Retour au grain 52

précédent section Exercice I4 Calcul du hessien d une fonction quadratique On considère la fonction f(x) = 1 2 x Ax b x où A est une matrice n n Montrer que l on a 2 f(x) = 1 2 (A + A ) Retour au grain Aide 1 53

précédent suivant Chapitre II Les méthodes de gradient II1 Les méthodes de descente 55 II2 Les méthodes de gradient 58 du chapitre II 62 54

chapitre section suivante II1 Les méthodes de descente II11 Principe des méthodes de descente 56 55

section II11 Principe des méthodes de descente Définition II11 Soit f : R n R On dira qu un vecteur d est une direction de descente en x s il existe t > 0 tel que f(x + td) < f(x), t ]0, t] Le principe d une méthode de descente consiste à faire les itérations suivantes x k+1 = x k + t k d k, t k > 0, (II11) tout en assurant la propriété f(x k+1 ) < f(x k ) Le vecteur d k est la direction de descente en x k Le scalaire t k est appelé le pas de la méthode à l itération k On peut caractériser les directions de descente en x k à l aide du gradient : Proposition II11 Soit d R n vérifiant f(x) d < 0, alors d est une direction de descente en x Démonstration : on a pour t > 0 f(x + td) = f(x) + t f(x) d + tε(t), donc si on écrit f(x + td) f(x) = f(x) d + ε(t), t on voit bien que pour t suffisamment petit on aura f(x + td) f(x) < 0 56

section Dans la méthode (II11) le choix de t k est lié à la fonction ϕ(t) = f(x k + td k ), en particulier, une façon de choisir t k peut être de résoudre le problème d optimisation (à une seule variable) Principe des méthodes de descente min ϕ(t) t>0 Le pas ˆt k obtenu ainsi s appelle le pas optimal La fonction ϕ(t) = f(x k + td k ) étant différentiable, on a alors nécessairement ϕ (ˆt k ) = f(x k + ˆt k d k ) d k = 0 57

section précédente chapitre section suivante II2 Les méthodes de gradient II21 Principe des méthodes de gradient 59 II22 La méthode du gradient à pas optimal 60 II23 Calcul du pas optimal dans le cas quadratique 61 58

section suivant II21 Principe des méthodes de gradient : Exemple II1 On cherche à déterminer la direction de descente qui fait décroitre ϕ(t) = f(x + td) le plus vite possible (au moins localement) Pour cela on va essayer de minimiser la dérivée de ϕ(t) en 0 On a ϕ (0) = f(x) d, et on cherche d solution du problème La solution est bien sûr min ϕ (0) d R n, d =1 d = f(x) f(x), en vertu de l inégalité de Schwartz Il y a ensuite de nombreuses façon d utiliser cette direction de descente On peut par exemple utiliser un pas fixé a priori t k = ρ > 0, k On obtient alors la méthode du gradient simple : { d k = f(x k ), x k+1 = x k + ρd k Sous certaines hypothèses de régularité (f deux fois différentiable) cette méthode converge si ρ est choisi assez petit 59

précédent section suivant II22 La méthode du gradient à pas optimal La méthode du gradient à pas optimal consiste à faire les itérations suivantes { d k = f(x k ), x k+1 = x k + t k d k, (II21) où t k est choisi de manière à ce que f(x k + t k d k ) f(x k + td k ), t > 0 (II22) Cette méthode possède une propriété interessante : Proposition II21 Soit f : R n R une fonction différentiable Les directions de descente d k générées par la méthode (II21)-(II22) vérifient d k+1d k = 0 Démonstration : Si on introduit la fonction ϕ(t) = f(x k + td k ), on a ϕ (t) = f(x k + td k ) d k, et puisque ϕ est dérivable on a nécessairement ϕ (t k ) = 0 donc f(x k + t k d k ) d k = f(x k+1 ) d k = d k+1d k = 0 60

précédent section II23 Calcul du pas optimal dans le cas quadratique : Exemple II2 On a f(x) = 1 2 x Ax b x avec A > 0 et on note ϕ(t) = f(x k + td k ) Le pas optimal t k est caractérisé par ϕ (t k ) = 0, on a donc soit on obtient donc f(x k + t k d k ) d k = (A(x k + t k d k ) b) d k = 0, ( f(x k ) + t k Ad k ) d k = 0, t k = f(x k) d k d k Ad, k qui est bien positif car d k est une direction de descente et d k Ad k > 0 (car A > 0) La méthode du gradient à pas optimal peut donc s écrire (dans le cas quadratique) d k = b Ax k, t k = d k d k d k Ad, k x k+1 = x k + t k d k (II23) 61

section précédente chapitre du chapitre II II1 Méthode du gradient simple dans le cas quadratique 63 II2 Méthode du gradient à pas optimal dans le cas quadratique 64 62

section suivant Exemple II1 Méthode du gradient simple dans le cas quadratique Dans le cas où f(x) = 1 2 x Ax b x la méthode du gradient simple peut s écrire { d k = b Ax k, x k+1 = x k + ρd k, (II24) où ρ > 0 est fixé a priori Il existe bien sûr des conditions sur ρ pour que la méthode converge Nous illustrons ici le fonctionnement de la méthode dans le cas n = 2 sur une petite simulation 11 7 Lancer la simulation 3-1 + ΟΟ Ο Ο Ο Ο Ο Ο Ο -5-9 -132-75 -18 38 95 152 Retour au grain 63

ΟΟ Ο ΟΟ Ο précédent section Exemple II2 Méthode du gradient à pas optimal dans le cas quadratique Dans le cas où f(x) = 1 2 x Ax b x la méthode du gradient à pas optimal peut s écrire Ο Ο d k = b Ax k, t k = d k d k d k Ad, k x k+1 = x k + t k d k, (II25) Nous illustrons ici le fonctionnement de la méthode dans le cas n = 2 sur une petite simulation Ο Ο 613 511 Ο Ο Lancer la simulation 409 306 Ο Ο Ο + 204 102-174 -030 115 260 405 550 Retour au grain 64

précédent suivant Chapitre III La méthode du gradient conjugué III1 Introduction 66 III2 La méthode du gradient conjugué 72 III3 Interprétation de la méthode du gradient conjugué 78 65

chapitre section suivante III1 Introduction III11 Directions conjuguées 67 III12 Lemme fondamental 69 66

section suivant III11 Directions conjuguées Définition III11 Soit A une matrice symétrique n n, définie positive On dit que deux vecteurs x et y de R n sont A conjugués (ou conjugués par rapport à A) s il vérifient x Ay = 0 (III11) La matrice A étant définie positive, la forme bilinéaire a(x, y) = x Ay définit un produit scalaire et la relation (III11) traduit l orthogonalité des vecteurs x et y pour ce produit scalaire La démonstration du théorème suivant est laissée en exercice Théorème III12 Si {d 0, d 1,, d k } sont des directions A conjuguées deux à deux, soit alors elles sont linéairement indépendantes d i Ad k = 0, i, j, i < j k, Considérons maintenant dans R 2 une méthode de descente appliquée à la minimisation d une forme quadratique définie positive f(x) = 1 2 x Ax b x : x 1 = x 0 + ρ 0 d 0, x 2 = x 1 + ρ 1 d 1, avec d 0 et d 1 deux directions A conjuguées et ρ 0 et ρ 1 déterminés de façon optimale On a donc les relations suivantes : f(x 1 ) d 0 = (Ax 1 b) d 0 = 0, f(x 2 ) d 1 = (Ax 2 b) d 1 = 0, car ρ 0 et ρ 1 sont optimaux Montrons que l on a de plus f(x 2 ) d 0 = 0 67

section suivant On a f(x 2 ) d 0 = (Ax 2 b) d 0 = (A(x 1 + ρ 1 d 1 ) b) d 0, = (Ax 1 b) d 0 + ρ 1 d 1 Ad 0, = 0 Directions conjuguées Puisque f(x 2 ) d 0 = f(x 2 ) d 1 = 0 et d 0, d 1 linéairement indépendants, on a f(x 2 ) = 0, x 2 réalise donc le minimum de f sur R 2 La relation de conjugaison permet donc à la méthode de descente de converger en deux itérations (dans le cas où n = 2) Définition III13 Soit {d 0, d 1,, d n } une famille de vecteur A conjugués On appelle alors méthode de directions conjuguées la méthode { x 0 donné x k+1 = x k + ρ k d k, ρ k optimal On va maintenant montrer la propriété vérifiée pour n = 2, à savoir x n = ˆx où ˆx réalise le minimum de f(x) = 1 2 x Ax b x, est valable pour tout n 68

précédent section III12 Lemme fondamental On se donne a priori une famille {d 0, d 1,, d n } de directions conjuguées et on note E k = Vect(d 0, d 1,, d k 1 ), le sous-espace vectoriel engendré par les vecteurs d 0, d 1,, d k 1 Par construction, l algorithme de directions conjugué { x 0 donné, (III12) x k+1 = x k + ρ k d k, ρ k optimal, construit itérativement un vecteur x k vérifiant Voici l énoncé du lemme fondamental : x k x 0 + E k Lemme III14 Le vecteur x k défini par l algorithme (III12) réalise le minimum de f(x) = 1 2 x Ax b x sur le sous espace x 0 + E k, c est à dire x k x 0 + E k et f(x k ) f(x), x x 0 + E k Pour la démonstration de ce lemme nous aurons besoin du théorème suivant : Théorème III15 Une condition nécessaire et suffisante pour que x k E k + x 0 réalise le minimum de f(x) = 1 2 x Ax b x sur le sous espace x 0 + E k est f(x k ) d i = 0, i = 0,, k 1 69

précédent section Démonstration : Condition nécéssaire : supposons que f(x k ) f(x), x x 0 + E k On a donc pour tout t R, f(x k ) f(x k + td), d E k On a donc soit (f(x k + td) f(x k ))/t 0, si t > 0, soit (f(x k + td) f(x k ))/t 0, si t < 0 Si l on fait tendre t vers zéro, on en conclut que Lemme fondamental f(x k ) d = 0, d E k, donc en particulier f(x k ) d i = 0, i = 0,, k 1 On admettra que la condition est suffisante Démonstration du lemme fondamental : Pour k = 1 on a x 1 = x 0 + ρ 0 d 0, avec ρ 0 optimal, c est à dire f(x 1 ) d 0 = 0 Puisque d 0 E 1 la propriété est donc vérifiée pour k = 1 Supposons maintenant que la propriété est vérifiée à l ordre k : f(x k ) d i = 0, i = 0,, k 1 D une part ρ k est optimal donc f(x k+1 ) d k = 0 D autre part on a pour 0 i < k f(x k+1 ) d i = (A(x k + ρ k d k ) b) d i, = (Ax k b) d i + ρ k d k Ad i = 0, 70

précédent section car ρ k est optimal et d k Ad i = 0 (conjugaison) On a donc f(x k+1 ) d i, i = 0,, k, Lemme fondamental ce qui démontre le lemme fondamental Un corollaire direct est donc que la méthode de directions conjuguées converge en n itérations au plus, puisque E n 1 = R n 71

section précédente chapitre section suivante III2 La méthode du gradient conjugué III21 Algorithme de la méthode du gradient conjugué 73 III22 La méthode du gradient conjugué dans le cas général 76 72

section suivant III21 Algorithme de la méthode du gradient conjugué L idée de la méthode est de construire itérativement des directions d 0,, d k muutellement conjuguées A chaque étape k la direction d k est obtenue comme combinaison linéaire du gradient en x k et de la direction précédente d k 1, les coefficients étant choisis de telle manière que d k soit conjuguée avec toutes les directions précédentes Si l on note g k = f(x k ), l algorithme prend la forme suivante On se donne x 0 et on pose d 0 = g 0 x k+1 = x k + ρ k d k, avec (III21) ρ k = g k d k, d k Ad k (III22) d k+1 = g k+1 + β k d k, avec (III23) β k = g k+1 Ad k d k Ad k (III24) Notons d une part que la formule (III22) définit bien le pas optimal : en effet on a bien f(x k+1 ) d k = g k d k + ρ k d k Ad k = 0 On va maintenant montrer que l algorithme ci-dessus définit bien une méthode de directions conjuguées Théorème III21 A une itération k quelconque de l algorithme où l optimum n est pas encore atteint, c est 73

section suivant à dire g k 0, on a : ρ k = g k g k d k Ad k, β k = g k+1 (g k+1 g k ) g k g k (III25) (III26) Algorithme de la méthode du gradient conjugué et les directions d 0,, d k+1 sont mutuellement conjuguées, = g k+1 g k+1 gk g, (III27) k Démonstration : conjuguées On raisonne par récurrence sur k en supposant que d 0,, d k sont mutuellement - Montrons d abord l équivalence de III22 et III25 Comme d 0,, d k sont mutuellement conjuguées x k réalise le minimum de f sur x 0 + E k, on a g k d k 1 = 0 d où g k d k = g k ( g k + β k d k 1 ) = g k g k - Pour montrer (III26) on note que on a alors g k+1 g k = A(x k+1 x k ) = ρ k Ad k, g k+1ad k = 1 ρ k g k+1(g k+1 g k ), (III28) et en utilisant (III25) il vient bien β k = g k+1 (g k+1 g k ) gk g, k 74

section suivant ce qui démontre (III26) On a de plus g k+1 g k = 0 car g k = d k β k 1 d k 1 appartient à E k+1 et que g k+1 est orthogonal à ce sous-espace (les directions d 0,, d k sont conjuguées, par hypothèse de récurrence), ceci démontre (III27) - Montrons maintenant que d k+1 Ad i = 0, pour i = 0,, k On a d une part Algorithme de la méthode du gradient conjugué d k+1ad k = ( g k+1 + β k d k ) Ad k = 0, par définition de β k D autre part, on a pour i < k d k+1ad i = gk+1ad i + β k d k Ad i, avec d k Ad i = 0 en vertu de l hypothèse de récurrence On a ensuite, en utilisant la formule (III28] gk+1ad i = 1 g ρ k+1(g i+1 g i ), i et si l on note que on a bien g i+1 g i = d i+1 + (β i + 1)d i β i 1 d i 1, g k+1(g i+1 g i ) = 0, car gk+1 d i+1 = gk+1 d i = gk+1 d i 1 = 0, en vertu du fait que g k+1 est orthogonal à E k+1 et que i < k On a donc bien d k+1 Ad i = 0, ce qui achève la démonstration 75

précédent section III22 La méthode du gradient conjugué dans le cas général La méthode de Fletcher et Reeves est une extension directe de la méthode du Gradient conjugué pour les fonction quelconques Appliquée à une fonction quadratique, elle se comporte comme cette dernière : On se donne x 0 et on pose d 0 = f(x 0 ) x k+1 = x k + ρ k d k, avec ρ k optimal (III29) d k+1 = f(x k+1 ) + β k d k, avec (III210) β k = f(x k+1) 2 f(x k ) 2 (III211) Cette méthode est intéressante car elle ne nécéssite pas de stocker une matrice (contrairement aux méthodes qui seront vues dans les chapitres suivants) Sa vitesse de convergence est très supérieure à celle de la méthode du gradient (ce point sera clarifié pour le cas quadratique dans le grain suivant) La variante dite de Polak-Ribière consiste à définir β k par la formule (III26) On peut démontrer la convergence de la méthode de Fletcher-Reeves pour une classe assez large de fonctions f, ce qu on ne peut pas faire pour la variante de Polak-Ribière Par contre on peut montrer que cette dernière converge plus rapidement (quand elle converge effectivement!), c est donc la méthode qui est utilisée en général L efficacité de la méthode du gradient conjugué repose essentiellement sur deux points : La recherche linéaire (détermination du pas optimal) doit être exacte, Les relations de conjugaison doivent être précises La recherche du pas optimal doit être réalisée à l aide d un algorithme spécifique (c est l objet du prochain chapitre) puisque f est quelconque Par contre la notion de conjugaison n a pas de sens dans le cas nonquadratique (sauf près de l optimum, mais on ne le connaît pas Il faut donc tester au cours des itérations si l hypothèse d approximation quadratique est vérifiée On peut surveiller les indicateurs suivants 76

précédent section f(x k+1 ) f(x k ) doit être petit On doit avoir f(x k+1 ) d k+1 f(x k+1 ) d k+1 α, avec 0 < α 0 pas trop petit, c est à dire que d k+1 doit être une direction de descente «raisonnable» Dans le cas où ces conditions ne sont pas vérifiées, on rompt la conjugaison et on redémarre l algorithme avec d k+1 = f(x k+1 ) On peut aussi décider de faire ce redémarrage arbitrairement toutes les p itérations (p fixé de l ordre de n par exemple) La méthode du gradient conjugué dans le cas général 77

section précédente chapitre III3 Interprétation de la méthode du gradient conjugué III31 Interprétation de la méthode du gradient conjugué 79 III32 Convergence de la méthode du gradient conjugué 81 78

section suivant III31 Interprétation de la méthode du gradient conjugué Définition III31 On appelle kième sous-espace de Krylov associé à la matrice A et au vecteur g 0 le sous espace K k = Vect(g 0, Ag 0,, A k 1 g 0 ) Par construction, dans la méthode du gradient conjugué appliqué au cas quadratique, on a E k = K k, comme le montre le résultat suivant : Proposition III31 Dans la méthode du gradient conjugué on a E k = Vect(d 0, d 1,, d k 1 ) = Vect(g 0, Ag 0,, A k 1 g 0 ) Démonstration : Cette propriété est vérifiée à l ordre k = 1 puisque d 0 = g 0 Supposons qu elle soit vérifiée à l ordre k On a alors la formule (III26) qui nous permet d écrire d k+1 = A(x k + ρ k d k ) b + β k d k, = g k + ρ k Ad k + β k d k, = d k β k 1 d k 1 + ρ k Ad k + β k d k, ce qui permet de conclure que d k+1 K k+1 La propriété est donc vérifiée pour tout k > 0 Comme dans le cas de l algorithme du gradient à pas optimal, nous choisissons maintenant de mesurer la distance séparant x k du vecteur ˆx = A 1 b à l aide de la fonction définie par E(x) = x ˆx 2 A = (x ˆx) A(x ˆx) Minimiser E(x) est équivalent à minimiser f(x) = 1 2 x Ax b x comme le montre la proposition suivante (à démontrer en exercice) 79

section suivant Proposition III32 a où c est une constante Soit f(x) = 1 2 x Ax b x une forme quadratique définie positive et ˆx = A 1 b On E(x) = (x ˆx) A(x ˆx) = f(x) + c, Interprétation de la méthode du gradient conjugué On va maintenant illustrer d un autre point de vue la convergence particulière de l algorithme du gradient conjugué Tout vecteur x x 0 + E k s écrit et comme g 0 = Ax 0 b = A(x 0 ˆx) on a donc k 1 x = x 0 + γ j A j g 0, j=0 k 1 x ˆx = x 0 ˆx + γ j A j+1 (x 0 ˆx) = p(a)(x 0 ˆx), j=0 où le polynôme k 1 p(z) = 1 + γ j z j+1 est de degré k et satisfait p(0) = 1 Puisque le vecteur x k obtenu à l étape k de l algorithme du gradient conjugué vérifie f(x k ) f(x), x E k + x 0, j=0 on a, en vertu du résultat démontré dans la proposition précédente, pour tout polynome p P k vérifiant p(0) = 1 E(x k ) = x k ˆx 2 A p(a)(x 0 ˆx) 2 A, 80

précédent section III32 Convergence de la méthode du gradient conjugué Le résultat suivant va nous permettre de retrouver d une autre manière la propriété de convergence finie de l algorithme du GC : Proposition III33 du GC Alors on a Soit A une matrice définie positive et x k le vecteur obtenu à l étape k de l algorithme E(x k ) E(x 0 ) min p P k,p(0)=1 max z σ(a) p(z)2 Démonstration : Puisque la matrice A est définie positive il existe une matrice orthogonale U telle que A = UDU avec D =diag(λ 1,, λ n ), où σ(a) = {λ i } i=1n sont les valeurs propres de A Si on définit A 1/2 = UD 1/2 U on a x 2 A A = 1/2 x 2, donc p(a)(x 0 ˆx) 2 A A = 1/2 p(a)(x 0 ˆx) 2 p(a) 2 x 0 ˆx 2 A, où on a utilisé la propriété que p(a) et A 1/2 commutent (ces deux matrices ont les mêmes vecteurs propres) Puisque l on a aussi A j = UD j U les valeurs propres de p(a) sont données par les nombres p(λ i ) pour i = 1 n, et donc p(a) 2 = max i=1n p(λ i) 2 On a donc bien E(x k ) E(x 0 ) min p P k,p(0)=1 max z σ(a) p(z)2 81

précédent section On a le corollaire suivant, qui permet d exhiber le polynôme optimal p(z) pour k = n : Théorème III32 Soit A une matrice définie positive L algorithme du GC converge en n itérations au plus Plus précisément, si la matrice A possède k n valeurs propres distinctes, alors L algorithme du GC converge en k itérations au plus Convergence de la méthode du gradient conjugué Démonstration : Dans les deux cas possibles, notons p(z) = Π k λ i z i=1 λ i On a bien p(z) de degré k, p(0) = 1 et par construction p(λ i ) = 0 pour i = 1 k En vertu du résultat montré dans la proposition III33, on a donc E(x k ) = 0, soit x k = ˆx La méthode du gradient conjugué étant en général utilisée comme une méthode itérative, il est intéressant de la comparer à la méthode du gradient à pas optimal Le résultat suivant sera admis (la démonstration repose sur la détermination d un polynôme particulier p(z) solution d un problème de moindre carrés) Théorème III33 Soit A une matrice définie positive et x k le vecteur obtenu à l étape k de l algorithme du GC Alors on a ( ) 2k χ(a) 1 E(x k ) 4E(x 0 ), χ(a) + 1 où on a noté χ(a) = λ n /λ 1 le conditionnement de A pour la norme euclidienne Pour l algorithme du gradient à pas optimal on avait ( ) 2k χ(a) 1 E(x k ) E(x 0 ), χ(a) + 1 82

précédent section on voit donc que pour une même matrice A, la méthode du gradient conjugué convergera plus rapidement Cependant cette estimation peut être très pessimiste car dans le cas où les valeurs propres sont groupées autour de valeurs distinctes, on peut être très proche du cas ou certaines valeurs propres sont multiples (et ou le nombre théorique d itérations est inférieur à n) tout en ayant un mauvais conditionnement Convergence de la méthode du gradient conjugué 83

précédent suivant Chapitre IV Méthodes de recherche linéaire IV1 introduction 85 IV2 Caractérisation de l intervalle de sécurité 88 84

chapitre section suivante IV1 introduction IV11 But de la recherche linéaire 86 IV12 Intervalle de sécurité 87 85

section suivant IV11 But de la recherche linéaire On a vu que dans le cas non-quadratique les méthodes de descente : x k+1 = x k + t k d k, t k > 0, nécéssitent la recherche d une valeur de t k > 0, optimale ou non, vérfiant f(x k + t k d k ) f(x k ) On définit comme précedemment la fonction ϕ(t) = f(x k + td k ) Rappellons que si f est différentiable, le pas optimal ˆt peut être caractérisé par { ϕ (ˆt) = 0, ϕ(ˆt) ϕ(t), pour 0 t ˆt, autrement dit, ˆt est un minimum local de ϕ qui assure de plus la décroissance de f En fait, dans la plupart des algorithmes d optimisation modernes, on ne fait jamais de recherche linéaire exacte, car trouver ˆt signifie qu il va falloir calculer un grand nombre de fois la fonction ϕ, et cela peut être dissuasif du point de vue du temps de calcul En pratique, on recherche plutot une valeur de t qui assure une décroissance suffisante de f Cela conduit à la notion d intervalle de sécurité 86

précédent section IV12 Intervalle de sécurité Définition IV11 On dit que [a, b] est un intervalle de sécurité s il permet de classer les valeurs de t de la façon suivante : Si t < a alors t est considéré trop petit, Si b t a alors t est satisfaisant, Si t > b alors t est considéré trop grand Le problème est de traduire de façon numérique sur ϕ les trois conditions précédentes, ainsi que de trouver un algorithme permettant de déterminer a et b L idée est de partir d un intervalle suffisament grand pour contenir [a, b], et d appliquer un bonne stratégie pour itérativement réduire cet intervalle Algorithme de base Initialement, on part de [α, β] contenant I = [a, b], par exemple en prenant α = 0 et β tel que ϕ(β) > ϕ(0) (une telle valeur de β existe avec un minimum d hypothèses, par exemple f coercive) On fait ensuite les itérations suivantes : 1 On choisit t dans l intervalle [α, β] 2 Si t est trop petit on prend α = t et on retourne en 1 3 Si t est trop grand on prend β = t et on retourne en 1 4 Si t convient on s arrète Il faut maintenant préciser quelles sont les relations sur ϕ qui vont nous permettre de caractériser les valeurs de t convenables, ainsi que les techniques utilisées pour réduire l intervalle (point nř1 ci-dessus) 87

section précédente chapitre IV2 Caractérisation de l intervalle de sécurité IV21 La règle d Armijo 89 IV22 La règle de Goldstein 91 IV23 La règle de Wolfe 93 IV24 Réduction de l intervalle 95 IV25 Réduction de l intervalle par interpolation cubique 96 88

section suivant IV21 La règle d Armijo Dans la règle d Armijo on prend α = 0, un réel 0 < m < 1 La règle est la suivante : ϕ(t) m 1 ϕ (0) a b t ϕ (0) Règle d Armijo Si ϕ(t) ϕ(0) + mϕ (0)t, alors t convient Si ϕ(t) > ϕ(0) + mϕ (0)t, alors t est trop grand 89

section suivant On peut noter que l on a ϕ(0) = f(x k ), ϕ (0) = f(x k ) d k La règle d Armijo Puisque α = 0, t n est jamais considéré trop petit, c est pourquoi la règle d Armijo est peu utilisée seule 90

précédent section suivant IV22 La règle de Goldstein En ajoutant une deuxième inégalité à la règle d Armijo on obtient la règle de Goldstein, où m 1 et m 2 sont deux constantes vérifiant 0 < m 1 < m 2 : ϕ(t) m 1 ϕ (0) a b t ϕ (0) m 2 ϕ (0) Règle de Goldstein Si ϕ(t) < ϕ(0) + m 2 ϕ (0)t, alors t est trop petit Si ϕ(t) > ϕ(0) + m 1 ϕ (0)t, alors t est trop grand si ϕ(0) + m 1 ϕ (0)t ϕ(t) ϕ(0) + m 2 ϕ (0)t, alors t convient 91

précédent section suivant Le choix de m 2 doit être tel que dans le cas quadratique, le pas optimal appartienne à l intervalle de sécurité (c est bien la moindre des choses) Dans le cas quadratique on a La règle de Goldstein ϕ(t) = 1 2 at2 + ϕ (0)t + ϕ(0), a > 0, et le pas optimal ˆt vérifie ϕ (ˆt) = 0, soit ˆt = ϕ (0)/a On a donc (exercice) ϕ(ˆt) = ϕ(0) + ϕ (0) 2 ˆt Donc ˆt sera considéré comme satisfaisant si m 2 1 2 Des valeurs typiques utilisées dans la pratique sont m 1 = 01 et m 2 = 07 Théorème IV21 Soit f : R n R coercive, c est à dire f continue et Soit l algorithme de gradient lim x f(x) = + x k+1 = u k ρ k g k, où g k = f(x k ) où à chaque itération le pas ρ k satisfait à la règle de Goldstein ϕ(0) + m 2 ϕ (0)ρ k ϕ(ρ k ) ϕ(0) + m 1 ϕ (0)ρ k, où ϕ(ρ) = f(x k ρg k ) et 0 < m 1 < m 2 < 1 Alors la suite x k est bornée, la suite f(x k ) est décroissante et convergente, et le vecteur g k vérifie lim k g k = 0 92

précédent section suivant IV23 La règle de Wolfe La règle de Wolfe fait appel au calcul de ϕ (t), elle est donc en théorie plus coûteuse que la règle de Goldstein Cependant dans de nombreuses applications, le calcul du gradient f(x) représente un faible coût additionnel en comparaison du coût d évaluation de f(x) (par exemple en contrôle optimal), c est pourquoi cette règle est très utilisée Le calcul des dérivées de ϕ permet de plus d utiliser une méthode d interpolation cubique dans la phase de réduction de l intervalle, comme nous le verrons plus loin ϕ(t) a ϕ (0) m 2 ϕ (0) b m 1 ϕ (0) t 93

précédent section suivant Règle de Wolfe Si ϕ(t) > ϕ(0) + m 1 ϕ (0)t, alors t est trop grand Si ϕ(t) ϕ(0) + m 1 ϕ (0)t et ϕ (t) < m 2 ϕ (0), alors t est trop petit Si ϕ(t) ϕ(0) + m 1 ϕ (0)t et ϕ (t) m 2 ϕ (0), alors t convient Dans cette règle, on s assure que t n est pas trop petit en assurant que ϕ (t) a suffisamment augmenté La règle de Wolfe 94

précédent section suivant IV24 Réduction de l intervalle Le premier problème à résoudre est celui de la détermination d un intervalle de départ [α, β] On peut commencer par choisir α = 0, et utiliser une valeur initiale de t censée être une bonne valeur de départ (ce point sera clarifié plus loin) Recherche d un intervalle de départ 1 Si t est satisfaisant alors on s arrête 2 Si t est trop grand, alors on prend β = t et on s arrête 3 Si t est trop petit, on fait t ct, c > 1, et on retourne en 1 Cet algorithme donne un intervalle initial [α, β] qu il va falloir ensuite réduire, sauf si t est admissible, auquel cas la recherche linéaire est terminée, ce peut être le cas si la valeur initiale de t est bien choisie Réduction de l intervalle On suppose maintenant que l on dispose d un intervalle [α, β] mais que l on n a pas encore de t satisfaisant Une manière simple de faire est de procéder par exemple par dichotomie, en choisissant t = α + β, 2 puis en conservant soit [α, t] ou [t, β] suivant que t est trop grand ou trop petit Le problème est que cette stratégie ne réduit pas assez rapidement l intervalle Cependant elle n utilise aucune informations sur ϕ (dérivées ou autres) On préfère en général procéder en construisant une approximation polynomiale p(t) de ϕ et en choisissant t réalisant le minimum (s il existe) de p(t) sur [α, β] Lorsque l on utilise la règle de Wolfe, on peut utiliser une approximation cubique 95

précédent section IV25 Réduction de l intervalle par interpolation cubique Comme nous l avons évoqué, un choix judicieux de t peut être fait en faisant une approximation cubique de ϕ(t) sur l intervalle [α, β] et à prendre t réalisant le minimum de cette cubique : on considère le polynôme p(t) vérifiant p(t 0 ) = ϕ(t 0 ) = f 0, p(t 1 ) = ϕ(t 1 ) = f 1, p (t 0 ) = ϕ (t 0 ) = g 0, p (t 1 ) = ϕ (t 1 ) = g 1 où t 0 et t 1 sont quelconques (on peut bien sûr prendre t 0 = α et t 1 = β) On passe en variables réduites sur [0, 1] ce qui conduit à définir le polynôme q(s) par qui vérifie donc q(s) = p(t 0 + st 1 ), s [0, 1], τ = t 1 t 0, q(0) = f 0, q(1) = f 1, q (0) = τg 0, q (1) = τg 1 Si on cherche q de la forme q(s) = as 3 + bs 2 + cs + d, alors les calculs donnent a = τ(g 0 + g 1 ) + 2(f 0 f 1 ), b = 3(f 1 f 0 ) τ(2g 0 + g 1 ), c = τg 0, d = f 0 96

précédent section Si b 2 3ac < 0 alors q(s) n admet pas de minimum, et cela ne permet pas de choisir α Si b 2 3ac 0 il y a un minimum donné par si ŝ [0, 1] cela permet de donner à t la valeur ŝ = b + b 2 3ac, 3a Réduction de l intervalle par interpolation cubique t = t 0 + ŝτ, sinon, cela ne permet pas de choisir t, et on peut en dernier recours faire appel à la dichotomie 97

précédent suivant Chapitre V Méthodes de Quasi-Newton V1 Introduction 99 V2 Les méthodes de quasi-newton 104 V3 Méthodes spécifiques pour les problèmes de moindres carrés 118 98

chapitre section suivante V1 Introduction V11 La méthode de Newton 100 V12 Méthodes à métrique variable 102 99

section suivant V11 La méthode de Newton La méthode de Newton permet de construire un algorithme permettant de résoudre le système d équations non-linéaires g(x) = 0, où g : R n R n est diférentiable : on se donne x 0 R n et on fait les itérations x k+1 = x k g (x k ) 1 g(x k ), (V11) où g (x) est la dérivée (ou jacobienne) de g au point x L application de cette méthode au problème d optimisation min x R f(x), n (V12) consiste à l utiliser pour résoudre le système d optimalité du problème (V12), c est à dire que l on pose g(x) = f(x) dans (V11) : on obtient les itérations x k+1 = x k 2 f(x k ) 1 f(x k ) (V13) La méthode de Newton est intéressante car sa convergence est quadratique au voisinage de la solution, c est à dire que l on a x k+1 ˆx γ x k ˆx 2, γ > 0, mais la convergence n est assurée que si x 0 est suffisamment proche de ˆx, ce qui en limite l intérêt Pour résoudre le problème de convergence locale de la méthode de Newton, on peut penser à lui ajouter une phase de recherche linéaire, dans la direction d k = 2 f(x k ) 1 f(x k ) 100

section suivant Cela est possible uniquement si d k est une direction de descente en x k, soit f(x k ) d k = f(x k ) 2 f(x k ) 1 f(x k ) < 0, La méthode de Newton ce qui sera le cas si 2 f(x k ) est une matrice définie positive, ce qui n est pas garanti (on sait tout au plus que 2 f(ˆx) > 0) Le principe des méthodes que nous allons voir maintenant consiste à remplacer le Hessien 2 f(x k ) par une approximation H k (si possible définie positive), construite au cours des itérations 101

précédent section V12 Méthodes à métrique variable Le principe des méthodes dites «à métrique variable» consiste à faire les itérations suivantes { d k = B k g k, x k+1 = x k + ρ k d k, (V14) où on a noté g k = f(x k ) et B k est une matrice définie positive La méthode ci-dessus coïncide avec la méthode du gradient si B k = I On peut envisager de prendre B k = B > 0, k et cela conduit à la remarque suivante Remarque V11 Lorsque l on cherche à résoudre le problème min x R f(x), n On peut poser x = Cy où C est une matrice inversible (changement de variable) Notons alors f(y) = f(cy) On a f(y) = C f(cy) Un pas de la méthode du gradient appliquée à la minimisation de f(y) est donné par y k+1 = y k ρ k C f(cy k ), soit en revenant à la variable originale et en posant x k = Cy k x k+1 = x k ρ k CC f(x k ) On obtient bien une méthode du type (V14) avec B = CC > 0 Dans le cas où f est une forme quadratique, on voit assez facilement comment l introduction de B permet d accélérer la convergence de la méthode 102

précédent section Théorème V12 Soit f(x) = une forme quadratique définie positive et B une matrice définie positive L algorithme du gradient préconditionné { x 0 = donné, x k+1 = x k ρ k Bg k, ρ k optimal Méthodes à métrique variable converge linéairement au sens où avec x k+1 ˆx A γ x k ˆx A, γ = χ(ba) 1 χ(ba) + 1 Dans cette méthode, on voit bien comment influe la matrice B sur la vitesse de convergence : plus le conditionnement de BA sera faible, plus l accélération sera grande On ne peut bien sûr pas poser B = A 1, puisque cela sous-entendrait que l on a déjà résolu le problème! Cependant, l idée est tout de même assez bonne, en ce sens qu elle indique que B soit être une approximation de A 1 si l on veut effectivement accélérer la méthode Enfin, et pour terminer cette introduction avant d étudier de plus près les méthodes de quasi- Newton pour f quelconque, on peut d ores et déjà dire qu un critère de bon fonctionnement de la méthode (V14) serait que l on ait au moins lim k B k = A 1, dans le cas quadratique 103

section précédente chapitre section suivante V2 Les méthodes de quasi-newton V21 Relation de quasi-newton 105 V22 Formules de mise à jour de l approximation du hessien 106 V23 Formule de Broyden 107 V24 Formule de Davidon, Fletcher et Powell 110 V25 Algorithme de Davidon-Fletcher-Powel 112 V26 Algorithme de Broyden, Fletcher, Goldfarb et Shanno 116 104

section suivant V21 Relation de quasi-newton ou Une méthode de quasi-newton est une méthode du type : { d k = B k g k, x k+1 = x k + ρ k d k, { d k = H 1 k g k, x k+1 = x k + ρ k d k, (V21) (V22) où B k (respectivement H k ) est une matrice destinée à approcher l inverse du hessien de f (respectivement le hessien de f) en x k Il se pose donc un problème : quelle stratégie adopter pour faire cette approximation On peut par exemple poser B 0 = I, mais comment ensuite mettre à jour l approximation B k au cours des itérations? L idée est la suivante : on sait que au point x k, le gradient et le hessien de f vérifient la relation g k+1 = g k + 2 f(x k )(x k+1 x k ) + ɛ(x k+1 x k ) Si on suppose que l approximation quadratique est bonne, on peut alors négliger le reste et considérer que l on a g k+1 g k 2 f(x k )(x k+1 x k ), cela conduit à la notion de relation de quasi-newton : Définition V21 On dit que les matrice B k+1 et H k+1 vérifient une relation de quasi-newton si on a ou H k+1 (x k+1 x k ) = f(x k+1 ) f(x k ), x k+1 x k = B k+1 f(x k+1 ) f(x k ) Il reste un problème à résoudre : comment mettre à jour B k tout en assurant B k > 0? C est ce que nous allons voir maintenant 105

précédent section suivant V22 Formules de mise à jour de l approximation du hessien Le principe de la mise à jour consiste, à une itération donnée de l algorithme { d k = B k g k, x k+1 = x k + ρ k d k, (V23) à appliquer une formule du type B k+1 = B k + k, (V24) avec k symétrique, assurant la relation de quasi-newton x k+1 x k = B k+1 (g k+1 g k ), ainsi que B k+1 > 0, sous l hypothèse que B k > 0 La formule (V24) permet d utiliser les nouvelles informations obtenues lors de l étape k de l algorithme, c est à dire essentiellement le gradient g k+1 = f(x k+1 ) au point x k+1, obtenu par recherche linéaire (exacte ou approchée) dans la direction d k Il existe différentes formules du type (V24) Suivant que k est de rang 1 ou 2, on parlera de correction de rang 1 ou de rang 2 106

précédent section suivant V23 Formule de Broyden On peut chercher à déterminer une formule de correction de rang 1 de la façon suivante On écrit B k+1 sous la forme B k+1 = B k + vv, et on cherche v tel que la relation de quasi-newton B k+1 y k = s k, où on a posé y k = g k+1 g k et s k = x k+1 x k On a donc B k y k + vv y k = s k, et en prenant le produit scalaire des deux membres de l égalité précédente avec y k on obtient (y k v) 2 = (s k B k y k ) y k Si on utilise maintenant l égalité vv = vv y k (vv y k ) (v y k ) 2, alors on peut écrire, en remplacant v y k par s k B k y k et (v y k ) 2 par y k (s k B k y k ), la formule de correction B k+1 = B k + (s k B k y k )(s k B k y k ) (s k B k y k ) y k, (V25) connue sous le nom de formule de Broyden La validité de cette formule provient du résultat suivant : 107

précédent section suivant Théorème V22 Soit f une forme quadratique définie positive Considérons la méthode itérative qui, partant d un point x 0 arbitraire engendre sucessivement les points x k+1 = x k + s k, Formule de Broyden où les s k sont des vecteurs linéairement indépendants Alors la suite de matrices générée par B 0, une matrice symétrique quelconque et la formule B k+1 = B k + (s k B k y k )(s k B k y k ) (s k B k y k ) y k, où y k = f(x k+1 ) f(x k ), converge en au plus n étapes vers A 1, l inverse du hessien de f Démonstration : Puisque le hessien de f est constant et égal à A on a y i = f(x i+1 ) f(x i ) = A(x i+1 x i ), i On a vu que B k+1 est construit de façon à ce que l on ait B k+1 y k = s k, montrons que l on a aussi B k+1 y i = s i, i = 0 k 1 On raisonne par récurrence en supposant que cette propriété est vraie pour B k, à savoir Soit donc i k 2 quelconque On a B k y i = s i, i = 0 k 2 B k+1 y i = B k y i + (s k B k y k )(s k y i B k y k y i) (s k B k y k ) y k (V26) 108

précédent section suivant Par l hypothèse de récurrence on a B k y i = s i donc y k B k y i = y k s i, Formule de Broyden mais comme As j = y j, j, on obtient yk s i = s k As i = s k y i, donc dans (V26) le numérateur est nul et on a B k+1 y i = B k y i = s i On a donc B k+1 y i = s i, i = 0 k Au bout de n itérations on a donc B n y i = s i, i = 0 n 1, et puisque l on a y i = As i cette dernière formule d écrit B n As i = s i, i = 0 n 1 Comme les s i constituent une base de R n on a B n A = I ou encore B n = A 1, ce qui montre le résultat Le problème de la formule de Broyden est qu il n y a aucune garantie que les matrices B k soientt défines positives même si la fonction f est quadratique et si par exemple B 0 = I On peut cependant noter l intérêt de la propriété B n = A 1, qui sera aussi vérifiée par les méthodes de mise à jour que nous allons voir maintenant 109

précédent section suivant V24 Formule de Davidon, Fletcher et Powell La formule de mise à jour de Davidon, Fletcher et Powell est une formule de correction de rang 2 donnée par B k+1 = B k + s ks k s k y B ky k yk B k k yk B ky k (V27) Le résultat suivant montre que sous certaines conditions, la formule (V27) conserve la définie-positivité des matrices B k Théorème V23 On considère la méthode définie par d k = B k g k, x k+1 = x k + ρ k d k, ρ k optimal Où B 0 > 0 est donnée ainsi que x 0 Alors les matrices B k sont définies positives, k > 0 Démonstration : Soit x un vecteur de R n On a x B k+1 x = x B k x + (s k x)2 s k y k (y k B kx) 2 y k B ky k, = y k B ky k x B k x (y k B kx) 2 y k B ky k + (s k x)2 s k y k Si on définit le produit scalaire x, y = x B k y alors on a x B k+1 x = y k, y k x, x y k, x 2 y k, y k + (s k x)2 s k y (V28) k 110

précédent section suivant Le premier terme du second membre est positif ou nul d après l inégalité de Cauchy-Schwartz Quant au deuxième terme on peut faire l analyse suivante : puisque le pas est optimal, on a la relation et donc g k+1d k = 0, s k y k = +ρ k (g k+1 g k ) d k = ρ k g k B k g k > 0, on a donc x B k+1 x 0 Les deux termes dans (V28) étant positifs, cette quantité ne peut s annuler que si les deux termes sont simultanément nuls Le premier terme ne peut s annuler que si x = λy k pour un scalaire λ 0 Dans ce cas le deuxième terme est non nul car s k x = λs k y k On a donc bien B k+1 > 0 Formule de Davidon, Fletcher et Powell Remarque V24 La propriété s k y k > 0 est vérifiée également par des méthodes de recherche linéaire approchées comme par exemple la règle de Wolfe de Powell : en effet dans ce cas on détermine un point x k+1 tel que ϕ (ρ k ) = f(x k+1 ) d k m 2 f(x k ) d k, 0 < m 2 < 1, d où et donc (g k+1 g k ) (x k+1 x k ) > 0 gk+1 x k+1 x k ρ k > g k x k+1 x k ρ k, 111

précédent section suivant V25 Algorithme de Davidon-Fletcher-Powel On peut donc formuler maintenant la méthode utilisant la formule de correction (V27) : Algorithme de Davidon-Fletcher-Powel 1 Choisir x 0 et B 0 définie positive quelconque (par exemple B 0 = I) 2 A l itération k, calculer la direction de déplacement d k = B k f(x k ), déterminer le pas optimal ρ k et poser x k+1 = x k + ρ k d k 3 Poser s k = ρ k d k et y k = f(x k+1 ) f(x k ) puis calculer B k+1 = B k + s ks k s k y B ky k yk B k k yk B ky k 4 Faire k k + 1 Retourner en 1 sauf si le critère d arrêt est vérifié Comme critère d arrêt on retiendra par exemple g k+1 < ɛ Cet algorithme a un comportement remarquable dans le cas où f est une forme quadratique : Théorème V25 Appliqué à une forme quadratique f, l algorithme DFP engendre des directions s 0,, s k vérifiant s i As j = 0, 0 i < j k + 1, (V29) B k+1 As i = s i, 0 i k (V210) 112

précédent section suivant Démonstration : En utilisant la formule (V27) on a pour tout k B k+1 As k = B k+1 y k, = s k, Algorithme de Davidon- Fletcher-Powel par construction Donc (V210) est en particulier vérifiée pour k = 0, soit On a aussi B 1 As 0 = s 0 s 0 As 1 = ρ 1 s 0 AB 1 g 1, = ρ 1 s 0 AB 1 g 1, = ρ 1 s 0 g 1, = 0, puisque B 1 As 0 = s 0 et que x 1 est obtenu par un pas optimal dans la direction s 0 Donc (V210) est vérifiée pour k = 0 Supposons maintenant que (V29) et (V210) sont vérifiées à l ordre k 1 On peut écrire d une part pour i = 0 k 1 g k+1 g i+1 = y i+1 + y i + y k, = A(s i+1 + s i + s k ) car f est une forme quadratique de hessien A D autre part, puisque x i+1 est obtenu par un pas optimal dans la direction s i on a s i g i+1 = 0 et donc s i (g k+1 g i+1 ) = s i A(s i+1 + s i + s k ), i = 0 k 1, donc en vertu de l hypothèse de recurrence (conjugaison des s i ) on a s i g k+1 = 0, i = 0 k 1, (V211) 113

précédent section suivant Cette relation reste aussi valable pour i = k puisque l on a s k g k+1 = 0 (pas optimal) La deuxième hypothèse de récurrence permet donc d écrire, en remplacant s i par B k+1 As i dans (V211) et donc, puisque H k+1 g k+1 = s k+1 /ρ k+1, s i AB k+1 g k+1 = 0, i = 0 k s i As k+1 = 0, i = 0 k, ce qui démontre donc la propriété (V29) au rang k Montrons maintenant que B k+1 As i = s i, i = 0 k 1 Cette relation est vraie pour i = k comme on l a déjà montré plus haut On a B k+1 As i = B k As i + s ks k As i s k y k B ky k y k B kas i y k B ky k Le deuxième terme du second membre est nul car s k As i = 0 Si on note que par l hypothèse de récurrence on a B k As i = s i pour i = 0 k 1 et yk = s k A le numérateur du troisième terme est donné par Par conséquent on a bien ce qui démontre la propriété (V210) au rang k B k y k y k B k As i = B k y k s k As i = 0 B k+1 As i = s i, i = 0 k 1, La méthode DF P se comporte donc, dans le cas quadratique, comme une méthode de directions conjuguées Dans ce cas l algorithme converge en au plus n itérations On peut aussi remarquer que l on a pour k = n 1 la relation B n As i = s i, i = 0, n 1, et comme les s i sont linéairement indépendants (car mutuellement conjugués) on en déduit que B n = A 1 Algorithme de Davidon- Fletcher-Powel 114

précédent section suivant Remarque V26 On peut montrer que dans le cas général (non quadratique), sous les mêmes réserves que pour la méthode de Fletcher-Reeves (réinitialisation périodique d k = g k ), cet algorithme permet de converger vers un minimum local ˆx de f, et que l on a Algorithme de Davidon- Fletcher-Powel lim B k = 2 f(ˆx) 1, k ce qui montre que près de l optimum ˆx, si la recherche linéaire est exacte, la méthode se comporte asymptotiquement comme la méthode de Newton Cette remarque permet de justifier le choix d une estimation du pas de déplacement donnée par ρ k = 1, dans les méthodes de recherche linéaire approchée 115

précédent section V26 Algorithme de Broyden, Fletcher, Goldfarb et Shanno La formule de mise à jour de Broyden, Fletcher, Goldfarb et Shanno est une formule de correction de rang 2 qui s obtient à partir de la formule DFP en intervertissant les rôles de s k et y k La formule obtenu permet de mettre à jour une approximation H k du hessien possédant les mêmes propriétés, à savoir H k+1 > 0 si H k > 0 et vérifiant la relation de quasi-newton y k = H k s k La formule est donc la suivante : H k+1 = H k + y kyk yk s H ks k s k H k k s k H ks k (V212) L algorithme associé est le suivant : Algorithme de Broyden, Fletcher, Goldfarb et Shanno 1 Choisir x 0 et H 0 définie positive quelconque (par exemple H 0 = I) 2 A l itération k, calculer la direction de déplacement d k = H 1 k f(x k), déterminer le pas optimal ρ k et poser x k+1 = x k + ρ k d k 3 Poser s k = ρ k d k et y k = f(x k+1 ) f(x k ) puis calculer H k+1 = H k + y kyk yk s H ks k s k H k k s k H ks k 116

précédent section 4 Faire k k + 1 Retourner en 2 sauf si le critère d arrêt est vérifié Notons que la direction d k est obtenue par résolution d un système linéaire En pratique la mise à jour de H k est faite directement sur le facteur de Cholesky C k où H k = C k Ck ce qui ramène le calcul de d k au même coût que pour la formule de DFP De plus, cette technique permet de contrôler précisément la définie positivité de H k, qui peut se dégrader à cause des erreurs d arrondi Algorithme de Broyden, Fletcher, Goldfarb et Shanno Remarque V27 La méthode BFGS possède les mêmes propriétés que la méthode DFP : dans le cas quadratique les directions engendrées sont conjuguées et on a H n = A Cette méthode est reconnue comme étant beaucoup moins sensible que la méthode DF P aux imprécisions dans la recherche linéaire, du point de vue de la vitesse de convergence Elle est donc tout à fait adaptée quand la recherche linéaire est faite de façon économique, avec par exemple la règle de Goldstein ou la règle de Wolfe et Powell Elle est par exemple utilisée dans la fonction fminu de Matlab 117

section précédente chapitre V3 Méthodes spécifiques pour les problèmes de moindres carrés V31 La méthode de Gauss-Newton 119 V32 la méthode de Levenberg-Marquardt 120 118

section suivant V31 La méthode de Gauss-Newton Dans les problèmes de moindres carrés non linéaires, la fonction à minimiser prend en général la forme f(x) = 1 m f i (x) 2, 2 i=1 comme on peut le voir sur l exemple vu au premier chapitre Quand on veut appliquer la méthode de Newton à la minimisation de f(x), on doit calculer le Hessien de f, qui dans ce cas précis prend une forme particulière : on a d une part m f(x) = f i (x)f i (x), et le hessien de f est donné par m m 2 f(x) = f i (x) f i (x) + f i (x) 2 f i (x) i=1 i=1 Si l on se place près de l optimum, où on supposera que les f i (x) sont petis, le deuxième terme peut alors être négligé La matrice obtenue m H(x) = f i (x) f i (x), i=1 possède une propriété intéressante : elle est semi-définie positive De plus dans la plupart des cas m est très supérieur à n et la matrice est la plupart du temps définie positive (nous reviendrons sur ce point) La méthode originale que l on obtient à partir de la méthode de Newton en remplacant 2 f(x) par H(x) est la méthode de Gauss-Newton : x 0 donné, H k = m i=1 f i(x k ) f i (x k ), x k+1 = x k H 1 k f(x k) i=1 119

précédent section V32 la méthode de Levenberg-Marquardt Pour assurer la convergence globale de la méthode de Gauss-Newton, on peut combiner l algorithme précédent avec une recherche linéaire, et dans ce cas on peut alors faire les itérations { d k = H 1 k f(x k) x k+1 = x k + ρ k d k, cependant, il n y a aucune garantie que H k reste défine positive, et en général on fait appel à une méthode modifiée, qui est la méthode de Levenberg-Marquardt : l idée consiste à remplacer, dans la méthode précédente, la matrice H k par la matrice H k + λi où λ est un réel positif Si λ est très grand, on retombe alors sur la méthode du gradient Méthode de Levenberg-Marquardt x 0 donné, H k = m i=1 f i(x k ) f i (x k ), d k = (H k + λi) 1 f(x k ) x k+1 = x k + ρ k d k, 120

précédent suivant Chapitre VI Conditions d optimalité en optimisation avec contraintes VI1 Les conditions de Lagrange 122 VI2 Les conditions de Kuhn et Tucker 133 VI3 de problèmes 140 VI4 Conditions suffisantes d optimalité 146 121

chapitre section suivante VI1 Les conditions de Lagrange VI11 Introduction 123 VI12 Problème avec contraintes d égalité 124 VI13 Contraintes d égalité linéaires 125 VI14 Contraintes d égalité non-linéaires 127 VI15 Le théorème de Lagrange 131 122

section suivant VI11 Introduction On s intéresse maintenant à des problèmes d optimisation de la forme min x R f(x), n (P C) sous les contraintes (VI11) g(x) 0, h(x) = 0, (VI12) (VI13) où les fonctions f, g et h sont différentiables au moins une fois, et f est typiquement non-linéaire Cependant nous étudierons le cas où g et h sont linéaires avec un intérêt tout particulier Dans ce chapitre nous allons nous efforcer d obtenir les conditions d optimalité associées au problème (PC) Les chapitres suivants mettront ensuite l accent sur les méthodes numériques permettant de le résoudre Nous nous intéresserons précisément dans ce chapitre aux problèmes (PCE) (PCI) problème avec contraintes d égalité, problème avec contraintes d inégalité, et les résultats s étendront facilement aux problème général (PC) 123

précédent section suivant VI12 Problème avec contraintes d égalité On va tout d abord s intéresser au problème suivant, dit problème d optimisation avec contraintes d égalité seulement : min x R f(x), (VI14) n (P CE) sous les contraintes h(x) = 0 (VI15) La raison majeure justifiant que l on s intéresse en premier au problème (PCE) est que (PC) est un problème du type (PCI) dont on ne sait pas quelles sont les contraintes actives (nous reviendrons sur cette terminologie plus tard) Nous allons dans un premier temps nous intéresser au cas où les contraintes sont linéaires 124

précédent section suivant VI13 Contraintes d égalité linéaires Un problème d optimisation avec contraintes d égalité linéaires prend la forme { min x R n f(x), Ax b = 0 (VI16) (VI17) où A est une matrice p n avec p < n et b R p On notera S = {x R n, Ax b = 0} Nous allons maintenant définir le concept de direction admissible dans S Définition VI11 On dit que d R n est une direction admissible en x S s il existe α > 0 tel que x + td S, t [ α, α] Dans notre cas, on a A(x + td) b = tad puisque x S, et donc les directions admissibles d sont caractérisées par Ad = 0 (VI18) Rappellons maintenant un résultat bien utile d algèbre linéaire : Théorème VI12 Soit A une matrice p n On a la relation suivante (Ker A) = (Im A ) On peut donc énoncer les conditions nécessaires d optimalité pour le problème (VI16) : 125

précédent section suivant Théorème VI13 Soit ˆx S solution du problème (VI16), vérifiant donc f(ˆx) f(x), x S Alors il existe nécessairement un vecteur λ R p vérifiant f(ˆx) + A λ = 0 Si de plus A est de rang p alors λ est unique Démonstration : Soit d une direction admissible, vérifiant donc d Ker A Pour tout t R on a f(ˆx) f(ˆx + td), soit f(ˆx + td) f(ˆx) 0, t > 0, t f(ˆx + td) f(ˆx) 0, t < 0 t Si on prend la limite de ces deux expressions quand t tend vers 0 en en déduit que f(ˆx) d = 0, d Ker A soit f(ˆx) (Ker A), donc f(ˆx) Im A Il existe donc un vecteur λ tel que f(ˆx) = A λ, ce qui démontre le résultat Pour l unicité, supposons qu il existe deux vecteurs λ 1 et λ 2 vérifiant f(ˆx) = A λ 1 = A λ 2 On a donc A (λ 1 λ 2 ) = 0, et donc λ 1 λ 2 = 0 si A est de rang p Contraintes d égalité linéaires 126

précédent section suivant VI14 Contraintes d égalité non-linéaires Nous étudions maintenant le problème { min x R f(x), n h(x) = 0 (VI19) (VI110) où h : R n R p est différentiable On note comme précédemment S = {x R n, h(x) = 0} Le concept de direction admissible dans S ne peut pas se définir comme pour les contraintes linéaires, car pour ˆx S il peut ne pas exister α > 0 et d R n tels que ˆx + td S On doit donc définir le concept de courbe admissible Considérons une courbe x(t) définie pour t 0 vérifiant { x(t) S, t [ α, α], α > 0 x(0) = ˆx Puisque x(t) S on a h i (x(t)) = 0 pour 1 i p et on peut écrire que d dt h i(x(t)) = h i (x(t)) ẋ(t) = 0, 1 i p Si on note y = ẋ(0) le vecteur tangent à la courbe x(t) en t = 0, on a donc Cela conduit à la définition suivante : h i (ˆx) y = 0, 1 i p (VI111) 127

précédent section suivant Définition VI14 On dit que y R n est une direction admissible en ˆx S s il existe α > 0 et une courbe x(t) vérifiant x(t) S, t [ α, α], x(0) = ˆx, ẋ(0) = y On notera alors y T (ˆx) L ensemble T (ˆx) définit le plan tangent à S en ˆx L analyse faite précédemment montre que l on a l implication y T (ˆx) h i (ˆx) y = 0, 1 i p, qui sera insuffisante pour montrer la condition nécéssaire d optimalité Nous allons donc maintenant nous attacher à montrer sous quelles conditions la relation (VI111) est une condition suffisante d appartenance à T (ˆx) Définition VI15 On dit que ˆx est un point régulier pour la contrainte h(x) = 0 si h(ˆx) = 0, Les vecteurs h i (ˆx) sont linéairement indépendants Si on note h(ˆx) la matrice n p h(ˆx) = [ h 1 (ˆx) h p (ˆx)], la condition d indépendance linéaire des h i (ˆx) peut s écrire Rang h(ˆx) = p et on a donc h(ˆx) ẋ(0) = 0 pour toute courbe admissible x(t) On a la proposition suivante : Contraintes d égalité non-linéaires Proposition VI11 Si ˆx est un point régulier pour la contrainte h(x) = 0, alors h(ˆx) y = 0 y T (ˆx) 128

précédent section suivant Démonstration : Soit y R n vérifiant h(ˆx) y = 0 On considère la courbe x(t) donnée par x(t) = ˆx + ty + h(ˆx)u(t) La fonction u(t) R p, pour l instant inconnue, va être déterminée de telle façon que h(x(t)) = 0 On va pour cela poser le problème de la détermination de u(t) sous la forme d une équation implicite On définit la fonction F : R R p R p par F (t, u) = h(ˆx + ty + h(ˆx)u) Le problème de la détermination de u(t) se ramène donc à la résolution de l équation Contraintes d égalité non-linéaires F (t, u) = 0, au voisinage du point (0, 0) On a d une part F (0, 0) = h(ˆx) = 0 et soit u F (t, u) = h(ˆx) h(ˆx + ty + h(ˆx)u), u F (0, 0) = h(ˆx) h(ˆx) La matrice uf (0, 0) est inversible puisque par hypothèse h(ˆx) est de rang p On peut alors appliquer le théorème des fonctions implicites : il existe un voisinage du point (0, 0) et une fonction u(t) tels que F (t, u) = 0 u = u(t) Notons que l on a donc nécéssairement u(0) = 0 puisque F (0, 0) = 0 On a donc maintenant ẋ(t) = y + h(ˆx) u(t) soit en t = 0 ẋ(0) = y + h(ˆx) u(0) 129

précédent section suivant Montrons que u(0) = 0 Pour cela on écrit que l on a d dt h(x(t)) = h(x(t)) (y + h(ˆx) u(t)) = 0, puisque h(x(t)) = 0, et donc en t = 0 la relation précédente prend la forme d dt h(x(t)) = h(ˆx) y + h(ˆx) h(ˆx) u(0) = 0 t=0 Contraintes d égalité non-linéaires Le premier terme du second membre est nul par hypothèse, et donc u(0) = 0 puisque h(ˆx) h(ˆx) est inversible Donc ẋ(0) = y, soit y T (ˆx), ce qui démontre le résultat annoncé 130

précédent section VI15 Le théorème de Lagrange Théorème VI16 Soit ˆx S = {x R n, h(x) = 0} un point régulier solution du problème (VI19), vérifiant donc f(ˆx) f(x), x S Alors il existe nécessairement un vecteur λ R p unique vérifiant soit encore f(ˆx) + h(ˆx)λ = 0, f(ˆx) + p λ i h i (ˆx) = 0 Les composantes du vecteur λ sont appelées multiplicateurs de Lagrange i=1 Démonstration : Considérons une courbe x(t) définie pour t [ α, α] vérifiant { x(t) S, t [ α, α], α > 0 x(0) = ˆx On a donc nécessairement f(x(0)) f(x(t)), t [ α, α], d dt f(x(t)) = f(ˆx) ẋ(0) = 0, t=0 ce qui signifie que f(ˆx) se trouve dans l orthogonal de T (ˆx) le plan tangent à S en ˆx Si l on utilise l équivalence T (ˆx) = Ker h(ˆx) T (ˆx) = Im h(ˆx), 131

précédent section il existe donc un vecteur λ R p tel que f(ˆx) = h(ˆx)λ Le théorème de Lagrange L unicité résulte du fait que h(ˆx) est de rang p et se montre comme dans le cas linéaire 132

section précédente chapitre section suivante VI2 Les conditions de Kuhn et Tucker VI21 Problème avec contraintes d inégalité 134 VI22 Interprétation géométrique des conditions de Kuhn et Tucker 138 133

section suivant VI21 Problème avec contraintes d inégalité On s intéresse maintenant au problème suivant, dit problème d optimisation avec contraintes d inégalité seulement : min x R f(x), (VI21) n (P CI) sous les contraintes g(x) 0, (VI22) où g : R n R m, est différentiable (il n y a ici aucune condition sur m) On notera K l ensemble des points admissibles, c est à dire K = {x R n, g(x) 0} Au point solution de (P CI) il va de soi que les contraintes effectivement actives vérifieront g i (ˆx) = 0 Cependant, puisque l on ne sait pas a priori quelles sont ces contraintes, le passage de (P CI) a un problème du type (P CE) n est pas direct Définition VI21 On appelle contraintes saturées en ˆx l ensemble des indices i tel que g i (ˆx) = 0, et on note On note alors S(ˆx) l ensemble I(ˆx) = {i g i (ˆx) = 0} S(ˆx) = {x R n, g i (x) = 0, i I(ˆx)} Le concept de direction admissible se définit comme suit : 134

section suivant Définition VI22 On dit que y R n est une direction admissible en ˆx K s il existe α > 0 et une courbe x(t) vérifiant x(t) K, t [ α, α], x(0) = ˆx, ẋ(0) = y On notera alors y C(ˆx) Lemme VI23 Soit y R n une direction admissible en ˆx K, alors on a nécessairement Problème avec contraintes d inégalité g i (ˆx) y 0, i I(ˆx) Démonstration : Considérons une courbe x(t) définie pour t [ α, α] vérifiant x(t) K, t [ α, α], α > 0 x(0) = ˆx, ẋ(0) = y Comme g i (ˆx) < 0 pour i I(ˆx), on aura toujours g i (x(t)) < 0 pour t suffisamment petit Par contre, pour i I(ˆx) on doit avoir g i (x(t)) 0 pour t suffisamment petit Si on utilise le développement de Taylor de g i (x(t)) en t = 0 on doit donc avoir g i (ˆx) + t g i (ˆx) y + tɛ(t) 0 Puisque g i (ˆx) = 0 il faut donc nécessairement que l on ait g i (ˆx) y 0 Comme dans le cas des contraintes d égalité, on doit définir la notion de point régulier, qui est nécessaire pour que la condition précédente soit suffisante : Définition VI24 On dit que ˆx est un point régulier pour la contrainte g(x) 0 si 135

section suivant g(ˆx) 0, Les vecteurs { h i (ˆx)} i I(ˆx) sont linéairement indépendants Sous l hypothèse de régularité de ˆx on aura, comme dans le cas des contraintes d égalité Problème avec contraintes d inégalité g i (ˆx) y 0, i I(ˆx) y C(ˆx) La proposition suivante permet d effectuer le premier pas vers les conditions de Kuhn et Tucker Proposition VI21 Soit ˆx la solution du problème (P CI) Il existe η > 0 tel que x B(ˆx, η), g i (x) < 0, i I(ˆx), où on a noté B(ˆx, η) la boule de centre ˆx et de rayon η Alors ˆx est la solution du problème { min f(x), x B(ˆx,η) g i (x) = 0, i I(ˆx) (VI23) (VI24) Ce résultat est uniquement dû à la continuité de g, et montre que l on est localement ramené à un problème avec contraintes d égalité On peut donc maintenant énoncer le résulat principal : Théorème VI25 Soit ˆx K un point régulier solution du problème (P CI) Alors il existe un unique vecteur λ R m tel que f(ˆx) + m λ i g i (ˆx) = 0, (VI25) i=1 λ i 0, i = 1 m, (VI26) λ i g i (ˆx) = 0, i = 1 m (VI27) 136

section suivant Démonstration : Les relation (VI25) (VI27) sont une conséquence directe du théorème de Lagrange, car il suffit de prendre λ i = 0 pour i I(ˆx) On peut ensuite montrer (VI26) par l absurde : supposons qu il existe k I(ˆx) tel que λ k < 0 On définit la surface Problème avec contraintes d inégalité S k = {x g i (x) = 0, i I(ˆx), i k} On définit y R n tel que g i (ˆx) y = 0, i I(ˆx), i k, g k (ˆx) y = 1 Alors y est une direction admissible en ˆx puisque g i (ˆx) y 0, i I(ˆx), et que ˆx est un point régulier Il existe donc une courbe x(t) S k et vérifiant de plus x(t) K, pour t [α, α], telle que ẋ(0) = y On a donc d dt f(x(t)) = f(ˆx) y, (VI28) t=0 = λ i g i (ˆx) y, (VI29) = λ k g k (ˆx) y = λ k < 0, (VI210) ce qui est impossible car f est minimum en ˆx 137

précédent section VI22 Interprétation géométrique des conditions de Kuhn et Tucker On considère un cas où I(ˆx) = {1, 2} Au point ˆx, l ensemble des directions admissibles C(ˆx) forme un cône qui est l intersections des demi-espaces d équation g i (ˆx) y 0, i = 1, 2 Pour que ˆx soit un optimum local, il faut que le vecteur f(ˆx) forme un angle obtus avec les directions ad- g 2 (ˆx) f(ˆx) g 2 (x) = 0 ˆx g 1 (ˆx) C(ˆx) K g 1 (x) = 0 FIG VI21 Illustration des conditions de Kuhn et Tucker sur un exemple à deux dimensions 138

précédent section missibles On vérifie aussi que f(ˆx) est combinaison linéaire (à coefficients positifs) des vecteurs g i (ˆx), i = 1, 2 Interprétation géométrique des conditions de Kuhn et Tucker 139

section précédente chapitre section suivante VI3 de problèmes VI31 Distance d un point à un plan 141 VI32 Pseudo-inverse de Moore et Penrose 142 VI33 Exemple de programme quadratique 143 140

section suivant VI31 Distance d un point à un plan On cherche à calculer la distance d un point x 0 R n au plan défini par l équation Ax = b, où A M pn avec Rang A = p Se problème se pose sous la forme On pose donc f(x) = 1 2 x 0 x 2 On a et donc le système d optimalité est donné par 1 min x R n 2 x 0 x 2 Ax = b f(x) = (x 0 x), En multipliant l équation (VI31) par A on peut exprimer ˆλ par (ˆx x 0 ) + A ˆλ = 0, (VI31) ˆλ = (AA ) 1 (Ax 0 d), Aˆx = b (VI32) et on obtient en substituant ˆλ dans (VI32) ˆx = (I A (AA ) 1 A)x 0 + A (AA ) 1 d Un problème voisin est celui de la projection d une direction d sur le plan Ax = 0 Le résultat précédent donne donc ˆd = P d, avec P = I A (AA ) 1 141

précédent section suivant VI32 Pseudo-inverse de Moore et Penrose On cherche à résoudre le système Ax = b, avec A M pn, p < n et A de rang p Il s agit donc d un système sous-déterminé La pseudo-inverse de Moore-Penrose est par définition la matrice A telle que le vecteur est la solution de norme minimale du système Le problème d optimisation à résoudre est donc : et le système d optimalité est donné par ˆx = A b, Ax = b 1 min x R n 2 x 2 Ax = b, ˆx + A ˆλ = 0, (VI33) Aˆx = b (VI34) Il suffit de substituer ˆx dans la deuxième équation et puisque AA t op est de rang p on obtient et donc la pseudo-inverse est donnée par ˆx = A (AA ) 1 b, A = A (AA ) 1 142

précédent section VI33 Exemple de programme quadratique On cherche à résoudre le problème 1 min x R 2 2 x x 0 2 x 1 0, x 2 0, x 1 + x 2 1, où x 0 = (1, 1 2 ) Il s agit d un problème avec contraintes d inégalité se mettant sous la forme g(x) 0 avec g(x) = x 1 x 2 x 1 + x 2 1 Sur le dessin, on peut s assurer que très probablement seule la contrainte numéro 3 est active On peut s en persuader par le calcul de la façon suivante : on peut tenter de résoudre le système soit ici f(x) + λ 3 g 3 (x) = 0, g 3 (x) = 0, ( ) 1 x x 0 + λ 3 = 0, 1 x 1 + x 2 = 1, 143

précédent section x 2 Exemple de programme quadratique x 0 K ˆx g 1 (x) = 0 g 2 (x) = 0 x 1 g 3 (x) = 0 FIG VI32 Exemple de programme quadratique ou bien encore x 1 + λ 3 = 1, x 2 + λ 3 = 1 2, x 1 + x 2 = 1, 144

précédent section dont la solution est donnée par x 1 = 3 4, x 2 = 1 4, λ 3 = 1 4 On a bien λ 3 0 ce qui justifie a posteriori le choix de saturer la contrainte numéro 3 Exemple de programme quadratique 145

section précédente chapitre VI4 Conditions suffisantes d optimalité VI41 Définition du lagrangien 147 VI42 Condition nécéssaire du second ordre 148 VI43 Condition nécéssaire du second ordre 150 146

section suivant VI41 Définition du lagrangien Considérons le problème (P CE) avec contraintes d égalité où h : R n R p { minx R n f(x), h(x) = 0, Définition VI41 On appelle lagrangien associé au problème (P CE) la fonction L : R n R p R définie par p L(x, λ) = f(x) + λ i h i (x) Les conditions de Lagrange peuvent se reformuler à l aide du lagrangien : soit ˆx solution de (P CE) Alors il existe ˆλ tel que x L(ˆx, ˆλ) = 0, où on a noté x le gradient partiel par rapport à la variable x Dans la suite nous ferons l hypothèse que h et f sont deux fois continûment différentiables i=1 147

précédent section suivant VI42 Condition nécéssaire du second ordre Théorème VI42 Soit ˆx un point régulier solution de (P CE) Alors il existe ˆλ tel que et de plus pour tout y T (ˆx), y 0, on a x L(ˆx, ˆλ) = 0, y 2 xxl(ˆx, ˆλ)y 0 Démonstration : Puisque ˆx est optimal on a Soit y T (ˆx) On sait qu il existe une courbe x(t) définie pour t [ α, α] vérifiant x(t) S, t [ α, α], α > 0 x(0) = ˆx, ẋ(0) = y f(x(0)) f(x(t)), t, et puisque la fonction f est deux fois différentiable, on a nécessairement d 2 dt 2 f(x(t)) 0 t=0 On a ici d une part et donc d 2 d dt f(x(t)) = f(x(t)) ẋ(t), dt 2 f(x(t)) = ẋ(t) 2 f(x(t))ẋ(t) + f(x(t)) ẍ(t), (VI41) d 2 dt 2 f(x(t)) = y 2 f(ˆx)y + f(ˆx) ẍ(0) 0 (VI42) t=0 148

précédent section suivant D autre part on a h i (x(t)) = 0 donc d 2 dt 2 h(x(t)) = y 2 h i (ˆx)y + h i (ˆx) ẍ(0) = 0, i = 1,, p t=0 Condition nécéssaire du second ordre On peut multiplier chacune de ces égalités par ˆλ i et en faire la somme, ce qui donne ( p ) ( p ) y ˆλ i 2 h i (ˆx) y + ˆλ i h i (ˆx) ) ẍ(0) = 0 i=1 i=1 En additionnant cette dernière égalité à (VI42) on obtient ) ( p p y ( 2 f(ˆx) + ˆλ i 2 h i (ˆx) y + f(ˆx) + ˆλ i h i (ˆx)) ẍ(0) 0, i=1 i=1 et puisque le deuxième terme est nul (condition de Lagrange) on obtient bien l inégalité annonçée résultat suivant est une généralisation du thèorème précédent dont la démonstration sera admise Le Théorème VI43 Soit ˆx R n et ˆλ R p vérifiant les conditions h(ˆx) = 0, p f(ˆx) + ˆλ i h i (ˆx) = 0, i=1 y 2 xxl(ˆx, ˆλ)y 0, y T (ˆx), y 0, alors ˆx est un minimum local du problème (P CE) 149

précédent section VI43 Condition nécéssaire du second ordre Théorème VI44 Soit ˆx R n et ˆλ R p vérifiant les conditions g(ˆx) 0, p f(ˆx) + ˆλ i g i (ˆx) = 0, i=1 ˆλ i 0, i = 1 m, ˆλ i g i (ˆx) = 0, i = 1 m, y 2 xxl(ˆx, ˆλ)y 0, y T + (ˆx), y 0, où on a noté T + (ˆx) le plan tangent en ˆx à la surface S + = {x R n, g i (ˆx) = 0, i I(ˆx) et λ i > 0} Alors ˆx est un minimum local du problème (P CE) 150

précédent suivant Chapitre VII Méthodes primales VII1 Contraintes d égalité linéaires 152 VII2 Contraintes d inégalité linéaires 159 VII3 Méthodes de pénalisation 163 VII4 Méthodes par résolution des équations de Kuhn et Tucker 170 du chapitre VII 176 151

chapitre section suivante VII1 Contraintes d égalité linéaires VII11 La méthode du gradient projeté 153 VII12 La méthode de Newton projetée 156 152

section suivant VII11 La méthode du gradient projeté On s intéresse à un problème avec contraintes d égalité lineaires { min x R n f(x), Ax b = 0, (VII11) (VII12) et nous ferons l hypothèse que A M pn est de rang maximal Une idée assez naturelle consiste à appliquer une méthode de descente qui prenne en compte la contrainte Ax b = 0 Supposons que nous disposons d un point x 0 K = {x R n, Ax b = 0} On sait qu une direction admissible doit vérifier Ad = 0 On peut chercher la meilleure direction de descente respectant (VII23) en résolvant le problème min f(x) d, Ad = 0, d = 1 (VII13) (VII14) (VII15) (VII16) Proposition VII11 Le vecteur d solution du problème (VII14),(VII15),(VII16) est donné par d = y/ y où y est la projection orthogonale de f(x) sur Ker A Démonstration : On peut écrire que f(x) = y + z, où y Ker A et z ( Ker A), ces deux sous-espaces étant complémentaires dans R n On a donc f(x) d = y d 153

section suivant Comme d est un vecteur unitaire quelconque y d sera maximal pour d = y y, La méthode du gradient projeté d où le résultat On remarquera que si y 0, le vecteur d est bien une direction de descente car on a f(x) = y (y + z) = y y < 0 Pour former la matrice de projection sur Ker A on utilise en général la factorisation QR de la matrice A, qui s exprime sous la forme ( A R = Q 0 où R M pp est triangulaire supérieure et Q M nn est orthogonale, et se décompose en Q = [U V ] où les colonnes de U M n,p forment une base orthogonale de Im A et les colonnes de V M n,n p une base orthogonale de ( Im A ) = Ker A Dans ce cas la matrice de la projection orthogonale sur Ker A s écrit ), P = I UU = V V Remarque VII11 Dans l algorithme que nous allons étudier, la matrice de projection peut être calculée une fois pour toutes puisque A est donnée Cependant, pour les problèmes avec contraintes d inégalité lineéaires, on sera amené à considérer une succession de problèmes avec contraintes d égalité, et la matrice A pourra évoluer à chaque itération, par ajout ou supression d une ligne Le choix de la factorisation QR est tout indiqué car il existe des techniques de mise à jour particulièrement économiques, ce qui n est pas le cas quand on exprime la matrice P sous la forme classique P = I A [AA ] 1 A La méthode du gradient projeté consiste tout simplement à mettre en oeuvre une méthode de descente utilisant à chaque pas la direction d k = V V f(x k ) Les itérations sont poursuivies jusqu à ce que d k = 0 154

section suivant Cela signifie alors que f(x) Im A et donc qu il existe λ tel que f(x k ) = A λ On peut utiliser la factorisation de A pour obtenir λ par résolution du système linéaire La méthode du gradient projeté Rλ = U f(x) 1 Poser k = 0 et choisir x 0 admissible 2 Calculer la projection d k = V V f(x k ), 3 Si d k = 0 Calculer λ = R 1 U f(x k ) Arrêter les itérations Algorithme du gradient projeté 4 Déterminer ρ k > 0 réalisant le minimum de f(x k + ρd k ) 5 Poser x k+1 = x k + ρ k d k, faire k k + 1 et retourner en 2 155

précédent section VII12 La méthode de Newton projetée La méthode du gradient projeté souffrant des mêmes problèmes que la méthode du gradient (vitesse de convergence très sensible au conditionnement), on lui préfère souvent les méthodes de quasi-newton adaptées au cas des contraintes linéaires Il est plus facile de comprendre comment fonctionnent ces méthodes en faisant l analyse suivante Supposons que l on dispose d un point x 0 admissible L idée est de poser x = x 0 + V z et de considérer une nouvelle fonction f définie par f(z) = f(x 0 + V z), où les colonnes de V forment une base orthogonale de Ker A (on a vu comment obtenir une telle matrice) Alors par construction le problème (??) est équivalent au problème sans contraintes puisque min z R p f(z), (VII17) A(x 0 + V z) b = Ax 0 b + AV z = 0 On peut donc appliquer n importe quelle méthode de descente à la résolution de (VII17) Notons que l on a f(z) = V f(x 0 + V z), donc la méthode du gradient appliquée à la minimisation de f(z) s écrit z k+1 = z k ρ k V f(x 0 + V z k ), et si on pose x k = x 0 + V z k, les itérations précédentes s écrivent x k+1 = x k ρ k V V f(x k ), 156

précédent section ce qui redonne exactement la méthode du gradient projeté On peut de la même manière écrire la méthode de Newton appliquée à la résolution de (VII17) : le hessien de f s écrit 2 f(z) = V 2 f(x 0 + V z)v, La méthode de Newton projetée si si on note G k = 2 f(z k ) la direction de Newton en z k s écrit p k = G 1 k f(z k ) Si la matrice G k est définie positive alors p k sera une direction de descente pour f et le vecteur V p k sera une direction de descente pour f puisque f(x k ) V p k = f(z k ) p k < 0 Remarque VII12 On sait que dans le cas général un optimum local du problème (P CE) est caractérisé par y 2 xxl(ˆx, ˆλ)y 0, y T (ˆx), y 0 Or dans le cas des contraintes linéaires on a 2 xxl(x, λ) = 2 f(x), (VII18) et le sous espace T (ˆx) n est autre que Ker A Et donc si l on dispose d une matrice V dont les colonnes forment une base orthogonale de Ker A, tout vecteur y T (ˆx) s exprime sous la forme y = V z et la condition (VII18) s écrit zv 2 f(ˆx)v z > 0, z On est donc assuré que le hessien projeté est défini positif à l optimum, ce qui justifie l utilisation des méthodes de quasi-newton On peut donc envisager une méthode de quasi-newton ou la mise à jour opère non pas sur le hessien de f mais sur le hessien projeté Voici l algorithme correspondant pour la méthode BFGS : 157

précédent section Algorithme de la méthode BFGS projetée 1 Poser k = 0, choisir x 0 admissible et poser H 0 = I 2 Poser g k = V f(x k ) 3 Si g k = 0 Calculer λ = R 1 U f(x k ) Arrêter les itérations 4 Calculer la direction p k = H 1 k g k 5 Déterminer ρ k > 0 réalisant le minimum de f(x k + ρv p k ) 6 Poser x k+1 = x k + ρ k V p k 7 Calculer g k+1 = V f(x k+1 ) et y k = g k+1 g k 8 Mise à jour du hessien projeté H k+1 = H k + y kyk ρ k yk p + g kgk k p k g k 9 faire k k + 1 et retourner en 2 La méthode de Newton projetée 158

section précédente chapitre section suivante VII2 Contraintes d inégalité linéaires VII21 Méthode de directions réalisables 160 159

section VII21 Méthode de directions réalisables On s intéresse maintenant à un problème avec contraintes d inégalités lineaires { min x R n f(x), Ax b 0 (VII21) (VII22) On peut essayer de voir comment adapter la stratégie de l algorithme du gradient projeté Supposons que nous disposons d un point initial admissible x 0 K = {x R n, Ax b 0} Notons I 0 l ensemble des indices des contraintes saturées, soit I 0 = {i A i x 0 b i = 0} On peut chercher une direction de descente d qui permette, au moins pour un petit déplacement, de rester dans K Si on note A 0 M pn la matrice composée des lignes i I 0 on doit donc avoir ( R Après calcul de la factorisation (U V ) 0 d = V V f(x 0 ) Il y a ensuite deux cas à envisager : A I0 d = 0 (VII23) ) de A I 0, une direction admissible d peut être obtenue par 1 Si d 0, il faut déterminer le déplacement maximal autorisé par les contraintes non saturées, c est à dire ρ max tel que ρ max = {ρ ρ 0, A i (x 0 + ρd) b i 0, i I 0 } Ensuite, on cherche le pas optimal ρ opt dans direction d Ce pas pouvant faire sortir du domaine admissible, on prendra donc toujours ρ = min(ρ opt, ρ max ), en notant bien que lorsque ρ = ρ max, cela signifie qu une nouvelle contrainte sera saturée 160

section 2 Si d = 0 cela signifie que f(x) Im A I 0 et donc qu il existe λ tel que f(x) = A I 0 λ, Méthode de directions réalisables et qui s obtient par résolution du système linéaire et il faut ensuite considérer deux cas Rλ = U f(x), (a) Si λ 0, alors x satisfait les condition de Kuhn et Tucker Le point x est donc un optimum local du problème (b) Sinon, on supprime dans I 0 une des contraintes pour lesquelles λ i < 0 (par exemple la plus négative) On obtient alors une nouvelle matrice A 1 qui permet de déterminer une nouvelle direction de descente en x 0 On peut ensuite poursuivre les itérations On peut donc résumer l algorithme de la façon suivante : Algorithme du gradient projeté (contraintes d inégalité) 161

1 Poser k = 0 et choisir x 0 2 Déterminer I k = {i A i x k b i = 0} 3 Former la matrice A Ik = {A i } i Ik 4 Calculer ou mettre à jour la factorisation A I k = [U k V k ] section ( Rk 0 5 Calculer la projection d k = V k V k f(x k) 6 Si d k = 0 Calculer λ = (R k ) 1 U k f(x k) Si λ 0 alors on s arrète Sinon, choisir j tel que λ j λ i, i, faire I k = I k {j} et retourner en 3 7 Calculer ρ max = {ρ ρ 0, A i (x k + ρd k )a b i 0, i I k } 8 Déterminer ρ k réalisant le minimum de f(x k + ρd k ) sur [0, ρ max ] 9 Poser x k+1 = x k + ρ k d k, faire k k + 1 et retourner en 2 ) Méthode de directions réalisables 162

section précédente chapitre section suivante VII3 Méthodes de pénalisation VII31 Méthode de pénalisation externe 164 VII32 Méthode de pénalisation interne 167 VII33 Estimation des multiplicateurs 168 163

section suivant VII31 Méthode de pénalisation externe : Exemple VII1 On considère un problème avec contraintes d inégalité non-linéaires : (P CI) min x R f(x), n sous les contraintes (VII31) g(x) 0, (VII32) Le but des méthodes de pénalisation est de résoudre (P CI) de façon approchée de la façon suivante : on définit la fonction ϕ(x) par m ϕ(x) = (g + i (x))2, où [] + est la fonction partie positive définie par i=1 y + = max(0, y) Si on note K = {x R n, g(x) 0}, la fonction ϕ vérifie par construction { ϕ(x) = 0, pour x K, ϕ(x) > 0, pour x K 164

section suivant On introduit alors le problème P ɛ (P ɛ ) min x R f ɛ(x), n f ɛ (x) = f(x) + 1 ɛ ϕ(x), (VII33) (VII34) Méthode de pénalisation externe dont on notera x ɛ la solution, vérifiant f ɛ (x ɛ ) f ɛ (x) x R N Le nom de pénalité extérieure provient du fait que x ɛ est toujours à l extérieur (au sens large) de K comme le montre le résultat suivant : Proposition VII31 S il existe au moins une contrainte saturée à l optimum ˆx du problème (P CI) alors le vecteur solution du problème pénalisé (P ɛ ) verifie nécessairement i 0, g i0 (x ɛ ) 0 Démonstration : donc en particulier pour x = ˆx, on a mais commme x ɛ K et ˆx K on a et donc Montrons la contraposée : si g i (x ɛ ) < 0, i on a par définition x ɛ K Puisque f ɛ (x ɛ ) f ɛ (x), x R n, f ɛ (x ɛ ) f ɛ (ˆx), ϕ(x ɛ ) = ϕ(ˆx) = 0, f(x ɛ ) f(ˆx) D où x ɛ = ˆx On a donc g i (ˆx) < 0, i et aucune contrainte n est saturée en ˆx En général, on a toujours x ɛ K comme le montre l?? mais sous des hypothèses assez peu restrictives, x ɛ tend vers une solution du problème (P CI) quand ɛ tend vers 0 165

section suivant Théorème VII31 Soit ϕ : R n R une fonction de pénalisation extérieure vérifiant : ϕ(x) 0, ϕ(x) = 0 x K, ϕ continue On suppose d autre part que f est continue, que K est fermé et que l une des deux conditions suivantes est vérifieé : f(x) + quand x, K est borné et ϕ(x) + quand x ϕ continue Alors, quand ɛ k tend vers 0, la suite x ɛk admet au moins un point d accumulation qui est alors une solution optimale du problème (P CI) Méthode de pénalisation externe Lorsqu on met en oeuvre cette méthode de façon pratique, on ne peut pas prendre tout de suite ɛ k très petit, à cause des problèmes de conditionnement que cela peut causer On commence donc avec une valeur du type ɛ 0 = 1, et chaque solution x ɛk est prise comme vecteur initial pour résoudre le problème avec ɛ k+1 = ɛ k /100 (par exemple) On peut bien sûr utiliser n importe quelle méthode pour résoudre le problème min x f ɛk (x) (BFGS, gradient conjugué, ) Algorithme de la méthode de pénalisation 1 Choisir x 0, ɛ 1 = 1 et poser k = 1 2 Trouver x k solution du problème min x R n f ɛ k (x) en partant de x k 1 3 Poser ɛ k+1 = ɛ k /100 4 faire k k + 1 et retourner en 2 166

précédent section suivant VII32 Méthode de pénalisation interne Dans le cas des méthodes internes, en général, x ɛ n est jamais dans K (sauf cas particulier) : cela peut poser des problèmes si par exemple la fonction f n est pas définie hors de K Les méthodes internes permettent d éviter cet inconvénient Leur principe est le même que pour les méthodes externes : on considère une fonction f ɛ (x) = f(x) + ɛψ(x), mais ici la fonction ψ(x) est défine pour x K et est du type ψ(x) = m i=1 1 g i (x) 2 Puisque l on a ψ(x) quand on s approche de la frontière de K, on qualifie souvent ψ de fonction barrière Les propriété de convergence sont les même que pour les méthodes externes, mais il faut ici disposer d un x 0 K, ce qui peut être difficile dans certains cas 167

précédent section VII33 Estimation des multiplicateurs Les méthodes de pénalisation ne sont en général jamais utilisées pour obtenir la solution du problème avec contraintes, car cela nécessitérait d utiliser des paramètres de pénalisation beaucoup trop petits En revanche, elles permettent de calculer des estimations correctes des multiplicateurs Pour les méthodes externes, le point x k est solution du problème min f ɛk (x) où f ɛ (x) = f(x) + 1 ɛ m [g + i (x)]2, i=1 et vérifie donc les conditions d optimalité f(x k ) + 2 ɛ m g + i (x k) g i (x k ) = 0 i=1 Sous les hypothèses du théorème VII31 x k ˆx et donc pour les contraintes non saturées, puisque g i (ˆx) < 0, il existe k 0 tel que k > k 0 g i (x k ) < 0, i I(ˆx) Si on suppose que ˆx est régulier, les conditions de Kuhn et Tucker sont vérifiées et on a f(ˆx) + λ i g i (ˆx) = 0 i I Si on note maintenant que pour k > k 0, f(x k ) + 2 g + i ɛ (x k) g i (x k ) = 0, i I 168

précédent section alors par continuité de f et g on en déduit que pour i I 2 lim k ɛ g+ i (x k) = λ i On peut bien sûr faire le même type de raisonnement pour la méthode de pénalité interne Estimation des multiplicateurs 169

section précédente chapitre section suivante VII4 Méthodes par résolution des équations de Kuhn et Tucker VII41 Cas des contraintes d égalité 171 VII42 Méthode de Wilson 173 VII43 Cas des contraintes d inégalité 174 170

section suivant VII41 Cas des contraintes d égalité On cherche à résoudre le problème : min x R f(x), n h i (x) = 0, i = 1 p (VII41) On sait que la recherche d un point de Kuhn et Tucker revient à résoudre le système à n + p inconnues et n + p inconnues { x L(x, λ) = 0, (VII42) h(x) = 0, où on a noté L(x, λ) = f(x) + p i=1 λ ih i (x) le lagrangien associé à (VII41) La méthode de Newton consiste, à partir d un point (x k, λ k ), à linéariser (VII42) au voisinage de ce point, et à définir (x k+1, λ k+1 ) comme la solution du système obtenu On peut écrire les équations suivantes : x L(x k, λ k ) + 2 xl(x k, λ k )(x k+1 x k ) + h(x k )(λ k+1 λ k ) = 0, h(x k ) + h(x k ) (x k+1 x k ) = 0, où x L(x k, λ k ) = f(x k ) + h(x k )λ k Si on pose et H k = 2 xl(x k, λ k ), on obtient le système ( Hk Jk J k 0 J k = h(x k ) = h x (x k), ) ( ) xk+1 x k = λ k+1 ( f(xk ) h(x k ) ) (VII43) 171

section suivant Une méthode basée sur la résolution itérative de (VII43) présentera les inconvénients habituels de la méthode de Newton : la convergence est locale De plus, les équations de Kuhn et Tucker sont aussi vérifiées pour les maximums Si on veut remédier à ces inconvénients il faut diposer d une bonne estimation initiale de (ˆx, ˆλ), qui peut par exemple être fournie par une méthode de pénalisation Cas des contraintes d égalité 172

précédent section suivant VII42 Méthode de Wilson Dans la méthode précédente, pour éviter les points stationnaires qui ne sont pas des minimum, on peut faire l analyse suivante : si on note s k = x k+1 x k on observe que le système (VII43) s écrit H k y k + J k λ k+1 = f(x k ) Le vecteur y k est la solution du problème d optimisation quadratique suivant : { miny 1 2 y H k y + f(x k ) y, J k y + h(x k ) = 0, (VII44) et λ k+1 est le multiplicateur associé Au lieu de résoudre le système (VII43) on peut donc résoudre le problème (VII44), ce qui permet d éviter les points stationnaires qui ne sont pas des minima La résolution de ce problème peut se faire avec toute méthode adaptée aux problèmes quadratiques Cette extension de la méthode de Newton est due à Wilson 173

précédent section VII43 Cas des contraintes d inégalité La méthode de Wilson vue au grain précédent se généralise très facilement au cas des contraintes d inégalité Si le problème original est de la forme : min x R f(x), n g i (x) 0, i = 1 m, (VII45) les contraintes linéarisées prennent la forme g(x k ) y + g(x k ) 0 On peut alors utiliser une méthode consistant à résoudre itérativement le problème quadratique { miny 1 2 y H k y + f(x k ) y, J k y + g(x k ) 0, (VII46) Remarque VII41 Comme on l a déjà dit la méthode de Wilson (pour les contraintes d égalité et d inégalité) ne converge que localement La globalisation de cette méthode peut se faire en utilisant une approximation de quasi-newton pour la matrice H k = 2 xl(x k, λ k ) et en faisant une recherche linéaire dans la direction s k pour définir x k+1 = x k + ρ k s k Lors de la recherche linéaire, on cherche alors à minimiser une fonction de mérite du type p θ(x) = f(x) + c h i (x), dans le cas des contraintes d égalité, ou σ(x) = f(x) + c k=1 m g + i (x), k=1 174

précédent section dans le cas des contraintes d inégalité (dans ce dernier cas c doit être un majorant des multiplicateurs optimaux) Les fonctions σ(x) et θ(x) sont des fonctions de pénalisation exacte : cette terminologie traduit le fait que contrairement aux fonctions de pénalisation différentiables que l on a vu précédemment, le minimum de θ ou σ peut coïncider avec ˆx pour des valeurs finies de c Cas des contraintes d inégalité 175

section précédente chapitre du chapitre VII VII1 Un problème pénalisé 177 176

section Exemple VII1 Un problème pénalisé On considère le problème { min 1 2 x2, x 1 La fonction pénalisée s écrit f ɛ (x) = 1 2 x2 + 1 ɛ ([1 x]+ ) 2 Pour x K on a f ɛ (x) = x 2 (1 x) ɛ Si on fait l hypothèse a priori que x ɛ K alors on a et donc x ɛ = (1 + ɛ/2) 1 On a bien x ɛ K et x ɛ 2 ɛ (1 x ɛ) = 0, lim x ɛ = 1 ɛ 0 Retour au grain 177

précédent Chapitre VIII Méthodes utilisant la notion de dualité VIII1 Elements sur la dualité 179 VIII2 Methodes duales 184 178

chapitre section suivante VIII1 Elements sur la dualité VIII11 Le problème dual 180 VIII12 Point-col du lagrangien 182 179

section suivant VIII11 Le problème dual On s intéresse ici aux problèmes avec contrainte d inégalité du type min x R f(x), n g(x) 0, (VIII11) et on note comme d habitude K = {x R n, g(x) 0} Le problème (VIII11) est appellé problème primal par opposition au problème dual que l on va maintenant définir Soit ϕ(x) une fonction indicatrice de K : Alors le problème primal est équivalent à On peut construire la fonction ϕ de la façon suivante : ϕ(x) = 0, si x K, (VIII12) ϕ(x) = +, sinon (VIII13) min f(x) + ϕ(x) n x R ϕ(x) = max λ 0 λ g(x) = max λ 0 m λ i g i (x) On peut vérifier que la fonction ainsi définie a bien les caractéristiques données par (VIII12)-(VIII13) : si x K on a g i (x) 0 et donc λ g(x) 0, le max est donc atteint pour λ = 0 Si x K il existe j tel que g j (x) > 0, et donc λ g(x) peut être rendu arbitrairement grand en faisant tendre λ j vers + Le problème primal est donc équivalent au problème min x R n i=1 ( f(x) + max λ 0 λ g(x) ), 180

section suivant et si on utilise le lagrangien L(x, λ) = f(x) + λ g(x), on peut alors noter que le problème primal s écrit min x R max L(x, λ) (VIII14) n λ 0 Le problème dual Définition VIII11 On appelle problème dual du problème (VIII11) le problème max λ 0 min L(x, λ), (VIII15) n x R et appelle w(λ) = min x R n L(x, λ) la fonction duale Proposition VIII11 La fonction duale w(λ) est concave Démonstration : Soient λ 1 0, λ 2 0, θ [0, 1] et λ = θλ 1 + (1 θ)λ 2 Il existe x 1,x 2 et x tels que w(λ 1 ) = L(x 1, λ 1 ), w(λ 2 ) = L(x 2, λ 2 ), w(λ) = L(x, λ) On a donc par définition de la fonction duale : w(λ 1 ) L(x, λ 1 ), w(λ 2 ) L(x, λ 2 ) Si on multiplie la première inéquation par θ et la deuxième par (1 θ) il vient θw(λ 1 ) + (1 θ)w(λ 2 ) f(x) + [θλ 1 + (1 θ)λ 2 ] g(x) = w(λ) Ce qui est remarquable dans cette propriété est que le résultat ne suppose absolument rien sur la convexité des fonctions f et g i 181

précédent section VIII12 Point-col du lagrangien On montre facilement la proposition suivante : Proposition VIII12 On a max λ 0 { } { } min L(x, λ) min max L(x, λ) n x R x R n λ 0 Démonstration : On a L(x, λ) max λ 0 L(x, λ) et donc par définition de w(λ) On a donc ce qui montre le résultat w(λ) min x R max n λ 0 max w(λ) min λ 0 min x R max n λ 0 x R max n λ 0 L(x, λ) L(x, λ), L(x, λ) = f(ˆx), Si l on note que par construction où ˆx est la solution du problème primal, on a donc max w(λ) f(ˆx) λ 0 Alors s il existe bien un maximum de la fonction duale atteint pour λ = λ, la valeur w( λ) est un minorant de f(ˆx) et il existe un point x( λ) tel que w( λ) = L(x( λ), λ) f(ˆx) Le théorème suivant précise dans quelles conditions on a x( λ) = ˆx : 182

précédent section Théorème VIII12 S il existe un couple (ˆx, ˆλ) tel que L(ˆx, λ) L(ˆx, ˆλ) L(x, ˆλ), x R n, λ R m, Point-col du lagrangien alors ˆx est une solution du problème primal et ˆλ est le multiplicateur de Kuhn et Tucker associé Un point vérifiant cette propriété est appelé un point-col du lagrangien On a dans ce cas L(ˆx, ˆλ) = max w(λ) = min f(x) λ 0 x K Lorsque ce point existe, on peut donc résoudre le problème dual à la place du problème primal : l intérêt principal est la concavité de la fonction duale ainsi que la simplicité des contraintes On voit aussi que même lorsqu il n existe pas de point col, le maximum de la fonction duale fournit un minorant de f(ˆx), ce qui peut être utile dans certaines circonstances On appelle alors la différence f(ˆx) w(ˆλ) le saut de dualité Théorème VIII13 Si f est strictement convexe, si les g i sont convexes et si K est d intérieur non-vide, l existence de ˆx est équivalente à l existence de ˆλ et on a w(ˆλ) = L(ˆx, ˆλ) = f(ˆx) Il existe cependant des cas où il existe un point-col et les conditions précédentes ne sont pas vérifiées Quand il n y a pas de point-col, on peut faire alors appel à des techniques où on utilise un lagrangien augmenté du type m L(x, λ, r) = f(x) + λ g(x) + r (g + i (x))2, pour définit la fonction duale Ce type d approche permet de généraliser les méthodes duales pour les cas typiquement non-convexes i=1 183

section précédente chapitre VIII2 Methodes duales VIII21 Méthode d Uzawa 185 VIII22 Méthode d Arrow et Hurwicz 187 184

section suivant VIII21 Méthode d Uzawa Le principe de la méthode d Uzawa est d utiliser la méthode du gradient pour maximiser la fonction duale, tout en tenant compte de la contrainte λ 0 : cela donne la méthode λ k+1 = [λ k + ρ k w(λ k )] + L utilisation de cette méthode suppose que la fonction duale est différentiable (au moins a l optimum) Ce sera le cas si le minimum en x de L(x, ˆλ) est unique Dans ce cas si on note x(λ) le vecteur tel que on peut écrire que w(λ) = L(x(λ), λ), w(λ) = x L(x(λ), λ) dx(λ) dλ + λl(x(λ), λ), = g(x(λ)), puisque x(λ) est par définition le minimum en x de L(x, λ) L algorithme de la méthode est donc le suivant : 1 Poser k = 0 et λ 0 = 0 Algorithme d Uzawa 2 Déterminer x k solution du problème min x R n f(x) + λ k g(x) 3 Si max i g i (x k ) < ɛ alors on s arrête 4 Sinon, calculer λ k+1 = [λ k + ρ k g(x k )] + 5 Faire k k + 1 et retourner en 2 185

section suivant Au point 4 on peut choisir ρ k fixe ou bien faire une recherche linéaire Lorsque la fonction duale est mal conditionnée, on peut aussi utiliser une méthode de quasi-newton Dans le test d arrêt choisi la valeur de ɛ > 0 devra être choisie prudemment : en effet, s il n existe pas de point-col on ne peut avoir x k K et donc si ɛ est trop petit l algorithme ne s arrêtera pas Méthode d Uzawa 186

précédent section VIII22 Méthode d Arrow et Hurwicz Cette méthode est très voisine de la méthode d Uzawa Au lieu de déterminer x k comme le minimum de L(x, λ k ) on se contente d un pas dans la direction x L(x, λ k ) : on définit x k+1 par x k+1 = x k α k x L(x k, λ k ), et λ k+1 par λ k+1 = [λ k + ρ k g(x k )] + 187

Index des concepts Le gras indique un grain où le concept est défini ; l italique indique un renvoi à un exercice ou un exemple, le gras italique à un document, et le romain à un grain où le concept est mentionné A Algorithme BFGS 116 Algorithme DFP 110, 112 Conditions nécessaires et suffisantes (sans contraintes) 39 conjugaison 67 Convexité (relation avec le gradient) 32 Convexité (relation avec le hessien) 30 Convexité des ensembles 26 Convexité des fonctions 28 Courbe admissible 127 B Broyden (formule de) 107 C Calcul du pas optimal (cas quadratique) 61 Condition nécéssaire du second ordre 148 Condition nécéssaire du second ordre - contraintes d inégalité 150 Conditions nécessaires (sans contraintes) 38 D Dérivée directionnelle 22 différentiabilité 20 Direction admissible 125 Distance d un point à un plan 141 E Estimation des multiplicateurs 168 exemple en mécanique 10, 14 188

existence 34 F Forme quadratique (définition) 14 forme quadratique définie positive (propriétés) 16 G Gauss-Newton 119 Gradient conjugé : étude de convergence 81 Gradient conjugé, Interprétation, sous espace de Krylov 79 Gradient conjugué : algorithme 73 Gradient projeté 153 I interpolation cubique 96 Intervalle de sécurité 87 K Kuhn et Tucker - interprétation géométrique 138 L La méthode de Newton projetée 156 Lagrangien 147 Levenberg-Marquardt 120 Linéarisation du lagrangien 171 M Méthode d Arrow et Hurwicz 187 Méthode d Uzawa 185 Méthode de directions réalisables 160 Méthode de Fletcher-Reeves et variante de Polak-Ribière 76 méthode de Newton 100 Méthode de Wilson 173 Méthode de Wilson (contraintes d inégalité) 174 Méthode du gradient à pas optimal 60 Méthode du gradient simple 59 Matrice Hessienne 24 Mise à jour de l approximation du hessien 106 Mise sous forme standard 6 P Pénalisation externe 164 Pénalisation interne 167 Point-col 182 Préconditionnement 102 Principe des méthodes de descente 56 Problème avec contraintes d égalité 124 Problème avec contraintes d inégalité 134 problème de moindres carrés 8 problème dual 180 189

Problème standard (avec contraintes) 123 Programme quadratique (exemple) 143 Propriété de minimisation 69 Pseudo-inverse 142 R Règle d Armijo 89 Règle de Goldstein 91 Règle de Wolfe 93 Réduction de l intervalle, principe 95 Recherche linéaire 86 Relation de quasi-newton 105 T Théorème de Lagrange 131 U Unicité (lien avec la convexité) 36 190

Index des notions C continuité 20 contraintes d égalité 6 contraintes d inégalité 6 E enveloppe convexe 47 G gradient 23 J jacobienne 23 P pas 56 191

Aide 1, Exercice I4 Utiliser l expression de f(x) donnée à l exercice précédent Retour à l exercice