ÉLÉMENTS D OPTIMISATION. Complément au cours et au livre de MTH 1101 - CALCUL I



Documents pareils
Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

3 Approximation de solutions d équations

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Dérivées d ordres supérieurs. Application à l étude d extrema.

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Fonctions de plusieurs variables

Optimisation des fonctions de plusieurs variables

Fonctions de deux variables. Mai 2011

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Cours d Analyse. Fonctions de plusieurs variables

Correction du Baccalauréat S Amérique du Nord mai 2007

Chapitre 2 Le problème de l unicité des solutions

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Fonctions de plusieurs variables

Résolution d équations non linéaires

Programmation linéaire

OPTIMISATION À UNE VARIABLE

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

EXERCICE 4 (7 points ) (Commun à tous les candidats)

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Exercice 1 Trouver l équation du plan tangent pour chaque surface ci-dessous, au point (x 0,y 0,z 0 ) donné :

Continuité et dérivabilité d une fonction

Chapitre VI Fonctions de plusieurs variables

Cours 02 : Problème général de la programmation linéaire

Correction du baccalauréat S Liban juin 2007

I. Polynômes de Tchebychev

La fonction exponentielle

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Calcul différentiel. Chapitre Différentiabilité

Commun à tous les candidats

Correction du baccalauréat ES/L Métropole 20 juin 2014

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Cours d analyse numérique SMI-S4

Nombre dérivé et tangente

CHAPITRE 10. Jacobien, changement de coordonnées.

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Cours Fonctions de deux variables

Équations non linéaires

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Optimisation Discrète

Correction de l examen de la première session

Résolution de systèmes linéaires par des méthodes directes

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Chp. 4. Minimisation d une fonction d une variable

Quantification Scalaire et Prédictive

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Théorème du point fixe - Théorème de l inversion locale

Resolution limit in community detection

Programmation linéaire et Optimisation. Didier Smets

F411 - Courbes Paramétrées, Polaires

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Repérage d un point - Vitesse et

Programmation linéaire

Mathématiques appliquées à l'économie et à la Gestion

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Structures algébriques

Fonctions de plusieurs variables et applications pour l ingénieur

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Théorie et codage de l information

Fonctions de plusieurs variables

Développements limités, équivalents et calculs de limites

3. Conditionnement P (B)

Intégration et probabilités TD1 Espaces mesurés Corrigé

Fonctions de plusieurs variables. Sébastien Tordeux

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Deux disques dans un carré

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Table des matières. Introduction Générale 5

Baccalauréat ES Amérique du Nord 4 juin 2008

TD1 PROPAGATION DANS UN MILIEU PRESENTANT UN GRADIENT D'INDICE

Simulation de variables aléatoires

PHYSIQUE-CHIMIE. Partie I - Spectrophotomètre à réseau

Limites finies en un point

Les Conditions aux limites

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

RO04/TI07 - Optimisation non-linéaire

Licence de Mathématiques 3

NOTATIONS PRÉLIMINAIRES

Fonctions de plusieurs variables et changements de variables

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Cours d Analyse 3 Fonctions de plusieurs variables

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Différentiabilité ; Fonctions de plusieurs variables réelles

LES MÉTHODES DE POINT INTÉRIEUR 1

Chapitre 6. Fonction réelle d une variable réelle

Dérivation : cours. Dérivation dans R

CCP PSI Mathématiques 1 : un corrigé

TSTI 2D CH X : Exemples de lois à densité 1

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Texte Agrégation limitée par diffusion interne

Circuits RL et RC. Chapitre Inductance

de calibration Master 2: Calibration de modèles: présentation et simulation d

Exercice : la frontière des portefeuilles optimaux sans actif certain

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Capes Première épreuve

Transcription:

ÉLÉMENTS D OPTIMISATION Complément au cours et au livre de MTH 1101 - CALCUL I CHARLES AUDET DÉPARTEMENT DE MATHÉMATIQUES ET DE GÉNIE INDUSTRIEL ÉCOLE POLYTECHNIQUE DE MONTRÉAL Hiver 2011 1 Introduction à l optimisation L optimisation vise à résoudre des problèmes où l on cherche à déterminer parmi un grand nombre de solutions candidates celle qui donne le meilleur rendement Plus précisément, on cherche à trouver une solution satisfaisant un ensemble de contraintes qui minimise ou maximise une fonction donnée L application de l optimisation est en expansion croissante et se retrouve dans plusieurs domaines Les problèmes considérés dans ce document s écrivent sous la forme standard min x R n sc f (x) x S où x = (x 1,x 2,,x n ) T est un vecteur de R n, f : R n R est la fonction que l on désire minimiser (appelée fonction objectif), S R n est l ensemble dans lequel les points doivent appartenir, et sc est l abbréviation de sous la ou les contraintes La formulation (1) signifie que l on cherche à trouver une solution du domaine réalisable x S dont la valeur de la fonction objectif est la plus petite (1) Définition 11 Une solution x S est un minimum global de la fonction f sur le domaine S si La valeur optimale est f (x ) f (x ) f (x) x S Notez que le minimum global n est pas nécessairement unique, mais la valeur optimale l est Par exemple, le

2 problème d optimisation suivant min sinx x R possède une infinité de minima globaux, soient { 3π 2 + 2kπ : k Z} mais une seule valeur optimale: 1 Définissons maintenant la notion d optimalité dans un voisinage restreint Pour introduire cette idée, on va définir B ε (x ) comme étant l ensemble des points de R n dont la distance à x est inférieure à ε, un scalaire positif donné Cet ensemble est communément appelé une boule de rayon ε centrée en x, et s écrit formellement: B ε (x ) = {x R n : x x < ε} Définition 12 Une solution x S est un minimum local de la fonction f sur le domaine S si f (x ) f (x) x S B ε (x ) Les maxima sont définis de façon similaire, il suffit de remplacer les inégalités ( ) aux définitions 11 et 12 par ( ) La figure 1 illustre le cas d une fonction d une seule variable possédant trois minima locaux, dont un minimum global f (x) S x Figure 1: Trois minima locaux, dont un global 11 Rappels Le gradient d une fonction f : R n R différentiable évalué au point x R n est un vecteur de R n s écrivant ( f (x) f (x) =, f (x),, f (x) ) T x 1 x 2 x n La dérivée directionnelle de f en x R n dans la direction unitaire d R n est f d f (x +td) f (x) (x) = lim = d f (x) t 0 + t De plus, si les dérivées secondes de f existent et sont continues, alors la matrice Hessienne s écrit 2 f = f x 1 x 1 f x 1 x 2 f x 1 x n f x 2 x 1 f x 2 x 2 f x 2 x n f x n x 1 f x n x 2 f x n x n

3 Exemple 13 Le gradient et la matrice Hessienne de la fonction f (x) = (x 1 2x 2 ) 2 e x 1 sont [ f (x) = ( 2(x 1 2x 2 ) e x 1, 4(x 1 2x 2 )) T, 2 2 e x 1 4 f (x) = 4 8 Des notions d algèbre serviront au classement des optima ] Définition 14 Une matrice symétrique A de dimension n n est dite semi-définie positive si y T Ay 0 y R n, définie positive si y T Ay > 0 y 0 R n, semi-définie négative si y T Ay 0 y R n, définie négative si y T Ay < 0 y 0 R n Si aucune des propriétés ci-dessus n est satisfaite, la matrice A est dite indéfinie Une façon simple de vérifier si une matrice est définie positive est de considérer les déterminants des n sousmatrices suivantes de A d 1 = det([a 11 ]), ([ a11 a d 2 = det 12 a 21 a 22 d 3 = det ]), a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33,, d n = det a 11 a 12 a 1n a 21 a 22 a 2n a n1 a n2 a nn Ces n déterminants sont appelés les mineurs principaux dominants Dans le cas où la matrice est inversible, et donc lorsque d n 0, il est toujours facile de déterminer si une matrice est définie positive, définie négative ou bien indéfinie En effet, il suffit d analyser le signe de chacun des mineurs principaux dominants Classement d une matrice inversible Soit d 1,d 2,,d n les mineurs principaux dominants d une matrice A symétrique inversible de dimension n n, et e 1,e 2,,e n les mineurs principaux dominants de la matrice A Si d i > 0 pour chaque i {1,2,,n} alors A est définie positive; si e j > 0 pour chaque j {1,2,,n} alors A est définie négative; sinon A est indéfinie La vérification qu une matrice singulière est semi-définie positive, semi-définie négative ou indéfinie requiert beaucoup plus de calculs Par exemple, pour montrer qu une matrice est semi-définie positive, il ne suffit pas de vérifier que les mineurs principaux dominants sont tous positifs ou nuls Une possibilité consiste à analyser toutes valeurs propres de la matrice Ce sujet sera abordé dans des cours plus avancés

4 Exemple 15 (suite de l exemple 13) Les déterminants des sous-matrices principales dominantes de [ ] 2 2 e x 1 4 f (x) = 4 8 sont respectivement d 1 = det([ 2 e x 1 ]) = 2 e x 1 < 0 et d 2 = det ([ 2 e x 1 4 4 8 ]) = ( 2 e x 1 )( 8) (4)(4) = 8e x 1 > 0 Leurs signes sont indépendant de la valeur de x La matrice 2 f (x) n est donc pas définie positive ni même semi-définie positive Cependant, on remarque que les mineurs principaux dominants de la matrice 2 f (x) sont ([ ]) e 1 = det([2 + e x 1 ]) = 2 + e x 1 2 + e x 1 4 > 0 et e 2 = det = (2 + e x 1 )(8) ( 4)( 4) = 8e x 1 > 0 4 8 On peut alors conclure que la matrice 2 f (x) est définie positive, et donc la matrice 2 f (x) est définie négative, et ce pour toutes les valeurs de x 2 Optimisation sans contraintes Dans cette section nous considérons le cas particulier du problème d optimisation (1) sans contraintes où S = R n, c est-à-dire: min f (x) (2) x R n où f C 2 (cette notation signifie f est différentiable aux moins deux fois, et que ses dérivées sont continues) 21 Conditions d optimalité Soit x un minimum local de f sur S = R n La définition 12 assure qu il existe un scalaire ε > 0 tel que f (x ) f (x) x B ε (x ), en particulier pour n importe quelle direction unitaire d R n et scalaire t > 0 suffisamment petit, le point x = x +td appartient à la boule B ε (x ), et donc f (x ) f (x +td) Ceci implique que la dérivée directionnelle de f en x dans n importe la direction unitaire d R n satisfait f d (x ) = lim t 0 + f (x +td) f (x ) t 0 Le résultat précédent est valide pour n importe quelle direction unitaire d, et donc il est valide en particulier pour d = f (x ) f (x ) Il s ensuit que 0 f d (x ) = d f (x ) = f (x ) f (x ) f (x ) = f (x ),

5 et donc f (x ) = 0 (car on a montré que 0 f (x ), or f (x ) est toujours positif) Nous avons donc montré la condition d optimalité suivante Condition nécessaire de premier ordre Si x est un minimum local de la fonction f sur R n, alors f (x ) = 0 (c est-à-dire, x est un point critique) Cette définition donne une condition nécessaire mais pas suffisante En effet, il est possible que le gradient soit nul en un point et que ce point ne soit pas un minimum local (par exemple, ce point peut être un maximum local ou un point de selle) Un point critique x R n est un point de selle si pour n importe quel ε > 0, il existe deux points a B ε (x ) et b B ε (x ) qui soient tels que f (a) < f (x ) < f (b) Un point de selle n est donc ni un minimum local ni un maximum local Les conditions de second ordre nous permettent de distinguer ces cas Considérons encore une fois x un minimum local de f sur S = R n À l aide du développement de Taylor d ordre 2 de f autour du minimum local x on obtient pour toute direction unitaire d R n et pour t R suffisament petit f (x ) f (x +td) f (x ) +td f (x ) + t2 2 dt 2 f (x )d = f (x ) + t2 2 dt 2 f (x )d Pour passer de la première à la deuxième ligne, on a utilisé le fait que f (x ) = 0 en un minimum local En simplifiant cette dernière expression, et en divisant par t 2 > 0 on obtient 1 2 dt 2 f (x )d 0, une expression indépendante de t On a alors la condition suivante Condition nécessaire de second ordre Si x est un minimum local de la fonction f sur R n, alors f (x ) = 0 et y T 2 f (x )y 0 pour tout y R n (c est-à-dire, la matrice Hessienne 2 f (x ) est semi-définie positive) La contraposée de cette condition assure que si la matrice des dérivés secondes 2 f (x ) n est pas semidéfinie positive, alors x n est pas un minimum local de f De façon similaire, si la matrice n est pas semi-définie négative, alors x n est pas un maximum local de f Et donc, si la matrice est indéfinie en un point critique x de la fonction f, alors x est un point selle En effet, si la matrice est indéfinie alors elle n est ni semi-définie positive ni semi-définie négative, et conséquemment x n est ni un minimum ni un maximum local de f De plus, si la condition de second ordre est strictement satisfaite, on obtient la condition suffisante suivante Condition suffisante de second ordre Soit x R n Si f (x ) = 0, et si y T 2 f (x )y > 0 pour tout y R n \ {0} (c est-à-dire, la matrice Hessienne 2 f (x ) est définie positive), alors x est un minimum local de la fonction f sur R n Nous pouvons spécialiser les conditions d optimalités de deuxième ordre aux fonctions de deux variables (voir les exercices) Pour s attaquer à un problème d optimisation, on procèdera de la façon suivante En un premier temps, on utilisera les conditions nécessaires du premier ordre pour identifier tous les points critiques de f C est-à-dire,

6 on trouvera tous les points où le gradient s annule Ensuite, pour chacun de ces points, on évaluera la matrice des dérivées secondes, et on utilisera les conditions d optimalité de deuxième ordre pour classer les points On ne pourra conclure seulement lorsque cette matrice sera inversible Et dans ce cas, si elle est définie positive il s agira d un minimum local, si elle est définie négative il s agira d un maximum local, et autrement (c est-à-dire si la matrice est indéfinie) il s agira d un point selle Exemple 21 Considérons la fonction de trois variables f (x) = 6x1 2 + x3 2 + 6x 1x 2 + 3x2 2 + 1 4 x4 3 1 3 x3 3 Nous allons identifier tous les points critiques de cette fonction, et allons utiliser les conditions d optimalité afin de déterminer leur nature (minimum, maximum ou point de selle) Le gradient et la matrice Hessienne de cette fonction sont f (x) = 12x 1 + 6x 2 3x 2 2 + 6x 1 + 6x 2 x 3 3 x2 3 et 2 f (x) = 12 6 0 6 6x 2 + 6 0 0 0 3x3 2 2x 3 Étape 1: Identification des points critiques La condition nécessaire de premier ordre f (x 1,x 2,x 3 ) = (0,0,0) T nous permet d identifier quatre points critiques: x A = (0,0,0) T, x B = (0,0,1) T, x C = ( 1 2, 1,0)T et x D = ( 1 2, 1,1)T Étape 2: Nature des points critiques Les conditions de deuxième ordre nous permettent de classer certains de ces points critiques Point 2 f 2 f critique d 1 d 2 d 3 e 1 e 2 e 3 Conclusion x A = (0,0,0) T 12 36 0-12 36 0 matrice singulière indéterminé x B = (0,0,1) T 12 36 36-12 36 36 d i > 0 minimum local x C = ( 1 2, 1,0)T 12-36 0-12 -36 0 matrice singulière indéterminé x D = ( 1 2, 1,1)T 12-36 -36-12 -36 36 matrice inversible et d i 0,e j 0 point selle Cette analyse permet d identifier un minimum local X B et un point selle x D Une analyse plus approfondie serait nécessaire pour classer les deux points critiques x A et x C 22 Méthode du gradient À partir d un point initial connu x 0 R n, la méthode du gradient génère une suite de points x 0,x 1,x 2, qui on l espère s approchera d un minimum local d une fonction f Nous désignerons par x k R n le point considéré à l itération k Notez qu ici le nombre k désigne un indice, et non un exposant À l itération k, la méthode du gradient considère une solution x k R n et une direction d k R n dans laquelle la fonction f décroît, c est-à-dire que d k est une direction de descente pour f en x k Nous étudierons dans cette section la question de trouver un scalaire α > 0 qui est tel que la valeur de f (x k + αd k ) est petite Pour ce faire, nous définissons une fonction d une seule variable h : R R comme suit h(α) = f (x k + αd k ) On observe que puisque d k est une direction de descente pour f alors h (0) < 0 Idéalement, la recherche dans la direction d k consiste à déterminer une petite valeur de α > 0 telle que h (α) = 0

7 La méthode du gradient pour la résolution du problème d optimisation (2) sans contraintes peut s écrire de la façon suivante MÉTHODE DU GRADIENT (pour un problème de minimisation) INITIALISATION: Soit x 0 R n un estimé initial de la solution Poser le compteur k 0 ÉVALUATION DU GRADIENT: Calculer la direction d k = f (x k ) Si d k = 0 alors on termine avec un point critique x k Sinon on poursuit à la prochaine étape RECHERCHE DANS LA DIRECTION DE DESCENTE d k : Soit x k+1 la solution produite par la résolution du problème de minimisation à une variable Poser k k + 1, et retourner à l étape précédente min h(α) où h(α) = f α 0 (xk + αd k ) Il est mentionné dans l algorithme que d k = f (x k ) 0 est une direction de descente, c est-à-dire une direction dans laquelle la valeur de la fonction f décroît En effet, par le développement de Taylor on obtient pour des petites valeurs de α > 0 f (x k + αd k ) f (x k ) + α(d k ) T f (x k ) = f (x k ) α f (x k ) 2 < f (x k ) Exemple 22 Considérons la minimisation de la fonction f (x) = (a 2) 2 +(b 3) 2, avec x = (a,b) T, à partir de la solution initiale x 0 = (a 0,b 0 ) T = (0,0) T La première itération de la méthode du gradient avec une recherche dans la direction d k se calcule comme suit Posons k = 0 et d k = f (x k ) = On cherche la valeur du scalaire positif α qui minimise [ 2(a k 2) 2(b k 3) ] = [ 4 6 h(α) = f (x k + αd k ) = f (4α,6α) = (4α 2) 2 + (6α 3) 2 On peut aisément minimiser la fonction h, car c est une simple fonction quadratique En effet, la condition nécessaire du premier ordre h(α) = 0 assure que α = 2 1 et donc ] x 1 = x 0 + 1 2 d0 = (0,0) T + 1 2 (4,6)T = (2,3) T De plus la condition suffisante du second ordre assure que ce point est un minimum local de h La deuxième itération de la méthode du gradient donne d 1 = f (x 1 ) = (0,0) T L algorithme arrête donc à un point critique, et comme 2 f (x) est définie positive pour toute valeur de x (les déterminants des sous-matrices principales sont 2 > 0 et 4 > 0) le point x 1 est un minimum global Dans l exemple précédent la direction opposée au gradient d k = f (x k ) pointait dans la direction du minimum global, d où la convergence immédiate Normalement la convergence requiert beaucoup plus d itérations

8 Lorsque la minimisation de la fonction h est faite de façon exacte, les directions consécutives d k et d k+1 générés par la méthode du gradient sont nécessairement perpendiculaires En effet, lorsqu on prend un pas optimal on va s arrêter de façon tangente à une courbe de niveau À l itération suivante, on va se déplacer dans la direction du gradient, perpendiculaire à cette courbe de niveau La figure 2 illustre les trois premiers pas produits par la méthode du gradient sur un exemple où seules les courbes de niveau de f sont données Figure 2: Les directions produites par la méthode du gradient sont perpendiculaires Remarque: La méthode du gradient peut s appliquer directement à un problème de maximisation d une fonction f Il suffit alors de prendre d = f (x k ) (au lieu du négatif du gradient), et de maximiser la fonction h(α) (au lieu de la minimiser) 23 Exercices De brèves solutions aux exercices se trouvent à la fin du document Exercice 21 Spécialisez les conditions d optimalités de deuxième ordre pour classer le point critique (a, b) d une fonction f (x,y) deux fois différentiable sans contraintes

9 Exercice 22 Soit la fonction f (x,y) = 3x x 3 2y 2 + y 4 a) Sans faire l analyse de points critiques indiquez si la fonction possède un minimum global et un maximum global b) Identifiez tous les points critiques de f (x,y) et déterminez leur nature c) Parmi les points suivants, lequel peut être obtenu en une itération de l application de la méthode du gradient au problème de maximisation à partir du point (x 0, y 0 ) = (0, 1 2 ) Exercice 23 (x 1, y 1 ) = ( 1, 1) (x 1, y 1 ) = (1, 5 2 ) (x 1, y 1 ) = ( 1, 3 2 ) (x 1, y 1 ) = (1, 0) On applique la méthode du gradient afin de minimiser une fonction de trois variables f (x) à partir du point x 0 = (2,2,1) T On obtient que le gradient évalué en ce point est f (2,2,1) = (3,3, 1) T À partir du graphe ci-dessous, Figure 3: Fonction h(α) = f (2 3α, 2 3α, 1 + α) a) Estimez f (x 0 ) b) Donnez la valeur de la dérivée directionnelle de f en x 0 dans la direction v = ( 3, 3,1) T c) Donnez les coordonnées du prochain point, x 1, produit par la méthode du gradient d) Estimez f (x 1 ) e) Donnez la valeur de la dérivée directionnelle de f en x 1 dans la direction v = ( 3, 3,1) T

10 Exercice 24 On utilise la méthode du gradient afin de résoudre un problème de minimisation sans contraintes d une fonction f (x,y) Chacune des trois figures suivantes représente des courbes de niveau de f, ainsi qu une suite de points générés par la méthode du gradient Les échelles en x et y sont identiques Quels points sont ceux produits par la méthode du gradient si celui d indice zéro est le point de départ i) P 0,P 1,P 2,P 3 ii) Q 0,Q 1,Q 2,Q 3 iii) R 0,R 1,R 2,R 3 Exercice 25 Répondez par VRAI ou FAUX Figure 4: Méthode du gradient a) (x,y,z) = (0,0,0) est un point de selle de la fonction f (x,y,z) = x 4 y 4 + z 4 b) Soit ˆx R 3 un point critique d une fonction différentiable tel que 2 f ( ˆx) = Alors ˆx est nécessairement un point de selle 1 0 0 0 2 3 0 3 0

11 3 Optimisation sous contraintes Dans la plupart des problèmes d optimisation, les variables ne sont pas libres de prendre n importe quelle valeur Elles sont habituellement restreintes à un domaine Dans cette section, nous nous penchons sur les problèmes sous la forme générale (1) Le résultat suivant, cité sans preuve, sera fréquemment utilisé Théorème 31 Si l ensemble S est fermé et borné, et si la fonction f est continue sur S, alors il existe un minimum global atteint en un point de S et un maximum global atteint en un point de S 31 Multiplicateur de Lagrange pour une seule contrainte d égalité Dans cette section nous considérons le cas particulier du problème d optimisation (1) min x sc f (x) x S S = {x R n : h(x) = k} où f : R n R et h : R n R sont différentiables, et où k est une constante donnée Lagrange a montré qu à l optimalité, le vecteur gradient de la fonction objectif f doit être perpendiculaire à la surface de niveau de la contrainte Condition nécessaire de premier ordre de Lagrange Si x est un minimum local de la fonction f dans S, et si h(x ) 0, alors h(x ) = k, et de plus il existe un scalaire λ R pour lequel f (x ) = λ h(x ) Un point x satisfaisant cette condition est appelé un point critique Exemple 32 Soit le problème d optimisation suivant : min x 3x 1 2x 2 sc x1 2 + 2x2 2 = 44 La condition nécessaire d optimalité fait en sorte que l on doive résoudre le système: h(x ) = k : (x 1 )2 + 2(x 2 )2 = 44 f (x ) x 1 = λ h(x ) x 1 : 3 = λ(2x 1 ) Les solutions de ce système sont f (x ) x 2 = λ h(x ) x 2 : 2 = λ(4x 2 ) (x 1,x 2,λ) = (6, 2, 1 4 ) avec f (6, 2, 1 4 ) = 22; (x 1,x 2,λ) = ( 6,2, 1 1 ) avec f ( 6,2, 4 4 ) = 22

12 Il n y a pas d autres points critiques et donc le théorème 31 nous assure que (6, 2, 4 1 ) est le maximum global et que ( 6,2, 1 4 ) est le minimum global Lorsque nous résolvons un problème d optimisation on obtient une valeur de λ en plus de la solution optimale Cette valeur peut être interprétée de la façon suivante Considérons la fonction d une variable v(k) qui, pour un k donné retourne la valeur optimale du problème min x f (x) sc h(x) = k Comment est-ce que la fonction v varie lorsque la valeur k varie? Pour un k donné, définissons x(k) R n comme étant la solution optimale du problème ci-dessus, c est-à-dire, v(k) = f (x(k)) et h(x(k)) = k Observons aussi que f x i = λ h x i pour i = 1,2,,n Pour mesurer la variation de v(k), on cherche alors à calculer v (k) = dv dk = f dx 1 x 1 dk + f dx 2 x 2 dk ++ f dx n x n dk = λ h dx 1 x 1 dk ( h dx 1 = λ x 1 dk + λ h dx 2 x 2 dk + h dx 2 x 2 dk ++ λ h dx n x n dk ++ h ) dx n = λ dh x n dk dk = λ Et donc le multiplicateur de Lagrange λ représente le taux de variation de la valeur optimale v lorsque k augmente On peut alors approcher la fonction v par son polynôme de Taylor de degré un P 1 (k) autour de k 0 : v(k) P 1 (k) = v(k 0 ) + v (k 0 )(k k 0 ) = v(k 0 ) + λ(k k 0 ) Exemple 33 (suite de l exemple 32) Reprenons le dernier exemple Estimez la valeur optimale du problème d optimisation où la contrainte x 2 + 2y 2 = 44 est remplacée par x 2 + 2y 2 = 45 Ici, k 0 = 44 et k = 45 Au minimum on avait λ = v (44) = 1 4 et f = v(44) = 22 Donc la valeur optimale serait approximativement ( ) min 3x 2y v(45) = x,y sc x 2 + 2y 2 P 1 (45) = v(44) + v (44)(45 44) = 2225 = 45 32 Optimisation sous une contrainte d inégalité Dans cette section nous considérons le cas particulier du problème d optimisation (1) min x sc f (x) x S S = {x R n : h(x) k} avec f : R n R et h : R n R sont différentiables, et où k est une constante donnée Encore une fois, le théorème 31 nous assure que si S est fermé et borné alors il contiendra à la fois le minimum et le maximum global (remarquez il est possible qu il y ait plus d un minimum ou maximum global) Il y a deux

13 possibilité pour chacun de ceux-ci Ou bien ils appartiendront à l intérieur strict de S ou bien ils se trouveront sur la frontière de S (l intérieur strict de S est {x R n : h(x) < k}, et la frontière de S est {x R n : h(x) = k}) L analyse de ce problème se fait en trois étapes Premièrement nous allons identifier tous les points où le gradient de f s annule, et allons retenir seulement ceux appartenant à S Deuxièmement nous allons appliquer la méthode du multiplicateur de Lagrange où nous remplacerons l inégalité par une égalité Enfin, le minimum et le maximum global sera alors l un des points énumérés Il suffira donc d évaluer f en tous ces points Exemple 34 Résolvons ( max x,y (x 1) 2 + (y 2) 2 sc x 2 + y 2 45 ) Étape 1: Points critiques à l intérieur strict de S Trouvons les points où f (x, y) = (0, 0): f (x,y) x = 2(x 1) = 0 x = 1; f (x,y) y = 2(y 2) = 0 y = 2 En ce point h(1,2) = 1 2 + 2 2 = 5 < 45, et donc le point critique (1,2) se trouve à l intérieur strict du domaine S Étape 2: Points critiques sur la frontière de S Multiplicateur de Lagrange : h(x,y) = k : x 2 + y 2 = 45 f (x,y) x f (x ) y = λ h(x,y) x : 2(x 1) = 2λx = λ h(x,y) y : 2(y 2) = 2λy Les solutions sont (x,y) = (3,6) et (x,y) = ( 3, 6), qui sont alors deux points critiques Étape 3: Évaluation de f aux points critiques f (1,2) = 0, f (3,6) = 20, f ( 3, 6) = 80 Ainsi la valeur minimale de f est 0 et la valeur maximale est de 80 33 Multiplicateurs de Lagrange pour plusieurs contraintes d égalité Considérons maintenant la formulation générale du problème d optimisation (1) min x sc f (x) x S S = {x R n : h j (x) = k j, j = 1,2,,m} avec f : R n R et h j : R n R sont différentiables, et où les k j sont des constantes données Condition nécessaire de premier ordre de Lagrange Si x est un minimum local de la fonction f dans S où { h j (x ) : j = 1,2,,m} est un ensemble linéairement indépendant, alors h j (x ) = k j pour j = 1,2,,m, et de plus il existe un vecteur λ R m pour lequel f (x ) = m λ j h j (x ) j=1

14 Exemple 35 Soit les trois problèmes d optimisation suivants : min x x 1 x 2 + x 3 sc x1 2 + x2 2 + x2 3 = 1 x1 2 + (x 2 1) 2 + (x 3 2) 2 = 4, min x x 1 x 2 + x 3 sc x1 2 + x2 2 + x2 3 = 101 x1 2 + (x 2 1) 2 + (x 3 2) 2 = 4 et min x x 1 x 2 + x 3 sc x1 2 + x2 2 + x2 3 = 1 x1 2 + (x 2 1) 2 + (x 3 2) 2 = 39 Résoudre le premier, et donnez un estimé de la valeur optimale des deux autres d optimalité fait en sorte que l on doive résoudre le système: La condition nécessaire h 1 (x ) = k 1 : (x 1 )2 + (x 2 )2 + (x 3 )2 = 1 h 2 (x ) = k 2 : (x 1 )2 + (x 2 1)2 + (x 3 2)2 = 4 f (x ) x 1 = λ 1 h 1 (x ) x 1 + λ 2 h 2 (x ) x 1 : 1 = 2λ 1 x 1 + 2λ 2x 1 f (x ) x 2 = λ 1 h 1 (x ) x 2 + λ 2 h 2 (x ) x 2 : 1 = 2λ 1 x 2 + 2λ 2(x 2 1) f (x ) x 3 = λ 1 h 1 (x ) x 3 + λ 2 h 2 (x ) x 3 : 1 = 2λ 1 x 3 + 2λ 2(x 3 2) La troisième équation assure que x1 0, et donc on peut diviser par cette variable pour obtenir 2λ 1 + 2λ 2 = x 1 1 En substituant dans les quatrième et cinquième équations, on obtient 1 = x 2 x1 2λ 2 et 1 = x 3 x1 4λ 2 et donc 4λ 2 = 2x 2 x1 + 2 = x 3 x1 1 Prenons maintenant la différence entre les deux premières équations, et simplifions les termes quadratiques On obtient alors que les solutions doivent satisfaire l égalité linéaire x 2 + 2x 3 = 1 et donc on peut fixer x 3 = 1 2 x 2 2 En substituant cette valeur dans 2x 2 x1 donnent les multiplicateurs + 2 = x 3 x 1 1 on trouve x2 = 1 5 6x 1 5 Les troisième et quatrième équations λ 1 = 1 10 2 5x1 et λ 2 = 1 10 + 1 10x1 La première équation se simplifie en 14(x 1 )2 5 + 5 1 = 1 et admet les deux solutions 2 7 et 2 7 Le tableau 1 donne les valeurs des autres variables Il n y a pas d autres points critiques et donc le théorème 31 assure que la première solution est le maximum global et la deuxième le minimum global x1 x2 x3 λ 1 λ 2 f (x ) 2 6 7 35 14 + 1 5 35 3 14 + 2 5 1 5 14 + 1 10 20 1 14 1 10 2 5 14 + 1 5 12967 2 7 35 6 14 + 1 3 5 35 14 + 2 1 5 5 14 + 1 1 10 20 14 1 2 10 5 14 + 1 5 16967 Tableau 1: Solutions

15 Le deuxième problème d optimisation est identique au premier, sauf que le terme k 1 passe de 1 à 11 On peut alors estimer que la valeur optimale du second problème est v 1 (11) v 1 (1) + v 1(1)(11 1) = v 1 (1) + λ 1 (11 1) = 2 ( 1 14 + 5 5 + 1 ) 1 1 14 + 5 10 10 13615 Le calcul exact de la valeur optimale pour k 1 = 11 donne 13593 Le troisième problème d optimisation est identique au premier, sauf que le terme k 2 passe de 4 à 39 On peut alors estimer que la valeur optimale du troisième problème est v 2 (39) v 2 (4) + v 2(4)(39 4) = v 2 (4) + λ 2 (39 4) = 2 ( 1 14 + 5 5 + 1 ) 1 1 14 20 10 10 12680 Le calcul exact de la valeur optimale pour k 2 = 39 donne 12674 34 Exercices Exercice 31 Le diagramme de courbes de niveau ci-dessous illustre au point P, le minimum qu atteint f (x, y) sous la contrainte g(x,y) = 1 La courbe en trait plein représente la courbe de niveau f (x,y) = 10 et la courbe en pointillé la courbe de niveau g(x,y) = 1 Les gradients sont également représentés Figure 5: Courbes de niveau a) En observant le graphique, déterminez la valeur du multiplicateur de Lagrange λ associé au point P b) Donnez une approximation de la valeur minimale qu atteint la fonction f (x,y) sous la contrainte g(x,y) = 09

16 Exercice 32 Trouvez les valeurs minimale et maximale de a) f (x,y) = xy sous la contrainte x 2 + 2y 2 1; b) f (x,y,z) = x + y + z sous les contraintes x 2 + y 2 + z 2 = 1 et x y = 1 Exercice 33 Une ville B est à 10 km à l est d une ville A et une ville C est à 3 km au nord de la ville B Voir la figure Figure 6: Villes A,B et C On veut réaliser un projet d autoroute entre les villes A et C Le coût de 1 km d autoroute le long de la route existante entre A et B est de 400 000 $, alors que le coût de 1 km d autoroute ailleurs est de 500 000 $ On désire déterminer ou doit se situer le point pivot P (c est-à-dire, à quelle distance de A, l autoroute doit bifurquer pour être construite en plein champ) pour minimiser le coût de réalisation de l autoroute a) Formulez cette question en un problème de minimisation d une fonction de deux variables f (x,y) soumise à une contrainte non linéaire h(x,y) = 9 (Ne pas résoudre) b) Résolvez le problème obtenu en a) par la méthode des multiplicateurs de Lagrange c) On mesure à nouveau, et on réalise que la distance entre B et C est de 29 km et non 3 km Estimez le coût optimal en vous servant du résultat en b) Exercice 34 Deux générateurs utilisent du gaz naturel pour produire de l électricité L énergie produite est de 2 ln(1 + x) pour le générateur 1 et de 4ln(1 + y) pour le générateur 2, où x et y sont les quantitées de gaz brûlées dans les générateurs 1 et 2 Le volume total de gaz disponible est de 19 a) Modélisez la question d identifier les quantitées x et y maximisant l énergie totale comme un problème d optimisation soumise à une contrainte d égalité (Ne pas résoudre) b) Résolvez le problème obtenu en a) par la méthode des multiplicateurs de Lagrange c) Suite à une modification de l offre, on se rend compte que le volume total de combustible est de 195 au lieu de 19 Sans résoudre le nouveau problème d optimisation, estimez l augmentation de la quantité d énergie produite

17 Solutions Section 2 : Optimisation sans contraintes 2 1 Soit (a,b) un point critique Alors f (a,b) = (0,0) Posons d 1 = f xx(a, b) le déterminant de la première matrice principale du hessien, et d 2 = f xx(a,b) f yy(a,b) ( f xy(a,b)) 2 le déterminant de la deuxième matrice principale Si d 1 > 0 et d 2 > 0, alors (a,b) est un minimum local de f ; si d 1 < 0 et d 2 > 0, alors (a,b) est un maximum local de f ; si d 2 < 0, alors (a,b) est un point de selle de f ; si d 2 = 0, alors le test n est pas concluant pour classer (a,b) Remarquez que l encadré est équivalent à celui de la page 812 du livre Le livre utilise cependant une terminologie différente, en affirmant que f (a,b) est un minimum ou un maximum ou un point de selle, Nous adoptons la terminologie plus courante affirmant que c est plutôt (a,b) qui est le minimum ou un maximum ou un point de selle 2 2 a) Non b) (1,0) max local; ( 1,0) point selle; (1,1) point selle; (1, 1) point selle; ( 1,1) min local; ( 1, 1) min local c) (1, 0) 2 3 a) 223; b) 19; c) ( 4 5, 4 5, 7 5 )T ; d) 20; e) 0 2 4 i) 2 5 a) VRAI b) VRAI Section 3 : Optimisation sous contraintes 3 1 a) 1 2 ; b) 1005 3 2 a) (min,max) = ( 2 4, 2 4 ); b) (min,max) = ( 3 6, 3 6 ) 3 3 a) 3 4 a) ( min x,y 4 10 5 (10 y) + 5 10 5 x sc x 2 y 2 = 9 ( max x,y 2ln(1 + x) + 4ln(1 + y) sc x + y = 19 ) ) ; b) y = 4; c) f 4 870 500$ ; b) (x,y) = (6,13); c) 1 7