Introduction à l optimisation Première Partie : aspects théoriques Univ. Rennes 1, E.N.S. Rennes



Documents pareils
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Calcul différentiel. Chapitre Différentiabilité

Fonctions de plusieurs variables

3 Approximation de solutions d équations

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Limites finies en un point

Cours d Analyse. Fonctions de plusieurs variables

Dérivées d ordres supérieurs. Application à l étude d extrema.

Image d un intervalle par une fonction continue

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Chapitre 2 Le problème de l unicité des solutions

Théorème du point fixe - Théorème de l inversion locale

Continuité d une fonction de plusieurs variables

I. Polynômes de Tchebychev

Calcul différentiel sur R n Première partie

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Approximations variationelles des EDP Notes du Cours de M2

Différentiabilité ; Fonctions de plusieurs variables réelles

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Continuité en un point

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Correction de l examen de la première session

Développement décimal d un réel

Intégration et probabilités TD1 Espaces mesurés Corrigé

Le produit semi-direct

Programmation linéaire

Chapitre VI Fonctions de plusieurs variables

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Calcul fonctionnel holomorphe dans les algèbres de Banach

Optimisation des fonctions de plusieurs variables


Capes Première épreuve

3. Conditionnement P (B)

Résolution d équations non linéaires

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Planche n o 22. Fonctions de plusieurs variables. Corrigé

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Chp. 4. Minimisation d une fonction d une variable

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Groupe symétrique. Chapitre II. 1 Définitions et généralités

Cours 02 : Problème général de la programmation linéaire

Programmation linéaire et Optimisation. Didier Smets

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

La mesure de Lebesgue sur la droite réelle

La fonction exponentielle

Résolution de systèmes linéaires par des méthodes directes

Université Paris-Dauphine DUMI2E 1ère année, Applications

Suites numériques 3. 1 Convergence et limite d une suite

Les indices à surplus constant

Continuité et dérivabilité d une fonction

Fonctions de plusieurs variables et applications pour l ingénieur

Simulation de variables aléatoires

Intégration et probabilités TD1 Espaces mesurés

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Logique. Plan du chapitre

Probabilités sur un univers fini

Fonctions de plusieurs variables

Correction du baccalauréat S Liban juin 2007

RO04/TI07 - Optimisation non-linéaire

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Cours de mathématiques

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Calcul intégral élémentaire en plusieurs variables

CCP PSI Mathématiques 1 : un corrigé

Comparaison de fonctions Développements limités. Chapitre 10

Fonctions de deux variables. Mai 2011

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Théorie de la Mesure et Intégration

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

I. Ensemble de définition d'une fonction

Chapitre 2. Matrices

Cours d Analyse 3 Fonctions de plusieurs variables

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

n N = u N u N+1 1 u pour u 1. f ( uv 1) v N+1 v N v t

Représentation géométrique d un nombre complexe

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Équations non linéaires

1 Complément sur la projection du nuage des individus

IV- Equations, inéquations dans R, Systèmes d équations

Théorie de la mesure. S. Nicolay

Cours Fonctions de deux variables

Calcul Différentiel. I Fonctions différentiables 3

Introduction à l étude des Corps Finis

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

Raisonnement par récurrence Suites numériques

LES MÉTHODES DE POINT INTÉRIEUR 1

Correction du baccalauréat ES/L Métropole 20 juin 2014

Structures algébriques

Développements limités. Notion de développement limité

Angles orientés et trigonométrie

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Dérivation : cours. Dérivation dans R

MATHÉMATIQUES EN PREMIER CYCLE PRÉSENTATION DU PROGRAMME

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

Transcription:

Notes de cours - Préparation à l agrégation Introduction à l optimisation Première Partie : aspects théoriques Univ. Rennes 1, E.N.S. Rennes Yannick Privat ENS Cachan Bretagne, CNRS, Univ. Rennes 1, IRMAR, av. Robert Schuman, F-35170 Bruz, France; yannick.privat@bretagne.ens-cachan.fr 1

TABLE DES MATIÈRES Table des matières 1 Introduction 3 1.1 Le programme de l agrégation.............................. 3 1. Le vocabulaire de l optimisation............................. 3 1.3 Quelques rappels de calcul différentiel......................... 4 1.4 Détour vers la dimension finie.............................. 6 Questions d existence et unicité des solutions 8.1 Existence en dimension finie............................... 8. Unicité de l optimum.................................... 11.3 Existence en dimension infinie?............................. 14 3 Conditions d optimalité - optimisation sans contrainte 19 3.1 Conditions d optimalité - optimisation sans contrainte............... 0 3. Minimisation d une fonctionnelle quadratique sans contrainte........... 3.3 La méthode des moindres carrés............................. 3 4 Conditions d optimalité - optimisation sous contraintes 5 4.1 Multiplicateurs de Lagrange, le théorème des extrema liés.............. 5 4. Les théorèmes de F. John et Karush-Kuhn-Tucker................... 31

1 INTRODUCTION 3 1 Introduction 1.1 Le programme de l agrégation Optimisation et approximation Interpolation de Lagrange. Extremums des fonctions rőelles de n variables réelles : multiplicateurs de Lagrange. Mise en œuvre de l algorithme de gradient à pas constant. Méthode des moindres carrés et applications. L interpolation de Lagrange et les algorithmes de gradients seront étudiés ultérieurement, au cours de la préparation. 1. Le vocabulaire de l optimisation Soit V est un espace vectoriel normé, muni de la norme. Dans ce cours, on s intéresse au problème suivant { inf f (x) (1) x K, où K V et f : K R est une fonction, appelée fonction coût ou critère. Si K = V, on dit que (1) est un problème d optimisation sans contrainte. Si K V, on dit que (1) est un problème d optimisation sous contrainte. Si dimk < + (resp. dimk = + ), on dit que (1) est un problème d optimisation en dimension finie (resp. infinie). Remarquons que ce formalisme englobe tous les problèmes d optimisation, y compris les problèmes de maximisation puisque maximiser une quantité revient à minimiser son opposé. Dans le cadre de ce cours, on étudiera essentiellement l optimisation en dimension finie, conformément au programme de l agrégation. Nous adopterons la convention suivante : si l on veut indiquer que la valeur du minimum est atteinte, on écrira { min f (x) x K, tandis que l on utilisera la notation inf quand on ne sait pas a priori si la valeur de la borne inférieure est, ou non atteinte. Enfin, rappelons que toute partie minorée non vide de R admet une borne inférieure, caractérisée de la façon suivante : Proposition 1.1. Suites minimisantes Soit X, une partie minorée non vide de R. Alors, les assertions suivantes sont équivalentes : i m= inf{x, x X }; ii ε>0, x X m x < m+ ε; iii m est un minorant de X et il existe (x n ) n N X N, appelée suite minimisante convergeant vers m.

1 INTRODUCTION 4 En conséquence, voici les questions qu il sera naturel de se poser lorsque vous rencontrerez un problème d optimisation : Ce problème possède t-il une solution? 1 er cas de figure. Si ce problème possède une solution, on cherchera à la caractériser (par exemple, est-elle unique?) ou mieux, à la déterminer lorsque ce sera possible. On exploitera pour cela les conditions nécessaires d optimalité (aux premier et deuxième ordres). ème cas de figure. Si ce problème ne possède pas de solution, on cherchera à exhiber une suite minimisante, i.e. une suite d éléments de l ensemble K convergeant vers inf{ f (x), x K }. Enfin, on se posera la question, lorsque l on ne sait pas déterminer explicitement les solutions du problème d optimisation, du choix de méthodes numériques adaptées pour déterminer le minimum et ses minimiseurs. Terminons ce paragraphe en présentant quelques problèmes d optimisation. Problème 1. (dimension finie) Déterminer le parallélépipède rectangle de volume maximal parmi ceux dont la surface extérieure vaut 6. En introduisant a, b et c, les longueurs des côtés du parallélépipède, on se ramène à la résolution du problème supv (a,b,c)= abc ab+ ac+ bc= 3, a 0, b 0, c 0. Il s agit donc d un problème d optimisation dans R 3 sous contrainte. Problème. (dimension infinie) Problème de la reine Didon. Le problème consiste à trouver la courbe plane de longueur l fixée qui enclot avec le segment reliant ses deux extrémités, la portion plane d aire maximale, autrement dit, on résout pour b> a 0, b sup y(x)d x a b 1+ y (x)d x= l, y(a)= y(b)=0, a y Y, où Y est un espace fonctionnel donné (choisi par exemple de sorte que ce problème possède une solution). 1.3 Quelques rappels de calcul différentiel Commençons par la notion de différentiabilité. (voir par exemple [1, 6])

1 INTRODUCTION 5 Définition 1.. Différentiabilité Soient E et F, deux espaces vectoriels normés réels. Soit U, un ouvert de E et x 0 U. On dit qu une application f : U F est différentiable en x 0 ou admet un développement limité au premier ordre en x 0 s il existe d f x0 L (E,F ) (continue), telle que f (x 0 + h) f (x 0 )=d f x0 (h)+ o ( h E ). h 0 Quelques remarques immédiates : En dimension infinie, la différentiabilité d une fonction dépend de la norme dont sont munis les espaces E et F. Ça n est bien sûr pas le cas en dimension finie, étant donné que toutes les normes sont équivalentes. Par définition, l application d f x0 est continue. Il n en est pas nécessairement de même de l application d f : U L(E,F ). Si c est le cas, on dira que f est de classe C 1 au x 0 d f x0 voisinage de x 0. Comment calculer de façon pratique une différentielle? Si l on a au préalable démontré que f est différentiable en x 0, alors, on peut écrire pour tout h E que d f x0 (h)= lim ε 0 ε R f (x 0 + εh) f (x 0 ). ε L intérêt d une telle écriture vient du fait que l on s est ainsi ramené au calcul d une limite d une fonction d une variable réelle. La limite précédente s appelle indifféremment dérivée directionnelle de f en x 0 selon le vecteur h ou différentielle au sens de Gâteaux de f en x 0 dans la direction h. Notons que si f est différentiable, il est aisé de montrer que f admet une dérivée directionnelle selon tout vecteur h, mais que la réciproque n est pas vraie. Résumons sous la forme d un schéma les relations d implication entre ces différentes propriétés. f est C 1 en x 0 = f est différentiable en x 0 = f est C 0 en x 0 f dérivable en x 0 selon tout vecteur h Les implications non écrites sont a priori fausses, c est-à-dire que l on peut trouver des contreexemples. Exemple 1.3 Quelques contre-exemples On peut aisément se convaincre à l aide de la fonction (x, y) R { x 3 x+y si x y 0 sinon

1 INTRODUCTION 6 qu il est possible de trouver une fonction f dérivable selon tout vecteur en x 0 = (0,0) qui n est cependant pas continue en ce point. De même, il existe des fonctions continues non différentiables ayant cependant des dérivées dans toutes les directions. C est par exemple le cas de l application { (x, y) R x si x=y 0 sinon. Cette fonction est bien continue en (0,0), dérivable dans toutes les directions en (0,0) (de dérivées directionnelles nulles), mais pas différentiable en (0,0). Remarque 1.4 Différentiabilité d ordre supérieur Soit V, un espace de Hilbert et f : V R. Si f est supposée différentiable en x 0 V, à partir du développement f (x 0 + h) f (x 0 )=d f x0 (h)+ o h 0 ( h V ), en utilisant le théorème de Riesz, on peut identifier d f x0 (h) à f (x 0 ),h, où f (x 0 ) V. C est ainsi que l on généralise la notion de gradient que nous détaillerons ci-après, dans le cadre de la dimension finie. Dire que f est deux fois différentiable signifie qu il existe une application linéaire L(x 0 ) : V V telle que d f x0 +ξ= d f x0 + L(x 0 )ξ+ o ξ 0 ( ξ V ) V. La différentielle seconde de f, notée d f x0 est alors l application L(x 0 ) : V V. Elle est difficile à évaluer en pratique car L(x 0 )ξ est un élément de V. Heureusement, en la faisant agir sur un élément h V, on obtient une forme bilinéaire continue sur V V, que l on notera d f x0 ξ,h. Il est alors aisé de montrer que f (x 0 + h) f (x 0 )=d f x0 (h)+ 1 d f x0 h,h + o h 0 ( h ). Dans le cas de la dimension finie (V = R n ), ces formules revêtent un aspect particulièrement sympathique puisque la différentielle seconde s identifie à la matrice hessienne lorsque f est deux fois différentiable (voir paragraphe suivant). 1.4 Détour vers la dimension finie Le programme de l agrégation en optimisation s intéresse essentiellement à la dimension finie. On va compléter les notions que nous venons d aborder dans ce cas particulier. Dans ce qui suit, on note (e 1,,e n ) la base canonique de R n et on munit R n de sa structure euclidienne usuelle.

1 INTRODUCTION 7 Définition 1.5. Fonctions de classe C k Soit i {1, n} et k. On dit qu une fonction f : U R n R i admet une dérivée partielle d indice i en x 0 si elle est dérivable en x 0 selon le vecteur e i ; ii est de classe C k si toutes ses dérivées partielles jusqu à l ordre k existent et sont continues sur U. On se placera dorénavant dans le cas particulier d une fonction f : U R n R, avec U ouvert de R n. Soit x 0 K. Supposons que f est différentiable en x 0. Alors, pour tout h R n, f (x 0 + h) f (x 0 )= f (x 0 ),h + o h 0 ( h ) où f (x 0 ) est le gradient de f en x 0, i.e. le vecteur ( f x 1 (x 0 ),, f x n (x 0 )). La notion de gradient n est bien sûr pas intrinsèque, elle dépend du produit scalaire choisi : la définition générale de f (x) résulte du théorème de représentation de Riesz appliqué à la différentielle de f en x. Toutefois, en dimension finie, on fixe le plus souvent le produit scalaire canonique et les formules ci-dessus définissent le gradient et la hessienne tout aussi bien. Supposons que f est deux fois différentiable en x 0. Alors, pour tout h R n, f (x 0 + h) f (x 0 )= f (x 0 ),h + 1 Hess f (x 0)h,h + o h 0 ( h ) où Hess f (x 0 ) est la matrice de taille n n des dérivées secondes de f évaluées en x 0, i.e. ( ) f Hess f (x 0 )= (x 0 ) x i x j 1 i, j n On notera que, si f est deux fois différentiable, en vertu du théorème de Schwarz, Hess f (x 0 ) est symétrique (réelle) (garder également en tête le contre-exemple de Peano lorsque la fonction n est pas deux fois différentiable, cf [6]) Pour rappel, refaisons le point sur les différentes formules de Taylor et les hypothèses minimales de régularité qu elles nécessitent. Nous les écrivons ici à l ordre deux seulement, car cela s inscrit dans la logique de ce cours, mais ces formules s étendent bien sûr à tous les ordres avec des hypothèses ad hoc. Formule de Taylor avec reste intégral. Supposons que f est de classe C dans un ouvert U de R n dans R. Si le segment [a, a+h] est contenu dans U, alors f (x 0 + h) f (x 0 )= f (x 0 ),h + 1 1 0 (1 t ) k Hess f (x 0 + t h)h,h d t k!

QUESTIONS D EXISTENCE ET UNICITÉ DES SOLUTIONS 8 Formule de Taylor avec reste de Lagrange. Supposons que f est deux fois différentiable dans un ouvert U de R n à valeurs dans R. Si le segment [a, a + h] est contenu dans U et supposons qu il existe une constante C > 0 telle que t [0,1], Hess f (x0 + t h)h,h C h. Alors, f (x 0 + h) f (x 0 ) f (x 0 ),h C h. Questions d existence et unicité des solutions d un problème d optimisation On peut retenir comme principe général que la compacité fournit des résultats d existence, et la convexité un cadre favorable pour l unicité. Dans cette section, nous avons fait le choix de présenter la notion de convexité pour des fonctions définies sur un espace de dimension finie (excepté dans la section.3). Néanmoins, on peut sans difficulté étendre ces notions à un espace de Hilbert V. (voir par exemple [1]).1 Existence en dimension finie Dans cette partie, on suppose que f : K R n R est continue, K désignant une partie quelconque de R n. On considère le problème d optimisation { min f (x) x K. () Remarquons que l existence n est pas toujours assurée, comme le montre l exemple de la minimisation de x e x sur R, mais nécessite en général peu d hypothèses. Théorème.1. Existence en dimension finie On suppose qu il existe x 0 R n tel que l ensemble {f f (x 0 )} 1 soit borné. Alors, le problème () a au moins une solution globale x. Démonstration. Le problème () équivaut à minimiser f sur l ensemble compact K := { f f (x 0 )}. Or, une fonction continue sur un compact atteint sa borne inférieure. Redonnons une démonstration de ce résultat élémentaire en utilisant les suites minimisantes, ce qui est tout à fait dans l esprit de ce cours. Posons m = inf{f (x), x K } [,+ [. Soit (x n ) n N, une suite minimisante pour le problème (), i.e. x n K pour tout n N et f (x n ) m. D après le n + théorème de Bolzano-Weierstrass, quitte à extraire, il existe x K (fermé) tel que (x n ) n N converge vers x. Par continuité de f, (f (x n )) n N converge vers f (x ) ce qui implique que m= f (x )>, autrement dit que x réalise le minimum de f sur K, puis sur K. 1. On rappelle que {f f (x 0 )} est l écriture abrégée de {x R n, f (x) f (x 0 )}

QUESTIONS D EXISTENCE ET UNICITÉ DES SOLUTIONS 9 Deux remarques très utiles en pratique... Voici comment on utilise en général le théorème précédent. Rappelons cependant qu il est essentiel que l on se soit placé en dimension finie pour pouvoir utiliser ce théorème. Dans le cas contraire, il est aisé de construire des contre-exemples. Si K est compact, alors, on obtient immédiatement l existence en utilisant la continuité de f. Si f est coercive (on dit aussi infinie à l infini), c est-à-dire f (x) + 1 et K est x + fermé, alors on est dans les conditions d utilisation du théorème précédent. Remarque. Semi continuité inférieure Le théorème précédent reste vrai si l on suppose seulement que f est semi-continue inférieurement, i.e. α R, {f α} est fermé dans R n. Cela peut également s écrire pour tout ε>0, il existe un voisinage V de x 0 tel que f (x) f (x 0 )+ε ou encore f (x 0 ) liminf f (x)= lim inf f (x). x x 0 ε 0 x [x 0 ε,x 0 +ε] Pour se convaincre de la généralisation du théorème précédent aux hypothèses ci-dessus, il suffit d adapter sa preuve en écrivant que f (x ) liminf f (x n)=m pour obtenir le même n + résultat. Par exemple, soit I, un sous-ensemble quelconque de R, (f j ) j I, une famille de fonctions linéaires de R n dans R et f (x)=sup{f j (x), j I } pour tout x dans R n. Alors f est semi-continue inférieurement. En effet, pour tout réel α, l ensemble U α = {x R n, f (x)>α} est la réunion des ensembles U α, j = {x R n, f j (x)>α} : c est une réunion d ouverts, il est donc lui-même ouvert. FIGURE 1 Une fonction semi-continue inférieurement en x 0. 1. Cette condition signifie : A > 0, η > 0, x η = f (x) A ou encore quelle que soit la suite (x n ) n N d éléments de K telle que lim n + x n =+, on a lim n + f (x n )=+.

QUESTIONS D EXISTENCE ET UNICITÉ DES SOLUTIONS 10 Exemple.3 Considérons le problème { min f (x, y)= x 4 + y 4 x (x, y) K = {(x, y) R, x+y 4}. Montrons que f est infinie à l infini. Pour tous (X,Y ) R, on sait que X Y 1 (X +Y ). En remplaçant X par x et Y par 1, on obtient x 4 x 1 et par conséquent, f (x, y) x + y 4 1 x + y (x, y) x + +. f est donc infinie à l infini et K est fermé (image réciproque d un fermé par une application continue...), et on en déduit que le problème d optimisation a (au moins) une solution. Exemple.4 Un peu plus difficile... On définit la famille des {u i } i {0,...,N+1} par u i = i h, avec h = 1 N+1. On se donne un nuage de points de R (u i, x i ) i {0,,N+1}, avec N N donné. On suppose par ailleurs que x 0 = 0 et x N+1 = 1. Posons x = (x 1,, x N ). On appelle f (x), la longueur de la courbe affine par morceaux passant par les points (u i, x i ). On montre aisément que N f (x) = (u i+1 u i ) + (x i+1 x i ) = h i=0 N ( xi+1 x ) i. 1+ h i=0 On considère le problème d optimisation suivant : minimiser la somme des longueurs f (x) parmi tous les x R N, autrement dit { inf f (x) x R N (3). Il est très aisé de caractériser géométriquement la solution d un tel problème. En effet, on se convainc aisément que la meilleure façon de minimiser la longueur f (x) est de choisir tous les x i sur la droite d équation x = u, ce qui caractérise de façon unique les points x i. Ainsi, x i = i h pour tout i {1,..., N }. Cela dit, oublions provisoirement l interprétation géométrique et concentrons-nous sur le problème (3). La simple question de l existence d un minimiseur (et à plus forte raison sa caractérisation) ne semblent alors pas triviales. Montrons-là. On va montrer que f est en réalité infinie à l infini ce qui, en vertu du théorème.1, fournira le résultat. De 1+ x x pour tout x R, on déduit pour k {1,..., N } que k 1 k 1 f (x) x i+1 x i (x i+1 x i ) = x k. i=0 Par conséquent, f (x) x pour tout x R N et l existence d un minimiseur pour le problème (3) s ensuit. i=0

QUESTIONS D EXISTENCE ET UNICITÉ DES SOLUTIONS 11. Unicité de l optimum L unicité repose en général sur des arguments de convexité. Rappelons les notions d ensemble convexe et de fonction convexe. Définition.5. Ensembles et fonctions convexes i On dit qu un ensemble K R n est convexe si, et seulement si pour tous (x 1, x ) K et t [0,1], t x 1 + (1 t )x K. ii Soit K, un convexe inclus dans R n. La fonction f : K R est dite convexe si, et seulement si (x 1, x ) K, t [0,1], f (t x 1 + (1 t )x ) t f (x 1 )+(1 t )f (x ). On dit que f est strictement convexe si l inégalité ci-dessus est stricte pour x y, t ]0,1[. Rappelons que toute fonction convexe possède une régularité minimale en dimension finie. Si f est une fonction convexe définie sur un ouvert convexe Ω de R n, alors f est continue sur Ω et lipschitzienne sur tout compact de Ω. (voir par exemple [7] pour la preuve dans R n et [9] pour le cas n= 1) De la propriété de Lipschitz découle, en utilisant le théorème de Rademacher, que toute fonction convexe définie sur Ω R n est différentiable presque partout (au sens de la mesure de Lebesgue) sur son domaine. À présent, nous allons rappeler un fait bien connu mais néanmoins fort utile en pratique. On peut caractériser assez facilement une fonction convexe dans le cas où celle-ci est régulière (différentiable partout ou deux fois différentiable partout). Théorème.6. Caractérisation des fonctions convexes dans le cas régulier i Si f : R n R est différentiable, on a les équivalences entre (i ) f est convexe sur R n ; (i i ) f (y) f (x)+ f (x), y x, (x, y) [R n ] ; (i i i ) f (y) f (x), y x 0, (x, y) [R n ]. ii On a équivalence entre convexité stricte et les inégalités (i i ) et (i i i ) précédentes rendues strictes, pour x y. iii Si f : R n R est deux fois différentiable, on a les équivalences entre (i ) f est convexe; (i i ) pour tout x R n, Hess f (x) est semi-définie positive. Démonstration. i (i )= (i i ). Soit t [0,1], (x, y) [R n ]. Alors, par convexité de f, f (t x+

QUESTIONS D EXISTENCE ET UNICITÉ DES SOLUTIONS 1 (1 t )y) (1 t )f (x)+ t f (y), d où f (x+ t (y x)) t [f (y) f (x)], puis on divise par t et on fait tendre t vers 0. (i i )= (i i i ). On écrit (i i ) avec (x, y), puis (y, x) et on somme. (i i i ) = (i i ). On utilise la formule de Taylor Mac-Laurin à l ordre 1, appliquée à la fonction t [0,1] f (x+ t (y x)). Il existe t [0,1] tel que f (y) = f (x)+ f (x+ t (y x)), y x = f (x)+ f (x), y x + f (x+ t (y x)) f (x), y x, et ce dernier terme est positif par (i i i ), donc on a (i i ). (i i )= (i ). On pose x t = (1 t )x+ t y = x+ t (y x) et on écrit (i i ) avec x = x t, y = x ou y. On a : f (x) f (x t )+ f (x t ), x x t f (y) f (x t )+ f (x t ), y x t, sachant que x x t = t (y x), y x t = (1 t )(y x). On multiplie alors les deux inégalités respectivement par 1 t et t, puis on les somme : (1 t )f (x)+ t f (y) (1 t+ t )f (x t )= f (x t ). ii Il s agit d adapter avec beaucoup de précaution la démonstration précédente. Cet exercice est laissé au lecteur. Attention cependant à être prudent lors des passages à la limite afin de conserver des inégalités strictes. iii (i )= (i i ). On applique la propriété (i i i ) précédente avec x et y = x+ t h. On obtient f (x+ t h) f (x), t h 0. On divise alors cette inégalité par t puis on fait tendre t vers 0, ce qui fournit : Hess f (x)h,h 0, x R n, h R n. (i i )= (i ). On applique la formule de Taylor-Mac Laurin à l ordre deux : f (y) = f (x)+ f (x), y x + 1 Hess f (x+ t (y x))(y x), y x f (x)+ f (x), y x, (x, y) [R n ], qui est une condition équivalente à la convexité d après la première partie du théorème.. Rappelons la formule de Taylor Mac-Laurin : soit f : [α,β] R une fonction N + 1 fois dérivable. Alors, il existe γ ]α,β[ tel que N (β α) k f (β)= f (α)+ f (k) (α)+ (β α)n+1 f (N+1) (γ). k=1 k! (N + 1)! Remarquons que lorsque N = 1, la formule de Taylor Mac-Laurin coïncide avec la formule des accroissements finis.

QUESTIONS D EXISTENCE ET UNICITÉ DES SOLUTIONS 13 Exemple.7 Convexité d une fonction quadratique On considère la fonction f : R n R x f (x)= 1 Ax, x b, x +c, avec A une matrice réelle symétrique, b un vecteur de R n et c une constante donnée On a tous calculs faits : f (x+ h) f (x)= Ax b,h + 1 Ah,h, ce qui permet de se convaincre (en identifiant les termes du membre de droite avec ceux du développement limité de f par exemple) que le gradient de f est f (x)= Ax b, x R n. et la hessienne de f est, pour tout x R n, Hess f (x)= A. En particulier, on déduit immédiatement de ce calcul et du théorème.6 que f est convexe si, et seulement si A est semi-définie positive, et strictement convexe si, et seulement si A est définie positive. La convexité est en général un outil précieux en optimisation. Nous développerons un peu les diverses applications à l optimisation dans le cadre de ce cours. Théorème.8. Soit le problème () avec f convexe et K convexe (éventuellement de dimension infinie). Alors, i tout minimum local est un minimum global. ii si f est strictement convexe, il y a au plus un minimum. Démonstration. i Soit x, un minimum local pour le problème (). Par l absurde, supposons qu il existe y K tel que f (y)< f (x ). Soit y t = t y+ (1 t )x, avec t ]0,1[. Alors, f (y t ) f (x ) si t est suffisamment petit (en effet, si t est petit, y t x = t y x l est aussi... ). La convexité de f implique que f (x ) f (y t ) t f (y)+(1 t )f (x ), ce qui montre que f (y)< f (x ) f (y). C est absurde et il s ensuit que x minimise f sur K. ii Si x 1 et x sont deux solutions globales de (), alors si x 1 x, ( x1 + x ) f < 1 f (x 1)+ 1 f (x )= f (x 1 ), ce qui est absurde. Cela implique donc l unicité.

QUESTIONS D EXISTENCE ET UNICITÉ DES SOLUTIONS 14.3 Existence en dimension infinie? Dans ce paragraphe, nous allons énoncer un résultat d existence en dimension infinie dans le cas particulier où f satisfait une propriété de convexité forte. En général, et c est sans grande surprise, il est bien plus difficile d obtenir un résultat d existence en dimension infinie. À titre d exemple, considérons l espace de Hilbert (de dimension infinie) des suites de carré sommable dans R, c est-à dire { } + l (R)= x= (x n ) n N R N xn <+, muni du produit scalaire x, y = + n=0 x n y n. On considère la fonctionnelle f définie par f : l (R) R + x n=0 ( x 1 ) + + On s intéresse au problème d optimisation { inf f (x) x l (R). n=0 x n n+ 1 Remarquons que f est une fonctionnelle coercive (infinie à l infini). En effet, pour tout x l (R), f (x) ( x 1 ) x + +. Cependant, le problème d optimisation ci-dessus n a pas de solution. Pour le vérifier, il suffit de remarquer que inf{f (x), x l (R)}=0. L existence d un minimiseur x tel que f (x)=0étant clairement impossible, cela garantit que ce problème n a pas de solution. Démontrons à présent que inf{f (x), x l (R)}=0. On considère la suite (minimisante) (x n ) n N l (R) N définie pour n N fixé par : x n k = δ k,n, k N. On vérifie alors aisément que pour tout n N, f (x n )= 1 n+1 et la conclusion s ensuit. La moralité de cet exemple est (ça n est pas une grande surprise!) que la compacité s obtient bien plus difficilement en dimension infinie qu en dimension finie. Bien que la suite minimisante (x n ) n N soit bornée, il n est pas possible d en extraire une sous-suite convergente dans l (R). Dans ce qui suit, on présente un cas favorable assurant l existence en dimension infinie. Gardons tout de même à l esprit que l essentiel du programme d optimisation pour la préparation à l agrégation porte sur des notions de dimension finie. Dans ce qui suit, on se place dans un espace de Hilbert V muni d un produit scalaire,. Définition.9. Fonction α-elliptique Soit K V, un convexe. Une fonction f : K R est dite fortement convexe ou uniformément convexe ou α-convexe ou α-elliptique s il existe α>0 tel que, pour tous (x, y) K, t [0,1], f (t x+ (1 t )y) t f (x)+(1 t )f (y) α t (1 t ) x y.

QUESTIONS D EXISTENCE ET UNICITÉ DES SOLUTIONS 15 Il est tout à fait clair que l ellipticité implique la stricte convexité qui implique elle-même la convexité. On notera que la convexité correspond formellement au cas α=0. Bien sûr, les réciproques sont fausses. Exemple.10 Liens entre les différentes notions de convexité Nous donnons ici quelques exemples et contre-exemples élémentaires, qui seront complétés par la suite (en particulier, on étudiera de près la convexité des fonctionnelles quadratiques en dimension finie). i Toute fonction affine de R dans R est convexe mais non strictement convexe. ii D après la définition, il est clair qu une fonction α-elliptique est strictement convexe, et donc convexe. iii La fonction x ln x est strictement convexe sur ]0,+ [, mais non elliptique. Prouvonsle! Cette fonction est strictement convexe (on peut utiliser le critère sur les dérivées secondes par exemple, que nous rappellerons ultérieurement). Reste à montrer que cette fonction n est pas elliptique. Raisonnons par l absurde, en supposant l existence de α>0 tel que, pour tous (x, y) ]0,+ [, x y, et t [0,1], ln(t x+ (1 t )y)< t ln x (1 t )ln y α (x y). Fixons y ]0,+ [, t [0,1], divisons cette inégalité par (x y) et faisons tendre x vers +. On obtient alors immédiatement α 0, ce qui est absurde. iv Il est aisé de montrer que la fonction x x est 4-elliptique sur R. En effet, soit (x, y) R, x y et t [0,1]. Alors, on vérifie que (t x+ (1 t )y) = t x + (1 t )y t (1 t )(x y). La proposition ci-dessous examine plus précisément le lien entre convexité et uniforme convexité. Elle fournit également un critère permettant de vérifier l uniforme convexité d une fonction. Proposition.11. Comme précédemment, f désigne une fonction de V dans R. i La fonction f est α-elliptique si et seulement si la fonction f α est convexe. ii On suppose que f est continue. Alors, la fonction f est α-elliptique si, et seulement si il existe α>0 tel que, pour tout (x, y) V, ( x+y f ) f (x)+ f (y) α 8 x y.

QUESTIONS D EXISTENCE ET UNICITÉ DES SOLUTIONS 16 Démonstration. i Posons g (x)= f (x) α x. En développant t x+(1 t )y et en regroupant les termes correctement, on trouve t g (x)+(1 t )g (y) g (t x+(1 t )y)= t f (x)+(1 t )f (y) f (t x+(1 t )y) α t (1 t ) x y, ce qui prouve l équivalence annoncée. ii Le sens direct est immédiat et s obtient en choisissant t = 1. Le sens réciproque est un peu plus délicat. Nous allons procéder par récurrence. Pour tout n N, on note K n = {ξ [0,1], n ξ N}. Fixons x et y dans V. On appelle P n la propriété : Pour tout t K n, l inégalité f (t x+ (1 t )y) t f (x)+(1 t )f (y) α t (1 t ) x y, est vérifiée. L initialisation de cette propriété est immédiate. Montrons son hérédité. Soit t K n+1 \K n, alors t K n. Il existe (t 1, t ) Kn tels que t 1< t et t = t 1+t. Puisque f vérifie l inégalité particulière de α-convexité énoncée dans la proposition, ( ) (t1 x+ (1 t 1 )y)+(t x+ (1 t )y) f (t x+ (1 t )y) = f 1 ( f (t1 x+ (1 t 1 )y)+ f (t x+ (1 t )y) ) α 8 (t t 1 ) x y. Or, puisque l inégalité de α-ellipticité a été supposée vraie sur K n, on en déduit f (t x+ (1 t )y) t 1 f (x)+(1 t 1 )f (y)+ t f (x)+(1 t )f (y) α 4 (t 1(1 t 1 )+ t (1 t )) x y α 8 (t t 1 ) x y = t f (x)+(1 t )f (y) α 4 (t 1(1 t 1 )+ t (1 t ) + 1 (t t 1 ) ) x y = t f (x)+(1 t )f (y) α t (1 t ) x y, ce qui prouve que l inégalité de α-ellipticité est alors valable pour tout élément de K n+1. On en déduit par récurrence que l inégalité est valable pour t n N K n. Comme f est continue, l inégalité reste valable sur l adhérence de l union des K n, c est-à-dire sur [0,1]. Dans le cas où la fonction f est régulière, comme pour la convexité, il existe des caractérisations de la convexité uniforme. On peut voir ces caractérisations comme des corollaires du théorème.6.

QUESTIONS D EXISTENCE ET UNICITÉ DES SOLUTIONS 17 Corollaire.1. Caractérisation des fonctions uniformément convexes dans le cas régulier i Si f : V R est différentiable, on a les équivalences (i ) f est α-elliptique; (i i ) f (y) f (x)+ f (x), y x + α y x, (x, y) V ; (i i i ) f (y) f (x), y x α y x, (x, y) V. ii Si f : V R est deux fois différentiable, on a les équivalences (i ) f est α-elliptique; (i i ) Hess f (x)h,h α h, x V, h V. Démonstration. i Grâce à la proposition.11, (i ) équivaut à dire que g (x)= f (x) α x est convexe. or, g (x) = f (x) αx. En écrivant alors les conditions (i ), (i i ) et (i i i ) du théorème.6, on obtient exactement les conditions (i i ) et (i i i ) du corollaire pour f. ii La preuve découle immédiatement du théorème.6, en posant comme précédemment g (x)= f (x) α x et en remarquant que Hess g (x)=hess f (x) αi. Exemple.13 α-convexité d une fonction quadratique Revenons sur l exemple de la fonction f définie par f : R n R x f (x)= 1 Ax, x b, x +c, avec A une matrice réelle symétrique, b un vecteur de R n et c une constante donnée. On a déjà prouvé dans l exemple.7 que f est strictement convexe sur R n si, et seulement si A est définie positive, et que de plus Hess f (x) = A pour tout x R n. Étant donné que A est symétrique réelle, on peut la diagonaliser dans une base orthonormée réelle de vecteurs propres notée {e i } 1 i n. Le spectre de A rangé par ordre croissant est : λ 1 λ n. On peut alors écrire que A= P DP, avec P O n (R), la matrice telle que P = P 1 = [e 1 e n ], où les vecteurs e 1,, e n, sont écrits en colonne, et D = diag (λ 1,,λ n ). Posons u= Ph. Alors, n n Ah,h = λ i u i λ 1 u i = λ 1 u = λ 1 h. i=1 i=1 On en déduit que f est λ 1 -elliptique. On peut d ailleurs montrer facilement que λ 1 est la meilleure constante d ellipticité de f en remarquant que l inégalité ci-dessus est une égalité lorsque h est un vecteur propre associé à λ 1.

QUESTIONS D EXISTENCE ET UNICITÉ DES SOLUTIONS 18 Remarque.14 uniformément convexe implique coercif Si f est α-elliptique et différentiable, en utilisant la caractérisation précédente, on obtient aisément que ce qui implique que f est coercive. f (x) f (0)+ f (0), x + α x, Nous sommes à présent en mesure d établir le résultat d existence annoncé en dimension finie. Théorème.15. Soit K, un convexe fermé non vide d un espace de Hilbert V et f, une fonction α- convexe continue sur K. Alors, il existe un unique minimum x de f sur K et on a : x x 4 α [f (x) f (x )], y K. En particulier, toute suite minimisante de f sur l ensemble K converge vers x. Démonstration. Il existe un point un peu technique dans cette démonstration qui, paradoxalement, dans beaucoup de problèmes d optimisation, est vérifié gratuitement. En effet, il s agit du lemme suivant : Lemme.16. Soit f, une fonction α-convexe sur K. Alors, il existe deux constantes (α 1,α ) R + R telles que f (x) α 1 x + α. Ce lemme est démontré dans [1]. Il utilise dans sa preuve le théorème de séparation d un point et d un convexe. Il assure, puisque f est infinie à l infini, que f est minorée sur le convexe K, donc que inf{f (x), x K } est fini. Il arrive assez souvent dans la pratique que l on minimise des fonctionnelles naturellement positives ou minorées si bien que cette étape n apparaît plus essentielle dans ces cas. Démontrons à présent le théorème en admettant le lemme technique ci-dessus. On désigne par m, la quantité inf{f (x), x K }. Soit (x n ) n N, une suite minimisante de f sur K. Puisque f est α-elliptique, on a pour tous (n,m) N, α 8 x n x m + f ( xn + x m Or, par définition de m, f ( x n +x m ) m, si bien que ) m 1 (f (x n) m)+ 1 (f (x m) m). 0 α 8 x n x m 1 (f (x n) m)+ 1 (f (x m) m).

3 CONDITIONS D OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 19 On en déduit que (x n ) n N est de Cauchy, et donc converge vers une limite x K (K est fermé), qui est nécessairement le minimum de f, puisque f est continue. L unicité découle du théorème.8. Enfin, soit x K. Utilisons encore le caractère α-elliptique de f, on obtient : car f ( x+x α 8 x x f ( (x )+ f (x) x ) + x f f (x) f (x ), ) f (x ). Remarque.17 On peut affaiblir les hypothèses du théorème précédent, en remplaçant l hypothèse de continuité de f par une hypothèse de semi-continuité inférieure de f. La démonstration reste alors inchangée, et il suffit d écrire que f (x ) liminf n + f (x n). 3 Conditions d optimalité - optimisation sans contrainte Dans le cadre du programme de l agrégation, nous nous concentrons essentiellement sur l étude des conditions d optimalité en dimension finie. Nous donnons tout de même quelques pistes en dimension infinie. Théorème 3.1. Inéquation d Euler Soit f : K V R, où K est un convexe inclus dans V, un espace de Hilbert. On suppose que f est différentiable en x K. Si x est un minimum local de f sur K, alors x vérifie l inéquation d Euler : d f x (y x) 0, y K. Si de plus, f est convexe, alors x est un minimum global de f sur K. f (x+t (y x)) f (x) Démonstration. Pour y K et t ]0,1], x+t(y x) K et donc 0. On en déduit t l inéquation d Euler en faisant tendre t vers 0. La deuxième assertion de ce théorème a déjà été montrée dans le théorème.6.

3 CONDITIONS D OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 0 3.1 Conditions d optimalité - optimisation sans contrainte On s intéresse dans cette section au problème { min f (x) x R n. (4) où f : R n R. Souvenons-nous qu en dimension 1, si un point maximise ou minimise localement une fonction dérivable, alors, sa dérivée s annule nécessairement en ce point. Nous allons préciser cette propriété et la généraliser aux dimensions supérieures. Théorème 3.. Conditions nécessaires Soit x, un minimum local pour le problème (4). i si f est différentiable en x, alors f (x ) = 0. On dit que x est un point stationnaire ou critique. ii si f est deux fois différentiable en x, alors Hess f (x ) est semi-définie positive. Remarque 3.3 L exemple f (x)= x 4 montre que l on n a pas mieux que le caractère semi-défini positif de la hessienne, même si x est un minimum global. L exemple f (x)= x 3 montre que ce théorème donne une condition nécessaire mais pas suffisante. Démonstration. i On écrit f (x ) f (x +εh)= f (x )+ f (x ),εh + εh ϕ(εh), avec ϕ(εh) ε 0 0. On divise alors par ε>0 puis on fait tendre ε vers 0 +. Enfin, en choisissant dans le développement précédent±h pour tout h R n, la conclusion s ensuit. ii On utilise un développement de Taylor-Young à l ordre et on utilise les mêmes notations que précédemment. On a : f (x + h) = f (x )+ f (x ),h + 1 Hess f (x )h,h + h ϕ(h) = f (x )+ 1 Hess f (x )h,h + h ϕ(h) Comme précédemment, on remplace h par εh, h quelconque, ε petit, puis on divise par ε et on fait tendre ε vers 0.

3 CONDITIONS D OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 1 Théorème 3.4. Conditions suffisantes Soit f, deux fois différentiable en x R n, tel que f (x )=0 et de plus : soit Hess f (x ) est définie positive, soit f est deux fois différentiable dans un voisinage de x et Hess f (x) est semidéfinie positive dans ce voisinage. Alors, x est un minimum local pour f. Remarque 3.5 Le caractère semi-défini positif de la hessienne en x ne suffit pas pour conclure, comme en atteste l exemple f (x)=x 3. En revanche, le caractère défini-positif de la hessienne n est pas nécessaire, comme en témoigne l exemple f (x)= x 4. On rappelle qu un point critique qui n est pas un extremum local porte le nom de point selle. Démonstration. Hess f (x ) est définie positive, par conséquent, il existe α > 0 tel que Hess f (x )h,h α h pour tout h R n (rappelons que α peut être choisi égal à la plus petite valeur propre de la matrice hessienne de f en x ). On écrit alors la formule de Taylor-Young à l ordre deux en x : f (x + h) = f (x )+ 1 Hess f (x )h,h + h ϕ(h) [ α ] f (x )+ + ϕ(h) h > f (x ), pourvu que h soit choisi assez petit, puisque ϕ(h) h 0 0. f étant supposée deux fois différentiable au voisinage de x, on écrit la formule de Taylor- Mac Laurin. Ainsi, il existe t [0, 1] tel que f (x + h) = f (x )+ 1 Hess f (x t )h,h f (x ), où x t = x + t h est proche de x si h est petit. On vient donc d établir une condition nécessaire, des conditions suffisantes, mais a priori pas de conditions à la fois nécessaires et suffisantes. Comme précédemment, il est possible de préciser cette étude dans le cadre convexe. Théorème 3.6. Condition nécessaire et suffisante, cas convexe Soit f convexe et différentiable sur R n. Une C.N.S. pour que x soit un minimum local (donc global) de f est que x soit un point critique de f, autrement dit, que f (x )=0.

3 CONDITIONS D OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE Démonstration. La condition nécessaire résulte immédiatement du théorème 3., tandis que l équivalence local-global résulte du théorème.8. Quant à la condition suffisante, elle résulte de l application du théorème.6. En effet, pour tout x R n, On en déduit que x est bien un minimum. f (x) f (x )+ f (x ), x x = f (x ). Dans la suite, nous allons nous intéresser à deux exemples fondamentaux dans le domaine des mathématiques appliquées : la minimisation d une fonctionnelle quadratique et la méthode des moindres carrés. 3. Minimisation d une fonctionnelle quadratique sans contrainte On considère la fonctionnelle quadratique 3 f : R n R x f (x)= 1 Ax, x b, x +c, où A désigne une matrice réelle symétrique, b est un vecteur de R n et c est une constante donnée. On considère le problème { min f (x) x R n (5). Nous avons montré dans l exemple.7 que le gradient de f est f (x)= Ax b et que Hess f (x)= A, pour tout x R n. En particulier, nous avons montré que f est convexe si, et seulement si A est semi-définie positive. Dans ce cas, f admet un minimum (global) si, et seulement si il existe x R n tel que Ax = b ou encore si, et seulement si b Im A. Notons, puisque nous sommes en dimension finie et que A est symétrique, que Im A= (ker A ) = (ker A). Étant donné que A est symétrique réelle, on peut la diagonaliser dans une base orthonormée réelle de vecteurs propres notée {e i } 1 i n. Le spectre de A rangé par ordre croissant est : λ 1 λ n. On distingue alors plusieurs cas selon le signe de la plus petite valeur propre λ 1 : si λ 1 < 0, alors f n est pas bornée inférieurement. En effet, z R, f (ze 1 )= λ 1 z z b,e 1 +c z +. Le problème (5) n a donc pas de solution dans ce cas. si λ 1 = 0 et si b (ker A), alors l équation f (x)=0 n a pas de solution, ce qui implique que le problème (5) n a donc pas de solution. Plus précisément, f est convexe, mais pas bornée inférieurement et il existe e 1 ker A tel que b,e 1 0. On en déduit : z R, f (ze 1 )= z b,e 1 +c z sgn( b,e 1 ). 3. On dit que cette fonctionnelle est quadratique par abus de langage bien qu elle soit en réalité la somme d une fonction quadratique et d une fonction affine.

3 CONDITIONS D OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 3 si λ 1 = 0 et si b (ker A), alors l équation f (x)=0 possède une infinité de solutions, ce qui implique que le problème (5) a une infinité de solutions. Puisque A est semi définie positive, f est convexe et tout minimum local est un minimum global. Plus précisément, si x 0 désigne une solution particulière de l équation f (x)=0, il est aisé de vérifier que l ensemble des solutions est l espace affine x 0 + ker A et min f (x)= 1 x R n b, x 0 +c. si λ 1 > 0, la matrice A est inversible et l équation f (x)=0admet une solution unique qui est A 1 b. On notera que, en vertu de l exemple.13, f est λ 1 -elliptique, donc strictement convexe en particulier. De plus, la valeur du minimum est 3.3 La méthode des moindres carrés min x R n f (x)= 1 b, A 1 b +c. On pourra se référer par exemple à []. Soit A, une matrice réelle de taille m n (en pratique, m est souvent bien plus grand que n). On suppose donc que m > n. On cherche à résoudre Ax = b au mieux, i.e. on cherche x minimisant f : R n R x f (x)= Ax b, la notation désignant bien sûr la norme euclidienne de R n. Pour montrer que le problème consistant à minimiser f sur R n possède une solution, on peut le réexprimer sous la forme : rechercher l existence d un projeté de b sur le sous espace vectoriel Im A. Puisque nous sommes en dimension finie, on sait qu il existe un unique projeté b sur le sous espace vectoriel Im A, car celui-ci est de dimension finie donc fermé (voir par exemple [6]). On peut réexprimer f (x) sous une forme mieux adaptée à la procédure de minimisation que l on souhaite mettre en œuvre. En effet, x R n, f (x) = 1 Ax b = 1 Ax, Ax Ax,b + 1 b = 1 A Ax, x A b, x + 1 b. La fonction f est bien évidemment convexe. Remarquons que la matrice A A est de taille n n, symétrique et semi-définie positive (immédiat). On peut alors réutiliser l étude faite dans la section 3.. On distingue deux cas : Si A est de plein rang n. Alors, d après le théorème du rang, la matrice A est injective, ce qui garantit que A A est également injective donc inversible. En conséquence, le problème des moindres carrés (ou de projection orthogonale) possède une solution unique x. On peut obtenir explicitement x en résolvant le système d équations normales issu de la fonctionnelle quadratique f (i.e. f (x) = 0) : A Ax=A b.

3 CONDITIONS D OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 4 Si rga < n. Alors, la plus petite valeur propre de A A est nulle, puisque A A n est pas injective. On a vu que le problème des moindres carrés se ramène à un problème de projection orthogonale et que ce problème possède (au moins) une solution. D après l étude faite dans la section 3., dans le cas où la plus petite valeur propre de A A est nulle, ce qui est le cas ici, le problème de minimisation de la fonctionnelle quadratique associée a soit une infinité de solutions, soit pas de solution. On en déduit que le problème des moindres carrés possède dans ce cas une infinité de solutions. On peut également s en convaincre de la façon suivante : l équation A Ax=A b possède au moins une solution si, et seulement si A b Im A A, i.e. A b [ker A A] = [ker A] (car ker A A = ker A), ce qui est vrai puisque ker A= [Im A ] 4. Remarque 3.7 Pseudo-inverse Dans le cas où A A est inversible, la matrice A = (A A) 1 A s appelle pseudo-inverse ou inverse généralisé de A. Le pseudo-inverse se calcule à l aide d une généralisation du théorème spectral aux matrices non carrées. L opération de pseudo-inversion est très utile en analyse numérique. Elle est en particulier involutive et commute avec la transposition et la conjugaison. Exemple 3.8 La régression linéaire On pourra par exemple se référer à [3, Chapitre ] pour la régression linéaire sans contrainte et à [3, Chapitre 3] pour la régression linéaire avec contraintes. On considère un nuage de m points de R : M i = (t i, x i ), pour i {1,,m}. Ces données sont souvent le résultat de mesures et on cherche à décrire le comportement global de ce nuage. En général, ces points ne sont pas alignés, mais si on a de bonnes raisons de penser qu ils devraient l être (un modèle physique, biologiste, etc. peut guider l intuition), on peut se demander quelle est la droite approchant au mieux ces points. La méthode des moindres carrés consiste alors à rechercher la droite telle que la somme des carrés des distances des points du nuage à cette droite soit minimale. Autrement dit, on cherche à résoudre n min f (α,β)= (x i αt i β), i=1 (α,β) R. Posons X = (α,β). Alors, on peut écrire que t 1 1 f (α,β)= AX b, avec A=.., b= t m 1 4. En effet, rappelons que, puisque nous sommes en dimension finie, tout espace vectoriel est fermé et [Im A ] = Im A = Im A x 1. x m

4 CONDITIONS D OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 5 On a vu que ce problème possède une solution unique si A est de rang plein, i.e.. On en déduit que ce problème possède une solution unique sauf si t 1 = =t m. De plus, ( m A A= i=1 t i m i=1 t i m i=1 t i On en déduit que l équation normale associée est { St α+s t β=s xt m ) S t α+mβ=s x ( m et A b= i=1 x i t i m i=1 x i où l on a posé S t = m i=1 t i, S x = m i=1 x i, S xt = m i=1 x i t i et S t = m i=1 t. Sous réserve que l on i ne soit pas dans la situation t 1 = = t m (ce qui se retrouve en calculant le déterminant du système et en retrouvant un cas d égalité de Cauchy-Schwarz), ce système a pour solution α= S xs t ms xt (S t ) ms t et β= S xt S t S x S t (S t ). ms t ). 4 Conditions d optimalité - optimisation sous contraintes Dans cette section, on cherche à énoncer des conditions d optimalité au premier ordre pour des problèmes d optimisation avec contraintes, du type inf f (x) h(x)=0 g (x) 0, où f : R n R, h : R n R p et g : R n R q, p et q désignant deux entiers naturels non nuls. Dans l énoncé du problème ci-dessus, la contrainte inégalité doit être interprétée composante par composante. L énoncé des conditions d optimalité nécessite l introduction de multiplicateurs de Lagrange. Dans un premier temps, on va s intéresser à un problème sous contrainte simplifié, dans lequel ne figurent que des contraintes égalité. 4.1 Multiplicateurs de Lagrange, le théorème des extrema liés Dans un premier temps et pour comprendre de façon intuitive les résultats qui vont suivre, considérons le cas où l ensemble des contraintes est une intersection finie d hyperplans. On cherche donc à résoudre { inf f (x) h(x)=0 avec f : R n R, une fonction diférentiable sur R n et a 1, x h(x)=. a p, x

4 CONDITIONS D OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 6 On pose K = {x R n, h(x)=0}. Puisque K est un espace vectoriel, il est aisé de voir que si x est un minimum local de f sur K, alors f (x ),δx =0, δx K. Autrement dit, f (x ) est un élément de K. Or, on peut aisément se convaincre que Par conséquent, K = vect{a i,1 i p}. (λ 1,,λ p ) R p f (x )+ p λ i a i = 0. Chaque réel λ i s appelle un multiplicateur de Lagrange. On va généraliser cette notion au cas où h est quelconque. Soit h 1,, h p, p fonctions de R n dans R p. On appelle K, l ensemble des contraintes i=1 K = {x R n, h 1 (x)= = h p (x)=0}. (6) Le théorème qui suit généralise le résultat établi dans l exemple introductif. Théorème 4.1. Extrema liés Soit f : R n R, une fonction différentiable et h : R n R p, de classe C 1. On suppose que f admet un minimum local sur l ensemble K et que la famille h 1 (x ),, h p (x ) est libre. (7) Alors, il existe un p-uplet (λ 1,,λ p ) R p tel que f (x )+ p λ k h k (x )=0. (8) k=1 Remarque 4. Qualification des contraintes La condition (7) est appelée condition de qualification des contraintes. Remarquons que si cette condition n est pas satisfaite, alors la conclusion du théorème 4.1 tombe en défaut. En effet, pour s en convaincre, considérons l exemple suivant : { inf f (x)= x x R et h(x)=0, où h : x R x. Alors, le minimum de f sur K est atteint en x = 0 et l équation (8) n a pas lieu puisque h (x )=0 et f (x )=1. Pour remédier à ce problème, on peut remplacer la condition (8) par la condition (λ 0,λ 1,,λ p ) R p λ 0 f (x )+ p λ k h k (x )=0. k=1

4 CONDITIONS D OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 7 On peut cependant démontrer (voir par exemple [3, 7]) que la condition de qualification des contraintes (7) assure que λ 0 0 et on retrouve alors les conclusions du théorème 4.1. Démonstration. Dans le but d éviter un formalisme pénible, on présente une preuve du théorème 4.1 dans le cas n = et p = 1. Cependant, aucune difficulté conceptuelle supplémentaire n apparaît dans le cas général. On note donc K = {x R n,h(x)=0}. L idée de la preuve consiste à se ramener à la recherche de minima locaux d une fonction d une variable. Notons que, quitte à effectuer un changement de coordonnées, la condition (7) se réécrit sous la forme h x (x ) 0, ce qui nous incite à utiliser le théorème des fonctions implicites. En effet, on peut érire K comme un graphe dans une petite boule centrée en x : ε>0, ϕ C 1 (R,R), K B(x,ε)={x = (x 1, x ) B(x,ε), x = ϕ(x 1 )}. Par conséquent, la fonction f : x 1 f (x 1,ϕ(x 1 )) admet un minimum local en x1. Écrivons alors les conditions d optimalité au premier ordre pour une telle fonction. f (x1 f )=0 (x1 x,ϕ(x 1 ))+ϕ (x1 ) f (x1 1 x,ϕ(x 1 ))=0. Par ailleurs, de h(x 1,ϕ(x 1 ))=0 dans un voisinage de x1, on déduit h (x1 x,ϕ(x 1 ))+ϕ (x1 ) h (x1 1 x,ϕ(x 1 ))=0 La conclusion s ensuit en remarquant que x = ϕ(x 1 ) et en posant λ= f (x ) x h x (x ). Remarque 4.3 Interprétation géométrique Pour donner une interprétation géométrique au théorème précédent, on va décomposer les gradients de h et f dans une base adaptée. En effet, plutôt que de décomposer le gradient de h dans la base canonique ( e 1, e ) (i.e. h(x )= h x 1 (x ) e 1 + h x (x ) e ), on peut le décomposer suivant n (x ) (vecteur normal à la variété h(x)=0 ) et τ (x ) (vecteur tangentiel à la variété

4 CONDITIONS D OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 8 h(x) = 0 ) en x (le fait que h soit une fonction de classe C 1 l existence de tels vecteurs), autrement dit et que h(x ) 0 garantit h(x )= h n (x ) n (x )+ h τ (x ) τ (x ), avec h n (x )= h(x ) n (x ) et h τ (x )= h(x ) τ (x ). Or, puisque K B(x,ε) est le graphe d une fonction ϕ, on en déduit que ( τ (x 1 )= 1+ϕ (x1 ) 1 ϕ (x 1 ) ) et n (x )= 1 1+ϕ (x1 ) ( ϕ (x 1 ) 1 ) À présent, remarquons que la composante tangentielle du gradient de h s écrit ( h 1 h τ (x )= (x )+ϕ (x 1+ϕ (x1 ) 1 x ) h ) (x ). 1 x À un facteur multiplicatif près, on reconnaît la dérivée de x 1 h(x 1,ϕ(x 1 )) en x1, qui est par conséquent nulle. On en déduit : h(x )= h n (x ) n (x ). De la même façon, le fait que la dérivée de x 1 f (x 1,ϕ(x 1 )) s annule en x1 d optimalité au premier ordre) s interprète géométriquement comme : (condition f τ (x )=0. Il s ensuit que le gradient de f en x est dirigé suivant le vecteur normal n (x ), ce qu exprime exactement la relation (8). (voir Figure ) Exemple 4.4 Un premier exemple très simple Pour comprendre comment utiliser le théorème des extrema liés, considérons l exemple suivant : { inf f (x, y)= x 4 + y 4 (x, y) R tel que x + y = 1. Remarquons que l existence est immédiate. En effet, on minimise une fonction continue de deux variables sur un compact de R. On peut d ailleurs mener un calcul direct en se ramenant à la minimisation d une fonction d une variable réelle. Ainsi, posons x = cosθ et y = sinθ, avec θ [0,π[. On trouve alors que f (cos θ,sinθ) = (cos θ+ sin θ) cos θ sin θ = 1 1 sin (θ).