Méthode de recherche directe avec descente probabiliste

Méthode de recherche directe avec descente probabiliste Clément W. Royer ENSEEIHT-IRIT, Toulouse, France Co-auteurs: S. Gratton, L. N. Vicente, Z. Zhang 2 octobre 2014 Journée des doctorants APO Méthode de recherche directe avec descente probabiliste 1 / 28

Sommaire 1 Recherche directe déterministe 2 Une variante probabiliste 3 Résultats théoriques basés sur la descente probabiliste 4 Conclusions Méthode de recherche directe avec descente probabiliste 2 / 28

Problème On cherche à résoudre le problème d'optimisation sans contraintes suivant : min x R f (x). n Hypothèses sur f f lisse (C 1 ), minorée ; f lipschitzien. Méthode de recherche directe avec descente probabiliste 3 / 28

Problème On cherche à résoudre le problème d'optimisation sans contraintes suivant : min x R f (x). n Hypothèses sur f f lisse (C 1 ), minorée ; f lipschitzien. Minimisation utilisant le gradient Partant de x R n, un déplacement dans la direction f (x) peut conduire à une décroissance de f! Méthode de la plus grande pente ; Méthodes de type gradient. Méthode de recherche directe avec descente probabiliste 3 / 28

La classe de méthodes Optimisation sans dérivées Le gradient est supposé indisponible (Ex : code de simulation) ; Deux grandes catégories de méthodes : basées sur des modèles (Régions de conance, etc) ; Recherche directe. Introduction to Derivative-Free Optimization A.R. Conn, K. Scheinberg, L.N. Vicente. (2009) Méthode de recherche directe avec descente probabiliste 4 / 28

La classe de méthodes Optimisation sans dérivées Le gradient est supposé indisponible (Ex : code de simulation) ; Deux grandes catégories de méthodes : basées sur des modèles (Régions de conance, etc) ; Recherche directe. Introduction to Derivative-Free Optimization A.R. Conn, K. Scheinberg, L.N. Vicente. (2009) Nous nous concentrerons sur les méthodes de recherche directe directionnelle. Optimization by Direct Search : New Perspectives on Some Classical and Modern Methods T.G. Kolda, R.M. Lewis, V. Torczon (2003). Méthode de recherche directe avec descente probabiliste 4 / 28

Algorithme basique de recherche directe 1 Initialisation : Choisir x 0, α 0, θ < 1 γ. 2 Pour k = 0, 1, 2,... Choisir un ensemble D k de m vecteurs unitaires. Si d k D k tel que f (x k + α k d k ) < f (x k ) α 2 k, alors l'itération k est réussie ; poser x k+1 := x k + α k d k et α k+1 := γ α k. Sinon l'itération est non réussie ; poser x k+1 := x k et α k+1 := θ α k. Méthode de recherche directe avec descente probabiliste 6 / 28

Procédé de sondage en recherche directe déterministe Un bon algorithme doit choisir des ensembles de sondage D k qui peuvent assurer la convergence : Comment quantier la qualité d'un ensemble? Comment utiliser cette qualité pour prouver la convergence? Méthode de recherche directe avec descente probabiliste 7 / 28

Procédé de sondage en recherche directe déterministe Un bon algorithme doit choisir des ensembles de sondage D k qui peuvent assurer la convergence : Comment quantier la qualité d'un ensemble? Comment utiliser cette qualité pour prouver la convergence? Une mesure de qualité d'un ensemble Soit D un ensemble de vecteurs unitaires. Alors cm(d) = min v =1 s'appelle la mesure cosinus de D. max d T v d D Méthode de recherche directe avec descente probabiliste 7 / 28

Procédé de sondage en recherche directe déterministe Un bon algorithme doit choisir des ensembles de sondage D k qui peuvent assurer la convergence : Comment quantier la qualité d'un ensemble? Comment utiliser cette qualité pour prouver la convergence? Une mesure de qualité d'un ensemble Soit D un ensemble de vecteurs unitaires. Alors cm(d) = min v =1 s'appelle la mesure cosinus de D. max d T v d D Assumption Il existe κ > 0 tel que k, cm(d k ) κ. Tout vecteur (ex : f (x k )) est alors proche d'un élément de D k. Méthode de recherche directe avec descente probabiliste 7 / 28

Ensembles positivement générateurs Certains ensembles de vecteurs sont connus pour être de bonne qualité. Ensemble Générateur Positif (EGP) D est in EGP si il engendre R n par combinaisons linéaires positives. D est un EGP ssi cm(d) > 0 ; un EGP contient au moins n + 1 vecteurs. Méthode de recherche directe avec descente probabiliste 8 / 28

Ensembles positivement générateurs Certains ensembles de vecteurs sont connus pour être de bonne qualité. Ensemble Générateur Positif (EGP) D est in EGP si il engendre R n par combinaisons linéaires positives. D est un EGP ssi cm(d) > 0 ; un EGP contient au moins n + 1 vecteurs. Exemple D = [I I ] est un EGP tel que cm (D ) = 1 n. Méthode de recherche directe avec descente probabiliste 8 / 28

Convergence de la recherche directe déterministe Lemma Proposition lim α k = 0. k Si la k-ème itération est réussie et que cm(d k ) κ > 0, on a O (α k ) f (x k ). Résultat de convergence Si k, cm(d k ) κ, alors lim inf k f (x k) = 0. Méthode de recherche directe avec descente probabiliste 9 / 28

Convergence globale et complexité au pire cas On a prouvé que lim inf f (x k ) 0, mais pas à quel prix. Complexité au pire cas (méthodes sans dérivées) Estimer le nombre maximum d'appels à f nécessaires pour obtenir inf f (x l ) ɛ. 0 l k Worst-case complexity of direct search L. N. Vicente (2013) Méthode de recherche directe avec descente probabiliste 10 / 28

Complexité (déterministe) au pire cas Théorème (Vicente - 2013) Soit N ɛ le nombre d'appels à f requis pour que la norme du gradient soit plus petite que ɛ (0, 1) ; alors avec m n + 1. N ɛ O ( m (κ ɛ) 2). Corollary Avec D k = D, on obtient κ = 1/ n, m = 2n, et la borne devient N ɛ O ( n 2 ɛ 2). Méthode de recherche directe avec descente probabiliste 11 / 28

De l'aléatoire en recherche directe Idée de base (Gratton, Vicente - 2013) Générer les ensembles de sondage de façon aléatoire et indépendante, possiblement avec moins de n + 1 éléments! Méthode de recherche directe avec descente probabiliste 13 / 28

De l'aléatoire en recherche directe Idée de base (Gratton, Vicente - 2013) Générer les ensembles de sondage de façon aléatoire et indépendante, possiblement avec moins de n + 1 éléments! Des EPG... Méthode de recherche directe avec descente probabiliste 13 / 28

De l'aléatoire en recherche directe Idée de base (Gratton, Vicente - 2013) Générer les ensembles de sondage de façon aléatoire et indépendante, possiblement avec moins de n + 1 éléments! Des EPG......aux ensembles aléatoires Méthode de recherche directe avec descente probabiliste 13 / 28

Motivations expérimentales Quelques résultats avec n = 40 et ɛ = 10 3 : Problème [I I ] [Q Q] 2 n n + 1 n/2 2 1 arglina 3.42 8.44 10.30 6.01 3.21 1.00 arglinb 20.50 10.35 7.38 2.81 2.35 1.00 2.04 broydn3d 4.33 6.55 6.54 3.59 2.04 1.00 dqrtic 7.16 9.37 9.10 4.56 2.77 1.00 engval1 10.53 20.89 11.90 6.48 3.55 1.00 2.08 freuroth 56.00 6.33 1.00 1.67 1.33 1.00 4.00 integreq 16.04 16.29 12.44 6.76 3.52 1.00 nondquar 6.90 30.23 7.56 4.23 2.76 1.00 sinquad 1.31 1.00 1.60 1.23 vardim 1.00 3.80 1.80 2.40 2.30 1.80 4.30 Table : Moyenne relative du nombre d'appels à f pour diérents choix d'ensembles Méthode de recherche directe avec descente probabiliste 14 / 28

Algorithme de recherche directe probabiliste Notations : réalisations et variables aléatoires Ensembles de sondage : D k D k ; Itérés : x k X k ; Longueurs de pas : α k A k. Méthode de recherche directe avec descente probabiliste 15 / 28

Algorithme de recherche directe probabiliste Notations : réalisations et variables aléatoires Ensembles de sondage : D k D k ; Itérés : x k X k ; Longueurs de pas : α k A k. 1 Initialisation : Choisir x 0, α 0, θ < 1 γ. 2 Pour k = 0, 1, 2,..., Choisir un ensemble D k de m vecteurs unitaires aléatoires et indépendants. Si d k D k tel que f (X k + A k d k ) < f (X k ) A 2 k, alors l'itération k est réussie ; poser X k+1 := X k + A k d k et A k+1 := γ A k. Sinon, l'itération est non réussie ; poser X k+1 := X k et A k+1 := θ A k. Méthode de recherche directe avec descente probabiliste 15 / 28

Analyse de l'algorithme probabiliste Ce qui nous intéresse Peut-on prouver qu'il converge quel que soit le point initial? Convergence Globale Peut-on borner les appels à f eectués pour atteindre une tolérance ɛ? Complexité Au Pire Cas Toute la diculté consiste à trouver (et utiliser) de bons outils probabilistes. Méthode de recherche directe avec descente probabiliste 17 / 28

Nouvelle mesure de qualité D n'est pas un EPG... D Méthode de recherche directe avec descente probabiliste 18 / 28

Nouvelle mesure de qualité D n'est pas un EPG......D en est un... D D Méthode de recherche directe avec descente probabiliste 18 / 28

Nouvelle mesure de qualité D n'est pas un EPG......D en est un......mais mieux vaut choisir D! D D f (x) Méthode de recherche directe avec descente probabiliste 18 / 28

Nouvelle mesure de qualité Hypothèse dans le cas déterministe On suppose que : cm(d k ) = min v =1 Mais en réalité, on se sert juste de : max d T v > κ. d D k cm (D k, f (x k )) d = max d D k d T f (x k) f (x k ) > κ. Dans le cas aléatoire, la seconde propriété peut être vraie en probabilité pour un ensemble sans que celui-ci soit un EGP. Méthode de recherche directe avec descente probabiliste 19 / 28

Descente-(p, κ) On veut étudier P (cm (D k, f (X k )) > κ), mais X k dépend de D 0,..., D k 1. Convergence on trust-region methods based on probabilistic models A.S. Bandeira, K. Scheinberg, L.N. Vicente. (2014) Méthode de recherche directe avec descente probabiliste 20 / 28

Descente-(p, κ) On veut étudier P (cm (D k, f (X k )) > κ), mais X k dépend de D 0,..., D k 1. Convergence on trust-region methods based on probabilistic models A.S. Bandeira, K. Scheinberg, L.N. Vicente. (2014) Propriété de descente probabiliste Une suite d'ensembles aléatoires {D k } est appelée suite de descente-(p, κ) si : ( ) k, P cm (D k, f (X k )) > κ S D k 1 p, avec S D k 1 = σ(d 0,..., D k 1 ). Méthode de recherche directe avec descente probabiliste 20 / 28

Convergence avec descente probabiliste Lemma Pour toute réalisation {α k } de {A k } : lim α k = 0. k Théorème de convergence Si {D k } est de descente-(p, κ) où p ln(θ) ln(θ/γ) 1, alors ( ) P lim inf f (X k) = 0 = 1. k Méthode de recherche directe avec descente probabiliste 21 / 28

Eléments de preuve Deux arguments essentiels : Lemma Si k est non réussie, alors {cm (D k, f (X k )) > κ} {O (A k ) f (X k ) }. Lemma Soit Z k = 1 (cm (D k, f (X k )) > κ) ; alors [( k 1 S k = i=0 1 ln γ ln θ ) ] Z i 1. est une sous-martingale et P (lim sup S k = ) = 1. Méthode de recherche directe avec descente probabiliste 22 / 28

Sur la probabilité p Pour assurer la convergence, on doit supposer : ce qui permet de borner m = D k. p p 0 = ln(θ) ln(θ/γ), Exemple : distribution uniforme sur la sphère unité Dans ce cas, {D k } k m ln ( est de descente-(p 0, κ) si 1 ln θ ) ( ln 1 1 ( n 1 ln(θ/γ) 2 B 1 κ 2 2, 1 ) ) 1. 2 où B x (a, b) est la fonction Bêta incomplète. Méthode de recherche directe avec descente probabiliste 23 / 28

Complexité avec descente probabiliste Intuition Soit G k n n = f (X k ) et Z k = 1 (cm(d k, G k ) > κ). Méthode de recherche directe avec descente probabiliste 24 / 28

Complexité avec descente probabiliste Intuition Soit G k n n = f (X k ) et Z k = 1 (cm(d k, G k ) > κ). Si Z k = 1 et k est non réussie, alors G k < O(A k )... Méthode de recherche directe avec descente probabiliste 24 / 28

Complexité avec descente probabiliste Intuition Soit G k n n = f (X k ) et Z k = 1 (cm(d k, G k ) > κ). Si Z k = 1 et k est non réussie, alors G k < O(A k )......donc si inf 0 l k G l n'a pas trop décru, k l=0 Z l ne doit pas être trop grand. Méthode de recherche directe avec descente probabiliste 24 / 28

Complexité avec descente probabiliste Intuition Soit G k n n = f (X k ) et Z k = 1 (cm(d k, G k ) > κ). Si Z k = 1 et k est non réussie, alors G k < O(A k )......donc si inf 0 l k G l n'a pas trop décru, k l=0 Z l ne doit pas être trop grand. Une borne utile Pour toute réalisation, on a k l=0 z l avec g k = inf 0 l k g l. ( O 1 κ 2 g k 2 ) + p 0 k, Méthode de recherche directe avec descente probabiliste 24 / 28

Complexité avec descente probabiliste (2) Complexité probabiliste Soit {D k } de descente-(p, κ), ɛ (0, 1) et N ɛ le nombre d'appels à f nécessaires pour que Gk ɛ. Alors P ( N ɛ O(m (κɛ) 2 ) ) 1 exp ( O ( ɛ 2)). Méthode de recherche directe avec descente probabiliste 25 / 28

Complexité avec descente probabiliste (2) Complexité probabiliste Soit {D k } de descente-(p, κ), ɛ (0, 1) et N ɛ le nombre d'appels à f nécessaires pour que Gk ɛ. Alors P ( N ɛ O(m (κɛ) 2 ) ) 1 exp ( O ( ɛ 2)). En prenant D k = D, on a κ = 1/ n, m = 2 n et p = 1 ; on retrouve O(n 2 ɛ 2 ). Avec une distribution uniforme, la borne devient O(m n ɛ 2 ), et on peut avoir m n + 1! Méthode de recherche directe avec descente probabiliste 25 / 28

Résumé Que ressort-il de cette étude? Un nouvel algorithme convergent qui se passe des EGP ; Méthode de recherche directe avec descente probabiliste 26 / 28

Résumé Que ressort-il de cette étude? Un nouvel algorithme convergent qui se passe des EGP ; Une nouvelle démonstration de complexité probabiliste, qui s'adapte à d'autres méthodes (ex : Régions de Conance) ; Méthode de recherche directe avec descente probabiliste 26 / 28

Résumé Que ressort-il de cette étude? Un nouvel algorithme convergent qui se passe des EGP ; Une nouvelle démonstration de complexité probabiliste, qui s'adapte à d'autres méthodes (ex : Régions de Conance) ; Une amélioration sur le plan numérique. Méthode de recherche directe avec descente probabiliste 26 / 28

Et pour la suite... L'article Direct Search based on Probabilistic Descent. S. Gratton, C. W. Royer, L. N. Vicente, Z. Zhang. Soumis et consultable sur www.optimization-online.org. Quels sont les développements prévus? Extension aux problèmes non lisses et avec contraintes ; Preuve probabiliste de résultats d'ordre 2. Méthode de recherche directe avec descente probabiliste 27 / 28

Merci de votre attention! Méthode de recherche directe avec descente probabiliste 28 / 28