La méthode des poids multiplicatifs : un méta-algorithme d approximation pour l apprentissage et l optimisation

Documents pareils
Programmation linéaire

OPTIMISATION À UNE VARIABLE

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Quantification Scalaire et Prédictive

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Filtrage stochastique non linéaire par la théorie de représentation des martingales

FIMA, 7 juillet 2005

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Algorithmes pour la planification de mouvements en robotique non-holonome

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Simulation de variables aléatoires

LES MÉTHODES DE POINT INTÉRIEUR 1

Echantillonnage Non uniforme

TSTI 2D CH X : Exemples de lois à densité 1

Master of Science en mathématiques

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Couplage efficace entre Optimisation et Simulation stochastique Application à la maintenance optimale d une constellation de satellites

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Corrigé des TD 1 à 5

Sujet 4: Programmation stochastique propriétés de fonction de recours

Cryptographie. Cours 3/8 - Chiffrement asymétrique

Introduction à la théorie des files d'attente. Claude Chaudet

CAPTEURS - CHAINES DE MESURES

Équation de Langevin avec petites perturbations browniennes ou

PROBABILITES ET STATISTIQUE I&II

Principe de symétrisation pour la construction d un test adaptatif

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Annexe 6. Notions d ordonnancement.

Intelligence Artificielle Planification

Chp. 4. Minimisation d une fonction d une variable

CHAPITRE 5. Stratégies Mixtes

Table des matières. I Mise à niveau 11. Préface

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Ma banque, mes emprunts et mes intérêts

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Chapitre 6. Fonction réelle d une variable réelle

FORMULAIRE DE STATISTIQUES

Master of Science en mathématiques

Maîtrise universitaire ès sciences en mathématiques

Probabilités conditionnelles Exercices corrigés

Probabilités III Introduction à l évaluation d options

Travaux dirigés d introduction aux Probabilités

Guidance de Statistique : Epreuve de préparation à l examen

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Apprentissage par renforcement (1a/3)

CCP PSI Mathématiques 1 : un corrigé

Quelques tests de primalité

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Raisonnement probabiliste

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Probabilités. Une urne contient 3 billes vertes et 5 billes rouges toutes indiscernables au toucher.

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Optimisation Discrète

Chapitre 1. L intérêt. 2. Concept d intérêt. 1. Mise en situation. Au terme de ce chapitre, vous serez en mesure de :

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ;

Attitude des ménages face au risque. M1 - Arnold Chassagnon, Université de Tours, PSE - Automne 2014

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

MCMC et approximations en champ moyen pour les modèles de Markov

Modélisation aléatoire en fiabilité des logiciels

Le modèle de Black et Scholes

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Correction du Baccalauréat S Amérique du Nord mai 2007

Nombres premiers. Comment reconnaître un nombre premier? Mais...

Propriétés des options sur actions

4.2 Unités d enseignement du M1

Projet de Traitement du Signal Segmentation d images SAR

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

SAS ENTERPRISE MINER POUR L'ACTUAIRE

L ordinateur quantique (suite)

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

La fonction exponentielle

Sites web éducatifs et ressources en mathématiques

Moments des variables aléatoires réelles

Systèmes de transmission

Chaine de transmission

Soutenance de stage Laboratoire des Signaux et Systèmes

Programmes des classes préparatoires aux Grandes Ecoles

Lagrange, où λ 1 est pour la contrainte sur µ p ).

La nouvelle planification de l échantillonnage

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Equations différentielles linéaires à coefficients constants

Intérêt du découpage en sous-bandes pour l analyse spectrale

L exclusion mutuelle distribuée

Nathalie Barbary SANSTABOO. Excel expert. Fonctions, simulations, Groupe Eyrolles, 2011, ISBN :

O, i, ) ln x. (ln x)2

Chapitre 2 Les ondes progressives périodiques

SUJET ZÉRO Epreuve d'informatique et modélisation de systèmes physiques

Trouver un vecteur le plus court dans un réseau euclidien

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Equipement. électronique

Nombre de crédits Nombre d'évaluation UE Majeure de spécialité 6 2. UE mineure de spécialité 3 ou 2 1. UE libre 1 1

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Programmation Linéaire - Cours 1

Transcription:

La méthode des poids multiplicatifs : un méta-algorithme d approximation pour l apprentissage et l optimisation Richard Lassaigne IMJ/Logique mathématique CNRS-Université Paris Diderot

Motivation 1 Un exemple (parmi beaucoup d autres) d application Respect différentiel de la vie privée Présentation unifiée de différents algorithmes d approximation dans des domaines d application divers Algorithmes en ligne de prise de décison avec récompenses (ou coûts) La méthode de mise à jour des poids multiplicatifs Correction de l algorithme MWU Une méthode d approximation probabiliste pour casser la barrière de la complexité

Contexte : requêtes statistiques dans les bases de données 2 Requête du type : Combien d enregistrements dans la BD satisfont la propriété P (P prédicat booléen sur l univers D) Idée : La probabilité que le résultat communiqué soit R est presque la même, indépendamment du fait que l on fournit ou non une information personnelle pour tous I, i, R Prob[R univers = D I ] Prob[R univers = D I±i ] exp(ε)

Respect différentiel de la vie privée 3 Définition (Dwork, Mc Sherry, Nisssim et Smith, 2006) : Un algorithme probabiliste M est ε-différentiellement privé si pour tous ensembles de données D, D voisins et tout évènement S P rob[m(d) S] exp(ε).p rob[m(d ) S] Deux ensembles de données D, D sont voisins s ils ne diffèrent que par un seul élément Algorithme : Calculer la vraie réponse à la requête q(d) Ajouter un bruit aléatoire suivant une distribution satisfaisant z, z z z 1 P rob[z] exp(ε).p rob[z ] Exemple : Distribution de Laplace p(z) = 1 z 2b exp( b ) avec b = 1 ε

Requêtes successives en ligne 4 Problème : complexité de l erreur cumulée par combinaison de requêtes dans le contexte interactif de requêtes adaptatives Théorème (Hardt et Rothblum, 2010) : Algorithme (PMW) Le Private Multiplicative Weights Mechanism est un méchanisme différentiellement privé de réponse à k requêtes de comptage dans le contexte interactif avec erreur maximum polynomiale en log(k)/n où n = BD Le temps de réponse à chaque requête est polynomial. Remarque : la dépendance en k et n est optimale Algorithme d apprentissage sous-jacent : Méthode de mise à jour des poids multiplicatifs

Guide du randonneur égaré dans l univers des poids multiplicatifs 5 Jeu fictif (Brown,51) Probabiliste (Grigoriadis, Khachiyan,95) Problème de décision en ligne (Freund, Schapire,97) Apprentissage (Littlestone,89) Majorité pondérée (+ Warmuth,94) Méthode des poids multiplicatifs Approximation dans les jeux à somme nulle (thm minimax, J. V. Neumann) Classification linéaire (apprentissage) Optimisation linéaire (flôt maximum, coupure minimum,...)

Algorithmes en ligne 6 Problèmes de décision en ligne : L entrée arrive élément par élément à chaque étape L algorithme prend une décision à chaque étape Application dans des contextes variés : Théorie des jeux Apprentissage automatique Optimisation linéaire

Problème de décision en ligne 7 Modèle de décision en ligne : Ensemble A de n 2 actions, horizon de temps T 1 A chaque étape t = 1, 2,..., T un preneur de décision choisit une distribution p t sur A un adversaire choisit un vecteur de récompenses r t : A [ 1, 1] une action a t est choisie suivant la distribution p t et le preneur de décision reçoit la récompense r t (a t ) le preneur de décision apprend le vecteur de récompenses r t Algorithme en ligne : Pour chaque t, la distribution p t est une fonction des vecteurs r 1,..., r t 1 et des actions a 1,..., a t 1 Pour chaque t, le vecteur r t est une fonction des distributions p 1,..., p t et des actions a 1,..., a t 1

Quel(s) objectif(s) possible(s) pour un algorithme en ligne? 8 Récompense totale espérée proche de la récompense de la meilleure suite d actions? L objectif T max a Ar t (a) est trop fort Objectif de la meilleure action fixée : max a A T r t(a) Mesure de l efficacité de l algorithme : minimisation du regret max a A T r t (a) T r t (a t ) Le regret dans le pire des cas est de 2T (les récompenses [ 1, 1]) On considère comme mauvais un regret de cet ordre Ω(T )

Existe-t-il des algorithmes dont le regret soit en O( T )? 9 Les algorithmes probabilistes sont meilleurs avec une borne inférieure sur le regret de l ordre de T ln n si n = 2, on choisit chaque vecteur de récompenses r t indépendamment et de manière uniforme entre (1, 1) et ( 1, 1) à chaque étape, la récompense espérée est égale à 0 la récompense totale espérée est aussi nulle la récompense totale espérée de la meilleure action est proportionnelle à T, donc le regret est en O( T ) avec n actions, avec un argument similaire, on obtient que le regret espéré d un algorithme de décision en ligne ne peut croître plus lentement que b T ln n où b est une constante indépendante de n et T

L algorithme des poids multiplicatifs 10 Théorème : Existence d un algorithme de décision en ligne qui, pour tout adversaire, a un regret espéré 2 T ln n Corollaire : Existence d un algorithme de décision en ligne qui, pour tout adversaire et tout ε > 0, a un regret espéré en moyenne ε après au plus (4 ln n)/ε 2 étapes Conséquence : Le nombre d étapes nécessaire pour rendre le regret espéré en moyenne aussi petit que l on veut est logarithmique dans le nombre d actions C est cette forme de garantie qui est utilisée dans les applications

L algorithme des poids multiplicatifs 11 Principes de conception : La probabilité de choix d une action croît avec la récompense cumulée La probabilité de choix d une action peu performante doit décroître de manière exponentielle Algorithme MW : Initialisation : w 1 (a) = 1 pour tout a A Pour toute étape t = 1, 2,..., T utiliser la distribution p t = w t /Γ t sur les actions où Γ t = a A w t(a) est la somme des poids étant donné le vecteur de récompenses r t, pour toute action a A, mettre à jour le poids w t+1 (a) = w t (a)(1 + ηr t (a)) Le paramètre η est compris entre 0 et 1/2 et est choisi à la fin de la preuve du théorème.

Correction de l algorithme MW 12 1e étape : Comment la somme des poids évolue avec le temps? Soit γ t la récompense espérée à l étape t : γ t = a A p t (a)r t (a) = a A w t (a) r t (a) Γ t On exprime Γ t+1 en fonction de Γ t : Γ t+1 = a A w t+1 (a) = a A w t (a)(1 + ηr t (a)) Γ t+1 = Γ t (1 + ηγ t ) Borne supérieure à chaque étape : Γ t+1 Γ t e ηγ t Borne supérieure finale : Γ T +1 Γ 1 T e ηγ t = ne η T γ t On obtient ainsi une borne inférieure de la récompense espérée comme une fonction relativement simple de la quantité Γ T +1

Correction de l algorithme MW (suite) 13 2e étape : S il existe une bonne action fixée, alors son poids montre que la valeur finale Γ T +1 est plutôt grande Soit opt = T r t(a ) la récompense cumulée de la meilleure action fixée a : T Γ T +1 w T +1 (a ) = w 1 (a) (1 + ηr t (a )) On utilise alors : ln(1 + x) x x 2 pour x 1/2 Borne inférieure obtenue (η 1/2 et r t (a ) 1) : Γ T +1 T e ηr t(a ) η 2 (r t (a )) 2 Γ T +1 e ηopt η2 T

Correction de l algorithme MW (fin) 14 En combinant les deux bornes obtenues : ne η T γ t Γ T +1 e ηopt η2 T T γ t opt ηt ln n η On choisit le paramètre η de manière à rendre égaux les deux termes d erreur : η = (ln n)/t Le regret espéré de l algorithme MW est alors : T opt γ t 2 T ln n Conséquence : le regret espéré en moyenne est 1 T T (opt ln n γ t ) 2 ε si T 4 ln n T ε 2

Extensions de l algorithme MW 15 Regret espéré : T max a A r t (a) T r t (a t ) L espérance est sur le choix aléatoire de l action à chaque étape La garantie du théorème peut être étendue à la meilleure distribution de probabilités fixée : la meilleure action fixée est au moins aussi bonne que la meilleure distribution fixée Autre extension utile pour les applications : l ensemble des valeurs de récompenses est [ M, M] Changement d échelle pour obtenir un regret en moyenne ε : diviser toutes les récompenses par M appliquer l algorithme MW pour que le regret ε/m choisir l horizon de temps T = 4M 2 (ln n) ε 2

Conclusion 16 La méthode des poids multiplicatifs fournit un cadre général pour divers algorithmes d approximation La mise à jour des poids dans la distribution de probabilités sur les actions permet de diminuer de manière exponentielle l influence des mauvaises stratégies L horizon de temps ne dépend que de manière logarithmique du nombre d actions L utilisation d algorithmes probabilistes permet souvent de réduire de manière importante la complexité en espace

Références 17 S. Arora, E. Hazan and S. Kale. The Multiplicative Weights Update Method : A Meta-Algorithm and Applications. Theory of Computing, vol. 8, p.121-164, 2012 C. Dwork, Frank McSherry, K.Nissim and A. Smith. Calibrating noise to sensitivity in private data analysis. 3rd Theory of Cryptography Conference, 2006. M. Hardt and G. Rothblum. A multiplicative weights mechanism for interactive privacy-preserving data analysis. Proc. Foundations of computer Science, 2010. T. Roughgarden. A second course in Algorithms. Lectures 11 and 12. Dept. of Computer Science, Stanford, 2016

Merci pour votre attention 18