Cours 2 6 octobre. 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée



Documents pareils
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Résolution d équations non linéaires

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Chp. 4. Minimisation d une fonction d une variable

3 Approximation de solutions d équations

Optimisation des fonctions de plusieurs variables

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Simulation de variables aléatoires

NON-LINEARITE ET RESEAUX NEURONAUX

Méthodes de Simulation

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Économetrie non paramétrique I. Estimation d une densité

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Exercice : la frontière des portefeuilles optimaux sans actif certain

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Fonctions de plusieurs variables

Correction de l examen de la première session

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

PROBABILITES ET STATISTIQUE I&II

Cours de méthodes de scoring

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

«Cours Statistique et logiciel R»

RO04/TI07 - Optimisation non-linéaire

de calibration Master 2: Calibration de modèles: présentation et simulation d

Mesures de dépendance pour la séparation aveugle de sources. Application aux mélanges post non linéaires

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Précision d un résultat et calculs d incertitudes

Calcul différentiel. Chapitre Différentiabilité

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Lagrange, où λ 1 est pour la contrainte sur µ p ).

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Introduction au Data-Mining

LES MÉTHODES DE POINT INTÉRIEUR 1

Arbres binaires de décision

Cours d Analyse. Fonctions de plusieurs variables

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Suites numériques 4. 1 Autres recettes pour calculer les limites

Le théorème des deux fonds et la gestion indicielle

1 Complément sur la projection du nuage des individus

Résolution de systèmes linéaires par des méthodes directes

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Chapitre VI Fonctions de plusieurs variables

Etude des propriétés empiriques du lasso par simulations

Théorie de l estimation et de la décision statistique

choisir H 1 quand H 0 est vraie - fausse alarme

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Moments des variables aléatoires réelles

Programmation linéaire

Introduction à la Statistique Inférentielle

Chapitre 2 Le problème de l unicité des solutions

Classification non supervisée

Problèmes arithmétiques issus de la cryptographie reposant sur les réseaux

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Probabilités III Introduction à l évaluation d options

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Probabilités sur un univers fini

Texte Agrégation limitée par diffusion interne

Calcul fonctionnel holomorphe dans les algèbres de Banach

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Image d un intervalle par une fonction continue

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Introduction au Data-Mining

MCMC et approximations en champ moyen pour les modèles de Markov

Licence Sciences et Technologies Examen janvier 2010

Différentiabilité ; Fonctions de plusieurs variables réelles

MATLAB : COMMANDES DE BASE. Note : lorsqu applicable, l équivalent en langage C est indiqué entre les délimiteurs /* */.

Calcul différentiel sur R n Première partie

Chapitre VI - Méthodes de factorisation

Fonctions de plusieurs variables. Sébastien Tordeux

Cours d analyse numérique SMI-S4

Théorèmes de Point Fixe et Applications 1

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Probabilités sur un univers fini

Compte rendu des TP matlab

3. Conditionnement P (B)

Exercices Corrigés Premières notions sur les espaces vectoriels

TRANSPORT ET LOGISTIQUE :

Algorithmes d'apprentissage

Équations non linéaires

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Représentation des Nombres

Coup de Projecteur sur les Réseaux de Neurones

Programmation linéaire et Optimisation. Didier Smets

Quelques tests de primalité

Quantification Scalaire et Prédictive

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Cours d introduction à la théorie de la détection

Théorème du point fixe - Théorème de l inversion locale

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

SEANCE 4 : MECANIQUE THEOREMES FONDAMENTAUX

Les indices à surplus constant

Transcription:

Introduction aux modèles graphiques 2010/2011 Cours 2 6 octobre Enseignant: Francis Bach Scribe: Nicolas Cheifetz, Issam El Alaoui 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée Soit x, un vecteur de k observations i.i.d. Le vecteur x est la réalisation d une variable aléatoire X qui suit une loi normale : X N(µ, Σ), où µ R k et Σ R k k Afin de calculer les paramètres de la loi, on cherche à maximiser la log-vraisemblance : l(θ) = log p(x 1,...,x n θ) = log p(x i θ) = k 2 log(2π) 1 2 log Σ 1 2 (x i µ) T Σ 1 (x i µ) Il s agit d optimiser l(θ) ; il faut donc calculer successivement deux gradients : ( µ l(θ) = 1 ) 2 Σ 1 (µ x i ) 2 µ l(θ) = 0 ˆµ = 1 n Notons à présent Λ = Σ 1. Dans ce cas, le gradient par rapport Λ est : Λ l(θ) = Λ 1 ˆΣ Λ l(λ) = 0 ˆΣ = Λ 1 = 1 n x i, car Λ log Λ = Λ 1 (x i µ) (x i µ) T Remarque: On retrouve la moyenne et la matrice de covariance empirique, ce qui montre bien que le maximum de vraisemblance pour les modèles paramétriques classiques permet d obtenir les estimateurs classiques. 2-1

2.1.1 Régression linéaire Remarque: un noeud dans un modèle graphique représente une variable aléatoire. Considérons deux noeuds X et Y dont on observe une répartition sur un axe (X, Y ) : On a par exemple envie de dire que Y va dépendre linéairement de X. Il faut donc chercher la loi de Y X en maximisant la vraisemblance. Supposons que : Y X N(θ T X + θ 0, σ 2 ) Une petite astuce nous permet de nous affranchir de θ 0. En écrivant x = ( ( x 1), où x est en général de dimension k et θ = θ ) θ 0. On est ramené à Y X N(θ T X, σ 2 ) Les données du problème sont : x j i : i-ème observation de la j-ème variable (x i R k ) et i {1,..., n},j {1,..., k} X R n k est dite matrice de design On supposera les données indépendantes identiquement distribuées (i.i.d.). Le but est de maximiser la log vraisemblance : l(θ, σ 2 ) = = log N(y i θ T x i, σ 2 ) ( ) 1 1 2 log 1 2πσ 2 2σ 2 (θt x i y i ) 2 On notera avec le symbole une égalité à une constante près. On calcule la log vraisemblance de (θ, σ 2 ) : l(θ, σ 2 ) n 2 log(σ2 ) 1 y Xθ 2 2σ2 avec y Xθ 2 = (y Xθ) T (y Xθ) = (y T y + θ T X T Xθ 2y T Xθ). 2-2

Tout d abord, calculons le gradient de la log vraisemblance par rapport à θ : ie θ l(θ, σ 2 ) = 0 Donc, θ = (X T X) 1 X T y. θ l(θ, σ 2 ) = 1 2σ 2 2XT (Xθ y) X T Xθ = x T y équation normale Calculons ensuite le gradient de la log vraisemblance par rapport à 1 σ 2 : Questions : 1/σ 2 l(θ, σ 2 ) = n 2 1 1/σ 2 1 2 1/σ 2 l(θ, σ 2 ) = 0 ˆσ 2 = 1 n (y i θ T x i ) 2 (y i ˆθ T x i ) 2 (X T X) est-il inversible? condition nécessaire : n k (si n < k, rg(x T X) n < k) En pratique : on fait du QR on remplace (X T X) par (X T X + ǫ Id) ; autrement dit, on pénalise une norme sur un des paramètres pour assurer une convergence des résultats. (CF Cours Audibert Apprentissage statistique). Cecie est equivalent à d ajouter ǫ θ dans σ 2 θ l. Cela revient à ajouter ǫ θ θ 2 σ 2 dans l(θ, σ 2 ) quand n k, pas de problème Comment évaluer la qualité de l estimateur du MV? Soit x p θ0 (x). Dans le cas de l estimateur de l espérance par moyenne empirique, on rappelle que le théorème central limite permet de conclure de la convergence ainsi que de l erreur commise. Ceci est plus général; en effet, sous certaines hypothèses, ˆθ MV θ 0. De plus, on a : ˆθ MV θ 0 1. n n 2.2 Régression logistique Maintenant, on dispose de X R k et de Y {1,..., q}. On cherche une séparation dans l espace des paramètres. 2-3

Cas : q=2 Il faut construire un modèle prédictif du type de Y. Par exemple, Y {0, 1}. Limitons-nous d abord à q = 2 (pour q > 2, on parle de régression softmax). Un séparateur linéaire est par exemple θ T x + θ 0 = 0 ; on veut en déterminer un modèle : p(y = 1 x) = σ(θ T x + θ 0 ) On choisit la fonction sigmoide : σ(z) = 1 1+e z. On l a choisi notamment car σ = σ(1 σ) et σ( z)+σ(z) = 1. De plus, son logarithme est concave, ce qui permettra une maximisation plus stable. Nous travaillons avec les hypothèses suivantes : (x i, y i ) i.i.d., i {1,..., n} x i R k et y i {0, 1} l(θ) = = log(σ(θ T x i )) + log(1 σ(θ T x i )) i/y i =1 i/y i =0 y i log(σ(θ T x i )) + (1 y i ) log(σ( θ T x i )) l(θ) est bien concave car log(σ) est concave. Calculons le gradient, et on note : σ(θ T x i ) = η i θ l(θ) = y i x i (1 η i ) (1 y i ) x i η i θ l(θ) = x i (y i η i ) = x i (y i σ(θ T x i )) La présence de σ nous empêche d inverser immédiatement. Il faut donc calculer la hessienne 2 θ l(θ) Rk k, matrice des dérivées secondes pour obtenir : (Cf. poly) 2 θ l(θ) = x i (x i η i (1 η i )) T = X T Diag(η i (1 η i )) X 2.2.1 Méthodes de descente de gradient Lorsqu il est question de minimiser f : R k R convexe, une condition nécessaire est d avoir un gradient nul, mais cette condition n est pas suffisante. On peut donc être amené à utiliser des méthodes de descente de gradient. 2-4

Une descente produit une séquence x (k) telle que x (k+1) = x (k) + ε (k) d (k) où d (k) est une direction de descente, ε (k) > 0 est le pas, de sorte à avoir f(x (k+1) ) < f(x (k) ) (sauf pour le x (k) optimal). Dans la cadre de la descente de gradient, on choisit d (k) = x f(x (k) ). Il existe plusieurs stratégies pour définir le pas ε (k) > 0: 1. Le pas constant: ε (k) = ε. Dans ce cas, l algorithme n est pas toujours convergent. 2. Un pas décroissant ε (k) 1 k (avec k ε(k) = et k ε(k)2 < ). Toujours convergent mais parfois on peut dépasser le minimum (avec un pas de trop) 3. La Line Search qui cherche à trouver min ε f(x (k) + εd (k) ): soit de manière exacte (en pratique, c est une opération coûteuse et souvent inutile). Toujours convergent. soit de manière approchée. Toujours convergent. Remarque : La minimisation exacte de min ǫ R f(x t ǫ f(x t )) est une perte de temps, sauf si il s agit d un problème de minimisation pour un polynôme (recherche des racines). 2.2.2 Méthodes du second ordre Ici, f est convexe et surtout f C 2. On a f : R k R : f(x + δ) = f(x) + δ T f(x) + o( x ) Le développement poussé à la hessienne donnerait : δ T 2 f(x) δ + o( x 2 ). De plus, on a comme propriété que f est partout dérivable, et convexe si et seulement si 2 f(x) est semi définie positive : z R k, z T 2 f(z) z 0. En dérivant par rapport à δ : f(x) + 2 f(x)δ = 0 ie δ = ( 2 f(x)) 1 f(x) est le point qui minimise l approximation quadratique de f(x). On utilise la méthode de Newton pour trouver un x vérifiant cette équation pour δ tendant vers 0 : Méthode du second ordre, méthode de Newton L idée sous-jacente de la méthode de Newton est de minimiser l approximation quadratique de f en x (k), x f(x) = f(x (k) ) + x f(x (k) ) T (x x (k) ) + (x x (k) ) T 2 xf(x (k) )(x x (k) ). On reprend le même schéma de descente décrit précédemment avec désormais, la direction de descente égale à d (k) = ( 2 x f(x(k) )) 1 x f(x (k) ) (on suppose que la Hessienne est bien conditionnée en x (k) ). 2-5

Si la fonction n est pas convexe, la méthode n est pas globalement convergente, mais néanmoins localement convergente. Même si la fonction est convexe, la méthode n est pas globalement convergente. Pour rendre la méthode de Newton globalement convergente avec une fonction convexe, il est nécessaire d avoir recours à une Line Search. Cependant, pour la régression logistique, pour n assez grand (par rapport à p), la méthode de Newton est convergente. La complexité algorithmique de cette méthode est alors de l ordre de O(p 3 + p 2 n) (où p et n sont respectivement la dimension et le nombre de points), correspondant à la formation ainsi qu à l inversion de la Hessienne. Il existe de nombreuses extensions de méthodes Newtoniennes - telles que les méthodes dites Quasi-Newtoniennes - qui essaient de réduire la complexité de la procédure en approximant le calcul de la Hessienne. Remarque: en pratique, lorsque l on utilisera la méthode de Newton dans la cas de la régression logistique, on pourra constater une convergence en environ 20 itérations, sans line search. De plus, dans le cas de la régression logistique, si le nombre d observations n est grand devant la dimension de la variable d entrée p, alors la méthode de Newton est globalement convergente. 2.2.3 Algorithme IRLS pour la régression logistique Reécrivons le gradient θ l(θ) : θ l(θ) = i x i (y i η i ) = x T (y η) 2 θ l(θ) = x T Diag(η i (1 η i )) x Lorsque cette dernière matrice est définie très négative, elle a une courbure très forte, ce qui impliquera que la méthode de Newton sera efficace. On parle alors de irls (iteratively Reweighted Least Squares). On écrira alors en notant W = Diag(η i (1 η i )) θ 0 = 0 t, θ t+1 = θ t (X T WX) 1 (X T (η y)) Que se passe-t-il lorsque on a plus que deux étiquettes? Par exemple si Y {1,..., q} : On dispose alors d un équivalent de σ (fonction sigmoide) dans ce cas : p(y = s x) = e θt s x q j=1 eθt j x On utilisera alors typiquement une fonction softmax, ou bien une méthode 1 contre tous, ou 1 contre 1 (ce qui est assez naturel graphiquement - cf poly) 2-6

2.2.4 Liens avec la SVM Pour la régression logistique, on prend l ensemble {0, 1}, alors qu en SVM, on choisira plutôt l ensemble { 1, 1}, i.e., au lieu de prendre y i {0, 1}, on considère s i = 2y i 1 { 1, 1}. 1 Notons f(u) = log σ(u) = log(1 + e u ) Alors, on a : l(θ) = ( ) n log 1 = n σ (s i θ T x i ) f(s iθ T x i ). L hyperplan séparateur est θ T x = 0, quelle est l erreur comise? On a une erreur de prédiction lorsque s i θ T x i 0. Et le nombre d erreurs est n g 0 1(s i θ T x i ), où g 0 1 (u) = 1 if u < 0 and 0 sinon. Ceci est une fonction convexe. Plusieurs choix sont possibles pour la remplacer par une fonction convexe. La SVM utilise u max(0, 1 u) alors que la logistique utilise f(u) = log(1+e u ). Ces deux fonctions (et les prédictions associées) sont très proches. Le modèle est dit bien bien spécifié lorsque p(y = 1 x) est effectivement égale à σ(θ T x). Notez que même si le modèle est mal spécifié, on peut toujours appliquer la régression logistique. 2.3 Classification générative vs. discriminative La classification discriminative utilise un modèle P(Y X) sans chercher de modélisation de densité pour X. La classification générative va utiliser un modèle P(Y ) et un modèle P(X Y ) pour modéliser la loi jointe P(X, Y ). La règle de Bayes permet de relier ces deux types de classification : P(Y = 1 X) = P(X Y = 1) P(Y = 1) P(X) p(x Y = 1) sera typiquement une gaussienne. Pour une loi de Bernouilli π (= p(y)), on prendra : p(x Y = 1) N(µ 1, Σ 1 ) p(x Y = 0) N(µ 0, Σ 0 ) Qu obtient-on alors en terme de discrimination? p(y = 1 X) p(y = 0 X) π 1 (2π) k 2 Σ 1 1 2 Π 1 (2π) k 2 Σ 0 1 2 exp( 1 2 (X µ 1) T Σ 1 1 (X µ 1)) exp( 1 2 (X µ 1) T Σ 1 0 (X µ 1)) 2-7

Sous l hypothèse que Σ 0 = Σ 1 = Σ (covariances identiques), on voit apparaître p(y = 1 x) = σ(θ T x + θ c ). On retombe sur la fonction logistique. Voir cours suivant pour plus de détails. 2-8