Régression logistique



Documents pareils
3 Approximation de solutions d équations

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

«Cours Statistique et logiciel R»

de calibration Master 2: Calibration de modèles: présentation et simulation d

Méthodes de Simulation

Classification non supervisée

Chp. 4. Minimisation d une fonction d une variable

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Résolution d équations non linéaires

Dérivées d ordres supérieurs. Application à l étude d extrema.

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

RO04/TI07 - Optimisation non-linéaire

Introduction au Data-Mining

NON-LINEARITE ET RESEAUX NEURONAUX

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Cours de méthodes de scoring

Cours d analyse numérique SMI-S4

Fonctions de plusieurs variables. Sébastien Tordeux

Introduction au Data-Mining

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Équations non linéaires

La classification automatique de données quantitatives

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Économetrie non paramétrique I. Estimation d une densité

MCMC et approximations en champ moyen pour les modèles de Markov

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Équations non linéaires

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Théorie de l estimation et de la décision statistique

Coup de Projecteur sur les Réseaux de Neurones

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

LES MÉTHODES DE POINT INTÉRIEUR 1

Arbres binaires de décision

Fonctions de deux variables. Mai 2011

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Analyse Numérique : SMA-SMI S4 Cours, exercices et examens

Quantification Scalaire et Prédictive

PROBABILITES ET STATISTIQUE I&II

Correction de l examen de la première session

Cours d introduction à la théorie de la détection

Optimisation, traitement d image et éclipse de Soleil

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Cours d Analyse. Fonctions de plusieurs variables

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Apprentissage non paramétrique en régression

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Programmation linéaire et Optimisation. Didier Smets

4.2 Unités d enseignement du M1

CHAPITRE 5. Stratégies Mixtes

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Modélisation aléatoire en fiabilité des logiciels

TABLE DES MATIERES. C Exercices complémentaires 42

Détection des deux roues motorisés par télémétrie laser à balayage

Agrégation des portefeuilles de contrats d assurance vie

TRANSPORT ET LOGISTIQUE :

Rappels sur les suites - Algorithme

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Programmes des classes préparatoires aux Grandes Ecoles

Chapitre VI Fonctions de plusieurs variables

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Compte rendu des TP matlab

Première partie. Introduction à la méthodes des différences finies

Calcul différentiel sur R n Première partie

Exercice : la frontière des portefeuilles optimaux sans actif certain

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Probabilités sur un univers fini

PROJET MODELE DE TAUX

Chapitre VI - Méthodes de factorisation

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Algorithmes d'apprentissage

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Chapitre 3. Algorithmes stochastiques. 3.1 Introduction

Chapitre 7 : Intégration sur un intervalle quelconque

Simulation de variables aléatoires

Commun à tous les candidats

CCP PSI Mathématiques 1 : un corrigé

Optimisation des fonctions de plusieurs variables

Amphi 3: Espaces complets - Applications linéaires continues

Introduction à la Statistique Inférentielle

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Licence 2 Mathématiques- Semestre 3 Introduction aux mathématiques

Modèles et Méthodes de Réservation

IBM SPSS Regression 21

Les algorithmes de base du graphisme

Lagrange, où λ 1 est pour la contrainte sur µ p ).

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

MATHÉMATIQUES EN PREMIER CYCLE PRÉSENTATION DU PROGRAMME

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Table des matières. I Mise à niveau 11. Préface

Mesures de dépendance pour la séparation aveugle de sources. Application aux mélanges post non linéaires

Analyse de la Commande Prédictive Floue : Algorithmes et Méthodologies de Solution

Chapitre 2 Le problème de l unicité des solutions

Transcription:

Régression logistique Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Régression logistique p. 1

Introduction Objectifs Le classifieur de Bayes est basé sur la comparaison des probabilités a posteriori càd le point x est affecté à la classe de plus forte probabilité a posteriori D(x) = argmax y Y Pr(y /x) Cas d une classification binaire Y = {C1, C 2 }. La règle de décision est D(x) = ( C 1 C 2 si autrement Pr(C 1 /x) Pr(C 2 /x) > 1 La règle nécessite uniquement la connaissance du rapport des probabilités a posteriori Pr(C 1/x) Pr(C 2 /x). D après la loi de Bayes, on a Pr(C 1/x) Pr(C 2 /x) = Pr(C 1)p(x/C 1 ) Pr(C 2 )p(x/c 2 ) Pour construire la fonction de décision D(x), il faut déterminer les lois conditionnelles p(x/c k ) et les probabilités a priori Pr(C k ) desquelles on déduit le rapport des probabilités a posteriori. Régression logistique p. 2

Introduction Objectifs Autre solution : estimer directement le rapport des probabilités a posteriori. Dans ce cours, on explore cette solution en utilisant la régression logistique. Objectif de la régression logistique : trouver une modélisation du rapport des probabilités a posteriori. f(x) = Pr(C j/x) Pr(C k /x) En réalité on cherche une modélisation de Pr(C log 1 /x) Pr(C 2. Ceci n influe pas la /x) règle de décision car la fonction log est monotone. On se limitera au cas de la classification binaire Y = {C1, C 2 } ou Y = {1,2}. Position du problème On considère l ensemble des données étiquettées D = {(x i, y i ) X Y, i = 1,,N} avec Y = {C 1, C 2 } et X R d On cherche une modélisation de log f(x) Régression logistique p. 3

Modèle pour la régression logistique On modélise le log du rapport des probabilités a posteriori par des modèles linéaires log Pr(C 1/x) Pr(C 2 /x) = [1 x ]θ = φ θ Comme Pr(C1 /x) + Pr(C 2 /x) = 1, on a les relations suivantes Pr(C 1 /x) Pr(C 2 /x) = exp φ θ Pr(C 1 /x) = et Pr(C 2 /x) = exp φ θ 1 + exp φ θ 1 1 + exp φ θ Remarque : x R d, on a par conséquent θ et φ R d+1 Régression logistique p. 4

Régression logistique Illustration Probabilité a posteriori Pr 1 = expφ θ 1+exp φ θ Probabilité a posteriori Pr 2 = 1 1+exp φ θ 1 1 P Y/X (Y=1/X=x) 0.8 0.6 0.4 0.2 P Y/X (Y=2/X=x) 0.8 0.6 0.4 0.2 0 10 5 0 5 10 x T a θ 0 10 5 0 5 10 T x a θ Estimation des paramètres Paramètres : vecteur θ Optimisation des paramètres : maximisation de la vraisemblance à partir des données D = {(x i,y i )},,N Régression logistique p. 5

Critère Vraisemblance Supposons des données {xi },,N i.i.d. Vraisemblance Λ(x 1,,x N ) = Λ(θ; x 1,,x N ) = Log-Vraisemblance NY P(y i, x i ) NY Pr(y i /x i ; θ) p X (x i ) d après Bayes L(θ; x 1,, x N ) = NX log(pr(y i /x i ; θ)) + NX log(p X (x i )) Le 2 e terme de la log-vraisemblance étant indépendante de θ, on détermine θ par maximisation de J = P N log(pr(y i/x i ; θ)) Régression logistique p. 6

Critère Pour simplifier les notations, posons pi = Pr(y i = C 1 /x i ; θ). On remarquera que Pr(y i = C 2 /x i ; θ) = 1 p i Soit la variable z telle que zi = 1 si y i = C 1 et z i = 0 si y i = C 2 Le critère J peut s écrire alors J = NX z i log(p i ) + (1 z i ) log(1 p i ) Or pi = expφ i θ 1+exp φ i θ. On a alors J = J = NX z i φ i θ z i log(1 + exp φ i θ ) (1 z i ) log(1 + exp φ i θ ) NX z i φ i θ log(1 + exp φ i θ ) avec θ R d+1 Régression logistique p. 7

Estimation des paramètres Condition d optimalité Critère J = NX z i φ i θ log(1 + exp φ i θ ) Annulation de la dérivée de J θ J = 0 NX exp φ i θ z i φ i φ i 1 + exp φ i θ = 0 Problème : la solution de cette équation n est pas analytique Il faut faire appel à des techniques d optimisation non-linéaires Régression logistique p. 8

Introduction à l optimisation non-linéaire Principe Soit le problème d optimisation suivant min θ J(θ) où J est une fonction non-linéaire du vecteur de paramètres θ. Approche itérative : déterminer itérativement la solution θ t+1 = θ t + ρ t d t avec ρ t > 0 telle que à chaque étape, on s assure que J(θ t+1 ) < J(θ t ) dt est appelé direction de descente et le paramètre ρ t est le pas dans la direction d t On va voir deux algorithmes basés sur ce prinicipe : la méthode du gradient et la méthode de Newton Régression logistique p. 9

Introduction à l optimisation non-linéaire Illustration La direction de descente d t est celle de la décroissance du critère J localement autour de θ t. Le pas est déterminé de façon à avoir J(θ t+1 ) < J(θ t ) Régression logistique p. 10

Méthode du gradient La direction de descente est obtenue à partir du gradient du critère par d t = θ J(θ t ) Algorithme Initialiser θ 0 t = 0 Répéter Calculer la direction de descente d t = θ J(θ t ) Déterminer le pas optimal ρ t par " line search" θ t+1 = θ t + ρ t d t avec ρ t > 0 t = t + 1 Jusqu à convergence Régression logistique p. 11

Méthode du gradient Remarques Line search : recherche dichotomique du pas ρt sur un intervalle donné afin d assurer J(θ t+1 ) < J(θ t ). On peut utiliser un pas constant ρ fixé a priori Le gradient du critère est θ J(θ) = h J θ 1 J θ 2 i J θ d+1 On montre que la méthode du gradient converge au moins vers un minimum local du critère J Régression logistique p. 12

Méthode de type Newton Principe Basé sur l approximation de Taylor à l ordre du critère J autour de la solution courante θ t J(θ) J(θ t ) + θ θ t gt + 1 2 θ θ t Ht θ θ t H est la matrice Hessienne (matrice des dérivées seconde du critère) H t = 2 J(θ t ) θ θ et g t la dérivée g t = θ J(θ t ) au point courant θ t On minimise cette approximation locale du critère, ce qui donne θ J(θ) = 0 g t + H t θ θ t = 0 On en déduit alors θ = θ t Ht 1 g t La direction de descente est donc dt = Ht 1 g t. En général on adjoint la recherche du pas. Régression logistique p. 13

Méthode de type Newton Algorithme Initialiser θ 0. t = 0 Répéter Remarques Calculer le gradient g t = θ J(θ t ) Calculer la matrice hessienne H t Calculer la direction de descente d t = Ht 1 g t Déterminer le pas optimal ρ t θ t+1 = θ t + ρ t d t avec ρ t > 0 t = t + 1 Jusqu à convergence La convergence de cet algorithme est quadratique. Cette convergence est plus rapide que celle de l algorithme du gradient. Mais la méthode de Newton nécessite à chaque étape la résolution d un système linéaire pour obtenir d t La solution dt = Ht 1 g t peut être obtenue par un algorithme de type Choleski Régression logistique p. 14

Application à la régression logistique Gradient et hessien du critère P Critère : J = N z iφ i θ log(1 + expφ i θ ) Gradient g = θ J(θ) g = g = NX exp φ i θ z i φ i φ i 1 + exp φ i θ NX φ i (z i p i ) avec p i = expφ i θ 1 + exp φ i θ Matrice hessienne H = 2 J(θ) θ θ H = NX φ i φ i p i (1 p i ) On remarquera que pi dépend de θ Régression logistique p. 15

Forme matricielle Posons z = 2 6 4 z 1 z 2... 3 7 5, p = 2 6 4 p 1 p 2.. 3 7 5 RN, Φ = 2 6 4 1 x 1 1 x 2. 3 7 5 RN (d+1) z N p N 1 x N Soit la matrice diagonale W = diag[pi (1 p i )],,N avec W R N N On montre qu on a g = Φ (z p) H = Φ WΦ Régression logistique p. 16

Solution de la régression logistique Solution de la méthode de Newton θ t+1 = θ t Ht 1 g t Remarque : le gradient et le hessien au point θ t sont donnés par g t = Φ (z p t ) H t = Φ W t Φ où p t et W t sont calculés à partir de p t i = expφ i θt En combinant ces éléments, on a alors 1+exp φ i θt θ t+1 = θ t + Φ W t Φ 1 Φ (z pt ) Régression logistique p. 17

Solution de la régression logistique Réécriture de la solution θ t+1 = 1 Φ W t Φ Φ Wt r t avec r t = Φθ t + Wt 1 (z p t ) r est la sortie ajustée du modèle de régression logistique puisque Φθ t est le vecteur de sortie et z p t l erreur à l itération t On s apercoit qu en fait à chaque itération, on résoud un problème de moindres carrés pondérés. En effet θ t+1 est solution du problème suivant θ t+1 = argmin θ (r t Φθ) W t (r t Φθ) d où le nom de Iterative Least Squares donné à la méthode Régression logistique p. 18

Algorithme Entrées : les données d apprentissage {(x i, y i ),i = 1,,N} Sortie : l estimation du vecteur de paramètres ˆθ 1. A partir des données {(x i, y i ), i = 1,, N}, former la matrice Φ, le vecteur z 2. Initialisation : t = 0, θ = 0. On en déduit que p 0 i = expφ i θ0 3. Répéter 1+exp φ i θ0 = 1/2 pour i = 1,, N Former la matrice W t et le vecteur p t Former le vecteur r t = Φθ t + W 1 t (z p t ) Calculer la nouvelle estimation par moindres carrés pondérés θ t+1 = Φ W t Φ 1 Φ Wt r t t = t + 1 4. Jusqu à convergence Régression logistique p. 19

Algorithme Illustration 2 1.5 Classe 1 Classe 2 Dec frontier 0.5 0.5 0.5 0.5 1 0.5 0 0.5 1 1.5 2 3 2 1 0 1 2 Classification d un nouveau point (x l, y l ) 1. Calculer la probabilité a posteriori d appartenance à la classe C 1 p l = expφ l ˆθ 1 + exp φ l ˆθ 2. Affecter le point à C 1 si p l > 1/2 ou à C 2 autrement Régression logistique p. 20