Classification par Régression Logistique

Documents pareils
TRANSPORT ET LOGISTIQUE :

«Cours Statistique et logiciel R»

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Coup de Projecteur sur les Réseaux de Neurones

L exclusion mutuelle distribuée

ITIL Gestion de la capacité

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

OPTIMISATION À UNE VARIABLE

Programmation Linéaire - Cours 1

Simulation de variables aléatoires

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Programmation linéaire

TRACER LE GRAPHE D'UNE FONCTION

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Contrôle par commande prédictive d un procédé de cuisson sous infrarouge de peintures en poudre.

PRIME D UNE OPTION D ACHAT OU DE VENTE

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Arbres binaires de décision

Algorithmes pour la planification de mouvements en robotique non-holonome

Développement de lois et de structures de réglages destinées à la téléopération avec retour d effort

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Annexe 6. Notions d ordonnancement.

Manuel de validation Fascicule v4.25 : Thermique transitoire des structures volumiques

Fonctions de plusieurs variables

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Partie 1: Gestion de l interférence entre symboles

Continuité et dérivabilité d une fonction

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Saisie des chauffe-eau thermodynamiques à compression électrique

Introduction au datamining

CHAPITRE IV Oscillations libres des systèmes à plusieurs degrés de liberté

AUTRES ASPECTS DU GPS. Partie I : tolérance de Battement Partie II : tolérancement par frontières

Resolution limit in community detection

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Sujet 4: Programmation stochastique propriétés de fonction de recours

Réplication des données

ANALYSE STATISTIQUE PRÉDICTIVE

Magister en : Automatique. Commande Prédictive Non Linéaire en Utilisant Les Systèmes Neuro-Flous et les Algorithmes Génétiques.

techniques de tirs a l avant - partie 2

Optimisation des fonctions de plusieurs variables

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Sécurité par compression! ReSIST Gilles RICHARD IRIT

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Métriques de performance pour les algorithmes et programmes parallèles

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Probabilités III Introduction à l évaluation d options

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

Automatique Linéaire 1 Travaux Dirigés 1A ISMIN

Oscillations libres des systèmes à deux degrés de liberté

Le calcul intensif chez PSA Peugeot Citroën. TERATEC 28 juin 2011

25/12/2012

Principe d optimisation. Optimisation technico-économique. Coût. Isolation thermique. Isolation optimale

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Optimisation, traitement d image et éclipse de Soleil

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

données en connaissance et en actions?

CRYPTOGRAPHIE. Signature électronique. E. Bresson. SGDN/DCSSI Laboratoire de cryptographie

Fonctions de deux variables. Mai 2011

Security Products Actualités produits Juin 2014

STATISTIQUES. UE Modélisation pour la biologie

I. Polynômes de Tchebychev

= constante et cette constante est a.

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

VIII- Circuits séquentiels. Mémoires

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

Étudier si une famille est une base

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Commande Prédictive. J. P. Corriou. LSGC-ENSIC-CNRS, Nancy. corriou@ensic.inpl-nancy.fr

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

L olivier Assurances Licence 3 Econométrie Lyon II

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Accélérer l agilité de votre site de e-commerce. Cas client

I- Définitions des signaux.

La nouvelle planification de l échantillonnage

ILT. Interfacultair Instituut voor Levende Talen. Actes de communication. Serge Verlinde Evelyn Goris. Katholieke Universiteit Leuven

Les fonctions de hachage, un domaine à la mode

Résolution d équations non linéaires

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

3 Approximation de solutions d équations

Commande Prédictive des. Convertisseurs Statiques

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Planche n o 22. Fonctions de plusieurs variables. Corrigé

ANALYSE NUMERIQUE ET OPTIMISATION. Une introduction à la modélisation mathématique et à la simulation numérique

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

Chapitre 3. Les distributions à deux variables


Données longitudinales et modèles de survie

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Transcription:

Classification par Régression Logistique Reconnaissance des Formes (Semaine VII) Université de Lille, France 6 mars 203

Rappel Classification L ensemble des données est partagé en quelques classes différentes, On a quelques exemplaires pour qui on sait les classes correctes. On veut classifier correctement les données pour qui les classes correctes sont inconnus.

Exemple : Classification des caractères manuscrits Données d entrainement Ça corresponds à quel chiffre?

Le problème de classification le cas le plus simple Les données à classifier sont représenter en une dimension i.e. x R Nous avons deux classes seulement, i.e. y {0, }.

Le Problème de classification On cherche une fonction h : R {0, } telle que pour chaque x on a h(x) = 0 si x est dans classe 0 et h(x) = si x est dans classe

Le Problème de classification On cherche une fonction h : R {0, } telle que pour chaque x on a h(x) = 0 si x est dans classe 0 et h(x) = si x est dans classe Si cette fonction existe, le problème de classification est déjà résolu. Nous allons utiliser les données d entrainement pour trouver h.

Une Fonction Linéaire? On défini un séparateur linéaire θ 0 + θ x On utilise les exemplaires disponible pour chercher les valeurs convenables pour θ 0 et θ. On prédit la classe y de la manière suivante y = si θ 0 + θ x 0.5 y = 0 si θ 0 + θ x < 0.5 Question Est-ce que cette approche va marcher?

Le Modèle La fonction Sigmoid où Logistique g(z) := + e z Remarque 0 g(z) g(z) 0.5 si z 0 g(z) < 0.5 si z < 0

Le Modèle La fonction Sigmoid où Logistique g(z) := + e z Remarque 0 g(z) g(z) 0.5 si z 0 g(z) < 0.5 si z < 0 Le Modèle h θ (x) := g(θ 0 + θ x) = + e (θ 0+θ x)

Le Modèle h θ (x) := + e (θ 0+θ x) Prédiction y = si h θ (x) 0.5 y = 0 si h θ (x) < 0.5

Le Modèle h θ (x) := + e (θ 0+θ x) Prédiction y = si h θ (x) 0.5 y = 0 si h θ (x) < 0.5 L intuition h θ (x) est l estimation de la probabilité de y = sachant x, i.e. P(y = x). Comme on a y = 0 où y =, on peut dériver P(y = 0 x) i.e. P(y = 0 x) = P(y = x) = h θ (x).

Le Modèle En général les données n ont pas qu une seule dimension! Chaque point x est un vecteur de dimension k i.e. x := (x, x 2,..., x k ) R k. Exemple Pour k = 2 on a x := (x, x 2 ) où x R est x 2 R, donc x R 2.

Le Modèle Général Chaque point (x, x 2,..., x k ) R k est un vecteur de dimension k,. h θ (x) := + e (θ 0+θ x +θ 2 x 2 + +θ k x k ) = + e k i=0 θ i x i

Le Modèle Général Chaque point (x, x 2,..., x k ) R k est un vecteur de dimension k,. h θ (x) := + e (θ 0+θ x +θ 2 x 2 + +θ k x k ) = + e k i=0 θ i x i = + e (θt x) où θ 0 θ θ :=. θ k x et x :=. donc θt x = x k k θ i x i. i=0

Le Modèle Général Prédiction y = si h θ (x) 0.5 y = 0 si h θ (x) < 0.5 où h θ (x) := + e (θt x)

Le Modèle Général Prédiction y = si h θ (x) 0.5 y = 0 si h θ (x) < 0.5 où h θ (x) := + e (θt x) g(z) := + e z g(z) 0.5 si z 0 et g(z) < 0.5 si z < 0

Le Modèle Général Prédiction y = si h θ (x) 0.5 i.e. si θ T x 0 y = 0 si h θ (x) < 0.5 i.e. si θ T x h θ (x) := + e (θt x) g(z) := + e z g(z) 0.5 si z 0 et g(z) < 0.5 si z < 0

Exemple Prédiction y = si θ 0 + θ x + θ 2 x 2 0 y = 0 si θ 0 + θ x + θ 2 x 2 < 0 Remarquez que θ 0, θ et θ 2 sont inconnus. On doit les chercher!

Exemple 3 Supposons que θ := est donné donc, θ 0 = 3, θ =, θ 2 = Prédiction y = si x + x 2 3 y = 0 si x + x 2 < 3 x + x 2 = 3 est le frontière de décision.

Comment trouver θ? Coût d une prédiction coût(h θ (x), y) := { log(hθ (x)) si y = log( h θ (x)) si y = 0 L intuition Imaginons que y = Si h θ (x) = on a coût = 0 mais coût lorsque h θ (x) 0 Ç est une façon de pénaliser l algorithme pour la mauvaise prédiction! Il faut chercher les θ qui donnent le coût le plus petit possible.

Régression Logistique : Comment trouver θ? Coût d une prédiction coût(h θ (x), y) := { log(hθ (x)) si y = log( h θ (x)) si y = 0 = y log(h θ (x)) ( y) log( h θ (x)) pourquoi?

Régression Logistique : Comment trouver θ? Coût d une prédiction coût(h θ (x), y) := La fonction de coût J(θ) { log(hθ (x)) si y = log( h θ (x)) si y = 0 = y log(h θ (x)) ( y) log( h θ (x)) pourquoi? On a m exemplaires d entrainement {x (), x (2),..., x (m) }. Soit y (i) la classe de x (i), i =..m. On défini la fonction de coût par J(θ) := m m y (i) log(h θ (x (i) )) ( y (i) ) log( h θ (x (i) )) i=

Comment trouver θ? On cherche les paramètres qui donnent le coût le plus petit possible θ := min J(θ) où θ J(θ) := m y (i) log(h θ (x (i) )) ( y (i) ) log( h θ (x (i) )) m i= minimiser la fonction de coût J(θ) et utiliser le θ qui correspond à J(θ) minimum La minimisation de J(θ) est possible pas les méthodes de la théorie d optimisation, mais cela dépasse le cadre de ce cours Nous allons utiliser les fonctions d optimisations existantes en scilab.

Comment trouver θ? On cherche les paramètres qui donnent le coût le plus petit possible θ := min J(θ) où θ J(θ) := m y (i) log(h θ (x (i) )) ( y (i) ) log( h θ (x (i) )) m i= minimiser la fonction de coût J(θ) et utiliser le θ qui correspond à J(θ) de minimum

L algorithme Entrainement Utiliser les données d entrainement, i.e. les exemplaires {x (), x (2),..., x (m) } et leur lables {y (), y (2),..., y (m) } pour trouver le vecteur θ. Donc, θ := min J(θ) où θ J(θ) := m y (i) log(h θ (x (i) )) ( y (i) ) log( h θ (x (i) )) m i= Prédiction de la classe d un nouvel exemple Pour chaque nouveau x h θ (x) := +e θt x y = si h θ (x) 0.5 y = 0 si h θ (x) < 0.5 classifier le de la manière suivante,

L algorithme Multi-Classes Pour l instant cette approche marche que pour le cas de deux classe y {0, } seulement. Question Comment peut on le généraliser pour le cas de plusieurs classes?

L algorithme Multi-Classes Supposons que l on a l > 2 classes, i.e. y {, 2,..., l}. On peut créer un classifier de la manière suivante. Entrainer un classifier de régression logistique h (i) θ (x) pour chaque classe i =, 2,..., l. Rappel : h (i) θ (x) estime P(y = i x), i =, 2,..., l 2 Pour prédire la classe d un nouveau x, choisir y {, 2,..., l} tel que y = max i=..l h(i) θ (x) Ça veut dire que l on suit la décision du classifier plus confiants.

L algorithme Multi-Classes : Exemple