SPLEX Statistiques pour la classification et fouille de données en



Documents pareils
Une comparaison de méthodes de discrimination des masses de véhicules automobiles

«Cours Statistique et logiciel R»

Coup de Projecteur sur les Réseaux de Neurones

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Arbres binaires de décision

Amphi 3: Espaces complets - Applications linéaires continues

Méthodes de Simulation

Programmation linéaire

3 Approximation de solutions d équations

La classification automatique de données quantitatives

Laboratoire 4 Développement d un système intelligent

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Programmation Linéaire - Cours 1

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Fonctions de deux variables. Mai 2011

Correction du baccalauréat STMG Polynésie 17 juin 2014

Plan du cours : électricité 1

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

4.2 Unités d enseignement du M1

Introduction au Data-Mining

Résolution d équations non linéaires

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

TABLE DES MATIERES. C Exercices complémentaires 42

NON-LINEARITE ET RESEAUX NEURONAUX

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Introduction au datamining

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Optimisation, traitement d image et éclipse de Soleil

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

LES MÉTHODES DE POINT INTÉRIEUR 1

Cours de méthodes de scoring

Introduction au Data-Mining

Équations non linéaires

Soutenance de stage Laboratoire des Signaux et Systèmes

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Fonctions de plusieurs variables

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Simulation de variables aléatoires

Apprentissage Automatique

MCMC et approximations en champ moyen pour les modèles de Markov

Classification non supervisée


Différentiabilité ; Fonctions de plusieurs variables réelles

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Théorie de l estimation et de la décision statistique

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Cours d Analyse. Fonctions de plusieurs variables


Théorème du point fixe - Théorème de l inversion locale

Chapitre 2 Le problème de l unicité des solutions

Interception des signaux issus de communications MIMO

Résolution de systèmes linéaires par des méthodes directes

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Data mining II. Modélisation Statistique & Apprentissage

Chp. 4. Minimisation d une fonction d une variable

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Calcul différentiel sur R n Première partie

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Correction du Baccalauréat S Amérique du Nord mai 2007

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

M2 IAD UE MODE Notes de cours (3)

Laboratoire d Automatique et Productique Université de Batna, Algérie

IBM SPSS Regression 21

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Détection des deux roues motorisés par télémétrie laser à balayage

Probabilités III Introduction à l évaluation d options

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

CAPTEURS - CHAINES DE MESURES

Chapitre 3. Les distributions à deux variables

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Sécurité par compression! ReSIST Gilles RICHARD IRIT

Analyse de la variance Comparaison de plusieurs moyennes

Température corporelle d un castor (une petite introduction aux séries temporelles)

Cours d introduction à la théorie de la détection

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

1 Introduction et modèle mathématique

TRANSPORT ET LOGISTIQUE :

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Le Modèle Linéaire par l exemple :

de calibration Master 2: Calibration de modèles: présentation et simulation d

Reconnaissance du locuteur

Etude des propriétés empiriques du lasso par simulations

OM 1 Outils mathématiques : fonction de plusieurs variables

NOTATIONS PRÉLIMINAIRES

Fonctions de plusieurs variables

Transcription:

SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB Pierre-Henri WUILLEMIN DEcision, Système Intelligent et Recherche opérationnelle LIP6 pierre-henri.wuillemin@lip6.fr http://webia.lip6.fr/~phw/splex Classification linéaire binaire CLB Définition CLB C = { -, + } Π D. C. D Ĉ. C w R d, w 0 R, f : R C, d x R d, Ĉx = f w i x i + w 0 Le problème d apprentissage : trouver w, w 0 et f. Modèles génératifs, modèles discriminants Modèles génératifs : classification grâce à une estimation de Px, y à partir de Π a et des connaissances a priori. Classifieur bayésien ML, MAP Classifieur bayésien naïf Discriminant linéaire de Fisher Modèles discriminants : estimation directe des w, w 0 à partir de Π a. Régression logistique Perceptron SVM SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 2 / 20 Le classifieur bayésien naïf binaire est un CLB? Classifieur bayésien naïf Ici, y 0 = - et y 1 = +. y = arg max y i P + d k=1 Px k + Py i d Px k y i k=1 Soit Rx = P - d k=1 Px k - Si Rx > 1 alors Ĉx = ^+ sinon Ĉx = ^- 1 si u < 0 Donc Ĉx = σ log Rx où σu = 0 si u = 0 +1 sinon Il vient alors P + d Ĉx = σ log P - + log Px k + Px k - Suite évidente dans le cas binomial D = { -, + } d. SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 3 / 20 k=1

Discrimination linéaire - cas gaussien Cadre gaussien CLB Modèle : Ĉx = σ gx = σ g + x g - x Régions { de décision } : } c ^-, ^+, R c = {x D, Ĉx = c } Frontière de décision : F = {x D, Ĉx = 0 Multinormalité : c { -, + }, Px c N µ c, Σ c Si homoscédasticité : c, Σ c = Σ alors, la fonction discriminante devient linéaire : avec x 0 = 1 2 µ + + µ - + gx = µ + µ - t Σ 1 x x 0 1 µ + µ - t Σ 1 µ + µ - P + log P - µ + µ - SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 4 / 20 Rappels de géométrie Soit yx = d w i x i + w 0 Ĉx = f yx, on peut également écrire : yx = w x + w 0 avec yx = 0 l équation d un hyperplan H a, b H, ya = yb = 0 ya yb = w a b = 0 w est un vecteur normal à H. Soit x H et x H sa projection perpendiculaire sur H, x x H est donc colinéaire à w, Soit r R, x x H = r w où r est la distance de x à H. w x = x H + r w x = w x H + r w w = w x H + r 2 yx = w x + w 0 = w x H + w 0 + r = yx H + r = r = w x H + r distance de x à H : r = yx W SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 5 / 20 Rappels de géométrie yx > 0 yx = 0 yx yx < 0 x w x H O w 0 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 6 / 20

exemple : Hyper-plan séparateurs La frontière entre les deux classes est donnée par d w i x i + w 0 = 0 qui est l équation d un hyper-plan. Comment choisir cet hyper-plan? Exemple : CLB par régression linéaire Ajuster un modèle linéaire ^l k pour chaque { fonction indicatrice d une classe k : 1 si x est de classe k k { +, - },^l k x = 0 sinon. ^l + x = β + 0 + β + x et ^l - x = β - 0 + β - x Soit un x à classifier : Ĉx = arg max k ^l k x = σ^l + ^l - Frontière de décision : w = β + β - ^f + x = ^f - x hyperplan : et w 0 = β + 0 β - 0 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 7 / 20 Séparabilité Définition CLB C = { -, + } Π D. C. D Ĉ. C w R d, w 0 R, f : R C, d x R d, Ĉx = f w i x i + w 0 Le problème d apprentissage : trouver w, w 0 W et f souvent σ. Séparabilité sur Π a Soit une base de données Π a = x i, y i i<n où y i est la classe de x i 1, +1. Π a est linéairement séparable si il existe un hyperplan d équation yx = w x + w 0 = 0 tel que i {1,, N}, yx i y i > 0 i.e. X W Y > 0 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 8 / 20 Optimisation de W : moindres carrés Carl Friedrich Gauss X W Y est le vecteur des erreurs effectuées en classant Π a à l aide de W. L erreur quadratique obtenue sur Π a se calcule donc comme : e 2 W = X W Y X W Y Minimiser cette erreur en annulant le gradient donne : X = X X 1 X est la pseudo-inverse de X. W = X X 1 X Y = X Y Cette méthode souffre de plusieurs problèmes : Instabilité numérique pour des X de grande taille principalement, Manque de robustesse pour des distributions larges de classes. From : Pattern Recognition and Machine Learning C.Bishop p186 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 9 / 20

Discrimants de Fisher : séparation entre les classes On note que y = w x correspond à la projection de x de dimension d + 1 sur la droite vectorielle w. Soit M + = 1 N + i + X i et M - = 1 N - i - X i On peut alors utiliser w = w M + M - comme mesure de la séparation des classes selon w. Afin de supprimer l influence sur w de la norme de w, on peut soit normaliser w, soit utiliser w comme mesure. From : Pattern Recognition and Machine Learning C.Bishop p188 La séparation des classes n est intéressante qu en fonction de la dispersion de chaque classe, i.e. k +, -, s k = i k y i w M k 2 les variances intra-classe. SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 10 / 20 De la régression linéaire vers la régression logistique Régression linéaire ^yx = w x + w 0 Frontière de séparation : hyperplan d équation yx = w x + w 0 = 0 En réutilisant MAP pour décider : ^y = arg max pc x c { +, - } On ne peut pas ajuster linéairement une probabilité : une droite n est pas bornée par [0, 1]. Idée : La frontière de décision correspond à p + x = p - x p + x p - x = 1 log p + x p - x = 0 On peut renforcer l idée que la frontière est un hyperplan CLB par : Régression logistique w, w 0, log p + x p - x = w x + w 0 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 11 / 20 fonction logit On peut écrire log p + x p + x p - x = log 1 p + x Fonction logit log-odds p logitp = log 1 p La fonction logit est non bornée et donc peut être ajuster linéairement. logitp = w x + w 0 p 1 p = ew x+w x+w0 0 p = ew Modèle de la régression logistique p + x = ew x+w 0 1 + e w x+w 0 et p - x = 1+e w x+w 0 1 1 + e w x+w 0 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 12 / 20

Utilisation de la régression logistique Soit une base Π a = X i, Y i avec Y i { +, - }, On peut calculer pour chacun w x + w 0, et donc calculer p + x = ew x+w 0 1+e w x+w 0. SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 13 / 20 Estimation des paramètres w, w 0 Comment calculer les valeurs de w et w 0 de la régression logistique? Moindre carrés? Impossible car les erreurs ne sont pas distribuées suivant une loi normale : Elle est quasi nulle quand p proche de 0 ou 1 et plus importante quand p 0.5. Utilisation du Maximum de Vraisemblance : Exprimer la vraisemblance LX ; w, w 0 pour w et w 0, Essayer de maximiser la vraisemblance En annulant la dérivée mais pas de forme exacte de la dérivée. Utiliser une méthode approchée : Algorithme de Newton-Raphson. Soit une base de données X, Y i N. Avec y i = 1 si + et 0 si -. i, Lx i ; w, w 0 = y i px i + + 1 y i px i - p + x Or si log p - x = w px + x + w 0 alors β, β 0, log px - = β x + β 0 px + = eβ x+β 0 1+e β x+β 0 et px - = 1 1+e β x+β 0 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 14 / 20 Estimation des paramètres β + = β, β 0 En sommant sur toute la base la log-vraisemblance, LLβ + = N [ y i β + x i + On veut maximiser la log-vraisemblance. LLβ + β + i = ] log1 + β + x i + N x i y i px i ; β + Pas de forme simple, il faut utiliser une méthode approchée Newton-Raphson utilisant la dérivée seconde le Hessien 2 LLβ + β + β +. La mise à jour jusque convergence de β + prend la forme : β + t+1 = β+ t 2 LLβ + 1 β + β + LLβ+ β + SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 15 / 20

Méthode de Newton 1/2 fonction de classe C 2 f : [a, b] R R f : 2 fois dérivable f continue Méthode de Newton-Raphson : recherche de 0 de la dérivée principe : engendrer une suite de points x k tendant vers un point stationnaire point stationnaire : f x = 0 itération k : f est remplacée par sa linéarisée en x k : lx = f x k + [x x k ]f x k x k+1 déterminé par lx k+1 = 0 : = x k+1 = x k f x k f x k SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 16 / 20 Méthode de Newton 2/2 f x x x k+2 x k+1 x k SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 17 / 20 Un exemple 1/3 From Jia Li Pensylvania State University SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 18 / 20

Un exemple 2/3 From Jia Li Pensylvania State University SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 19 / 20 Un exemple 3/3 From Jia Li Pensylvania State University SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 20 / 20