Support Vector Machines

Documents pareils

Introduction au Data-Mining

Introduction au Data-Mining

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Identification de nouveaux membres dans des familles d'interleukines

Apprentissage Automatique

4.2 Unités d enseignement du M1

Coup de Projecteur sur les Réseaux de Neurones

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Cours d Analyse. Fonctions de plusieurs variables

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

3 Approximation de solutions d équations

Apprentissage non paramétrique en régression

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

LES MÉTHODES DE POINT INTÉRIEUR 1

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

NON-LINEARITE ET RESEAUX NEURONAUX

Simulation de variables aléatoires

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Équations non linéaires

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Calcul différentiel sur R n Première partie

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Programmation linéaire

I. Polynômes de Tchebychev

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Optimisation des fonctions de plusieurs variables

Optimisation Discrète

Cours 02 : Problème général de la programmation linéaire

Programmes des classes préparatoires aux Grandes Ecoles

Dérivées d ordres supérieurs. Application à l étude d extrema.

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Quantification Scalaire et Prédictive

Pourquoi l apprentissage?

Programmation Linéaire - Cours 1

La fonction exponentielle

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Polynômes à plusieurs variables. Résultant

Apprentissage statistique dans les graphes et les réseaux sociaux

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Cours d analyse numérique SMI-S4

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Thèse. Mathieu RAMONA

La classification automatique de données quantitatives

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Analyse des réseaux sociaux

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

3. Conditionnement P (B)

RO04/TI07 - Optimisation non-linéaire

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Résolution de systèmes linéaires par des méthodes directes

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

Théorème du point fixe - Théorème de l inversion locale

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Fonctions de deux variables. Mai 2011

Fonctions de plusieurs variables

Fonctions de plusieurs variables et applications pour l ingénieur

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Calcul différentiel. Chapitre Différentiabilité

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Druais Cédric École Polytechnique de Montréal. Résumé

1 Complément sur la projection du nuage des individus

Analyse en Composantes Principales

Nouvelles Approches Itératives avec Garanties Théoriques pour l Adaptation de Domaine Non Supervisée par

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Fonctions de plusieurs variables

Brève introduction à la fouille de grandes bases de données océaniques

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Sécurité par compression! ReSIST Gilles RICHARD IRIT

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

TABLE DES MATIERES. C Exercices complémentaires 42

Résolution d équations non linéaires

Sujet 4: Programmation stochastique propriétés de fonction de recours

Introduction au datamining

Exercice 1 Trouver l équation du plan tangent pour chaque surface ci-dessous, au point (x 0,y 0,z 0 ) donné :

Resolution limit in community detection

Théorie et codage de l information

Systèmes de communications numériques 2

CHAPITRE 10. Jacobien, changement de coordonnées.

Approximations variationelles des EDP Notes du Cours de M2

CCP PSI Mathématiques 1 : un corrigé

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE

Fonctions de plusieurs variables. Sébastien Tordeux

Laboratoire 4 Développement d un système intelligent

Transcription:

Support Vector Machines Séparateurs à vaste marge Arnaud Revel revel.arnaud@gmail.com

Plan 1 Introduction 2 Formalisation 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Introduction Plan 1 Introduction 2 Formalisation Cas séparable Cas non-séparable 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Introduction Qu est-ce que l apprentissage? En psychologie Toute acquisition d un nouveau comportement à la suite d un entraînement : habituation, conditionnement... En neurobiologie Modifications synaptiques dans des circuits neuronaux : règle de Hebb, règle de Rescorla et Wagner... Apprentissage automatique But construire un modèle général à partir de données particulières prédire un comportement face à une nouvelle donnée approximer une fonction ou une densité de probabilité

Introduction Formalisation Soit un ensemble d apprentissage S = {(x i,y i )} 1..n dont les éléments obéissent à la loi jointe P(x,y) = P(x)P(y x) On cherche à approcher une loi sous-jacente f(x) telle que y i = f(x i ) par une hypothèse h α (x) aussi proche que possible Les α sont les paramètres du système d apprentissage. Si f(.) est discrète on parle de classification Si f(.) est une fonction continue on parle alors de régression Mais que veut-on dire par aussi proche que possible?

Introduction Calcul du risque Pour mesurer la qualité d une hypothèse h α on va considérer une fonction de coût Q(z = (x,y),α) [a,b] que l on cherche à minimiser Exemple de fonction de coût Coût 0/1 : vaut 0 lorsque les étiquettes prévues et observées coïncident, 1 sinon : utilisé en classification Erreur quadratique : (f(x) y) 2 : utilisé en régression On cherche à minimiser : R(α) = Q(z,α)dP(z) Comme on ne peut accéder directement à cette valeur, on construit donc le risque empirique qui mesure les erreurs réalisées par le modèle : R emp (α) = 1 m n i=1 Q(z i,α) Mais quel est le lien entre R emp (α) et R(α)?

Introduction Théorie de l apprentissage de Vapnik (1995) Vapnik a pu montrer l expression suivante m avec une probabilité au moins égale à 1 η : dvc (ln(2m/d VC )+1) ln(η/4) R(α m ) R emp (α m )+(b a) m (1) La minimisation du risque dépend du risque empirique un risque structurel lié au terme d VC qui dépend de la complexité du modèle h choisi (VC-dimension a ) a. Dimension de Vapnik et Chervonenkis

Introduction

Introduction Ainsi, si pour construire un bon modèle d apprentissage, il est nécessaire de : minimiser les erreurs sur la base d apprentissage c est le principe d induction naïf utilisé dans les réseaux de neurones de construire un système capable de généraliser correctement

Introduction

Introduction Revisitons le problème du perceptron : Classifieur linéaire : y(x) = signe(w x+b)

Introduction Quel est le meilleur classifieur? : Il existe de nombreux choix possibles pour w et b : y(x) = signe(w x+b) = signe(kw x+k b) (2)

Formalisation Plan 1 Introduction 2 Formalisation Cas séparable Cas non-séparable 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Formalisation Cas séparable Notion de marge : Dans le cas séparable, on va considérer les points les plus près de l hyperplan séparateur : vecteurs supports (support vectors). Pour tout point de l espace des exemples, la distance à l hyperplan séparateur est donnée par : r = w x+b (3) w On appelle marge d la distance entre les 2 classes C est cette distance d qu on souhaiterait maximiser

Formalisation Cas séparable Quantification de la marge : Pour limiter l espace des possibles on considère que les points les plus proches sont situés sur les hyperplans canoniques donnés par : w x+b = ±1 (4) Dans ce cas, la marge est : d = 2 w Les conditions d une bonne classification sont : { w x+b 1, si y i = 1 w x+b < 1, si y i = 1 (5)

Formalisation Cas séparable Maximisation de la marge : Le problème revient alors à trouver w et b tels que d = 2 w est maximale (x i,y i ) Sous les contraintes : { w x+b 1, si y i = 1 w x+b < 1, si y i = 1 (6) De manière équivalent, le problème peut s écrire plus simplement comme la minimisation de : 1 2 w 2 (7) Sous les contraintes : y i (w x+b) 1, i [1,N]

Formalisation Cas séparable Maximisation de la marge : Cette minimisation est possible sous les conditions dites de Karush-Kuhn-Tucker (KKT) Soit le Lagrangien L : L(w,b,λ) = 1 2 w 2 N i=1 λ i[y i (w x i +b) 1] Les conditions de KKT sont alors : L L L w = 0, b = 0, λ i 0, λ j 0 λ i [y i (w x i +b) 1] = 0 Par ailleurs la dernière condition implique que pour tout point ne vérifiant pas y i (w x i +b) = 1 le λ i est nul. Les points qui vérifient y i (w x i +b) = 1, sont appelés vecteurs supports. Ce sont les points les plus près de la marge. Ils sont sensés être peu nombreux par rapport à l ensemble des exemples.

Formalisation Cas séparable Le problème dual : Le problème s exprime sous forme duale comme la minimisation de : N W(λ) = λ i 1 N N λ i λ j y i y j (x i x j ) (8) 2 i=1 i=1 j=1 Fait partie des problèmes d optimisation quadratique pour lesquels il existe de nombreux algorithmes de résolution SMO résolution analytique (par 2 points), gestion efficace de la mémoire, mais converge en un nombre d étapes indéterminé SimpleSVM facilite de la reprise a chaud, converge en moins d étapes mais limitation mémoire LASVM utilisation en ligne, résolution analytique mais solution sous optimale, plusieurs passes nécessaires pour les petites bases de données

Formalisation Cas non-séparable Classification à marge souple : Et si les données ne sont pas linéairement séparables? L idée est d ajouter des variables d ajustement ξ i dans la formulation pour prendre en compte les erreurs de classification ou le bruit

Formalisation Cas non-séparable Classification à marge souple : formulation Problème original Minimiser 1 2 w 2 +C N i=1 ξ i Étant donné : y i (w x i +b) 1 ξ i pour i = 1,...,N et ξ i 0 C est une constante permettant de contrôler le compromis entre nombre d erreurs de classement, et la largeur de la marge Problème dual Minimiser L(λ) = N i=1 λ i 1 2 N i=1 N j=1 λ iλ j y i y j x i x j Avec les contraintes 0 λ i C

Formalisation Cas non-séparable Au delà du séparateur linéaire Que se passe-t-il si l ensemble d apprentissage est intrinsèquement non séparable? Pourquoi ne pas plonger le problème dans un espace de plus grande dimensionnalité?

Utilisation des noyaux Plan 1 Introduction 2 Formalisation Cas séparable Cas non-séparable 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Utilisation des noyaux SVM non-linéaires : espace de caractéristiques Idée générale L espace des données peut toujours être plongé dans un espace de plus grande dimension dans lequel les données peuvent être séparées linéairement Exemple : XOR On effectue la transformation : (x,y) (x,y,x y) (9) Dans ce cas le problème peut être séparé linéairement

Utilisation des noyaux Le kernel trick La résolution des SVM ne s appuient que sur le produit scalaire < x i,x j > entre les vecteurs d entrée Si les données d apprentissage sont plongées dans un espace de plus grande dimension via la transformation Φ : x φ(x), le produit scalaire devient : K(x i,x j ) =< φ(x i ),φ(x j ) > (10) (K(x i,x j ) est appelée fonction noyau) Pour faire apprendre le SVM seul le noyau est important, sans qu il ne soit nécessaire d effectuer la transformée φ(x)

Utilisation des noyaux SVM non-linéaire : formulation Problème original Minimiser 1 2 w 2 +C N i=1 ξ i Étant donné : y i (w φ(x i )+b) 1 ξ i, pour i = 1,...,N et ξ i 0 Problème dual Minimiser L(λ) = N i=1 λ i 1 2 N i=1 N j=1 λ iλ j y i y j K(x i,x j ) Sous les contraintes 0 λ i C Les techniques d optimisation restent les mêmes La solution est de la forme : w = i SV λ iy i φ(x i ) f(x) = w φ(x)+b = i SV λ iy i K(x i,x)+b

Utilisation des noyaux Exemples de noyaux Noyau polynôme de degré 2 à 2 variables Transformée non-linéaire : x = (x 1,x 2 ) φ(x) = (1, 2x 1, 2x 2,x1 2,x2 2, 2x 1 x 2 ) Le noyau est alors : φ(x) = (1, 2x 1, 2x 2,x1 2,x2 2, 2x 1 x 2 ) φ(y) = (1, 2y 1, 2y 2,y1 2,y2 2, 2y 1 y 2 ) K(x,y) = φ(x) φ(y) = (1+x y) 2

Utilisation des noyaux Comment savoir si K est un noyau? Noyau de Mercer On appel noyau de Mercer une fonction continue, symétrique, semi-définie positive K(x,y) n n i=1 j=1 α iα j k(x i,x j ), α R Matrice de Gram Matrice des termes < x i,x j >. Elle est symétrique et semi-définie positive pour une noyau de Mercer Théorème de Moore-Aronszajn (1950) Toute fonction semi-définie positive k(x, y) est un noyau, et réciproquement. Elle peut s exprimer comme un produit scalaire dans un espace de grande dimension. k(x i,x j ) =< φ(x i ),φ(x j ) >

Utilisation des noyaux Quelques noyaux utilisables dans Weka Noyau linéaire K(x i,x j ) = x i x j Noyau polynomial de degré p K(x i,x j ) = (1+x i x j ) p x i x j 2 Noyau Gaussien K(x i,x j ) = exp 2σ 2 Cette formulation est équivalente aux réseaux de neurones à bases radiales avec l avantage supplémentaire que les centres des fonctions à base radiale (qui sont les vecteurs supports) sont optimisés Perceptron à 2 couches K(x i,x j ) = tanh(αx i x j +β)

Utilisation des noyaux Construire d autres noyaux k(x,y) = k 1 (x,y)+k 2 (x,y) k(x,y) = α k 1 (x,y) k(x,y) = k 1 (x,y) k 2 (x,y) k(x,y) = f(x) f(y) avec f() une fonction de l espace des attributs dans R k(x,y) = k 3 (φ(x),φ(y)) k(x,y) = xby T avec B une matrice N N symétrique, semi-définie positive.

Cas multi-classes Plan 1 Introduction 2 Formalisation Cas séparable Cas non-séparable 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Cas multi-classes Cas multi-classes Les Séparateurs à vaste marge ont été développés pour traiter des problèmes binaires mais ils peuvent être adaptés pour traiter les problèmes multi-classes. Stratégie un contre tous L idée consiste simplement à transformer le problème à k classes en k classifieurs binaires. Le classement est donné par le classifieur qui répond le mieux. Pb : beaucoup d exemples négatifs!

Cas multi-classes Cas multi-classes Stratégie un contre un Cette fois le problème est transformé en k (k 1) 2 classifieurs binaires : chaque classe i étant en effet comparée à chaque classe j. Le classement est donné par le vote majoritaire ou un graphe acyclique de décision.

Applications des SVM Plan 1 Introduction 2 Formalisation Cas séparable Cas non-séparable 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Applications des SVM Applications des SVM Les avantages théoriques (minimisation de l erreur empirique et structurelle) et pratiques (algorithmes optimisés) des SVM en ont fait un outil très prisé dans de nombreux problèmes pratiques de classification. Dans bien des cas, il s agit de construire un noyau (donc une mesure de similarité) adapté aux données à traiter.

Applications des SVM Exemple d applications Classification de données biologiques/physiques Classification de documents numériques Classification d expressions faciales Classification de textures E-learning Détection d intrusion Reconnaissance de la parole CBIR : Content Based Image Retrieval

Bibliographie Plan 1 Introduction 2 Formalisation Cas séparable Cas non-séparable 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Bibliographie Bibliographie CANU, S. (2007). Machines à noyaux pour l apprentissage statistique. Techniques de l ingénieur - Dossier : TE5255. Cortes, C. and Vapnik, V. (1995). Support-vector networks. Machine Learning, 20(3) :273 297. Guermeur, Y. and Paugam-Moisy, H. (1999). Apprentissage Automatique, chapter Théorie de l apprentissage de Vapnik et SVM, Support Vector Machines, pages 109 138. Hermés. http ://www.loria.fr/ guermeur/svm-final.ps.