Introduction aux Support Vector Machines (SVM)

Documents pareils

Introduction au Data-Mining

Programmation linéaire

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Introduction au Data-Mining

Apprentissage non paramétrique en régression

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Fonctions de plusieurs variables

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Identification de nouveaux membres dans des familles d'interleukines

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Arbres binaires de décision

Traitement bas-niveau

3 Approximation de solutions d équations

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Programmation linéaire

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

LES MÉTHODES DE POINT INTÉRIEUR 1

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

PROBABILITES ET STATISTIQUE I&II

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Quantification Scalaire et Prédictive

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Programmes des classes préparatoires aux Grandes Ecoles

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Les algorithmes de base du graphisme

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Approximations variationelles des EDP Notes du Cours de M2

Simulation de variables aléatoires

Résolution d équations non linéaires

Introduction au datamining

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Resolution limit in community detection

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Apprentissage Automatique

Sujet 4: Programmation stochastique propriétés de fonction de recours

Coup de Projecteur sur les Réseaux de Neurones

Cours 02 : Problème général de la programmation linéaire

Programmation Linéaire - Cours 1

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Exercice : la frontière des portefeuilles optimaux sans actif certain

4.2 Unités d enseignement du M1

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Différentiabilité ; Fonctions de plusieurs variables réelles

Echantillonnage Non uniforme

Méthodes d apprentissage statistique «Machine Learning»

Géométrie discrète Chapitre V

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Correction du baccalauréat S Liban juin 2007

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Économetrie non paramétrique I. Estimation d une densité

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Statistiques Descriptives à une dimension

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Principe de symétrisation pour la construction d un test adaptatif

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

1 Complément sur la projection du nuage des individus

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Optimisation Discrète

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Programmation linéaire et Optimisation. Didier Smets

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Pourquoi l apprentissage?

ANALYSE STATISTIQUE PRÉDICTIVE

Enjeux mathématiques et Statistiques du Big Data

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Apprentissage statistique dans les graphes et les réseaux sociaux

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Programme de la classe de première année MPSI

Classification non supervisée

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

IFT3245. Simulation et modèles

Introduction à MATLAB R

Calcul différentiel. Chapitre Différentiabilité

Mesures gaussiennes et espaces de Fock

Etude des propriétés empiriques du lasso par simulations

Apprentissage par renforcement (1a/3)

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Cours d Analyse. Fonctions de plusieurs variables

I. Polynômes de Tchebychev

Introduction à l étude des Corps Finis

Transcription:

Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001

But de l exposé 2 Présenter les SVM Encourager leur utilisation Encourager leur étude

Plan 3 Quel est le contexte? Qu est-ce que c est? Comment cela marche-t-il? Pourquoi est-ce utile? Pourquoi est-ce que cela marche?

Contexte 4 Problème d apprentissage On s intéresse à un phénomène f (éventuellement non-déterministe) qui, à partir d un certain jeu d entrées x, produit une sortie y = f(x). Le but est de retrouver f à partir de la seule observation d un certain nombre de couples entrée-sortie {(x i, y i ) : i = 1,..., n}

Contexte 5 Formalisation On considère un couple (X, Y ) de variables aléatoires à valeurs dans X Y. Seul le cas Y = { 1, 1} (classification) nous intéresse ici (on peut facilement étendre au cas Y = m > 2 et au cas Y = R). La distribution jointe de (X, Y ) est inconnue. Données: on observe un échantillon S = {(X 1, Y 1 ),..., (X n, Y n )} de n copies indépendantes de (X, Y ). But: construire une fonction h : X Y telle que P (h(x) Y ) soit minimale.

Exemples de problèmes d apprentissage 6 Reconnaissance de formes Reconnaissance de chiffres manuscrits (après segmentation: codes postaux) Reconnaissance de visages Entrées: image bidimensionnelle en couleur ou en niveaux de gris Sortie: classe (chiffre, personne)

Exemples de problèmes d apprentissage 7 Catégorisation de textes Classification d e-mails Classification de pages web Entrées: document (texte ou html) Sortie: catégorie (thème, spam/non-spam)

Exemples de problèmes d apprentissage 8 Diagnostic médical Evaluation des risques de cancer Detection d arythmie cardiaque Entrées: etat du patient (sexe, age, bilan sanguin, génome...) Sortie: classe (à risque ou non)

Illustration 9 Trouver une frontière de décision qui sépare l espace en deux régions (pas forcément connexes). Problème d optimisation Critère: erreur constatée sur les données (Erreur empirique) Espace de recherche: ensemble paramétré de fonctions par exemple Problème mal posé (solution non unique) Garanties?

Illustration 10 Sur et sous-apprentissage Si les données sont générées par un modèle quadratique Le modèle linéaire est en situation de sous-apprentissage Le modèle de haut degré est en situation de sur-apprentissage (apprentissage par coeur) Un compromis est à trouver entre adéquation aux données et complexité pour pouvoir généraliser.

Plan 11 Quel est le contexte? Qu est-ce que c est? Comment cela marche-t-il? Pourquoi est-ce utile? Pourquoi est-ce que cela marche?

Qu est-ce que c est? 12 Les Support Vector Machines sont une classe d algorithmes d apprentissage. Principe général Construction d un classifieur à valeurs réelles Découpage du problème en deux sous-problèmes 1. Transformation non-linéaire des entrées 2. Choix d une séparation linéaire optimale

Classification à valeurs rélles 13 Plutôt que de construire directement h : X { 1, 1}, on construit f : X R. La classe est donnée par le signe de f h = sgn(f). L erreur se calcule avec P (h(x) Y ) = P (Y f(x) 0). Donne une certaine idée de la confiance dans la classification. Idéalement, Y f(x) est proportionnel à P (Y X). Y f(x) est la marge de f en (X, Y ).

Transformation des entrées 14 X est un espace quelconque d objets. On transforme les entrées en vecteurs dans un espace F (feature space). Φ : X F. F n est pas nécessairement de dimension finie mais dispose d un produit scalaire (espace de Hilbert) La non-linéarité est traitée dans cette transformation, on peut donc choisir une séparation linéaire.

Choix d une séparation 15 Hyperplan optimal Choix de la séparation: hyperplan qui classifie correctement les données (lorsque c est possible) et qui se trouve le plus loin possible de tous les exemples. Optimal Valide

Maximisation de la marge 16 Définition géométrique Marge = distance du point le plus proche à l hyperplan

Plan 17 Quel est le contexte? Qu est-ce que c est? Comment cela marche-t-il? Pourquoi est-ce utile? Pourquoi est-ce que cela marche?

Maximisation de la marge 18 Propriétés Modèle linéaire f(x) = w x + b Définition de l hyperplan (frontière de décision) w x + b = 0 La distance d un point au plan est donnée par d(x) = w x + b w Maximiser la marge revient à minimiser w sous contraintes

Implémentation 19 Problème primal Un point (x i, y) est bien classé si et seulement si yf(x) > 0 Comme le couple (w, b) est défini à un coefficient multiplicatif près, on s impose Rappelons que yf(x) 1 d(x) = f(x) w On obtient le problème de minimisation sous contraintes { min 1 2 w 2 i, y i (w.x i + b) 1

Implémentation 20 Problème dual On passe au problème dual en introduisant des multiplicateurs de Lagrange pour chaque contrainte. Ici on a une contrainte par exemple d apprentissage max n i=1 α i 1 2 i, α i 0 n i=1 α iy i = 0 i,j α iα j y i y j x i x j Problème de programmation quadratique de dimension n (nombre d exemples). Matrice hessienne: (x i x j ) i,j.

Implémentation 21 Propriétés w = n αi y i x i i=1 Seuls les α i correspondant aux points les plus proches sont non-nuls. On parle de vecteurs de support. Fonction de décision n f(x) = αi y i x i x + b i=1

Cas non-séparable 22 Traitement des erreurs On introduit des variables ressort pour assouplir les contraintes. { min 1 2 w 2 + C n i=1 ξ i i, y i (w.x i + b) 1 ξ i On pénalise par le dépassement de la contrainte.

Cas non-séparable 23 Problème dual Le problème dual a la même forme que dans le cas séparable: max n i=1 α i 1 2 i,j α iα j y i y j x i x j i, 0 α i C n i=1 α iy i = 0 La seule différence est la borne supérieure sur les α.

Fonction noyau 24 Espace intermédiaire Au lieu de chercher un hyperplan dan l espace des entrées, on passe d abord dans un espace de représentation intermédiaire (feature space) de grande dimension. On doit donc résoudre max n i=1 α i 1 2 i, 0 α i C n i=1 α iy i = 0 Φ : R d F x Φ(x) i,j α iα j y i y j Φ(x i ) Φ(x j ) et la solution a la forme f(x) = n αi y i Φ(x i ) Φ(x) + b i=1

Fonction noyau 25 Propriétés Le problème et sa solution ne dépendent que des produits scalaires Φ(x) Φ(x ). Plutôt que de choisir la transformation non-linéaire Φ : X F, on choisit une fonction k : X X R appelée fonction noyau. Elle représente un produit scalaire dans l espace de représentation intermédiaire. Elle traduit donc la répartition des exemples dans cet espace. k(x, x ) = Φ(x) Φ(x ) Lorsque k est bien choisie, on n a pas besoin de calculer la représentation des exemples dans cet espace pour calculer cette fonction. Permet d utiliser des représentations non-vectorielles Le noyau matérialise une notion de proximité adaptée au problème.

Fonction noyau 26 Exemple Soit x = (x 1, x 2 ) et Φ(x) = (x 2 1, 2x 1 x 2, x 2 2). produit scalaire donne Φ(x) Φ(x ) = x 2 1x 12 + 2x 1 x 2 x 1x 2 + x 2 2x 2 2 = (x 1 x 1 + x 2 x 2) 2 = (x x ) 2 On peut donc calculer Φ(x) Φ(x ) sans calculer Φ. Dans l espace intermédiaire, le

Fonction noyau 27 Exemple Le passage dans F = R 3 rend possible la séparation linéaire des données.

Fonction noyau 28 Conditions de Mercer Une fonction k(.,.) symétrique est un noyau si pour tous les x i possibles, (k(x i, x j )) i,j est une matrice définie positive. Dans ce cas, il existe un espace F et une fonction Φ tels que Difficile à vérifier k(x, x ) = Φ(x) Φ(x ) Ne donne pas d indication pour la construction de noyaux Ne permet pas de savoir comment est Φ En pratique, on combine des noyaux simples pour en obtenir de plus complexes.

Fonction noyau 29 Exemples de noyaux Linéaire Polynomial Gaussien Laplacien k(x, x ) = x x k(x, x ) = (x x ) d ou (c + x x ) d k(x, x ) = e x x 2 /σ k(x, x ) = e x x 1 /σ

Plan 30 Quel est le contexte? Qu est-ce que c est? Comment cela marche-t-il? Pourquoi est-ce utile? Pourquoi est-ce que cela marche?

Pourquoi est-ce utile? 31 Flexibilité des noyaux Noyau mesure de similitude Temps de calcul raisonnable Trouver un hyperplan qui minimise l erreur est NP-complet. Vecteurs de support Représentation parcimonieuse et éventuellement interprétable.

Noyaux 32 Exemples Si les données sont sous forme vectorielle, on peut utiliser un noyau classique. On peut aussi contruire un noyau spécifique qui travaille plus directement sur la représentation initiale (structure). Images 2D: choix d une résolution et d une discrétisation des couleurs vecteur des valeurs des pixels coefficients d une transformée en ondelettes histogramme des couleurs Textes: choix d un dictionnaire (suppression des mots simples) Sac de mots: vecteur des occurences Autres attributs (liens, position des mots...)

Noyaux 33 Exemples Séquences d ADN Fenêtres de taille fixe (sous-séquence) et représentation binaire (un bit par valeur possible)... A T A G C A... 1 0 1 0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 Coefficients d un modèle probabiliste générateur (1,0,0,0,0,1,0,0,1,0,0,0,0,0,1,0,0,0,0,1,1,0,0,0)

Temps de calcul 34 Complexité d = dimension des entrées n = nombre d exemples d apprentissage Taille de la matrice hessienne: n 2 dn 2 Complexite dn 3 Méthodes de décomposition

Plan 35 Quel est le contexte? Qu est-ce que c est? Comment cela marche-t-il? Pourquoi est-ce utile? Pourquoi est-ce que cela marche?

Pourquoi cela marche-t-il? 36 Plusieurs réponses possibles Eléments de réponse Maximisation de la marge L ensemble des hyperplans de marge donnée M a une VC dimension bornée par R 2 M 2, si les X sont dans une boule de rayon R. Parcimonie de la représentation L erreur leave-one-out est bornée en moyenne par le nombre de vecteurs support. En pratique cela donne des bornes relativement prédictives mais très pessimistes.

Questions Ouvertes 37 Régularisation On peut voir l algorithme SVM comme la minimisation d une fonctionnelle régularisée: n min c(f, X i, Y i ) + λ f 2 H. f i=1 1. Choix du paramètre de régularisation 2. Pénalisation linéaire vs quadratique 3. Lien entre parcimonie et choix de la pénalisation

Questions Ouvertes 38 Noyaux 1. Choix automatique des paramètres 2. Construction de noyaux exotiques (sur des objets structurés) 3. Approche non-paramétrique pour la construction de noyau 4. Classes étendues de noyaux (conditionnellement positifs)

Questions Ouvertes 39 Généralisation 1. Notion de complexité (covering numbers, fat-shattering dimension) 2. Structure du feature space 3. Structure de l espace des fonctions possibles (qui dépend des données) 4. Propriétés de la matrice de Gram

Questions Ouvertes 40 Marge - Parcimonie 1. Bornes de type perceptron (Novikoff) 2. Lien avec la fat-shattering dimension 3. Rôle de la classification a valeurs réelles 4. Lien avec la marge du boosting

Conclusion 41 1. La technique SVM est d une grande flexibilité grâce aux noyaux 2. La maximisation de la marge semble être une bonne heurisitque 3. De nombreuses questions restent ouvertes Applications: construction de noyaux, adaptation des paramètres, implémentation efficace, incorporation d invariances... Théorie: comprendre la généralisation, la complexité, la marge, la parcimonie... Essayez les SVM! Etudiez les SVM! Venez au séminaire/groupe de travail!

Pour en savoir plus 42 Page du séminaire/gt: http://www.math.u-psud.fr/~blanchard/gtsvm/index.html Références bibliographiques Un lien utile: http://www.kernel-machines.org Programmes, articles en ligne, tutoriels...