Support Vecteurs Machine

Documents pareils
Programmation linéaire

Fonctions de plusieurs variables

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Introduction au Data-Mining

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Filtrage stochastique non linéaire par la théorie de représentation des martingales

I. Polynômes de Tchebychev

Programmation Linéaire - Cours 1

Introduction au Data-Mining

Différentiabilité ; Fonctions de plusieurs variables réelles

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

Identification de nouveaux membres dans des familles d'interleukines

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Apprentissage non paramétrique en régression

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Les travaux doivent être remis sous forme papier.

3 Approximation de solutions d équations

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Cours 02 : Problème général de la programmation linéaire

OPTIMISATION À UNE VARIABLE

Résolution d équations non linéaires

Cours d Analyse. Fonctions de plusieurs variables

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Calcul différentiel. Chapitre Différentiabilité

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Cours d analyse numérique SMI-S4

Algorithmes pour la planification de mouvements en robotique non-holonome

Cours de Mécanique du point matériel

LES MÉTHODES DE POINT INTÉRIEUR 1

Plan du cours : électricité 1

CCP PSI Mathématiques 1 : un corrigé

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Amphi 3: Espaces complets - Applications linéaires continues

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Continuité d une fonction de plusieurs variables

Programmation linéaire et Optimisation. Didier Smets

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS =

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Les équations différentielles

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Arbres binaires de décision


Annexe 6. Notions d ordonnancement.

Polynômes à plusieurs variables. Résultant

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Fonctions de plusieurs variables

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Resolution limit in community detection

4.2 Unités d enseignement du M1

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Fonctions de deux variables. Mai 2011

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Théorème du point fixe - Théorème de l inversion locale

Commun à tous les candidats

CHAPITRE 5. Stratégies Mixtes

Statistiques Descriptives à une dimension

TRACER LE GRAPHE D'UNE FONCTION

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal

Optimisation des fonctions de plusieurs variables

Cours d initiation à la programmation en C++ Johann Cuenin

On ne peut pas entendre la forme d un tambour

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Pourquoi l apprentissage?

Traitement bas-niveau

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Probabilités sur un univers fini

Commande Prédictive des. Convertisseurs Statiques

CARTE DE VOEUX À L ASSOCIAEDRE

Chapitre VI - Méthodes de factorisation

RO04/TI07 - Optimisation non-linéaire

Programmation linéaire

Le produit semi-direct

Cours Fonctions de deux variables

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Chp. 4. Minimisation d une fonction d une variable

Résolution de systèmes linéaires par des méthodes directes

Optimisation Discrète

Calcul différentiel sur R n Première partie

Dérivées d ordres supérieurs. Application à l étude d extrema.

Introduction à l étude des Corps Finis

Approximations variationelles des EDP Notes du Cours de M2

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

Sujet 4: Programmation stochastique propriétés de fonction de recours

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Théorie et codage de l information

Licence Sciences et Technologies Examen janvier 2010

Plan. 5 Actualisation. 7 Investissement. 2 Calcul du taux d intérêt 3 Taux équivalent 4 Placement à versements fixes.

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

BACCALAURÉAT PROFESSIONNEL SUJET

ÉVALUATION FORMATIVE. On considère le circuit électrique RC représenté ci-dessous où R et C sont des constantes strictement positives.

Transcription:

Support Vecteurs Machine Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 1 / 20

Plan Introduction SVM : Principe de fonctionnement général Hyperplan, marge et support vecteur. Linéairement séparable. Non-linéairement séparable. Cas non linéaire. Le cas XOR. Fondements mathématiques Problème d apprentissage. Cas linéaire. Maximisation de la marge. Cas linéaire. Marges larges relaxées. De la linéarité à la non-linéarité : Fonction noyau et Condition de Mercer. Conclusion H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 2 / 20

Introduction Objectif : Explication d une variable Y par p variables X j, j = 1,...,p observées sur un même échantillon Ω de taille n. On note X la matrice des variables explicatives. On dispose d un nouvel individu (ou de plusieurs) sur lequel on a observé les X j mais pas Y. Il s agit de prédire la valeur de Y de ce nouvel individu. Seul le cas Y { 1, 1} sera traité ici. On peut facilement étendre à card(y) > 2 et à Y R. La distribution jointe de (X, Y), notée P, est inconnue. SVM est une méthode de classification binaire par apprentissage supervisé. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 3 / 20

Introduction Cette méthode repose sur l existence d un classifieur linéaire dans un espace approprié, l utilisation de fonction noyau qui permettent une séparation optimale des données. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 4 / 20

Hyperplan, marge et support vecteur But : Trouver un classifieur linéaire (hyperplan) qui va séparer les données et maximiser la distances entre ces 2 classes. Les points les plus proches, qui seuls sont utilisés pour la détermination de l hyperplan, sont appelés vecteurs de support. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 5 / 20

Hyperplan, marge et support vecteur Intuition : Parmi les hyperplans valides, chercher l hyperplan le "plus sûr". En supposant qu un exemple n ait pas été parfaitement décrit, une petite variation ne modifiera pas sa classification si sa distance à l hyperplan est grande. Objectif : Parmi les hyperplans valides, chercher l hyperplan dont la distance minimale aux exemples d apprentissage est maximale. Cette distance est appelée distance marge entre l hyperplan et les exemples. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 6 / 20

Linéairement séparable. Non-linéairement séparable Parmi les modèles des SVMs, on distingue les cas linéairement séparables et les cas non-linéairement séparables. Dans les premiers cas, il est facile de trouver le classifieur linéaire. Dans la plupart des problèmes réels, il n y a pas de séparation linéaire possible entre les données. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 7 / 20

Cas non-linéaire Idée : changer l espace des données afin de surmonter l inconvénient des cas non-linéairement séparables. La transformation non-linéaire des données peut permettre une séparation linéaire des exemples dans un nouvel espace, espace de représentation. Intuitivement, plus la dimension de l espace de représentation est grande, plus la probabilité de pouvoir trouver un hyperplan séparateur entre les exemples est élevée. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 8 / 20

Cas non-linéaire Transformation d un problème de séparation non-linéaire dans l espace de représentation en un problème de séparation linéaire dans un espace de représentation de plus grande dimension. Cette transformation non-linéaire est réalisée via une fonction noyau. En pratique, quelques familles de fonctions noyau paramétrables sont connues : polynômiale, gaussien, sigmoïde et laplacien. Il revient à l utilisateur de SVM d effectuer des tests pour déterminer celle qui convient le mieux pour son application. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 9 / 20

Cas non-linéaire LE CAS XOR Le cas XOR {(0, 0);(0, 1);(1, 0),(1, 1)} n est pas linéairement séparable, si on place les points dans un plan à dimension 2. Si on prend une fonction polynômiale (x, y) (x, y, x y) qui fait passer d un espace de dimension 2 à un espace de dimension 3, on obtient un problème en dimension 3 linéairement séparable. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 10 / 20

Fondements mathématiques. Problème d apprentissage Objectif : Sachant qu on observe un échantillon {(X 1, Y 1 );...;(X n, Y n }) de n copies indépendantes de (X, Y), on veut construire une fonction f : X Y telle que P[f(X) Y] = P[f(X)Y 0] soit minimale. Comme à chaque fois, il faut éviter le sous et le sur-apprentissage. Il faut trouver un compromis entre adéquation aux données et complexité du modèle afin de pouvoir généraliser. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 11 / 20

Cas linéaire. Maximisation de la marge Un hyperplan est défini à l aide du produit scalaire de X par < w, x > +b = 0 où w est un vecteur orthogonal au plan. Le signe de f(x) =< w, x > +b indique le côté où se trouve le point x. Un point est bien classé si et seulement si yf(x) > 0. Mais comme (w, b) caractérise le plan à un coefficient multiplicatif près, on s impose yf(x) 1. Un plan (w, b) est un séparateur si i {1,, n}, y i f(x i ) 1. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 12 / 20

Cas linéaire. Maximisation de la marge La distance d un point x 0 au plan (w, b) est donnée par d(x 0 ) = w.x 0 + b = f(x) w w. 2 La marge du plan a pour valeur. Chercher le plan séparateur de w 2 marge maximale revient à résoudre le problème d optimisation sous contraintes { min 1 w 2 w 2 avec i {1,, n}, y i (< w, x i > +b) 1. La solution est fournie par le point-selle (w, b,λ ) du lagrangien L(w, b,λ) = 1 n 2 w 2 λ i [y i (< w, x i > +b) 1]. i=1 Ce point-selle vérifie i {1,, n}, λ i [y i (< w, x i > +b ) 1] = 0. Les vecteurs supports sont les vecteurs x i pour lesquels la contrainte est active, i.e. les plus proches du plan : y i (< w, x i > +b ) = 1. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 13 / 20

Cas linéaire. Maximisation de la marge En calculant les dérivées partielles du lagrangien, avec les λ i non nuls seulement pour les points supports, on obtient : n n w = λ i y ix i et λ i y i = 0. i=1 Ces contraintes d égalité permettent d exprimer la formule duale du lagrangien n W(λ) = λ i 1 n λ i λ j y i y j < x i, x j >. 2 i=1 i,j=1 Pour trouver le point-selle, il suffit alors de maximiser W(λ) avec λ i 0, i {1,, n}. La résolution de ce problème d optimisation quadratique de taille n fournit l équation de l hyperplan optimal : n λ i y i < x i, x j > +b = 0 avec b = 1 2 [< w, sv class+1 > + < w, sv cla i=1 i=1 H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 14 / 20

Cas linéaire. Maximisation de la marge Pour une nouvelle observation x non apprise présentée au modèle, il suffit de regarder le signe de f(x) = n λ i y i < x, x i > +b, i=1 pour savoir dans quel demi-espace cette forme se trouve et donc quelle classe lui sera attribuée. Inconvénient de cette méthode : Très sensible aux outliers. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 15 / 20

Problème d optimisation des marges larges relaxées Lorsque les observations ne sont pas séparables par un plan, il est nécessaire d " assouplir" les contraintes par l introduction de termes d erreur ξ qui en contrôlent le dépassement : y i (< w, x i > +b) 1 ξ i, i {1,, n}. Le modèle attribue ainsi une réponse fausse à un vecteur x i si le ξ i correspondant est supérieur à 1. La somme de tous les ξ i représente donc une borne du nombre d erreurs. Le problème de minimisation est réécrit en introduisant une pénalisation par le dépassement de la contrainte { min 1 w 2 w 2 +δ n i=1 ξ i avec i {1,, n}, y i (< w, x i > +b) 1 ξ i. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 16 / 20

Problème d optimisation des marges larges relaxées Remarques : La constante δ est maintenant un paramètre de l algorithme que l on choisit en pratique par validation croisée ou par approximations. Plus δ est grand et plus cela revient à attribuer une forte importance à l ajustement. Ce paramètre ajuste le compromis entre bon ajustement et bonne généralisation. La différence avec le cas séparable, c est que les coefficients λ i sont tous bornés par le paramètre δ. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 17 / 20

Du linéaire au non-linéaire Au lieu de chercher un hyperplan dans l espace des entrées, on passe d abord dans un espace de représentation intermédiaire (feature space) de grande dimension Φ : R d F x Φ(x). La formulation du problème de minimisation ainsi que sa solution n f(x) = λ i y i < x, x i > +b i=1 ne font intervenir x et x que par l intermédiaire de produits scalaires < x, x >. Idée : Inutile d expliciter Φ à condition de savoir exprimer les produits scalaires dans F à l aide d une fonction k : R p R p R symétrique appelée noyau telle que k(x, x ) =< Φ(x),Φ(x ) >. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 18 / 20

Conditions de Mercer Une fonction k(.,.) symétrique est un noyau si pour toutes les x i possibles, (k(x i, x j )) i,j est une matrice définie positive. Dans ce cas, il existe un espace F et une fonction Φ tels que Remarques : k(x, y) = Φ(x).Φ(y). Ces conditions ne donnent pas d indication pour la construction des noyaux. Elles ne permettent pas de savoir comment est Φ. En pratique, on combine des noyaux simples pour en obtenir des plus complexes. Pourquoi le fait d envoyer les données dans un espace de grande dimension (éventuellement infinie) ne conduirait-il pas à de l overfitting (sur-apprentissage des données)? La dimension ne joue pas de rôle, la seule quantité contrôlant la complexité est la marge. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 19 / 20

Exemples de noyaux Linéaire Polynômial k(x, y) =< x, y >. k(x, y) = (< x, y >) d ou (c+ < x, y >) d. Gaussien Laplacien k(x, y) = e x y 2 /σ 2. k(x, y) = e x y 1/σ 2. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 20 / 20

Conclusion La séparation claire en deux composantes (fonctionnelle à optimiser et noyau) permet de séparer les tâches. En pratique, on peut se concentrer sur la construction d un noyau adéquat et le reste est confié à une "boîte noire". La formulation comme problème d optimisation quadratique sous contraintes linéaires permet l application d une batterie d algorithmes d optimisation efficaces, permettant de s attaquer à des problèmes de grande taille (10 6 exemples d apprentissage). On peut encore reformuler le problème sous la forme d une recherche d un estimateur non paramétrique basé sur une minimisation du risque empirique pénalisé. Cela permet d étudier les performances de l algorithme (bornes de risques, vitesses de convergence...) dans un cadre mathématique bien défini. H. Milhem (IMT, INSA Toulouse) Support Vecteurs Machine IUP SID 2011-2012 21 / 20