Séance 12: Algorithmes de Support Vector Machines

Documents pareils
Introduction au Data-Mining

Introduction au Data-Mining

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Programmation linéaire

Commande Prédictive des. Convertisseurs Statiques

Identification de nouveaux membres dans des familles d'interleukines

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Fonctions de deux variables. Mai 2011

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

Apprentissage non paramétrique en régression

Quantification Scalaire et Prédictive

Résolution de systèmes linéaires par des méthodes directes

Cours d Analyse. Fonctions de plusieurs variables

LES MÉTHODES DE POINT INTÉRIEUR 1

Arbres binaires de décision

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Fonctions de plusieurs variables

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Introduction au datamining


Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Soutenance de stage Laboratoire des Signaux et Systèmes

Chapitre 3. Les distributions à deux variables

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Programmation Linéaire - Cours 1

Bien lire l énoncé 2 fois avant de continuer - Méthodes et/ou Explications Réponses. Antécédents d un nombre par une fonction

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Sécurité par compression! ReSIST Gilles RICHARD IRIT

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

I. Polynômes de Tchebychev

La classification automatique de données quantitatives

Théorie des Jeux Et ses Applications

Continuité et dérivabilité d une fonction

3 Approximation de solutions d équations

4.2 Unités d enseignement du M1

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Pourquoi l apprentissage?

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Programmation linéaire

Introduction à MATLAB R

Méthodes d apprentissage statistique «Machine Learning»

Laboratoire 4 Développement d un système intelligent

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Cours 02 : Problème général de la programmation linéaire

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Différentiabilité ; Fonctions de plusieurs variables réelles

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

3. Conditionnement P (B)

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Optimisation Discrète

Complément d information concernant la fiche de concordance

Espérance conditionnelle

Oscillations libres des systèmes à deux degrés de liberté

Modèles bi-dimensionnels de coques linéairement élastiques: Estimations de l écart entre leurs solutions.

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Programmes des classes préparatoires aux Grandes Ecoles

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Optimisation des ressources des produits automobile première

Évaluation de la régression bornée

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Chapitre 0 Introduction à la cinématique

Correction du Baccalauréat S Amérique du Nord mai 2007

Brève introduction à la fouille de grandes bases de données océaniques

10ème Congrès Français d'acoustique Lyon, Avril 2010

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Chapitre 7. Récurrences

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Équations non linéaires

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Coup de Projecteur sur les Réseaux de Neurones

Les algorithmes de base du graphisme

Détection des deux roues motorisés par télémétrie laser à balayage

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

Apprentissage par renforcement (1a/3)

Apprentissage Automatique

Le modèle de Black et Scholes

ANALYSE GÉNÉRALE - PROPOSITION DE CORRIGÉ. Exercice 1

Fonctions de plusieurs variables

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Approximations variationelles des EDP Notes du Cours de M2

NON-LINEARITE ET RESEAUX NEURONAUX

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Contexte et motivations Les techniques envisagées Evolution des processus Conclusion

Thèse. Mathieu RAMONA

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane

Table des matières. Introduction Générale 5

Programmation linéaire et Optimisation. Didier Smets

Transcription:

Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat

Douzième partie XII Algorithmes de Support Vector Machines

Principe de l algorithme Quelques exemples d utilisation Ce sont des algorithmes d apprentissage initialement construits pour la classification binaire. L idée est de rechercher une règle de décision basée sur une séparation par hyperplan de marge optimale. Méthode relativement récente qui découle de premiers travaux théoriques de Vapnik et Chervonenkis en 1995, démocratisés à partir de 2000. Le principe de l algorithme est d intégrer lors de la phase d apprentissage une estimation de sa complexité pour limiter le phénomène d over-fitting. Méthode qui ne substitue pas au problème déjà compliqué de la classification un problème encore plus complexe comme l estimation d une densité de probabilités (par exemple).

Principe de l algorithme Quelques exemples d utilisation Ce sont des algorithmes d apprentissage initialement construits pour la classification binaire. L idée est de rechercher une règle de décision basée sur une séparation par hyperplan de marge optimale. Méthode relativement récente qui découle de premiers travaux théoriques de Vapnik et Chervonenkis en 1995, démocratisés à partir de 2000. Le principe de l algorithme est d intégrer lors de la phase d apprentissage une estimation de sa complexité pour limiter le phénomène d over-fitting. Méthode qui ne substitue pas au problème déjà compliqué de la classification un problème encore plus complexe comme l estimation d une densité de probabilités (par exemple).

Principe de l algorithme Quelques exemples d utilisation Ce sont des algorithmes d apprentissage initialement construits pour la classification binaire. L idée est de rechercher une règle de décision basée sur une séparation par hyperplan de marge optimale. Méthode relativement récente qui découle de premiers travaux théoriques de Vapnik et Chervonenkis en 1995, démocratisés à partir de 2000. Le principe de l algorithme est d intégrer lors de la phase d apprentissage une estimation de sa complexité pour limiter le phénomène d over-fitting. Méthode qui ne substitue pas au problème déjà compliqué de la classification un problème encore plus complexe comme l estimation d une densité de probabilités (par exemple).

Principe de l algorithme Quelques exemples d utilisation Ce sont des algorithmes d apprentissage initialement construits pour la classification binaire. L idée est de rechercher une règle de décision basée sur une séparation par hyperplan de marge optimale. Méthode relativement récente qui découle de premiers travaux théoriques de Vapnik et Chervonenkis en 1995, démocratisés à partir de 2000. Le principe de l algorithme est d intégrer lors de la phase d apprentissage une estimation de sa complexité pour limiter le phénomène d over-fitting. Méthode qui ne substitue pas au problème déjà compliqué de la classification un problème encore plus complexe comme l estimation d une densité de probabilités (par exemple).

Principe de l algorithme Quelques exemples d utilisation Ce sont des algorithmes d apprentissage initialement construits pour la classification binaire. L idée est de rechercher une règle de décision basée sur une séparation par hyperplan de marge optimale. Méthode relativement récente qui découle de premiers travaux théoriques de Vapnik et Chervonenkis en 1995, démocratisés à partir de 2000. Le principe de l algorithme est d intégrer lors de la phase d apprentissage une estimation de sa complexité pour limiter le phénomène d over-fitting. Méthode qui ne substitue pas au problème déjà compliqué de la classification un problème encore plus complexe comme l estimation d une densité de probabilités (par exemple).

Principe de l algorithme Principe de l algorithme Quelques exemples d utilisation L algorithme se base principalement sur 3 astuces pour obtenir de très bonnes performances tant en qualité de prédiction qu en complexité de calcul. On cherche l hyperplan comme solution d un problème d optimisation sous-contraintes. La fonction à optimiser intègre un terme de qualité de prédiction et un terme de complexité du modèle. Le passage à la recherche de surfaces séparatrices non linéaires est introduit en utilisant un noyau kernel qui code une transformation non linéaire des données. Numériquement, toutes les équations s obtiennent en fonction de certains produits scalaires utilisant le noyau et certains points de la base de données (ce sont les Support Vectors).

Principe de l algorithme Principe de l algorithme Quelques exemples d utilisation L algorithme se base principalement sur 3 astuces pour obtenir de très bonnes performances tant en qualité de prédiction qu en complexité de calcul. On cherche l hyperplan comme solution d un problème d optimisation sous-contraintes. La fonction à optimiser intègre un terme de qualité de prédiction et un terme de complexité du modèle. Le passage à la recherche de surfaces séparatrices non linéaires est introduit en utilisant un noyau kernel qui code une transformation non linéaire des données. Numériquement, toutes les équations s obtiennent en fonction de certains produits scalaires utilisant le noyau et certains points de la base de données (ce sont les Support Vectors).

Principe de l algorithme Principe de l algorithme Quelques exemples d utilisation L algorithme se base principalement sur 3 astuces pour obtenir de très bonnes performances tant en qualité de prédiction qu en complexité de calcul. On cherche l hyperplan comme solution d un problème d optimisation sous-contraintes. La fonction à optimiser intègre un terme de qualité de prédiction et un terme de complexité du modèle. Le passage à la recherche de surfaces séparatrices non linéaires est introduit en utilisant un noyau kernel qui code une transformation non linéaire des données. Numériquement, toutes les équations s obtiennent en fonction de certains produits scalaires utilisant le noyau et certains points de la base de données (ce sont les Support Vectors).

Utilisations récentes Principe de l algorithme Quelques exemples d utilisation Dans tout type de problème de classification à deux classes : Classification d images : reconnaissance de visages, de chiffres manuscrits Interprétation textuelle : détection de Spam Aide au diagnostic biologique De nouveaux centres d intérêts se développent actuellement : Utilisation comme outil de sélection de variables Sparse SVM : utilisation de modèles parcimonieux pour la classification Contraintes : A priori, capable d utiliser un grand nombre de variables puisque l astuce du noyau «envoie»le problème dans l espace des individus. Plus il y a d individus dans la base de données et meilleure est la prédiction, mais plus les calculs sont longs...

Utilisations récentes Principe de l algorithme Quelques exemples d utilisation Dans tout type de problème de classification à deux classes : Classification d images : reconnaissance de visages, de chiffres manuscrits Interprétation textuelle : détection de Spam Aide au diagnostic biologique De nouveaux centres d intérêts se développent actuellement : Utilisation comme outil de sélection de variables Sparse SVM : utilisation de modèles parcimonieux pour la classification Contraintes : A priori, capable d utiliser un grand nombre de variables puisque l astuce du noyau «envoie»le problème dans l espace des individus. Plus il y a d individus dans la base de données et meilleure est la prédiction, mais plus les calculs sont longs...

Utilisations récentes Principe de l algorithme Quelques exemples d utilisation Dans tout type de problème de classification à deux classes : Classification d images : reconnaissance de visages, de chiffres manuscrits Interprétation textuelle : détection de Spam Aide au diagnostic biologique De nouveaux centres d intérêts se développent actuellement : Utilisation comme outil de sélection de variables Sparse SVM : utilisation de modèles parcimonieux pour la classification Contraintes : A priori, capable d utiliser un grand nombre de variables puisque l astuce du noyau «envoie»le problème dans l espace des individus. Plus il y a d individus dans la base de données et meilleure est la prédiction, mais plus les calculs sont longs...

Utilisations récentes Principe de l algorithme Quelques exemples d utilisation Dans tout type de problème de classification à deux classes : Classification d images : reconnaissance de visages, de chiffres manuscrits Interprétation textuelle : détection de Spam Aide au diagnostic biologique De nouveaux centres d intérêts se développent actuellement : Utilisation comme outil de sélection de variables Sparse SVM : utilisation de modèles parcimonieux pour la classification Contraintes : A priori, capable d utiliser un grand nombre de variables puisque l astuce du noyau «envoie»le problème dans l espace des individus. Plus il y a d individus dans la base de données et meilleure est la prédiction, mais plus les calculs sont longs...

Utilisations récentes Principe de l algorithme Quelques exemples d utilisation Dans tout type de problème de classification à deux classes : Classification d images : reconnaissance de visages, de chiffres manuscrits Interprétation textuelle : détection de Spam Aide au diagnostic biologique De nouveaux centres d intérêts se développent actuellement : Utilisation comme outil de sélection de variables Sparse SVM : utilisation de modèles parcimonieux pour la classification Contraintes : A priori, capable d utiliser un grand nombre de variables puisque l astuce du noyau «envoie»le problème dans l espace des individus. Plus il y a d individus dans la base de données et meilleure est la prédiction, mais plus les calculs sont longs...

Utilisations récentes Principe de l algorithme Quelques exemples d utilisation Dans tout type de problème de classification à deux classes : Classification d images : reconnaissance de visages, de chiffres manuscrits Interprétation textuelle : détection de Spam Aide au diagnostic biologique De nouveaux centres d intérêts se développent actuellement : Utilisation comme outil de sélection de variables Sparse SVM : utilisation de modèles parcimonieux pour la classification Contraintes : A priori, capable d utiliser un grand nombre de variables puisque l astuce du noyau «envoie»le problème dans l espace des individus. Plus il y a d individus dans la base de données et meilleure est la prédiction, mais plus les calculs sont longs...

Utilisations récentes Principe de l algorithme Quelques exemples d utilisation Dans tout type de problème de classification à deux classes : Classification d images : reconnaissance de visages, de chiffres manuscrits Interprétation textuelle : détection de Spam Aide au diagnostic biologique De nouveaux centres d intérêts se développent actuellement : Utilisation comme outil de sélection de variables Sparse SVM : utilisation de modèles parcimonieux pour la classification Contraintes : A priori, capable d utiliser un grand nombre de variables puisque l astuce du noyau «envoie»le problème dans l espace des individus. Plus il y a d individus dans la base de données et meilleure est la prédiction, mais plus les calculs sont longs...

Problème Problème Notion de marge On cherche à prédire Y (à valeurs dans { 1/ + 1}) en fonction de variables explicatives X 1,... X p. Chercher le modèle ˆφ ( ) tel que P ˆφ(X) Y minimale.

Problème Problème Notion de marge On cherche à prédire Y (à valeurs dans { 1/ + 1}) en fonction de variables explicatives X 1,... X p. Chercher le modèle ˆφ ( ) tel que P ˆφ(X) Y minimale.

Pénalisation Problème Notion de marge On va chercher un modèle pénalisé par sa faculté d adaptation aux données Comparer par exemple ceci avec la séparation précédente : On cherche en plus un modèle qui maximise la marge de séparation entre les classes

Pénalisation Problème Notion de marge On va chercher un modèle pénalisé par sa faculté d adaptation aux données Comparer par exemple ceci avec la séparation précédente : On cherche en plus un modèle qui maximise la marge de séparation entre les classes

Pénalisation Problème Notion de marge On va chercher un modèle pénalisé par sa faculté d adaptation aux données Comparer par exemple ceci avec la séparation précédente : On cherche en plus un modèle qui maximise la marge de séparation entre les classes

Notion de marge Problème Notion de marge Plutôt que d estimer φ comme fonction à valeurs dans { 1; 1}, on cherche f telle que φ = sgn(f ). L erreur de la méthode est alors P(φ(X) Y) = P(Yf (X) < 0) On définit alors la quantité Yf (X) comme la marge de f en (X, Y). C est un indice de confiance sur la prédiction.

Notion de marge Problème Notion de marge Plutôt que d estimer φ comme fonction à valeurs dans { 1; 1}, on cherche f telle que φ = sgn(f ). L erreur de la méthode est alors P(φ(X) Y) = P(Yf (X) < 0) On définit alors la quantité Yf (X) comme la marge de f en (X, Y). C est un indice de confiance sur la prédiction.

Notion de marge Problème Notion de marge Plutôt que d estimer φ comme fonction à valeurs dans { 1; 1}, on cherche f telle que φ = sgn(f ). L erreur de la méthode est alors P(φ(X) Y) = P(Yf (X) < 0) On définit alors la quantité Yf (X) comme la marge de f en (X, Y). C est un indice de confiance sur la prédiction.

Notion de marge Problème Notion de marge Plutôt que d estimer φ comme fonction à valeurs dans { 1; 1}, on cherche f telle que φ = sgn(f ). L erreur de la méthode est alors P(φ(X) Y) = P(Yf (X) < 0) On définit alors la quantité Yf (X) comme la marge de f en (X, Y). C est un indice de confiance sur la prédiction.

Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable Hyperplan séparateur - Mise en équation Dans le cas où la séparation est possible, on choisit celui qui obtient la marge optimale. L hyperplan a une équation de la forme : w; b + b = 0 } {{ } =f (x) où w est un vecteur orthogonal au plan Un point est bien classé si et seulement si f (x)y > 0 Le jeu de données étant fini, on peut imposer yf (x) 1 La distance entre un point x et l hyperplan est donnée par d(x, H) = w; x + b w = f (x) w

Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable Hyperplan séparateur - Mise en équation Dans le cas où la séparation est possible, on choisit celui qui obtient la marge optimale. L hyperplan a une équation de la forme : w; b + b = 0 } {{ } =f (x) où w est un vecteur orthogonal au plan Un point est bien classé si et seulement si f (x)y > 0 Le jeu de données étant fini, on peut imposer yf (x) 1 La distance entre un point x et l hyperplan est donnée par d(x, H) = w; x + b w = f (x) w

Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable Hyperplan séparateur - Mise en équation Dans le cas où la séparation est possible, on choisit celui qui obtient la marge optimale. L hyperplan a une équation de la forme : w; b + b = 0 } {{ } =f (x) où w est un vecteur orthogonal au plan Un point est bien classé si et seulement si f (x)y > 0 Le jeu de données étant fini, on peut imposer yf (x) 1 La distance entre un point x et l hyperplan est donnée par d(x, H) = w; x + b w = f (x) w

Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable Hyperplan séparateur - Mise en équation Dans le cas où la séparation est possible, on choisit celui qui obtient la marge optimale. L hyperplan a une équation de la forme : w; b + b = 0 } {{ } =f (x) où w est un vecteur orthogonal au plan Un point est bien classé si et seulement si f (x)y > 0 Le jeu de données étant fini, on peut imposer yf (x) 1 La distance entre un point x et l hyperplan est donnée par d(x, H) = w; x + b w = f (x) w

Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable Hyperplan séparateur - Mise en équation Dans le cas où la séparation est possible, on choisit celui qui obtient la marge optimale. L hyperplan a une équation de la forme : w; b + b = 0 } {{ } =f (x) où w est un vecteur orthogonal au plan Un point est bien classé si et seulement si f (x)y > 0 Le jeu de données étant fini, on peut imposer yf (x) 1 La distance entre un point x et l hyperplan est donnée par d(x, H) = w; x + b w = f (x) w

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable La recherche de l hyperplan optimal se résume alors à trouver le vecteur w à la vue de la base de données La marge devant être maximale, on cherche w à minimiser min w 1 2 w 2 sous les contraintes b i w; x i + b 1 Ce problème d optimisation est résolu par méthode «primal/dual»et la solution s écrit sous la forme n f (x) = λ i y i x; x i + b i=1 Ce qu il faut retenir : L équation ne fait intervenir au final que des produits scalaires entre x et x i La résolution est quadratique en le nombre d individus n La plupart des λ i sont nuls, sauf pour certaines observations, ces observations sont alors les «Support Vectors»

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable La recherche de l hyperplan optimal se résume alors à trouver le vecteur w à la vue de la base de données La marge devant être maximale, on cherche w à minimiser min w 1 2 w 2 sous les contraintes b i w; x i + b 1 Ce problème d optimisation est résolu par méthode «primal/dual»et la solution s écrit sous la forme n f (x) = λ i y i x; x i + b i=1 Ce qu il faut retenir : L équation ne fait intervenir au final que des produits scalaires entre x et x i La résolution est quadratique en le nombre d individus n La plupart des λ i sont nuls, sauf pour certaines observations, ces observations sont alors les «Support Vectors»

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable La recherche de l hyperplan optimal se résume alors à trouver le vecteur w à la vue de la base de données La marge devant être maximale, on cherche w à minimiser min w 1 2 w 2 sous les contraintes b i w; x i + b 1 Ce problème d optimisation est résolu par méthode «primal/dual»et la solution s écrit sous la forme n f (x) = λ i y i x; x i + b i=1 Ce qu il faut retenir : L équation ne fait intervenir au final que des produits scalaires entre x et x i La résolution est quadratique en le nombre d individus n La plupart des λ i sont nuls, sauf pour certaines observations, ces observations sont alors les «Support Vectors»

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable La recherche de l hyperplan optimal se résume alors à trouver le vecteur w à la vue de la base de données La marge devant être maximale, on cherche w à minimiser min w 1 2 w 2 sous les contraintes b i w; x i + b 1 Ce problème d optimisation est résolu par méthode «primal/dual»et la solution s écrit sous la forme n f (x) = λ i y i x; x i + b i=1 Ce qu il faut retenir : L équation ne fait intervenir au final que des produits scalaires entre x et x i La résolution est quadratique en le nombre d individus n La plupart des λ i sont nuls, sauf pour certaines observations, ces observations sont alors les «Support Vectors»

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable La recherche de l hyperplan optimal se résume alors à trouver le vecteur w à la vue de la base de données La marge devant être maximale, on cherche w à minimiser min w 1 2 w 2 sous les contraintes b i w; x i + b 1 Ce problème d optimisation est résolu par méthode «primal/dual»et la solution s écrit sous la forme n f (x) = λ i y i x; x i + b i=1 Ce qu il faut retenir : L équation ne fait intervenir au final que des produits scalaires entre x et x i La résolution est quadratique en le nombre d individus n La plupart des λ i sont nuls, sauf pour certaines observations, ces observations sont alors les «Support Vectors»

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable La recherche de l hyperplan optimal se résume alors à trouver le vecteur w à la vue de la base de données La marge devant être maximale, on cherche w à minimiser min w 1 2 w 2 sous les contraintes b i w; x i + b 1 Ce problème d optimisation est résolu par méthode «primal/dual»et la solution s écrit sous la forme n f (x) = λ i y i x; x i + b i=1 Ce qu il faut retenir : L équation ne fait intervenir au final que des produits scalaires entre x et x i La résolution est quadratique en le nombre d individus n La plupart des λ i sont nuls, sauf pour certaines observations, ces observations sont alors les «Support Vectors»

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable La recherche de l hyperplan optimal se résume alors à trouver le vecteur w à la vue de la base de données La marge devant être maximale, on cherche w à minimiser min w 1 2 w 2 sous les contraintes b i w; x i + b 1 Ce problème d optimisation est résolu par méthode «primal/dual»et la solution s écrit sous la forme n f (x) = λ i y i x; x i + b i=1 Ce qu il faut retenir : L équation ne fait intervenir au final que des produits scalaires entre x et x i La résolution est quadratique en le nombre d individus n La plupart des λ i sont nuls, sauf pour certaines observations, ces observations sont alors les «Support Vectors»

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable Lorsque les données ne sont pas séparables par un plan, on «assouplit»les contraintes par : y i f (x i ) 1 ξ i Le modèle «se trompe»dès que ξ i > 1 La somme de tous les ξ i doit être minimale pour occasionner le moins d erreur de l algorithme. Le problème d optimisation devient min w 1 2 w 2 +δ n ξ i sous les contraintes b i w; x i +b 1 i=1 δ est un paramètre à régler entre le bon ajustement et la bonne généralisation Le problème se résout sous la même forme que précédemment, les λ i sont bornés par δ Le modèle est d autant plus fiable que le nombre de Support Vectors est faible.

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable Lorsque les données ne sont pas séparables par un plan, on «assouplit»les contraintes par : y i f (x i ) 1 ξ i Le modèle «se trompe»dès que ξ i > 1 La somme de tous les ξ i doit être minimale pour occasionner le moins d erreur de l algorithme. Le problème d optimisation devient min w 1 2 w 2 +δ n ξ i sous les contraintes b i w; x i +b 1 i=1 δ est un paramètre à régler entre le bon ajustement et la bonne généralisation Le problème se résout sous la même forme que précédemment, les λ i sont bornés par δ Le modèle est d autant plus fiable que le nombre de Support Vectors est faible.

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable Lorsque les données ne sont pas séparables par un plan, on «assouplit»les contraintes par : y i f (x i ) 1 ξ i Le modèle «se trompe»dès que ξ i > 1 La somme de tous les ξ i doit être minimale pour occasionner le moins d erreur de l algorithme. Le problème d optimisation devient min w 1 2 w 2 +δ n ξ i sous les contraintes b i w; x i +b 1 i=1 δ est un paramètre à régler entre le bon ajustement et la bonne généralisation Le problème se résout sous la même forme que précédemment, les λ i sont bornés par δ Le modèle est d autant plus fiable que le nombre de Support Vectors est faible.

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable Lorsque les données ne sont pas séparables par un plan, on «assouplit»les contraintes par : y i f (x i ) 1 ξ i Le modèle «se trompe»dès que ξ i > 1 La somme de tous les ξ i doit être minimale pour occasionner le moins d erreur de l algorithme. Le problème d optimisation devient min w 1 2 w 2 +δ n ξ i sous les contraintes b i w; x i +b 1 i=1 δ est un paramètre à régler entre le bon ajustement et la bonne généralisation Le problème se résout sous la même forme que précédemment, les λ i sont bornés par δ Le modèle est d autant plus fiable que le nombre de Support Vectors est faible.

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable Lorsque les données ne sont pas séparables par un plan, on «assouplit»les contraintes par : y i f (x i ) 1 ξ i Le modèle «se trompe»dès que ξ i > 1 La somme de tous les ξ i doit être minimale pour occasionner le moins d erreur de l algorithme. Le problème d optimisation devient min w 1 2 w 2 +δ n ξ i sous les contraintes b i w; x i +b 1 i=1 δ est un paramètre à régler entre le bon ajustement et la bonne généralisation Le problème se résout sous la même forme que précédemment, les λ i sont bornés par δ Le modèle est d autant plus fiable que le nombre de Support Vectors est faible.

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable Lorsque les données ne sont pas séparables par un plan, on «assouplit»les contraintes par : y i f (x i ) 1 ξ i Le modèle «se trompe»dès que ξ i > 1 La somme de tous les ξ i doit être minimale pour occasionner le moins d erreur de l algorithme. Le problème d optimisation devient min w 1 2 w 2 +δ n ξ i sous les contraintes b i w; x i +b 1 i=1 δ est un paramètre à régler entre le bon ajustement et la bonne généralisation Le problème se résout sous la même forme que précédemment, les λ i sont bornés par δ Le modèle est d autant plus fiable que le nombre de Support Vectors est faible.

Recherche de l hyperplan optimal Hyperplan séparateur Recherche de l hyperplan optimal dans le cas séparable Recherche de l hyperplan optimal dans le cas non-séparable Lorsque les données ne sont pas séparables par un plan, on «assouplit»les contraintes par : y i f (x i ) 1 ξ i Le modèle «se trompe»dès que ξ i > 1 La somme de tous les ξ i doit être minimale pour occasionner le moins d erreur de l algorithme. Le problème d optimisation devient min w 1 2 w 2 +δ n ξ i sous les contraintes b i w; x i +b 1 i=1 δ est un paramètre à régler entre le bon ajustement et la bonne généralisation Le problème se résout sous la même forme que précédemment, les λ i sont bornés par δ Le modèle est d autant plus fiable que le nombre de Support Vectors est faible.

Illustration Utilisation de Noyaux Sortir de l espace de séparation linéaire On souhaite pouvoir discriminer les classes de points par des fonctions plus complexes que des hyperplans Voici un exemple de situation significatif : On souhaite soit discriminer par des courbes polynomiales, soit dans des espaces «plus gros»

Illustration Utilisation de Noyaux Sortir de l espace de séparation linéaire On souhaite pouvoir discriminer les classes de points par des fonctions plus complexes que des hyperplans Voici un exemple de situation significatif : On souhaite soit discriminer par des courbes polynomiales, soit dans des espaces «plus gros»

Illustration Utilisation de Noyaux Sortir de l espace de séparation linéaire On souhaite pouvoir discriminer les classes de points par des fonctions plus complexes que des hyperplans Voici un exemple de situation significatif : On souhaite soit discriminer par des courbes polynomiales, soit dans des espaces «plus gros»

Utilisation de Noyaux Illustration Utilisation de Noyaux On utilise une application Φ de R p dans H muni d un produit scalaire, et plus «gros»que R p On définit dans le même temps l application k, (kernel-noyau) qui vérifie : (x, x ) R p R p k(x, x ) = Φ(x); Φ(x ) H On sépare les données dans H en utilisant la même formulation par hyperplan linéaire (mais dans H!). Ceci ne se traduit pas forcément par une séparation linéaire dans R p! L équation de séparation, c est-à-dire la construction du modèle, s écrit en utilisant uniquement les termes k(., x i )

Utilisation de Noyaux Illustration Utilisation de Noyaux On utilise une application Φ de R p dans H muni d un produit scalaire, et plus «gros»que R p On définit dans le même temps l application k, (kernel-noyau) qui vérifie : (x, x ) R p R p k(x, x ) = Φ(x); Φ(x ) H On sépare les données dans H en utilisant la même formulation par hyperplan linéaire (mais dans H!). Ceci ne se traduit pas forcément par une séparation linéaire dans R p! L équation de séparation, c est-à-dire la construction du modèle, s écrit en utilisant uniquement les termes k(., x i )

Utilisation de Noyaux Illustration Utilisation de Noyaux On utilise une application Φ de R p dans H muni d un produit scalaire, et plus «gros»que R p On définit dans le même temps l application k, (kernel-noyau) qui vérifie : (x, x ) R p R p k(x, x ) = Φ(x); Φ(x ) H On sépare les données dans H en utilisant la même formulation par hyperplan linéaire (mais dans H!). Ceci ne se traduit pas forcément par une séparation linéaire dans R p! L équation de séparation, c est-à-dire la construction du modèle, s écrit en utilisant uniquement les termes k(., x i )

Utilisation de Noyaux Illustration Utilisation de Noyaux On utilise une application Φ de R p dans H muni d un produit scalaire, et plus «gros»que R p On définit dans le même temps l application k, (kernel-noyau) qui vérifie : (x, x ) R p R p k(x, x ) = Φ(x); Φ(x ) H On sépare les données dans H en utilisant la même formulation par hyperplan linéaire (mais dans H!). Ceci ne se traduit pas forcément par une séparation linéaire dans R p! L équation de séparation, c est-à-dire la construction du modèle, s écrit en utilisant uniquement les termes k(., x i )

Utilisation de Noyaux Illustration Utilisation de Noyaux On utilise une application Φ de R p dans H muni d un produit scalaire, et plus «gros»que R p On définit dans le même temps l application k, (kernel-noyau) qui vérifie : (x, x ) R p R p k(x, x ) = Φ(x); Φ(x ) H On sépare les données dans H en utilisant la même formulation par hyperplan linéaire (mais dans H!). Ceci ne se traduit pas forcément par une séparation linéaire dans R p! L équation de séparation, c est-à-dire la construction du modèle, s écrit en utilisant uniquement les termes k(., x i )

Exemple de noyaux Illustration Utilisation de Noyaux La fonction k(x, x ) = x; x R p correspond à un hyperplan linéaire, dans ce cas : H = R p. k(x, x ) = (c + x; x ) d cherche une séparation par courbe polynômiale de degré au plus d Le noyau Gaussien k(x, x ) = e x x 2 2σ 2 cherche une séparation par frontière radiale (Radial Basis Function) On peut choisir le «bon»noyau en utilisant une stratégie de validation croisée. En général, ce choix permet de gagner quelques pourcentages d erreur.

Exemple de noyaux Illustration Utilisation de Noyaux La fonction k(x, x ) = x; x R p correspond à un hyperplan linéaire, dans ce cas : H = R p. k(x, x ) = (c + x; x ) d cherche une séparation par courbe polynômiale de degré au plus d Le noyau Gaussien k(x, x ) = e x x 2 2σ 2 cherche une séparation par frontière radiale (Radial Basis Function) On peut choisir le «bon»noyau en utilisant une stratégie de validation croisée. En général, ce choix permet de gagner quelques pourcentages d erreur.

Exemple de noyaux Illustration Utilisation de Noyaux La fonction k(x, x ) = x; x R p correspond à un hyperplan linéaire, dans ce cas : H = R p. k(x, x ) = (c + x; x ) d cherche une séparation par courbe polynômiale de degré au plus d Le noyau Gaussien k(x, x ) = e x x 2 2σ 2 cherche une séparation par frontière radiale (Radial Basis Function) On peut choisir le «bon»noyau en utilisant une stratégie de validation croisée. En général, ce choix permet de gagner quelques pourcentages d erreur.

Exemple de noyaux Illustration Utilisation de Noyaux La fonction k(x, x ) = x; x R p correspond à un hyperplan linéaire, dans ce cas : H = R p. k(x, x ) = (c + x; x ) d cherche une séparation par courbe polynômiale de degré au plus d Le noyau Gaussien k(x, x ) = e x x 2 2σ 2 cherche une séparation par frontière radiale (Radial Basis Function) On peut choisir le «bon»noyau en utilisant une stratégie de validation croisée. En général, ce choix permet de gagner quelques pourcentages d erreur.