Un exemple. Données linéairement séparables

Documents pareils
Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Programmation linéaire

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Optimisation Discrète

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Théorie et codage de l information

Apprentissage non paramétrique en régression

Modélisation géostatistique des débits le long des cours d eau.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Chapitre 7. Récurrences

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Amphi 3: Espaces complets - Applications linéaires continues

Programmation Linéaire - Cours 1

Filtrage stochastique non linéaire par la théorie de représentation des martingales

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Capes Première épreuve

Algorithmes pour la planification de mouvements en robotique non-holonome

Programmation linéaire et Optimisation. Didier Smets

Cours d Analyse. Fonctions de plusieurs variables

aux différences est appelé équation aux différences d ordre n en forme normale.

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

3 Approximation de solutions d équations

Limites finies en un point

LES MÉTHODES DE POINT INTÉRIEUR 1

Coup de Projecteur sur les Réseaux de Neurones

Fonctions de plusieurs variables

Sujet 4: Programmation stochastique propriétés de fonction de recours

Cours d analyse numérique SMI-S4

Exercices - Polynômes : corrigé. Opérations sur les polynômes

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Programme de la classe de première année MPSI

TABLE DES MATIÈRES CHAPITRE I. Les quanta s invitent

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Résolution d équations non linéaires

I. Polynômes de Tchebychev

1/24. I passer d un problème exprimé en français à la réalisation d un. I expressions arithmétiques. I structures de contrôle (tests, boucles)

1 Complément sur la projection du nuage des individus

Calcul différentiel sur R n Première partie

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Nombres premiers. Comment reconnaître un nombre premier? Mais...

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Équations non linéaires

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Modèles bi-dimensionnels de coques linéairement élastiques: Estimations de l écart entre leurs solutions.

Programmation linéaire

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Géométrie discrète Chapitre V

Cours Fonctions de deux variables

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Système binaire. Algèbre booléenne

Exercices Corrigés Premières notions sur les espaces vectoriels

Théorème du point fixe - Théorème de l inversion locale

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Équations d amorçage d intégrales premières formelles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles


La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

La fonction exponentielle

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Les travaux doivent être remis sous forme papier.

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

La classification automatique de données quantitatives

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Continuité et dérivabilité d une fonction

Calculabilité Cours 3 : Problèmes non-calculables.

Polynômes à plusieurs variables. Résultant

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Algorithmique et structures de données I

Calcul fonctionnel holomorphe dans les algèbres de Banach

= constante et cette constante est a.

Chap 4. La fonction exponentielle Terminale S. Lemme : Si est une fonction dérivable sur R telle que : = et 0! = 1 alors ne s annule pas sur R.

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

NOTATIONS PRÉLIMINAIRES

Mesures de dépendance pour la séparation aveugle de sources. Application aux mélanges post non linéaires

ARBRES BINAIRES DE RECHERCHE

Chp. 4. Minimisation d une fonction d une variable

3. Conditionnement P (B)

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

Espérance conditionnelle

Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

Principe de symétrisation pour la construction d un test adaptatif

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Projet de Traitement du Signal Segmentation d images SAR

Identification de nouveaux membres dans des familles d'interleukines

Correction du Baccalauréat S Amérique du Nord mai 2007

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Plan du chapitre «Milieux diélectriques»

Fonctions de plusieurs variables. Sébastien Tordeux

Fonctions de plusieurs variables

C1 : Fonctions de plusieurs variables

Transcription:

Classification linéaire binaire Un exemple X R n, Y = { 1, 1} Définition. Un classifieur linéaire (ou perceptron) est une fonction de la forme 1 si hw, xi + b 0 f (x) = 1 sinon. où w 2 R n, b 2 R, et hw, xi désigne le produit scalaire entre w et x : si w =(w 1,...,w n) et x =(x 1,...,x n), hw, xi = P n w ix i. X = R 2 Classifieur linéaire défini par w =(1, 2) et b = 1: 1 si x1 + 2x f (x 1, x 2 )= 2 1 0 1 sinon. Par exemple, f (0, 0) = 1 et f (1, 1) =1. Hyperplan d équation x 1 + 2x 2 1 = 0 x2 1 0.5 0 0.5 1 0.5 0 0.5 1 1.5 2 x1 Interprétation géométrique : hw, xi + b = 0 est l équation d un hyperplan affine qui sépare X en deux demi-espaces correspondant aux deux classes. On peut toujours supposer que b = 0 en rajoutant une coordonnée, égale à 1 pour tous les exemples : f (x 1, x 2, x 3 )=1 si x 1 + 2x 2 x 3 0 et -1 sinon ; f (0, 0, 1) = 1 et f (1, 1, 1) =1 François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 2 / 16 François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 3 / 16 Expressivité des perceptrons Données linéairement séparables Les classifieurs linéaires peuvent sembler a priori très peu expressifs : pourquoi des données naturelles se répartiraient-elles de part et d autres d un hyperplan? Cette intuition n est pas forcément vérifiée en très grande dimension (cas de classification de textes, par exemple). Nous verrons par la suite que plonger les données initiales dans un espace de grande dimension au moyen d une transformation non linéaire accroît leur séparabilité. A complex pattern-classification problem, cast in a high-dimensional space nonlinearly, is more likely to be linearly separable than in a low-dimensional space, provided that the space is not densely populated. (T.M. Cover, 1965) Un échantillon S = {(x 1, y 1 ),...,(x l, y l )} (X Y ) l est linéairement séparable s il existe un classifieur linéaire qui classe correctement tous les exemples de S. Exemples : S = {((0, 0), 1), ((1, 0), 1), ((0, 1), 1)} est linéairement séparable. S = {((0, 0), 1), ((1, 0), 1), ((0, 1), 1), ((1, 1), 1)} n est pas linéairement séparable (XOR). François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 4 / 16 François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 5 / 16

Données linéairement séparables Remarques Lemme : Si des données S = S P [ S N sont linéairement séparables, on peut trouver un hyperplan séparateur tel qu aucune donnée ne soit sur la frontière de décision. Preuve: Soit (w, b) tel que 8x 2 S P, hw, xi + b 8x 2 S N, hw, xi + b < 0 et soit = min{ 0 et (hw, xi + b) x 2 S N }. Alors: 8 hw, xi + b + < 2 > 0 8 x 2 S P 2 : apple 2 < 0 8 x 2 S N Les isométries et les homothéties préservent la séparabilité. En rajoutant une dimension, on peut supposer que les hyperplans séparateurs passent par l origine : ajouter une coordonnée x n+1 = 1 à tous les exemples et poser w n+1 = b. On parlera d échantillon complété. Séparer des données linéairement séparables peut être résolu en temps polynomial par un algorithme de programmation linéaire : chaque exemple (x i, y i ) fournit une contrainte linéaire y i (hw, x i i + b) > 0. Il existe une infinité d hyperplans séparant un échantillon séparable : ils ne sont pas équivalents du point de vue de l apprentissage. Ainsi le classifieur linéaire (w, b + ) satisfait le lemme. 2 François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 6 / 16 François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 7 / 16 Algorithme d apprentissage du Perceptron (Rosenblatt, 1958) Algorithme d apprentissage du Perceptron Soit S = S P [ S N R n+1 { 1, 1} un échantillon complété linéairement séparable. Soit w le classifieur linéaire courant. Si (x, y) 2 S P est mal classé, hw, xi < 0 et il faudrait augmenter hw, xi, si (x, y) 2 S N est mal classé, hw, xi 0 et il faudrait diminuer hw, xi, Idée : prendre w new = w + xy. si y = 1, hw new, xi = hw, xi + x 2 hw, xi ; si y = 1, hw new, xi = hw, xi x 2 applehw, xi. Algorithme d apprentissage du Perceptron Entrée : S = {(x 1, y 1 ),...,(x l, y l )}, un échantillon complété linéairement séparable de R n+1 { 1, 1} w 0 = 0 2 R n+1, k = 0 Répéter Pour i = 1 à l Si y i hw k, x i iapple0 alors w k+1 = w k + y i x i k = k + 1 FinPour Jusqu à ce qu il n y ait plus d erreurs Sortie : w k François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 8 / 16 François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 9 / 16

Exercice Propriétés Utilisez l algorithme du perceptron pour séparer l échantillon {((0, 0), 1), ((0, 1), 1), ((1, 0), 1), ((1, 1), 1)}. Dessinez l hyperplan obtenu. k w k x k mal classé y k 0 000 001-1 1 0 0-1...... L algorithme du Perceptron est une procédure on-line, par correction d erreurs (error-driven). L algorithme est correct : lorsqu il converge, l hyperplan retourné sépare les données fournies en entrée L algorithme est complet : si S est linéairement séparable, l algorithme converge. Dans le pire des cas, le nombre d itérations est égal à (n + 1) 2 2 (n+1) log(n+1). Complexité exponentielle! Très mauvaise tolérance au bruit. François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 10 / 16 François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 11 / 16 Forme duale de l algorithme du perceptron Forme duale de l algorithme du perceptron Remarque : l hypothèse finale est une combinaison linéaire des exemples d apprentissage. lx w = i y i x i. Les nombres i sont positifs et égaux au nombre de fois où une mauvaise classification de x i a entraîné une mise à jour du perceptron. Ils peuvent être vus comme une représentation duale de la solution :! lx f (x) =sgn(hw, xi + b) =sgn i y i hx i, xi + b. entrée : S = {(x 1, y 1 ),...,(x l, y l )}, un échantillon complété linéairement séparable = 0 2 R l répéter Pour i = 1 à l Si y i ( P l j=1 jy j hx j, x i i) apple 0 alors i = i + 1 FinSi FinPour Jusqu à ce qu il n y ait plus d erreurs Sortie : François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 12 / 16 François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 13 / 16

Exercice Propriétés de l algorithme dual Utilisez l algorithme du perceptron pour séparer l échantillon {((0, 0), 1), ((0, 1), 1), ((1, 0), 1), ((1, 1), 1)}. Dessinez l hyperplan obtenu. k k x k mal classé y k 0 0000 001-1 1 1000...... dans la représentation duale, le nombre de paramètres de la solution ne dépend pas de la dimension de l espace dans lequel les x i sont plongés, les exemples d apprentissage ne sont pris en compte par l algorithme que par l intermédiaire de leurs produits scalaires. On appelle Matrice de Gram la matrice G =(hx i, x j i) 1applei,japplel : elle suffit à trouver une solution. François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 14 / 16 François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 15 / 16 Plongements non linéaires Séparation linéaire après plongement non linéaire Soit S = {(0, 0), 1;(0, 1), 1;(1, 0), 1;(1, 1), 1}. On considère le plongement de R 2 dans R 3 défini par (x (1), x (2) )=(x (1), x (2), x (1) x (2) ). S = {( (x), y) (x, y) 2 S} = {(0, 0, 0), 1;(1, 0, 0), 1;(0, 1, 0), 1;(1, 1, 1), 1}. S = {(0, 0, 0, 1), 1;(1, 0, 0, 1), 1;(0, 1, 0, 1), 1;(1, 1, 1, 1), 1}. ce qui conduit k w k x k mal classé y k 0 0000 0001-1 1 0 0 0-1 1001 1 2 1000 1111-1 3 0-1 -1-1 1001 1 17 1 1-3 -1 au plan séparateur d équation x (1) + x (2) 3x (3) 1 = 0 dans R 3 et à la courbe séparatrice d équation x (1) + x (2) 3x (1) x (2) 1 = 0 dans R 2. François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 16 / 16 François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 17 / 16

Séparation linéaire après plongement non linéaire (suite) On considère un plongement Matrice de Gram de S : de R 2 dans H, espace muni d un produit scalaire, vérifiant h (x), (y)i H = 1 + x (1) y (1) + x (2) y (2) + x (1) y (1) x (2) y (2). 0 B (h (x i ), (x j )i H ) 1applei,japple S = @ 1 1 1 1 1 2 1 2 1 1 2 2 1 2 2 4 Algorithme dual du perceptron k n k (x k ) mal classé y k 0 0000 x 1-1 1 1000 x 2 1 2 1100 x 4-1 3 1101 x 2 1 17 6443 4X f (x) =sgn( n i y i h (x i ), (x)i H ) = sgn( 6 + 4(1 + x (1) )+4(1 + x (2) ) 3(1 + x (1) + x (2) + x (1) x (2) )) = sgn( 1 + x (1) + x (2) 3x (1) x (2) ) François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 18 / 16 1 C A Kernel trick On appelle noyau toute fonction k : X X! R qui peut être interprétée comme un produit scalaire dans un plongement : k(x, y) =h (x), Tout algorithme d apprentissage qui n utilise que les produits scalaires des données (matrice de Gram) peut être kernelisé. Le perceptron à noyau est un classifieur qui est f : x 7! signe( (y)i lx i y i k(x, x i )) linéaire dans l espace de plongement (avec toutes les garanties associées) et non linéaire dans l espace initial. François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 19 / 16 Perceptron à noyau Exemples de noyaux : Noyau polynomial homogène entrée : S = {(x 1, y 1 ),...,(x l, y l )}, un échantillon complété = 0 2 R l répéter Pour i = 1 à l Si y i ( P l j=1 jy j k(x j, x i )) apple 0 alors i = i + 1 FinSi FinPour Jusqu à ce qu il n y ait plus d erreurs Sortie : x 7! signe( P i iy i k(x, x i )) Noyau polynomial Noyau gaussien : X = R n, k(x, y) = X = R n, k(x, y) = 1 +! d nx x i y i! d nx x i y i. x y 2 k(x, y) =exp La dimension de l espace de plongement est finie pour les noyaux polynomiaux et infini (espace de Hilbert) pour le noyau gaussien... mais le plongement est virtuel. 2 2 François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 20 / 16 François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 21 / 16

Caractérisation des noyaux Séparation linéaire après plongement non linéaire (suite) Théorème : une fonction k : X X! R est un noyau ssi pour tout m-uplet x 1,...,x m d éléments de X, la matrice de Gram k(x i, x j ) 1applei,japplem est définie positive, c est-à-dire que pour tous réels c 1,...,c m, X c i c j k(x i, x j ) 0. i,j A retenir : on sait (théoriquement) caractériser les fonctions noyaux et déterminer un plongement correspondant. Sur l exemple précédent, on considère le noyau Gaussien x y 2 k(x, y) =exp 2 2. Matrice de Gram de S : 0 B (h (x i ), (x j )i H ) 1applei,japple S = @ à noyau : n =[1, 1, 1, 1] convergence en 4 étapes chaque exemple a été mal classé une et une seule fois ce qui conduit au classifieur 1.00 0.61 0.61 0.37 0.61 1.00 0.37 0.61 0.61 0.37 1.00 0.61 0.37 0.61 0.61 1.00 1 C A f (x) =sg( e x 2 /2 + e ((x(1) 1) 2 +(x (2) ) 2 )/2 + e ((x(2) 1) 2 +(x (1) ) 2 )/2 e ((x(1) 1) 2 +(x (2) 1) 2 )/2 ) François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 22 / 16 François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 23 / 16 Exercice Soit et S = {( 1, 0), 1;(0, 1), 1;(1, 0), 1;(0, 0), 1} k(x, y) =1 + x (1) y (1) + x (2) y (2) +(x (1) y (1) ) 2. 1 Dessinez S, 2 Appliquez le perceptron à noyau à ce jeu de données, 3 Dessinez la courbe séparatrice dans l espace initial. François Denis, Hachem Kadri, Cécile Capponi ( LaboratoireIntroduction d Informatique à l apprentissage Fondamentale automatique de Marseille Université d Aix-Marseille) February 3, 2017 24 / 16