Apprentissage de Classifieurs à Noyau sur des Données Bruitées

Documents pareils
Echantillonnage Non uniforme

Application de K-means à la définition du nombre de VM optimal dans un cloud

VISUALISATION DE NUAGES DE POINTS

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Simulation de variables aléatoires

Programmation linéaire

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Resolution limit in community detection

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

L ordinateur quantique (suite)

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

4.2 Unités d enseignement du M1

Cours de Master Recherche

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Liste de conférences et revues Thème Com A

= constante et cette constante est a.

T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Calcul des indicateurs de sonie : revue des algorithmes et implémentation

Quantification Scalaire et Prédictive

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Laboratoire 4 Développement d un système intelligent

Efficient Object Versioning for Object- Oriented Languages From Model to Language Integration

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

La nouvelle planification de l échantillonnage

Laboratoire d Automatique et Productique Université de Batna, Algérie

Corrigé des TD 1 à 5

Apprentissage Statistique

Soutenance de stage Laboratoire des Signaux et Systèmes

Rupture et plasticité

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Anthropologue, ethnologue, géographe, historien de l'art, ingénieur, informaticiens, mathématicien, pédagogue, sociologue, Étudiants en tourisme

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Ordonnancement sous contraintes de Qualité de Service dans les Clouds

Apprentissage statistique dans les graphes et les réseaux sociaux

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Propriétés des options sur actions

Aide à l exécution de la norme SIA 181:2006 révisée Protection contre le bruit dans le bâtiment

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Modélisation du comportement habituel de la personne en smarthome

Approche d'évaluation pour les problèmes d'ordonnancement multicritères : Méthode d'agrégation avec direction de recherche dynamique

Modélisation prédictive et incertitudes. P. Pernot. Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Coup de Projecteur sur les Réseaux de Neurones


La cryptographie du futur

FROM FlNDlNG MAXIMUM FEASIBLE SUBSYSTEMS OF LINEAR SYSTEMS TO FEEDFORWARD NEURAL NETWORK DESIGN

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

FIMA, 7 juillet 2005

Analyse des Systèmes Asservis

Développements algorithmiques au LIAMA et àamap en vue de l'analyse d'une scène forestière

Métriques de performance pour les algorithmes et programmes parallèles

CURRICULUM VITAE. Informations Personnelles

Amphi 3: Espaces complets - Applications linéaires continues

Chp. 4. Minimisation d une fonction d une variable

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Contrôle stochastique d allocation de ressources dans le «cloud computing»

CORRECTION EXERCICES ALGORITHME 1

Factorisation d entiers (première partie)

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette


Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Algorithmes pour la planification de mouvements en robotique non-holonome

Sécurisation du stockage de données sur le Cloud Michel Kheirallah

Fig.1. Structure d un AGQ

Réplication adaptative sur les réseaux P2P

Apprentissage non paramétrique en régression

Le modèle de Black et Scholes

Saisie des chauffe-eau thermodynamiques à compression électrique

Mesure et modélisation de l énergie logicielle

Etude comparative de différents motifs utilisés pour le lancé de rayon

choisir H 1 quand H 0 est vraie - fausse alarme

Moments des variables aléatoires réelles

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Cours 7 : Utilisation de modules sous python

Composants génériques de calcul scientifique

DEMANDE D INFORMATION RFI (Request for information)

Calcul différentiel. Chapitre Différentiabilité

Géométrie Algorithmique Plan du cours

Organigramme / Algorigramme Dossier élève 1 SI

Couplage efficace entre Optimisation et Simulation stochastique Application à la maintenance optimale d une constellation de satellites

Variables Aléatoires. Chapitre 2

Jean-Nicolas Piotrowski, Dirigeant Fondateur d ITrust

Chronogrammes et contraintes. à la modélisation de systèmes dynamiques à événements

Principe de symétrisation pour la construction d un test adaptatif

Détection d intrusions dans un environnement collaboratif sécurisé

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Continuité et dérivabilité d une fonction

pythonocc: une plateforme de développement agile d applications CAO.

NON-LINEARITE ET RESEAUX NEURONAUX

Famille multirésidence : recensement et sources alternatives

Modélisation 3D par le modèle de turbulence k-ε standard de la position de la tête sur la force de résistance rencontrée par les nageurs.

Transcription:

Apprentissage de Classifieurs à Noyau sur des Données Bruitées Guillaume Stempfel Encadré par: Liva Ralaivola Laboratoire d Informatique Fondamentale de Marseille 21 février 2007

Introduction Apprentissage automatique Plusieurs déclinaisons : classification supervisée, régression, estimation de densité... Applications pratiques : catégorisation de textes, reconnaissance de chiffres manuscrits... Types de problèmes Classification de données linéairement séparables : problème simple Classification de données bruitées : problème NP-dur Algorithmes existants : Classifieurs linéaires tolérants au bruit de classification uniforme Et pour les données non linéairement séparables? Algorithme RP-learn

Sommaire

Classification supervisée Contexte Exemples tirés dans un espace X étiquetés dans un ensemble fini de classes Y = { 1, 1} selon une distribution D inconnue Espace Des Descriptions X Espace Des Etiquettes Y 000 111 000 111 000 111 000 111 000 111 Objectif : produire un classifieur possédant de bonnes capacités de généralisation Minimisation du risque empirique à condition de maîtriser la complexité de la classe de concepts Séparateur linéaire f : f(x) = signe(w x)

Algorithme du perceptron [Ros58] Caractéristiques Algorithme Résolution de problèmes linéaires Algorithme itératif glouton Complexité en temps polynomiale [MP69] mais...... dépendante de la marge γ ENTRÉES: S = {(x 1, y 1 )... (x m, y m)} SORTIES: un classifieur linéaire w γ = min x D w x w w = 0 tantque il existe un exemple x i S mal classé faire x w w + y i i x i fin tantque Retourner w

Algorithme du perceptron [Ros58] (2) Illustration 00000 11111 01 0000000 1111111 01 0000000 1111111 0000000 1111111 w w 0000000 1111111 00 11 00 11 000000 111111 0000000 1111111 000000 111111 0000000 1111111 000000 111111 000000 111111 γ γ Positifs Négatifs

Bruit de classification Types de bruits Attributs erronés Attributs manquants Etiquettes erronées... Bruit de classification uniforme Bruit de classification uniforme η < 1 2 Pour un exemple (x, y), on observe l exemple (x, y η ) tel que { y η y avec probabilité 1 η = y avec probabilité η Algorithme du perceptron inutilisable sur un problème bruité

Bruit de classification (2) Illustration 00 11 00 11 00 11 00 11 00 11 00 11 01 01 01 01 01 01 Positifs Négatifs

Cadre PAC [Val84], [AL88] Idée Probablement approximativement correct Caractériser les classes de concepts apprenables et les algorithmes associés Caractéristiques Paramètre de confiance δ, précision ε Production, avec une probabilité 1 δ, d un classifieur qui fait une erreur d au plus ε Complexités d échantillonnage et en temps polynomiales en fonction de n, 1 ε, 1 δ et 1 1 2η

Sommaire

Travaux connexes Algorithme du perceptron inutilisable sur un problème bruité Travaux sur les séparateurs linéaires LTF-noise [Byl94],[Byl98] Mises à jour effectuées avec une moyenne pondérée des exemples mal classés et de l ensemble des exemples Tolérant au bruit Perceptron modifié / Outlier Removal [BFKV96] [Coh97] Tolérant au bruit Complexités dépendant logarithmiquement de la marge Algorithmes "lourds" Rescaling [DV04] Basé sur une transformation de l espace Complexités dépendant logarithmiquement de la marge mais pas de tolérance au bruit

Données non linéairement séparables Kernel Trick Utilisation d algorithmes linéaires sur des données non linéairement séparables Plongement des données dans un espace de dimension potentiellement infinie où elles sont linéairement séparables Apprentissage dans l espace de plongement reste possible en contrôlant la marge Noyaux de Mercer Application k : X X R Espace de Hilbert associé H et fonction de plongement Φ telle que (u, v) X 2, k(u, v) = Φ(u), Φ(v)

Données non linéairement séparables Kernel Trick Utilisation d algorithmes linéaires sur des données non linéairement séparables Plongement des données dans un espace de dimension potentiellement infinie où elles sont linéairement séparables Apprentissage dans l espace de plongement reste possible en contrôlant la marge Plongement des données (0,1) 00 11 00 11 (1,1) 01 01 (1,1,1) (0,1,0) (0,0) 01 01 (1,0) 00 11 01 00 11 (0,0,0) (1,0,0)

Sommaire

Projection aléatoire Motivation LTF-noise, peceptron modifié et rescaling ne peuvent être utilisés que dans un espace de dimension finie

Projection aléatoire Projection aléatoire Projection d une distribution dans un espace aléatoire de dimension d( 1 γ, ln ( 1 εδ) ) finie Avec une probabilité 1 δ, la distribution est séparable avec une erreur ε Application Pour un échantillon S de taille m, S est séparable avec une probabilité (1 δ)(1 mε) Echantillon séparable pour l apprentissage Distribution approximativement séparable avec une erreur arbitrairement petite Généralisation possible sur une fraction (1 ε) de la distribution

Projection aléatoire + 0000000 1111111 00000000000 11111111111 0000000000000 1111111111111 0000000000000000 1111111111111111 0000000000 00000000000000 11111111111111 1111111111 000000000 111111111 0000000000 1111111111 γ 000000000000 111111111111 0000000000000 1111111111111 000000000000000 111111111111111 0000000000000000 1111111111111111 00000000000000000 11111111111111111 0000000000000000 1111111111111111 0000000000000 1111111111111 00000000 11111111 0000 1111 Echantillon Ex. Positifs Ex. Négatifs Distribution Application Pour un échantillon S de taille m, S est séparable avec une probabilité (1 δ)(1 mε) Echantillon séparable pour l apprentissage Distribution approximativement séparable avec une erreur arbitrairement petite Généralisation possible sur une fraction (1 ε) de la distribution

Projection aléatoire + 0000000 1111111 00000000000 11111111111 0000000000000 1111111111111 0000000000000000 1111111111111111 0000000000 00000000000000 11111111111111 1111111111 000000000 111111111 0000000000 1111111111 γ 000000000000 111111111111 0000000000000 1111111111111 000000000000000 111111111111111 0000000000000000 1111111111111111 00000000000000000 11111111111111111 0000000000000000 1111111111111111 0000000000000 1111111111111 00000000 11111111 0000 1111 Echantillon Ex. Positifs Ex. Négatifs Distribution Projections multiples Génération d un tel espace pour tout δ, ε Projection dans un espace de dimension d 1 d 1 ( 1 γ 2, ln m ε ) Génération de t(ln δ, ln m ε, d 1) espaces de projection Pour tout échantillon S de taille m, avec une probabilité 1 δ, au moins un des t espaces est satisfaisant

Apprendre sur les données projetées Apprentissage Algorithme d apprentissage utilisé : LTF-noise [Byl98] Borne maximale sur la dimension d 2 d 2 (m, 1 γ 2, 1 ε, 1 δ ) Dimension d doit convenir à la fois pour la projection (borne minimale d 1 ) et l apprentissage (borne maximale d 2 ) Possible si borne minimale sur m Apprentissage sur les données projetées dans les t espaces de projection

Sélection d un classifieur convenable Sélection du classifieur Utilisation d un ensemble de test Evaluation du risque empirique de chaque classifieur Nombre d exemples suffisant pour une approximation assez précise du risque réel Choix du classifieur qui fait le moins d erreurs

Algorithme RP-learn(δ,ε,η) ENTRÉES: Distribution D, m = m(ε, δ, η), m 2 = m 2 (ε, δ, η), S = {(x 1, y 1 )... (x m, y m)} et S 2 = {(p 1, q 1 )... (p m2, q m2 )} tirés selon D SORTIES: un classifieur linéaire w et un ensemble de d = d(ε, δ, η) vecteurs (v 1... v d ) Choisir une dimension d espace de projection d Déterminer le nombre t = t(ε, δ, η) d espaces de projection à générer boucler Générer d vecteurs (v i 1... v i d) selon D Projeter les exemples de S dans vect v i 1... v i d Trouver un séparateur linéaire w i avec LTF-Noise fin boucle Sélectionner le meilleur couple ((v i 1... v i d), w i ) généré en testant sur S 2

Sommaire

Double cercle Taux de bruit η = 0.30 Ensemble d apprentissage 10 Ensemble d apprentissage bruite 5 5 0 0-5 -5-10 -10-5 0 5-10 -5 0 5

Double cercle Taux de bruit η = 0.30 Ensemble d apprentissage Ensemble de test 5 5 0 0-5 -5-10 -10-5 0 5-10 -10-5 0 5

Anneau Taux de bruit η = 0.30 Ensemble d apprentissage 10 Ensemble d apprentissage bruite 5 5 0 0-5 -5-10 -10-5 0 5-10 -5 0 5 10

Anneau Taux de bruit η = 0.30 Ensemble d apprentissage Ensemble de test 5 5 0 0-5 -5-10 -10-5 0 5-10 -10-5 0 5

Sommaire

Conclusion En théorie RP-learn est un algorithme PAC Séparation de données non linéairement séparables Complexités élevées en échantillonnage et en temps En pratique Bons résultats avec des espaces de projection de tailles raisonnables Tolérance au bruit satisfaisante même avec un échantillon de taille réduite

Ouvertures Perspectives Choix d un noyau adapté au problème Dimension de l espace dépendante de la marge Estimation du taux de bruit Autres types de bruit Recherche d un séparateur optimal : kernel-adatron [FCC98]

D. Angluin and P. Laird. Learning from Noisy Examples. Machine Learning, 2, 1988. A. Blum, A. M. Frieze, R. Kannan, and S. Vempala. A Polynomial-Time Algorithm for Learning Noisy Linear Threshold Functions. In Proc. of 37th IEEE Symposium on Foundations of Computer Science, pages 330 338, 1996. T. Bylander. Learning Linear Threshold Functions in the Presence of Classification Noise. In Proc. of 7th Annual Workshop on Computational Learning Theory, pages 340 347. ACM Press, New York, NY, 1994, 1994. T. Bylander. Learning Noisy Linear Threshold Functions. 1998. E. Cohen. Learning Noisy Perceptrons by a Perceptron in Polynomial Time.

In Proc. of 38th IEEE Symposium on Foundations of Computer Science, pages 514 523, 1997. J. Dunagan and S. Vempala. Polynomial-time rescaling algorithm for solving linear programs. In Proc. of the ACM Symposium on Theory of Computing (STOC), 2004. T. Friess, N. Cristianini, and N. Campbell. The Kernel-Adatron Algorithm : a Fast and Simple Learning Procedure for Support Vector Machines. In J. Shavlik, editor, Machine Learning : Proc. of the 15 th Int. Conf. Morgan Kaufmann Publishers, 1998. M. Minsky and S. Papert. Perceptrons : an Introduction to Computational Geometry. MIT Press, 1969. F. Rosenblatt. The Perceptron : A probabilistic model for information storage and organization in the brain. 65 :386 407, 1958. L. Valiant.

A theory of the learnable. Communications of the ACM, 27 :1134 1142, 1984.