Prototypes et k plus proches voisins (kppv (knn))

Documents pareils
INF6304 Interfaces Intelligentes

La classification automatique de données quantitatives

Introduction au Data-Mining

Introduction au Data-Mining

VIPE CNAM 6 mars Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF

Correction du baccalauréat ES/L Métropole 20 juin 2014

FORD C-MAX + FORD GRAND C-MAX CMAX_Main_Cover_2013_V3.indd /08/ :12

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Processus aléatoires avec application en finance

L apprentissage automatique

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

TSTI 2D CH X : Exemples de lois à densité 1

Chaînes de Markov au lycée

Coup de Projecteur sur les Réseaux de Neurones

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Limitations of the Playstation 3 for High Performance Cluster Computing

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

La nouvelle planification de l échantillonnage

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités sur un univers fini

5. Apprentissage pour le filtrage collaboratif

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Théorie et codage de l information

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

L enseignement de méthodes agiles dans un contexte d apprentissage actif

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Les nombres entiers. Durée suggérée: 3 semaines

Introduction au datamining

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Apprentissage Automatique

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Pourquoi l apprentissage?

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Coefficients binomiaux

Mesure agnostique de la qualité des images.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LES GENERATEURS DE NOMBRES ALEATOIRES

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution

Texte Agrégation limitée par diffusion interne

Chp. 4. Minimisation d une fonction d une variable

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

CNAM léments de cours Bonus-malus et Crédibilité

Résolution d équations non linéaires

LA METHODE DU COUT CIBLE (TARGET COSTING)

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Simulation de variables aléatoires

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

Méthodes de Simulation

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Intégration de la dimension sémantique dans les réseaux sociaux

Les algorithmes de base du graphisme

Jean-Philippe Préaux

Exercices sur le chapitre «Probabilités»

Probabilités. Une urne contient 3 billes vertes et 5 billes rouges toutes indiscernables au toucher.

Agrégation des portefeuilles de contrats d assurance vie

Jeux mathématiques en maternelle. Activités clés. Jeu des maisons et des jardins (Yvette Denny PEMF)

Ressources pour le lycée général et technologique

3 Approximation de solutions d équations


DEVELOPPEMENT ET MAINTENANCE DE LOGICIEL: OUTIL DE PILOTAGE

Chapitre 5 : Flot maximal dans un graphe

Object Removal by Exemplar-Based Inpainting

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Détection des deux roues motorisés par télémétrie laser à balayage

ANALYSE STATISTIQUE PRÉDICTIVE

Chapitre 7. Récurrences

Probabilités Loi binomiale Exercices corrigés

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Temps forts départementaux. Le calcul au cycle 2 Technique opératoire La soustraction

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

Programmation linéaire

Architecture des Systèmes d Information Architecture des Systèmes d Information

Amphi 3: Espaces complets - Applications linéaires continues

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Exercice : la frontière des portefeuilles optimaux sans actif certain

Les algorithmes de fouille de données

Propriété intellectuelle : comment valoriser son activité?

Laboratoire d Automatique et Productique Université de Batna, Algérie

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Probabilités conditionnelles Loi binomiale

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Apprentissage statistique dans les graphes et les réseaux sociaux

Feuille d exercices 2 : Espaces probabilisés

Programmes des classes préparatoires aux Grandes Ecoles

Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.

Transcription:

Prototypes et k plus proches voisins (kppv (knn)) Université Grenoble 1 - Lab. Informatique Grenbole / MRIM

Learning Vector Quantization (1) Algorithme en ligne (on-line) dans lequel des prototypes sont placés statégiquement par rapport aux frontières de classes. L idée sous-jacente (due à Kohonen (1989)) est que les exemples d apprentissage attirent et repoussent les prototypes des mêmes classes et des classes différentes.

Learning Vector Quantization (2) Algorithme - LVQ1 1. Choisir r prototypes initiaux par classe (m 1 (k),,m r (k),1 k K)) 2. Tirer au hasard, avec replacement, un exemple d apprentissage (x (i),y (i) ); soit m j (k) le prototype le plus proche de x (i) : Si y (i) = k, rapprocher le prototype vers l exemple : m j (k) m j (k) + ǫ(x (i) m j (k)) Sinon, éloigner le prototype de l exemple : m j (k) m j (k) ǫ(x (i) m j (k)) 3. Répéter l étape 2 en faisant décroître ǫ vers 0 Démontrer qu on rapproche (resp. éloigne) bien les prototypes

Learning Vector Quantization (3) La mise à jour des prototypes dépend de l exemple considéré. Le tirage aléatoire avec replacement (comment le coder?) permet d avoir une version stable de l algorithme. Il n y a pas de fonctions objectifs optimisée dans le cadre de LVQ. Ceci pose problème car on n a pas de cadre théorique pour étudier le comportement de l algorithme. Distinction entre modélisation de la classe et modélisation de la frontière entre classes. LVQ se situe plutôt dans la deuxième lignée, avec toutefois une certaine généralisation.

Learning Vector Quantization (4) Illustration On considère le jeu de données suivant : N o exple valeur att. 1 (x 1 ) valeur att. 2 (x 2 ) classe 1 3 3-2 4 3.8-3 5 3-4 6 3.5-5 3 4 + 6 4 4.2 + 7 4 6 + 8 6 5 + On choisit les exemples 2 et 6 comme prototypes initiaux des classes e + (r = 1). ǫ = 0.5) et est divisé par 2 à chaque itération. Dérouler les premières étapes de l algorithme.

Les k plus proches voisins (kppv) (1) L idée sous-jacente est de faire reposer la classification d un exemple sur la base de la classification des exemples proches, ce qui permet une modélisation fine de la frontière entre classes (parfois trop fine) - Illustration au tableau. C est une approche dite memory-based, ou fondée sur la mémoire. On parle aussi de lazy learning, c est-à-dire d apprentissage paresseux car il n y a pas d apprentissage proprement dit : les exemples d apprentissage sont simplement stockés et réutilisés lors de la classification.

Les k plus proches voisins (kppv) (2) Algorithme standard Soit un objet x à classer. 1. Déterminer N k (x), l ensemble des k plus proches voisins de x 2. Choisir la classe de x sur la base d un vote majoritaire dans N k (x) Exemple Données précédentes : k = 3, x T = (5,3.5) Quelle est la classe de x? Dessiner la frontière entre classes pour k = 1

Les k plus proches voisins (kppv) (3) Améliorations Le vote majoritaire est parfois remplacé par un vote majoritaire pondéré par la distance (ou similarité) entre exemples/objets/éléments. Il est possible d apprendre (malgré tout) certains éléments : Seuil sur chaque classe - on utilise Nk c (x), ensemble des voisins de x dans la classe c et la distance (ou similarité) obtenue sur Nk c(x) Métrique complète (exemple avec la distance de Mahalanobis)

Les k plus proches voisins (kppv) (4) Implantation dans le cas de matrices creuses Utilisation du fichier (ou de la table) inverse Illustration au tableau

Les k plus proches voisins (kppv) (4) La malédiction des grandes dimensions (Curse of dimensionality) On suppose que l on dispose uniformément des points dans un hypercube de côté 1 d un espace vectoriel de dimension p de façon à ce que, pour chaque point, il existe un voisin situé à une distance de 10 1. Combien faut-il de points pour réaliser cela dans un esapce vectoriel de dimension 1, 2, p?

Les k plus proches voisins (kppv) (4) La malédiction des grandes dimensions (Curse of dimensionality) De manière générale, dans un espace vectoriel de grande dimension, la distance entre un point donné x et son point le plus proche dans un ensemble d apprentissage est comparable (proche) de celle entre x et son point le plus éloigné dans l ensemble d apprentissage (malédiction des grandes dimensions). En pratique, il n est pas certain que nous soyons frappé par cette malédiction! Les techniques de réduction de dimension et de sélection d attributs permettent de s en affranchir.