Apprentissage actif pour le clustering semi-supervisé



Documents pareils
Application de K-means à la définition du nombre de VM optimal dans un cloud

Apprentissage statistique dans les graphes et les réseaux sociaux

Clustering par optimisation de la modularité pour trajectoires d objets mobiles

La classification automatique de données quantitatives

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Big Data et Graphes : Quelques pistes de recherche

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Big Data et Graphes : Quelques pistes de recherche

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Vers une Optimisation de l Algorithme AntTreeStoch

Laboratoire 4 Développement d un système intelligent

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Résumé hybride de flux de données par échantillonnage et classification automatique

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Analyse des variations entre partitions générées par différentes techniques de classification automatique de textes

Apprentissage symbolique et statistique à l ère du mariage pour tous

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Contrôle stochastique d allocation de ressources dans le «cloud computing»

VISUALISATION DE NUAGES DE POINTS

MCMC et approximations en champ moyen pour les modèles de Markov

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Fig.1. Structure d un AGQ

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Une méthode d apprentissage pour la composition de services web

Laboratoire d Automatique et Productique Université de Batna, Algérie

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Modélisation du comportement habituel de la personne en smarthome

Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Propriétés du Document EMA. Résumé

Introduction au Data-Mining

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Introduction au Data-Mining

R-ICP : une nouvelle approche d appariement 3D orientée régions pour la reconnaissance faciale

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

RI sociale : intégration de propriétés sociales dans un modèle de recherche

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Détection d utilisateurs malveillants dans les réseaux sociaux

Développements algorithmiques au LIAMA et àamap en vue de l'analyse d'une scène forestière

Classification non supervisée

Projet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale

DATAMINING C4.5 - DBSCAN

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Etude comparative de différents motifs utilisés pour le lancé de rayon

Equilibrage de charge (Load

Cours de Master Recherche

Sélection de Caractéristiques pour le Filtrage de Spams


Intégration de la dimension sémantique dans les réseaux sociaux

Equilibrage de charge pour les grilles de calcul : classe des tâches dépendantes et indépendantes.

2 Serveurs OLAP et introduction au Data Mining

Echantillonnage Non uniforme

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Étude de données multisources par simulation de capteurs et clustering collaboratif

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

ORDONNANCEMENT DES RÉSULTATS SUR LES MOTEURS DE RECHERCHE : PRINCIPES, LIMITES ET APPLICATIONS AU GÉORÉFÉRENCEMENT

Francis BISSON ( ) Kenny CÔTÉ ( ) Pierre-Luc ROGER ( ) IFT702 Planification en intelligence artificielle

Ré-ordonnancement adaptatif de messages dans un réseau ad hoc de véhicules

THESE DE DOCTORAT. Informatique, Fouille de données

Atelier CluCo : Clustering et Co-clustering. Organisateurs : Vincent Lemaire (Orange Labs), Pascal Cuxac (CNRS-inist), Jean-Charles Lamirel (Loria)

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Classification Automatique de messages : une approche hybride

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Réglage de la largeur d'une fenêtre de Parzen dans le cadre d'un apprentissage actif : une évaluation

1 - PRESENTATION GENERALE...

Spécificités, Applications et Outils

APPROCHE DE LA SURVEILLANCE DES SYSTEMES PAR RESEAUX DE PETRI SYNCHRONISES FLOUS

Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck)

Agrégation des portefeuilles de contrats d assurance vie

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Les datas = le fuel du 21ième sicècle

Pourquoi l apprentissage?

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

Apprentissage Automatique

Curriculum Vitae - Emmanuel Hebrard. Emmanuel Hebrard

Introduction au datamining

Hervé Couturier EVP, SAP Technology Development

Application de K-Means à la définition du nombre de VM optimal dans un Cloud

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Un système multi-agents sensible au contexte pour les environments d intelligence ambiante

Agrégation de traces d exécution pour la visualisation de grands systèmes distribués

Principe de symétrisation pour la construction d un test adaptatif

Etude d Algorithmes Parallèles de Data Mining

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

RLBS: Une stratégie de retour arrière adaptative basée sur l apprentissage par renforcement pour l optimisation combinatoire

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Modélisation d objets mobiles dans un entrepôt de données

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Transcription:

Apprentissage actif pour le clustering semi-supervisé Nicolas Labroche Sorbonne Universités, UPMC Univ Paris 06 CNRS, UMR 7606, LIP6 F-75005, Paris, France Atelier Clustering and Co-clustering (CluCo), EGC 2014 N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 1 / 63

Plan de la présentation 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 2 / 63

Plan de la présentation 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 2 / 63

Plan de la présentation 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 2 / 63

Plan de la présentation 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 2 / 63

Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 3 / 63

Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 4 / 63

Clustering Découvrir les groupes / structures / formes dans un ensemble de données non étiquetées D = {x i } 1 i n But : trouver la meilleure partition P = {C 1 C 2... C k } au sens d une fonction objectif en fonction d une métrique : distance, (dis)similarité Groupes compacts Groupes denses N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 5 / 63

Diversité des méthodes de clustering De très nombreux algorithmes [Jain, 2010] : Centres mobiles K-Means [MacQueen, 1967], FCM [Bezdek, 1981] Hiérarchiques CAH [Sneath and Sokal, 1973], BIRCH [Zhang et al., 1996] Modèles EM [Dempster et al., 1977] Densité DBSCAN [Ester et al., 1996], OPTICS [Ankerst et al., 1999] DENCLUE [Hinneburg and Keim, 1998] Flux de données Clustream [Aggarwal et al., 2003], DenStream [Cao et al., 2006] Clustree [Philipp Kranen and Seidl, 2011], SimpleTS [Angelov, 2011] Co-clustering...... mais qui possèdent certaines limitations! N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 6 / 63

Limite des algorithmes de clustering Sensibilité à l initialisation (K-Means... ) Choix d une métrique (normes L1, L2, Mahalanobis... ) Lenteur / qualité de la convergence Adéquation entre la partition produite et la partition souhaitée comment transférer la connaissance du domaine? Solution : Intégration de contraintes aux algorithmes non supervisés apprentissage semi-supervisé N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 7 / 63

Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 8 / 63

Apprentissage semi-supervisé Considérer à la fois des données étiquetées et non étiquetées Classification semi-supervisée : semi-supervised learning ajout de données non étiquetées pour améliorer la capacité des classifieurs [Davidson and Basu, 2005] amélioration de l apprentissage de la frontière de décision avec des données non étiquetées N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 9 / 63

Clustering semi-supervisé Contraintes au niveau des instances [Wagstaff and Cardie, 2000] : étiquettes d appartenance à un cluster contraintes must-link : ML(xi, x j ) x i et x j dans le même cluster contraintes cannot-link : CL(x i, x j ) x i et x j dans deux clusters différents N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 10 / 63

Clustering semi-supervisé Contraintes au niveau des clusters : Contraintes δ : séparabilité minimale entre 2 clusters p, q P, x i p, x j q, D(x i, x j ) δ Contraintes ɛ : compacité minimale de chaque cluster p P, p > 1, x i p, x j p D(x i, x j ) ɛ N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 11 / 63

Approches pour le clustering semi-supervisé Modification directe du processus de partitionnement : modification de la fonction objectif [Demiriz et al., 1999] respect des contraintes : COP-KMeans [Wagstaff et al., 2001] Seed-KMeans [Basu et al., 2002] Constrained FCM [Grira et al., 2006] Seed-FCM [Pedrycz and Waletzky, 1997] Constrained HAC [Davidson and Ravi, 2005a] Spectral [Wang and Davidson, 2010] C-DBSCAN [Ruiz et al., 2007] SSDBSCAN [Lelis and Sander, 2009] N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 12 / 63

Approches pour le clustering semi-supervisé Apprentissage de la fonction de distance : les voisins de points liés par une ML (resp. CL) doivent aussi être proches (resp. distants) [Klein et al., 2002] Distance euclidienne et plus court chemin [Klein et al., 2002] Distance de Mahanalobis [Xing et al., 2003] [Bar-Hillel et al., 2003] Divergence de Kullback Leibler [Cohn et al., 2003] Distance d édition [Bilenko and Mooney, 2003] N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 13 / 63

Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 14 / 63

Bénéfices du clustering semi-supervisé Stabilité de convergence [Basu et al., 2002] : Accélération de la vitesse de convergence : clustering hiérarchique [Davidson and Ravi, 2005a] N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 15 / 63

Bénéfices du clustering semi-supervisé Séparation de clusters et détection des densités : I C-DBSCAN [Ruiz et al., 2010] et SS-DBSCAN [Lelis and Sander, 2009] 500 450 400 350 300 250 200 150 100 50 0 0 100 200 300 400 500 600 700 Découverte de clusters : I que les distances standard ne peuvent pas trouver I qui tirent profit des connaissances d un domaine N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 16 / 63

Limites du clustering semi-supervisé Problème de satisfiabilité des contraintes [Davidson and Ravi, 2005b] Détérioration des performances par des contraintes correctes : [Basu et al., 2004, Wagstaff, 2007, Mallapragada et al., 2008] N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 17 / 63

Qualité des contraintes Mesures a posteriori de la qualité de contraintes [Davidson and Basu, 2007] : informativeness : information présente dans les contraintes que l algorithme ne peut pas déterminer seul (a), coherence : accord entre les différentes contraintes (b) Nous nous intéressons aux méthodes de sélection active des contraintes a priori N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 18 / 63

Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 19 / 63

Schéma général Données Clustering semi supervisé Clusters Algorithme d apprentissage actif Connaissances Questions Réponses Utilisateurs (Experts) N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 20 / 63

Méthode existante : MMFFQS Min-Max Farthest-First Query Strategy [Mallapragada et al., 2008] : Explore : exploration en profondeur (farthest-first) et construction de K voisinages disjoints (squelettes de clusters) Consolidate : ajout de points aux squelettes de clusters les plus proches pour une meilleure détermination des centres des clusters N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 21 / 63

Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 22 / 63

Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 23 / 63

Sélection active de contraintes Objectifs : détermination d un ensemble de contraintes C à partir des données D amélioration des performances de tous les types d algorithmes minimisation de l effort d annotation Solution proposée : mesure d utilité basée sur la détermination des zones où les algorithmes font le plus d erreurs d affectation mécanisme de propagation pour minimiser les interactions de l expert N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 24 / 63

Sélection active de contraintes [Vu et al., 2012, Vu et al., 2010a, Vu et al., 2010b] Etapes Déterminer les contraintes candidates Raffiner les contraintes candidates Ordonner lescontraintes candidates Etiqueter les contraintes candidates Propager les contraintes Outils Graphe des k plus proches voisins (GkPPV) Définition de la notion de Chemin Fort Définitiond une mesure d utilité d une contrainte Question à l utilisateur Définition et application de règles N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 25 / 63

Le graphe des k-plus proches voisins (GkPPV) Graphe pondéré : sommet de degré au plus k arête (u, v) si u PPV (v) et v PPV (u) où PPV (u) est l ensemble des k-plus proches voisins de u poids entre u et v : nombre de voisins communs ω(u, v) = PPV (u) PPV (v) 12 10 12 10 k = 5 8 8 6 6 4 4 2 2 0 0 5 10 15 0 0 5 10 15 N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 26 / 63

Identification des contraintes candidates Définition de l ensemble des contraintes candidates : C = {(u, v) ω(u, v) < θ} Illustration : 12 10 8 6 4 2 0 0 5 10 15 Contraintes candidates k = 5, θ = 2, C = 16 N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 27 / 63

Mécanisme de raffinement des contraintes Objectifs : réduire le nombre de contraintes candidates introduire de la diversité dans les contraintes Définition de la notion de chemin fort CF CF(u, v) : chemin tel que x0 = u,..., x n = v et i : ω(x i, x i+1 ) θ ou (x i, x i+1 ) est un must-link. N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 28 / 63

Mécanisme de raffinement des contraintes Mise en œuvre : Suppression des contraintes candidates (u, v) de C telles qu il existe au moins un chemin fort entre u et v Avant raffinement C = 16 Après raffinement C = 3 12 10 8 6 4 2 0 0 5 10 15 Contraintes candidates N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 29 / 63

Mesure d utilité d une contrainte Ability to Separate Clusters (ASC) : ASC(u, v) = k ω(u, v) + 1 1 + min{lds(u), LDS(v)} ω(u, v) : proximité entre u et v dans le GkPPV LDS() : Local Density Score [Le and Satoh., 2008] q PPV (u) ω(u, q) LDS(u) = k Mise en œuvre : demander à l utilisateur l étiquette de la contrainte candidate qui maximise ASC N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 30 / 63

Mécanisme de propagation des contraintes Objectif : augmenter la connaissance minimiser les interactions utilisateurs Méthode : créer de nouvelles contraintes à partir de contraintes existantes définition de règles de propagation de contraintes Règles de propagation : Notations : ML must-link ; CL cannot-link ; CF chemin fort ML(u, v) ML(v, w) ML(u, w) ML(u, v) CL(v, w) CL(u, w) CL(u, v) CF(u, t) CF(v, l) CL(t, l) ML(u, v) CF(u, t) CF(v, l) ML(t, l) N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 31 / 63

Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 32 / 63

Protocole expérimental Algorithmes de clustering : hiérarchique AHCC [Davidson and Ravi, 2005a] : repose sur la détection des frontières entre clusters centres mobiles MPCK Means [Bilenko et al., 2004] : détermine des clusters hypersphériques bien séparés Stratégie de sélection des contraintes : MMFFQS [Mallapragada et al., 2008] : favorise k-means Proposé ASC : G-kPPV + ASC Proposé Aléatoire : G-kPPV + tirage aléatoire Aléatoire : utilisation des étiquettes de données Évaluation des résultats : indice de Rand [Rand, 1971] N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 33 / 63

Algorithme AHCC Résultats comparatifs Indice de Rand 100 98 96 94 92 Proposé ASC Proposé aléatoire MMFFQS Aléatoire 5 0 5 10 15 20 25 30 Nombre de requêtes Indice de Rand 98 96 94 92 90 88 86 84 Proposé ASC Proposé aléatoire MMFFQS Aléatoire 82 10 0 10 20 30 40 50 60 Nombre de requêtes Indice de Rand 88 86 84 82 80 78 76 74 Proposé ASC Proposé aléatoire MMFFQS Aléatoire 72 10 0 10 20 30 40 50 60 Nombre de requêtes Soybean Iris Breast Proposé ASC > Proposé aléatoire > MMFFQS > Aléatoire ASC permet de détecter les frontières de clusters cohérent avec le principe du clustering agglomératif N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 34 / 63

Algorithme AHCC Influence du mécanisme de propagation MMFFQS + génération aléatoire : 1 requête = 1 contrainte ASC + proposé aléatoire : 1 requête = plusieurs contraintes 40 80 90 Nombre de contraintes collectées 35 30 25 20 15 Proposé ASC Proposé aléatoire MMFFQS, Aléatoire Nombre de contraintes collectées 70 60 50 40 30 Proposé ASC Proposé aléatoire MMFFQS, Aléatoire Nombre de contraintes collectées 80 70 60 50 40 30 Proposé ASC Proposé aléatoire MMFFQS, Aléatoire 10 20 20 5 0 5 10 15 20 25 30 Nombre de requêtes 10 5 10 15 20 25 30 35 40 45 50 55 Nombre de requêtes 10 5 10 15 20 25 30 35 40 45 50 55 Nombre de requêtes Soybean Iris Breast Proposé aléatoire propage plus de contraintes que ASC ASC génère des contraintes de meilleure qualité N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 35 / 63

Algorithme MPCK-Means Résultats comparatifs 100 98 96 87 86 Indice de Rand 95 90 85 Proposé ASC Proposé aléatoire MMFFQS Aléatoire 0 5 10 15 Nombre de requêtes Indice de Rand 94 92 90 88 86 84 Proposé ASC Proposé aléatoire MMFFQS Aléatoire 0 20 40 60 80 Nombre de requêtes Indice de Rand 85 84 83 82 81 80 Proposé ASC Proposé aléatoire MMFFQS Aléatoire 0 20 40 60 Nombre de requêtes Soybean Iris Breast MMFFQS dédié à méthode de type K-Means Proposé ASC meilleur pour un faible nombre de questions cohérent avec le principe de l apprentissage actif N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 36 / 63

Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 37 / 63

Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 38 / 63

Problématique [Vu et al., 2010c] [Vu, 2011] But : proposer des données étiquetées (graines) qui couvrent l ensemble des clusters Proposition de 3 algorithmes actifs : Deux méthodes basées sur une stratégie Min-Max : Min-Max "simple" Min-Max-D basée sur la densité Une méthode basée sur la densité et utilisant le GkPPV N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 39 / 63

Principe de la stratégie Min-Max Sélection du point y qui maximise la distance minimale aux points déjà choisis Y : ( ) y = arg max x X Y min d(x, y) y Y Génération de l ensemble Y N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 40 / 63

Stratégie Min-Max active S-Min-Max : étiquetage par l utilisateur des points de Y : 7 6 5 4 3 2 1 0 1 2 3 2 4 6 8 10 12 14 16 18 20 Étiquetage Seed K-Means N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 41 / 63

Algorithmes actifs basés sur une stratégie Min-Max S-Min-Max-D : variante de S-Min-Max basée sur la densité : ajouter un filtrage à l aide de la mesure de densité LDS remplacer X par X ɛ : X ɛ = {p X : LDS(p) ɛ} où ɛ est un seuil de densité N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 42 / 63

Influence du paramètre ɛ Illustration : X ɛ contient les points rouges Remarque : ɛ = 0, S-Min-Max-D S-Min-Max N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 43 / 63

Méthode de collecte de graines basée sur un GkPPV Idée principale de la méthode S-GkPPV : définition de régions denses (composantes connexes) X δ = {u X : v ω(u, v) δ} ordonnancement des composantes selon leur cardinal sélection aléatoire d une graine candidate dans chaque composante et propagation de l étiquette Illustration : sommets des arêtes en rouge : ω(u, v) 3 N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 44 / 63

Méthode de collecte de graines basée sur un GkPPV Idée principale de la méthode S-GkPPV : définition de régions denses (composantes connexes) X δ = {u X : v ω(u, v) δ} ordonnancement des composantes selon leur cardinal sélection aléatoire d une graine candidate dans chaque composante et propagation de l étiquette Illustration : sommets des arêtes en rouge : ω(u, v) 3 N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 44 / 63

Méthode de collecte de graines basée sur un GkPPV Idée principale de la méthode S-GkPPV : définition de régions denses (composantes connexes) X δ = {u X : v ω(u, v) δ} ordonnancement des composantes selon leur cardinal sélection aléatoire d une graine candidate dans chaque composante et propagation de l étiquette Illustration : sommets des arêtes en rouge : ω(u, v) 3 N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 44 / 63

Méthode de collecte de graines basée sur un GkPPV Idée principale de la méthode S-GkPPV : définition de régions denses (composantes connexes) X δ = {u X : v ω(u, v) δ} ordonnancement des composantes selon leur cardinal sélection aléatoire d une graine candidate dans chaque composante et propagation de l étiquette Illustration : sommets des arêtes en rouge : ω(u, v) 3 N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 44 / 63

Méthode de collecte de graines basée sur un GkPPV Idée principale de la méthode S-GkPPV : définition de régions denses (composantes connexes) X δ = {u X : v ω(u, v) δ} ordonnancement des composantes selon leur cardinal sélection aléatoire d une graine candidate dans chaque composante et propagation de l étiquette Illustration : sommets des arêtes en rouge : ω(u, v) 3 N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 44 / 63

Méthode de collecte de graines basée sur un GkPPV Idée principale de la méthode S-GkPPV : définition de régions denses (composantes connexes) X δ = {u X : v ω(u, v) δ} ordonnancement des composantes selon leur cardinal sélection aléatoire d une graine candidate dans chaque composante et propagation de l étiquette Illustration : sommets des arêtes en rouge : ω(u, v) 3 N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 44 / 63

Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 45 / 63

Résultats comparatifs Indice de Rand Seed K-Means SSDBSCAN S Random S Min Max S Min Max D S GkPPV Indice de Rand 90 80 70 60 50 40 30 20 10 Indice de Rand 90 80 70 60 50 40 30 20 10 0 Thyroid Protein LetterIJL 0 Thyroid Protein LetterIJL S-GkPPV > S-Min-Max-D > S-Min-Max > Random S-GkPPV détecte les graines dans les régions denses cohérent avec SS-DBSCAN N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 46 / 63

Résultats comparatifs Nombre d itérations Nombre d itérations moyen avant convergence pour l algorithme Seed K-means Nombre d itérations 16 14 12 10 8 6 4 S Random S Min Max S Min Max D S GkPPV 2 0 Iris Soybean Zoo Thyroid Protein LetterIJL Meilleures performances : S-Min-Max-D sélection des graines proches des centres des clusters N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 47 / 63

Résultats comparatifs Nombre de requêtes Nombre de questions posées à l utilisateur de façon à garantir qu il y ait au moins une graine par cluster Nombre de questions 40 30 20 10 S Random S Min Max S Min Max D S GkPPV 0 Iris Soybean Zoo Thyroid Protein LetterIJL Meilleures performances : S-GkPPV couverture des clusters plus efficace N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 48 / 63

Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 49 / 63

Conclusions Sélection active de contraintes : première mesure d utilité d une contrainte : ASC règles de propagation des contraintes Sélection active de données étiquetées : 2 méthodes de type Min-Max une méthode basée sur un G-kPPV Autres propositions [Vu, 2011] : algorithme de clustering avec des contraintes : MCLA algorithme de clustering avec des graines : SSGC N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 50 / 63

Perspectives Amélioration des performances du GkPPV Étude de nouvelles mesures d utilité de contraintes Passage à l échelle (big data) Lien fort avec la visualisation de données : solution au problème d interrogation de l expert N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 51 / 63

Perpectives Algorithmes mixtes : contraintes et/ou données étiquetées mesure d utilité mixte pour données étiquetées ou ML / CL mécanismes de propagation N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 52 / 63

Perpectives Contraintes plus expressives : cas où l expert n est pas sûr de sa réponse gradualité : degrés d appartenance, de possibilité, de croyance N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 53 / 63

Perpectives Algorithmes de clustering interactif : récupération des contraintes ou étiquettes pendant le processus de clustering clustering + apprentissage actif + visualisation N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 54 / 63

Apprentissage actif pour le clustering semi-supervisé Nicolas Labroche Sorbonne Universités, UPMC Univ Paris 06 CNRS, UMR 7606, LIP6 F-75005, Paris, France Atelier Clustering and Co-clustering (CluCo), EGC 2014 N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 55 / 63

Références I Aggarwal, C. C., Watson, T. J., Ctr, R., Han, J., Wang, J., and Yu, P. S. (2003). A framework for clustering evolving data streams. In In VLDB, pages 81 92. Angelov, P. (2011). Fuzzily connected multimodel systems evolving autonomously from data streams. IEEE Transactions on Systems, Man and Cybernetics - Part B : Cybernetics, 41(4) :898 910. Ankerst, M., Breunig, M., Kriegel, H., and Sander, J. (1999). Optics : Ordering points to identify clustering structure. In Proc. of the ACM SIGMOD, pages 49 60, Philadenphia, USA. Bar-Hillel, A., Hertz, T., Shental, N., and Weinshall, D. (2003). Learning distance functions using equivalence relations. In In Proceedings of the Twentieth International Conference on Machine Learning, pages 11 18. Basu, S., Banerjee, A., and Mooney, R. (2004). Active semi-supervision for pairwise constrained clustering. In Proceedings of the SIAM International Conference on Data Mining, pages 333 344. N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 56 / 63

Références II Basu, S., Banerjee, A., and Mooney., R. J. (2002). Semi-supervised clustering by seeding. In In Proceeding of the 19th International Conference on Machine Learning (ICML), pages 27 34. Bezdek, J. (1981). Pattern Recognition with Fuzzy Objective Function Algorithms. Plenum Press, New York. Bilenko, M., Basu, S., and Mooney, R. J. (2004). Integrating constraints and metric learning in semi-supervised clustering. In Intl. Conference on Machine Learning, ICML 2004, pages 81 88. Bilenko, M. and Mooney, R. J. (2003). Adaptive duplicate detection using learnable string similarity measures. In In Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2003), pages 39 48. Cao, F., Ester, M., Qian, W., and Zhou, A. (2006). Density-based clustering over an evolving data stream with noise. In In 2006 SIAM Conference on Data Mining, pages 328 339. Cohn, D., Caruana, R., and Mccallum, A. (2003). Semi-supervised clustering with user feedback. Technical report. N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 57 / 63

Références III Davidson, I. and Basu, S. (2005). Clustering with constraints : Incorporating prior knowledge into clustering. In Tutorial from SIAM 2005 Conference. Davidson, I. and Basu, S. (2007). A survey of clustering with instance level constraints. ACM Transactions on Knowledge Discovery from data, pages 1 41. Davidson, I. and Ravi, S. (2005a). Agglomerative hierarchical clustering with constraints : Theoretical and empirical results. In Proceeding of European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, ECML PKDD-2005, pages 59 70. Davidson, I. and Ravi, S. (2005b). Clustering with constraints : Feasibility issues and the k-means algorithm. In Proceedings of the SIAM International Conference on Data Mining. Demiriz, A., Bennett, K., and Embrechts, M. (1999). Semi-supervised clustering using genetic algorithms. In Proceedings of ANNIE, pages 809 814. Dempster, A., Laird, N., and Rubin, D. (1977). Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society, Series B (Methodological) 39 (1) :1 38. N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 58 / 63

Références IV Ester, M., Kriegel, H.-P., Sander, J., and Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. In Proc. of 2nd International Conference on Knowledge Discovery and Data Mining, pages 226 231, USA. AAAI Press. Grira, N., Crucianu, M., and Boujemaa, N. (2006). Fuzzy clustering with pairwise constraints for knowledge-driven image categorization. IEEE Vision, Image and Processing, 153(3) :299 304. Hinneburg, A. and Keim, A. (1998). An efficient approach to clustering in large multimedia databases with noise. In Proc. of Knowledge Discovery and Data Mining, pages 58 65. Jain, A. K. (2010). Data clustering : 50 years beyond k-means. Pattern Recognition Letters, 31(8) :651 666. Klein, D., Kamvar, S., and Manning, C. (2002). From instance-level constraints to space-level constraints : Making the most of priori knowledge in data clustering. In Proceedings of the 22nd International Conference on Machine Learning. Le, D.-D. and Satoh., S. (2008). Unsupervised face annotation by mining the web. In In Proceedings of the IEEE International Conference on Data Mining (IEEE-ICDM). N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 59 / 63

Références V Lelis, L. and Sander, J. (2009). Semi-supervised density-based clustering. In Proceedings of the 2009 Ninth IEEE International Conference on Data Mining, ICDM 09, pages 842 847, Washington, DC, USA. IEEE Computer Society. MacQueen, J. B. (1967). Some methods for classification and analysis of multivariate observations. In of California Press, U., editor, Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability, volume 1, pages 281 297, Berkeley. Mallapragada, P., Jin, R., and Jain, A. (2008). Active query selection for semi-supervised clustering. In Proceedings of the 19th International Conference on Pattern Recognition, pages 1 4. Pedrycz, W. and Waletzky, J. (1997). Fuzzy clustering with partial supervision. IEEE Transactions on systems, Man, and Cybernetics, 27(5) :787 795. Philipp Kranen, Ira Assent, C. B. and Seidl, T. (2011). The clustree : indexing micro-clusters for anytime stream mining. Knowledge and Information Systems, 29(2) :249 272. Rand, W. (1971). Objective criteria for the evaluation of clustering methods. Journal of American Statistical Association, vol. 66. N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 60 / 63

Références VI Ruiz, C., Spiliopoulou, M., and Menasalvas, E. (2007). C-dbscan : Density-based clustering with constraints. In Proceedings of the International Conference on Rough Sets Fuzzy Sets Data Mining and Granular Computing, pages 216 223. Ruiz, C., Spiliopoulou, M., and Menasalvas, E. (2010). Density-based semi-supervised clustering. Data Mining and Knowledge Discovery, 21(3) :345 370. Sneath, P. H. A. and Sokal, R. R. (1973). Numerical taxonomy - the principles and practice of numerical classification. Technical report, W. H. Freeman, San Francisco. Vu, V., Labroche, N., and Bouchon-Meunier, B. (2010a). Boosting clustering by active constraint selection. In Proceedings of the 19th European Conference on Artificial Intelligence (ECAI-2010), pages 297 302, Lisbon, Portugal. IOI Press. Vu, V., Labroche, N., and Bouchon-Meunier, B. (2010b). An efficient active constraint selection algorithm for clustering. In Proceedings of the 20th International Conference on Pattern Recognition (ICPR-2010), pages 2969 2972, Istanbul, Turkey. IEEE. N. Labroche (UPMC - LIP6 - CNRS) CluCo 2014 61 / 63