Classification avec recouvrement des classes : une extension des k-moyennes



Documents pareils
La classification automatique de données quantitatives

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Analyse en Composantes Principales

1 Complément sur la projection du nuage des individus

Programmation linéaire

Théorèmes de Point Fixe et Applications 1

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Introduction au Data-Mining

Principe de symétrisation pour la construction d un test adaptatif

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Chapitre 3. Les distributions à deux variables

Modélisation géostatistique des débits le long des cours d eau.

Intégration de la dimension sémantique dans les réseaux sociaux

Plus courts chemins, programmation dynamique

Big Data et Graphes : Quelques pistes de recherche

Jean-Philippe Préaux

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Chapitre 5 : Flot maximal dans un graphe

L exclusion mutuelle distribuée

Intégration et probabilités TD1 Espaces mesurés Corrigé

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Analyse de la variance Comparaison de plusieurs moyennes

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Programmation Linéaire - Cours 1

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Big Data et Graphes : Quelques pistes de recherche

Programmation linéaire

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Les clusters Linux. 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com. white-paper-cluster_fr.sxw, Version 74 Page 1

Le Programme «Archives Audiovisuelles de la Recherche»

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

LES MÉTA-HEURISTIQUES : quelques conseils pour en faire bon usage

TP 2 Réseaux. Adresses IP, routage et sous-réseaux

Francis BISSON ( ) Kenny CÔTÉ ( ) Pierre-Luc ROGER ( ) IFT702 Planification en intelligence artificielle

données en connaissance et en actions?

L apprentissage automatique

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Texte Agrégation limitée par diffusion interne

Application de K-means à la définition du nombre de VM optimal dans un cloud

Probabilités sur un univers fini

Modélisation du comportement habituel de la personne en smarthome

Classification non supervisée

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Chapitre VI - Méthodes de factorisation

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Équation de Langevin avec petites perturbations browniennes ou

Introduction au Data-Mining

Apprentissage Automatique

Optimisation, traitement d image et éclipse de Soleil

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Calcul intégral élémentaire en plusieurs variables

Cours de Master Recherche

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

Extraction d informations stratégiques par Analyse en Composantes Principales

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

Quelques algorithmes simples dont l analyse n est pas si simple

Une application des algorithmes génétiques à l ordonnancement d atelier

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

BAROMETRE DE CONJONCTURE DE L HEBERGEMENT D ENTREPRISES

Application du data mining à la segmentation du marché des meubles aux États-Unis

Relation entre deux variables : estimation de la corrélation linéaire

Laboratoire 4 Développement d un système intelligent

Lecture critique et pratique de la médecine

Instructions relatives à la soumission d une question sur le sujet d étude

Intelligence Artificielle Planification

Sommaire. Introduction Définition Historique Domaine d application.2. 4.Les Travaux réalisés sur les domaines d application.

Article 2 : Conseils et meilleures pratiques pour gérer un cloud privé

Limitations of the Playstation 3 for High Performance Cluster Computing

L OPTIMISATION ÉCONOMIQUE DU VOLUME DU LOT DE FABRICATION DANS LE MANAGEMENT DE LA PRODUCTION EN SÉRIE

NON-LINEARITE ET RESEAUX NEURONAUX

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

CCP PSI Mathématiques 1 : un corrigé

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Chapitre 2 Le problème de l unicité des solutions

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Chp. 4. Minimisation d une fonction d une variable

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Modélisation multi-agents - Agents réactifs

MABioVis. Bio-informatique et la

Soutien technique en informatique

I. Polynômes de Tchebychev

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Arbres binaires de décision

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m


La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Transcription:

Classification avec recouvrement des classes : une extension des k-moyennes Guillaume Cleuziou Laboratoire d Informatique Fondamentale d Orléans (LIFO) Université d Orléans 45067 ORLEANS Cedex 2 Guillaume.Cleuziou@univ-orleans.fr RÉSUMÉ. On constate ces dernières années un intérêt croissant pour les méthodes de classification construisant des schémas autorisant le recouvrement des classes. Ces schémas sont, en effet, particulièrement adaptés à certains types de données documentaires ou biologiques par exemple. Malheureusement les quelques techniques existantes s avèrent peu ou mal adaptées à ces applications. Nous proposons dans cet article d adapter l algorithme des k-moyennes à cette tâche, en reconsidérant à la fois le critère de qualité et l algorithme de recherche d un recouvrement optimal. MOTS-CLÉS : Classification non-supervisée, recouvrement des classes, k-moyennes. 1. Introduction La classification est un domaine de recherches en constante évolution du fait de l émergence perpétuelle de nouvelles problématiques issues du monde réel. Cette évolution porte autant sur les méthodes employées (centres mobiles, hiérarchies, mélanges de lois, agents artificiels, etc.) que sur l idéal recherché. Ceux qui cherchaient hier une organisation en classes compactes et séparées s autorisent aujourd hui à varier les formes, densités, tailles, nombres et agencements des classes, selon le contexte applicatif visé. Dans cette étude nous nous intéressons à l agencement des classes entres elles et plus particulièrement aux recouvrements (appelés aussi intersections ou empiétements) entre les classes. Dans certains domaines d applications, ce type de schéma de classification est naturel. Par exemple en biologie un gène peut influencer plusieurs aspects du métabolisme, en recherche d information un document (texte, image, vidéo, etc.) peut aborder plusieurs thématiques ou appartenir à plusieurs genres différents, enfin en traitement du langage un mot peut avoir plusieurs interprétations. Dans chacun de ces domaines, restreindre chaque élément à n appartenir qu à une seule classe entraîne une perte d information potentiellement utile à l utilisateur mais également cruciale pour le processus de classification. Les approches de classification aboutissant à des classes recouvrantes n abondent pas dans la littérature ; deux approches de référence nécessitent cependant d être mentionnées ici : la classification pyramidale [DID 84] et la classification floue [BEZ 81]. Pourtant ces deux approches sont peu utilisées dans les domaines d application cités précédemment car peu adaptées. Les pyramides autorisent des recouvrement trop limités et entre des classes nécessairement assez similaires tandis que la classification floue oblige à effectuer, a posteriori, un choix d affectation peu évident, à partir des fonctions d appartenance. L affectation plus ou moins arbitraire des individus à des classes pré-construites est un raisonnement classificatoire que l on rencontre dans d autres méthodes plus récentes [LEL 93, PAN 03, CLE 04]. Nous considérerons dans cette étude que les recouvrements entre classes ne doivent pas être simplement tolérés mais, au contraire, que le processus de construction des classes doit les intégrer et en tirer profit. De même que les pyramides étendent les hiérarchies en autorisant les recouvrements, nous proposons d adapter la recherche d une bonne partition à celle d un bon recouvrement. Dans cette perspective, nous présentons une extension des k-moyennes [MAC 67], fondée d une part sur l adaptation de la fonction objective à optimiser et d autre part sur l algorithme de recherche d un recouvrement optimal.

2. Algorithme de classification avec recouvrement des classes 2.1. L algorithme des k-moyennes Étant donné un ensemble d individus X = {x 1, x 2,..., x n } définis dans R p muni d une métrique euclidienne d, l algorithme des k-moyennes est fondé sur la recherche d une partition I = {I 1, I 2,..., I k } de X minimisant le critère de variance intra-classes : k V (I) = p i d 2 (x i, c j ) [1] j=1 {x i I j} où c j désigne le centre de la classe I j et p i la masse relative à l individu x i (traditionnellement chaque individu est pondéré de façon uniforme, avec p i = 1). Les deux étapes le l algorithme des k-moyennes qui consistent à (1) affecter chaque individu au centre de classe le plus proche et (2) mettre à jour le centre de chaque classe en calculant son centre de gravité, permettent d assurer la convergence du critère V (.) vers une partition stable 1. On remarquera que l optimisation du critère de variance intra-classes ne tolère (et encore moins ne favorise) aucun recouvrement de classes. En effet, chaque affectation supplémentaire d un individu x i à une classe I j impliquerait une augmentation du critère V (.) de la quantité p i d 2 (x i, c j ). Nous proposons de modifier la fonction objective utilisée, de façon à autoriser l affectation de chaque individu à une ou plusieurs classes. 2.2. Une autre interprétation de la fonction objective Résumer une collection d individus à travers un ensemble de classes permet une analyse globale des données mais suppose en même temps de concéder une partie de l information contenue dans ces données. La fonction objective V (.), étudiée précédemment, peut alors être interprétée comme un critère mesurant l information perdue ou encore l erreur commise en substituant chaque individu à un centre (ou représentant) de classe 2. Dans la suite nous parlerons d image d un individu pour désigner ce substitut. Définition 2.1 Soient une collection de classes I = {I 1, I 2,..., I k } formant une partition de l ensemble d individus X = {x 1, x 2,..., x n } et c 1, c 2,..., c k les centres respectifs des classes de I, l image de x i (notée x i ) dans la classification est donnée par le centre c j de la classe I j à laquelle x i est affecté. Dans la cas où I n est plus une partition mais un recouvrement de X, la définition 2.1 doit être étendue. Considérant que l affectation d un individu x i à plusieurs classes se justifie par le fait que x i partage des propriétés avec chacune de ces classes, l image de x i doit résulter d un compromis entre tous les centres de classes concernées. Définition 2.2 Soient une collection de classes I = {I 1, I 2,..., I k } formant un recouvrement de l ensemble d individus X = {x 1, x 2,..., x n } et c 1, c 2,..., c k les centres respectifs des classes de I, l image de x i (notée x i ) dans la classification est donnée par le centre de gravité 3 de l ensemble {c j x i I j }. Par la définition 2.2, la fonction objective V (.) peut être réécrite de manière à favoriser les recouvrements de classes lorsque ceux-ci permettent de capturer d avantage d information sur les individus concernés. On note V (I) ce critère évaluant la qualité d un recouvrement I d un ensemble d individus X : V (I) = p i d 2 (x i, x i ) [2] x i X 2.3. Algorithme de recherche d un recouvrement optimal Une manière naïve de rechercher le recouvrement qui minimise le critère V (.) serait de générer tous les recouvrements possibles. Cette solution est exclue dans le cas de partitions du fait qu il existe de l ordre de k n partitions 1. La partition stable obtenue correspond à une situation où l algorithme ne peut plus évoluer. Nous parlerons dans la suite d optimum local pour évoquer cette situation. 2. Dans le critère V (.) l erreur commise pour un individu x i affecté à la classe I j vaut d 2 (x i, c j) 3. Dans cette définition, les classes contenant x i sont pondérées de façon uniforme.

en k classes pour n individus. Le nombre de recouvrements possibles étant beaucoup plus grand encore, il convient de proposer un algorithme permettant d explorer partiellement l espace des possibilités au risque d aboutir à un optimum seulement local. L algorithme que nous présentons (Figure 1) s inspire largement de l algorithme des k-moyennes et procède par itérations de deux étapes : 1. l affectation des individus aux centres les plus proches, 2. le calcul des nouveaux centres des classes. Dans cet algorithme, l heuristique d affectation (AFFECTER(x i,c t )) consiste à affecter d abord x i au centre le plus proche, puis à considérer les autres centres - du plus proche au plus éloigné - en effectuant l affectation tant que d(x i, x i ) décroît. Initialisation : (t=0) choisir aléatoirement k centres C t = {c t 1, c t 2,..., c t k } dans X, Pour chaque x i X : AFFECTER(x i,c t ), en déduire un recouvrement initial I t = {I1, t I2, t..., Ik t}. FAIRE (t=t1) Calcul des nouveaux centres C t : pour j allant de 1 à k calculer le nouveau centre c t j de I j, Affectation : Pour chaque x i X : AFFECTER(x i,c t ), en déduire un nouveau recouvrement I t, TANT QUE I t I t 1 FIG. 1. Algorithme (simplifié) de recherche d un recouvrement optimal. L algorithme simplifié, tel que présenté en Figure 1, nécessite quelques précisions afin d en assurer la convergence (cf. Section 2.4). Tout d abord concernant l affectation des individus : après recalcul des centres, il est possible que les centres les plus proches d un individu aient changés sans toutefois qu une nouvelle affectation conduise à une meilleur image ; dans ce cas nous choisirons de conserver l ancienne affectation. La seconde précision porte sur le calcul des centres de classes. Dans cet algorithme, le centre c j d une classe I j correspond au centre de gravité du nuage de points N j = {(x i, p i ) x i I j } où les masses p i associées à chaque individu sont données par : { 0 si d(xi j, c p i = j,i ) = 0, η.d 2 (x i j, x i )/d 2 (x i j, c j,i ) sinon. [3] Dans cette expression, x i j désigne l image partielle de x i, i.e le centre de gravité de l ensemble {c l x i I l et j l}. Le terme c j,i désigne le centre c j idéal pour permettre à x i de coller à son image (d(x i, x i ) = 0) et η est un coefficient normalisateur ( p i = 1). Dans la suite on notera également x b i et x a i les images de x i respectivement avant (before) et après (after) la mise à jour du centre c j. Notons que dans le cas d une partition (chaque individu appartient à une seule classe), on se ramène au calcul classique d un centre de gravité avec des points tous de même masse η puisque c j,i = x i. 2.4. Convergence de l algorithme Nous donnons dans cette section les principaux éléments visant à démontrer la convergence de l algorithme à travers la décroissance du critère V (.). Chaque itération de l algorithme est composée de deux étapes : l affectation des individus aux centres et le recalcul des centres. Concernant l étape d affectation, nous avons précisé que pour chaque individu x i, une nouvelle affectation n est pas retenue si elle fait augmenter la quantité d(x i, x i ) ; et donc indirectement le critère V (.). On peut également montrer que ce critère décroît lors de l étape de recalcul des

centres et plus précisément pour chaque centre recalculé. Étant donné une classe Ij t, on note d après le théorème de Huygens : p i.d 2 (c j,i, c t j) = p i.d 2 (c j,i, c t1 j ) p i.d 2 (c t j, c t1 j ) [4] x i Ij t On peut de plus montrer géométriquement (Thalès) l égalité suivante : d 2 (x i j, x i ) d 2 (x i j, c j,i ) = d2 (x i, x b i) d 2 (c t j, c i,j) = d2 (x i, x a i ) d 2 (c t1 j, c i,j ) [5] En remplaçant dans [4] les p i par leur définition donnée en [3] puis en utilisant l égalité [5] on obtient : d 2 (x i, x b i) = d 2 (x i, x a i ) T (avec T 0) [6] ce qui montre que l étape de calcul des nouveaux centres fait décroître (strictement 4 ) V (.). La convergence de l algorithme est donc assurée du fait de la décroissance (stricte) du critère V (.) sur un ensemble fini de recouvrements. 3. Discussion et conclusion Dans la méthode exposée, l heuristique d affectation choisie n est certainement pas de nature à minimiser la fonction objective. Il s agit simplement d en assurer la décroissance en essayant 5 de respecter la propriété suivante : chaque individu doit être affecté aux centres les plus proches. Étant donnés k centres de classes, il serait en effet possible d extraire un schéma d affectation optimal au sens du critère V (.) mais qui ne vérifierait pas la contrainte pourtant indispensable pour assurer la cohérence des classes. Critères V (.) et V (.) 110 100 90 80 70 60 recouvrements partitions 2 4 6 8 10 Itérations Classes Étiquettes 1 2 3 Iris Setosa 50 Iris Versicolor 21 50 5 Iris Virginica 48 24 FIG. 3. Matrice de confusion. FIG. 2. Convergences des critères V (.) et V (.) dans les mêmes conditions initiales. Afin d illustrer notre approche, nous présentons une première expérimentation de l algorithme sur la base Iris (UCI repository). Ce jeu de donné, traditionnellement utilisé en classification supervisée, disposerait d une organisation en trois classes de 50 individus chacune, dont deux classes sont réputées difficilement séparables (classes des Iris Versicolor et Virginica). Les résultats présentés correspondent à la meilleure classification obtenue (relativement à V (.)) sur 20 exécutions de l algorithme. On observe via la matrice de confusion proposée en Figure 3 que chaque classe d Iris extraite par notre approche correspond à une classe prédéfinie : la classe 1 s identifie principalement aux Iris Virginica, la classe 2 aux Iris 4. Dans [6], T est strictement positif sauf dans le cas où aucun centre n a été modifié. 5. L algorithme proposé ne permet pas de satisfaire totalement à cette contrainte. Cependant l heuristique d affectation limite en pratique ces violations, qui ne remettent donc pas en cause la cohérence globale des classes.

2 1.5 cluster 1 cluster 2 cluster 3 1 0.5 0-0.5-1 -1.5-2 -2.5-3 -2-1 0 1 2 3 FIG. 4. Visualisation des classes par projection sur les deux premiers vecteurs propres (ACP). Versicolor et la dernière classe presque exclusivement aux Iris Setosa. De plus, les intersections mentionnées entre les deux premières classes obtenues indiquent effectivement la confusion qui existe entre les deux classes Versicolor et Virginica. La visualisation proposée en Figure 4 atteste de la cohérence globale des classes construites mais également des recouvrements entre ces classes. Enfin, le graphique de la Figure 2 expose sur un exemple pratique que la vitesse de convergence de l algorithme proposé est du même ordre que pour la méthode des k-moyennes. Pour conclure, nous rappelons que nous avons traité dans cet article du problème de la classification en classes recouvrantes. Constatant qu il n existe pas de méthodologie clairement établie pour ce problème, nous avons présenté une première approche dans laquelle la construction de classes recouvrantes est utilisée dans le processus même de classification afin d améliorer la représentativité des classes relativement aux données initiales. Les études à venir sur ce thème de recherche consisteront notamment à proposer une méthode d affectation des individus conciliant à la fois les contraintes de cohérence des classes et d amélioration du critère de qualité du recouvrement. 4. Bibliographie [BEZ 81] BEZDEK J. C., Pattern Recognition with Fuzzy Objective Function Algoritms, Plenum Press, New York,, 1981. [CLE 04] CLEUZIOU G., MARTIN L., VRAIN C., PoBOC : an Overlapping Clustering Algorithm. Application to Rule-Based Classification and Textual Data, R. LÓPEZ DE MÁNTARAS AND L. SAITTA, IOS PRESS, Ed., Proceedings of the 16th European Conference on Artificial Intelligence, Valencia, Spain, August 22-27 2004, p. 440-444. [DID 84] DIDAY E., Une représentation visuelle des classes empiétantes : Les Pyramides, Rocquencourt 78150, France. rapport, 1984, INRIA n 291, [LEL 93] LELU A., Modèles neuronaux pour l analyse de données documentaires et textuelles, Thèse de doctorat, mars 1993, Université de Paris VI. [MAC 67] MACQUEEN J., Some methods for classification and analysis of multivariate observations, Proceedings of the Fifth Berkeley Symposium on Mathematical statistics and probability, vol. 1, Berkeley, 1967, University of California Press, p. 281-297. [PAN 03] PANTEL P., Clustering by Committee, Ph.d. dissertation, 2003, Department of Computing Science, University of Alberta.