Évaluation d une approche de classification conceptuelle

Documents pareils
La classification automatique de données quantitatives

Arbres binaires de décision

Agrégation des portefeuilles de contrats d assurance vie

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Application de K-means à la définition du nombre de VM optimal dans un cloud

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Classification non supervisée

ITIL Gestion de la capacité

Introduction au Data-Mining

Algorithmes d'apprentissage

Resolution limit in community detection

Analyse des trajectoires acceptables en approche de virage assistance aux conducteurs

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Principe de symétrisation pour la construction d un test adaptatif

MCMC et approximations en champ moyen pour les modèles de Markov

Mesures de Risque Multipériodes Cohérentes Appliquées au Compte à Terme

La nouvelle planification de l échantillonnage

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

NON-LINEARITE ET RESEAUX NEURONAUX

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Algorithmique I. Algorithmique I p.1/??

JPEG, PNG, PDF, CMJN, HTML, Préparez-vous à communiquer!

Synthèse d'images I. Venceslas BIRI IGM Université de Marne La

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

Introduction au Data-Mining

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Feuille TD n 1 Exercices d algorithmique éléments de correction

REVUE DE STATISTIQUE APPLIQUÉE

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

1. Vocabulaire : Introduction au tableau élémentaire

Programmation linéaire

Programmation par contraintes. Laurent Beaudou

Modélisation de bases de données : Le modèle relationnel

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

Introduction au datamining

1 - PRESENTATION GENERALE...

Big Data et Graphes : Quelques pistes de recherche

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Système d automation TROVIS 6400 Régulateur compact TROVIS 6493

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Traitement bas-niveau

ORACLE TUNING PACK 11G

Programmation Par Contraintes

Calculs de probabilités

TP3 : Manipulation et implantation de systèmes de fichiers 1

Algorithmes récursifs

BTS Groupement A. Mathématiques Session Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

TEXT MINING von 7

MABioVis. Bio-informatique et la

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Chapitre VI- La validation de la composition.

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Cours d initiation à la programmation en C++ Johann Cuenin

La gestion du personnel

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Etude comparative de différents motifs utilisés pour le lancé de rayon

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

IFT3245. Simulation et modèles

OTIS. Mod. La modernisation réinventée. Plus de sécurité Plus de fiabilité Plus de confort. Et plus d attention à l environnement.

Les structures de données. Rajae El Ouazzani

Objectifs : piloter l organisation à travers des indicateurs (regroupés dans un tableau de bord), et informer des résultats la hiérarchie.

Théorie des Jeux Et ses Applications

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Réseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.

Budget Constrained Resource Allocation for Non-Deterministic Workflows on a IaaS Cloud

(VM(t i ),Q(t i+j ),VM(t i+j ))

Développement spécifique d'un système d information

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

DANS QUELLE MESURE LA CROISSANCE ECONOMIQUE PERMET-ELLE LE DEVELOPPEMENT?

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

Méthodes d apprentissage statistique «Machine Learning»

Laboratoire de Haute Sécurité. Télescope réseau et sécurité des réseaux

Cabri et le programme de géométrie au secondaire au Québec

Séance 11 : Typologies

Big Data et Graphes : Quelques pistes de recherche

Cahier des charges de formation

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Simulation centrée individus

GOL-MPPT- 24V-10A GOL-MPPT- 12V-15A

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Avertissement sur les Risques Associés aux CFDs

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck)

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

SYNTHÈSE DOSSIER 1 Introduction à la prospection

Gestion de projet- Indicateurs de performance

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Probabilités Loi binomiale Exercices corrigés

Transcription:

Évaluation d une approche de classification conceptuelle Marie Chavent Yves Lechevallier Mathématiques Appliquées de Bordeaux, UMR 5466 CNRS Université Bordeaux 1-351, Cours de la libération 33405 Talence Cedex, France chavent@math.u-bordeaux1.fr INRIA- Institut National de Recherche en Informatique et en Automatique Domaine de Voluceau- Rocquencourt B.P. 105 78153 Le Chesnay Cedex, France Yves.Lechevallier@inria.fr EGC 2007, Namur 1

Introduction L'objectif est d'évaluer la perte d'information au sens de l'inertie entre des méthodes de classification et notre approche de classification conceptuelle. Nous voulons répondre à la question suivante : l'aspect simpliste du processus monothétique d'une méthode conceptuelle implique t'il des partitions de moins bonne qualité au sens du critère de l'inertie? Nous proposons de réaliser cette expérience sur 6 bases de l'uci EGC 2007, Namur 2

Un exemple quantitatif : les «protein data» A Handbook of Small Data Sets, Hand, D.J. et al. (eds.) (1994) EGC 2007, Namur 3

Dendrogramme obtenu avec Ward Le dendrogramme ne donne pas d'indications sur l'interprétation des classes. Par exemple : {Fin, Nor, Swed, Den} EGC 2007, Namur 4

Dendrogramme obtenu avec DIVCLUS-T Avantage: Les classes ont une interprétation naturelle. Par exemple les objets la classe {Fin, Nor, Swed, Den} vérifient les propriétés [Nuts < 3,5] et [Fish > 5,7] EGC 2007, Namur 5

Évaluation de la qualité des ces méthodes Question: Les partitions obtenues avec WARD et DIV ont-elles des pourcentages d'inertie expliquée très différents? Pourcentages d'inertie expliquée des partitions issues des dendrogrammes de WARD et de DIV. EGC 2007, Namur 6

DIVCLUS-T : algorithme divisif, méthode conceptuelle Cette méthode (Chavent 1997, 1998) divise à chaque étape une classe en fonction d'une question binaire et du critère d'inertie. A chaque étape, la méthode définit la question binaire qui minimise sur l ensemble des questions binaires admissibles le critère de l inertie intra-classe sur la bipartition induite. A chaque classe obtenue on associe une règle d affectation ou un critère d appartenance à partir de propriétés EGC 2007, Namur 7

Questions binaires admissibles variable continue Variable qualitative [ ]? [X > 3.5]? X { m,..., m } 1 h Dans le cas d une variable continue on évalue toutes coupures possibles c est-à-dire au maximum n-1 coupures. Pour une variable qualitative ordonnée Y, on évalue ainsi au maximum m-1 bipartitions Dans le cas d'une variable qualitative non ordonnée, on se heurte vite à un problème de complexité, le nombre de dichotomies du domaine d'observation étant alors égal à 2 m-1-1. EGC 2007, Namur 8

Critère d évaluation Soit P K =(P 1,,P K ) une partition en K classes Critère d évaluation W(P K ) doit être additif W ( P ) = w( ) K P k P k P K Passage de la partition P K à la partition P K+1 en divisant la classe C en deux classes C 1 et C 2 W ( PK + 1) = W ( PK ) w( C) + w( C1) + w( C2) Calcul de l écart W ( PK + 1) W ( PK ) = w( C) + w( C1) + w( C2) EGC 2007, Namur 9

Critère d évaluation Le critère de l inertie intra-classe est additif La réduction du critère d évaluation revient à maximiser le gain (Q) associé à la question binaire Q* qui découpe la classe C et deux classes C 1 et C 2 ( * Q ) = ( w( C) w( C ) w( C )) max 1 2 Q B B étant l ensemble des questions binaires admissibles EGC 2007, Namur 10

Algorithme divisif (récursif) initialisation: P 1 partition en une classe Étape t+1: Pour chaque classe C de la partition en k classes sélectionner la meilleure bi-partition (C 1,C 2 ) de C en fonction du critère de l inertie intra-classes. 1) pour chaque variable X, trouver la coupure s qui maximise (X,s/C)= w(c) - w(c 1 )-w(c 2 ) 2) choisir la variable X* et la coupure s* (X*,s*/C)=max (X,s/C) 3) diviser la classe C en (C 1,C 2 ) et construire la partition en k+1 classes Arrêter quand t+1 est égal à K EGC 2007, Namur 11

Arbre de décision/ Hiérarchie Pas d ordre de découpage indicée Ordre de construction donnée par l indice de WARD (variation de l inertie) C 1 C 2 C 3 C 4 C 5 C 6 C 7 C 8 C 9 C 8 C 9 C 5 C 6 C 7 EGC 2007, Namur 12

Exemple qualitatif Ce tableau de données comprend 27 races de chiens décrites par 7 variables qualitatives (Saporta, 1990). Size ={small, medium,large} 2 variables binaires d où 2 bi-partitions à évaluer et 5 variables à 3 catégories d où un total de 17 question binaires à évaluer. La question binaire sur la variable size créant la bi-partition avec 15 chiens ayant la modalité «large» et 12 chiens ayant la modalité «small» ou «medium» donne la bi-partition ayant la plus petite inertie intra-classe. Cette question binaire crée la première segmentation de notre population. EGC 2007, Namur 13

Exemple qualitatif EGC 2007, Namur 14

Comparaison empirique Prix à payé pour cette représentation monothètique des classes? Six jeux de données de l UCI Machine Learning Repository http://www.ics.uci.edu/~mlearn/mlrepository.html DIVCLUS-T, WARD et les centres mobiles après WARD, trois méthodes basées sur la minimisation de l'inertie intra-classe, ont été appliquées aux six jeux de données. K-means avec 100 initialisations a été utilisé sur les tableaux quantitatifs. pour les partitions de 2 à 15 classes obtenues avec ces trois méthodes, le pourcentage d'inertie expliquée a été calculé EGC 2007, Namur 15

Comparaison empirique Le pourcentage d'inertie expliquée par un partition P est (1 W ( P)) E( P) = 100. T E(P) mesure la part d'inertie expliquée par P Minimiser l'inertie intra-classe est équivalent à maximiser l'inertie expliquée. E(P)= 0 pour la partition en une classe E(P)=100 pour la partition des singletons Comparer deux partitions La partition P est meilleure que la partition P' si E(P) > E(P') EGC 2007, Namur 16

Données quantitatives DIVCLUS-T est meilleur que WARD quand le nombre de classes est petit EGC 2007, Namur 17

Données qualitatives Pour les données zoo DIVCLUS-T est moins que bon WARD. EGC 2007, Namur 18

Simulation sur les données quantitatives GLAS PIMA 3 2.5 DIV WARD KMEANS 8 7 DIV WARD KMEANS 6 2 5 1.5 4 1 3 2 0.5 1 0 ABALONE 2 4 6 8 10 12 14 16 3.5 DIV WARD 3 KMEANS 2.5 0 DIVCLUS-T 2 4 6 8 10 12 14 16 10 Abalone 90 Glas Pima 80 70 2 60 50 1.5 40 1 30 0.5 20 10 0 0 2 4 6 8 10 12 14 16 2 4 6 8 10 12 14 16 EGC 2007, Namur 19

Simulation sur les données qualitatives SOLARFLARE ZO 3.5 3 DIV WARD KMEANS 2.5 DIV WARD KMEANS 2 2.5 2 1.5 1.5 1 1 0.5 0.5 0 CMC 2 4 6 8 10 12 14 16 5 DIV 4.5 WARD KMEANS 4 0 DIVCLUS-T 2 4 6 8 10 12 14 16 10 SolarFlare Zo CMC 80 3.5 3 60 2.5 2 40 1.5 1 20 0.5 0 0 2 4 6 8 10 12 14 16 2 4 6 8 10 12 14 16 EGC 2007, Namur 20

Conclusion Comparaison avec WARD et les centres mobiles Bon comportement de DIVCLUS-T en terme d'inertie sur les 6 jeux de données surtout pour les partitions en un petit nombre de classes. Complexité DIVCLUS-T est performant pour des données quantitatives. Dans le cas qualitatif des solutions existent pour définir un ordre sur les modalités et réduire ainsi la complexité EGC 2007, Namur 21

Conclusion Lorsqu'un utilisateur veut obtenir une partition en un nombre de classes relativement important, WARD et les centres mobiles sont certainement plus performants que DIVCLUS-T Lorsque l'utilisateur s'intéresse aux partitions ayant peu de classes et à leur interprétation, alors DIVCLUS-T semble être une alternative intéressante aux méthodes classiques. EGC 2007, Namur 22