de la classification Approche pragmatique t Editions TECHNIP 27 rue Cinoux, 75737 PARIS Cedex 15, FRANCE Arbres hiérarchiques Partitionnements



Documents pareils
La classification automatique de données quantitatives

1 - PRESENTATION GENERALE...

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Scénario: Données bancaires et segmentation de clientèle

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

DATAMINING C4.5 - DBSCAN

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Optimisation de la compression fractale D images basée sur les réseaux de neurones

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Arbres binaires de décision

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Travail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Application de K-means à la définition du nombre de VM optimal dans un cloud

REVUE DE STATISTIQUE APPLIQUÉE

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining -

Classification non supervisée

Extraction d informations stratégiques par Analyse en Composantes Principales

TABLE DES MATIERES. C Exercices complémentaires 42

Les algorithmes de fouille de données

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

INTRODUCTION AU DATA MINING

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Introduction au Data-Mining

Quelques éléments de statistique multidimensionnelle

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Une Démarche pour la sélection d outils de cartographie des processus métiers

Initiation à LabView : Les exemples d applications :

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Logiciel XLSTAT version rue Damrémont PARIS

Complet Intuitif Efficace. Références

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

2 Serveurs OLAP et introduction au Data Mining

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Introduction au datamining

SPHINX Logiciel de dépouillement d enquêtes

Théorie et codage de l information

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Simulation centrée individus

Programmation linéaire

données en connaissance et en actions?

Arbres de Décision. 1 Introduction

WEBSELL. Projet DATAMINING

L analyse des données par les graphes de similitude

CONCEPTION D UN MONITORING DES QUARTIERS COUVRANT L ENSEMBLE DU TERRITOIRE DE LA RÉGION DE BRUXELLES-CAPITALE

ACP Voitures 1- Méthode

1. Vocabulaire : Introduction au tableau élémentaire

Traitement bas-niveau

Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.

Chapitre 1 Le routage statique

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Introduction au Data-Mining

Apprentissage Automatique

Séance 11 : Typologies

A. Le contrôle continu

Pourquoi l apprentissage?

Vers une Optimisation de l Algorithme AntTreeStoch

Docteur en Informatique. Haytham ELGHAZEL. Classification et Prévision des Données Hétérogènes : Application aux Trajectoires et Séjours Hospitaliers

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

Que fait SAS Enterprise Miner?

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

Chaînes de Markov au lycée

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

COURS DE DATA MINING

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Filière Informatique de gestion. Facturation par APDRG : prédiction des recettes des cas non codés

Fast and furious decision tree induction

Analyse dialectométrique des parlers berbères de Kabylie

Agenda de la présentation

Big Data et Graphes : Quelques pistes de recherche

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

TRAVAUX DE RECHERCHE DANS LE

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

DATA MINING - Analyses de données symboliques sur les restaurants

Modélisation aléatoire en fiabilité des logiciels

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Big Data et Graphes : Quelques pistes de recherche

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Travaux pratiques avec RapidMiner

ANALYSE TEXTUELLE DE TRAVAUX DE JEAN-PIERRE BARTHÉLEMY. Marc LE POULIQUEN 1,2

La problématique. La philosophie ' ) * )

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

Algorithmes d'apprentissage

chapitre 4 Nombres de Catalan

Transcription:

Jean-Pierre NAKACHE Ingénieur de recherche CNRS détaché à l'inserm Chargé de cours à l'isup Josiane CONFAIS Ingénieur d'études chargée des enseignements pratiques à l'isup Approche pragmatique de la classification Arbres hiérarchiques Partitionnements SUB Gôttmgen 217 769 594 ' " " "! Ilfflt III» 2005 A 1926 2005 t Editions TECHNIP 27 rue Cinoux, 75737 PARIS Cedex 15, FRANCE

Préface, Gilbert Saporta lll Avant-propos V Introduction 1 Généralités 7 1. Distances et indices de similarité 7 1.1. Distance d définie sur un ensemble E 7 1.2. Similarité définie sur un ensemble E 8 1.3. Dissimilarité définie sur un ensemble E 8 2. Mesures de ressemblance entre individus 8 2.1. Données numériques 8 2.2. Données ordinales 10 2.3. Données de fréquences 10 2.4. Données binaires 10 2.5. Données nominales 11 2.6. Données mixtes 12 3. Mesures de similarité entre variables 12 3.1. Données numériques 12 3.2. Données ordinales 13 3.3. Données de fréquences 13 3.4. Données binaires 13 3.5. Données nominales 14 3.6. Données mixtes.'. 15 4. Qualités d'une classification 15 5. Préparation des données en vue d'une classification 15 Chapitre 1 Classification ascendante hiérarchique 17 1.1. Hiérarchie totale de parties d'un ensemble E 17 1.2. Hiérarchie de parties indicée 18 1.3. Arbre hiérarchique indicé 18 1.4. Choix du nombre de classes par coupure de l'arbre 19 1.5. Distances ultramétriques et arbres hiérarchiques 21 1.5.1. Distances ultramétriques 21 1.5.2. Boules ultramétriques 21 1.5.3. Propriétés 21 1.6. Equivalence entre hiérarchie indicée et distance ultramétrique 22 1.6.1. Toute hiérarchie totale indicée H E permet de définir sur E une distance ultramétrique... 22

VIII Table des matières 1.6.2. A toute distance ultramétrique d u définie sur E, on peut faire correspondre une hiérarchie totale indicée 22 1.6.3. Conséquence de l'équivalence entre hiérarchie indicée HE et distance ultramétrique d u. 23 1.6.4. Algorithme de Lerman 25 1.7. Construction d'un arbre hiérarchique ascendant 26 1.7.1. Algorithme de base 26 1.7.2. Algorithme de Roux 29 1.7.3. Axiome de la médiane 34 1.7.4. Algorithme des voisins réciproques 35 1.8. Algorithmes d'agrégation fondés sur un lien métrique 35 1.8.1. Le critère du saut minimal 35 1.8.2. Le critère du diamètre 36 1.8.3. Le critère de la moyenne 37 1.8.4. Le critère de Ward (perte d'inertie minimale) 37 1.8.5. Application 38 1.8.6. Mise à jour des distances : utilisation de la formule de Lance et Williams 42 1.9. Algorithmes d'agrégation fondés sur la densité 43 1.9.1. Méthode des k- plus proches voisins 44 1.9.2. Méthode des noyaux uniformes 44 1.9.3. Méthode EML 44 1.9.4. Avantages et inconvénients des algorithmes hiérarchiques 45 1.10. Comparaison de deux arbres hiérarchiques ascendants 46 1.10.1. Ordonnance associée à une matrice des distances d entre individus d'un ensemble E : Od 46 1.10.2. Définition mathématique d'une pré-ordonnance 46 1.10.3. Graphe d'une ordonnance 47 1.10.4. Ecart entre deux ordonnances 48 1.10.5. Ecart entre deux hiérarchies ascendantes 49 1.11. Algorithmes hiérarchiques avec obtention de classes déforme arbitraire 49 1.11.1. CURE 49 1.11.2. ROCK 52 1.11.3. BIRCH 53 1.11.4. CHAMELEON 57 1.11.5. Classification spatiale hiérarchique 60 Chapitre 2 Perte d'inertie minimale et saut minimal 65 2.1. Perte d'inertie minimale 65 2.1.1. Passage d'une partition à la suivante 67 2.1.2. Procédure d'agrégation suivant le critère de Ward 67 2.1.3. Exemples illustratifs 69 2.1.4. Application du critère de Ward aux données Ester et al 73 2.2. Saut minimal 77 2.2.1. Ultramétrique sous-dominante S de la distance d 77 2.2.2. Lien avec l'arbre de longueur minimale 78 2.2.3. Construction de l'arbre de longueur minimale par l'algorithme de Kruskal 78 2.2.4. Application numérique 78 2.2.5. Représentation simultanée : arbre de longueur minimale et arbre hiérarchique 81 2.2.6. Effet de chaîne 81 2.2.7. Application aux données Ester et al 85 Chapitre 3 Classification hiérarchique descendante 89 3.1. Classification non supervisée : classes monothétiques 89 3.1.1. Variables quantitatives 89 3.1.2. Variables de nature mixte 90

IX 3.1.3. Variables binaires : méthode de Williams et Lambert 90 3.1.4. Applications 91 3.2. Classification non supervisée : approche conceptuelle 95 3.2.1. Fonctions PU et CU 95 3.2.2. Algorithme COBWEB 100 3.2.3. Algorithme CLASSIT 100 3.3. Classification de grandes collections de documents : algorithme PDDP 100 3.4. Classification supervisée 102 3.4.1. Méthode CART 103 3.4.2. Méthode CHAID 106 Chapitre 4 Classification par partition 109 4.1. Méthodes k-means 109 4.1.1. Méthode des centres mobiles 110 4.1.2. Méthode des nuées dynamiques 113 4.2. Extension de la méthode k-means aux variables qualitatives ou mixtes 114 4.2.1. Algorithme k-modes 114 4.2.2. Algorithme k-prototypes 115 4.2.3. Autres méthodes 116 4.3. Méthode des k-medoids 117 4.3.1. PAM 117 4.3.2. Autres méthodes : CLARA, CLARANS, FINDIT 120 4.4. Mélange de distributions 124 Chapitre 5 Classification conjointe (hiérarchie et partition) appliquée aux grands tableaux de données mixtes 129 5.1. Différentes étapes 130 5.1.1. Codage des données sous forme disjonctive complète 130 5.1.2. Analyse factorielle du tableau disjonctif complet 130 5.1.3. Classification hiérarchique des individus repérés par leurs composantes factorielles 131 5.1.4. Partition autour des centres mobiles et détermination des groupements stables 132 5.1.5. Classification hiérarchique des groupements stables 132 5.1.6. Consolidation de la partition finale 132 5.2. Application de la classification conjointe : utilisation du logiciel SPAD 133 5.3. Utilisation du logiciel SAS pour effectuer une classification conjointe 146 5.3.1. Les outils proposés par SAS/STAT 146 5.3.2. Les méthodes d'agrégation de la procédure CLUSTER 146 5.3.3. Classification k-means avec la procédure FASTCLUS 147 5.3.4. Enchaînement FASTCLUS - CLUSTER, 147 Chapitre 6 Techniques particulières de classification pour le Data Mining 153 6.1. Méthodes de classification fondées sur la densité 153 6.1.1. Méthode DBSCAN 154 6.1.2. Méthodes dérivées de DBSCAN : GDBSCAN, OPTICS 160 6.1.3. BRIDGE : utilisation conjointe de k-means et DBSCAN 163 6.1.4. Autres méthodes 164 6.2. Méthodes de classification fondées sur un modèle 164 6.2.1. Approche neuronale : le modèle de Kohonen 165 6.2.2. Autres approches probabilistes 174 6.2.3. Approche basée sur la notion de fonction d'influence : DENCLUE 174

6.3. Méthodes fondées sur le quadrillage de l'espace 176 6.4. Classification simultanée des individus et des variables 179 6.4.1. Ré-ordonnancement du tableau après classification séparée des lignes et des colonnes du tableau 179 6.4.2. Ré-ordonnancement des lignes et des colonnes d'un tableau de contingence 182 6.5. Méthode d'agrégation de relations binaires 184 Chapitre 7 Nombre de classes à retenir 189 7.1. Utilisation de l'échelle des similarités associée à un arbre hiérarchique 189 7.2. Autres indices graphiques 190 7.2.1. Indices fondés sur la somme de carrés 190 7.2.2. Indices fondés sur des pseudo-statistiques 192 7.3. Indice dérivé d'une classification fondée sur la densité : BIC 195 7.4. Graphique «silhouette» 196 7.5. Autres indices 201 7.6. Comparaison de deux partitions 201 Chapitre 8 Caractérisation des classes 207 8.1. Caractérisation unidimensionnelle 207 8.1.1. Caractérisation par des variables illustratives 207 8.1.2. Extension aux variables actives 208 8.2. Application : données Cancer 209 8.2.1. Description des classes retenues 211 8.2.2. Valeurs-test 213 8.3. Autres caractérisations unidimensionnelles 213 8.3.1. Graphiques en étoiles 214 8.3.2. Graphiques des profils 214 8.4. Caractérisation multidimensionnelle 214 8.4.1. Représentation graphique des variables et classes sur le meilleur plan factoriel 214 8.4.2. Utilisation d'une méthode explicative multidimensionnelle 217 Chapitre 9 Classification d'un ensemble de variables 219 9.1. Procédure VARCLUS : 220 9.1.1. Algorithme 220 9.1.2. Exemple illustratif 221 9.1.3. Cas de variables binaires à classer : application aux données NHP 225 9.1.4. Cas de variables mixtes à classer : application aux données Cancer 226 9.2. Variante de VARCLUS : méthode de Qannari et Vigneau 230 9.3. Méthode de Lerman 236 9.4. Méthode de Bertin 236 Logiciels et algorithmes 241 Références bibliographiques 247 Index 257