ClustGeo : Classification Ascendante Hiérarchique (CAH) avec contraintes de proximité géographique

Documents pareils
La classification automatique de données quantitatives

Modélisation géostatistique des débits le long des cours d eau.

Agrégation des portefeuilles de contrats d assurance vie

ACP Voitures 1- Méthode

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Classification non supervisée

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Texte Agrégation limitée par diffusion interne

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

Hervé Couturier EVP, SAP Technology Development

Défis de l interdisciplinarité. Professeur Roderick J. Lawrence Université de Genève

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Répondants et non-répondants dans les enquêtes. Analyse des séquences de contact

Protocoles pour le suivi des pontes de tortues marines dans le cadre de Protomac. Professeur Marc Girondot

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Entreposage de données complexes pour la médecine d anticipation personnalisée

Initiation à l analyse en composantes principales

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Application de K-means à la définition du nombre de VM optimal dans un cloud

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Maître de Conférences en mathématiques appliquées Université de Bordeaux - MARS

Etudes marketing et connaissance client

Principe de symétrisation pour la construction d un test adaptatif

L exclusion mutuelle distribuée

CLIQUEZ ET MODIFIEZ LE TITRE

BI2 : Un profil UML pour les Indicateurs Décisionnels

Très légère hausse de la confiance des chefs d entreprise en février

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Annexe 6. Notions d ordonnancement.

Chp. 4. Minimisation d une fonction d une variable

Page 1 Quelques méthodes et outils de la qualité

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

CCP PSI Mathématiques 1 : un corrigé

Les Français et le chauffage. Résultats de l étude menée

Individus et informations supplémentaires

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Cartographie numérique des sols en Bretagne Désagrégation des Unités Cartographiques de Sol

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Théorèmes de Point Fixe et Applications 1

Étude d impact et Services Écosystémiques : Comment identifier et spatialiser les enjeux?

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Livrable 2.1 Rapport d analyse et de restructuration de code monothread des modules P, T, Q et F de l encodage MPEG-4 AVC

Cartes de communautés pour l adaptation interactive de profils dans un système de filtrage d information

Réorganisation hiérarchique de visualisations dans OLAP

Séance 11 : Typologies

Baromètre sur le financement et l accès au crédit des PME

Exemple PLS avec SAS

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Plus courts chemins, programmation dynamique

Mémo d utilisation de ADE-4

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Application du data mining à la segmentation du marché des meubles aux États-Unis

Algorithmique et structures de données I

Analyse dialectométrique des parlers berbères de Kabylie

1 Installer des packages

Chapitre 5 : Flot maximal dans un graphe

Méthodologie Quotes Quality Metrics (QQM)

Les coûts de la production. Microéconomie, chapitre 7

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

FaceBook aime les Maths!

L UNIVERS INSTANTANÉ:

ESIEA PARIS

Création intuitive des éléments d un paysage

La confiance des chefs d entreprise continue de se renforcer en mai

Zimbra Collaboration 8.X

Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.

1 - PRESENTATION GENERALE...

Chapitre 5. Calculs financiers. 5.1 Introduction - notations

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Développements algorithmiques au LIAMA et àamap en vue de l'analyse d'une scène forestière

L ESPACE À TRAVERS LE REGARD DES FEMMES. European Economic and Social Committee Comité économique et social européen

Introduction à MATLAB R

Chapitre 3. Les distributions à deux variables

La plate-forme ArcGIS : Votre avantage Géographique!

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Algorithmes de recommandation, Cours Master 2, février 2011

Faire un semi variograme et une carte krigée avec surfer

Christophe SANNIER

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Prise en compte de la flexibilité des cas de charges dimensionnants en optimisation de structure

Visualizing Start-up Firm Trajectories on Kohonen Maps

Nanofluides et transfert de chaleur par convection naturelle

JF/EP N Contacts IFOP : Jérôme Fourquet / Esteban Pratviel Tél : jerome.fourquet@ifop.com. pour

EXIN Agile Scrum Master

Pourquoi R devient incontournable en recherche, enseignement et développement

Données longitudinales et modèles de survie

Modèle de coopération d un processus de ré-ordonnancement distribué

Un exemple de régression logistique sous

Transcription:

ClustGeo : Classification Ascendante Hiérarchique (CAH) avec contraintes de proximité géographique 4èmes Rencontres R, Grenoble Marie Chavent 2, Vanessa Kuentz-Simonet 1, Amaury Labenne 1,2 & Jérôme Saracco 2 1 IRSTEA, UR ETBX, 33612 Cestas Cedex, France. 2 INRIA, CQFD, F-33400 Talence, France. Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 1 / 20

PLAN 1 Introduction et motivations 2 CAH avec critère additif d hétérogénéité 3 Exemple de la CAH de Ward 4 La méthode hclustgeo 5 Application sur données réelles Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 2 / 20

INTRODUCTION Problématique et objectifs Classification d individus spatialisés : communes, lieux, sections de fleuve,... Méthodes classiques (CAH, k-means) = forte dispersion géographique des classes obtenues. Nécessité d intégrer une information spatiale dans le clustering : Q : Matrice de voisinage entre les individus (Qij = 1 si i et j sont voisins, 0 sinon), D2 : Matrice de distances géographiques entre individus. Quelques approches existantes : Avec Q [1] Legendre et Legendre, 2009 [2] Guo, 2009 [3] Chavent et al., 2009 [4] Ambroise et al., 1997 Avec D2 [5] Webster, 1977 [6] M. A. Oliver, 1988 Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 3 / 20

CAH avec critère additif d hétérogénéité 1/2 On va définir ici un critère additif d hétérogénéité H(P K ) pour une partition P K en K clusters. Critère d hétérogénéité de partition Ce critère est défini comme la somme des critères d hétérogénéité H(C k ) associés aux clusters C k, k = 1,..., K. H(P K ) = K H(C k ). (1) L algorithme de CAH consiste à minimiser ce critère H(P K ) à chaque itération. En effet on rassemble les deux clusters tels que l augmentation de l hétérogénéité de la partition soit minimale. Cela conduit donc à définir une mesure d agrégation entre clusters comme la différence entre l hétérogénéité de la partition avant rassemblement et l hétérogénéité de la partition issue de l agrégation de 2 clusters. k=1 Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 4 / 20

CAH avec critère additif d hétérogénéité 2/2 Mesure d agrégation entre clusters La mesure d agrégation δ(c l, C m ) entre deux clusters d individus C l et C m est définie de la manière suivante : δ(c l, C m ) = H(P K 1 ) H(P K ) = H(C l C m ) H(C l ) H(C m ). (2) Critère de qualité d une partition Un critère de qualité d une partition P K en K clusters peut s écrire de la manière suivante : 1 H(P K ) H(P 1 ), (3) où P 1 est la partition en un seul cluster contenant les n individus. Ce critère varie entre zéro et un. Il vaut 1 pour la partition en n clusters de singletons et zéro pour la partition P 1. Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 5 / 20

Exemple de la CAH avec critère de Ward 1/2 Critère de Ward d hétérogénéité de partition H(P K ) = K H(C k ) = k=1 K I (C k, D) = W (P K, D). (4) où I (C k, D) est l inertie du nuage de point C k et W (P K, D) est l inertie intra-classe de la partition P K calculée à partir de la matrice de distance D. k=1 Mesure de Ward d agrégation entre clusters La mesure d agrégation δ(c l, C m ) entre deux clusters d individus C l et C m est alors : δ Ward (C l, C m ) = H(P K 1 ) H(P K ) = H(C l C m ) H(C l ) H(C m ) = 1 n l n m d 2 (g l, g m ). (5) n n l + n m Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 6 / 20

Exemple de la CAH avec critère de Ward 2/2 Critère de qualité d une partition obtenue avec Ward Le critère de qualité d une partition P K obtenue avec critère de Ward peut être écrit à partir de l Equation (3). Il est égal au pourcentage d inertie expliqué: 1 W (P K, D) I (P 1, D) (6) Ce critère varie entre 0 et 1. Il vaut 1 pour la partition P n en n singletons et 0 pour la partition P 1 en un seul cluster. Nous allons nous baser sur la CAH de Ward pour développer la méthode hclustgeo de CAH intégrant des contraintes géographiques. Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 7 / 20

La méthode hclustgeo 1/4 Le but de la méthode est d intégrer dans la CAH une matrice D 2 de dimension n n contenant les distances géographiques entre les individus. On utilisera également la matrice D 1 de même dimension qui est la matrice de distances euclidiennes entre les individus calculée à partir de la matrice de données X de dimension n p où n individus sont décrits par p variables quantitatives. Critère d hétérogénéité de cluster de la méthode hclustgeo Soit α [0, 1]. On définit le critère H(C k ) comme suit : H(C k ) = αi (C k, D 1 ) + (1 α)i (C k, D 2 ), (7) où I (C k, D 1 ) (resp. I (C k, D 2 )) est l inertie des observations du cluster C k calculée à partir de la matrice de distances euclidiennes D 1 (resp. D 2 ). Ce critère d hétérogénéité permet de donner plus ou moins de poids, par le biais du choix du paramètre α, à la matrice de distances D 1 ou à la matrice de distances D 2. Rq : Le critère d hétérogénéité d une partition est toujours défini de la même façon : H(P K ) = K H(C k ). k=1 Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 8 / 20

La méthode hclustgeo 2/4 A partir du critère d hétérogénéité de clusters défini précedemment, on va définir une mesure d agrégation entre clusters. Mesure d agrégation entre clusters La mesure d agrégation correspond en fait à la somme pondérée (par α et (1 α)) de 2 mesures de Ward calculées avec 2 matrices de distances différentes : δ 1 (C l, C m ) = 1 n l n m n n l +n m d1 2(g l 1, g m) 1 et δ 2 (C l, C m ) = 1 n l n m n n l +n m d2 2(g l 2, g m). 2 On obtient ainsi la mesure d agrégation globale : δ(c l, C m ) = αδ 1 (C l, C m ) + (1 α)δ 2 (C l, C m ) (8) Ainsi, lorsque α = 0, la méthode hclustgeo est une CAH de Ward effectuée uniquement sur la matrice de distances D 2. Inversement, lorsque α = 1, la méthode hclustgeo est une CAH de Ward effectuée sur la matrice de distances D 1. Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 9 / 20

La méthode hclustgeo 3/4 Nous allons voir à travers deux exemples de classification de communes à quel point la typologie obtenue est différente en fonction du choix du paramètre α. Exemples de hclustgeo avec α = 0 et α = 1 Figure : hclustgeo avec α = 0 CAH de Ward sur D2 Figure : hclustgeo avec α = 1 CAH de Ward sur D1 Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 10 / 20

La méthode hclustgeo 4/4 Le choix du paramètre α est très important. 2 critères de qualité de partition peuvent être définis : Qualité de resemblance des individus : Q1 = 1 W (P K,D 1 ) I (P 1,D 1 ) Qualité de rassemblement géographique : Q2 = 1 W (P K,D 2 ) I (P 1,D 2 ) On privilégie Q 1. En effet on cherche avant tout à avoir des individus qui se ressemblent (du point de vue des variables) au sein d une même classe. On choisit comme référence la valeur de Q 1 calculée avec α = 1 (CAH de Ward sur D 1 ). Ensuite, on choisira le plus petit α possible tel que la valeur de Q 1 soit la moins dégradée possible. Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 11 / 20

Application sur données réelles 1/6 Nous allons illustrer l utilisation de la fonction hclustgeo du R-package ClustGeo sur un jeux de données réelles où 303 communes du Sud-Ouest de la France sont décrites par 4 variables quantitatives. Le package permet également la représentation des typologies sur une carte à l aide de l appel au package rcarto. Pour cela les shapefiles (.dbf,.shp,.shx) relatifs aux individus sont nécessaires. Les shapefiles relatifs à l exemple sont disponibles dans le package. Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 12 / 20

Application sur données réelles 2/6 Nous présentons, étape par étape, la méthodologie utilisée ainsi que des extraits de codes. 1ère étape : Choix du nombre de classes avec CAH de Ward basée sur D 1 et dendrogramme # load data > library("clustgeo") > data(comm303) > base <- comm303$data.303 > Dgeo <- comm303$dgeo.303 # path to shapefiles and identifier of observations (needed for the plot) > path.303 <- file.path(path.package("clustgeo"), "shapes/comm303") > ID.ind <- "INSEE_COM" # perform hclustgeo for alpha=1 > res.alpha1 <- hclustgeo(data=base, D.geo=Dgeo, alpha=1) Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 13 / 20

Application sur données réelles 3/6 1ère étape : Choix du nombre de classes avec CAH de Ward basée sur D 1 et dendrogramme # plot of the dendrogram > plot(res.alpha1, choice="dendro") Dendrogram_hclustgeo_alpha=1 # plot of the map > plot(res.alpha1, choice="maps", K.range=5, path.shp=path.303, name.ind.shp=id.ind) 260 244 274 138 172 148 229 102 154 214 106 239 101 220 297 303 92 181 113 226 159 242 111 277 286 292 162 290 279 291 130 103 126 271 70 252 269 177 248 134 136 193 175 174 18 122 257 282 285 245 270 283 158 301 168 280 302 104 218 268 105 253 184 187 241 223 294 296 161 196 276 217 267 205 295 124 129 107 151 160 152 263 110 191 137 117 99 121 157 173 250 272 287 183 300 289 128 278 37 293 254 91 165 170 275 284 234 259 288 273 298 97 171 190 246 116 54 261 120 281 43 427 36 238 299 32 67 84 149 665 21 27 224 176 246 78 265 266 125 139 146 166 89 213 192 256 133 145 235 198 221 189 222 178 212 156 164 236 100 247 1479 131 264 50 25 127 119 202 85 57 115 169 118 135 95 45 64 186 203 140 207 230 200 179 201 108 262 11 34 48 96 155 194 16 258 232 114 86 240 60 210 208 29 79 39 46 23 63 123 211 10 41 61 81 109 185 219 65 47 35 206 83 68 228 19 49 55 75 31 167 142 249 52 182 132 30 188 28 721 163 144 7648 180 197 20 73 243 112 44 98 69 195 26 62 59 13 15 80 204 56 90 71 94 215 225 233 143 153 17 38 82 87 93 209 199 150 216 77 231 251 88 74 40 33 237 141 227 22 255 51 53 Height 0.00 0.01 0.02 0.03 0.04 0.05 Figure : hclustgeo avec α = 1 Figure : hclustgeo avec α = 1 Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 14 / 20

Application sur données réelles 4/6 2ème étape : Choix du paramètre α # perform hclustgeo for several values of alpha > multi.alpha <- seq(0, 1, 0.1) > res.alpha <- hclustgeo(data=base, D.geo=Dgeo, alpha=multi.alpha) # plot of the qualities > plot.qual <- plot(res.alpha, choice="quality", K.range=5) Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 15 / 20

Application sur données réelles 5/6 3ème étape : Classification obtenue pour α = 0.7 et description des classes #plot of the two maps plot(res.alpha, choice="maps", K.range=5, choice.alpha=c(0.7, 1), path.shp=path.303, name.ind.shp=id.ind) Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 16 / 20

Application sur données réelles 6/6 3ème étape : Classification obtenue pour α = 0.7 et description des classes #Obtain description of partitions summ<-summary(res.alpha, K.range=5, choice.alpha=c(0.7, 1)) summ$"summary_hclustgeo.alpha=0.7"$desc$"k=5" summ$"summary_hclustgeo.alpha=1"$desc$"k=5" Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 17 / 20

CONCLUSION La méthode hclustgeo permet d intégrer de l information géographique (par le biais de α) au sein de la CAH de Ward. Une méthode graphique permet de choisir α simplement. La fonction plot permet l affichage de cartes directement à partir de shapefiles. Possibilité de choix de différentes matrices D 2 : par exemple la distance par la route peut être plus pertinente. Le package ClustGeo est disponible sur GitHub et très prochainement sur le CRAN. devtools::install_github("amaurylabenne/clustgeo") # This needs the devtools package to be installed : # install.packages("devtools") Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 18 / 20

BIBLIOGRAPHIE [1] P. Legendre and L. Legendre. Chapter 12 - Ecological data series. In P. L. a. L. Legendre, editor, Developments in Environmental Modelling, volume 24 of Numerical Ecology, pages 711 783. Elsevier, 2012 [2] D. Guo. Greedy Optimization for Contiguity-Constrained Hierarchical Clustering. In IEEE International Conference on Data Mining Workshops, 2009. ICDMW 09, pages 591 596, Dec. 2009. [3] M. Chavent, Y. Lechevallier, F. Vernier, and K. Petit. Monothetic Divisive Clustering with Geographical Constraints. In P. Brito, editor,compstat 2008, pages 67 76. Physica-Verlag HD, 2008. [4] C. Ambroise, M. Dang, and G. Govaert. Clustering of Spatial Data by the EM Algorithm. In A. Soares, J. Gómez-Hernandez, and R. Froidevaux, editors, geoenv I Geostatistics for Environmental Applications, number 9 in Quantitative Geology and Geostatistics, pages 493 504. Springer Netherlands, 1997. [5] R. Webster. Quantitative and numerical methods in soil classification and survey. Clarendon Press, Oxford; New York, 1977. [6] R. W. M. A. Oliver. A geostatistical basis for spatial weighting in multivariate classification. 21(1): 15 35, 1988. ISSN 0882-8121. doi: 10.1007/BF00897238. Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 19 / 20

MERCI DE VOTRE ATTENTION... Amaury Labenne ClustGeo : CAH avec contraintes de proximité géographique 20 / 20