PhD. Manuel Alfredo PECH PALACIO. On December 12 th, 2005



Documents pareils
Forthcoming Database

Wireless G USB Network Adapter Adaptateur réseau G sans fil USB Adaptador de red USB Wireless G

Travailler en réseau. Know Cities: un proyecto de red

Instructions Mozilla Thunderbird Page 1

Les SMS*, une bonne affaire

Bourses d excellence pour les masters orientés vers la recherche

SECUENCIA 1 ASÍ SOY YO

Professeurs ESCP-EAP vers TEC Monterrey (Mexique)

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

For 2 to 4 players Ages 6 to adult Playing time: approximately 30 minutes. Components: 1 Starter Tile, 70 Playing Tiles, Score Pad

Application Form/ Formulaire de demande

Exemple PLS avec SAS

MaxSea TimeZero Support & Training Services

Comfort Duett. TV-kit. USA: English/Français/Español. Comfort Duett

Quick start guide. HTL1170B

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Programme

Mon Service Public - Case study and Mapping to SAML/Liberty specifications. Gaël Gourmelen - France Telecom 23/04/2007

An Ontology-Based Approach for Closed-Loop Product Lifecycle Management

BULLETIN D INSCRIPTION 1 : STAGES ESPAGNE

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

MERCI DE NOUS RENVOYER VOTRE TEST A : info@soft-formation.com TEST ESPAGNOL NOM DU STAGIAIRE : PRENOM DU STAGIAIRE :

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

INFORME DE EVALUACIÓN INTERMEDIA DEL PROGRAMA OPERATIVO INTEGRADO DE CANTABRIA -ANEXO-

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

Secretaries / CEOs of Unions and Regional Associations in Membership

CONVENTION DE STAGE TYPE STANDART TRAINING CONTRACT

Editing and managing Systems engineering processes at Snecma

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

Contrôle d'accès Access control. Notice technique / Technical Manual

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

STATISTIQUES DE LA PÊCHERIE THONIERE IVOIRIENNE DURANT LA PERIODE EN 2012

APPENDIX 6 BONUS RING FORMAT

1.The pronouns me, te, nous, and vous are object pronouns.

DOCUMENTATION - FRANCAIS... 2

MATERIALES DE FAMILIARIZACIÓN CON LAS PRUEBAS LINGÜÍSTICAS: FORMATO PAPEL

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

SMALL CITY COMMERCE (EL PEQUEÑO COMERCIO DE LAS PEQUEÑAS CIUDADES)

DOCUMENTATION - FRANCAIS... 2

FRENCH INSTALLATION DES BATTERIES FIXATION DU CHARGEUR CHARGER LE CHARGEUR ACTIVER LE CHARGEUR

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

Contents Windows

Industrial Phd Progam

CEPF FINAL PROJECT COMPLETION REPORT

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Program

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

Francoise Lee.

WEB page builder and server for SCADA applications usable from a WEB navigator

AirCard 503 MODEM QUICK START GUIDE GUIDE DE DÉMARRAGE RAPIDE GUÍA DE INICIO RÁPIDO.

Règlement sur le télémarketing et les centres d'appel. Call Centres Telemarketing Sales Regulation

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Face Recognition Performance: Man vs. Machine

RAPID Prenez le contrôle sur vos données

Academic Project. B2- Web Development. Resit Project. Version 1.0 Last update: 24/05/2013 Use: Students Author: Samuel CUELLA

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

Township of Russell: Recreation Master Plan Canton de Russell: Plan directeur de loisirs

How to Login to Career Page

Tammy: Something exceptional happened today. I met somebody legendary. Tex: Qui as-tu rencontré? Tex: Who did you meet?

ETABLISSEMENT D ENSEIGNEMENT OU ORGANISME DE FORMATION / UNIVERSITY OR COLLEGE:

BNP Paribas Personal Finance

Once the installation is complete, you can delete the temporary Zip files..

33 inch open & closed storage Rangement à espace fermé et ouvert de 33po (83.7cm) 33 pulgadas almacenaje abierto y cerra

Frequently Asked Questions

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

PeTEX Plateforme pour e-learning et expérimentation télémétrique

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

Dans une agence de location immobilière...

34 Desk + Monitor Shelf Escritorio 0,86m + Estante para monitor Bureau 0,86m + Étagère écran

NOM ENTREPRISE. Document : Plan Qualité Spécifique du Projet / Project Specific Quality Plan

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

Practice Direction. Class Proceedings

SERVEUR DÉDIÉ DOCUMENTATION

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

Improving the breakdown of the Central Credit Register data by category of enterprises

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

: Machines Production a créé dès 1995, le site internet

MANAGEMENT SOFTWARE FOR STEEL CONSTRUCTION

Trim Kit Installation Instruction

Integrated Music Education: Challenges for Teaching and Teacher Training Presentation of a Book Project

L. Obert, T. Lascar, A. Adam

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

UNIVERSITE DE YAOUNDE II

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

La solution idéale de personnalisation interactive sur internet

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

QUELQU UN PEINT UN TABLEAU POUR NOUS

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

en SCÈNE RATIONAL Rational Démonstration SDP : automatisation de la chaîne de développement Samira BATAOUCHE sbataouche@fr.ibm.com

Notice Technique / Technical Manual

MASSEY COLLEGE & UNIVERSITY OF TORONTO

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

Hervé Couturier EVP, SAP Technology Development

7.5 WATT FOLDING SOLAR CHARGER

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

Transcription:

2005 ISAL 00118 PhD Jointly awarded at the Institut National des Sciences Appliquées de Lyon (Ecole Doctorale Informatique et Information pour la Société) and the Universidad de las Américas, Puebla (School of Engineering, Department of Computer Sciences) By Manuel Alfredo PECH PALACIO On December 12 th, 2005 "Spatial Data Modeling and Mining using a Graph-based Representation" ---------------------------------------------------- PhD Committee Chair, Pr. Eduardo Morales Manzanares, ITESM, Morelos Tutors: Pr. Robert Laurini, INSA of Lyon Dr. Anne Tchounikine, INSA of Lyon Dr. David Sol Martínez, UDLAP Dr. Jesús A. González Bernal, INAOE Reviewers: Pr. Hervé Martin, U. Joseph Fourier, Grenoble Dr Nicandro Cruz Ramírez, U. Veracruzana Examiner: Dr. François Fages, INRIA

ABSTRACT Motivation Several approaches have been developed for mining spatial data (i.e., generalization-based methods, clustering, spatial associations, approximation and aggregation, mining in image and raster databases, spatial classification and spatial trend detection). However, we argue that these approaches do not consider all the elements found in a spatial database (spatial data, non-spatial data and spatial relations among the spatial objects) in an extended way. Some of them focus first on spatial data and then on non-spatial data or vice versa, and others consider restricted combinations of these elements. We think that it is possible to enhance the generated results of the data mining task by mining them as a whole and not as separate elements (they are related elements). A graph representation provides the flexibility to describe these elements together and this is the motivation to explore the area of graph-based spatial knowledge discovery. I

Proposal Our idea is to create a unique graph-based model to represent spatial data, non-spatial data and the spatial relations among spatial objects. We will generate datasets composed of graphs with a set of these three elements. We consider that by mining a dataset with these characteristics a graph-based mining tool can search patterns involving all these elements at the same time improving the results of the spatial analysis task. A significant characteristic of spatial data is that the attributes of the neighbors of an object may have an influence on the object itself. So, we propose to include in the model three relationship types (topological, orientation, and distance relations). In the model the spatial data (i.e., spatial objects), non-spatial data (i.e., non-spatial attributes), and spatial relations are represented as a collection of one or more directed graphs. A directed graph contains a collection of vertices and edges representing all these elements. Vertices represent either spatial objects, spatial relation types between two spatial objects (binary relation), or non-spatial attributes describing the spatial objects. Edges represent a link between two vertices of any type. According to the type of vertices that an edge joins, it can represent either an attribute name or a spatial relation name. The attribute name can refer to a spatial object or a non-spatial entity. We use directed edges to represent directional information of relations among elements (i.e., object x covers object y) and to describe attributes about objects (i.e., object x has attribute z). We propose to adopt the Subdue system, a general graph-based data mining system developed at the University of Texas at Arlington, as our mining tool. Subdue discovers II

substructures using a graph-based representation of structural databases. The substructures (a connected subgraph within the graphical representation) describe structural concepts in the data (i.e., patterns). The discovery algorithm follows a computationally constrained beam search. The algorithm begins with the substructure matching a single vertex in the graph. On each iteration, the algorithm selects the best substructure and incrementally expands the instances of the substructure. An instance of a substructure in the input graph is a subgraph that matches (graph theoretically) that substructure. A special feature named overlap has a primary role in the substructures discovery process and consequently a direct impact over the generated results. However, it is currently implemented in an orthodox way: all or nothing. If we set overlap to true, Subdue will allow the overlap among all instances sharing at least one vertex. On the other hand, if overlap is set to false, Subdue will not allow the overlap among instances sharing at least one vertex. So, we propose a third approach: limited overlap, which gives the user the capability to set over which vertices the overlap will be allowed (vertices representing remarkable elements that refer, for instance, to a spatial object in a spatial database or to some characteristic defining a particular topic of a dataset). We visualize directly three motivations issues to propose the implementation of the new algorithm: search space reduction, processing time reduction, and pattern oriented search. III

Contribution The contribution to the discovery knowledge in the spatial data domain, described in this dissertation, is the development of a new approach for spatial data modeling and mining using a graph-based representation. This contribution includes the following results: A new graph-based data representation for spatial, non-spatial data and spatial relations. A new algorithm to discover substructures using a limited overlap approach in the Subdue system. A prototype system implementing the proposed model. IV

Acknowledgments Thank you; you are my guide, motivation and inspiration: Erandi, my darling wife Paula Ireri, my wonderful daughter Manuel André, my little son Manuel and Elsy, my parents I want to express my gratitude, respect and admiration my tutors for the time, advices and support they granted me during the research: Mexican tutors: Dr. David Sol Martínez Dr. Jesús A. González Bernal Gracias French tutors: Pr. Robert Laurini Dr. Anne Tchounikine Merci V

This works was supported in part by the Excellent Graduate Scholarship from the Fundación Universidad de las Américas, Puebla, 38257-H project (Habitar y vivir. Análisis del espacio habitacional de la ciudad de Puebla 1690-1890) Scholarship from the Mexican Council of Science and Technology, SIRPO project (Sistema de Información para los Riesgos del Popocatépetl) research grand from the Laboratoire Franco-Mexicain d'informatique, the Institut National des Sciences Appliquées de Lyon, and Excellent Scholarship from the Gobierno del Estado de Quintana Roo. VI

Table of contents ABSTRACT... I Motivation... I Proposal... II Contribution... IV Appendix A RESUMEN EN ESPAÑOL...i A.1. Introducción...i A.1.1 Métodos basados en generalización... ii A.1.2 Agrupamiento... iii A.1.3 Asociaciones espaciales...iv A.1.4 Aproximación y agregación...iv A.1.5 Minería de datos en imágenes...v A.1.6 Clasificación de datos espaciales...v A.1.7 Detección de tendencias espaciales...vi A.2. Motivación...vi A.2.1 Relaciones espaciales... vii A.3 Representaciones basadas en grafos... viii VII

A.4 Minando el grafo...xix A.5 Resultados... xxii A.6 Conclusiones...xxx A.7 Contribución... xxxiii Appendix B RÉSUMÉ EN FRANÇAIS...xxxv B.1. Introduction...xxxv B.1.1 Méthodes basées sur la généralisation...xxxvi B.1.2 Regroupement... xxxvii B.1.3 Associations spatiales... xxxviii B.1.4 Rapprochement et agrégation... xxxviii B.1.5 Fouille de données-images...xxxix B.1.6 Classification de données spatiales...xxxix B.1.7 Détection de tendances spatiales...xl B.2. Motivation...xl B.2.1 Relations spatiales... xli B.3 Représentations basées sur des graphes... xlii B.4 Fouille du graphe... liii B.5 Résultats... lvi B.6 Conclusions... lxiv B.7 Contribution... lxvii Chapter 1 INTRODUCTION...1 1.1 Motivation...2 1.2 Proposal...4 1.3 Contribution...6 VIII

1.4 Organization of the thesis...7 Chapter 2 RELATED WORK...8 2.1 Geographic Information System (GIS)...8 2.2 Data Mining...12 2.2.1 Spatial Data Mining...15 2.2.1.1 Generalization-based Method...16 2.2.1.2 Clustering...17 2.2.1.3 Spatial Associations...19 2.2.1.4 Approximation and Aggregation...20 2.2.1.5 Mining an Image Database...22 2.2.1.6 Classification Learning...23 2.2.1.7 Spatial Trend Detection...24 2.3 Spatial relations...24 2.3.1 Neighborhood Graphs, Neighborhood Paths and Neighborhood Indices...25 2.3.2 Topological Relations...26 2.3.3 Distance Relations...28 2.3.4 Direction Relations...29 2.4 Conclusion...30 Chapter 3 GRAPH-BASED REPRESENTATIONS...31 3.1 Generalities...31 3.2 Methodology...33 3.3 Spatial Graph-based Data Representations...36 3.4 Use-case...52 3.5 Conclusion...58 IX

Chapter 4 MINING THE GRAPH...59 4.1 Characteristics...59 4.1.1 Main Functions...63 4.2 Overlap...66 4.3 Limited Overlap...81 4.4 Conclusion...94 Chapter 5 PROTOTYPE...96 5.1 Population Census from the year of 1777 in Puebla downtown...97 5.2 Modules...101 5.3 Conclusion...115 Chapter 6 RESULTS...117 6.1 Population census from the year of 1777 in Puebla downtown...118 6.1.1 Use-case: El Sagrario...121 6.1.2 Use-case: People living along the borders of the river crossing Puebla downtown...131 6.2 Popocatépetl volcano...136 6.2.2. Use-case: Popocatépetl...138 6.2.2.1 Model #1 - base model...140 6.2.2.2 Model #2 - single replication of relation types, complete information...147 6.2.2.3 Model #3 - double replication of relation types, no complete information 151 6.2.2.4 Model #4 - single replication of relation types, no complete information.155 6.2.2.5 Model #5 - double replication of relation types, complete information...159 6.3 Conclusion...167 Chapter 7 CONCLUSIONS...169 X

BIBLIOGRAPHY...174 Appendix C AGREEMENTS UDLAP/INSA DE LYON... lxix C.1 CONVENTION DE CO-TUTELLE DE THÈSE...lxx C.2 AVENANT RELATIF A LA CONVENTION DE THÈSE EN CO-TUTELLE DE MANUEL ALFREDO PECH PALACIO... lxxiii XI

List of figures Figura A.1. Modelo basado en grafos para representar datos espaciales....ix Figura A.2. Base de datos de ejemplo para caracterizar los 3 modelos propuestos....xi Figura A.3. Modelo #1 - modelo base.... xii Figura A.4. Modelo #2 - replicación simple de tipos de relación, información completa. xiii Figura A.5. Modelo #3 - doble replicación de tipos de relación, información no completa.xv Figura A.6. Relaciones entre carreteras y ríos usando el modelo #1...xxiv Figura A.7. Relaciones entre carreteras y poblaciones usando el modelo #1...xxv Figura A.8. Relaciones entre ríos y poblaciones usando el modelo #1.... xxvii Figure B.1. Modèle basé sur des graphes pour représenter des données spatiales... xliii Figure B.2. Base d'exemple pour caractériser les 3 modèles proposés...xlv Figure B.3. Modèle n 1 - modèle base.... xlvi Figure B.4. Modèle n 2 - réplication simple des types de relation, information complète.... xlvii Figure B.5. Modèle n 3 - double réplication des types de relation, information non complète... xlix Figure B.6. Relations entre des routes et des rivières en utilisant le modèle n 1... lviii XII

Figure B.7. Relations entre des routes et des villes en utilisant le modèle n 1.... lix Figure B.8. Relations entre des rivières et des villes en utilisant le modèle n 1.... lxi Figure 2.1. Geographic Information System....11 Figure 2.2. Knowledge Discovery in Databases...13 Figure 2.3. Data mining: integration of several fields....14 Figure 2.4. Architecture for a KDD system...15 Figure 2.5. Example of the interior, boundary and exterior of a circle....27 Figure 2.6. Nine intersection model...27 Figure 2.7. Topological Relations...28 Figure 2.8. Distance Relations...28 Figure 2.9. Direction Relations...30 Figure 3.1. General graph-based model to represent spatial data...35 Figure 3.2. Sample dataset...40 Figure 3.3. Model #1 - base model....42 Figure 3.4. Model #2 - single replication of relation types, complete information...43 Figure 3.5. Model #3 - double replication of relation types, no complete information...45 Figure 3.6. Model #4 - single replication of relation types, no complete information...47 Figure 3.7. Model #5 - double replication of relation types, complete information...48 Figure 3.8. Spatial database representing some objects of the world...53 Figure 3.9. Selection window....54 Figure 3.10. Querying a spatial database...55 Figure 3.11. Graph-based representation for spatial data....56 Figure 4.1. Graph representation of the house domain...61 Figure 4.2. Substructure and instances discovered from the house domain by Subdue....62 XIII

Figure 4.3. Substructure replacement procedure in the house domain...62 Figure 4.4. Graph representation of the house domain after substructure replacement....63 Figure 4.5. SGISO - input graph_1...67 Figure 4.6. SGISO - input graph_2...67 Figure 4.7. SGISO - no overlap....68 Figure 4.8. SGISO - no overlap, 1 instance in graph_2...68 Figure 4.9. SGISO - overlap....68 Figure 4.10. SGISO - overlap, 4 instances in graph_2....68 Figure 4.11. MDL - input graph_1....71 Figure 4.12. MDL example 1 - input graph_2...72 Figure 4.13. MDL example 1 - no overlap....72 Figure 4.14. MDL example 2 - input graph_2...73 Figure 4.15. MDL example 2 - overlap....73 Figure 4.16. MDL example 3 - input graph_2...74 Figure 4.17. MDL example 3 - overlap....74 Figure 4.18. MDL example 4 - input graph_2...75 Figure 4.19. MDL example 4 - overlap....75 Figure 4.20. MDL example 5 - input graph_2...76 Figure 4.21. MDL example 5 - overlap....76 Figure 4.22. MDL example 6 - input graph_2...77 Figure 4.23. MDL example 6 - overlap....77 Figure 4.24. MDL example 7 - input graph_2...78 Figure 4.25. MDL example 7 - overlap....78 Figure 4.26. MDL example 8 - input graph_2...79 XIV

Figure 4.27. MDL example 8 - overlap....79 Figure 4.28. MDL example 9 - input graph_2...80 Figure 4.29. MDL example 9 - overlap....80 Figure 4.30. Limited overlap - input graphs PS_1 and PS_2....82 Figure 4.31. Limited overlap - input graph_3...82 Figure 4.32. No overlap - SGISO....84 Figure 4.33. Overlap - SGISO....84 Figure 4.34. Limited overlap PS_1 - SGISO...84 Figure 4.35. Limited overlap in the Subdue system....87 Figure 4.36. No overlap - compressed graph...88 Figure 4.37. No overlap - discovered substructures....90 Figure 4.38. Overlap - compressed Graph...91 Figure 4.39. Overlap - discovered substructures....92 Figure 4.40. Limited overlap PS_1 - compressed graph...93 Figure 4.41. Limited overlap - discovered substructures...94 Figure 5.1. Representation of spatial concepts in the census from the year of 1777...98 Figure 5.2. First representation for the non-spatial data in the population census from the year of 1777....100 Figure 5.3. Second representation for the non-spatial data in the population census from the year of 1777....101 Figure 5.4. The query panel...103 Figure 5.5. The map panel....106 Figure 5.6. The spatial graph panel...109 Figure 5.7. Graph representation of processed data...111 XV

Figure 5.8. The non-spatial graph panel....112 Figure 5.9. The Subdue panel....113 Figure 5.10. Example of Subdue s standard output...114 Figure 5.11. Layout for reading the Subdue s discovered substructures...115 Figure 6.1. Population census from the year of 1777 in Puebla downtown....118 Figure 6.2. Parishes in Puebla downtown in the 1777 year...120 Figure 6.3. Blocks 150m. from representative church, parish El Sagrario....122 Figure 6.4 Example of a generated graph in the use-case El Sagrario...122 Figure 6.5. Examples of discovered patterns by using standard overlap in use-case El Sagrario (1)....124 Figure 6.6. Examples of discovered patterns by using limited overlap in use-case El Sagrario (1)....126 Figure 6.7. Processing time standard vs. limited overlap: use-case El Sagrario (1)....127 Figure 6.8. Blocks 150m. North side from representative church, parish El Sagrario...128 Figure 6.9. Examples of discovered patterns in the use-case El Sagrario (2)...130 Figure 6.10. Processing time standard vs. limited overlap: use-case El Sagrario (2)....131 Figure 6.11. Blocks 50m. from river crossing Puebla downtown....132 Figure 6.12. Examples of discovered patterns in use-case people around the river crossing Puebla downtown...133 Figure 6.13. Processing time standard vs. limited overlap: use-case people around the river crossing Puebla downtown...134 Figure 6.14. Popocatépetl volcano...137 Figure 6.15. Popocatépetl volcano: study zone....138 Figure 6.16. Relationships among roads and rivers by using model #1....142 XVI

Figure 6.17. Relationships among roads and settlements by using model #1....144 Figure 6.18. Relationships among rivers and settlements by using model #1...146 Figure 6.19. Relationships among roads and rivers by using model #2....148 Figure 6.20. Relationships among roads and settlements by using model #2....149 Figure 6.21. Relationships among rivers and settlements by using model #2...150 Figure 6.22. Relationships among roads and rivers by using model #3....152 Figure 6.23. Relationships among roads and settlements by using model #3....153 Figure 6.24. Relationships among rivers and settlements by using model #3...154 Figure 6.25. Relationships among roads and rivers by using model #4....156 Figure 6.26. Relationships among roads and settlements by using model #4....157 Figure 6.27. Relationships among rivers and settlements by using model #4...158 Figure 6.28. Relationships among roads and rivers by using model #5....160 Figure 6.29. Relationships among roads and settlements by using model #5....161 Figure 6.30. Relationships among rivers and settlements by using model #5...162 XVII

List of tables Tabla A.1. Características de los modelos de representación basados en grafos....xvi Tabla A.2. Instancias/iteraciones por cada modelo basado en grafos: caso de uso Popocatépetl... xxviii Tabla A.3. Max/Min de instancias descubiertas por objeto-objeto /característica overlap....xxix Tabla A.4. Promedio de instancias descubiertas por modelo/ objeto-objeto....xxix Tabla A.5. Promedio de instancias descubiertas por modelo/característica overlap...xxx Tabla A.6. Promedio de instancias descubiertas por modelo....xxx Table B.1. Caractéristiques des modèles de représentation basés sur des graphes....l Table B.2. Instances/itérations par chaque modèle basé sur des graphes : cas d'utilisation Popocatépetl... lxii Table B.3. Max/Min d'instances découvertes par "objet-objet"/caractéristique recouvrement.... lxiii Table B.4. Moyenne d'instances découvertes par modèle/"objet-objet".... lxiii Table B.5. Moyenne d'instances découvertes par modèle/caractéristique recouvrement.. lxiv Table B.6. Moyenne d'instances découvertes par modèle.... lxiv XVIII

Table 3.1. Characteristics of the graph-based representation models...49 Table 6.1. Instances/iterations by each graph-based model: Popocatépetl use-case....163 Table 6.2. The best model to discover complete patterns among the road and river spatial objects (no overlap)...164 Table 6.3. Max/Min of discovered instances by object-object /overlap feature....165 Table 6.4. Average of discovered instances by model/ object-object...166 Table 6.5. Average of discovered instances by model/overlap feature....166 Table 6.6. Average of discovered instances by model....167 XIX

Appendix A RESUMEN EN ESPAÑOL A.1. Introducción En los últimos años hemos sido testigos del rápido crecimiento en el número, capacidad y diseminación de aplicaciones informáticas dedicadas a la obtención, generación, manipulación y almacenamiento de datos en diversos ámbitos de la vida humana. Esto ha propiciado una gran cantidad de colecciones de datos cuyo análisis por medios manuales se vuelve una tarea complicada. Recordemos que en muchas ocasiones los datos crudos necesitan ser analizados e interpretados para convertirlos en información útil y provechosa. Tal situación ha propiciado una creciente necesidad por técnicas/herramientas computacionales que nos ayuden en estas tareas. Descubrimiento de conocimiento en bases de datos (KDD, por sus siglas en el idioma Inglés) es definido como la extracción no trivial de información implícita, previamente desconocida y potencialmente útil a partir de datos [16]. Este es un proceso iterativo e interactivo que envuelve diferentes fases. El núcleo del proceso es la fase de minado de datos, que se conceptualiza como la aplicación de algoritmos de análisis de datos y de descubrimiento que bajo parámetros aceptables de i

eficiencia computacional producen/descubren una enumeración particular de patrones sobre los datos mismos [12]. En este mismo contexto, pero enfocado al análisis y explotación de datos provenientes de fenómenos generados en, sobre, y bajo la superficie de la tierra, llamados datos espaciales, ha generado un nuevo dominio de investigación llamado Minería de datos Espaciales. De tal forma, la Minería de datos espaciales se enfoca al descubrimiento de conocimiento implícito, y previamente desconocido en datos espaciales [16]. Como resultado de esta necesidad creciente diversos enfoques para el minado de datos espaciales han sido desarrollados, entre los más representativos encontramos: A.1.1 Métodos basados en generalización La generalización ha demostrado ser uno de los métodos efectivos para descubrir conocimiento. Fue introducido por la comunidad de aprendizaje máquina y se basa en el aprendizaje a partir de ejemplos. El descubrimiento de conocimiento basado en generalización requiere jerarquías de conceptos (dadas explícitamente por el experto ó generadas automáticamente). En la caso de las bases de datos espaciales, pueden darse dos tipos de jerarquías de conceptos: (1) Jerarquías temáticas, por ejemplo, generalizar tomates y plátanos como frutas, las frutas y vegetales como alimentos de origen vegetal. (2) Jerarquías espaciales, por ejemplo, generalizar una serie de puntos espaciales como una región ó país. ii

Lu et al. [35] extienden la técnica attribute-oriented induction a las bases de datos espaciales. Esta técnica se basa en escalar la jerarquía de generalización e ir resumiendo las relaciones entre los datos espaciales y no espaciales a un nivel de concepto más alto. Los autores presentan dos algoritmos basados en generalización: (1) Enfoque de dominación de datos no espaciales. Este método realiza en primera instancia inducción orientada al atributo sobre los datos no-espaciales y posteriormente sobre los espaciales. (2) Enfoque de dominación de datos espaciales. Dado la jerarquía de datos espaciales, la generalización se realizado primero sobre estos datos y posteriormente sobre los datos no espaciales. A.1.2 Agrupamiento Agrupamiento (clustering) es el proceso de agrupar de manera física ó abstracta objetos en clases de objetos similares. Este enfoque de minería de datos nos ayuda a construir particiones representativas de un conjunto de objetos dada una medida de similitud/distancia (Ej. distancia euclidiana). Esto es, el agrupamiento de datos identifica grupos (clusters) ó regiones densamente pobladas de acuerdo a alguna medida de distancia en un conjunto de datos multidimensionales. Podemos clasificar a los algoritmos de agrupamiento en cuatro grupos principales: Algoritmos de particionamiento basados en los enfoques k-means (centro de gravedad del cluster) y k-medoid (objeto representativo del cluster), algoritmos jerárquicos, algoritmos basados en la ubicación de los objetos (agrupamiento por densidad), y por último los basados en grids. iii

A.1.3 Asociaciones espaciales Una regla de asociación espacial es una regla que describe la implicación de uno o un conjunto de objetos por otro conjunto de objetos en base de datos espaciales [29]. Un ejemplo de una regla de asociación espacial podría ser si la empresa se ubica cerca de la Ciudad de México entonces es una empresa grande. Una regla de asociación espacial es de la forma X Y, donde X y Y son conjuntos de predicados espaciales o no espaciales. Existen varios tipos de predicados espaciales que pudieran constituir una regla de asociación espacial, por ejemplo, relaciones topológicas como son intersección, traslape y orientaciones espaciales tales como Izquierda_de, y Oeste_de. A.1.4 Aproximación y agregación Los métodos basados en aproximación y agregación buscan analizar las características de grupos de objetos (clusters) en base a objetos (features) cercanos a ellos. Proximidad agregada es la medida de cercanía de un conjunto de puntos en un cluster a un feature. La idea de encontrar relaciones de proximidad no es un problema simple como podría parecer, existen tres razones para esta aseveración. Supongamos que tenemos un cluster de puntos y queremos encontrar los k-features más cercanos a él: El tamaño y forma del cluster y los features puede ser muy variado. Podríamos tener una gran cantidad de features para examinar. Aún en el caso de encontrar una forma conocida (Ej. polígono) que describa la forma del cluster, sería inadecuado reportar los features cuyos límites estén más iv

cerca a los límites de éste, porque la distribución de los puntos al interior del cluster puede no ser uniforme. A.1.5 Minería de datos en imágenes Extracción de patrones a partir de imágenes es otro enfoque de minería de datos espaciales. En la literatura existen diversos trabajos de minado de datos desarrollados bajo este enfoque. Por ejemplo, Fayyad et al. [14] presentan un sistema para la identificación y categorización de volcanes en la superficie de Venus a partir de imágenes transmitidas por la sonda espacial Magellan. En otro trabajo [15] (Second Palomar Observatory Sky Survey) se usaron árboles de decisión para la clasificación de galaxias, estrellas y otros objetos estelares. Stolorz et al. [44] y Shek et al. [41] efectuaron estudios sobre minería de datos espacio-temporal en conjuntos de datos geofísicos. A.1.6 Clasificación de datos espaciales La clasificación de datos espaciales tiene como objetivo encontrar reglas que dividan un conjunto de objetos en un número de grupos, donde los objetos de cada grupo pertenecen a una clase. Diversos tipos de información pueden ser usados para caracterizar los objetos espaciales. Por ejemplo, atributos no espaciales de un objeto, predicados espaciales y funciones espaciales. La idea es usar esta información para extraer ya sea atributos para la etiquetación de clases (atributos que dividen los datos en clases) y atributos predictivos (atributos cuyos valores son usados en un árbol de decisión para crear sus ramas). v

A.1.7 Detección de tendencias espaciales Detección de tendencias espaciales describe los cambios regulares de uno ó más atributos no espaciales de un objeto cuando éste se desplaza desde un punto de referencia inicial. Un ejemplo de tendencia espacial sería alejándose del centro histórico de la ciudad de Puebla es precio de los terrenos decrece. Las trayectorias de movimiento a partir de un punto x son usadas para modelar dicho movimiento y análisis de regresión sobre los atributos de los objetos son usados para describir patrones de cambio. Existen dos tipos de tendencias: globales y locales. A.2. Motivación Aunque los enfoques antes mencionados realizan la tarea de minado de datos espaciales de manera exitosa, nuestra percepción es que éstos no consideran todos los elementos encontrados en una base de datos espaciales (datos espaciales, datos no espaciales y relaciones espaciales entre los objetos espaciales) de una manera integral. Es decir, algunos de ellos primero realizan minado de datos espaciales y posteriormente minado de datos no espaciales ó viceversa, y otros permiten combinaciones de estos elementos pero de manera restringida. Con base en lo anterior, proponemos el argumento siguiente: si somos capaces de representar los datos espaciales, no espaciales y las relaciones entre objetos espaciales como un solo conjunto de datos, y lo minamos como tal, podríamos generar/encontrar patrones de conocimiento que describan/caractericen nuestro conjunto de datos conteniendo estos tres elementos de manera conjunta. Para tal efecto en este trabajo se argumenta que vi

una representación basada en grafos es lo suficientemente flexible y poderosa para representar estos elementos de manera conjunta, fácilmente entendible y capaz de crear diferentes representaciones del mismo dominio. El dominio es descrito usando grafos, los grafos se convierten en datos de entrada para una herramienta de descubrimiento de conocimiento basada en grafos la cual usa heurísticas para seleccionar subgrafos que son considerados importantes (patrones). Un grafo es definido como un par G = (V,E). V = {v 1,,v n } denota un conjunto finito de elementos llamados vértices. E es un conjunto de arcos e satisfaciendo E [V] 2. Entonces, cada arco e E es un par (v i,v j ). Si (v i,v j ) es un par ordenado para cualesquiera (v i,v j ) E, entonces se dice que G = (V,E) es un grafo dirigido. Un grafo etiquetado tiene etiquetas asociadas a sus vértices y arcos. Como comentamos anteriormente en nuestro modelo proponemos la representación de relaciones espaciales entre los objetos espaciales. En la siguiente subsección detallamos los tres tipos de relaciones espaciales que proponemos incluir. A.2.1 Relaciones espaciales La ubicación explícita de los objetos espaciales define relaciones implícitas de vecindad (neighborhood) espacial entre ellos. De tal forma, la información sobre la vecindad de los objetos espaciales constituye un elemento valioso que debe ser considerado en la tarea de minado de datos espaciales. Martin Ester et al. [9][11] introducen el concepto de grafos de vii

vecindad para representar explícitamente estas relaciones de vecindad implícitas. Los grafos de vecindad pueden cubrir las relaciones de vecindad siguientes: Topológicas. Derivadas del modelo de nueve intersecciones [6][7][8], son relaciones que permanecen invariantes bajo transformaciones lineales, es decir, si ambos objetos se rotan, se trasladan ó se escalan simultáneamente las relaciones entre ellos se preservan. Distancia. Compara la distancia entre dos objetos dada una constante usando operadores aritméticos tales como <, >, =. La distancia entre dos objetos se definen como la distancia mínima entre ellos (Ej. seleccionar todos los elementos dentro de una radio de 50 kilómetros desde un punto x). Dirección. La relación espacial de dirección entre 2 objetos espaciales A y B (B R A) se define usando un punto representativo del objeto A y todos los puntos del objeto destino B. El punto representativo del objeto fuente A puede ser el centro del objeto ó un punto sobre sus límites. Este punto representativo es usado como el origen de un sistema de coordenadas virtuales y su cuadrante define la dirección. Una vez comentada la motivación de nuestro trabajo de investigación se presenta a continuación el modelo general basado en grafos para representar los datos espaciales. A.3 Representaciones basadas en grafos Como hemos comentado, nuestra propuesta se basa en crear un modelo basado en grafos para representar conjuntamente datos espaciales, no espaciales y relaciones espaciales entre viii