Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI



Documents pareils
Introduction au Data-Mining

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Introduction au Data-Mining

ISC Système d Information Architecture et Administration d un SGBD Compléments SQL

Bases de Données. Le cas des BD relationnelles ouverture sur les BD relationnelles spatiales Séance 2 : Mise en oeuvre

Utilisation du SIG dans une entreprise industrielle pour l analyse et la prise de décision

Présentation du module Base de données spatio-temporelles

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Les bases de données

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Réplication E-maj Foreign Data Wrapper PostGIS PostgreSQL-f

Business Intelligence avec Excel, Power BI et Office 365

Cours Systèmes d Information Géographique

Les Entrepôts de Données

A QUOI SERVENT LES BASES DE DONNÉES?

N. Paparoditis, Laboratoire MATIS

Architectures d'intégration de données

AMTEC RESOURCES MANAGEMENT LTD. CREATION D UNE BANQUE DE DONNEES DONNEES GEOSPATIALES NATIONALE

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Introduction à la B.I. Avec SQL Server 2008

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

ArcGIS 10 Christophe Tourret Gaëtan Lavenu

Bases de Données. Plan

La classification automatique de données quantitatives

Apprentissage Automatique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

La directive INSPIRE en Wallonie: le géoportail et l infrastructure de diffusion des géodonnées en Région wallonne (InfraSIG(

Master Informatique Aix-Marseille Université

Mercredi 15 Janvier 2014

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

La solution pour gérer vos connaissances techniques et scientifiques

Big Data On Line Analytics

Introduction au datamining

Structure fonctionnelle d un SGBD

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Business Intelligence

Intégration de la dimension sémantique dans les réseaux sociaux

UE 8 Systèmes d information de gestion Le programme

Déroulement de la présentation

Big Data et Graphes : Quelques pistes de recherche

SQL Server 2012 et SQL Server 2014

Les bases de données Page 1 / 8

BI2 : Un profil UML pour les Indicateurs Décisionnels

et les Systèmes Multidimensionnels

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Glossaire. base de données géographiques Voir géodatabase (GDB).

Bases de données Cours 1 : Généralités sur les bases de données

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Au printemps 2012, la Bibliothèque de l Université Laval lançait sa nouvelle plateforme de

2 Serveurs OLAP et introduction au Data Mining

BIG DATA en Sciences et Industries de l Environnement

GESTIONNAIRE DES DONNEES SIG

Introduction à l informatique temps réel Pierre-Yves Duval (cppm)

Créer le schéma relationnel d une base de données ACCESS

Qu est-ce que ArcGIS?

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Société de Geo-engineering

Cartographie mobile implantée au service de police de la ville de Québec

Bases de données avancées Introduction

INTRODUCTION AU DATA MINING

Présentation Alfresco

CarrotAge, un logiciel pour la fouille de données agricoles

Activités de modélisation 3D Exploitation de certains produits ESRI

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Big Data et Graphes : Quelques pistes de recherche

Cahier des Clauses techniquesparticulières

Hervé Couturier EVP, SAP Technology Development

DATA MINING SPATIAL UN PROBLEME DE DATA MINING MULTI-TABLES

4.2 Unités d enseignement du M1

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

Démonstrateur libre Application des données Open Street Map à l analyse géographique de réseaux de voirie et Transports Collectifs

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Pour un citoyen mieux informé en transports

Systèmes d informations nouvelles générations. Répartition, Parallèlisation, hétérogénéité dans les SGBD. Exemple d application d un futur proche

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Cognit Ive Cas d utilisation

INF6304 Interfaces Intelligentes

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Comment booster vos applications SAP Hana avec SQLSCRIPT

Dr YAO Kouassi Patrick

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Analyse de grandes bases de données en santé

Conclusion. Rôle du géodécisionnel dans une organisation gouvernementale Contexte organisationnel à Infrastructure Canada Le projet Les résultats

Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Oracle Décisionnel : Modèle OLAP et Vue matérialisée D BILEK

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Plan de formation : Certification OCA Oracle 11g. Les administrateurs de base de données (DBA) Oracle gèrent les systèmes informatiques

IFT3030 Base de données. Chapitre 1 Introduction

ÉVALUATION DES PRODUITS COMMERCIAUX OFFRANT DES CAPACITÉS

Sextant V4.0. Le portail de diffusion de l information géographique de l Ifremer. Sextant Présentation générale

Optimisations des SGBDR. Étude de cas : MySQL

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Spécificités, Applications et Outils

Transcription:

Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI Introduction On assiste de plus en plus à la création d entrepôts de données. Les raisons sont multiples : 1. le tout numérique dans l entreprise génère des données à entreposer 2. échange et recherche de données facilités (via Internet) 3. capteurs et numérisations de toute sorte (librairies digitales) 4. explosion des données multimédias 5. SIG / Télédétection (données cartographiques, données satellitaires) 6. agence de photo de presses 7. CAO, Bioinformatique, imagerie médicales (données techniques) 8. finance (cours des actions et séries temporelles) 9. GED (documents, emails) 10. vidéo, etc. Plan Fouille de données spatiales Les Bases de données spatiales Méthodes de la FDS Fouille de données textuelles Fouille de données séquentielles Bases de données spatiales Définition d une BD spatiale : C est un ensemble organisé d objets géographiques, où chaque objet est une association d'une description qualitative ou quantitative et d une localisation spatiale. Elle est gérée au sein d un SIG et organisée en couches thématiques. Ex : découpage administratif, Réseaux routier, Cadastre, PDAU, POS, Topographie (courbes de niveau), etc. JED 2007 - Annaba 1

Interface graphique Exemple d Oracle spatial Niveau de fiabilité supérieur à celui des simples fichiers (sécurité d accès, intégrité transactionnelle ) Intégration des données géo-spatiales dans un SGBD: =>utilisation beaucoup plus efficace des données =>garantie de l universalité et de l interopérabilité - conforme aux normes (OpenGIS, ISO, ) =>requêtes combinées aux informations géo-spatiales et classiques - dans un langage SQL (familier aux développeurs) Fouille de données spatiales (Problème type) Autre application - Analyse de l accidentologie routière Vise à décrire et expliquer le risque routier par : la description des accidents inventoriés leur contexte géographique Fouille de données spatiales versus Analyse spatiale Applications décisionnelles : Analyse spatiale de phénomènes localisés : risque routier, épidémiologie, criminologie, pollution, FDS versus Analyse spatiale Fouille de données spatiales versus Fouille de données classique FD «classique» o Batterie de méthodes exploratoires o Pas de raisonnement spatial BD spatiales o Requêtes avec critères spatiaux JED 2007 - Annaba 2

o Pas d analyse exploratoire Fouille de données spatiales - Définition Statistiques spatiales Analyse globale - Mesure d auto-corrélation spatiale d une variable Indice global (par carte) de Moran et Geary (en 1945 et 54) Analyse locale - Indice local d associations spatiales (LISA) [Anselin 90] Particularités au niveau local => met en évidence les données atypiques utilise une matrice de voisinage binaire ou pondérée (w ij ) quantifie la contribution individuelle de chaque lieu à l indice global Application aux sections Application aux régions Problèmes engendrés Problème 1: Les données spatiales sont liées o Les méthodes de FD supposent les données indépendantes Problème 2: Les relations spatiales sont implicites o Non stockées dans la BD o Leur calcul nécessite des jointures coûteuses o Leur intégration dans l analyse est coûteuse Problème 3: Les relations spatiales sont multiples o Topologiques (adjacence, intersection, ) ou métriques (distance) o Le choix de la bonne relation spatiale est difficile o Clustering o Groupage d objets similaires / séparation dissimilaires o Similarité en spatial = distance euclidienne o Utilisé moins pour classer que pour découvrir des concentrations ou des points chauds o ex: criminologie, épidémiologie, accidents o Méthodes en spatial : o orientés perf. : CLARANS, DBSCAN,... o sur spatial & attributs : GDBSCAN, Neighborhood EM [Govaert] o évitement obstacle : COE-CLARANS [Han] o Concentration atypiques : machine GAM [Openshaw] Clustering spatial sous contraintes Problème : Trouver des regroupements qui respectent des contraintes et des obstacles physiques Contraintes physiques «COE-CLARANS» Ex: installation de réseaux ATM doit tenir compte des obstacles géographiques (rivière, pont, etc.) Solution: calculer la distance entre p et q en considérant les obstacles Exemple avec la machine GAM : caractériser les accidents de nuit/ WE Clustering sous Oracle 10g JED 2007 - Annaba 3

But: Trouver les zones de concentration de criminologie. Moyen: Grouper les données spatiales dans une table spécifiée USBG_high_crimes 1. Définir high_crimes>150 Create Table USBG_high_crimes As Select* From USBG_data Where CrimeIndex>150 2. Appliquer la méthode de clustering (k=4) Select geometry From Table(sdo_sam.spatial_cluster( USBG_high_crimes, geom,4)) Clustering sous Oracle 10g Visualiser les clusters par Oracle MapViewer USBG_data en jaune, partie crimes élevés en bleu foncé et clusters en bleu transparent Règles d associations spatiales Exemple Co-localisation Sous ensemble d objets spatiaux fréquemment situés ensemble Arbre de décision spatial Rappel des règles de classement pour expliquer une variable «classe» par des variables explicatives. En FDS, les propriétés du voisinage peuvent être explicatives Exemple : classer les accidents selon 3 classes d impliqués (piéton, 2 roues, véhicules) selon les propriétés des accidents et des objets voisins Découvre des liens cachés avec certains types de voisins et les illustrer sur la carte. Exemple Spatial CART Approches proposées Approche préconisée par Oracle 10g : Index de jointure spatiale? Structure secondaire qui matérialise et codifie les relations spatiales La FD classique est mono-table Représentation des données en FD classique Transformation préalable Conclusion sur la FDS La fouille de données spatiales = prolongement de la fouille de données Tient compte des interactions dans l espace La préparation des données peut changer la donne? FD spatiale FD multi-tables grâce aux index de jointures spatiales FD classique grâce à l opérateur C est souvent le cas d autres objets complexes : Fouille de texte FD par transformation en vecteur de termes Fouille d images FD sur descripteurs Fouille de données textuelles (Fouille de textes) JED 2007 - Annaba 4

Croissance phénoménale de données textuelles Documents sur Internet, mail, rapports, Besoin d automatiser leur recherche et leur classement Comment faire supporter à la machine le traitement rapide du langage naturel? Techniques d Analyse du Langage Naturel (TALN): Extraction d éléments du langage : nom propres (personne, lieu, société) Utilise les règles de grammaire et des patrons linguistiques, des thésaurus (synonymes et hiérarchies de termes) ou des ontologies (règles en plus) Fouille de textes (si grand nombre de textes) Clustering de texte Classification (catégorisation) Associations de termes Fouille de texte versus fouille de données Classification de documents Site organisé par catégorie Processus global de catégorisation Prétraitement des documents Ex: Stop-words (mots chevilles) Représentation des documents et Mesure de similarité Pondération TF-IDF Évaluation de Performances Fouille de données séquentielles Utilisations : Ex : Le Web Usage Mining Le Weblog contient des informations riches sur la dynamique du Web => Son analyse permet de cibler les utilisateurs (clients, marchés) potentiels La recherche de régularités (séquences fréquentes de pages) permet : D ajuster la conception des pages et des liens et d améliorer les performances des sites Les associations de pages côté client permet d optimiser le cache du navigateur, d effectuer du «prefetching» L analyse de tendance (temporelle): Indique les changements et la dynamique du web pour s y adapter Sous-séquences fréquentes Algorithme GSP [Skirant 95]: Extension d Apriori Génération de candidats modifiée Inconvénient : plusieurs parcours de la base => coût élevé JED 2007 - Annaba 5

Conclusion La recherche d information a dominé la recherche au cours du demi-siècle passé. La découverte d informations dominera la recherche au cours du siècle à venir. Directions de recherche Vers les outils intégrés de data mining Vertical (spécifique par application) data mining invisible (systèmes intelligents) Vers les méthodes intelligentes, efficaces et passantes à l échelle Réduire les accès disque Surtout réduire les calculs tels que les similarités sur des données complexes. JED 2007 - Annaba 6