Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI Introduction On assiste de plus en plus à la création d entrepôts de données. Les raisons sont multiples : 1. le tout numérique dans l entreprise génère des données à entreposer 2. échange et recherche de données facilités (via Internet) 3. capteurs et numérisations de toute sorte (librairies digitales) 4. explosion des données multimédias 5. SIG / Télédétection (données cartographiques, données satellitaires) 6. agence de photo de presses 7. CAO, Bioinformatique, imagerie médicales (données techniques) 8. finance (cours des actions et séries temporelles) 9. GED (documents, emails) 10. vidéo, etc. Plan Fouille de données spatiales Les Bases de données spatiales Méthodes de la FDS Fouille de données textuelles Fouille de données séquentielles Bases de données spatiales Définition d une BD spatiale : C est un ensemble organisé d objets géographiques, où chaque objet est une association d'une description qualitative ou quantitative et d une localisation spatiale. Elle est gérée au sein d un SIG et organisée en couches thématiques. Ex : découpage administratif, Réseaux routier, Cadastre, PDAU, POS, Topographie (courbes de niveau), etc. JED 2007 - Annaba 1
Interface graphique Exemple d Oracle spatial Niveau de fiabilité supérieur à celui des simples fichiers (sécurité d accès, intégrité transactionnelle ) Intégration des données géo-spatiales dans un SGBD: =>utilisation beaucoup plus efficace des données =>garantie de l universalité et de l interopérabilité - conforme aux normes (OpenGIS, ISO, ) =>requêtes combinées aux informations géo-spatiales et classiques - dans un langage SQL (familier aux développeurs) Fouille de données spatiales (Problème type) Autre application - Analyse de l accidentologie routière Vise à décrire et expliquer le risque routier par : la description des accidents inventoriés leur contexte géographique Fouille de données spatiales versus Analyse spatiale Applications décisionnelles : Analyse spatiale de phénomènes localisés : risque routier, épidémiologie, criminologie, pollution, FDS versus Analyse spatiale Fouille de données spatiales versus Fouille de données classique FD «classique» o Batterie de méthodes exploratoires o Pas de raisonnement spatial BD spatiales o Requêtes avec critères spatiaux JED 2007 - Annaba 2
o Pas d analyse exploratoire Fouille de données spatiales - Définition Statistiques spatiales Analyse globale - Mesure d auto-corrélation spatiale d une variable Indice global (par carte) de Moran et Geary (en 1945 et 54) Analyse locale - Indice local d associations spatiales (LISA) [Anselin 90] Particularités au niveau local => met en évidence les données atypiques utilise une matrice de voisinage binaire ou pondérée (w ij ) quantifie la contribution individuelle de chaque lieu à l indice global Application aux sections Application aux régions Problèmes engendrés Problème 1: Les données spatiales sont liées o Les méthodes de FD supposent les données indépendantes Problème 2: Les relations spatiales sont implicites o Non stockées dans la BD o Leur calcul nécessite des jointures coûteuses o Leur intégration dans l analyse est coûteuse Problème 3: Les relations spatiales sont multiples o Topologiques (adjacence, intersection, ) ou métriques (distance) o Le choix de la bonne relation spatiale est difficile o Clustering o Groupage d objets similaires / séparation dissimilaires o Similarité en spatial = distance euclidienne o Utilisé moins pour classer que pour découvrir des concentrations ou des points chauds o ex: criminologie, épidémiologie, accidents o Méthodes en spatial : o orientés perf. : CLARANS, DBSCAN,... o sur spatial & attributs : GDBSCAN, Neighborhood EM [Govaert] o évitement obstacle : COE-CLARANS [Han] o Concentration atypiques : machine GAM [Openshaw] Clustering spatial sous contraintes Problème : Trouver des regroupements qui respectent des contraintes et des obstacles physiques Contraintes physiques «COE-CLARANS» Ex: installation de réseaux ATM doit tenir compte des obstacles géographiques (rivière, pont, etc.) Solution: calculer la distance entre p et q en considérant les obstacles Exemple avec la machine GAM : caractériser les accidents de nuit/ WE Clustering sous Oracle 10g JED 2007 - Annaba 3
But: Trouver les zones de concentration de criminologie. Moyen: Grouper les données spatiales dans une table spécifiée USBG_high_crimes 1. Définir high_crimes>150 Create Table USBG_high_crimes As Select* From USBG_data Where CrimeIndex>150 2. Appliquer la méthode de clustering (k=4) Select geometry From Table(sdo_sam.spatial_cluster( USBG_high_crimes, geom,4)) Clustering sous Oracle 10g Visualiser les clusters par Oracle MapViewer USBG_data en jaune, partie crimes élevés en bleu foncé et clusters en bleu transparent Règles d associations spatiales Exemple Co-localisation Sous ensemble d objets spatiaux fréquemment situés ensemble Arbre de décision spatial Rappel des règles de classement pour expliquer une variable «classe» par des variables explicatives. En FDS, les propriétés du voisinage peuvent être explicatives Exemple : classer les accidents selon 3 classes d impliqués (piéton, 2 roues, véhicules) selon les propriétés des accidents et des objets voisins Découvre des liens cachés avec certains types de voisins et les illustrer sur la carte. Exemple Spatial CART Approches proposées Approche préconisée par Oracle 10g : Index de jointure spatiale? Structure secondaire qui matérialise et codifie les relations spatiales La FD classique est mono-table Représentation des données en FD classique Transformation préalable Conclusion sur la FDS La fouille de données spatiales = prolongement de la fouille de données Tient compte des interactions dans l espace La préparation des données peut changer la donne? FD spatiale FD multi-tables grâce aux index de jointures spatiales FD classique grâce à l opérateur C est souvent le cas d autres objets complexes : Fouille de texte FD par transformation en vecteur de termes Fouille d images FD sur descripteurs Fouille de données textuelles (Fouille de textes) JED 2007 - Annaba 4
Croissance phénoménale de données textuelles Documents sur Internet, mail, rapports, Besoin d automatiser leur recherche et leur classement Comment faire supporter à la machine le traitement rapide du langage naturel? Techniques d Analyse du Langage Naturel (TALN): Extraction d éléments du langage : nom propres (personne, lieu, société) Utilise les règles de grammaire et des patrons linguistiques, des thésaurus (synonymes et hiérarchies de termes) ou des ontologies (règles en plus) Fouille de textes (si grand nombre de textes) Clustering de texte Classification (catégorisation) Associations de termes Fouille de texte versus fouille de données Classification de documents Site organisé par catégorie Processus global de catégorisation Prétraitement des documents Ex: Stop-words (mots chevilles) Représentation des documents et Mesure de similarité Pondération TF-IDF Évaluation de Performances Fouille de données séquentielles Utilisations : Ex : Le Web Usage Mining Le Weblog contient des informations riches sur la dynamique du Web => Son analyse permet de cibler les utilisateurs (clients, marchés) potentiels La recherche de régularités (séquences fréquentes de pages) permet : D ajuster la conception des pages et des liens et d améliorer les performances des sites Les associations de pages côté client permet d optimiser le cache du navigateur, d effectuer du «prefetching» L analyse de tendance (temporelle): Indique les changements et la dynamique du web pour s y adapter Sous-séquences fréquentes Algorithme GSP [Skirant 95]: Extension d Apriori Génération de candidats modifiée Inconvénient : plusieurs parcours de la base => coût élevé JED 2007 - Annaba 5
Conclusion La recherche d information a dominé la recherche au cours du demi-siècle passé. La découverte d informations dominera la recherche au cours du siècle à venir. Directions de recherche Vers les outils intégrés de data mining Vertical (spécifique par application) data mining invisible (systèmes intelligents) Vers les méthodes intelligentes, efficaces et passantes à l échelle Réduire les accès disque Surtout réduire les calculs tels que les similarités sur des données complexes. JED 2007 - Annaba 6