Avril 2010 Permanents : Karine Zeitouni, Prof. UVSQ Georges GARDARIN, Prof. émérite UVSQ Benjamin NGUYEN, MdC UVSQ Yann LOYER, MdC UVSQ Laurent YEH, MdC UVSQ Doctorants : Tristan ALLARD, MRES Fatiha Amanzougaren, CDD Bogdan BUTNARU, MRES Qingfeng FAN, CDD Ahmed KHARRAT, Bourse cotutelle Tunisie Isma Saadoun, Contrat doctoral Post-Doc : Iulian SANDU POPA, ATER Anciens Doctorants : Ivan BEDINI, 2009, Orange Recherche Florin DRAGAN, 2008, BO-SAP Clément JAMARD, 2008, BO-SAP Nicolas TRAVERS, 2007, MdC, CNAM Tao WAN, 2007, Sergent Major Tuyet-Tram DANG-NGOC, 2006, MdC, Cergy Lionel SAVARY, 2005, Bull 2 1
Motivations Sources de données hétérogènes et complexes Types de données variés considérés : Spatiale, séquences ou séries temporelles, trajectoires d objets mobiles, documents XML comme modèle d'échange et d'intégration Problématique de l'intégration de données Accès distribué client-serveur web et serveur-serveur Emergence du P2P avec réseaux dynamiques Mapping de schémas, intégration de contenus Emergence des technos du Web sémantique (W3C) Ontologie, Fils d'infos RSS, Web services, OWL, Intégration sur demande nécessitant des performances 3 Problématique de la fouille de données Sujet vaste ciblé sur des données complexes : Fouille de données géolocalisées intégrant les relations spatiales Fouille de trajectoires appliquée à l analyse de la mobilité Fouille de séquences pour découvrir des motifs ou des épisodes Fouille de textes pour les annoter avec la sémantique et permettre l intégration de sources Web. Entrepôts et OLAP pour analyser des données spatiotemporelles 4 2
Bases de données XML : Optimisation XQuery P2P Indexation P2P Intégration sémantique de schémas Construction d ontologies Publication de flux RSS Réseaux sociaux Projets : ACI SemWeb, ANR WebContent, collaboration France Telecom, ANR ROSES 5 Bases de données spatiales/temporelles : Entrepôts de données spatiotemporels Intégration et optimisation de requêtes Serveur de Geo-capteurs mobiles Requêtes multi-critères continues Data Mining Spatial & spatiotemporal data mining Sequence mining Text mining Projets : FP6 HEARTS, CERTU, INRETS/LIVIC, RNTL ContextBourse, ANR PlugDB, ANR FURET, BDSTIC 6 3
ACI SemWeb: Optimisation XQuery P2P Text query (Bloom Filter Distrib.) Structure query Représentation des plans TGV, Xalgèbre Peer #2 Peer #1 MEDIAT OR Application #1 Data Sources MEDIAT OR MEDIAT OR Application #2 Data Sources Peer #3 Application #3 Data Sources 7 Collaboration avec France Telecom (Orange Lab) Besoin d'intégrer plusieurs schémas XML Modélisation sémantique de schémas de source Compléter la sémantique des schémas Unifier, intégrer les schémas Cas du B2B: nombreux standards UBL, ebxml, CXML, OAGIS, STAR, PapiNet, 8 4
Everything is related to everything else, but near things are more related than distance things [Tobler 1979] Observations (e.g. temperature) tend to change smoothly in space Many phenomena are influenced by others (flood near rivers, accident only along roads and often near traffic generators) Spatial DM aims at discovering hidden knowledge that involves objects themselves and/or neighboring objects and their relationship 9 How to efficiently compute spatial relationships? Many type of spatial relationships (topological (9), metric, ) On-line calculation is inefficient (cost of spatial join) Pre-compute them beforehand How to account for spatial relationships? Conventional DM do not consider links between objects Integrate neighborhood properties within each object Then, apply any Data Mining Algorithm 10 5
11 Environment Monitoring and Survey Climate and pollution studies Animal tracking, species migration Population Mobility and Activity Monitoring and Survey Transportation and logistics Navigation Trafic monitoring and analysis RFID based product tracking Location Based Sevices Family finder services Safety, Health, Tourism Mobile social network 12 6
Transport Planning Analysis: Data exploration along space, time, vehicle type, at different granularity levels Source: http://www.sytadin.tm.fr/ 13 Extending Star Schema by: Continuous Dimension as a continuum Time is any Point in a line, a location is a point in a 2D space A Person is rather a normal (discrete) dimension Mobile Fact as a continuous function of time, space and a moving object MO. Time Hour Hour Minute Minute Temporal hierarchy Exact time Other attributes MO_Perso n ID Name Age Mobile FACT Count of MO Networks Network Id Other attributes Segment Segment Id Other attributes Spatial hierarchy Space Exact location 14 7
15 Trajectory clustering: In free space [Han 07] In fixed network (our approach) [Kharrat 08, 09] Real-time clustering: In free space [Jensen 04, 06] In fixed network (our approach) [Meng 07] 16 8
Serveur d objets avec capteurs mobiles Modèle Langage Optimisation Application en transport intelligent Résultats : 2 thèses, Projet DIGITEO, Collaborations LIVIC, NJIT, Chine 17 Butnaru: Evaluation de requêtes XQuery P2P Kharrat : Mining/Résumé d objets mobiles Allard : Privacité de requêtes agrégats dans des serveurs de données personnels (collaboration avec équipe SMIS) Sadoun : Requêtes multi-critères continues (Furet) Amanzougaren : Prise en compte de l incertitude dans les entrepôts spatiaux (coencadrement) Fan : Optimisation de requêtes XQuery sur des flux (RSS, localisation, capteur ) en P2P 18 9
Distributed measurement networks (e.g. GPS) RFID Wireless sensor networks Industrial Monitoring 19 Pairs fixes ou mobiles : Terminaux / Capteurs mobiles geolocalisés, Bornes d infrastructure, véhicules intelligents, avec communication sans fil à courte portée La gestion de données doit s adapter au contexte très dynamique du réseau Requêtes continues flexibles (certaines ressources passent de disponible à indisponible, push vs pull) Stratégies de dissémination des résultats en push (broadcast vs geocast, prise en compte de la durée de vie limitée de l information, de la densité du réseau) Intégration à des informations externes (carte routière, plan de route, profils personnel) 20 10
e-santé (données personnelles + flux d évènements / capteurs) Transport (sécurité, RideShare, services mobiles) Urban sensing (citoyens sondeurs, ex: projet «montre verte» à Paris ou censeable-city à UCLA) Logistique (Transport d oeuvres d arts) BTP (planification/monitoring de chantiers) GEOSS (Global Earth Observation System of Systems) Domotique (sensor web) 21 11