Modélisation d objets mobiles dans un entrepôt de données



Documents pareils
CALM Un système de gestion de données de CApteurs à Localisation Mobile

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Base de données de capteurs à localisation mobile

et les Systèmes Multidimensionnels

Introduction à la B.I. Avec SQL Server 2008

Les Entrepôts de Données

Bases de Données Avancées

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Entrepôt de données 1. Introduction

Généralisation contextuelle de mesures dans les entrepôts de données

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Présentation du module Base de données spatio-temporelles

Approche de modélisation multidimensionnelle des. des données complexes : Application aux données médicales. 5èmes Journées

La problématique. La philosophie ' ) * )

Business Intelligence avec Excel, Power BI et Office 365

Entreposage de données complexes pour la médecine d anticipation personnalisée

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Didier MOUNIEN Samantha MOINEAUX

La place de la Géomatique Décisionnelle dans le processus de décision

Problèmes d additivité dus à la présence de hiérarchies

L INTELLIGENCE D AFFAIRE DANS LA VIE QUOTIDIENNE D UNE ENTREPRISE

Chapitre 9 : Informatique décisionnelle

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Laboratoire 4 Développement d un système intelligent

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

BUSINESS INTELLIGENCE

Business Intelligence : Informatique Décisionnelle

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Les bases de données

Entrepôts de données multidimensionnelles NoSQL

Business & High Technology

Big Data On Line Analytics

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Bases de Données OLAP

BI = Business Intelligence Master Data-Science

Evolution et personnalisation des analyses dans les entrepôts

SQL SERVER 2008, BUSINESS INTELLIGENCE

Plan. Ce qu est le datawarehouse? Un modèle multidimensionnel. Architecture d un datawarehouse. Implémentation d un datawarehouse

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Information utiles. webpage : Google+ : digiusto/

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

L A B U S I N E S S. d a t a g i n f o r m a t i o n g a c t i o n

Utilisation du SIG dans une entreprise industrielle pour l analyse et la prise de décision

FreeAnalysis. Schema Designer. Cubes

UE 8 Systèmes d information de gestion Le programme

Hervé Couturier EVP, SAP Technology Development

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur

Fouille de Données : OLAP & Data Warehousing

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

Introduction au domaine du décisionnel et aux data warehouses

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Urbanisation des SI-NFE107

SQL Server 2012 et SQL Server 2014

Introduction au datamining

Intégration de données hétérogènes et réparties. Anne Doucet

Projet de Traitement du Signal Segmentation d images SAR

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

IBM Software Big Data. Plateforme IBM Big Data

Bases de données Cours 1 : Généralités sur les bases de données

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Personnalisation collaborative pour l enrichissement des analyses dans les entrepôts de données complexes

C-CUBE: Un nouvel opérateur d agrégation pour les entrepôts de données en colonnes

Tout ce que vous avez toujours voulu savoir sur SAP HANA. Sans avoir jamais osé le demander

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

Business Intelligence

Title Text. Outil intégré de collecte, d'analyse et de visualisation de données de mobilité

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

Prédiction de couverture de champ radioélectrique pour les réseaux radiomobiles : L apport du Système d Information Géographique ArcInfo 8

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

TRAVAUX DE RECHERCHE DANS LE

LES ENTREPOTS DE DONNEES

Formula Negator, Outil de négation de formule.

BI : GESTION GESTION, PRODUCTION STRATEGIE DE BI. Un livre blanc d Hyperion

Plan de cours. 1. Mise en contexte. 2. Place du cours dans le programme. 3. Descripteur du cours

BI2 : Un profil UML pour les Indicateurs Décisionnels

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Bases de données cours 4 Construction de requêtes en SQL. Catalin Dima

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Une méthode d apprentissage pour la composition de services web

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

AGROBASE : un système de gestion de données expérimentales

Les entrepôts de données

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

Clustering par optimisation de la modularité pour trajectoires d objets mobiles

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Transcription:

Tao Wan, Karine Zeitouni Laboratoire PRISM, Université de Versailles 45, avenue des Etats-Unis, 78035 Versailles Cedex, France Tao.Wan@prism.uvsq.fr, Karine.Zeitouni@prism.uvsq.fr http://www.prism.uvsq.fr/users/karima/ Résumé. La gestion d objets mobiles a connu un regain d intérêt ces dernières années, particulièrement dans le but de gérer et de prédire la localisation d objets mobiles. Cependant, il y a peu de recherches sur l exploitation d historiques de bases d objets mobiles. L extraction de connaissances depuis ce type de données serait pourtant utile aux applications décisionnelles, car elle permettrait l analyse spatio-temporelle à différentes échelles et l agrégation flexible passant du niveau micro au niveau macro et vice-versa. La première étape dans ce processus est la mise en œuvre d un entrepôt d objets mobiles. Seulement, les modèles d entrepôts existants ne permettent pas de traiter directement ce type de données complexes. Cet article présente une approche originale pour pallier ce problème. Cette approche offre la puissance de l algèbre OLAP sur toute combinaison de données classiques, spatiales et/ou temporelles et mobiles. Elle a été validée par un prototype et appliquée à l analyse de la mobilité urbaine1. Les résultats de l expérimentation montrent la validité de l approche et les tests de performances son efficacité. 1. Introduction Le développement des technologies mobiles, telles que les téléphones cellulaires et les GPS, a ouvert la voie vers de nouvelles applications exploitant la localisation. En effet, cette connaissance peut permettre de cibler les services offerts appelés Location Based Service (LBS)- comme de fournir des informations localisées dans la zone du mobile. D autres applications utilisent des objets mobiles comme le contrôle et la prévision du trafic basés sur les trajectoires de véhicules. Ces applications ont généré de nouveaux problèmes qui ont fait naître ou accéléré la recherche sur la gestion d objets mobiles.. La plupart des travaux sont axés sur la modélisation d objet mobiles (Güting et al. 2000, Vazirgiannis et al. 2001) les méthodes d accès (Pfoser et al. 2000, Saltenis et al. 2000), les requêtes prédictives et l optimisation des mise à jour (Chon et al. 2002, Tao et al 2002, Jensen 2004). 1 Ce travail est partiellement financé par le projet HEARTS (Health Effects and Risk of Transport Systems), co-financé par le programme énergie, environnement et développement durable de la Commission Européenne (contrat n : QLK4-CT-2001-00492). Cet article ne reflète pas nécessairement l opinion officielle de la Commission Européenne, d autres institutions de la Communauté Européenne ou de l OMS. Ni la Commission Européenne, ni l OMS ne sont responsables de l usage pouvant être fait du contenu de cet article.

Ces techniques ne s appliquent pas dans un contexte décisionnel où l on s intéresse aux données historiques sur les objets mobiles. Pourtant, l analyse a posteriori des phénomènes mobiles serait bien utile dans les domaines de la planification du transport, des demandes de services mobiles, etc. Les travaux sur les entrepôts de données spatiaux (Stefanovic et al. 2000, Rao et al. 2003) et spatio-temporels (Marchand et al. 2004) ne considèrent que le cas d une localisation fixe et pas celui des objets mobiles. Dans (Papadias 2002), les auteurs traitent un modèle multidimensionnel se référant aux objets mobiles où une cellule mesure le nombre de mobiles dans une unité espace-temps. Ils le stockent dans un index, combinaison du R-tree et du B-tree. Ensuite, (Tao et al. 2004) soulève le problème du double comptage des objets mobiles, qui traversent plusieurs unités espace-temps et sont comptés dans plusieurs cellules, qu ils résolvent par une estimation probabiliste. Leur modèle part de l hypothèse que les objets mobiles sont agrégés et ne permet pas de représenter d autres dimensions que l espace et le temps. La gestion dans les entrepôts des objets mobiles avec toutes leurs dimensions reste un problème ouvert. Cet article propose une solution originale permettant d exploration multidimensionnelle des objets mobiles. Il offre la puissance de l algèbre OLAP sur toute combinaison de données classiques, spatiales et/ou temporelles et mobiles. Cette approche a été validée par un prototype et appliquée à l analyse de la mobilité urbaine. Après une brève présentation du contexte et la précision des objectifs dans la section 2, la section 3 propose notre approche pour répondre à ces objectifs, suivie par les résultats de l expérimentation. Nous concluons en soulignant les contributions et projetons les travaux futurs. 2. Contexte et objectifs Le projet HEARTS (http://www.euro.who.it/hearts) a pour objet l analyse des risques pour la santé liés au transport routier. Ces risques dépendent pour beaucoup de la mobilité lieux et instants des individus, en plus d autres dimensions comme le mode de transport ou l âge. L analyse multidimensionnelle et spatio-temporelle du phénomène de la mobilité est essentielle dans ce projet. La mobilité de la population urbaine est décrite par des objets mobiles, extraits d une enquête nationale dite «ménages et déplacements». Il faut pour cela développer un entrepôt de données relatif aux objets mobiles. Celui-ci doit permettre d explorer toutes les dimensions de la mobilité comme ici les caractéristiques des personnes mobiles (âge, sexe ou catégorie socioprofessionnelle) ou le mode de transport ou le type d activité ; mais en plus il doit considérer le temps et l espace (l horaire et le lieu de passage). Cette exploration doit se faire à différents niveaux de granularité ou à différentes échelles spatiales et temporelles. De plus, les objets mobiles et les objets spatiotemporels sont fortement interdépendants. Dans notre exemple, les trajectoires des individus d un côté et les mesures localisées de trafic, de pollution et de bruit de l autre sont clairement liées. L analyse multidimensionnelle doit donc intégrer hormis les objets mobiles, des faits spatiaux ou spatio-temporels à localisation fixe mais avec des mesures variant dans le temps. Ces différents phénomènes peuvent avoir un référentiel spatial différent et des granularités spatiales et temporelles différentes. Par exemple, le volume de trafic est mesuré sur les sections de routes tandis que le champ de pollution est donné sur une grille. 3. Approche proposée

Wan et al. Tout d abord, on définit un modèle spatio-temporel d objets mobiles tout en précisant les hypothèses pour son application. Ensuite, le processus de conception est décrit à la lumière du projet HEARTS. Le but est d explorer les activités humaines selon les dimensions mobilité spatio-temporelles, catégories socioprofessionnelles, age etc. Ce processus peut s appliquer de manière analogue aux applications qui vérifient les hypothèses énoncées. 3.1 Trajectoires contraintes Formellement, un objet mobile peut être défini par : ObjetMobile (#ID, A1, A2, An, TR) où #ID est un identifiant, Ai sont des attributs et TR une trajectoire (Vazirgiannis 2001). Une trajectoire forme une variation continue dans l espace et dans le temps, parfois représentée en machine par un échantillon de localisations et instants exacts de passage. Or, dans un modèle multidimensionnel, les valeurs des dimensions doivent se limiter à quelques modalités et être largement partagées par les faits représentés. Une représentation exacte de l espace et du temps ne peut donc former une dimension. D où l idée d une représentation grossière partageant des unités spatiales et temporelles fixées à l avance. Une trajectoire est alors définie par référence comme un ensemble TRef = {(#S1, #T1), } où #Si référence l unité spatiale traversée par TR à un instant de l intervalle Ti. A cette représentation grossière, on propose d associer des mesures sur le taux de recouvrement (MSi) de la trajectoire avec l unité spatiale Si et la durée (MTi) effective par rapport à l intervalle Ti. Une unité spatiale peut être une cellule d une grille raster, une zone d un découpage polygonal ou une polyligne d un réseau. Très souvent, ces unités de référence existent au préalable et sont parfois organisée en une hiérarchie spatiale. De plus, une trajectoire de mobile est souvent contrainte dans l espace, par exemple la trajectoire d un véhicule est contrainte par le réseau linéaire de transport. Le choix de l unité spatiale de référence est alors naturel. On se place dans l hypothèse de trajectoires contraintes et d unités spatiales prédéfinies. 3.2 Schéma multidimensionnel Le schéma précédent peut être vu comme un schéma relationnel NF2, car TRef est non atomique. On peut le ramener en 1ère forme normale relationnelle de la manière suivante : ObjetMobileNorm (#ID, A1, A2, An), TRefElement (#ID, #S, #T, MS, MT). Il suffirait de considérer cette table comme table de faits et les autres comme dimensions, éventuellement décomposées à leur tour en d autres dimensions, pour aboutir à un schéma en flocons. Appliqué à notre exemple, on obtient le schéma en figure 1. Dans ce schéma, la table de fait est représentée par la table Mobilité décrivant le fait qu un trajet passe par telle localisation à tel instant. Les tables de dimensions sont Temps et Localisation d un côté, puis de l autre, Trajet, Mode, Déplacement, Motif (d activité), Personne, Age et Profession. Certains attributs de dimensions sont donnés à différents niveaux de détail. C est le cas des zones, du temps, des motifs ou de l âge par exemple. L exploration OLAP est particulièrement adaptée et permet un changement interactif de niveau, d ordre et de combinaison de dimensions. L expérimentation a porté sur l enquête «ménages déplacements» qui contient un échantillon de 10,354 individus et décrit les activités et déplacement pendant une journée au hasard. La table de faits contient près de 1200 000 tuples. Une personne traverse un nombre de zones variant entre 1 et 108 pendant cette journée. Dans la dimension spatiale, il y a 631 zones définies au niveau le plus fin, pouvant être agrégées en deux autres niveaux prédéfinis.

La table de dimension temps est définie avec trois niveaux : intervalles d un quart heure, d une demi-heure et d une heure. La table de dimension trajet compte environ 50,000 tuples. Temps id_temps Quart heure Demie heure Heure Espace id_zone Zone_niveau_1 Zone_niveau_2 Profession id_profession Profession_Catégorie Table de fait id_temps id_zone id_trajet Durée Recouvrement id_personne id_profession id_age Sexe ST-Mobilité Personne Dimension table Age id_age Age_Catégories Mode Id_mode Mode_Catégorie Trajet id_trajet id_mode id_déplacement Déplacement id_déplacement id_personne id Activité Activité id_activité Activité_Catégorie 3.3 Implémentation et exemples de requêtes Ce schéma a été implémenté sous Microsoft SQL Server 2000. Il permet de générer différents cubes de données, par exemple, donnant le nombre de personnes par zone et par heure afin de pouvoir estimer les lieux et les horaires d exposition aux risques. Ceci est illustré dans la figure 2 pour certaines heures pour les 67 zones agrégées. Elle montre la variation de déplacement des personnes (élevée vers midi et entre 18 et 19h) et (très basse à minuit). Elle met en évidence la différence de traversées des zones. Par combinaison de la dimension spatiale et des dimensions non spatiales (ici l âge), l exemple 3 calcule le nombre de personnes par catégorie d âge traversant chaque zone. Ces résultats peuvent être obtenus par des requêtes relationnelles, mais de manière moins flexible et beaucoup moins efficace qu une approche OLAP. En effet, les requêtes OLAP sont interactives permettant leur utilisation par des non informaticiens. Elles sont aussi optimisées, par exemple, le temps de réponse maximum sur la base décrite plus haut est de 2 mn sous SQL Server 2000 et sur un PC Pentium 2 400 Mhz équipée de 256MB de RAM. 4. Conclusion Fig 1 Aperçu du modèle multidimensionnel dans HEARTS Nous avons proposé dans cet article une approche originale de modélisation d un entrepôt d objets mobiles pour laquelle il n existe pas à notre connaissance de travaux équivalents. Le modèle proposé se base sur une représentation simplifiée des trajectoires spatio-temporelles.

13 17 21 25 29 33 37 41 45 49 53 57 61 65 Wan et al. Cette représentation fait référence à des unités spatiales (découpage préexistant) et des unités temporelles fixes. Des mesures permettent de pondérer l occupation de l espace et du temps. 350 300 250 population 200 150 100 50 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 zone minuit 9h+10h midi 14-15H 18h-19h 21h-22h Fig 2 - la population par zone à certaines heures 900 800 700 600 500 400 300 200 100 0 1 5 9 enfant jeune adult retraité Fig 3 - la population journalière par zone groupée par classe d âge Ce modèle présente l avantage de pouvoir être implémenté avec les outils du marché. SQL Server 2000 a été utilisé dans notre cas. Une application dans l analyse de la mobilité urbaine a permis la validation de cette approche sur des données réelles. Cette approche s est révélée efficace et malgré le volume de données important, donne des performances d exécution acceptables. Dans nos prochains travaux, nous essaierons d étudier plus précisément le passage à l échelle en générant des données synthétiques plus volumineuses. Un autre soucis est de combiner des requêtes de type OLAP et des requêtes spatiales : faut-il un nouvel index spatio-temporel ou peut-on simplement ramener l accès

aux objets mobiles à l accès au découpage de référence? Enfin, notre représentation simplifiée pose le problème de la perte d information sur les trajectoires. Il est possible d utiliser un découpage très fin, mais cela engendrerait un volume de données gigantesque et affecterait les performances. La question est jusqu où peut-on utiliser les modèles multidimensionnels conventionnels? La représentation de dimensions réellement complexes et de modélisation «abstraite» d objets mobiles dans une nouvelle forme d entrepôt serait peut-être la voie de recherche à explorer dans l avenir. Références Chon H. D., Agrawal D., Abbadi A. E. (2000), Query Processing for Moving Objects with Space-Time Grid Storage Model. In Proc of Mobile Data Management (MDM), pp. 121, 2002. Güting R., Böhlen M., Erwig M., Jensen C., Lorentzos N., Schneider M., Vazirgiannis M. Z. (2000), Foundation for Representing and Querying Moving Objects. In Proc of ACM Transactions on Database Systems (TODS), Volume 25, Issue 1, pp. 1 42, 2000. Jensen C., Lin D., Ooi B.C. (2004), Query and Update Efficient B+-Tree Based Indexing of Moving Objects. In Proc of the conference on Very Large Data Bases (VLDB), pp. 768-779, 2004. Marchand P., Brisebois A., Bédard Y., Edwards G. (2004), Implementation and evaluation of a hypercube-based method for spatio-temporal exploration and analysis, Journal of the International Society of Photogrammetry and Remote Sensing (ISPRS), Volume 59, pp 6-20, 2004. Papadias D., Tao Y., Kalnis P., Zhang J.(2002), Indexing Spatio-Temporal Data Warehouses. In Proc of the IEEE International Conference on Data Engineering (ICDE), pp. 166-175, 2002. Pfoser D., Jensen C. S., Theodoridis Y. (2000), Novel Approaches in Query Processing for Moving Object Trajectories. In Pro of the conference on Very Large Data Bases (VLDB), pp. 395-406, 2000. Rao F., Zhang L., Yn X., Li Y., Chen Y. (2003), Spatial Hierarchy and OLAP-Favored Search in Spatial Data Warehouse. In Proc of the 6th ACM Workshop on Data Warehousing and OLAP (DOLAP 03), pp. 48-55, 2003. Saltenis S., Jensen C. S., Leutenegger S. T., Lopez M. A. (2000), Indexing the Positions of Continuously Moving Objects. In Pro of ACM Conference on Management of Data (SIGMOD), pp 331-342, 2000. Stefanovic N., Han J., Koperski K., (2000), Object-Based Selective Materialization for Efficient Implementation of Spatial Data Cubes, IEEE Transactions on Knowledge and Data Engineering (TKDE), 12(6): 938-958, 2000. Tao Y., Kollios G., Considine J., Li F., Papadias D. (2004), Spatio-temporal aggregation using sketches. Spatio-Temporal Aggregation Using Sketches. In Proc of the 20th IEEE International Conference on Data Engineering (ICDE), pp. 214-225, 2004. Tao Y., Faloutsos C., Papadias D., Liu B. (2004), Prediction and Indexing of Moving Objects with Unknown Motion Patterns. In Proc of the ACM Conference on the Management of Data (SIGMOD), 2004. Vazirgiannis M. et Wolfson O. (2001), A Spatiotemporal Query Language for Moving Objects, In Proc of the conference on Spatial and Temporal Databases, Springer Verlag Lecture Notes in Computer Science, No. 2121, 2001.