UE ENG111 Epreuve TEST Travail d Etude et de Synthèse Technique En INFORMATIQUE. à Grenoble le, 9 juin 2011.

Documents pareils
Business & High Technology

et les Systèmes Multidimensionnels

Urbanisation des SI-NFE107

Entrepôt de données 1. Introduction

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Introduction à la B.I. Avec SQL Server 2008

Bases de Données Avancées

Déroulement de la présentation

La place de la Géomatique Décisionnelle dans le processus de décision

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Les Entrepôts de Données

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Business Intelligence

Présentation du module Base de données spatio-temporelles

ÉVALUATION DES PRODUITS COMMERCIAUX OFFRANT DES CAPACITÉS

Les entrepôts de données

Le Géodécisionnel. P7 : Projet Bibliographique Dans le cadre du Mastère ASIG. Les SIG au service du géodécisionnel.

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Business Intelligence avec Excel, Power BI et Office 365

Business Intelligence : Informatique Décisionnelle

BUSINESS INTELLIGENCE

BI = Business Intelligence Master Data-Science

LES ENTREPOTS DE DONNEES

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

ETL Extract - Transform - Load

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Méthodologie de conceptualisation BI

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Chapitre 9 : Informatique décisionnelle

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Bases de données multidimensionnelles et mise en œuvre dans Oracle

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

et les Systèmes Multidimensionnels

L information et la technologie de l informationl

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

DATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES

FreeAnalysis. Schema Designer. Cubes

QU EST-CE QUE LE DECISIONNEL?

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

Théories de la Business Intelligence

Intégration de données hétérogènes et réparties. Anne Doucet

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

ArcGIS. for Server. Sénégal. Comprendre notre monde

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Didier MOUNIEN Samantha MOINEAUX

Le concept de Data Warehouse a été formalisé pour la première fois en 1990.

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Concevoir et déployer un data warehouse

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Catalogue Formation «Vanilla»

X2BIRT : Mettez de l interactivité dans vos archives

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

La directive INSPIRE en Wallonie: le géoportail et l infrastructure de diffusion des géodonnées en Région wallonne (InfraSIG(

Business Intelligence

Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques

Solutions SAP Crystal

BI Open Source Octobre Alioune Dia, Consultant BI

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Glossaire. base de données géographiques Voir géodatabase (GDB).

ArcGIS. for Server. Comprendre notre monde

UE 8 Systèmes d information de gestion Le programme

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

SQL Server Installation Center et SQL Server Management Studio

Présentation de la gamme des PGI/ERP modulaires Wavesoft

2 Serveurs OLAP et introduction au Data Mining

Pentaho Business Analytics Intégrer > Explorer > Prévoir

SUGARCRM MODULE RAPPORTS

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION

Objectif : Passer de l analyse métier et fonctionnelle à la définition des applications qui

Analyse comparative entre différents outils de BI (Business Intelligence) :

DEMANDE D INFORMATION RFI (Request for information)

La problématique. La philosophie ' ) * )

Qu est-ce que ArcGIS?

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

Information utiles. webpage : Google+ : digiusto/

Conclusion. Rôle du géodécisionnel dans une organisation gouvernementale Contexte organisationnel à Infrastructure Canada Le projet Les résultats

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

ANNEXE 2 DESCRIPTION DU CONTENU DE L OFFRE BUSINESS INFORMATION AND ANALYSIS PACKAGE

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

Cours Bases de données

L outillage du Plan de Continuité d Activité, de sa conception à sa mise en œuvre en situation de crise

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Architecture d'entreprise : Guide Pratique de l'architecture Logique

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Evry - M2 MIAGE Entrepôt de données

EXCEL & XLCubed 10 raisons d en faire l assise de votre Managed Self-Service BI

La Stratégie d Intégration Advantage

Ici, le titre de la. Tableaux de bords de conférence

Les Entrepôts de Données. (Data Warehouses)

Accélérateur de votre RÉUSSITE

SIG Propreté. Mehdi Huguet

SWISS ORACLE US ER GRO UP. Newsletter 5/2014 Sonderausgabe. OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features

Transcription:

CONSERVATOIRE NATIONAL DES ARTS ET METIERS CENTRE REGIONAL RHÔNE-ALPES CENTRE D ENSEIGNEMENT DE GRENOBLE UE ENG111 Epreuve TEST Travail d Etude et de Synthèse Technique En INFORMATIQUE Capacités des outils SOLAP en termes de requêtes spatiales, temporelles et spatio-temporelles présenté par Michaël TRANCHANT à Grenoble le, 9 juin 2011. devant le jury : Président : Examinateurs : M. Eric GRESSIER-SOUDAN M. Jean-Pierre GIRAUDIN Mme Véronique PANNE M. André PLISSON M. Eric SELLIN M. Mathias VOISIN-FRADIN Tuteur : M. Jérôme GENSEL

Remerciements Je tiens particulièrement à remercier mon tuteur, Monsieur Jérôme Gensel, Professeur à l Université Pierre Mendès France de Grenoble, pour m avoir proposé ce sujet sur la géomatique, secteur et thématique en pleine expansion. Je remercie Benoît Le Rubrus, ingénieur CNAM récemment promu, et ingénieur d études dans l équipe STEAMER, dirigée par Monsieur Gensel, pour ses précieux conseils. Je remercie enfin tous les enseignants et personnels du CNAM intervenus durant ma formation pour avoir contribué à mon enrichissement culturel.

Sommaire Introduction...1 I. Le concept SOLAP...2 A. L informatique décisionnelle...2 1. Le modèle multidimensionnel...2 2. Différences avec le modèle relationnel...3 3. Architecture d un système décisionnel...4 a. Sources de données...5 b. Outils d extraction, transformation et chargement...5 c. Entrepôt de données...6 d. Traitement analytique en ligne OLAP...6 e. Outils de visualisation...8 f. Métadonnées...8 B. L information géographique...9 1. La donnée géographique...9 2. Système d information géographique...9 C. Décisionnelle + Géographique = SOLAP... 10 1. Relations spatiales...11 2. Relations temporelles... 13 3. Relations spatio-temporelles... 14 II. Analyse comparative des outils existants... 16 A. Périmètre de l analyse... 16 B. Critères d évaluation... 17 C. Présentation des outils... 18 1. Produits de référence... 18 a. JMap... 18 b. SAS Web OLAP Viewer for Java... 19 c. Spatialytics... 21 2. Les nouveaux arrivants... 22 a. Map4Decision... 22 b. Les autres outils émergents... 24 D. Comparaison et bilan... 24 Conclusion... 27 Annexe A : Les opérateurs OLAP... 28 Annexe B : Modèles des bases de données ROLAP... 30 Annexe C : Les architectures OLAP... 32 Annexe D : Liens utiles... 33 Glossaire... 34 Bibliographie... 35

Liste des illustrations Figure 1 : Cube multidimensionnel à trois perspectives d analyse...3 Figure 2 : Ensemble des composants intervenant dans un système décisionnel...4 Figure 3 : Représentations des types de dimensions spatiales...10 Figure 4 : Représentation de la topologie «adjacence»... 11 Figure 5 : Représentation de l orientation par des formes trapézoïdales...12 Figure 6 : Les 13 relations qualitatives élémentaires de James Allen...13 Figure 7 : Représentation temporelle sur carte...13 Figure 8 : Trajectoires, sans et avec environnement géographique...14 Figure 9 : Gestion de l historique sur des entités ayant évoluées...15 Figure 10 : Exemple de recherche spatiale dans JMap...19 Figure 11 : Mise en oeuvre d un outil de proximité dans ArcGIS...19 Figure 12 : A gauche, outil d itinéraire pour trois points sur un réseau routier, à droite, représentation de l outil de distance de chemin...19 Figure 13 : Exemple d utilisation du curseur de temps dans ArcGIS....20 Figure 14 : Utilisation de l opérateur «forage» dans GeoMondrian...21 Figure 15 : Exemple de carte de flux générée par Map4Decision...22 Figure 16 : Gestion du temps par glissière dans Map4Decision...23 Figure A1 : Opérateur «tailler»...28 Figure A2 : Opérateur «pivoter»...28 Figure A3 : Opérateurs «remonter» et «forer»...29 Figure A4 : Opérateur «forer latéralement» sur des données temporelles...29 Figure B1 : Structure en étoile...30 Figure B2 : Structure en flocon...30 Figure B3 : Structure mixte...31 Figure B4 : Structure en constellation...31 Liste des tableaux Tableau 1 : Liste des sources d information collectées sur logiciels retenus... 16 Tableau 2 : Comparaison des capacités spatiales, temporelles et spatio-temporelles des outils SOLAP... 25 Tableau C1 : Comparaison des architectures OLAP... 32

Conventions d écriture et acronymes Les expressions en langues étrangères sont indiquées en italique. Les notions importantes sont, quant à elles, mises en évidence par le gras. Afin de permettre une compréhension plus aisée, certains termes courants du jargon informatique sont utilisés sans traduction française, c est le cas, par exemple, du mot «web». Les termes suivis d une étoile (exemple : géomatique*) sont définis dans le glossaire. Ci-dessous, vous trouverez une liste alphabétique des acronymes utilisés dans ce document : 3FN Troisième Forme Normale ; BDM Base de Données Multidimensionnelles ; BDR Base de Données Relationnelles ; BI Business Intelligence ; DSI Directeur du Système d Information ; DSS Decision Support System ; ETL Extract Transform Load ; HOLAP Hybrid On-Line Analytical Processing ; IGN Institut de Géographie Nationale ; MNT Mesure Numérique de Terrain ; MOLAP Multidimensional On-Line Analytical Processing ; OLAP On-Line Analytical Processing ; OLTP On-Line Transaction Processing ; ROLAP Relationnal On-Line Analytical Processing ; SGBD Système de Gestion de Base de Données ; SI Système d Information ; SIG Système d Information Géographique ; SOLAP Spatial On-Line Analytical Processing ; SQL Structured Query Language ; XML extensible Markup Language.

Introduction Introduction L information est désormais omniprésente dans nos sociétés, et la maîtriser est un enjeu stratégique, ainsi qu un passage obligé avant toute prise de décision. Même si l informatique décisionnelle offre des solutions depuis le milieu des années 90 pour l exploitation des données, jusqu à très récemment, toute une partie de ces informations restait peu exploitée : il s agit du domaine spatial, entre temps devenu crucial. En effet, impossible d échapper à la géomatique* de nos jours, elle s invite dans toutes les discussions, jusqu aux plus hautes sphères, qu elles soient privées ou gouvernementales. L étude de la dimension spatiale, et son croisement avec les problématiques quotidiennes des entreprises en font un axe décisif de développement pour celles qui veulent un avantage de poids dans la course concurrentielle. Ceci explique pourquoi ce secteur économique, si confidentiel cinq ans auparavant, est actuellement en pleine expansion. Parmi les technologies et concepts utilisés pour répondre à ces problématiques, le traitement spatial et analytique en ligne, plus communément nommé Spatial OLAP ou SOLAP, est une solution récente, encore peu défrichée, mais pourtant à l intersection de deux énormes marchés : les outils d aide à la décision, et les systèmes d informations géographiques. Mon prédécesseur, Benoît Le Rubrus, a, en 2009, mené une analyse comparative pour tenter d identifier «l outil SOLAP idéal». Cette étude est référencée dans ce document, qui lui, a pour but de focaliser sur les capacités des logiciels Spatial OLAP actuels en termes de requêtes spatiales, temporelles et spartio-temporelles. Ce document s articule donc autour de deux parties. La première propose une définition des notions et des concepts importants, que sont l informatique décisionnelle et l information géographique, pour finir sur la combinaison des deux, qui a vu naître SOLAP. La seconde partie rappelle les enjeux puis conduit l analyse comparative des outils utilisant cette technologie, sur les critères focalisés, et conclut sur une synthèse des résultats obtenus. 1

Le concept SOLAP - L informatique décisionnelle I. Le concept SOLAP Le traitement spatial et analytique en ligne ou SOLAP, par son nom et les technologies sur lesquelles il repose, est la réunion de deux concepts : la spatialisation des données, et leur exploitation dans les systèmes d aide à la décision. L exploration et le croisement d informations sont un exercice connu. Cependant, si l on considère les données spatiales, les outils en sont à leurs débuts, même s ils s intègrent progressivement aux systèmes décisionnels. Cette première partie présente l informatique décisionnelle, puis le modèle multidimensionnel et ses différences avec le modèle relationnel, les principes qui la sous-tendent, puis la spécificité de l information géographique. Le dernier point évoqué dans cette partie focalise sur la conjonction de deux mondes, dont SOLAP est le résultat. A. L informatique décisionnelle Conscients que l une des plus grandes richesses d une entreprise est son information, mais noyés sous de nombreuses données, éparses, déstructurées et hétérogènes, les dirigeants sont faces à une problématique de taille : comment analyser ces informations, dans des temps raisonnables? Celles-ci concernent-elles toutes les mêmes périodes? Ces décideurs ont besoin qu on leur expose les faits importants, bases de leurs décisions [LC2008]. C est ce à quoi l informatique décisionnelle (aussi nommée DSS pour Decision Support System ou encore BI pour Business Intelligence) est destinée. Elle prend une place en constante croissance dans les systèmes d information (SI) depuis son apparition, dans les années 90. Elle permet une sélection des informations opérationnelles pertinentes pour l entreprise. Celles-ci sont ensuite normalisées pour alimenter un entrepôt de données. De ce concept est née la notion de modélisation dimensionnelle. Cette dernière est fondamentale pour répondre aux exigences de rapidité et de facilité d analyse. Elle permet, en outre, de rendre les données d un entrepôt cohérentes, lisibles, intelligibles et faciles d accès [LC2008]. L informatique décisionnelle doit produire des indicateurs et des rapports à l attention des analystes. Elle doit également proposer des outils de navigation, d interrogation et de visualisation de l entrepôt. 1. Le modèle multidimensionnel Le modèle multidimensionnel est la combinaison de tables de dimensions et de faits. Le fait est le sujet de l analyse. Il est formé de mesures, généralement numériques, renseignées de manière continue. Ces mesures permettent de résumer un grand nombre d enregistrements des données sources en quelques-uns. Le fait est analysé selon des perspectives, nommées dimensions. Chacune contient une structure hiérarchique ; la dimension «temps», par exemple, pourrait être divisée en années, trimestres, mois, semaines, jours... 2

Le concept SOLAP - L informatique décisionnelle Indicateur de vente : Exemple : Clavier, Est, 1T2005 : 30 unités Dimension Produit : Disque dur Moniteur Clavier Souris 30 Dimension Région : Ouest Est Nord Sud 4T2005 3T2005 2T2005 1T2005 Dimension Temps : Figure 1 : Cube multidimensionnel à trois perspectives d analyse (Source: [Mei2006]). De cette hiérarchie découle le niveau de granularité de l entrepôt, et donc, les niveaux d agrégations* [Mei2006]. La figure 1 montre le cube permettant l analyse de l «indicateur de vente» selon trois dimensions : produit, temps (divisé en trimestres), et région. 2. Différences avec le modèle relationnel Le modèle relationnel, utilisé dans les bases de données de la grande majorité des logiciels, est généralement cantonné à deux dimensions (colonne, ligne) [Mal2008]. Même si ce modèle convient tout à fait aux usages habituels qu il en est fait, et que, dans certaines conditions, on puisse retrouver une multidimensionnalité dans les bases de données relationnelles (BDR), il est inadapté au domaine de l aide à la décision. L hypercube* des modèles multidimensionnels permet de travailler sur un ou des faits selon plusieurs dimensions. Ce fait peut résulter d une opération mathématique simple (somme, moyenne) ou peut avoir nécessité un traitement complexe (statistique). La liste des différences entre les modèles relationnel et multidimensionnel pouvant être à elle seule un chapitre, nous pouvons nous cantonner aux points les plus importants : - La priorité des bases de données multidimensionnelles (BDM) est donnée à l analyse et à l exploration de données, c est pourquoi elles sont optimisées pour que les temps de réponse aux requêtes soient minimaux, quitte à consommer davantage d espace de stockage. Celle des BDR est d assurer sécurité et intégrité aux données. L optimisation provient donc de la normalisation, et en évitant la redondance. Enfin, les BDR sont mises à jour très fréquemment (selon l usage quotidien des services), tandis que les insertions dans les BDM sont très contrôlées [Béd-a] ; 3

Le concept SOLAP - L informatique décisionnelle - La grande différence provient du système de traitement des données. Les BDR utilisent le traitement transactionnel en ligne (On-Line Transaction Processing OLTP), qui permet l insertion, la modification et la consultation rapide des données de la base. Chacune de ses requêtes est effectuée sur de faibles quantités d information. Pour finir, généralement, seule la version à jour, à l instant de la sélection est intérressante. Les BDM reposent sur le traitement analytique en ligne (On-Line Analytical Processing OLAP), en lecture uniquement. L intérêt est de focaliser sur la consultation de grandes quantités de données, afin de procéder à des analyses. Ces dernières peuvent être menées sur des données historisées pour constater de l évolution d un indicateur, par exemple. Pour conclure, les BDM sont beaucoup plus à même de supporter les analyses nécessaires aux systèmes d aide à la décision. 3. Architecture d un système décisionnel f. Méta-données a. Sources externes b. Extraire Nettoyer Transformer Charger Rafraîchir c. Entrepôt de données Serveur OLAP d. Servir Requêtes & Rapports Analyses e. BDs opérationnelles Data marts Serveur OLAP Data mining Sources de données Bottom-tiers : Serveur DW Middle-tiers : Moteur OLAP Top-tiers : GUI Figure 2 : Ensemble des composants intervenant dans un système décisionnel (Source : [LC2008]). Cette section propose de parcourir les différents éléments nécessaires (illustrés par la figure 2) à la mise en place d une solution d aide à la décision, depuis l extraction des données jusqu à leur restitution sous forme agrégée, synthétisée et normalisée. 4

Le concept SOLAP - L informatique décisionnelle a. Sources de données (Figure 2-a) Afin d alimenter les entrepôts, les informations doivent être identifiées et extraites de leurs emplacements originels. Il s agit majoritairement de données internes à l entreprise, mais diffuses, car stockées dans les bases de données de production des différents services (legacy systems). Ce peut être aussi des sources externes, récupérées via des services distants, des web services, par exemple. Ce sont des données complexes : plusieurs technologies (types de fichiers, encodages, liens d accès aux systèmes de gestion de bases de données SGBD), environnements (systèmes d exploitation, matériels) et principes de sécurité pour les atteindre (mécanismes réseaux, authentifications) entrent en jeu pour les acquérir. b. Outils d extraction, transformation et chargement (Figure 2-b) Plus connus sous le terme anglo-saxon Extract Transform Load (ETL), ces outils sont fondamentaux pour la construction des entrepôts de données. Ils extraient les données des systèmes hétérogènes sources, les normalisent et les rendent cohérentes entre elles, pour qu elles puissent être utilisées ensemble. Les données sont fournies dans un format permettant leur stockage immédiat dans les entrepôts, et ultérieurement exploitables, sans recalculs par les décideurs et les analystes. En accord avec le résultat à obtenir, et une fois les données importantes localisées dans les systèmes sources, l outil doit les extraire, selon une fréquence déterminée (planification). Elles sont alors stockées temporairement (staging). Cette étape et le type de fichiers choisi pour ce stockage (fichiers plats, XML*, tables relationnelles, etc.) sont décisifs car ils permettent de filtrer et fédérer les données afin de les rendre homogènes [LC2008] : - Le filtrage sert à identifier les données aberrantes ou problématiques, notamment les données manquantes ; - Le dédoublonnage est nécessaire lorsque plusieurs sources de données partagent des données communes ; - Le formatage est crucial, notamment dans le cas de données codifiées (par exemple, des abréviations difficilement convertibles), ou de dates qui doivent être décomposées en un ensemble de champs (année, mois, jour, heure, minute, etc.), contenant chacun une information pertinente ; - La dénormalisation est inévitable si la source est une base de données relationnelle, qui utilise généralement la troisième forme normale* (3FN), interdisant toute redondance. À noter que le formatage et la dénormalisation peuvent être contradictoires car dans le cas de fichiers sources dont les informations sont déjà dénormalisées, il est alors préférable de les normaliser à nouveau ; - La synchronisation garantit la cohérence des agrégats de l entrepôt ; - L agrégation est une collection d opérations possibles à effectuer sur les données. Les plus courantes sont la somme, la moyenne, le comptage, la somme cumulée, le minimum, le maximum. Ces opérations sont à considérer compte tenu du niveau de granularité* de l entrepôt. Ces tâches conditionnent la qualité des données du système décisionnel. À ce titre, cette étape apparaît comme «la plus importante et la plus complexe à effectuer lors de l implantation d un entrepôt de données» [BLM1998]. 5

Le concept SOLAP - L informatique décisionnelle c. Entrepôt de données (Figure 2-c) L entrepôt de données «est une base de données architecturée pour des requêtes et des analyses, plutôt que pour le traitement transactionnel des données», et les résultats de ces requêtes doivent être obtenus rapidement [Noi2006,BLM1998]. L entrepôt est organisé sur le modèle multidimensionnel évoqué précédemment. Il y a néanmoins deux types de stockage : - L entrepôt (data warehouse), qui concentre toutes les données ; - Le marché de données (data mart) focalise sur une partie du métier, par exemple, les relations clients. Yvan Bédard a précisé que «l entrepôt [...] est prévu pour l entreprise dans son ensemble alors le marché de données est sectoriel (il peut être un sous-ensemble exact ou modifié de l entrepôt de données)» [RL2008]. d. Traitement analytique en ligne OLAP (Figure 2-d) En 1993, Edgar Frank Codd introduit le terme On-Line Analytical Processing (OLAP) qui «désigne une catégorie d applications et de technologies permettant de collecter, stocker, traiter et restituer des données multidimensionnelles à des fins d analyses» [Lup2007]. Il a aussi introduit 12 «règles de base» permettant de qualifier l OLAP [LR2009, LC2008] : 1. Transparence : l utilisateur doit pouvoir accéder à la base, sans se préoccuper de l emplacement du serveur ; 2. Accessibilité : les données doivent toutes être accessibles, sans ambiguïté ; 3. Manipulation des données : la navigation doit pouvoir s effectuer intuitivement via des interfaces ergonomiques ; 4. Souplesse d affichage et flexibilité : le serveur doit permettre souplesse pour l édition et réutilisation des rapports générés ; 5. Multidimensionnalité : il s agit de la nature même d OLAP ; 6. Client-serveur : architecture du système ; 7. Multi-utilisateur : l accès et les recherches simultanés de la base doivent être possibles ; 8. Stabilité : les performances sont indépendantes du nombre de dimensions, ce nombre et le niveau d agrégation doivent pouvoir être modifiés sans impact sur les temps de réponse ; 9. Gestion complète : le serveur supporte la représentation d informations manquantes ; 10. Croisement des dimensions : le système permet d effectuer des opérations entre et dans les dimensions ; 11. Dimensionnalité générique : toutes les dimensions d un hypercube doivent être accessibles de manière générique, elles sont, de plus, indépendantes ; 12. Analyse sans limite : le nombre de dimensions et de niveaux d agrégation permettent des analyses complexes. 6

Le concept SOLAP - L informatique décisionnelle Entre entrepôt et OLAP, il n y a qu un pas. En effet, l entrepôt est le lieu de stockage physique des données, tandis que l OLAP est l outil permettant leur analyse multidimensionnelle. Celle-ci est l objet d une requête particulière, émise par l utilisateur, à contrario du forage (data mining) qui vise la recherche de corrélations entre les données dans l intégralité de l entrepôt [RL2008]. Afin de rendre l analyse la moins contraignante et la plus souple possible, l OLAP propose des opérateurs. Il s agit de mécanismes servant à naviguer dans les hiérarchies et les dimensions. Les opérateurs, illustrés dans l annexe A, permettent de [LR2009,Don2006] : - Tailler (slicing, scoping) : autorise l extraction d une tranche, d un bloc d informations. Il s agit d une sélection classique ; - Pivoter (rotate ou swap) : permet d interchanger deux dimensions ; - Remonter (roll-up) : synthétise les informations en fonction d une dimension. Par exemple, sur la dimension géographique, il s agirait de passer du niveau département au niveau région ; - Forer (drill-down) : il s agit de l inverse du (drill-up), on «zoome» sur une des dimensions (de la région au département) ; - Forer latéralement (drill-accross) : en restant au même niveau des dimensions, permet de changer l une des valeurs. Par exemple, passer de l année 1998 à l année 1999. Le forage latéral sur une dimension spatiale peut paraître aussi simple, si l on considère que l on passe, par exemple, d un département à un autre. On peut s interroger sur la pertinence de passer de l Ain à l Aine. Ne serait-il pas plus pertinent de rester dans la région? Ou de considérer des critères de voisinnage? - Percer (drill-through) : permet d accéder au détail des informations, lorsqu on ne dispose que de données agrégées (possible uniquement avec Hybrid OLAP). L architecture d un système OLAP peut se décliner sous plusieurs formes, selon la technologie utilisée. On peut rencontrer des approches sans serveur OLAP, il s agit alors de bases de données relationnelles, où rien n est nativement prévu pour l informatique décisionnelle. Il faut alors que la requête, construite dans le langage SQL* (Structured Query Language), fasse état des agrégations. Ceci demande des compétences spécifiques, que tous les analystes n ont pas forcément. L approche ROLAP (Relationnal OLAP) est aussi basée sur une BDR, mais simulant une structure multidimensionnelle. Les tables sont alors organisées selon un des modèles décrits dans l annexe B. L approche MOLAP (Multidimensional OLAP) est optimisée, comme son nom l indique, pour l analyse multidimensionnelle dont elle en gère la structure de manière physique. HOLAP (Hybrid OLAP) est un croisement des approches MOLAP et ROLAP. Les données détaillées sont stockées dans une BDR tandis que celles agrégées le sont dans une BDM [GO2008, LR2009, Béd-a]. Un tableau comparatif de ces architectures est présenté dans l annexe C. 7

Le concept SOLAP - L informatique décisionnelle e. Outils de visualisation (Figure 2-e) Les outils de restitution sont la partie visible offerte aux utilisateurs. Par leur biais, les analystes sont à même de manipuler les données contenues dans les entrepôts et les marchés de données. Les intérêts de ces outils sont l édition de rapports et la facilité de manipulation. En effet, la structure entière du système décisionnel est pensée pour fournir les résultats aux requêtes des utilisateurs, dans un temps acceptable (de l ordre de quelques secondes), et sans connaissance particulière dans le domaine de l informatique [Mal2008]. Généralement, les outils offrent des facilités de manipulation, comme le «glisser-déposer», permettant une prise en main rapide, intuitive et conviviale. f. Métadonnées (Figure 2-f) Les métadonnées, présentes à tous les niveaux, permettent de connaître les données, qu elles soient brutes ou transformées. Moriarty et Greenwood ont déclaré, en 1997, que «les métadonnées sont aussi essentielles aux usagers que ne le sont les données ellesmêmes» [BLM1998]. Elles décrivent le schéma de l entrepôt, ainsi que l ensemble des règles, des définitions, des transformations et des processus qui sont appliquées à chacune des données [FT2005]. Il y a deux types de métadonnées : - Structurelles : décrivant la structure et le contenu de l entrepôt (aussi appelées métaschéma) ; - Accessibilité : permettant le lien entre l entrepôt et les utilisateurs (description des données). Après avoir fait état des enjeux et du fonctionnement de l informatique décisionnelle, le chapitre suivant évoque les particularités des données géographiques. 8

Le concept SOLAP - L information géographique B. L information géographique Il est estimé qu environ 80 % des données stockées dans des bases de données d entreprises intègrent des informations à caractère géographique [BMT2005]. Ces données deviennent de plus en plus stratégiques, quelqu en soit le domaine. En effet, il peut s agir, pour une entreprise, de définir une nouvelle implantation ou constater l évolution de sa zone de chalandise ; pour les services de veille sanitaire, de pouvoir suivre la progression d une épidémie ou le déplacement d un nuage radioactif, dans le temps et l espace ; ou encore pour les réseaux sociaux, où il s agirait de croiser les contributions des membres, en fonction d un événement. Nous commençons par définir ce qu est une donnée géographique, ce qui nous amène ensuite à évoquer le système d information géographique (SIG) et les prérogatives de ces systèmes, sa place vis-à-vis du SOLAP, ainsi que les enjeux de ce dernier. 1. La donnée géographique Avant d aller plus en avant, un point doit être fait sur la notion même de «donnée géographique». De très nombreuses données ont un caractère spatial, comme par exemple, des adresses, des codes postaux, des pays, des coordonnées latitudinales et longitudinales. De manière générale, il s agit donc d associer aux objets une thématique et leur localisation sur la surface terrestre. Ce second critère est essentiel, il permet de définir des relations topologiques entre les objets, relations que nous allons décrire dans le chapitre C. En ajoutant la dimension temporelle, généralement déjà bien gérée dans les systèmes décisionnels, Philippe Quodverte propose la définition suivante : «L information géographique est la représentation d un objet ou d un phénomène réel, localisé dans l espace à un moment donné» [DS1996]. Toute information géographique doit préciser son système de localisation. Il peut s agir du type direct (mathématique) : tout point terrestre peut, en effet, être repéré par ses coordonnées latitude et longitude. Pour le type indirect, la description est sémantique, indiquant le nom de l endroit (exemple : adresse postale) ou l itinéraire pour s y rendre. Afin de permettre le passage d une référence indirecte à une référence directe, les descriptions textuelles sont classées dans des répertoires, diffusés par des organismes spécialisés comme l Institut de Géographie Nationale (IGN) en France, ou GEOREP au Canada [LR2009, Pro2001]. Pour représenter le monde réel, trois primitives géographiques peuvent être utilisées : le point, la ligne et la surface. Grâce à ces entités géométriques, on peut les assembler (les rivières sont une succession de coordonnées, mettant en jeu les lignes en amont, et les surfaces à leur embouchure), les composer (un objet peut être composé de plusieurs autres, comme par exemple, une forêt est composée de plusieurs surfaces) ou construire des relations topologiques. 2. Système d information géographique Un système d information géographique est, de manière plus générale, un système d information (SI). D après la norme ISO 1 5127-1-1983, un SI est un «système de communication permettant de communiquer et de traiter l information», donc, par extension, un SIG est un SI spécialisé dans le traitement de l information géographique. 1 International Organization for Standardization (Organisation internationale de normalisation) 9

Le concept SOLAP - L information géographique / Décisionnelle + Géographique = SOLAP Cette discipline été dénommée géomatique, et officiellement définie dans le Journal officiel du 14 février 1994 comme «l ensemble des techniques de traitement informatique des données géographiques» [DS1996]. Les SIG sont des outils informatiques «permettant d organiser des données alphanumériques spatialement référencées, de produire des plans ou des cartes». Pourtant, selon Yvan Bédard, «il est bien connu que les SIG seuls ne présentent pas l efficacité requise par les applications analytiques», de par leurs interfaces trop complexes, et leurs temps de traitement trop longs, car basés sur des modèles relationnels [Béd-a]. C. Décisionnelle + Géographique = SOLAP SOLAP désigne à la fois le concept et la technologie permettant le mariage des outils d aide à la décision OLAP et des capacités de représentation cartographique des SIG [LR2011]. Même s il a été démontré qu OLAP possède le potentiel pour supporter l analyse spatiotemporelle, les outils SOLAP sont optimisés pour cette tâche, en exploitant au mieux le modèle multidimensionnel sur lequel ils reposent [BMR2001]. Pour Yvan Bédard, les outils SOLAP peuvent être définis comme des «logiciels de navigation rapide et facile dans les bases de données spatiales qui offrent plusieurs niveaux de granularité d information, plusieurs thèmes, plusieurs époques et plusieurs modes de visualisation synchronisés ou non : cartes, tableaux, et graphiques statistiques» [BCGR2004]. France France Poitou- Charentes Rhône- Alpes Pays de la Loire Isère Rhône Rhône Figure 3 : Représentations des types de dimensions spatiales, de gauche à droite, descriptive, géométrique et mixte. Un système SOLAP permet de gérer trois types de dimension spatiale : - Descriptive : les références spatiales sont textuelles (nom du lieu, par exemple) ; - Géométrique : une géométrie est associée aux membres de tous les niveaux des hiérarchies d une dimension ; - Mixte : combinaison des deux, autorisant à la fois les références textuelles et géométriques. La figure 3 ci-dessus illustre ces trois représentations. 10

Le concept SOLAP - Décisionnelle + Géographique = SOLAP Grâce à ces enregistrements et aux capacités du SOLAP, les utilisateurs vont pouvoir effectuer des requêtes plus spécialisées, basées notamment sur les relations spatiales, temporelles ou spatio-temporelles des données. Travailler sur des entités spatiales et temporelles implique naturellement de les localiser et de les décrire individuellement, mais aussi de les considérer collectivement en décrivant leurs relations dans le temps et dans l espace. Pour les relations spatiales, il est primordial d appréhender les notions de distance, d orientation, et de topologie. Concernant les relations temporelles, les relations de J. Allen font référence, la gestion des événements récurrents peut aussi entrer en considération. La combinaison des deux amène à étudier des déplacements dans un environnement, éventuellement déformable. 1. Relations spatiales Il est courant, dans notre vie quotidienne, d utiliser les relations spatiales pour décrire, par exemple, un paysage : «l arbre est dans le champ qui borde la route, au nord du village». Ceci nous permet de situer des objets les uns par rapport aux autres. Lorsqu on évoque les relations spatiales, on doit en distinguer trois sortes. Tout d abord, la topologie est l ensemble des relations perçues qui nous permettent de situer les objets. Elle est fondamentale dans l analyse spatiale. Sans elle, il serait impossible d extraire des informations sur le voisinage d une unité (adjacence), sur les croisements de deux surfaces (intersection), ou sur le sens d écoulement de l eau d une rivière (connectivité). Mathématiquement, il s agit de l étude des «propriétés géométriques se conservant par déformation continue, puis généralisées pour englober les notions de limites et de voisinage» [PLI2000]. Unité de référence Adjacence au sens strict Adjacence au sens large Adjacence du second ordre Figure 4 : Représentation de la topologie «adjacence» (Source : [CS2010]). Dans ce contexte, cinq relations sont représentables : - L adjacence (ou contiguïté ou voisinage) : les unités spatiales possèdent un arc (adjacence stricte) ou un sommet (adjacence large) en commun. La topologie étant dépourvue de métrique, l adjacence peut prendre en compte l ordre dans lequel les unités sont rencontrées, en prenant comme référence celle d origine (voir figure 4) ; 11

Le concept SOLAP - Décisionnelle + Géographique = SOLAP - La connectivité exprime l adjacence pour des réseaux linéaires. Il s agit de lier les différents segments constitutifs du réseau, tout en leur donnant (ou non) une orientation. La connectivité est notamment utilisée pour représenter les réseaux de distribution (eau, gaz, électricité) ; - L inclusion est utilisée pour déterminer si une unité A est un sous-ensemble d une autre (B). Alors tout point de A est contenu dans B ( A B ). L exemple le plus naturel est la relation entre une région et son pays ; - L intersection exprime le point ou la surface commune à deux entités (A B) ; - La connexité formalise le concept d «être à un seul tenant». Certaines relations logiques ne sont pas évoquées par des points distincts, car étant des cas particuliers. C est le cas de la disjonction, équivalente à la non-intersection, ou de l égalité qui est une inclusion spéciale. Ensuite, la distance. Elle peut être très paradoxale, selon la manière dont on la manipule. La distance orthodromique* («à vol d oiseau») est bien plus courte que la distance que l on devra parcourir réellement si l on doit marcher entre, par exemple, deux villes, en franchissant la chaîne montagneuse qui les séparent, ou encore, si l on devait emprunter le réseau routier, qui lui, contourne le massif [CS2010]. Deux types de distances peuvent être évoquées : - La distance quantitative correspond à un nombre de kilomètres, par exemple ; - La distance qualitative évoque l écartement entre les objets, selon s ils sont «proches» ou «éloignés». N NO NE O E SO SE S Figure 5 : Représentation de l orientation par des formes trapézoïdales. Pour finir, l orientation. Il s agit de définir la position d une entité par rapport à une autre, via huit valeurs linguistiques : nord, nord-est, est, sud-est, sud, sud-ouest, ouest, nord-ouest. La sémantique de chaque valeur est donnée par une fonction d appartenance trapézoïdale, sur l axe des angles [BDW2009], ce que la figure 5 illustre. 12

Le concept SOLAP - Décisionnelle + Géographique = SOLAP 2. Relations temporelles Les requêtes temporelles sont généralement basées sur l algèbre d intervalles de James Allen, introduite en 1983 [All1983]. Il s agit d un ensemble complet d opérateurs booléens de base pour le positionnement relatif dans le temps : «précède, succède, égale, rencontre, chevauche, pendant, commence et finit» (cf figure 6) [Ser2010]. Figure 6 : Les 13 relations qualitatives élémentaires de James Allen (Source : [Ser2010]). Ces relations sont le pendant temporel des relations topologiques que l on applique au côté spatial. Cependant, d autres notions peuvent entrer en compte, comme par exemple, les cycles, événements récurrents ayant une périodicité régulière [Pas2004] : heures de pointe du trafic routier, migration d oiseau, cycle des inondations, etc. Figure 7 : Représentation temporelle sur carte : à gauche, multicartes thématiques, au dessus, carte unique avec diagrammes superposés (Source : [Riv2010]). 13

Le concept SOLAP - Décisionnelle + Géographique = SOLAP La représentation temporelle sur carte est possible de plusieurs façons (comme l illustre la figure 7), en voici deux exemples, parmi les plus récents et plus pratiques [BBL+2007] : - Les multicartes thématiques (temporelles) affichent plusieurs cartes et leur thématique en fonction des critères temporels retenus ; - Les cartes avec diagrammes superposés n affichent qu un fond de carte puis ajoutent des diagrammes, généralement des camemberts, dont chacune des parties symbolise une donnée temporelle. Ces cartographies sont générées par les requêtes temporelles. Ces dernières permettent, en outre, de gérer des cartes statiques, figées à l instant t, ou des cartes dynamiques où le spatial et le temporel peuvent varier. 3. Relations spatio-temporelles Chaque objet spatio-temporel est localisé dans le temps, borné par le début et la fin de son existence. À chaque instant, cet objet est localisable dans l espace. Grâce à la combinaison des requêtes spatiales et temporelles, on peut suivre la trajectoire d objets ou la propagation d un élément. Figure 8 : Trajectoires, sans (à gauche) et avec environnement géographique (à droite) (Source : [Run2010]). Une trajectoire est une évolution de positions d un objet dans un espace, et dans un intervalle de temps. Afin d en faire une modélisation, les données de position doivent être récupérées à une fréquence régulière. De plus, l environnement géographique de l objet doit être connu si l on veut tirer un maximum d informations de ces données, comme l illustre la figure 8 [Run2010]. Le concept d «origine-destination», aussi appelé ligne de flux ou de désir, permet de déterminer la répartition d une demande entre une origine et une destination. Cela sert notamment à la gestion du trafic routier, aérien ou portuaire. Prenons comme exemple les déplacements par route, on peut ainsi optimiser l écoulement d un flux majeur d automobiles en régulant les vitesses (abaissement des limitations), en changeant les temporisations des feux tricolores, en proposant des itinéraires de délestage par une information affichée sur les panneaux urbains, etc. Cette fonctionnalité implique que le cube d analyse contienne deux dimensions spatiales, une pour identifier l origine et l autre pour la destination [Gou2007]. L utilisation de trajectoires et le recoupement des origines-destinations permettent d anticiper les éventuels points bloquants, en proposant le contournement de certaines zones. Ce peut être le cas, en prenant en exemple un événement récent, pour évacuer la population ou détourner la circulation d un lieu où la radioactivité est trop élevée. 14

Le concept SOLAP - Décisionnelle + Géographique = SOLAP 4. Limite du SOLAP Cette section a pour vocation d évoquer quelques difficultés rencontrées par l utilisation du SOLAP, et donc d en démontrer la limite. Il ne sera donc pas repris dans les éléments comparatifs des outils. Figure 9 : Gestion de l historique sur des entités ayant évoluées : à gauche, l URSS de 1991, à droite, les pays résultant de la division de l Union Soviétique, après 1991 (Source : [Lav2009]). La gestion de l historique est un problème récurrent des systèmes d aide à la décision. En particulier dans les SIG, comment prendre en compte l évolution du maillage spatial? En effet, quelle sera la réponse à une requête qui demanderait des informations sur l URSS de 1970 à nos jours, alors que l Union Soviétique n existe plus depuis décembre 1991 (voir figure 9)? Plus proche de nous, comment, par exemple, constater l évolution d un indicateur comme le produit intérieur brut de la France entre 1900 et 1945, alors que l Alsace et la Lorraine ont été rattachées et détachées à plusieurs reprises du territoire français? Cette problématique est le sujet d un grand nombre d études. Trois tendances se dégagent [Lav2009] : - La mise à jour des données sur la version la plus récente de la structure. Les anciennes valeurs sont simplement effacées ; - Le suivi de l historique, en gardant trace des évolutions du système. Il n est donc pas possible d effectuer des comparaisons sur des éléments dont la dimension a évolué. Ces données sont figées et archivées, et ne sont plus accessibles ; - La non-modification des structures permet de coupler la possibilité d effectuer des comparaisons même sur des éléments modifiés, tout en gardant l historique. Ceci est rendu possible par l utilisation de données de référence, permettant les conversions. 15

Analyse comparative des outils existants - Périmètre de l analyse II. Analyse comparative des outils existants Ce chapitre propose de définir les fonctionnalités que l on pourrait attendre des logiciels SOLAP, à partir du moment où ils prétendent gérer le temps et l espace, en focalisant l étude sur les capacités spatiales, temporelles et spatio-temporelles précédemment décrites Il décrira d abord le périmètre de l analyse, puis définira des critères de comparaison, avant de parcourir chacun des outils retenus. Pour clore, le résultat de l analyse sera présenté et commenté. A. Périmètre de l analyse Ce rapport ne se veut pas destiné à accueillir la liste exhaustive des outils SOLAP existants sur le marché, la place et le temps impartis à l exercice ne seraient pas suffisants. Cependant, il est la suite focalisée sur les problématiques spatiales, temporelles et spatio-temporelles du rapport de Benoît Le Rubrus [LR2009]. L analyse qui y était menée, était basée sur une étude réalisée en 2007 par l équipe d Yvan Bédard sur les outils SOLAP commerciaux, complétée par la considération des offres libres et des prototypes utilisés dans le cadre de la recherche [BPR2007]. Les outils alors considérés sont la base de cette analyse. Ce choix est justifié par le fait qu en 2007, et encore en 2009, ils étaient les plus prometteurs. Ceci permettra de statuer sur leur pertinence actuelle et d établir notre base de référence. Les nouveaux arrivants sur le marché sont ensuite examinés. Pour ceux-ci, deux sources sont étudiées. La première est une sélection d outils commerciaux, que l équipe d Yvan Bédard garde à jour [Béd-b]. La seconde est un compte-rendu de la «géoconférence» Free and Opensource Software for Geospatial (FOSS4G), qui s est tenue à Barcelone début septembre 2010. Il en sort, en effet, que l offre open-source dans ce secteur est «mature» et que donc, elle a évolué depuis l analyse faite par mon prédécesseur [Fra2010]. Logiciel JMap SAS Web Olap for Java Spatialytics Map4 Decision Editeur K2 Geospatial SAS-ESRI GeoSOA Intelli 3 Dernière version 4.0i ArcGIS 10 SP2 Geo Mondrian 1.0.0.97 Date de version Janvier 2011 Avril 2011 Nov. 2009 Juin 2010 Guide de l utilisateur oui oui non oui Fiche technique oui oui non oui Vidéo de démonstration non oui oui oui Contact avec un représentant non non non oui Support de conférence non non oui oui Tableau 1 : Liste des sources d information collectées sur logiciels retenus. Précisions sur leur éditeur, numéro et date de dernière version. 16

Analyse comparative des outils existants - Périmètre de l analyse / Critères d évaluation D après l étude du LGS Group, il existe trois approches résultant de la combinaison SIG et OLAP. Il en ressort que seules les solutions intégrées permettent de profiter pleinement et efficacement des fonctions OLAP et SIG ; contrairement aux solutions OLAP-dominants, où les fonctions SIG sont trop restreintes, ou SIG-domimants, où les opérateurs OLAP sont trop limités [Lgs2000]. Par conséquent, seules les premières seront retenues dans ce document. Pour conclure, en considérant uniquement des solutions intégrées, provenant à la fois du rapport de Benoît Le Rubrus et des deux sources supplémentaires, le tableau 1, ci-dessus, indique les outils retenus, ainsi que les sources d informations utilisées pour mener l analyse. B. Critères d évaluation Les critères retenus pour mener à bien cette étude comparative ont pour objectif d aider une organisation à faire un choix parmi l offre existante. Ceux-ci portent sur les capacités spatiales, temporelles et spatio-temporelles des outils SOLAP. Les résultats en termes d opérateurs OLAP (pivoter, remonter, forer, forer latéralement) sont aussi rappelés, afin de permettre une vue globale des possibilités techniques offertes. Les fonctionnalités recherchées par cette étude sont identifiées ici en quatre familles. 1. Les capacités à opérer des requêtes spatiales sont, bien entendu, un des critères les plus importants : - Permettre l utilisation des relations topologiques : adjacence, connectivité, inclusion, intersection, connexité ; - Préciser et calculer des distances: les deux types doivent être paramètrables. Il peut s agir de distance qualitative ou quantitative : par exemple, la présence d un objet dans un rayon de 20 km, par rapport au point de référence ou la distance à laquelle le parc le plus proche est ; - Rechercher selon des critères d orientation : trouver les terrains constructibles au sud de la voie rapide ; - Permettre la définition de plusieurs contraintes sur la même requête : trouver un terrain constructible, au sud de la voie rapide, à moins de 20 km d un parc ; 2. La gestion des relations temporelles, second critère décisif, doit permettre de : - Gérer les 13 relations de James Allen : cet événement s est-il déroulé avant tel autre? - Reconnaître ou permettre la recherche d événements périodiques : comment mieux connaître les cycles de migration des hirondelles? - Représenter le temps sur des cartes : il s agit ici de décrire comment l outil permet la représentation et le contrôle du temps, notamment par l utilisation d un curseur sur une glissière, ou par la possibilité de faire une «lecture» du temps (faire progresser le curseur sur la glissière) ; 3. La combinaison spatio-temporelle n est pas toujours aussi triviale que le simple résultat du produit des capacités spatiales et temporelles de l outil. Ce dernier doit être capable de : - Permettre le calcul et la représentation de trajectoires ; - Définir les origines-destinations, ces grandes tendances de déplacements ; 17

Analyse comparative des outils existants - Critères d évaluation / Présentation des outils 4. Les outils classiques OLAP sont considérés en complément de l étude, afin de permettre la visualisation la plus globale possible : - Permettre de pivoter, échanger deux dimensions ; - Forer et remonter dans une dimension ; - Forer latéralement, afin de permettre les comparaisons entre membres d une même dimension. Pour définir un outil SOLAP le plus complet possible, cette liste de familles de critères pourrait être complétée par d autres considérations comme, par exemple, la maximisation de la compatibilité des outils avec des formats de données, pour l alimentation, des critères de performances, d architecture, d évolutivité, etc. L attention dans ce rapport est focalisée volontairement sur les problématiques spatiales, temporelles et spatio-temporelles, complétée d une indication sur la présence des opérateurs classiques mais néanmoins indispensables à l exploration des dimensions de l hypercube. C. Présentation des outils Cette étude est menée sur la base des documentations fournies par les éditeurs ou groupes de travail qui livre les produits, ainsi que, lorsque c était possible, sur la manipulation de versions d essai, généralement en ligne (démonstration). Plus rarement, un contact avec l équipe en charge du développement commercial a été possible. 1. Produits de référence Les produits étudiés proviennent des analyses effectuées par mon prédecesseur, Benoît Le Rubrus. Ils ont déjà fait l objet d une étude détaillée sur des critères d architecture, de type de forages, et de cartographies. Il faut donc compléter avec les critères spatiaux, temporels et spatio-temporels. a. JMap Le développement du logiciel JMap (anciennement nommé JMap Spatial OLAP) a fait l objet, en 2005, d un transfert technologique du centre de recherche de géomatique de l Université Laval vers la société K2 Geospatial (anciennement KHEOPS Technology). Il était alors le «résultat le plus abouti de travaux sur des précédents prototypes qui ont pu être déployés par l équipe d Yvan Bédard» [LR2009]. JMap est modulaire, l éditeur le qualifiant de «hub géospatial», et permet de le spécialiser grâce l utilisation d extensions (plugin) [K2G]. JMap embarque des outils pour effectuer des requêtes spatiales. Plusieurs types de critères spatiaux sont disponibles, mais tous utilisent une sélection de référence comme base de recherche. Voici deux exemples : - rechercher les parcs, dans un rayon de 1000 mètres par rapport au point sélectionné, comme illustré par la figure 10 (ci-après) ; - déterminer les lots qui touchent la rivière en cours d étude. 18

Analyse comparative des outils existants - Présentation des outils Figure 10 : Exemple de recherche spatiale dans JMap (Source : [K2G2010]). En suivant la figure 14, la démarche est de (1) sélectionner la couche d information sur laquelle porte la recherche (objet de la recherche), puis de (2) choisir les options de recherche, permettant notamment d ajouter les éléments trouvés à la sélection en cours. Finalement, il faut choisir le critère spatial à appliquer à la recherche (3) [K2G2010]. Grâce la documentation en ligne, on peut constater que les recherches peuvent aussi s effectuer sur des descriptions (requêtes par attributs). Il sait aussi gérer les trajectoires [Béd2005]. Rien cependant sur la distance qualitative, ni sur les relations temporelles. b. SAS Web OLAP Viewer for Java SAS Web OLAP Viewer for Java* est le fruit de la collaboration de SAS et ESRI, deux acteurs majeurs des mondes du décisionnel et des SIG. L architecture de cet outil consiste en le couplage de la solution ArcGIS d ESRI avec SAS Enterprise BI Server de SAS (pour les accès aux hypercubes). Il s agit d une application web, permettant la visualisation et l exploration des données OLAP depuis un navigateur. Pour en savoir plus sur les capacités spatiales, temporelles et spatio-temporelles, il faut se concentrer sur la partie SIG de la solution, à savoir ArcGIS Server. Selon les spécifications de l éditeur, ArcGIS permet «la modélisation de relations spatiales entre les données, par exemple, la topologie, les réseaux et les mesures numériques de terrain (MNT*)», comme l illustre la figure 11 [Esr2011]. Figure 11 : Mise en oeuvre d un outil de proximité dans ArcGIS, les couleurs des points sont dégradées selon la distance, par rapport à la rivière (Source : [Arc2011]). Figure 12 : A gauche, outil d itinéraire pour trois points sur un réseau routier ; à droite, représentation de l outil de distance de chemin (Source : [Arc2011]). 19

Analyse comparative des outils existants - Présentation des outils En étudiant l aide en ligne d ArcGis ( ArcGIS Resource Center ), on peut constater que l outil gère une multitude de types de distances, comme les outils de distance de réseau (pour le calcul d itinéraire le long d un réseau de transport) (cf. figure 12, à gauche), de coût (qui prennent en considération que le déplacement peut être mesuré en termes de dépenses d énergie ou de danger), de chemin (extension des outils de distance de coût, permettant de prendre en compte la distance supplémentaire parcourue dans des collines) (cf. figure 12, à droite) [Arc2011]. ArcGIS est capable de gérer les relations temporelles, en proposant même des services prenant en compte ce paramètre, voir la figure 13 illustrant cette gestion [Qui2010]. Pour finir, le temps, contrôlé par un curseur sur une glissière, peut être «jouer» afin de le faire défiler. Figure 13 : Exemple d utilisation du curseur de temps dans ArcGIS, sur une carte générée suite au tremblement de terre à Haïti (Source : [Qui2010]). 2 Voir la démonstration de la représentation de la fuite de pétrole dans le Golfe du Mexique, en mai 2010 : http://www.arcgis.com/home/webmap/viewer.html?webmap=dfa1e187310c4c7a897e4c919dd3f781 20

Analyse comparative des outils existants - Présentation des outils c. Spatialytics Le groupe de recherche GeoSOA développe une solution libre d aide à la décision géospatiale nommée Spatialytics (anciennement connue sous le nom GeoSOA). Celle-ci est développée à partir de la suite Pentaho et est composée de trois logiciels : - GeoKettle, l outil ETL supportant les données spatiales (Pentaho Data Integration) ; - GeoMondrian, le serveur SOLAP (Pentaho Analysis Services) ; - SOLAPLayers, composant web de cartographie, permettant de naviguer dans les hypercubes. Tous ces logiciels libres sont regroupés sur le site Spatialytics.org, tandis que la société Solutions Spatialytics Inc. offre un support commercial à ces solutions. Pour cette analyse, GeoMondrian est donc l élément à étudier. Fonctionant exclusivement avec PostGIS, extension SIG de PostGreSQL, GeoMondrian se revendique le premier moteur SOLAP open-source* [Bad2010]. Spatialytics est encore en version expérimentale, ce qui ne permet pas d avoir accès à une démonstration, ni à une prolifique documentation, et la communauté autour de GeoMondrian ne semble pas très active, en effet la dernière mise à jour du code source date de 2009. La démonstration en ligne, référencée dans l annexe D, montre le bon fonctionnement des opérateurs OLAP classiques, notamment le forage et la remontée, comme l illustre la figure 14 [Bad2009]. Figure 14 : Utilisation de l opérateur «forage» dans GeoMondrian sur la province de Quebec (Source : [Bad2009]). On peut constater, grâce aux présentations de Thierry Badard (professeur à l Université Laval et dirigeant de l équipe GeoSOA), que les relations topologies sont partiellement implantées, ainsi que la gestion temporelle basique (relation de James Allen). Cependant, rien n est dit sur les possibilités spatio-temporelles [Bad2010]. 21

Analyse comparative des outils existants - Présentation des outils 2. Les nouveaux arrivants Depuis 2009, le paysage des logiciels SOLAP disponibles a évolué. Cette section s arrête sur un nouvel outil qui semble très prometteur, bien que récent. Elle évoque aussi quelques autres solutions, qui n ont pu être retenues, et explique pourquoi. a. Map4Decision Développé par la société Québéquoise Intelli 3, présidée par Marie-Josée Proulx (que l on peut retrouver comme co-auteur de quelques-unes des sources de ce rapport), le logiciel Map4Decision est le résultat du partenariat entre le centre de recherche en géomatique de l Université Laval, d Intelli 3 et de Sovar (société ayant pour mission de développer des applications commerciales de découvertes et d innovations des chercheurs de l Université Laval). D après les documentations techniques, le logiciel est capable de gérer la relation origine-destination, par matrices et par cartes (lignes de flux), fonctionnalité illustrée par la figure 15. Ces lignes sont, de plus, forables, permettant ainsi de passer d une vue générale à une vue plus détaillée [Riv2010]. Figure 15 : Exemple de carte de flux générée par Map4Decision (Source : [Riv2010]). 22

Analyse comparative des outils existants - Présentation des outils Pour gérer la dimension temporelle dans la représentation, la technologie du curseur sur une glissière (slider) est utilisée, afin de sélectionner l instant souhaité (figure 16). Il n est cependant pas possible de le «jouer» directement afin de constater l évolution. Figure 16 : Gestion du temps par glissière dans Map4Decision (Source : [Riv2010]). Parmi les documentations mises à disposition, le plan de développement dévoile partiellement les prochaines évolutions de l outil. L accent est mis sur de nouvelles capacités d analyse spatiale, comme l agrégation à la volée, permettant de «créer de nouveaux membres spatiaux à partir de la position des membres existants», ce qui permet, par exemple, de regrouper plusieurs pays en une zone, de calculer la mesure agrégée résultant de cette fusion et de la comparer aux autres données [Nad2010]. La présidente, Marie-Josée Proulx, m a confirmé par courriel, que «bien que Map4Decision soit basé sur un SIG web, les capacités spatiales et temporelles n y sont pas encore intégrées, [...] même si c est l objectif ultime». À noter que Map4Decision utilise le serveur cartographique de K2 Geospatial, JMap. 23