OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE



Documents pareils
Hervé Couturier EVP, SAP Technology Development

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

Les Entrepôts de Données

SQL SERVER 2008, BUSINESS INTELLIGENCE

Business Intelligence avec Excel, Power BI et Office 365

Analyse comparative entre différents outils de BI (Business Intelligence) :

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Catalogue des formations Edition 2015

Big Data et Graphes : Quelques pistes de recherche

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Urbanisation des SI-NFE107

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Guide de référence pour l achat de Business Analytics

ANTICIPEZ ET PRENEZ LES BONNES DÉCISIONS POUR VOTRE ENTREPRISE

Big Data et Graphes : Quelques pistes de recherche

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

ANNEXE 2 DESCRIPTION DU CONTENU DE L OFFRE BUSINESS INFORMATION AND ANALYSIS PACKAGE

Intégration de données hétérogènes et réparties. Anne Doucet

Cahier des charges de l application visant à effectuer un suivi de consommation énergétique pour les communes. Partenaires du projet :

Business Intelligence

Suite Jedox La Business-Driven Intelligence avec Jedox

Guide de référence pour l achat de Business Analytics

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

L A B U S I N E S S. d a t a g i n f o r m a t i o n g a c t i o n

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Ici, le titre de la. Tableaux de bords de conférence

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Entreposage de données complexes pour la médecine d anticipation personnalisée

QU EST-CE QUE LE DECISIONNEL?

Constituer des profils d'experts scientifiques, de centres de recherche et d entreprises innovantes

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

LES ENTREPOTS DE DONNEES

BUSINESS INTELLIGENCE

DESCRIPTIF DE MODULE S5 GSI

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Open Data. François Bancilhon twitter.com/fbancilhon Printemps de la recherche EDF R&D 28/9/12

Formations Qlikview et Infini Conseil. Business Intelligence

BI2 : Un profil UML pour les Indicateurs Décisionnels

Introduction à la B.I. Avec SQL Server 2008

Pourquoi signer votre Accord Entreprise Microsoft avec SHI?

SQL Server 2012 et SQL Server 2014

Parcours DIWEB : (Données, Interaction et Web)

Accélérateur de votre RÉUSSITE

Construction d un environnement destiné à l'aide au pilotage

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Datawarehouse and OLAP

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

un module de simulation des évolutions urbaines Présentation

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Planification, Elaboration budgétaire, Simulation, Analyse Temps Réel BAO02. Cognos TM1. Pascal DELVAL, Customer Technical Professional

Le Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan

Entrepôt de données 1. Introduction

et les Systèmes Multidimensionnels

Regards Citoyens L'Open Data par et pour les citoyens

JEDOX FACTSHEETS SELF-SERVICE BUSINESS INTELLIGENCE, ANALYTICS & PERFORMANCE MANAGEMENT

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

Chapitre 9 : Informatique décisionnelle

BI : GESTION GESTION, PRODUCTION STRATEGIE DE BI. Un livre blanc d Hyperion

XCube XML For Data Warehouses

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Open Data. Enjeux et perspectives dans les télécommunications

THOT - Extraction de données et de schémas d un SGBD

Jedox rafraîchit les rapports du fabricant de boissons MBG

De l OpenData aux citoyens : potentiel et limites des plateformes collaboratives

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

HYPERVISION. Supervision 2.0. RMLL Strasbourg monitoring-fr.org

Projet CASI: Master Data Management

Utiliser SQL Server 2008 R2 Reporting Services comme source de donne es pour Microsoft Excel

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

SWISS ORACLE US ER GRO UP. Newsletter 5/2014 Sonderausgabe. OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features

INTRODUCTION A LA B.I AVEC PENTAHO BUSINESS ANALYTICS Formation animée par

Bases de données pour la recherche : quels enjeux et quel rôle pour les patients?

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

Solution d intelligence marketing et CRM

Didier MOUNIEN Samantha MOINEAUX

BIG DATA et DONNéES SEO

Modélisation d objets mobiles dans un entrepôt de données

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Petit Déjeuner Pépinière du Logiciel Libre. 25 juin 2008

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Business & High Technology

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Présentation du 23 mai 2013 Barcarolle/Prangins AGENDA. 1. INTRODUCTION 2. CALYPS 3. QlikView by QlikTech 4. ANALYSE AVEC QLIKVIEW

Big Data On Line Analytics

Département Génie Informatique

Pentaho : Comparatif fonctionnel entre la version Communautaire (gratuite) et la version Entreprise (payante) Table des matières

Architectures d'intégration de données

SAP BusinessObjects Web Intelligence (WebI) BI 4

Développer une stratégie SIG Entreprise efficace avec ESRI et ArcGIS

Modélisation Multidimensionnelle des Tableaux de Bord Prospectifs

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Transcription:

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE «Journée Open Data» 5 Novembre 2013 Présenté par : Imen Megdiche Directeur de thèse : Pr. Olivier Teste (SIG-IRIT) Co-directeur de thèse : Mr. Alain Berro (VORTEX-IRIT)

Plan Contexte général Challenges d entreposage Problématique Solution proposée Perspectives

Contexte général : Open data Open data (ou données ouvertes) sont des données disponibles sous licence libre destinées à la réutilisation et à la redistribution par n importe quelle personne. Source : http://wwwdb.inf.tu-dresden.de/opendatasurvey/

Contexte général : Open Data Acteurs Catégorie Secteurs publics (gouvernements..) Producteurs Ré-utilisateurs Entreprises Médias, bloggeurs Chercheurs Intermédiaires Usages : Visualisation des données : cartographie ( OpenStreetMap..) Applications spécifiques (mobile,..) basées sur les données (exp : transports, tourisme, santé, accéssibilité ) Liaison sémantique des données ( Linked Open Data ) Analyse des données (Business Intelligence)

Challenges d entreposage d Open Data Challenges d entreposaged OpenData Linked Open Data Ontologie Automatiser la découverte de schémas Alignement.. Modèle d intégration flexible

Open data 1 Accidents Par sous-type Open data 2 Accidents par type Accidents total

Quelques travaux.. Approches Google Refine[1] Google fusion [2] OpenII[5] WebSmatch[3] Stratégie d intégration Extensionet/ou fusionnement des sources Identification et matchingde schémas Identification et matchingde schémas Format fichier Excel -Non structurées Limites - Les attributs doivent être surla première ligne Excel -Pasdeschémas -Un seul tableau par - Les plus utilisées parfeuille les producteurs de calcul Excel, RDF, XML - Matching entre - Les formats les plus présents deux schémas ( -Visualisation GovWild[4] LinkedOpen Data RDF, XML, HTML, CSV -Les relations du schéma sont -Structurées prédéfinis Midas [6] Matchingavec un schémacible prédéfini - Présences de schémas Texte, HTML, XML -Scénariospécifique -Nécessite un long travail (données en background financières) pour les producteurs - intégration manuelle (annotation des données )

Problématique Analyse multidimensionnelle (OLAP) des Open Data Axes de recherche Phase ETL : Automatiser le plus loin possible le processus d intégration des Open Data dans une structure flexible permettant la découverte d un schéma mutlidimensionnel Phase analyse des données OLAP

Architecture d entreposage d Open Data Valide Détection automatique des zones de données mesures Définition des relations entre les données structurelles (hiérarchie, instance ) Sources Open Data Détection des données temporelles Analyse des sources

Architecture d entreposage d Open Data Sources Open Data Détection automatique des zones de données mesures Définition des relations entre les données structurelles (hiérarchie, instance ) Détection des données spatio-temporelles Analyse des sources Valide Construction automatique graphes Graphes des sources G(V,E) G(V,E) : relations entre les mesures et les données structurelles V : Intégration des graphes E : par classification conceptuelle (treillis de Galois) Graphe Intégré V_lab(i,j) : sommets des données structurels (dimensions?) V_nbr(i,j) : sommets des données mesures (cellules cube?) E_dim: arcs entre les données structurels (instance, hiérarchie ) E_fact: arcs entre mesures et dimensions

Architecture d entreposage d Open Data

Architecture d entreposage d Open Data Détection automatique des zones de données mesures Valide Graphe Intégré Schéma multidimensionnel Sources Open Data Définition des relations entre les données structurelles (hiérarchie, instance ) Détection des données spatio-temporelles Analyse des sources Construction automatique graphes Graphes des sources G(V,E) Intégration des graphes par classification conceptuelle (treillis de Galois) Définition incrémentale et semi-automatique des composants multidimensionnels

Architecture d entreposage d Open Data

Perspectives Approfondir la démarche en cours extraction des structures, amélioration de l intégration. Simuler des données manquantes issues de l alignement des données de différents niveaux de granularité. Traiter le problème d historisation des open data Mise à jour de la même source Intégration d une nouvelle source

Références [1] http://code.google.com/p/google-refine [2] http://www.google.com/drive/apps.html#fusiontables [3] Coletta R, Castanier E, Valduriez P, et al. (2012) Public Data Integration with WebSmatch. CoRR [4] Böhm C, Freitag M, Heise A, et al. (2012) GovWILD: integrating open government data for transparency. WWW (Companion Volume). pp 321 324 [5] Seligman and al. OpenII: an open source information integration toolkit. In Int, SIGMOd Conference, pages 1057-1060, 2010 [6] Balakrishnan S. et al. Midas : inetgrating public financial data. In SIGMOD 10, pages 1187-1190, New York, Usa, 2010. ACM.

Merci pour votre attention Questions?