Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques



Documents pareils
Principe, applications et limites

27 janvier Issam El Hachimi Ludovic Schmieder

Chapitre 9 : Informatique décisionnelle

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Business & High Technology

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Business Intelligence avec SQL Server 2012

Analyse comparative entre différents outils de BI (Business Intelligence) :

Pilot4IT Tableaux de Bord Agréger et consolider l ensemble de vos indicateurs dans un même portail.

Entrepôt de données 1. Introduction

Introduction à la B.I. Avec SQL Server 2008

Gestion de données avec TALEND

JASPERSOFT : Répondre à la demande croissante face à un reporting de plus en plus complexe.

Catalogue Formation «Vanilla»

Business Intelligence avec SQL Server 2012

Didier MOUNIEN Samantha MOINEAUX

La place de la Géomatique Décisionnelle dans le processus de décision

Pentaho : Comparatif fonctionnel entre la version Communautaire (gratuite) et la version Entreprise (payante) Table des matières

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Business Intelligence avec Excel, Power BI et Office 365

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

Méthodologie de conceptualisation BI

ArcGIS. for Server. Sénégal. Comprendre notre monde

BUSINESS INTELLIGENCE

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI SYNALTIC 24 RUE DE L EGLISE VINCENNES

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

gvsig: nouveautés version 2.1 et plus

ANTICIPEZ ET PRENEZ LES BONNES DÉCISIONS POUR VOTRE ENTREPRISE

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI ALTIC & SYNOTIS - TRAINING CENTER 24 RUE DE L EGLISE VINCENNES

Evry - M2 MIAGE Entrepôt de données

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

Urbanisation des SI-NFE107

et les Systèmes Multidimensionnels

Décisionnel & Reporting

ArcGIS. for Server. Comprendre notre monde

Business Intelligence : Informatique Décisionnelle

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Guide de référence pour l achat de Business Analytics

Projet M1 Sujet 21 : Développement d'un logiciel simplifié de type Business Object

MyReport, LE REPORTING SOUS EXCEL

DEMANDE D INFORMATION RFI (Request for information)

Thibault Denizet. Introduction à SSIS

Suite Jedox La Business-Driven Intelligence avec Jedox

Business Intelligence

ORBIT GIS GeoSpatial Business Intelligence

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Formations QlikView / Business Intelligence

Les Géodatabases en 9.2

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

ANNEXE 2 DESCRIPTION DU CONTENU DE L OFFRE BUSINESS INFORMATION AND ANALYSIS PACKAGE

BIRT (Business Intelligence and Reporting Tools)

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

Master Data Management en Open Source C est le Bon Moment

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

L expérience citoyenne numérique. Solutions et expertises pour répondre aux enjeux des territoires

DataStudio. Solution d intégration des données et de diffusion de l information

Enterprise Intégration

BI Open Source Octobre Alioune Dia, Consultant BI

Petit Déjeuner Pépinière du Logiciel Libre. 25 juin 2008

Les Entrepôts de Données

Les attentes du marché

Technologie data distribution Cas d usage.

MYXTRACTION La Business Intelligence en temps réel

Accélérateur de votre RÉUSSITE

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Yourcegid Secteur Public Finances : Une réponse globale aux nouveaux enjeux de la fonction publique. Collectivités. Finances

Wonderware System Platform pour l'industrie

Guide de référence pour l achat de Business Analytics

En un coup d œil le descriptif de la solution OpenERP

Chapitre 1 Introduction

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

ETL Extract - Transform - Load

Nicolas ANGENIEUX GISMARTWARE

Mercredi 15 Janvier 2014

La Business Intelligence en toute simplicité :

IBM System i. DB2 Web Query for System i : le successeur de Query/400? Oui, mais bien plus!!!

1 Introduction. Business Intelligence avec SharePoint Server 2010

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Projet CASI: Master Data Management

Déroulement de la présentation

Suite IBM Tivoli IT Service Management : comment gérer le système d information comme une véritable entreprise

Département Génie Informatique

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

BI2B est un cabinet de conseil expert en Corporate Performance Management QUI SOMMES-NOUS?

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

Support de TD ArcGIS Introduction à l automatisation et au développement avec ArcGIS 10.1 JEAN-MARC GILLIOT e année ingénieur

BI = Business Intelligence Master Data-Science

Transcription:

1

2

Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques 3

ETL = extracto-chargeur = datadumping La Business Intelligence, BI, (ou informatique décisionnelle) désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données d'une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d avoir une vue d ensemble de l activité traitée. (Source Wikipedia) Les ETL constituent le socle de la BI et permettent d'extraire les données en provenance de diverses sources et de les transformer sous forme acceptable pour pouvoir être intégrées à une source cible: l'etl doit les faire passer par un tas de moulinettes pour les dé-normaliser, les nettoyer, les contextualiser, puis de les charger de la façon adéquate dans la source de donnée cible. La mise en place d'un ETL constitue 80% du temps de développement d'un projet décisionnel en moyenne Sources: - http://people.cs.aau.dk/~tbp/teaching/dwml06/4_etl.pdf - http://igm.univ-mlv.fr/~dr/xpose2010/extract_transform_load/etl.php 4

Evolution caractérisée par un confort d'utilisation accrue grâce aux interfaces graphiques, la multiplicité des drivers de connexion aux sources de données, et les traitements de données possibles. Première suite décisionnelle géographique initiée en 2000 et sortie en 2005: JMAP Solap de la société K2 géospatial Cette suite à été adoptée dans de nombreux domaines: Gestion de domaines routier, sportifs, fouilles archéologiques, Emergence de l open source business intelligence (OSBI) ->intérêt de la communauté Open Source Talend SDI, premier ETL Open Source, sort en 2007 Sources: - geotribu.net - http://igm.univ-mlv.fr/~dr/xpose2010/extract_transform_load/etl.php 5

Il est estimé qu environ 80 % des données stockées dans des bases de données d entreprises intègrent des informations à caractère géographique.(franklin,1992) il a été démontré que la carte plus que tout autre média, permet de par ses caractéristiques de stimuler nos capacités cognitives (Bertin & Bonin 1992; Standing 1973; Tufte1992; T. Buzan& B. Buzan2003). Les données géographiques deviennent de plus en plus stratégiques, quelque soit leur domaine d utilisation. Actuellement, tentative de normalisation -> INSPIRE en Europe Défis majeurs (comme pour SIG) Nettoyer les données géospatiales Intégrer des données de sources hétérogènes d époques différentes de granularités différentes http://yvanbedard.scg.ulaval.ca/wpcontent/documents/slideshow/publication/593/593.pdf: 6

Besoin utilisateur = accéder à des informations géographiques Pléthore de données mais accès transparent pour l utilsateur 7

8

L extraction est une étape déterminante pour la suite du processus. Des données provenant de différents systèmes passent par les outils ETL. Chaque système peut utiliser une organisation des données ainsi que des formats différents. En général, le but d un outil ETL est de convertir les données en un format unique permettant les processus de transformation. Le parsing, ou décomposition analytique, est une partie intégrante du processus de transformation qui vérifie que la donnée correspondent à une structure ou un format déterminé. 9

Durant cette étapes, une série de règles et de fonctions sont appliquées aux données extraites afin de permettre l intégration des données extraites dans la cible finale. Certaines sources de données nécessite peu ou pas de manipulation de données. Dans d autres cas, les transformations suivantes sont requises afin de satisfaire aux besoin techniques : - Sélectionner des colonnes -Traduire des attributs en utilisant le nettoyage de données : en effet, la traduction d attribut n est pas manuelle en ETL - encoder des attributs (e.g., transformer "Male" en "1") -trier - faire des jointures de données -Chercher et valider les données pertinentes des tables ou des fichiers de références - Appliquer une validation simple ou complexes sur des données. Ala fin : données filtrées et fédérées afin de les rendre homogènes (source : http://tranchant.name/2011/11/informatique-decisionnelle/) 10

La phasede loadpermet de charger les données dans la cible finale (par exemple dans un entrepôt de données). Les données sont ensuite disponibles pour les différents outils d'analyse et de présentation que sont le Data Mining, l'analyse multimensionnellesolap, les analyses géographiques, les requêteurs et autres reportings et bien sûr les tableaux de bord. 11

Vidéo :http://www.youtube.com/watch?v=ffvbavfgw7e&feature=player_embedded&noredirect=1 Données sources : un fichier shapefile contenant des informations sous différents formats des polylignes des points, porteurs d attributs aucun polygone Script: Extract données sources Tranform: Agrégation de lignes Union de lignes Création de polygones Filtre des colonnes Produit cartésien avec les données sources de type point Polygones contenant des points label Filtrage des colonnes Load données cibles Données cibles : un fichier Shapefilede polygones porteurs d information sur les formes sur les attributs Autre exemple : http://www.youtube.com/watch?v=vp-lifzypdy&noredirect=1 Création de fichiers Shapefiled'entités administratives à partir d'un fichier Shapefiledes communes 12

Analyse de l existant 1. Logiciels existants 2. Critères d'évaluation des ETL 3. Comparaison de deux ETL géographiques libres : SDI et géokettle 13

http://georezo.net/annuaire/etl--extract-transform-load--c-74.html= liste les ETL dans le domaine Spatial Propriétaires : mise en œuvre rapide Libre : couts réduits à la mise en œuvre d une hot line technique Talend: modèle open source commercial avec un «dual-licensing», des versions communautaires puissantes et fiables complétées par des versions «Enterprise» (payantes) dont le but est l amélioration de la productivité dans le cadre de déploiements à moyenne et grande échelle. (source : http://www.osbi.fr/?p=1114) 3 catégories d ETL : (Source : http://www.dwfacile.com/choix_outils.htm) Engine-based: les transformations sont exécutées sur un serveur ETL, disposant en général d un référentiel. Ce genre de d outil dispose d un moteur de transformation ; Database-embedded: les transformations sont intégrées dans la BDD Code-generators: les transformations sont conçues et un code est généré.ce code est déployableindépendamment de la base de données. -Avantages : pas besoin de serveur particulier et son installation consiste en gros en l'installation (copie) de quelques fichiers Java sur une machine, plus rapides -Note : prévoir de la place de charger les données dans les bases 14

Coût ETL propriétaire : investissement important à l achat (licence, formation) Code spécifique : coût croissant de maintenance, d adaptation (résultat sur mesure mais complexe, long, coûteux, risqué, difficile à maintenir/évoluer, difficile à adapter) ETL open source : pas de licence, coûts de formation et d adaptation réduits (inscription à une hot-line technique) Accès aux données Diversité des formats Complexité des données Traitement des données transformations possibles Temps de traitement des tests de comparaison existent Ergonomie simplicité d utilisation pour un non-informaticien Source: Le livre blanc -ETL Open Source : Une réelle alternative aux solutions propriétaires ATOL, Conseil et Développement http://grim.developpez.com/articles/concepts/etl/ 15

Choixdépend de la typologie de projet -> nécessité d une analyse préalable (source : livre blanc Atol 2008) Tests (réalisés en 2008) : - Extraction de données d un fichier CSV/ chargement dans un autre fichier CSV : légère avance pour SDI - Extraction de données d un fichier CSV/ chargement dans un fichier XML : avance plus marquée pour SDI - Extraction de données d un fichier CSV/ chargement dans une table postgresql: légère avance pour SDI Talend: référence pour la gestion des données au sein d une entreprise/organisation (Intégration, Qualité de la données, Master Data Management) Kettle: ETL orienté BI, même si globalement, en terme d intégration de données, la couverte fonctionnelle est identique à celle de Talend(source : http://www.osbi.fr/?p=1114) 42 secondes pour PentahoGéoKettleet 28 secondes pour TalendOpen Studio pour réaliser un traitement d intégration de données complexe sur un fichier CSV comprenant un million de lignes + http://geotribu.net/node/222 16

Intérêts et limites des ETL géographiques 1. Avantages illustrés par des exemples 2. Cas d utilisation : exemple de Géoplateforme 17 3. TD de prise en main d un ETLgéographique libre (SDI) Limites 17

Raccourcirde manière considérable le délai entre la collecte de données et leur valorisation. Migrer, consolider des infrastructures de données géographiques Simplifier l'exécution de tâches habituellement chronophages Éviter les erreurs dûes à la redondance d'opérations manuelles 18

L alternative avant les ETL était la mise en place de codes/scripts. 19

Contexte: Besoin croissant d échange d information géographique entre de nombreux acteurs du territoire: pays, communautés de communes, Conseil Général, services de l'etat, gestionnaires de réseaux Directive INSPIRE Plateforme 17 : service en ligne proposé par le Syndicat Informatique de Charente-Maritime Partage de données spatiales ETL utilisé : FME, ETL propriétaire payant Rôle de FMEdesktop: assurer l interopérabilité des données pour l échange, la transformation, le chargement et le contrôle des données spatiales vectorielles ou raster Sources : http://www.veremes.com/references/etudes-de-cas/geoplateforme-17 Sources : http://www.veremes.com/references/etudes-de-cas/geoplateforme-17 20

Sources : http://www.veremes.com/references/etudes-de-cas/geoplateforme-17 Contrôle de la qualité des données : A chaque dépôt de données par un partenaire, FME est utilisé pour analyser la validité de ces dernières notamment en fonction des normes de l OGC (garant de l'interopérabilité des données). FME répond à toutes les demandes de téléchargements asynchrones (conversion, projection, découpage ). Les données rasters sont par exemple toujours traitées par FME, et la décompression de données au format EDIGéOest également assurée par des scripts FME. Toute demande de téléchargement de données au format GML, dxf, majic, Géodatabase... est assurée par FME. Le contrôle du PCI vecteur des 472 communes du département est également opéré par FME quatre fois par an : les problèmes de compressions corrompues, les problèmes de respect de standard d'échange, les problèmes topologiques, les doublons, les erreurs d assemblages sont identifiés via des projets FME qui restituent ensuite des fichiers localisant et qualifiant l ensemble des erreurs. Envoyés par la suite à la DGFIP pour correction, ces fichiers contribuent à une amélioration constante de la qualité du PCI et assurent ainsi son exploitation. FME contribue à l enrichissement et l amélioration des différentes bases de données métiers. FME est utilisé pour apparier les données des différentes bases et accroitre l information contenue dans chacune d elle. Les modélisations 3D, l assemblage d ortho images, la résolution de problèmes d encodage, d accentuation, de projection, le contrôle d intégrité de données sont autant d opérations assurées par l ETL. 21

22

Un job est constitué d'un ensemble de composants (component)permettant de réaliser une action ou une étape au sein du processus plus large de réalisation d'une tache particulière. Source: http://georezo.net/wiki/main/logiciels/sdi/start?s[]=spatialdataintegrator 23

1. barre de menu et d'outils 2. gestionnaire de projets : jobs, méta-données(configuration des connections aux bases de données, schéma de fichier, etc.), paramètres contextuels, etc. 3. palette de composants, classés par catégorie ; 4. zone de travail où l'on place et interconnecte les components ; 5. zone de gestion des jobs : lancement, configuration des composants, etc. Source: http://georezo.net/wiki/main/logiciels/sdi/start?s[]=spatialdataintegrator 24

25

26

Pratique : prise en charge d une quantités massives de données interopérabilité des données identification des erreurs automatisation prise en charge de l implémentation des données cibles Contraignant : traitements lourds logiciels peu intuitifs ETL libres incomplets Quand (ne pas) utiliser un ETL? ETL Toolversus Hand Coding? The answer is, It depends". - Les sources sont-elles susceptibles d'être modifiées? -Les supports sont-ils hétérogènes? - Les données doivent-elles être transformées? Lorsque le choix est porté sur l'utilisation d'un ETL, c'est dans l'optique de bénéficier de l'un des objectifs visés par ces outils.le temps de maintenance peut être réduit avec un ETL, mais la maintenance est elle réellement contraignante et inévitable, et les ressources compétentes sont elles réellement insuffisantes? Le temps de développement peut être réduit avec un ETL, mais la structure des données est-elle assez complexe pour faire appel à une abstraction des supports de données fournie par un ETL? L'application d'un ETL n'est pas adéquate dans tous les cas de figures : elle dépend de la structure des données, du volume des transferts, des ressources nécessaires à la modélisation, à la maintenance. http://igm.univ-mlv.fr/~dr/xpose2010/extract_transform_load/etl.php 27

28