Principe, applications et limites



Documents pareils
Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

27 janvier Issam El Hachimi Ludovic Schmieder

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Catalogue Formation «Vanilla»

BI = Business Intelligence Master Data-Science

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

La place de la Géomatique Décisionnelle dans le processus de décision

MyReport, LE REPORTING SOUS EXCEL

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

Thibault Denizet. Introduction à SSIS

Mercredi 15 Janvier 2014

Analyse comparative entre différents outils de BI (Business Intelligence) :

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Q.U.I.D QUALITÉ ET URBANISATION DE L'INFORMATION DÉCISIONNELLE. Tom BIZET & Stéphane SITBON 2008

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

Gestion de données avec TALEND

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Pentaho : Comparatif fonctionnel entre la version Communautaire (gratuite) et la version Entreprise (payante) Table des matières

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

et les Systèmes Multidimensionnels

Chapitre 9 : Informatique décisionnelle

Business & High Technology

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI SYNALTIC 24 RUE DE L EGLISE VINCENNES

Formations QlikView / Business Intelligence

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion

_L'engagement qui fait la différence BUSINESS INTELLIGENCE DATA WAREHOUSING PILOTAGE DE LA PERFORMANCE

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI ALTIC & SYNOTIS - TRAINING CENTER 24 RUE DE L EGLISE VINCENNES

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Introduction à la B.I. Avec SQL Server 2008

Nicolas ANGENIEUX GISMARTWARE

Projet CASI: Master Data Management

BUSINESS INTELLIGENCE

Business Intelligence avec Excel, Power BI et Office 365

BUSINESS INTELLIGENCE

Bases de Données Avancées

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Département de Maine et Loire OASIS. Observatoire d Analyse du Système d Information Stratégique

MyReport, une gamme complète. La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! pour piloter votre activité au quotidien.

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2014

FORMATION TALEND. Page 1 sur 9

BI Open Source Octobre Alioune Dia, Consultant BI

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

La Business Intelligence en toute simplicité :

ACQUISITION. Traitement de l image. Classement. Préparation. Ouverture. Performance

Migration et import de données

BUSINESS INTELLIGENCE

MYXTRACTION La Business Intelligence en temps réel

Suite Jedox La Business-Driven Intelligence avec Jedox

I. Instalation de l environnement JDK et JRE : II. Configuration outil Reporting : Pentaho... 4

SQL SERVER 2008, BUSINESS INTELLIGENCE

ANNEXE 2 DESCRIPTION DU CONTENU DE L OFFRE BUSINESS INFORMATION AND ANALYSIS PACKAGE

Les nouveautés de FME 2014

MyReport Le reporting sous excel. La solution de business intelligence pour la PME

Entrepôt de données 1. Introduction

DataEXchanger. Echangez en toute simplicité. Atelier Dex Etat des lieux Dex X. Présentation DEX X

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Urbanisme du Système d Information et EAI

BIRT (Business Intelligence and Reporting Tools)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

MANAGEMENT DES SERVICES INFORMATIQUES

Documentation Administrateur

Pilot4IT Tableaux de Bord Agréger et consolider l ensemble de vos indicateurs dans un même portail.

BI = Business Intelligence Master Data-ScienceCours 2 - ETL

Projet M1 Sujet 21 : Développement d'un logiciel simplifié de type Business Object

Curriculum Vitae. GISBERT Aurélien Ingénieur Informatique INSA Senior Business & Data Analyst Business Intelligence 11 ans d expérience

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

gvsig: nouveautés version 2.1 et plus

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Mise en œuvre du PGI dans les enseignements tertiaires

DataStudio. Solution d intégration des données et de diffusion de l information

Jedox rafraîchit les rapports du fabricant de boissons MBG

Business Intelligence avec SQL Server 2012

Offre CRM Analytique Logiciels pour une meilleure performance commerciale, 2011

IMPLEMENTATION D UN SYSTEME D INFORMATION DECISIONNEL

LIVRE BLANC. Les ETL Open Source. Une réelle alternative aux solutions propriétaires

Département Génie Informatique

SQL Server 2012 et SQL Server 2014

CATALOGUE DE FORMATIONS SAP BUSINESS OBJECTS. Edition 2013

Les nouveautés Version 8

Enterprise Intégration

S7 Le top 10 des raisons d utiliser PHP pour moderniser votre existant IBM i

CATALOGUE DE FORMATIONS SAP BUSINESS OBJECTS. Edition 2012

Les Géodatabases en 9.2

INGÉNIEUR - DÉVELOPPEUR CONFIRMÉE ORACLE - PL/SQL. 27 ans - 4 ans d'expérience

La problématique. La philosophie ' ) * )

LES LOGICIELS OPEN SOURCE DANS LA GEOMATIQUE

CURRICULUM VITAE. Martin Harnois. Consultant depuis 23 ans Spécialiste en Business Intelligence / entrepôt de données depuis 11 ans.

RÉALISATION D UN DATAMART DÉCISIONNEL INTÉGRANT UN ETL OPEN SOURCE

Le SIG provincial. B u r e a u S y s t è m e d I n f o r m a t i o n G é o g r a p h i q u e. DSI Service des Applications Métiers. province-sud.

Présentation du module Base de données spatio-temporelles

LE SECTEUR DU DECISIONNEL : LA NOUVELLE CIBLE DE MICROSOFT?

GEDEXPERT. La Gestion Electronique de Documents spécialement conçue pour les Experts Comptables VOTRE NOUVEL ASSISTANT POUR

IBM System i. DB2 Web Query for System i : le successeur de Query/400? Oui, mais bien plus!!!

Les entrepôts de données

Conseil et Ingénierie des Systèmes d Information d Entreprise

Des solutions sur mesure à partir de modules fonctionnels & CRM associés à un studio de customisation.

Vers une vraie alternative du libre dans les logiciels d aide à la décision (BI)

Transcription:

Principe, applications et limites Sujet commandité par Thomas Milon Encadré par Bruno Tisseyre Traité par Florence Laporte, Anne Meillet et Romain Rivière Veilles technologiques Mercredi 14 décembre 2011 1

Présentation Introduction Principe Analyse de l existant Intérêts et limites Petit TD de prise en main d un ETL géographique libre : SDI Conclusion 2

Définition,historique et importance des données spatiales 3

ETL: Extract, Transform, Load Technologie informatique intergicielle : Extraction massive de données de diverses sources Transformation de ces données en les rendant compatibles avec une source cible Intégrer les données transformées dans la source cible Apparition avec la notion de «Business Intelligence» 4

1970 1980 2005 2007 Apparition des premiers ETL Première interface avec langage SQL Première suite GéoDécisionnelle Jmap Premier ETL spatial Open Source Talend SDI 5

80 % des données possèdent des références géographiques (Franklin,1992) Essor des SIG: Pression de plus en plus importante pour l'accès aux données géographiques Multiplicité des sources et formats de données Métadonnée: multiplicité des sources et spécifications, malgré tentative de normalisation 6

ETL géo Source: http://www.gsdi.org/gsdiconf/gsdi11/wrkshpslides/w1.8a.pdf 7

Extract Transform Load E T L 8

Connexion aux différentes données(vecteurs, rasters, SGBD, flux, PCI ) Parseur lecture de l information Données sources Connexion Lecture ETL Point critique conditionne le process 9

Modification des données extraites Transformation attributaire calcul, harmonisation des valeurs Nettoyage/correction des erreurs Homogénéisation Transformation géographique Filtre masque Tri classification Association jointure (y compris spatiales) Cœur du système qualité du process 10

Chargement des données transformées dans les bases de données cibles ETL Connexion Transfert Données cibles (ex : Data Warehouse) 11

Données sources E-T-L (géokettle) Données cibles 12

Analyse des logiciels existants et critères d'évaluation 13

Propriétaire : FME, InfoSphere DataStage, Informatica, Oracle Warehouse Builder, Libre : Talend SDI, Pentaho Geokettle 3 catégories : Engine-based (Moteur de transformation) Database-embedded embedded Code-generators (générateur de code) 14

Coût Taille de la structure Culture de la structure Accès aux données Traitement des données Temps de traitement Ergonomie Le livre blanc - ETL Open Source : Une réelle alternative aux solutions propriétaires ATOL, Conseil et Développement 15

Version SDI 4.2.0 Depuis 2007 Géokettle 2.0 Depuis 2007 Basé sur Talend Open Studio (TOS) Pentaho Data Integration Développé par CampToCamp Université de Laval ETL de type Générateur de code Moteur de transformation Lecture et/ou écriture des données aux formats Les principaux SGBD et formats de fichiers Une trentaine de SGBD Tous les fichiers plats (csv, xml, excel) Points forts Communauté Calculs d aggrégation lookups Forum et Wiki Chargement de données Répartition sur plusieurs serveur 16

A travers un exemple d'application et d'un TD 17

Collecte et transformation d une quantité massive de données D origines diverses De formats différents Automatisation des processus Gain de temps Chargement incrémentiel de nouvelles données Eviter les erreurs dûes à la redondance d opérations manuelles Sécurité (système de détection des erreurs) 18

Accessible aux non-informaticiens: Programmation limitée et «graphique» Reprise et partage du «code» facilité Ex: Transformation Shp en Kml Solution classique: bash + Ogr #!/bin/bash mkdir ecw for FILE in *.tif do BASENAME=$(basename $FILE.tif) OUTFILE=ecw/${BASENAME}.ecw echo "Processing: ${BASENAME}.tif" if [ -f $OUTFILE ] #skip if exists then echo "Skipping: $OUTFILE" else /usr/local/bin/gdal_translate -of ECW -co LARGE_OK=YES $FILE $OUTFILE fi done Talend SDI http://geolector.alwaysdata.net/geoplanet/posts/251/ 19

(Exemple d application) 20

Contrôle de la qualité des données / norme OGC Intégration et contrôle du PCI au format EDIGEO Localisation des erreurs Création des périmètres administratifs, Découpage Conversion de format Reprojection de référentiels 21

22

Tâche Processus Job Etape 1 Composant 1 Etape 2 Composant 2 Etape N Composant N

Barre d outil Zone de travail Gestionnaire de projet Zone de gestion des jobs Palette de composants 24

Lourd Peu intuitif Boite noire 25

«ETL is not magic» 26

Pratique mais contraignant Questions sur les données sources : Sont-elles modifiables? Sont-elles homogènes? Doivent-elles être transformées? Questions sur les processus : Faisable autrement? Répétitif? 27

28