BI = Business Intelligence Master Data-ScienceCours 2 - ETL



Documents pareils
BI = Business Intelligence Master Data-ScienceCours 3 - Data

BI = Business Intelligence Master Data-Science

Les nouvelles architectures des SI : Etat de l Art

Urbanisme du Système d Information et EAI

Business & High Technology

Technologie data distribution Cas d usage.

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

Urbanisation des SI. Des composants technologiques disponibles. Urbanisation des Systèmes d'information Henry Boccon Gibod 1

Avant-propos... Introduction... Première partie Comprendre : les concepts. Chapitre 1 La gestion des données de référence... 3

Architectures d'intégration de données

Urbanisation des Systèmes d'information

Comment initialiser une démarche SOA

Ici, le titre de la. Tableaux de bords de conférence

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Fusion : l interopérabilité chez Oracle

Partner Business School

Transformation IT de l entreprise FLUIDIFIER LES ÉCHANGES CLIENTS : QUEL AVENIR POUR L INTÉGRATION BTOB?

Introduction à la conception de systèmes d information

AXIAD Conseil pour décider en toute intelligence

Systèmes d information décisionnels (SIAD) Extraction de connaissances (KDD) Business Intelligence (BI)

Thibault Denizet. Introduction à SSIS

Architecture des entrepôts de données

SAP Business Suite Powered by SAP HANA Transactionnel et Analytique réunis

La Business Intelligence pour les Institutions Financières. Jean-Michel JURBERT Resp Marketing Produit

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

Les entrepôts de données et l analyse de données

Bases de Données Avancées

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Distribuez une information fiable. IBM InfoSphere Master Data Management Server 9.0. Des données fiables pour de meilleurs résultats

Business & High Technology

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

Enterprise Intégration

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Contexte. Objectif. Enjeu. Les 3 questions au cœur du Pilotage de la Performance :

Chapitre 9 : Informatique décisionnelle

Projet CASI: Master Data Management

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

Introduc;on à l intelligence d affaires et aux entrepôts de données

Business Intelligence : Informatique Décisionnelle

Gestion des Donnés Métier de Référence

DESCRIPTIF DE MODULE S5 GSI

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

MTI820 Entrepôts de données et intelligence d affaires. Gouvernance des données et ges1on des données de référence


Conception Exécution Interopérabilité. Déploiement. Conception du service. Définition du SLA. Suivi du service. Réception des mesures

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Architecture SOA Un Système d'information agile au service des entreprises et administrations

LES ENTREPOTS DE DONNEES

LES MASHUPS ENTREPRISE Une nouvellegénération d applicationsagiles

Intégration de systèmes

En synthèse. HVR pour garantir les échanges sensibles de l'entreprise

Le 09 et 10 Décembre 09

Michael Benayoun Worldwide ECM Go To Market, IBM

Décisionnel & Reporting

La Stratégie d Intégration Advantage

WHITE PAPER Une revue de solution par Talend & Infosense

QU EST-CE QUE LE DECISIONNEL?

L EAI. par la pratique. François Rivard. Thomas Plantain. Groupe Eyrolles, 2003 ISBN :

Intégration et Déploiement de Systèmes d Information

GPC Computer Science

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

BI Open Source Octobre Alioune Dia, Consultant BI

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

L INTÉGRATION ENTRE BUSINESS INTELLIGENCE ET WEB ANALYTICS

Evry - M2 MIAGE Entrepôt de données

Objectif : Passer de l analyse métier et fonctionnelle à la définition des applications qui

Nouvelles technologies pour l intégration : les ESB

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM

Contexte. Objectif. Enjeu. Les 3 questions au cœur du Pilotage de la Performance :

BI : GESTION GESTION, PRODUCTION STRATEGIE DE BI. Un livre blanc d Hyperion

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Master Data Management en Open Source C est le Bon Moment

Evry - M2 MIAGE Entrepôt de données

DataStudio. Solution d intégration des données et de diffusion de l information

L évolution des besoins et des solutions d intégration

Méthodologie de conceptualisation BI

Mettez les évolutions technologiques au service de vos objectifs métier

Les Entrepôts de Données

CNAM cours NFE107 : Urbanisation et architecture des SI Xavier Godefroy, Rapport sur le BPM, mai Le BPM

Le petit glossaire du décisionnel

Semarchy Convergence for Data Integration La Plate-Forme d Intégration pour le MDM Évolutionnaire

Jedox rafraîchit les rapports du fabricant de boissons MBG

I)EAI. EAI synthèse de lecture

L'avenir des ERP (ou, pourquoi les dinosaures ont-ils disparu?) 22/03/2010 AMETSIA Jean-Luc Méric

RAMOS BELLO Laura Comment la culture de chaque agence PANALPINA va-t-elle influencer les enjeux de la mise en place du CRM?

Principe, applications et limites

L A B U S I N E S S. d a t a g i n f o r m a t i o n g a c t i o n

L'EAI (Enterprise Application Intégration)

Aller plus loin avec la CRM?

WHITEPAPER. Quatre indices pour identifier une intégration ERP inefficace

Gouvernez les flux de données au sein de votre entreprise pour une meilleure flexibilité

Semarchy Convergence for MDM La Plate-Forme MDM Évolutionnaire

Stella-Jones pilier du secteur grâce à IBM Business Analytics

Enterprise Data Quality : fiabilisez vos processus E-Business Suite en améliorant la qualité des données

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Faire mieux, plus vite, moins cher grâce à la virtualisation du système d informations... Un document eforce France Mars 2003

Transcription:

BI = Business Intelligence Master Data-Science Cours 2 - ETL UPMC 1 er février 2015

Rappel L Informatique Décisionnelle (ID), en anglais Business Intelligence (BI), est l informatique à l usage des décideurs et des dirigeants des entreprises. Les systèmes de ID/BI sont utilisés par les décideurs pour obtenir une connaissance approfondie de l entreprise et de définir et de soutenir leurs stratégies d affaires, par exemple : d acquérir un avantage concurrentiel, d améliorer la performance de l entreprise, de répondre plus rapidement aux changements, d augmenter la rentabilité, et d une façon générale la création de valeur ajoutée de l entreprise....et à créer de nouveaux services...

Rappel La vidéo avec le son

Les fonctions Différents métiers : Data Integrator Data Analyst Data Scientist + Data Steward (Responsable des données)

Les fonctions de la BI Fonction de collecte de données Fonction d intégration Fonction de diffusion (ou distribution) Fonction présentation

Plan du Cours

Le projet de BI

L architecture classique de la BI

Données de l entreprise Les données de l entreprise sont stockées dans des systèmes transactionnels qui enregistrent les données quotidiennes. Différentes sources de données : Fichiers Excel... ERPs Systèmes de CRMs Capteurs Et aujourd hui : Données du Web Twitter...

Difficultés Sources diverses et disparates ; Sources sur différentes plateformes et OS ; Applications legacy utilisant des BDs et autres technologies obsolètes ; Historique de changement non-préservé dans les sources ; Qualité de données douteuse et changeante dans le temps ; Structure des systèmes sources changeante dans le temps ; Incohérence entre les différentes sources ; Données dans un format difficilement interprétable ou ambigu.

Intégration de données Définition L intégration de données appelé ETL (Extraction Transfer Loading) regroupe les processus par lesquels les données provenant de différentes parties du système d information sont déplacées, combinées et consolidées. Ces processus consistent habituellement à extraire des données de différentes sources (bases de données, fichiers, applications, Services Web, emails, etc.), à leur appliquer des transformations (jointures, lookups, déduplication, calculs, etc.), et à envoyer les données résultantes vers les systèmes cibles. Source : wikiversity.org Il existe plusieurs système d intégration de données : La médiation au service de l intégration de données d entreprise (EII). L intégration de données via les applications (EAI). L intégration de données via les services Web (ESB, SOA). L intégration de données en nuage (Data Cloud).

Intégration de données La médiation au service de l intégration de données d entreprise (EII). L intégration de données via les applications (EAI). L ETL (Extract - Transform - Load)

EII - EAI - ETL Source : IBM Software group

EII - Entreprise Information Intégration Définition Enterprise Information Integration (EII) est une approche d architecture (voire d urbanisme) permettant d obtenir une vue unifiée des données informatiques de l entreprise. Source : Wikipedia

EII - Caractéristiques En fonction des choix retenus, l utilisateur aura la possibilité de : modifier les données (et non pas seulement un accès en lecture seule) ; agir en temps réel sur les données (et non pas en différé) ; accéder à des données structurées ; accéder à des données cohérentes ; accéder à des services ; remonter des informations jusque dans le modèle métier (objet) ;

EII Source : IBM Software Group

EII Source : IBM Software Group

EAI - Entreprise Application Integration Définition L intégration d applications d entreprise est une architecture intergicielle permettant à des applications hétérogènes de gérer leurs échanges. On la place dans la catégorie des technologies informatiques d intégration métier (Business Integration) et d urbanisation. Sa particularité est d échanger les données en pseudo temps réel. Source : wikipedia Logique de Bus ou de Hub Messages

Architecture EAI - Exemple Source : Seralia

EAI Source : IBM Software Group

EAI Source : IBM Software Group

ETL - Etract, Transform, Load Définition Extract-Transform-Load est connu sous le terme ETL, ou extracto-chargeur, (ou parfois : datapumping). Il s agit d une technologie informatique intergicielle (comprendre middleware) permettant d effectuer des synchronisations massives d information d une source de données (le plus souvent une base de données) vers une autre. Selon le contexte, on est amené à exploiter différentes fonctions, souvent combinées entre elles : extraction, transformation, constitution ou conversion, alimentation.

Architecture ETL

ETL Source : IBM Software Group

ETL Source : IBM Software Group

ETL/EII/EAI Source : IBM Software Group

ETL/EII/EAI Source : IBM Software Group

ETL/EII/EAI Source : IBM Software Group

Conception 1 Enumérer les items cibles nécessaires au datawarehouse ; 2 Pour chaque item cible, trouver la source et l item correspondant. 3 Si plusieurs sources sont trouvées, choisir la plus pertinente. 4 Si l item cible exige des données de plusieurs sources, former des règles de consolidation. 5 Si l item source referme plusieurs items cibles, définir des règles de découpage. 6 Inspecter les sources pour des valeurs manquantes.

Conception Le rapatriement des données peut se faire de trois façons différentes : Push : la logique de chargement est dans le système de production, il pousse les données vers le Staging quand il en a l occasion. Pull : le Pull tire les données de la source vers le Staging. Push-Pull : La source prépare les données à envoyer et prévient le Staging qu elle est prête. Le Staging va récupérer les données. Si la source est occupée, le Staging fera une autre demande plus tard.

Conception Trois types d extraction de données : Extraction complète : Capture de l ensemble des données disponibles Pour le chargement initial, ou rafraichissement de données Extraction incrémentale : Capture des données qui ont changées Extraction Temps-réel : S effectue au moment où les transactions surviennent dans les systèmes sources