TP3 : Etude de cas Talend



Documents pareils
Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Construction d un EDD avec SQL 2008 R2. D. Ploix - M2 Miage - EDD - Création

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Introduction à la B.I. Avec SQL Server 2008

Evry - M2 MIAGE Entrepôt de données

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Oracle Décisionnel : Modèle OLAP et Vue matérialisée D BILEK

NF26 Data warehouse et Outils Décisionnels Printemps 2010

Présentation du module Base de données spatio-temporelles

BIRT (Business Intelligence and Reporting Tools)

Méthodologie de conceptualisation BI

Bases de données élémentaires Maude Manouvrier

I4 : Bases de Données

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Objectifs du TP : Initiation à Access

Les bases de données Page 1 / 8

Bases de Données OLAP

Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite.

Atelier Fichier Client

Solutions SAP Crystal

Les Entrepôts de Données

Le modèle de données

Access 2010 Entraînement 1 Garage Renault Dossier 24 MCD

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Gestion des bases de données

DBAI. Manuel concis. C est quoi, DBAI? Comment se connecter à DBAI? vous permet de revenir au tableau de bord, où que vous vous trouviez

TP base de données SQLite. 1 Différents choix possibles et choix de SQLite : 2 Définir une base de donnée avec SQLite Manager

Manuel utilisateur du logiciel PrestaConnect.

TD n 10 : Ma première Base de Données

COMMENT AMÉLIORER LA RENTABILITÉ DE VOTRE ENTREPÔT. Logiciel de gestion d entrepôts

Le Langage De Description De Données(LDD)

Modélisation et Gestion des bases de données avec mysql workbench

Introduction aux outils BI de SQL Server Création de cubes dans SQL Server Analysis Services (SSAS)

Les bases de données

Projet Ecureuil DataWarehouse CNIP. ETL avec Talend. Travail de diplôme Yannick Perret. Responsable de projet: Sylvie Bouchard

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

A.-M. Cubat PMB - Import de lecteurs - Généralités Page 1 Source :

Les BASES de DONNEES dans WampServer

Optimisations des SGBDR. Étude de cas : MySQL

IMPLEMENTATION D UN SYSTEME D INFORMATION DECISIONNEL

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

SWISS ORACLE US ER GRO UP. Newsletter 5/2014 Sonderausgabe. OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features

Utiliser Access ou Excel pour gérer vos données

Olivier Mondet

Langage SQL : créer et interroger une base

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

David LUCAS 15/01/10 Ludovic HUET Sébastien LE NECHET Jason JAMOT. Projet BO

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

Appel d offre «Refonte du CRM du pôle de compétitivité TRIMATEC» Cahier des charges

Méthode de préparation du fichier texte d import depuis Excel, via Access jusqu à Drupal.

Création et Gestion des tables

SQL MAP. Etude d un logiciel SQL Injection

TP Conception de Datawarehouse Initiation à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Analyse des coûts. 1 ère année DUT GEA, 2005/2006 Analyse des coûts

ETL Extract - Transform - Load

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

Éléments méthodologiques sur le reporting environnemental 2011

L Edition Pilotée XL

Corrigé de l'atelier pratique du module 6 : Transfert de données

IBM* DB2 Universal Database* Tutoriel Business Intelligence : Introduction à Data Warehouse Center

LOGICIEL DE GESTION D UN CENTRE DE FORMATION

Âge effectif de sortie du marché du travail

Manuel utilisateur Portail SAP

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

meinestadt.de meinestadt met en place un nouveau process de reporting complet et développe la culture de la donnée de l entreprise.

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

La solution Full Web pour optimiser vos équipements

Stella-Jones pilier du secteur grâce à IBM Business Analytics

Guide de commande Commander un certificat d identité numérique PersonalSign

Voyez clair dans vos finances avec AccèsD Affaires

UML et les Bases de Données

DATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES

EXCEL et base de données

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ;

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

Les différents types de relation entre les tables

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

RMLL Présentation Activité Pentaho

L INTELLIGENCE D AFFAIRE DANS LA VIE QUOTIDIENNE D UNE ENTREPRISE

Créer une base de données

PHP 5. La base de données MySql. A. Belaïd 1

Guide de l utilisateur du Centre de gestion des licences en volume LICENCES EN VOLUME MICROSOFT

Business Intelligence Reporting

UE 8 Systèmes d information de gestion Le programme

MANUEL ADMINISTRATEUR KIWI BACKUP VERSION 2

Information utiles. webpage : Google+ : digiusto/

Sommaire. 1 Introduction Présentation du logiciel de commerce électronique 23

Concevoir une base de données

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

Oracle Application Express: Développer des Applications Web

Le langage SQL pour Oracle - partie 1 : SQL comme LDD

Compte Rendu d intégration d application

Utilitaires méconnus de StrataFrame

Transcription:

1. Présentation TP3 : Etude de cas Talend La société Orion Cette société fictive, présente au niveau mondial, est spécialisée dans la commercialisation d articles de sport et d extérieur. Les données disponibles regroupent des informations sur : les employés les produits les clients les commandes les fournisseurs Le siège social aux États-Unis, gère des filiales en Belgique (depuis 1999), Pays Bas, Allemagne, Royaume-Uni, Danemark, France, Italie, Espagne et Australie. Les produits sont vendus en magasin, par catalogue et par internet. Une carte de fidélité : Orion Star Club, propose beaucoup d avantages. L historique d information va du 1 er janvier 1998 au 31 décembre 2002. Structure de l organisation Le siège social héberge la majeure partie des fonctions administratives, soit un nombre important d employés, entre 600 et 800. Le siège social centralise aussi la gestion des stocks, la vente par catalogue, la vente par internet et l import - export. Néanmoins, certains employés gèrent aussi ces fonctions depuis les différentes filiales. Les employés sont enregistrés dans la base de données selon cinq niveaux : Pays Compagnie Département Section Groupe Les informations complémentaires sur les employés sont notamment : Date d entrée et de départ de l employé Date de début et de fin de contrat (pour certain contrat) Adresse Sexe Salaire Responsable hiérarchique L offre La société propose environ 5500 références. Certaines ne sont pas vendues dans tous les pays, d autres, de part les volumes commercialisés, reflètent certaines particularités régionales, certains sports nationaux. Tous les noms sont fictifs. Les produits sont organisés selon 4 niveaux : Ligne de produit Catégorie de produit Groupe de produit Produit

Chaque produit a un coût et un prix de vente. Le système informatique gère tous les prix en dollars. En utilisant les dates de début et de fin, ces prix varient en fonction du temps. Cet historique est sauvegardé. Le système gère aussi les remises pour certains produits, à certaines périodes. Les prix sont généralement uniques de part le monde. Les clients Les clients sont repartis à travers le monde, notamment dans les pays où se trouvent des filiales, mais pas uniquement. Les noms et adresses sont fictifs, même si les villes, régions/comtés et pays, sont réels. La base de données enregistre environ 90 000 clients, pas tous actifs. L adresse des clients comprend tout ou partie des informations suivantes : Rue Code postal Ville Région / département / conté Etat Pays Continent Les clients sont classés dans des groupes en fonction de leur activité d achat. Les commandes Chaque commande pointe vers le commercial qui a enregistré la vente. Environ 980 000 commandes sont enregistrées, commandes qui reflètent notamment les saisonnalités. Chaque commande comprend une ou plusieurs lignes, une ligne par produit. Les fournisseurs Chaque produit provient d un fournisseur qui est basé dans un pays, mais toutes les commandes sont passées par le siège social. Il y a 64 fournisseurs, mais un seul fournisseur par produit. 2. Mise en place d un système décisionnel La société Orion souhaite améliorer sa performance à l aide d un système décisionnel. Voici quelques questions qui ont été recensées et auxquelles devrait répondre le système mis en place : Quels sont les produits qui se vendent le mieux? Quels sont les produits en perte de vitesse? Quels sont les produits qui contribuent très peu au chiffre d affaire pour un pays et une année donnés? Estce que ces produits peuvent être remisés? Quelle est la marge générée par ce groupe de produit? Est-ce que la marge dépend de la quantité vendue? Est-ce que les remises font augmenter les ventes? Est-ce que les remises font augmenter la marge? Quels sont les commerciaux qui font le plus de ventes? Quels sont les commerciaux qui performent le mieux par pays, sexe, âge, salaire? Quels groupes de clients sont identifiés? Quels sont les clients les plus rentables? Quels fournisseurs proposent des produits rentables?

Quelle est la moyenne et l écart-type du chiffre d affaire? Quelles sont les variables qui expliquent le mieux l importance du chiffre d affaire? Y-a-t il une différence significative entre la moyenne de la somme du chiffre d affaire géré par les commerciaux de sexe féminin et celle des commerciaux de sexe masculin? Il faut donc construire un entrepôt de données capable de répondre aux besoins de requête, de reporting, et d analyses avancées. 3. Données sources Voici le schéma relationnel de la base de données opérationnelle de l entreprise d où proviendront les données de l entrepôt :

Ces tables sont stockées dans la base de données Microsoft Access nommée orion.mdb, hormis la table Staff stockée dans le fichier Microsoft Excel nommé staff.xls. 4. Schéma de l entrepôt Voici le schéma en étoile de l entrepôt de données : Customer_Dim Customer_ID INTEGER Customer_Country CHARACTER(2) Customer_Group CHARACTER(40) Customer_Type CHARACTER(40) Customer_Gender CHARACTER(1) Customer_Age_Group CHARACTER(12) Customer_Age SMALLINT Customer_Name CHARACTER(40) Customer_Firstname CHARACTER(20) Customer_Lastname CHARACTER(30) Customer_Birth_Date DATE Organization_Dim Employee_ID INTEGER Employee_Country CHARACTER(2) Company CHARACTER(30) Department VARCHAR(40) Section VARCHAR(40) Org_Group VARCHAR(40) Job_Title VARCHAR(25) Employee_Name VARCHAR(40) Employee_Gender CHARACTER(1) Salary DECIMAL(13) Employee_Birth_Date DATE Employee_Hire_Date DATE Employee_Term_Date DATE Order_Fact #Customer_ID INTEGER #Employee_ID INTEGER #Street_ID INTEGER #Product_ID INTEGER #Order_Date DATE #Order_ID INTEGER Order_Type SMALLINT Delivery_Date DATE Quantity SMALLINT Total_Retail_Price DECIMAL(13,2) Costprice_Per_Unit DECIMAL(13,2) Discount DECIMAL(5,2) Geography_Dim Street_ID INTEGER Continent VARCHAR(30) Country CHARACTER(2) State_Code CHARACTER(2) State VARCHAR(25) Region VARCHAR(30) Province VARCHAR(30) County VARCHAR(60) City VARCHAR(30) Postal_Code CHARACTER(10) Street_Name VARCHAR(45) Product_Dim Product_ID INTEGER Product_Line CHARACTER(20) Product_Category CHARACTER(25) Product_Group CHARACTER(25) Product_Name CHARACTER(45) Supplier_Country CHARACTER(2) Supplier_Name CHARACTER(30) Supplier_ID INTEGER Time_Dim Date_ID DATE Year_ID CHARACTER(4) Quarter CHARACTER(6) Month_Name VARCHAR(20) Weekday_Name VARCHAR(20) Month_Num SMALLINT Weekday_Num SMALLINT Implémenter la création des tables de l entrepôt sous MySQL en spécifiant bien les clés primaires et les clés étrangères. Commencer par les tables Customer_Dim et Product_Dim et Organization_Dim. Maintenant que les tables de l entrepôt sont créées, il faut réaliser les processus qui vont remplir ces tables à partir des données sources. 5. Connexion aux sources d entrées et de sorties Etablir une connexion orion_bd à la base access orion.mdb : o Dans le Repository, clic droit sur Metadata / Db Connections / Create connection o Récupérer les schémas des tables Clic droit sur la connexion orion_bd : Retrieve Schema Sélectionner les tables nécessaires au projet. Pour chaque table, il y a le type de chaque colonne dans la base de données sources (DB Type) et sa traduction dans Talend (Type). Pour simplifier, seulement 3 types seront utilisés ici : Double, String et Date. Modifier alors pour chaque table, la traduction des DATETIME en Date (au lieu de String).

Etablir une connexion au fichier staff.xls o Dans le Repository, clic droit sur Metadata / File Excel / Create file Excel o Modifier les types des colonnes de façon à n avoir que des Double, des String ou des Date. Etablir une connexion à votre entrepôt de données afin de pouvoir le remplir avec Talend. 6. Création du job de remplissage de la dimension Customer_Dim Pour chaque colonne de la table Customer_Dim, spécifier de quelle(s) donnée(s) source elle dépend. Table cible Colonne cible Table(s) source Colonne(s) source Remarques Créer un job nommé Job01_Customer_Dim Choisir les tables sources (Customer puis Customer_Type) et les importer dans le Design Workspace avec l option taccessinput. Choisir la table cible (Customer_Dim) et l importer dans le Design Workspace avec l option tmysqloutput. Ajouter le composant «tmap» pour faire le lien entre les données sources et les données cibles. o Double-clic sur le composant tmap. o Faire une jointure entre les deux tables sources. o Relier les colonnes sources aux colonnes cibles. o Créer une nouvelle variable avec l âge des clients : Expression : Mathematical.INT(TalendDate.formatDate("yyyy",TalendDate.getCurrentDate()))- Mathematical.INT(TalendDate.formatDate("yyyy",customer.Birth_Date)) Type : double Variable : age

o La colonne cible CUSTOMER_AGE est égale à cette variable age. o La colonne cible CUSTOMER_AGE_GROUP est définie de la façon suivante : Var.age<30?"<30 years": Var.age<46?"30-45 years": Var.age<61?"46-60 years": Var.age<76?"61-75 years": ">75 years" Dans le Design workspace, vous afficherez un petit commentaire pour décrire le job à l aide du composant Misc / Note (à faire pour tous les jobs). Attention de bien supprimer les données dans le composant de sortie (option à sélectionner) afin de ne pas avoir de doublon à chaque lancement du job. Lancer le job en cliquant sur Run. 7. Création du job de remplissage de la dimension Product_Dim Pour chaque colonne de la table Product_Dim, spécifier de quelle(s) donnée(s) source elle dépend. Créer un job nommé Job02_Product_Dim. Choisir les tables sources et la table cible. Ajouter le composant Processing / tmap puis ajouter les liens entre les différents composants (renommer les liens avec des noms pertinents). Dans le premier composant taccessinput (product_list par exemple) : o Modifier la requête pour ne prendre en compte que les produits : Dans la vue Component, dans Query, modifier la requête. Procéder de la même façon pour les autres composants. Dans le composant tmap : o Faire les jointures entre les différentes tables sources. o Relier les colonnes sources aux colonnes cibles.

Lancer le job 8. Création du job de remplissage pour la dimension Organization_Dim Pour chaque colonne de la table Organization_Dim, spécifier de quelle(s) donnée(s) source elle dépend. Créer le job Job03_Organization_Dim. 9. Création du job de remplissage pour la dimension Geography_Dim Pour chaque colonne de la table Geography_Dim, spécifier de quelle(s) donnée(s) source elle dépend. Créer le job Job04_Geography_Dim. 10. Création du job de remplissage pour la table Order_Fact Pour chaque colonne de la table Order_Fact, spécifier de quelle(s) donnée(s) source elle dépend. Créer le job Job05_Order_Fact.