PRESENTATION DE PENTAHO DATA INTEGRATION (PDI)



Documents pareils
Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

27 janvier Issam El Hachimi Ludovic Schmieder

Installation d'une galerie photos Piwigo sous Microsoft Windows.

Analyse comparative entre différents outils de BI (Business Intelligence) :

Cours Linux. Cours en ligne Administrateur Systèmes Linux. Académie Libre

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Installation et utilisation de Cobian Backup 8

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Utiliser le portail d accès distant Pour les personnels de l université LYON1

MISE A JOUR : 04 FEVRIER 2011 PROCÉDURE D INSTALLATION. Cegid Business COMMENT INSTALLER CEGID BUSINESS V9 SOUS WINDOWS XP, VISTA ET 7

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

MANUEL UTILISATEUR SOPISAFE V 3.5

Eclipse atelier Java

PerSal Manuel d installation

Procédure d installation :

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

Dans cette Unité, nous allons examiner

MUNIA Manuel de l'utilisateur

Manuel Utilisateur Nuabee Backup pour Windows 7/8/8.1

CONTACT EXPRESS 2011 ASPIRATEUR D S

MANUEL UTILISATEUR KIWI BACKUP V 3

5004H103 Ed. 02. Procédure d installation du logiciel AKO-5004

Chaque ordinateur est constitué de différentes unités de stockage de données (Disque dur, Graveur ) que l on peut imaginer comme de grandes armoires.

Thunderbird est facilement téléchargeable depuis le site officiel

GUIDE D INSTALLATION INTERNET haute vitesse

Quels sont les espaces disponibles sur l ordinateur pour stocker ses documents et comment accéder facilement au dossier «My Documents»?

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Nell Armonia Shuttle Web

Avertissement : Nos logiciels évoluent rendant parfois les nouvelles versions incompatibles avec les anciennes.

Google Merchant Center

Description du logiciel Acronis Backup & Recovery 11.5

Procédure d'installation du serveur Apache HTTPD pour Windows

_ PARAMETRE DU COMPTE _ ACCEUIL. 1 ere Etape «Créer un compte principal» Créer un compte secondaire. Ouvrir un compte principal

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

SAS DEPLOYMENT MANAGER

Procédure d installation de mexi backup

SRAL Saint Raphaël. Maison des associations 213, rue de la Soleillette Saint Raphaël. : : dromain.jean-pierre@neuf.

Epreuve E4 Conception et maintenance de solutions informatiques DESCRIPTION D UNE SITUATION PROFESSIONNELLE

Logiciel DELF-DALF - Mise à jour vers la version (septembre 2014)

Fiche Produit. Sauvegarde en ligne Kiwi Online

Introduction aux outils BI de SQL Server Tutoriel sur SQL Server Integration Services (SSIS)

ESPACE COLLABORATIF SHAREPOINT

Utilisez Toucan portable pour vos sauvegardes

Sauvegarde et Restauration d un environnement SAS

DELEGATION ACADEMIQUE AU NUMERIQUE FORMATION ADMINISTRATEUR SCRIBE 2.3 ET CARTABLE EN LIGNE (CEL)

NAS 206 Utiliser le NAS avec Windows Active Directory

Étape 1 : Création d une adresse courriel GMAIL

FTP / WebDeploy /WebDAV. Manuel

Manuel d utilisation du web mail Zimbra 7.1

PROJET KAS-STORE PRESENTATION DU PROJET. KS-PRES Version /09/ Validé. KS-PRES - Version /09/2009 Validé Page 1 / 8

Sync-A-BOX et Duplicati. est une plateforme Cloud pour stocker et gérer vos données en ligne.

POVERELLO KASONGO Lucien SIO 2, SISR SITUATION PROFESSIONNELLE OCS INVENTORY NG ET GLPI

L accès à distance du serveur

Cobian backup. Sauvegarde. Cobian Backup est un logiciel de sauvegarde gratuit fonctionnant sous windows. Nathan Garaudel PCplus 01/01/2014

Tutoriel déploiement Windows 7 via serveur Waik

INFORM :: DEMARRAGE RAPIDE A service by KIS

Internet Marketing Manager

MODULES 3D TAG CLOUD. Par GENIUS AOM

Sauvegarder automatiquement ses documents

Guide de démarrage

MEDIA NAV Guide de téléchargement de contenus en ligne

Procédure : Sauvegarder un Windows 7 sur un disque réseau

Guide de l utilisateur Mikogo Version Windows

DEMARREZ RAPIDEMENT VOTRE EVALUATION

Notice d'utilisation Site Internet administrable à distance

Atelier «personnaliser l environnement de l ordinateur mai 2015

I. Instalation de l environnement JDK et JRE : II. Configuration outil Reporting : Pentaho... 4

Thibault Denizet. Introduction à SSIS

Messagerie & Groupeware. augmentez l expertise de votre capital humain

Exercice sur la planification de l élaboration d un programme TPMDidacticiel de MS Project pour la planification de projets

SOMMAIRE 1 INTRODUCTION 3 2 CONTACTER VOTRE SUPPORT 3 3 ESPACE DE GESTION DES CARTES 4 4 CONFIGURER UNE CARTE 5

Note Technique. 1. Objectif. 2. Prérequis. 3. Installation

Table des Matières. Présentation Installation... 2 Mise en route Les Icones... 5 Les paramètres

Sauvegarde des données d affaires de Bell Guide de démarrage. Vous effectuez le travail Nous le sauvegarderons. Automatiquement

SOMMAIRE GUIDE D UTILISATION DU WEBMAIL. vous guide

Installer Enterprise Miner 5.1 en SAS environnement Windows

Guide de démarrage IKEY 2032 / Vigifoncia

UTILISER LA MESSAGERIE

Présentation du logiciel Cobian Backup

SAUVEGARDER SES DONNEES PERSONNELLES

K?ellaWeb Saisie des absences, retards et sanctions APLON en mode Web

JULIE SMS V2.0.1 NOTICE D INSTALLATION ET D UTILISATION

Didier MOUNIEN Samantha MOINEAUX

Iobit Malware Fighter

Areca Backup Première Sauvegarde - Configurez votre premier groupe et votre première cible.

Pentaho : Comparatif fonctionnel entre la version Communautaire (gratuite) et la version Entreprise (payante) Table des matières

StreamServe Persuasion SP4

Catalogue Formation «Vanilla»

Utilisation du client de messagerie Thunderbird

FAQ L&TT Version avec interface graphique pour Windows

Copyright Arsys Internet E.U.R.L. Arsys Backup Online. Guide de l utilisateur

Guide de l administrateur CorpoBack

EXTRACTION ET RÉINTÉGRATION DE COMPTA COALA DE LA PME VERS LE CABINET

Documentation utilisateur, manuel utilisateur MagicSafe Linux. Vous pouvez télécharger la dernière version de ce document à l adresse suivante :

Procédure d'installation complète de Click&Decide sur un serveur

Manuel d utilisation du logiciel Signexpert Paraph

OUTIL DE CRYPTAGE ET DE COMPRESSION

Installation EPLAN platform 2.4

Fiche Pratique. Présentation du problème. Le cas le plus simple. Un cas plus compliqué. MAJ le 15/12/2011

Transcription:

PRESENTATION DE PENTAHO DATA INTEGRATION (PDI) Août 2006 Version: 1.0 Auteur: Samatar HASSAN PDI 2.3 http://www.pentaho.org/ Présentation Pentaho Data Integration 2.3 Page 1 sur 8

PLAN I Présentation...3 1.1 Définition...3 1.2 La petite histoire...3 1.3 Les composants PDI...3 1. SPOON...4 2. PAN...5 3. CHEF...6 4. KITCHEN...7 II Installation...8 2.1 Prérequis...8 2.2 Documentation...8 2.3 Participez à l aventure...8 Présentation Pentaho Data Integration 2.3 Page 2 sur 8

I Présentation Dans ce document, nous allons présenter très brièvement l outil ETL Open Source Pentaho Data Extraction (PDI). 1.1 Définition Pentaho Data Integration (anciennement K.E.T.T.L.E Kettle ETTL Environment) est un E.T.T.L, c'est-à-dire qu il permet : L Extraction des données depuis divers source (fichiers, bases de données) Le Transport des données d une unité de stockage à une autre La Transformation des données Le chargement (Loading en anglais) des données dans un entrepôt PDI Extraction, transport, transformation et chargement Divers sources (Bases de données, Fichiers) Divers sources (Bases de données, Fichiers) Ce produit Open Source fournit une interface graphique pour la manipulation des données et cela contrairement à la pluparts des autres produits non commerciaux. 1.2 La petite histoire KETTLE a été développé il y a 5 ans par Matt CASTERS, un consultant en Business Intelligence (BI) indépendant, dans un premier temps pour ses propres besoins. Le projet a été rendu open Source l année dernière et PENTAHO l a acquis au début de l année 2006. C est ainsi que KETTLE est devenu Pentaho Data Integration (PDI). Matt conserve le leadership sur le projet en tant que «Chief Data Integration» chez PENTAHO. Intéressons nous maintenant au produit lui-même. 1.3 Les composants PDI Comme nous l avons vu plus haut, PDI est un environnement qui permet d une part de définir des transformations sur les données, de les exécuter et d autre part de les sauvegarder dans des fichiers ou dans un référentiel base de données. De plus, PDI permet de connecter à un grand nombre de bases de données commerciaux ou non. Présentation Pentaho Data Integration 2.3 Page 3 sur 8

Ainsi plusieurs outils composent cet environnement : 1. SPOON est l outil qui permet grâce à son interface graphique de créer des transformations, les exécuter et les sauvegarder. Les composants permettant la manipulation des données sont nommés «étapes» (steps en anglais). Par exemple il existe une étape permettant d extraire des données de diverses bases de données, une autre aidant à l extraction depuis des fichiers. SPOON comprend un grand nombre d étapes. L exemple ci-dessus a été crée grâce à SPOON. La ligne verte entre les étapes est un lien (Hop en anglais). C est lui qui indique vers quelle étape est dirigé le flux (matérialisé par le sens de la flèche). Notons à ce stade que SPOON manipule des enregistrements (ou lignes) sous la forme suivante : Colonne 1 Colonne 2.. Colonne n VC10 VC20 VCN0 VC11 VC21 VCN1 Grâce à SPOON, vous pourrez donc créer vos transformations, les tester et les sauvegarder soit dans un fichier, soit dans un référentiel d une base de données que vous aurez préalablement crée. L écran suivant donne un aperçu de l interface de SPOON. Les différentes étapes sont visibles dans la partie gauche de l interface. Le schéma de la transformation est dans la partie droite de l interface. Les étapes sont simplement déposées sur la partie droite (drag & drop) à partir de la partie gauche. Présentation Pentaho Data Integration 2.3 Page 4 sur 8

Mais vous voulez certainement pouvoir automatiser l exécution de votre transformation à des horaires de votre choix. C est à ce niveau qu intervient PAN. 2. PAN et outil, très simple d utilisation, permet d exécuter une transformation en ligne de commande. Ensuite on pourra planifier l exécution grâce par exemple au planificateur de Microsoft Windows ou un Cron dans l environnement Unix. Lorsque vous devez alimenter un entrepôt de données, vous avez à exécuter plusieurs transformations (extraction des dimensions, alimentation des faits, ). Ces transformations ne sont pas indépendantes les unes des autres. En effet, l alimentation des tables de faits ne doit être réalisé que si les données de dimension ont été insérées avec succès dans l entrepôt, or SPOON n a pas pour vocation de gérer ni la séquencialité des transformations, ni le fait qu une transformation s effectue avec succès. Présentation Pentaho Data Integration 2.3 Page 5 sur 8

Nous introduiront un autre outil : CHEF. 3. CHEF introduit une autre notion : La tâche (ou Task en anglais). Une tâche est une organisation qui permet d automatiser des tâches complexes de transformations. En effet, l exécution de chaque entrée ne démarre que si l entrée précédente a été terminée. De plus, on peut être le résultat de chaque entrée. A-t-elle été exécutée avec succès? Une entrée peut être une transformation ou des transformations spéciales comme la récupération de fichiers par FTP ou l exécution de fichier shell Commentons l exemple ci-dessus. Listons toutes les entrées de la tâche : - L entrée «Start» indique le démarrage de la tâche (on n en trouve qu une seule par tâche). - L entrée «Get source files» permet de récupérer des fichiers depuis un serveur FTP. Les fichiers ainsi obtenus sont stockés dans un répertoire. - Les entrées «Load source files», «Update dimensions», «Update fact tables», «Update aggregates» exécutent des tâches (sous-tâches) - L entrée «Remove source files» permet de supprimer les fichiers récupérés. Observez maintenant les flèches vertes entre les entrées. Cela indique que l étape suivante ne va être exécutée qui si l entrée précédente s est bien déroulé (elle n a pas généré d erreur). La dernière entrée en «Send error mail». Un courriel est envoyé si une entrée est en échec (flèche rouge). CHEF fournit une interface graphique permettant la création, l exécution et la sauvegarde des tâches. Ainsi chef vous permettra par exemple de surveiller l exécution de vos transformations. Vous pouvez décider d envoyer un courriel à une personne si la transformation a généré des erreurs. L image suivante montre un aperçu de l interface de CHEF. Présentation Pentaho Data Integration 2.3 Page 6 sur 8

A l instar de SPOON, un outil en ligne de commande est disponible pour CHEF. 4. KITCHEN KITCHEN permet d exécuter une tâche en ligne de commande. Présentation Pentaho Data Integration 2.3 Page 7 sur 8

II Installation 2.1 Prérequis Pour fonctionner, PDI a besoin de l environnement d exécution JAVA. Vous devez donc si ce n est pas encore le cas, installer la machine vituel Java 1.4 ou au dessus. Cet outil est téléchargeable gratuitement sur le site http://www.javasoft.com. Une fois cette étape effectuée avec succès, il suffit de se procurer la dernière version de PDI : 2.3 sur le site De PENTAHO http://prdownloads.sourceforge.net/pentaho/kettle-2.3.0.zip?download Les dernières mises à jour sont disponibles sur le site : http://www.javaforge.com/proj/doc.do?proj_id=318 Une fois le précieux fichier zip récupéré, il suffit de le dézipper dans le répertoire de votre choix. Selon votre environnement (Windows ou Unix) lacer le fichier SPOON.bat (windows) ou SPOON.sh (Unix) pour démarrer SPOON et CHEF.bat (ou CHEF.sh) pour démarrer CHEF. 2.2 Documentation La documentation est également fournie (dans le répertoire docs) certes pour l instant en anglais : La traduction en français suivra. N hésitez pas à la consulter car elle est très bien faite. Si toutefois vous recherchez de l aide, rendez-vous sur le forum : http://www.javaforge.com/proj/forum/browseforum.do?forum_id=1274 2.3 Participez à l aventure PDI est en perpétuelle amélioration. Vous avez la possibilité de signaler des bugs éventuels à l adresse suivante : http://www.javaforge.com/proj/tracker/browsetracker.do?tracker_id=1273 Vous avez une idée, n hésitez pas à la partager avec les utilisateurs de l outil et postez une amélioration à l adresse suivante : http://www.javaforge.com/proj/tracker/browsetracker.do?tracker_id=1274 Présentation Pentaho Data Integration 2.3 Page 8 sur 8