Livre blanc Agile BI avec Pentaho BI Suite Simon Roy Consultant décisionnel Badr Chentouf Directeur consulting v 1.1 Mars 2010 Pour plus d information : Tél : +33 (0)1 41 40 11 00 mailto : sdc@smile.fr
Page 2 SOMMAIRE SOMMAIRE... 2 PREAMBULE... 3 Smile... 3 Quelques références de Smile... 4 PENTAHO... 5 Présentation de la suite... 5 Ils ont choisi Pentaho... 8 AGILE BI AVEC PENTAHO BI SUITE... 9 Concept de l Agile BI... 9 Réalisation d une transformation avec Pentaho Data Integration... 10 Visualisation avec Pentaho Analyzer... 12 Visualisation avec Pentaho Report Designer... 18 CONCLUSION... 21
Page 3 PREAMBULE Smile Smile est une société d ingénieurs experts dans la mise en œuvre de solutions open source et l intégration de systèmes appuyés sur l open source. Smile est membre de l APRIL, l association pour la promotion et la défense du logiciel libre, ainsi que du CNLL, la Commission Nationale du Logiciel Libre. Smile compte 290 collaborateurs en France, 320 dans le monde (septembre 2009), ce qui en fait la première société en France spécialisée dans l open source. Depuis 2000, environ, Smile mène une action active de veille technologique qui lui permet de découvrir les produits les plus prometteurs de l open source, de les qualifier et de les évaluer, de manière à proposer à ses clients les produits les plus aboutis, les plus robustes et les plus pérennes. Cette démarche a donné lieu à toute une gamme de livres blancs couvrant différents domaines d application. La gestion de contenus (2004), les portails (2005), la business intelligence (2006), les frameworks PHP (2007), la virtualisation (2007), et la gestion électronique de documents (2008), ainsi que les ERPs (2008). Parmi les ouvrages publiés en 2009, citons également «Les VPN open source», et «Firewall est Contrôle de flux open source», dans le cadre de la collection «Système et Infrastructure». Chacun de ces ouvrages présente une sélection des meilleures solutions open source dans le domaine considéré, leurs qualités respectives, ainsi que des retours d expérience opérationnels. Au fur et à mesure que des solutions open source solides gagnent de nouveaux domaines, Smile sera présent pour proposer à ses clients d en bénéficier sans risque. Smile apparaît dans le paysage informatique français comme le prestataire intégrateur de choix pour accompagner les plus grandes entreprises dans l adoption des meilleures solutions open source. Ces dernières années, Smile a également étendu la gamme des services proposés. Depuis 2005, un département consulting accompagne nos clients, tant dans les phases d avant-projet, en recherche de solutions, qu en accompagnement de projet. Depuis 2000, Smile dispose d un studio graphique, devenu en 2010 Smile Digital, proposant outre la création graphique, une
Page 4 expertise e-marketing, éditoriale, et interfaces riches. Smile dispose aussi d une agence spécialisée dans la Tierce Maintenance Applicative, le support et l exploitation des applications. Enfin, Smile est implanté à Paris, Lyon, Nantes, Bordeaux et Montpellier. Et présent également en Espagne, en Suisse, en Ukraine et au Maroc. Quelques références de Smile Intranets et Extranets Société Générale - Caisse d'épargne - Bureau Veritas - Commissariat à l'energie Atomique - Visual - Camif - Lynxial - RATP - Sonacotra - Faceo - CNRS - AmecSpie - INRA - CTIFL - Château de Versailles - Banque PSA Finance - Groupe Moniteur - Vega Finance - Ministère de l Environnement - Arjowiggins - JCDecaux - Ministère du Tourisme - DIREN PACA - SAS - CIDJ - Institut National de l Audiovisuel - Cogedim - Diagnostica Stago - Ecureuil Gestion - Prolea - IRP- Auto - Conseil Régional Ile de France - Verspieren - Conseil Général de la Côte d Or - Ipsos - Bouygues Telecom - Prisma Presse - Zodiac - SANEF - ETS Europe - Conseil Régional d Ile de France - AON Assurances & Courtage - IONIS - Structis (Bouygues Construction) - Degrémont Suez - GS1-France - DxO - Conseil Régional du Centre - HEC - Veolia Internet, Portails et e-commerce Cadremploi.fr - chocolat.nestle.fr - creditlyonnais.fr - explorimmo.com - meilleurtaux.com - cogedim.fr - capem.fr - souriau.com - odit-france.fr www.cea.fr - egide.asso.fr - osmoz.com - spie.fr - nec.fr - vizzavi.fr - sogeposte.fr - ecofi.fr - idtgv.com - metro.fr - stein-heurtey-services.fr - bipm.org - buitoni.fr - aviation-register.com - cci.fr - eaufrance.fr - schneider-electric.com - inra.fr - cnil.fr - longchamp.com - aesn.fr - Dassault Systems 3ds.com - croix-rouge.fr - worldwatercouncil.org - Projectif - credit-cooperatif.fr - editionsbussiere.com - glamour.com - nmmedical.fr - medistore.fr - faurecia.com - cidil.fr - prolea.fr - bsv-tourisme.fr - yves.rocher.fr - jcdecaux.com - cg21.fr - veristar.com - Voyages-sncf.com - prismapub.com - eurostar.com - nationalgeographic.fr - eau-seine-normandie.fr - ETS Europe - cnous.fr - meddispar.com - Amnesty International - pompiers.fr - Femme Actuelle - Stanhome-Kiotis - Gîtes de France Bouygues Immobilier - GPdis - DeDietrich - OSEO - AEP - Lagardère Active Média - Comexpo - Reed Midem - Pagesjaunes Annonces - UDF - Air Pays de Loire - Jaccede.com - ECE Zodiac - Polytech Savoie - Institut Français du Pétrole - Jeulin - Atoobi.com - Notaires de France - Conseil Régional d Ile-de-France - AMUE Applications métier Renault - Le Figaro - Sucden - Capri - Libération - Société Générale - Ministère de l Emploi - CNOUS - Neopost - Industries - ARC - Laboratoires Merck - Egide - ATEL- Hotels - Exclusive Hotels - CFRT - Ministère du Tourisme - Groupe Moniteur - Verspieren - Caisse d Epargne - AFNOR - Souriau - MTV - Capem - Institut Mutualiste Montsouris - Dassault Systèmes - Gaz de France - CAPRI Immobilier - Croix- Rouge Française - Groupama - Crédit Agricole - Groupe Accueil - CDC Arkhineo Applications décisionnelles IEDOM Yves Rocher - Mindscape Horus Finance Lafarge Optimus CecimObs ETS Europe Auchan Ukraine CDiscount Maison de la France INRA - Skyrock - Institut National de l Audiovisuel - Pierre Audouin Consultant Armée de l air Jardiland - Saint-Gobain Recherche Xinek Projectif Companeo MeilleurMobile.com CoachClub Faiveley Transport - CG72
Page 5 PENTAHO Présentation de la suite Pentaho est un éditeur open source commercial américain, qui développe la solution décisionnelle open source «Pentaho BI Suite». Pentaho BI Suite comprend l ensemble des fonctionnalités et composants nécessaire aux projets décisionnels d entreprise. Synthétiquement, Pentaho comprend - un outil d ETL pour les transformations de données - un outil de reporting pour le design des rapports et leur exécution - un outil d analyse multidimensionnelle interactif - un outil de réalisation de tableaux de bords - un outil de requêtage ad-hoc - un outil de datamining - une interface web «console utilisateur» - une interface web «console d administration»
Page 6 Pentaho est un acteur clair et impliqué de l open source, qui a rallié dès le début des produits open source comme Kettle ou Mondrian et qui sait encore animer sa communauté, la diriger et aussi se baser sur les développements communautaires pour les compléter et les intégrer dans sa version entreprise. Le dashboard designer est un bon exemple de cet ancrage dans la communauté open source. Ce module se base sur le «CDF» (Community Dashboard Framework), développé par la communauté et à destination de profils techniques. Sur la base de ce framework, l équipe Pentaho a développé une interface wysiwyg de configuration en mode web, à destination cette foisci des utilisateurs métiers. Le module end-user est maintenant intégré dans la version entreprise. Exemple de dashboard avec Pentaho Pentaho propose depuis fin 2009 une nouvelle interface d analyse multidimensionnelle nommée «Analyzer», qui remplace très avantageusement l ancienne interface «JPivot» qui n appartenait d ailleurs pas à Pentaho mais est un projet open source communautaire. Les équipes de Pentaho n ont pas développé cette nouvelle interface, mais Pentaho l a acquise à l éditeur LucidEra qui proposait son logiciel en SaaS mais qui a fait faillite. L opération financière est assez intéressante dans la mesure où l outil de LucidEra fonctionnait déjà avec le serveur Mondrian de Pentaho, ce qui a permis une intégration à la version GA en moins d un mois, et que Pentaho a au passage récupéré les développeurs du produit. Analyzer permet de construire sa vue multidimensionnelle à la souris, par glisser-déposer des dimensions et indicateurs, puis de filtrer/exclure des valeurs. Il permet aux utilisateurs métiers
Page 7 de créer des champs calculés, qui n ont donc pas besoin d être définis au préalable, laissant aux utilisateurs plus d agilité et de souplesse. Pentaho Analyzer Avec cet Analyzer, Pentaho se tourne résolument vers les utilisateurs finaux et leur donne un outil d analyse à la fois simple d accès et très puissant. Pentaho comporte plusieurs outils de design et deux interfaces de restitution, la «console utilisateurs» et la «console administrateurs». La console utilisateur reprend le graphisme et les fonctionnalités d une interface riche, avec clics droits, double clics et multi-onglets, tout cela étant très pratique pour les utilisateurs. Dans cette console, il est notamment possible d exécuter des rapports, d'utiliser les fonctions d'analyse multidimensionnelle, et de constituer des tableaux de bord.
Page 8 Ils ont choisi Pentaho Console Utilisateur de Pentaho Sans même compter les milliers de déploiements de la version Community, par ailleurs difficilement dénombrables, Pentaho affiche à ce jour plus de 8000 clients sur la version Entreprise. Retail Manufacturing Pharma Healthcare Secteur Financial Telecom Transportation Education Government Taille d Entreprise $5 Million $1 Billion $5 Billion +
Page 9 AGILE BI AVEC PENTAHO BI SUITE Concept de l Agile BI La version 4.0 de Pentaho Data Integration 1 (PDI, ex-kettle, l ETL de Pentaho) va développer la notion de «Agile BI», s inspirant des méthodes de développement agiles, très en vogue en ce moment. Il s'agit en fait d avoir une approche allégée du cycle de développement décisionnel pour délivrer des solutions BI plus rapidement et à moindre coût. Pour cela, PDI va intégrer les outils de restitution de la suite directement dans son interface, de manière transparente pour l utilisateur. On pourra ainsi tester le rendu de ses données directement dans l ETL, puis publier le cube ou le rapport sur le serveur décisionnel. Tout cela sans quitter PDI. Deux outils de restitution pourront être utilisés : l'analyzer et le Report Designer. Analyzer est le nouvel outil d analyse multidimensionnelle (OLAP) de Pentaho, intégré à la console utilisateur depuis la version 3.5.1 de Pentaho BI Server EE. Report Designer (PRD) est l'outil de création de rapports de Pentaho. Ce produit évolue rapidement et en continu, avec une version 3.6 qui a notamment ajouté des possibilités de reporting et aussi simplifié le processus de publication des rapports sur la plateforme web. Pour les connaisseurs, le passage de paramètres ne nécessite plus l utilisation des XActions, désormais tout est géré au sein de l outil PRD. PRD propose une assistance à la création de rapports en quatre étapes, via le Report Design Wizard. C est cet assistant qui est intégré à PDI. 1 Téléchargement de PDI v4: http://wiki.pentaho.com/display/agilebi/downloads
Page 10 Réalisation d une transformation avec Pentaho Data Integration Nous utiliserons pour cet exemple la version en cours de finalisation «Pentaho Data Integration CE Agile BI Milestone 4», téléchargeable ici : http://wiki.pentaho.com/display/agilebi/downloads Créons tout d abord dans Pentaho Data Integration une transformation simple qui va lire un fichier Excel et l insérer dans une table dans une base de données. Dans les étapes disponibles, choisissons l étape «Excel input», puis paramétrer le fichier à lire comme suit :
Page 11 Une fois le fichier choisi, dans l onglet «Champs» de l étape, il est possible de récupérer automatiquement l ensemble des champs du fichier. Il est possible ensuite de pré-visualiser les données du fichier : Ajoutons ensuite l étape Table output qui permet d écrire dans une base de données, dont la connexion aura été créée au préalable.
Page 12 Visualisation avec Pentaho Analyzer A partir de la transformation créée ci-dessus, sur l étape d insertion dans la table (Data Output Step), un clic droit affiche l option «Visualize». L utilisateur a alors le choix entre utiliser l outil Analyzer ou le Report Wizard. Commençons par l Analyzer, c'est-à-dire l analyse dans un cube multidimensionnel dynamique. Pour cela, il n y a pas besoin de créer le schéma Mondrian du cube au préalable, celui-ci est généré dynamiquement!
Page 13 L interface d Analyzer s ouvre dans l interface de PDI. Les champs de notre table apparaissent à gauche, regroupés par type (texte ou numérique). On crée alors notre cube par simple glisser/déposer. Nous allons alors pouvoir vérifier la qualité de nos données de manière agrégée, ce qui est un énorme avantage comparé à la simple fonction Prévisualisation jusqu ici proposée dans PDI. Ici, on se rend compte immédiatement grâce à la visualisation des regroupements que des données sont présentes à la fois pour United States et pour USA. Nous allons modifier directement notre transformation pour corriger ce problème, en utilisant l étape «Tableau de
Page 14 correspondance» (Value Mapper) pour transformer «United States» en «USA». On relance l exécution de la transformation et on peut voir nos données maintenant de meilleure qualité.
Page 15 Notons que toutes les fonctionnalités de l Analyzer sont présentes. Par exemple le top 10 des ventes par client sur un diagramme horizontal. On peut également ajouter une nouvelle colonne à notre table directement dans PDI en créant la variable via, par exemple, l étape Création plage de nombres (Number ranges), puis via l exécution du code SQL au niveau de l insertion dans table.
Page 16 L information est alors directement ajoutée au schéma du cube, sans avoir encore une fois à modifier le schéma Mondrian du cube. Notons que le cube peut alors être directement publié sur votre serveur Web Pentaho en cliquant sur l icône. Par ailleurs, toujours dans PDI, on a aussi directement accès au schéma Mondrian du cube visualisé en cliquant sur Model/View, dans la colonne de droite. On peut ici modifier ce schéma, en ajoutant des niveaux hiérarchiques, en ajoutant ou en supprimant des dimensions et des mesures, ou en changeant le mode d agrégation des mesures. Tout se fait en glisser/déposer, même si cette
Page 17 opération est en général réservée à des profils experts du multidimensionnel. Notons encore que le schéma Mondrian peut aussi être publié sur le serveur Web en cliquant sur le bouton de publication.
Page 18 Visualisation avec Pentaho Report Designer Reprenons notre étape d insertion dans table. Dans le menu, on peut également choisir «Visualize/Report Wizard» : Cela ouvre le Report Wizard de PRD (Pentaho Report Designer). On crée ensuite notre rapport en seulement quatre étapes : «Look and Feel» pour choisir le template, «Query Step» pour choisir les champs, «Layout Step» pour définir les regroupements et «Format Step» pour définir le formatage.
Page 19 On obtient alors le rapport suivant, toujours dans PDI :
Page 20 On peut publier ce rapport sur le serveur Web en cliquant sur le bouton. Notons que les rapports s appuient sur le même schéma Mondrian que les cubes dynamiques.
Page 21 CONCLUSION Avec cette nouvelle version, Pentaho donne la possibilité aux développeurs ETL d'avoir un aperçu du rendu à partir des données chargées dans leur traitement, pendant la phase de développement. Cela va clairement améliorer la productivité des développements décisionnels en éliminant les allers et retours entre développement ETL, production de rapports et analyse, publication sur le serveur, test, corrections puisque tout se fait dans un seul et unique outil! Les avantages sont multiples, qu ils soient en termes de facilité de développement des rapports, ou en termes d efficacité - on peut tester directement si les données insérées sont cohérentes -, tout cela entraînant directement des baisses des coûts de production. Avec cette approche l outil PDI devient l outil de développement unique de Pentaho. Il dépasse son simple rôle d ETL pour couvrir l ensemble du processus de production de projets décisionnels, simplifiant de fait notre travail sur les projets Pentaho.