Solutions Open Source de Business Intelligence ETAT DE L'ART

Transcription

1 Solutions Open Source de Business Intelligence ETAT DE L'ART Copyright ADULLACT

2 Préambule ADULLACT ADULLACT est une association régie par la loi du 1er juillet 1901 et le décret du 16 août 1901, ayant pour nom : Association des Développeurs et des Utilisateurs de Logiciels Libres pour les Administrations et les Collectivités Territoriales. L'association a été créée en septembre 2002, par Claude LAMBEY et François ELIE. L'objectif de l'adullact est de soutenir et coordonner l action des administrations et des collectivités pour promouvoir, développer, mutualiser et maintenir un patrimoine commun de logiciels libres utiles aux missions de service public (administration, éducation, monde associatif, santé...). Pour satisfaire les contraintes de transparence, de sécurité, d interopérabilité et d évolutivité, indispensables pour gérer dans de bonnes conditions les informations propres aux administrés, en favorisant les télé-procédures. Ce patrimoine logiciel respectera les standards et les protocoles ouverts, et sera librement utilisable, copiable, modifiable et redistribuable par quiconque sans aucune discrimination. Les standards et protocoles sont dits ouverts s ils sont publiquement documentés, librement utilisables et implémentables. L ADULLACT apporte son soutien à l usage de Logiciels Libres dans les administrations et dans les collectivités territoriales, et se propose de participer au développement de Logiciels applicatifs Libres. ADULLACT Projet ADULLACT Projet est une SCIC (Société Coopérative d'intérêt Commun) régie par la loi du 10 septembre 1947 portant statut de la coopération, et la loi du 24 juillet 1867 sur les sociétés à capital variable. Elle a été créée en octobre En optant pour cette forme de société, les porteurs du projet poursuivent, en accord avec les adhérents de l ADULLACT à l origine de cette SCIC, leur action, inscrite dans l intérêt collectif, en faveur de l optimisation des systèmes d information au sein des collectivités territoriales et du monde de la santé et, d une manière générale, en faveur du développement du Logiciel Libre au sein des Services Publics. La SCIC ADULLACT Projet s est donnée pour but, dans un esprit de coopération entre les acteurs publics (usagers) et privés (opérateurs techniques, salariés) : De répondre aux besoins de refonte des systèmes d'information des administrations, collectivités territoriales et organisations relevant des services Publics à base de Logiciels Libres. De mutualiser les coûts de développement des logiciels dit Libres ou Open Source dont les avantages (coûts, pérennité, accès au code source) ne sont plus à démontrer. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 2 / 56

3 S ajoutent : Le souci de préserver totalement son indépendance et sa neutralité vis-à-vis des organisations économiques ou industrielles privées, pour garantir la meilleure objectivité de ses services, accompagnements ou aides. La volonté de ménager, avec les organisations publiques, des partenariats de haute proximité, organisés de manière à faire bénéficier ses partenaires des avancées technologiques les plus récentes. Cet ouvrage La Business Intelligence, ou Informatique Décisionnelle, est un domaine bien spécifique des systèmes d'information, qui n'échappe pas à l'open Source. Ainsi, cet ouvrage s'efforce : De mettre en avant les enjeux et les défis de la Business Intelligence dans l'open Source. De définir les différents outils décisionnels afin de décomplexifier ce domaine. De présenter les solutions qui sont, ou ont été, les plus pertinentes dans chaque famille d'outils. D'établir une analyse de ces applications afin d'en retirer une synthèse mettant en avant les intérêts, et inconvénients, de chacun. Cette étude est fondée sur plusieurs mois de travail de recherche. Elle n'a pas pour objectif d'établir un classement entre les différents outils mais de mettre en avant leurs potentiels respectifs afin que chaque lecteur puisse s'orienter vers celui qui conviendra le mieux à ses besoins et attentes. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 3 / 56

4 Table des matières Préambule...2 ADULLACT...2 ADULLACT Projet...2 Cet ouvrage...3 Introduction...5 Business Intelligence...5 Deux systèmes d'information : transactionnel et décisionnel...5 Historique de la Business Intelligence...5 Règles conceptuelles...6 Open Source...6 Définition du Logiciel Libre...6 Évolution de ce modèle économique...6 Critères de choix...6 L'Open Source Business Intelligence (OSBI)...7 Apports et avantages...8 Perspectives...8 Les outils décisionnels...9 Extract Transform Load (ETL)...9 Data Warehouse et Data Mart...9 Cubes OLAP...11 Analyse multidimensionnelle...13 Data Mining...14 Générateur d'état...15 Synthèse...17 Les solutions décisionnelles...18 ETL...18 Clover.ETL...18 Enhydra Octopus...20 Pentaho Data Integration (ex. Kettle)...21 Talend Open Studio (TOS)...23 Data Warehouse...25 Bizgres...25 Ingres...25 MySQL...26 PostgreSQL...26 Serveur OLAP...27 Pentaho Analysis Services (ex. Mondrian)...27 Palo...29 Client OLAP...31 FreeAnalysis...31 Jpalo...33 Jpivot...34 Jrubik...36 Data Mining...38 Waikato Environment for Knowledge Analysis (WEKA)...38 Générateur d'état...40 Business Intelligence and Reporting Tools (BIRT)...40 JasperReport...42 Pentaho Reporting (ex. JfreeReports)...44 OpenReports...46 Suites décisionnelles...48 Jasper Intelligence...48 Marvel IT Dash...50 Pentaho...51 Spago BI...54 Synthèse...56 Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 4 / 56

5 Introduction Business Intelligence Selon la définition de Robert REIX, «un système d'information est un ensemble organisé de ressources (matérielles, logicielles, personnelles, données, procédures...) permettant d'acquérir, de traiter, de stocker des informations (sous forme de données, textes, images, sons...) dans et entre organisations». Le choix de l'appellation système n'est pas anodin. Il reflète la logique sous-jacente considérant ce dernier comme un ensemble d'entités en interaction entre elles, que l'on pourrait considérer comme autant de maillons formant une chaîne. De ce fait, ce dernier peut être ainsi observé à différents degrés de précision, soit en le considérant comme un système d'information global, soit en accentuant le zoom afin de mettre en valeur deux sous systèmes. Deux systèmes d'information : transactionnel et décisionnel D'une part le système d'information transactionnel. Il gère les applications quotidiennes et se rapproche à ce titre de la couche opérationnelle. Il est typiquement utilisé par les acteurs métiers et se voit plus comme un outil utilisé par ces derniers afin de répondre à des besoins de simplification et d'automatisation. D'autre part le système d'information décisionnel, angle d'approche de cet ouvrage, qui est utilisé pour prendre les décisions de l'entreprise, et à ce titre doit permettre aux décideurs d'avoir un certain recul sur leur entreprise. Il fournit pour cela les informations nécessaires et pertinentes afin de faire les bons choix. Le Gartner Group définit, en 1993, la Business Intelligence comme l'«ensemble des moyens et méthodes permettant de rassembler, consolider, analyser et rendre accessible les données d'une entreprise dans une perspective d'aide à la décision». Le décisionnel est donc à l'information de l'entreprise ce que les mathématiques sont à la pensée. Force est de constater que le concept de Business Intelligence n'est pas récent, et que, depuis sa création, des évolutions notables peuvent être distinguées. Il est nécessaire de connaître ces mutations afin de bien saisir les tenant et aboutissant de leur structure actuelle. Historique de la Business Intelligence Au début des années 90, l'informatique est au service de l'entreprise pyramidale. D'une manière très classique, elle remonte les informations de la base vers le haut. Cette époque est celle des Executive Information Systems (EIS). Milieu des années 90, les besoins d'informations composites révèlent des lacunes dans les systèmes d'informations. Les technologies Data Warehouse et Data Mart se banalisent et l'informatique décisionnelle se tourne vers les cubes OLAP, dans un soucis d'analyse plus poussée. De nos jours, le décisionnel n'est plus l'apanage des instances dirigeantes et toutes les couches de l'entreprise revendiquent un besoin d'information pertinente, propre à leur fonction. Que ce soit dans des soucis de pilotage par les acteurs du top management, pour des besoins particuliers formulés par des experts ou dans des logiques de reporting classique demandées par les acteurs métiers, cette mutation culturelle s'appuie sur la banalisation et l'accessibilité Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 5 / 56

6 des technologies Web, qui rendent cette divulgation d'information possible à moindre coûts. Force est de constater également que certaines règles conceptuelles se sont inconsciemment standardisées, et actuellement le système d'information décisionnel peut être schématisé sous trois étapes. Règles conceptuelles Tout d'abord, l'extraction des données. L'entreprise étant composée d'informations aussi variées en terme de structure, de format, de taille... le système se doit d'extraire les informations afin de les amener vers la deuxième étape. Ensuite, la consolidation. Ces données doivent être consolidées afin de pouvoir effectuer le travail nécessaire dessus. Enfin le traitement. Il doit fournir aux dirigeants les informations pertinentes sous forme d'indicateurs, tout en répondant aux questions que toute mise en place doit se poser : Quelles informations? Sous quelle forme? Tous les combien?... Open Source Bien plus qu'un simple copyright, la terminologie Open Source (également connue sous l'appellation Logiciel Libre) reflète une certaine philosophie. Richard STALLMAN, le père fondateur de la Free Software Foundation a coutume de résumer ce qu'est le Logiciel Libre par «Liberté, Egalité, Fraternité». Définition du Logiciel Libre Le Logiciel Libre est ainsi défini par : La liberté d utiliser et/ou d exécuter un logiciel pour tout objectif. La liberté d examiner et/ou d étudier le fonctionnement d un logiciel et de l adapter à ses propres besoins (pour ceci l accès au code source est une condition requise). La liberté de faire des copies pour des tiers. La liberté d améliorer le logiciel et de rendre ces améliorations largement disponibles pour le bien public. Évolution de ce modèle économique Ce modèle de développement collaboratif, que certains considèrent encore comme utopique et ne prenant pas en compte les logiques de marchés actuelles, s'avère en réalité être plus que réaliste. En effet, dans son édition de Janvier 2007 du Baromètre des tendances 2006, l'observatoire du Logiciel Libre (O2L), composé de Anaska et du Groupe Cegos, met notamment en évidence une progression sur un an de 30% des ventes de serveurs sous Linux, de 30% également des formations bureautique (tel OpenOffice) et de 50% de celles concernant la base de données MySQL. Ces observations reflètent un réel engouement pour les solutions Open Source, de la part des entreprises qui les jugent assez fiables pour être implantées au sein de leur organisme. Critères de choix Néanmoins, une implantation de solution Open Source doit se faire en prenant en compte certains critères de choix, non pris en considération lors de l'intégration de logiciels Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 6 / 56

7 propriétaires car spécifiques au modèle de développement collaboratif. Popularité La visibilité sur la toile est, en plus d'être un facteur de taille, un bon outil pour définir la popularité de la solution, et donc plus de facilité à trouver sa communauté. De la même façon le taux de fréquentation étant le nombre de téléchargement du produit, il reflète, de la même façon que la visibilité sur la toile, la popularité de la solution. L'âge du projet permet de se faire une idée de la maturité de la solution. Ce critère est néanmoins très subjectif car il n'y a pas de réelle préférence à avoir entre un projet jeune ou un vieux. Documentation Dans l'open source, la communauté est la hotline. La taille de la communauté doit être prise en considération, et Il convient donc de choisir des projets avec de riches forum, une home page, des FAQ dédiées et visibles sur le net. Les aspect de documentation permettent également de délester une bonne partie de la charge de l'équipe animatrice. De plus, elle peut être considérée comme un gage de qualité. Développement Le taux d'activité concerne le développement et désigne le temps passé entre deux versions (il ne doit pas excéder 6 mois, doit être relativisé et comparé au taux de fréquentation). Le nombre de contributeurs doit être distingué de la communauté car il est un garant de la stabilité de la solution, de sa pérennité et de son évolutibilité. Les compétences internes de l'entreprise doivent également être prises en compte et il convient de privilégier les projets maintenables ou abordables en interne, et de prendre également en compte les compétences des partenaires. Déploiement La portabilité et l'interopérabilité révèlent la compatibilité de l'application avec les fichiers entrant-sortant, ainsi qu'avec les différents systèmes d'exploitation. Le niveau de Packaging concerne l'installation. Elle comporte aussi bien une documentation d'installation qu'une définition des pré-requis. Droit Différentes licences de logiciels libre existent, et il convient de privilégier GPL et CeCiLL. Éviter les licences de type «BSD». L'Open Source Business Intelligence (OSBI) De même que pour les autres classes d'outils (CRM, GED...), le rapprochement entre Open Source et Business Intelligence s'avère de plus en plus performant, et ce depuis quelques années. Bien qu'ayant pâti de leur manque de maturité et de stabilité, les solutions de Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 7 / 56

8 Business Intelligence Open Source s'avèrent être actuellement assez solides pour être employées par nombre d'entreprises et de collectivités, et pour posséder leur premier salon professionnel qui s'est tenu à l'arche de la Défense à Paris, le 18 mars Organisé par Micropole-Univers et l'arche Numérique, ce salon a dressé un portrait de l'open Source dans le décisionnel par le biais de conférences, ateliers, tables rondes... Animés par de nombreux partenaires d'importance dont notamment les sociétés MySQL, Talend et JasperSoft. Apports et avantages L'engouement des entreprises pour ces solutions peut s'expliquer sur plusieurs points. Intérêts financiers Tout d'abord dans une logique de coûts. Une solution Open Source n'entraîne pas, de par sa définition même, de coûts de licence. Elle s'avèrent donc actuellement être une alternative plus qu'intéressante pour les sociétés. De même, certaines entités telles que les TPE/PME profitent de cet aspect de par un coût d'entrée moins onéreux. Mutualisation des compétences La possibilité de coopération entre entreprises, afin de mutualiser les compétences et d'amoindrir les investissements, tant sur le plan financier qu'humain. Comme le souligne Stefano SCAUZZO, Technical Manager chez Engineering, «Les entreprises sont aussi bien en concurrence sur certains domaines et en collaboration sur d'autres, ce qui crée un éco système de valeurs où chacun doit trouver sa place et jouer son rôle». Tester la solution La possibilité de tester le logiciel avant d'investir dedans, et ce sans limite de temps ou de fonctionnalité. L'entreprise peut ainsi s'apercevoir d'elle même, sans biais commercial ou limitation, de la pertinence de la solution. Cette logique d'avant vente se fait de fait par les utilisateurs qui ne se tournent ensuite vers les SSLL que pour des besoins de connaissances et de formations. Personnalisation et innovation Personnalisation et innovation sont également des facteurs clefs de ce choix. En effet, outre l'innovation entrainée par le développement collaboratif, Stéphane LAISNE, Responsable d'étude de solutions chez Lectra souligne que «l'open Source permet une réelle collaboration car le client apporte vraiment sa touche en donnant sa vision de la solution, ce qui permet d'une part de la personnaliser mais également de la faire évoluer en ce sens». Perspectives Bien que des composants comme les ETL ou les bases de données s'avèrent être les plus aboutis, les outils Open Source de Business Intelligence doivent encore s'enrichir sur des aspects métiers et fonctionnels, et arriver à maturité sur certaines briques logicielles. Néanmoins, l'arrivée de différents acteurs sur ce marché, ainsi que la marche de progression possible de par sa faible part dans la BI, nous autorise à envisager une évolution grandissante. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 8 / 56

9 Les outils décisionnels Contrairement aux autres applications s'intégrant à d'autres fonctions de l'entreprise, comme par exemple les SCM qui gèrent la chaîne logistique ou les CRM qui s'occupent de la relation client, l'informatique Décisionnelle est composée de plusieurs outils qui, imbriqués les uns aux autres ou utilisés séparément, conduisent à créer un véritable système décisionnel. Nous verrons donc ici les différents composants de ce domaine, en partant de la couche la plus invisible de l'iceberg, jusqu'à sa partie la plus visible. Extract Transform Load (ETL) Un ETL, pour Extract Transform Load, est utilisé pour alimenter le Data Warehouse à partir des bases de données de production. Comme son nom l'indique, un ETL : Extract : extrait les données à partir de différentes sources. Transform : transforme ces dernières afin de les unifier sous un même format. Load : charge les données dans le Data Warehouse. Les intérêts d'un ETL sont multiples : Il peut prendre en charge différentes natures de sources (SGBD relationnels, flux XML, fichiers CSV...), que ce soit en entrée comme en sortie. L'intégration d'un nouveau flux ne nécessite pas de développement spécifique, une configuration interactive, par le biais d'interface graphique, des 3 étapes vues précédemment suffit. L'intégration d'outil de planification, au sein même des ETL, permet d'éviter le développement de programmes batch spécifiques, ainsi que leur maintenance. Il est cependant important de souligner qu'un ETL fonctionne sous un mode Point à Point. Bien qu'il récupère les données de plusieurs sources, il n'a pas pour vocation de construire un flux agrégé entre deux sources différentes. Afin de ne pas retomber dans les erreurs du passé (échec de réalisation, dépassement de budget...) relatives à la mise en place de projets décisionnels, il est impératif d'apprécier à sa juste valeur cette phase de collecte et de préparation des données, et ainsi d'y consacrer les ressources nécessaires. A titre informatif, cette phase doit représenter environ les ¾ temps du projet. Data Warehouse et Data Mart Littéralement entrepot de données, Le Data Warehouse est une base de données recueillant et gérant toutes les données collectées au sein de l'organisme, dans le cadre de la prise de décision. En ce sens, elle est : Exclusivement réservée à cet usage. Organisée, structurée et préparée à des fins de traitement décisionnel. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 9 / 56

10 Alimentée en données depuis les bases de production a l'aide d'outils de type ETL. Bill Immon, père du concept du Data Warehouse, le décrit comme tel : '' Subject oriented, integrated, nonvolatile, time variant collection of data in support of management decisions '' - Building the Data Warehouse, John Wiley and son, 1996 Il doit donc répondre à 4 caractéristiques essentielles : 1. Orienté sujet : les données sont organisées par thème. 2. Intégré : les données provenant de sources hétérogènes, elles utilisent chacune un type de format. Elles doivent donc être intégrées avant d'être proposées à utilisation. 3. Non volatile : les données ne disparaissent pas et ne changent pas au fil des traitements, au fil du temps. 4. Historisé : les données sont horodatées, afin de visualiser l'évolution dans le temps d'une valeur donnée. Le degré de détail de l'archivage est bien entendu relatif à la nature des données. Toutes les données ne méritent pas d'être archivées. Il existe plusieurs natures de Data Warehouse possibles (bases relationnelles, bases OLAP, bases hybrides...). Nous ne les recenserons pas ici mais proposerons plutôt ce tableau mettant en avant les caractéristiques différenciant les Data Warehouse et les bases de données relationnelles classiques. Comparatif entre Base de Données etdata Warehouse Caractéristique Base de Données Data Warehouse Opération Gestion courante. Production. Analyse. Support à la décision. Modèle de données Entité / relation. 3NF. Etoile. Flocon de neige. Normalisation Fréquente. Plus rare dans les Data Marts. Données Mise à jour Niveau de consolidation Actuelles. Brutes. Immédiate. Temps réel. Faible. Historisées. Parfois agrégées. Souvent différée. Elevé. Perception Bidimensionnelle. Multidimensionnelle. Opérations Lecture. Mises à jour. Suppressions. Lectures. Analyses croisées. Rafraîchissements. Taille En giga-octets. En téra-octets. Source : Wikipédia Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 10 / 56

11 Cubes OLAP Le concept OLAP (On Line Analytical Processing) a été défini en 1993 par le Dr Ef Codd. Ce dernier doit respecter 12 règles de conception : Multidimensionalité : le modèle OLAP l'est par nature. Transparence : l'emplacement physique du serveur OLAP est transparent pour l'utilisateur. Accessibilité : l'utilisateur OLAP dispose de l'accessibilité à toutes les données nécessaires à ses analyses. Stabilité : la performance des reportings reste stable indépendamment du nombre de dimensions. Client-Serveur : le serveur OLAP s'intègre dans une architecture de la sorte. Dimensionnement : il est générique, afin de ne pas fausser les analyses. Gestion complète : le serveur OLAP assure la gestion des données clairsemées. Multi-utilisateurs : le serveur OLAP offre un support multi-utilisateurs (gestion des mises à jour, intégrité, sécurité...). Inter Dimension : Le serveur OLAP permet la réalisation d'opérations inter dimensions sans restriction. Intuitif : Le serveur OLAP permet une manipulation intuitive des données. Flexibilité : La flexibilité (ou souplesse) de l'édition des rapports est intrinsèque au modèle. Analyse sans limites : Le nombre de dimensions et de niveaux d'agrégation possibles est suffisant pour autoriser les analyses les plus poussées. Cette notion a vu le jour du fait que les bases de données de type relationnel (SGBDR) sont inadaptées aux besoins décisionnel. En effet, les requêtes décisionnelles, particulièrement complexes par principe, mobilisent abusivement les ressources machines et perturbent les traitements de production. Les outils OLAP permettent de modéliser l'activité d'une entreprise suivant des axes ou paramètres, répondant ainsi à ces contraintes. Pour ce faire, la structure de données construite est parfois appelé schéma en étoile, du fait de sa forme : TEMPS ID_TEMPS Date PRODUIT ID_PRODUIT NOM_PRODUIT VENTE ID_TEMPS ID_PRODUIT ID_PV ID_VENDEUR Quantite Prix POINT DE VENTE ID_PV ADR_PV VENDEUR ID_VENDEUR NOM_VENDEUR PRENOM_VENDEUR Exemple de modèle de données en étoile Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 11 / 56

12 Nous pouvons ainsi distinguer deux types de tables : Celles formant les branches des étoiles, utilisées comme critères d'analyse. Elles sont appelées dimensions ou axes. Celle qui forme le centre de l'étoile. Appelée table de fait, elle contient les indicateurs, également appelés mesures. Ces indicateurs sont donc fonctions des différentes dimensions, c'est pour cela que l'on emploie le terme multidimensionnel. Si l'on représente cette conceptualisation sous forme schématique, on obtient ce type de graphique : Points de Vente Paris Lyon Nantes Montpellier Janvier Temps Fêvrier Mars Avril Prod. A Prod. B Prod. C Prod. D Produits Exemple de Cube OLAP La représentation de cette base de données donne donc un Cube. On appelle Cube OLAP une représentation des données selon des axes. Cette structure présente de nombreux avantages pour des applications de Business Intelligence, en particulier grâce à sa capacité à faire évoluer, recalculer et transformer les tableaux de bord. Le concept OLAP s est spécialisé avec différentes déclinaisons : multidimensionnelles, hybrides, desktop Le Cube complet est appelé population d'analyse. Dès qu'on dépasse trois dimensions, on parle d'hypercube. Dans la mesure où toutes les cases du Cube ne seront pas forcément remplies (ex. : tel point de vente ne vend pas tel produit), il est possible d'indiquer au moteur OLAP les caractéristiques d'une variable, dimension dense ou éparse, afin d'optimiser la gestion de l'espace disque et l'accès aux données. Il peut être intéressant de définir des hiérarchies sur les dimensions. Ainsi, l'axe Temps pourra se découper en jour, semaine, mois... Et de même pour Point de Vente qui pourra se découper en ville, canton, département... On utilisera les termes parents, enfants... pour décrire les différents niveaux entre eux. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 12 / 56

13 Ainsi, le modèle conceptuel découlant de ces différentes hiérarchies donne : JOUR ID_JOUR DESC _JOUR MOIS ID_MOIS DESC _MOIS SEMAINE ID_SEMAINE DESC _SEMAIN E TEMPS ID_TEMPS ID_JOUR ID_MOIS ID_SEMAINE VENTE ID_TEMPS ID_PRODUIT ID_PV ID_VENDEUR Quantite Prix POINT DE VENTE ID_PV ID_VILLE VILLE ID_VILLE ID_C ANTON DESC _VILLE CANTON ID_C ANTON DESC _C ANTON Exemple de modèle de données en flocons La structure de cette base de données, dans la même lignée que l'appellation schéma en étoile, est appelée schéma en flocons. Sous cette forme là, les seuls indicateurs possibles sont donc, comme vu précédemment, la quantité et le prix. Néanmoins, il n'est pas nécessaire de définir, à l'origine, tous les indicateurs possibles. Ainsi, d'autres indicateurs, non stockés à la base, seront calculés à partir de ceux stockés, selon certains calculs. Ils sont souvent appelés formules. Analyse multidimensionnelle L'analyse multidimensionnelle s'effectue à partir des Cubes OLAP. Les Cubes OLAP, comme vu précédemment, comportent de nombreux doublons du fait de leur structure. Il convient donc d'agréger certaines données afin de faciliter la compréhension des résultats. Les jeux d'informations sont caractérisés par : Des attributs, qualifiant l'information (référence client, date, région...). Des grandeurs, portant l'information quantitative (quantités, prix...). On distingue également : Des grandeurs cumulables (montant, nombre d'items...). Des grandeurs non cumulables (âge, date...). Les attributs constituent les axes potentiels d'analyse. Néanmoins, la redondance de certaines informations, bien que nécessaire dans un premier temps, est telle qu'il est nécessaire d'agréger dans un second temps, certaines données en fonction d'axes potentiels d'analyse définis, les plus pertinentes étant généralement les grandeurs cumulables. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 13 / 56

14 L'analyse multidimensionnelle à proprement parler consistera à sélectionner les axes d'analyses souhaités, ainsi que leur ordre. Chaque hiérarchisation d'axes d analyse correspond à une question que l on se pose, et il n'est pas forcément nécessaire de les utiliser tous. Les axes sont également scindés selon deux types : A valeur discrète, (ou discontinues) : définis par un nombre fini de valeurs (code postal, segment CSP...). A valeurs continues (date, prix...). Il est plus intéressant de disposer d'axes à valeur discrète, plus aisément manipulables. Ainsi, on ramènera, autant que faire ce peut, les valeurs continues en valeurs discrètes (en définissant des tranches par exemple). Data Mining Que l'on peut traduire par forage de données, le Data Mining consiste donc à forer dans un grand volumes de données afin d'en extraire des informations pertinentes pour le décideur. Le point important du Data Mining est que l'utilisateur ne sait pas ce qu'il cherche. En effet, les outils de Data Mining recherchent, de manière semi-automatisés, des corrélations invisibles entre des données n'ayant à priori aucun lien entre elles. L'utilité même du Data Mining peut être comprise par l'exemple (plus ou moins légendaire) Wall-Mart. Cette entreprise Américaine, spécialisée dans la grand distribution, utilisa les premières techniques de Data Mining sur leurs données produits. Ainsi, les résultats de ces recherches mirent en avant une corrélation entre les ventes de couches et celles de bières le samedi après-midi. Après analyse, il s'avéra que le lien entre ces deux produits était induit par le fait que le samedi après-midi, pour les couples ayant un ou plusieurs enfants en bas âge, les femmes délèguaient les courses à leur mari. Ces derniers achetaient ainsi les couches pour leur nourrissons, ainsi que des bières pour eux-mêmes. De ce fait, une réorganisation de l'agencement des rayons, mettant côte à côte les rayons couches et bières, firent grimper les ventes de ces dernières en flèche. Cet exemple du Data Mining est tout particulièrement éloquent car il met en avant les points essentiels de cet outil : 1. Ce n'est pas l'utilisateur qui cherche des réponses à des questions spécifiques mais l'application qui met en valeur des axes de réflexion à suivre. 2. Cet outil est particulièrement adapté au traitement de grands volumes de données. 3. Une analyse des résultats obtenus doit être effectuée afin de définir, d'une part quel type de relation se cache derrière ces résultats (cause à effets, résultante d'une cause conjointe...), et d'autre part les causes de cette relation. 4. L'information pertinente, résultante de cette analyse, doit aboutir à des préconisations utilisables par le décideur. Il en découle ainsi plusieurs points : 1. Le Data Mining est plus considéré comme un art que comme une science, car sa pertinence réside dans l'analyse effectuée, et les résultats qui en découlent, sur les données retournées. 2. Il s'utilise sur un volume de données important, dont une chronologie peut être établie (typiquement des Data Warehouse), à contrario de l'analyse statistique. 3. Cette technique peut tout aussi bien être utilisée à des fins explicatives que dans un Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 14 / 56

15 objectif prédictif. Il existe ainsi non pas une technique de Data Mining mais plusieurs, chacune reposant sur des algorithmes mathématiques bien spécifiques, à choisir en fonction des résultats escomptés : Les méthodes utilisant les techniques de classification et de segmentation. Les méthodes utilisant des principes d'arbres de décision assez proches des techniques de classification Les méthodes fondées sur des principes et des règles d'associations ou d'analogies Les méthodes exploitant les capacités d'apprentissage des réseaux de neurones Les algorithmes génétiques, utilisés pour les études d'évolution des populations. Une utilisation performante des outils de Data Mining nécessite 3 conditions obligatoires, chacune possédant ses contraintes : Une collecte des données complète, minutieuse et fiable (longue et coûteuse). Une étude des résultats approfondie, à mettre en relation avec d'autres techniques d'analyse (nécessite du temps et des compétences). Une absence de réponse du système ne doit pas être systématiquement considérée comme une négation. Il peut parfois indiquer la nécessité d'aborder le problème sous un autre angle (nécessite du temps et le recul nécessaire). Générateur d'état Le générateur d'état permet de réaliser des états, appelés également reporting, qui sont des rapports présentant de manière synthétique et lisible des données, sous forme de tableaux de chiffres, tout en gérant la mise en page (en-tête, pied de pages...). D'une manière générale, le fonctionnement d'un générateur d'état se décline sous 4 phases : 1. Obtention d'un fichier modèle XML. 2. Construction d'un rapport à partir du modèle. 3. Remplissage du modèle à l'aide des sources de données. 4. Exportation sous différents formats. Nous pouvons ainsi le schématiser de la sorte : Base de données Fichiers Etape 3 Etape 1 Etape 2 Etape 4 Outil de designer Modèle XML Moteur de reporting Rapport rempli Schéma de fonctionnement d'un générateur d'état Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 15 / 56

16 La particularité d'un générateur d'état est qu'il peut se décliner sous deux aspects : Interactif : l'utilisateur pourra tout aussi bien générer un état en le déclinant sous plusieurs variantes (année, produit, région...). Figé : les règles de gestion sont définies à la base et l'utilisateur ne se servira de l'application que dans un mode Client-Serveur. Cette particularité induit ainsi deux modes de conception diamétralement opposés : Dans le mode interactif, la phase de paramétrage et de production ne requiert aucune expertise particulière car elle est sous le contrôle de l'utilisateur final. Dans le mode figé, a contrario, l'utilisateur ne peut modifier les paramètres des états. La conception initiale nécessite donc une expertise spécifique et rigoureuse. Il est cependant plus intéressant de mettre à disposition des générateurs d'état figés. Bien que cette orientation nécessite un coût plus important, aussi bien en terme de temps que d'argent, et qu'elle rigidifie les possibilités d'utilisation, l'expérience montre que les utilisateurs ont en général d'autres priorités que celles de l'apprentissage de l'application et de la définition des ses paramétrages. Le principal inconvénient des générateurs d'états vient de leur utilisation. En effet, bien qu'ils permettent au décideur de disposer d'une vue d'ensemble précise de son organisation, ils sont plus utilisés afin de rendre des comptes. Cela s'inscrit dans une logique de management par le contrôle, et non dans celle de la Business Intelligence. Il existe également des générateurs de graphiques qui, comme leur nom l'indique, permettent la visualisation des données sous forme de graphes. Néanmoins, bien que certains documents distinguent ces outils des générateurs d'états, nous ne ferons pas la différence dans cet ouvrage car la plupart de ces générateurs sont actuellement utilisés comme des moteurs graphiques implémentés directement dans les générateurs d'états. Point important : il ne faut pas confondre reporting et tableau de bord. Le premier est généré par le générateur d'état alors que le second propose une vision plus globale. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 16 / 56

17 Synthèse Après avoir défini les différents outils, nous proposerons ici une vue d'ensemble de leurs articulations et de leur liens, sous une représentation graphique théorique. BD Interne Data Mart Générateur d'état Data Mart C ube OLAP Analyse Multidimensionnelle BD Externe ETL Data Warehouse Data Mining Fichiers TXT, C SV... Source de Données Data Mart Tableaux de bord Extraction Stockage Restitution Réprésentation d'un sytème d'information décisionnel Cette représentation est schématique. En effet, elle illustre d'une manière globale les différentes interactions entre chaque outil. Elle doit être considérer comme un socle d'analyse et non comme une vérité absolue. Chaque cas d'implémentation d'une solution de Business Intelligence est unique, et doit faire l'objet d'une étude des besoins. Ainsi, il n'est pas rare de voir de nombreux systèmes d'information décisionnels dépourvus de solution de Data Mining, ou bien encore d'en rencontrer où les données à analyser étant uniquement stockées dans une base de données relationnelle, les générateurs d'états travaillent directement dessus sans passer par un ETL, un Data Warehouse et un Data Mart. Ainsi, il est bon d'avoir une représentation globale des différents éléments de Business Intelligence mais elle doit être adapter aux différents cas et contextes rencontrés. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 17 / 56

18 Les solutions décisionnelles Nous analyserons dans cette partie un panel des solutions existants dans le décisionnel, en décrivant les aspects techniques, les fonctionnalités des outils et les caractéristiques globales des communautés s'articulant autour. ETL Clover.ETL Clover.ETL est un ETL Open Source, basé sur un framework Java qui peut être utilisé pour transformer des données structurées. Il peut être utilisé seul, comme un serveur d'application, ou peut être embarqué dans d'autres applications, comme une librairie de transformation. Fiche d'identité Caractéristiques générales de la solution Projet âgé de 3 ans. Bonne documentation. Distribué sous Licence GPL. Communauté Sponsorisé par OpenSys, un administrateur et six développeurs ont clairement étaient identifiés. Taille de la communauté et visibilité Internet assez faible. Taux de fréquentation très bon. Niveau d'accessibilité Interface graphique. Faible niveau de packaging. Pas de traduction Française. OS Indépendant. Taux d'activité Très bon. 02 avril 2008 Accès aux données L'accès aux données est somme toute juste moyen. Bien que reconnaissant la plupart des fichiers plats, fournissant un outil de création de requêtes, permettant leur exécution et ayant une très bonne reconnaissance des bases de données, il ne gère pas les relations avec les Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 18 / 56

19 cubes OLAP et ne permet pas la lecture et l'écriture de types de données complexes. Caractéristiques spécifiques Il ne possède que de faibles caractéristiques spécifiques, comme un outil de debugging, mais ne permet pas la génération de documentation fonctionnelle ou technique. De plus, il ne possède pas d'outil d'analyse d'impact, contrairement à d'autres ETL. Déclenchement des processus Aucun déclenchement des processus n'est possible, ni leur planification. Déploiement et mise en production Une facilité de déploiement et de mise en production et cependant à noter. Basé sur Eclipse RCP, le code est visible et autonome, ce qui permet de ne pas avoir nécessairement à l'installer sur les serveurs de production. Néanmoins, aucune visualisation de l'historique de mise en production n'est possible. Traitement des données Le traitement des données est assez faible. Il est certes possible d'ajouter de nouvelles transformations et processus métiers, mais le manque de certaines fonctions natives, telles que la transformation des dates, des nombres ou de statistiques de qualité se fait ressentir. Sécurité Le niveau de sécurité est assez faible, il se base uniquement sur celle du SGBD utilisé. Néanmoins, certaines fonctions de base comme la gestion automatisée des logs et des systèmes de test ou de debugging sont présentes. Conclusion Encore assez jeune, il n'apparaît pas comme suffisamment mature pour être utilisé. Les caractéristiques techniques approchent faiblement la moyenne de ce qui se fait et la sécurité n'est pas au rendez vous. Il est pour le moment réservé à une utilisation personnelle et pour spécialiste mais possède une communauté florissante et très active. Il convient de suivre son évolution car ses perspectives, notamment de par son intégration dans ObjectWeb, peuvent s'avérer intéressantes. A suivre... Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 19 / 56

20 Enhydra Octopus Enhydra Octopus est un ETL basé sur du Java. Il peut se connecter à n'importe qu'elle source de données via JDBC et réalise les transformations définies en fichier XML. Fiche d'identité Caractéristiques générales de la solution Projet âgé de 6 ans. Mauvaise documentation. Distribué sous Licence GPL. Communauté Sponsorisé par Together Teamlösungen EDV- Dienstleistungen GmbH, trois administrateurs et quatre développeurs ont clairement étaient identifiés. Taille de la communauté et visibilité Internet assez faible. Taux de fréquentation non communiqué. Niveau d'accessibilité Pas d'interface graphique, ni de traduction Française. Faible niveau de packaging. OS Indépendant. Taux d'activité En chute libre depuis avril 2008 Accès aux données De même que pour Clover.ETL, l'accès aux données s'avère être tout juste moyen. De caractéristiques assez similaires, il se différencie par le fait qu'il ne dispose pas d'outil de création de requête. Caractéristiques spécifiques Il ne possède aucune réelle caractéristique spécifique et aucun moyen de déclenchement de processus. Déclenchement des processus Son déploiement est cependant assez bon. Basé sur Java, son code est également visible et autonome et ne permet pas la visualisation de l'historique de mise en production. Traitement des données Le traitement des données est assez faible, de même que pour Clover.ETL, à la différence Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 20 / 56

21 notable que Enhydra Octopus possède nativement des fonctions de transformations de dates et de nombres. Sécurité Le niveau de sécurité est assez faible, il se base uniquement sur celle du SGBD utilisé. Néanmoins, certaines fonctions de base comme la gestion automatisée des logs et des systèmes de test ou de debugging sont présentes. Conclusion N'a pour mérite que le fait d'avoir été l'un des précurseur dans le domaine des ETL Open Source. De faibles caractéristiques techniques et sécuritaires, un niveau d'accessibilité très mauvais et une communauté sur le déclin depuis ETL à éviter. Pentaho Data Integration (ex. Kettle) Fiche d'identité Pentaho Data Integration est un puissant ETL ayant pour objectif de faire le lien entre Business et Technologies de l'information, une transformation des données de l'entreprise en profits. Caractéristiques générales de la solution Intégré à Pentaho depuis 2 ans. Très bonne documentation. Distribué sous Mozilla Public Licence 1.1 Communauté Sponsorisé par Pentaho, 9 administrateurs et 19 développeurs ont clairement étaient identifiés. Taux de fréquentation et visibilité Internet très bon. Taille de la communauté difficile à déterminer car reliée directement à la suite décisionnelle Pentaho. Niveau d'accessibilité Interface graphique. Très bon niveau de packaging. Dispose d'une traduction Française. OS Indépendant. Taux d'activité Assez modeste. 02 avril 2008 Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 21 / 56

22 Accès aux données Pentaho Data Integration se révèle être un outil performant en ce qui concerne l'accès aux données. En effet, hormis la possibilité de lier des fichiers plats de type CSV, XLS... Il permet la liaison avec les cubes OLAP Mondrian. De plus, certains connecteurs sont déjà existant, comme SAP, ce qui évite leur mise en relation manuelle. Il peut également être lié à des Web Services. Caractéristiques spécifiques Il ne possède pas de grande caractéristique spécifique. Le seul point positif est qu'il est possible de disposer d'outils d'analyse d'impact et de debugging. Déclenchement des processus Le déclenchement par processus est disponible sous deux formes. L'une est par type de polling, l'autre est par planification des exécutions, à l'aide de Pan et Kitchen. Déploiement et mise en production Son déploiement est cependant assez bon. Basé sur SWT, son code n'est malheureusement pas visible, ni autonome, ce qui nécessite de disposer d'un composant pour faire tourner les Jobs. Traitement des données Le traitement des données est tout juste moyen. Hormis la possibilité d'ajouter de nouvelles transformations et processus métiers, il est également possible d'effectuer des jointures externes. Sécurité Le niveau de sécurité est sûrement le meilleur des ETL étudiés dans cet ouvrage. La mise en place d'une console d'administration permet un niveau de sécurité important, tant au niveau de l'accès aux métadonnées que sur celui de la création de scénarios et même sur leur mise à jour. De plus, une gestion automatisée des logs ainsi que des systèmes de test et de debugging. Conclusion Anciennement Kettle, poursuit une ascension des plus fortes depuis qu'il a rejoint le projet Pentaho. Fort de caractéristiques techniques et d'un niveau de sécurité plus que bon, il peut également se vanter d'être d'un excellent niveau d'accessibilité. Il pêche néanmoins par ce qui fait sa force : la suite Décisionnelle Pentaho. En effet, il n'existe pas réellement de communauté propre à cet ETL mais plutôt une globale concernant la suite Décisionnelle, ce qui explique son faible taux d'activité. Bien qu'étant une excellente solution, elle s'inscrira plutôt dans une perspective d'intégration globale de la suite Décsionnelle Pentaho que pour une utilisation seule. Talend Open Studio (TOS) Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 22 / 56

23 Fiche d'identité Talend Open Studio est doté de capacités avancées qui améliorent grandement la productivité des modèles d'intégration de données, et ce tout en conservant une éxecution optimale. Caractéristiques générales de la solution Projet âgé de 3 ans. Bonne documentation. Distribué sous Licence GPL. Communauté Sponsorisé par Talend, 3 administrateurs et 18 développeurs ont clairement étaient identifiés. Taille, taux de fréquentation et visibilité Internet très bon. Niveau d'accessibilité Interface graphique. Très bon niveau de packaging. Dispose d'une traduction Française. OS Indépendant. Taux d'activité Très bon (environ une nouvelle version tous les mois). 02 avril 2008 Accès aux données Talend Open Studio possède les caractéristiques techniques les plus performantes des ETL traitées ici. L'accès aux données est quasiment parfait. En effet, il gère aussi bien les fichiers plats que les cubes OLAP, dispose d'un outil de création de requête, et est doté de connecteurs nativement, tel Sugar CRM et SalesForce. De plus, il peut également se connecter à des sources de données complexes comme les données cartographiques. Caractéristiques spécifiques Hormis les spécificités standards de génération de documentation, le point intéressant de TOS est la possibilité de combiner l'approche ETL classique avec celle de l'elt. Cette dernière permet d'utiliser les ressources du SGBDR pour exécuter les transformations, ce qui permet ainsi de diminuer considérablement les ressources nécessaires. Déclenchement des processus La plupart des déclenchements de processus sont disponibles, que ce soit par message ou par polling. Il est également possible de planifier les exécutions. Déploiement et mise en production Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 23 / 56

24 Son déploiement et sa mise en production sont assez bonnes. Basé sur Eclipe RCP, son code est visible et autonome ce qui n'entraîne pas ainsi la nécessité d'installer TOS sur les serveurs de production. Traitement des données Le traitement des données est quant à lui de très bonne qualité car bien qu'il existe la possibilité d'ajouter de nouvelles fonctions, de nombreuses fonctions de transformation des dates, nombres ou de statistiques avancées sont déjà incorporées. De plus, il supporte les jointure de flux. Sécurité Le niveau de sécurité rivalise presque avec celui de Pentaho Data Integration. Doté des mêmes caractéristiques, TOS se distingue cependant par l'absence de sécurité sur le lancement des tâches, d'un système de test et de debugging en temps réel ainsi qu'un type de sécurité propriétaire. Conclusion Sans nul doute le meilleur ETL Open Source du moment. Excellentes caractéristiques techniques, très bon niveau de sécurité et une facilité de prise en main plus qu'accessible. De plus, il est soutenu par une communauté extrêmement active qui focalise tous ses efforts sur cet outil. Ne serait ce que pour l'année 2007, le nombre de nouvelles versions s'est élevé à une par mois. De plus, il à été choisi pour être l'etl de référence par les suites Décisionnelles Jasper et Spago BI. Nous ne traiterons pas ici du choix d'une suite décisionnelle à adopter mais il est plus que certain que Talend Open Studio est l'etl par excellence. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 24 / 56

25 Data Warehouse Nous avons décidé de ne pas traiter, à proprement parler, les solutions de Data Warehouse en Open Source. Ce choix délibéré résulte directement de la pertinence de son utilisation. En effet, la décision de mettre en place un Data Warehouse entraîne : Le remplissage de ce dernier en informations par le biais d'un ETL. L'utilisation de ce Data Warehouse par la mise en place d'un outil de restitution. Ce choix peut avoir ses avantages dans le développement d'une solution de Business Intelligence créée de toutes pièces. Néanmoins, dans la mesure ou plusieurs plate-formes décisionnelles répondent à ce besoin, et ce, comme nous le verrons, à différents niveaux de pertinence, cet ouvrage ne traitera pas différentes possibilités. Nous effectuerons tout de même un bref aperçu des différents possibilités, afin d'avoir une idée globale des solutions existantes. Bizgres Le projet Bizgres a été enregistré début S'appuyant sur PostgreSQL, il a été créé afin de spécialiser ce dernier pour du Data Warehoue. Greenplum est sponsor principal de ce projet. Le projet est sous licence BSD. La dernière news en ce qui concerne le projet date de septembre Néanmoins, si l'on analyse en profondeur le projet et les différents acteurs, on s'aperçoit également que la première version de la Greenplum Database a été proposée très peu de temps après cette version. Cette solution s'appuie sur Bizgres mais n'est pas distribuée sous la même licence, car elle impose un contrat de licence pour de l'utilisation. De plus, Greenplum proposant, et ayant en charge tout ou partie du projet Bizgres, il n'est pas inconsidéré de penser que le projet Bizgres a été relégué au placard, et que Greenplum déploie tout ses efforts sur son unique produit. Il nous semble donc que, d'une part, que le projet Bizgres n'est plus réellement suivi, et d'autre part que la Greenplum Database ne correspond pas aux critères Open Source de cet ouvrage. Ingres Ingres a été développé en Possédant une grosse notoriété dans les années 80 et 90 chez les grands comptes, il possède encore de très bonne références chez ces derniers tel que l'oréal, Leroy Merlin ou Eiffage. Néanmoins, le projet n'est distribué sous licence Open Source que depuis peu. En effet, à l'origine le projet est sous licence propriétaire, mais en 2005 ce dernier est cédé par Computer Associates à un fond d'investissement qui, par l'intermédiaire de la société Ingres Corporation, le distribue en licence GPL afin de redynamiser son développement. Bien que réputé pour sa robustesse et pour sa capacité à monter en charge, il apparaît encore très délicat d'émettre un avis sur ce projet. En effet, bien que commencé en 1977, nous pouvons considérer que le projet est somme toute très jeune car Open Source depuis De plus, le changement de modèle économique d'une logique propriétaire à une Open Source doit être étudié sur le temps, notamment du fait de l'importance d'acteurs majeurs que sont MySQL et PostgreSQL, déjà présents sur ce secteur depuis de nombreuses années. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 25 / 56

26 MySQL Apparu en 1995, le projet MySQL a vu la société en charge de son développement, MySQL AB, récemment rachetée par Sun Microsystem. Disponible sous la plupart des systèmes d'exploitation, il est distribué sous licence GPL. Soutenu par une communauté très importante, MySQL apparaît comme un incontournable de la base de données Open source. Simple de configuration, de déploiement et d'utilisation, il s'avère être grandement utilisé lors de la conception de sites Web, et c'est pour cela que la plupart des hébergeurs gratuits le supportent. Néanmoins, de nombreuses structures professionnelles l'utilisent également comme base de données interne, et non pour l'usage unique de site Web. En effet, MySQL est le plus à même pour traiter les données d'une masse volumique assez courante. Néanmoins, bien que plus performant et plus rapide que PostgreSQL, ses avantages ont également le revers de la médaille. Nous pouvons noter deux principaux points négatifs : D'une part cette rapidité d'exécution s'explique par le fait que MySQL ne gère pas l'intégrité référentielle. D'autre part MySQL s'avère être limité lors d'une masse de données importante. L'exemple notamment de la migration de SourceForge d'une base de données MySQL à une PostgreSQL s'explique par ce point là, MySQL ne gérant plus assez efficacement les montées en charge. PostgreSQL La première version du projet PostgreSQL, appelé Postgre à l'origine, remonte à Devenu libre et distribué sous licence BSD depuis 1996, il est intéressant de noter que le créateur de PostgreSQL est également le créateur d'ingres. Réputé pour ses excellentes performances, il possède de solides références chez les grands comptes, comme Météo France ou la RATP. Le fait que ce projet ne fonctionnait pendant longtemps que sous système UNIX explique les raisons d'une communauté plus faible que chez MySQL. Néanmoins, depuis la version 8.0, il est disponible sous Windows. Un peu plus complexe de prise en main que MySQL, il est néanmoins plus à même de traiter les masses de données importantes et garantie une cohérence de la quasi-totalité des données car il gère l'intégrité référentielle. Notre ouvrage traitant les différents modules de la Business Intelligence, il est également important de signaler que Talend, leader de l'etl dans l'open Source, et EnterpriseDB, acteur majeur proposant des solutions basées sur PostgreSQL, ont récemment annoncé un partenariat technologique sous forme d'offre combinée entre les bases de données PostgreSQL et l'intégrateur de données Open Source de Talend. L'objectif de ce partenariat est de fournir une solution de gestion de données capable de supporter des transactions complexes et d'être distribuée à travers de nombreux sites géographiques. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 26 / 56

27 Serveur OLAP Avant toute analyse des types de Cubes et des différents serveurs, 3 points importants sont à noter, en ce qui concerne l'olap : 1. Un client M-OLAP (ex. : Palo Web Client) ne pourra pas travailler sur un serveur R-OLAP (ex. : Mondiran), et inversement. 2. Le projet OLAP4J cherche à définir une API commune pour tous ces projets. 3. Mondrian travaille directement sur le SGBDR alors que Palo doit importer les données. Pentaho Analysis Services (ex. Mondrian) Fiche d'identité Mondrian est un serveur OLAP écrit en Java. Il autorise une analyse interactive très large des données stockées dans une base de données SQL sans avoir à écrire de code SQL. Caractéristique spécifique de la solution Type de Cube : R-OLAP. Point fort : la capacité. Caractéristiques générales de la solution Projet âgé de 6 ans. Très bonne documentation. Distribué sous Licence CPL. Communauté Sponsorisé par Pentaho, 1 administrateur et 22 développeurs ont clairement étaient identifiés. Taux de fréquentation et visibilité Internet très bon. Taille de la communauté difficile à déterminer car reliée directement à la suite décisionnelle Pentaho. Niveau d'accessibilité Pas d'interface graphique. faible niveau de packaging. Ne dispose pas d'une traduction Française. OS Indépendant. Taux d'activité Plutôt bon. 03 avril 2008 Chargement des données Le temps de chargement des données dans le Cube est très faible. En effet, les données sont directement intégrées dans le Cube lors de leur extraction, par le biais d'un ETL. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 27 / 56

28 Développement D'une manière générale, il est souvent nécessaire de développer des connecteurs spécifiques pour traiter les tables agrégables. De même pour les tables très détaillées, il est souvent impératif de développer des sur-tables afin de remédier aux problèmes de performances liés à l'importance de ces tables. Fonctionnalités Bien que, de part leur conceptualisation M-OLAP il n'existe pas la possibilité d'utiliser les techniques d'analyses propres aux cubes R-OLAP, le problème est relativement contourné grâce aux évolutions du langage SQL dans le domaine de l'analyse multidimensionnelle. Outils Il existe un nombre important d'outils à disposition de l'utilisateur. Le principal problème vient du fait que, comme nous l'avons souligné précédemment, le traitement s'avère difficile sur les tables détaillées provenant de données agrégées. Néanmoins, le point fort de Pentaho Analysis Services vient de sa conceptualisation sous forme Relationnelle, qui permet ainsi à d'autre outils, tel les outils classiques de reporting, d'être utilisés sur ces Cubes. Notons tout de même que, d'une manière globale, les outils sont moins performants que ceux existants sur les Cubes M-OLAP. Requêtes Les outils de traitement de données non agrégables, comme les textes descriptifs par exemple, bénéficient d'une bonne performance. Néanmoins, ces outils sont peu appropriés aux modèles ne traitant pas bien le SQL, comme notamment les rapports financiers. Sécurité Le niveau de sécurité est directement lié à celui de la base de données traitée. Il est ainsi possible d'obtenir un bon niveau en utilisant les outils disponibles avec cette dernière. Volume de données En opposition aux Cubes M-OLAP, Pentaho Analysis Service est plus à même de traiter une masse importante de données. Conclusion Grâce à un bon couplage avec un ETL performant, les Cubes R-OLAP bénéficient d'un temps de chargement des données des plus faibles. Bien que leur approche relationnelle ne leur permette pas d'utiliser les méthode d'analyses poussées propres aux Cubes multidimensionnels, ce problème est contourné grâce aux évolutions du langage SQL dans ce domaine. De plus, le nombre important d'outils et la possibilité, de par leur approche relationnelle, d'utiliser d'autres outils de reporting directement sur ces Cubes, en font une architecture plus qu'intéressante, et comble le fait que les différents outils sont, d'une manière globale, moins performants que ceux utilisant l'approche M-OLAP, et traitent moins bien les tables détaillées. La bonne performance des outils de traitement de données non agrégables, telles que les textes, la possibilité d'obtenir un bon niveau de sécurité en utilisant les paramètres de la base de données traitée et le fait que ce type de Cube est plus à même de traiter un volume de données important font que la plupart des outils Open Source sont fondés sur cette approche. Point négatif à prendre en compte : il est souvent nécessaire de Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 28 / 56

29 développer des connecteurs spécifiques pour les tables agrégables, ainsi que des sur-tables pour palier les problèmes de performance des tables détaillées. De plus, signalons que ces outils, de part leur utilisation SQL, se révèlent peu appropriés sur des modèles tels que les rapports financiers. Le serveur Mondrian est fondé sur l'approche R-OLAP. Les outils utilisant ce dernier bénéficient des spécificités propres à ce type d'architecture, que ce soit les points positifs ou négatifs. D'une manière plus générale, le projet Mondrian a rejoint le projet Pentaho, il bénéficie donc à ce titre d'une communauté globale à ce projet, plus que d'une propre à lui. Sa popularité est plus que forte, ainsi que sa visibilité Internet. Fort d'une excellente documentation, il pêche néanmoins sur un niveau d'accessibilité assez faible, lorsqu'il s'agit de l'implémenter seul, hors suite Décisionnelle Pentaho. De plus il est important de souligner que de nombreux clients, tels que Jrubik ou Jpivot pour ne citer qu'eux, sont conçus pour ne fonctionner qu'avec lui. Palo Fiche d'identité Palo est un serveur multidimensionnel Le système opère en temps réel et supporte la consolidation hiérarchique comme de nombreux outils de Business Intelligence. Caractéristique spécifique de la solution Type de Cube : M-OLAP. Point fort : la performance. Caractéristiques générales de la solution Projet âgé de 2 ans. Très mauvaise documentation. Distribué sous Licence GPL. Communauté Sponsorisé par Jedox AG, 1 administrateur et 11 développeurs ont clairement étaient identifiés. Taux de fréquentation est assez faible. Taille visibilité Internet relativement bonne. Niveau d'accessibilité Interface graphique. Bon niveau de packaging. Dispose pas d'une traduction Française. OS Indépendant. Taux d'activité Difficile à déterminer du fait de son jeun âge. 03 avril 2008 Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 29 / 56

30 Chargement des données Les outils disponibles de chargement de données sont peu rapides. Fonctionnalités De part leur conceptualisation, il est possible d'utiliser pleinement les techniques d'analyse propres aux Cubes OLAP. Outils D'une manière globale, les outils sont plus performants que ceux existants pour les Cubes R-OLAP. Néanmoins, il est à noter que d'une part, certains outils ont du mal à traiter les bases de données de plus dix dimensions et, d'autre part, que de par leur multidimensionnalité, les clients OLAP sont les seuls outils capables de communiquer avec. Requêtes L'optimisation du stockage permet une rapidité d'exécution des requêtes. Cependant, leur performance n'est pas au rendez vous sur ce type de données. Stockage La taille de stockage des données est plus faible que dans les Cubes relationnels, et ce même pour des données similaires. De plus, le modèle tableau permet l'utilisation d'un indexage naturel qui s'avère puissant. Volume de données Bien que ce type de Cube ait des difficultés à traiter un grand nombre de données, le problème est approximativement contourné par la mise en place de processus incrémentaux, vérifiant uniquement les données modifiées, ou les mises à jour. Conclusion Le point fort de l'architecture multidimensionnelle est la possibilité d'utiliser des techniques d'analyse extrêmement poussées. Bien que certains outils aient du mal à traiter des bases de plus de dix dimensions, il restent tout de même plus performant, que ceux reposant sur les Cubes R-OLAP. A noter cependant qu'il ne sera pas possible d'utiliser des outils de reporting différents sur ces tables, de par leur architecture. La conception du Cube est également à la base d'un des atouts fort du M-OLAP : une taille de stockage plus faible, du fait d'une conception optimisée, ainsi qu'une rapidité d'exécution des requêtes. Bien que ce modèle ne soit pas le plus à même p traiter un volume important de données, le problème est contourné par la mise en place de processus incrémentaux. Néanmoins, soulignons que les outils de chargement des données sont peu rapides, et que la conception de Cubes M-OLAP entraîne une redondance des données. Le serveur Palo repose quant à lui sur une architecture de type M-OLAP. Bien que son niveau d'activité soit moins important que celui de Mondrian, mettons cet aspect en relation avec son jeune âge (moins de deux ans). Ce point doit tout de même être pris en considération car il implique également que la documentation autour de ce projet est très faible et que les compétences partenaires à son sujet sont rares. Le point fort de Palo est que ce dernier s'intègre dans un projet propre à l'analyse dimensionnelle, incluant ainsi un client Web (Palo Web Client) et un client lourd (Palo Client). Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 30 / 56

31 Client OLAP Il est primordial de mettre en relation cette analyse avec celle des serveurs. En effet, bien qu'il soit possible d'évaluer certains aspects techniques et fonctionnels des différents clients, on ne peut comparer que ce qui est comparable. Comme vu dans l'analyse des serveurs, un cube R-OLAP n'est pas conçu pour répondre aux mêmes besoins qu'un cube M-OLAP. Il est donc important de définir avant toute chose le type de cube souhaité, en fonction des besoins, afin de pouvoir cadrer le choix d'un client approprié. FreeAnalysis La plate-forme FreeAnalysis fournit aussi bien un accès Java qu'un accès Web aux données multidimensionnelles, tout en fournissant un grand nombre d'applications pour gérer les projets OLAP, de la définition du Cube à son déploiement. Fiche d'identité Caractéristique spécifique de la solution Type de Cube : R-OLAP et M-OLAP. Caractéristiques générales de la solution Projet âgé de 3 ans. Très mauvaise documentation. Distribué sous Licence MPL 1.1. Communauté Sponsorisé par BPM Conseil, aucun contributeur clairement identifié. Taille, taux de fréquentation et visibilité Internet assez faible. Niveau d'accessibilité interface graphique. Faible niveau de packaging. Dispose d'une traduction Française. OS : Linux et Windows XP. Taux d'activité Très bon taux d'activité. 08 avril 2008 Plate-forme FreeAnalysis dispose d'une excellente plate-forme. L'utilisateur n'a certes pas le choix de modifier son interface mais l'ergonomie est excellente, ce qui n'apporte donc que peu d'inconvénients. 2 types de clients sont également à noter, un lourd, développé en Java, et un léger, basé sur la technologie Dojo. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 31 / 56

32 Chargement des données L'atout majeur est que FreeAnalysis gère aussi bien les Cubes R-OLAP de type Mondrian, que les Cubes de type M-OLAP de type Palo. La conception des cubes peut se faire graphiquement et intuitivement à l'aide de l'application SchemaDesign et, bien que la connection XML/A puisse se faire sur un serveur d'analyse, on regrettera tout de même qu'elle soit imposée. Fonctionnalités Les techniques d'analyse multidimensionnelle sont disponibles et FreeAnalysis permet également la génération de graphiques. Il ne faut cependant pas lui demander une analyse poussée des données. Publication des résultats D'une manière générale, on peut aisément affirmer que toutes les possibilités de publication de résultats sont disponibles, que ce soit aussi bien la création de rapports, la définition de fichiers d'export sous XML ou la publication via une interface Web. Sécurité Bien qu'il n'existe pas de console d'administration, la gestion des droits est configurable via l'api disponible. Conclusion Plus un ensemble de logiciels qu'un simple client à proprement parler. Il comprend aussi bien un concepteur de cube, un client OLAP et un outil de publication. Le point fort de FreeAnalysis réside dans sa capacité à pouvoir se connecter à un serveur R-OLAP (Mondrian) et M-OLAP (Palo). Doté de caractéristiques techniques intéressantes, notamment en ce qui concerne la plate-forme, il pêche cependant par une documentation extrêmement mauvaise. Sa communauté n'est pas non plus un point fort de ce projet, cette dernière étant assez faible (sûrement dû à son jeune âge). Il serait présomptueux de vouloir utiliser FreeAnalysis actuellement, néanmoins son périmètre de fonctionnalité et ses perspectives d'évolution doivent être surveillés avec la plus grande attention. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 32 / 56

33 Jpalo Fiche d'identité Jpalo permet la modélisation des données, la visualisation de ces dernières, la création et la publication de rapports à partir de requètes sur des bases de données multidimensionnelles. Caractéristique spécifique de la solution Type de Cube : M-OLAP. Caractéristiques générales de la solution Projet âgé de 2 ans. Mauvaise documentation. Distribué sous Licence GPL. Communauté Sponsorisé par Tensegrety Software GbmH, 1 administrateur et 1 développeur clairement identifié. Taille assez bonne. Taux de fréquentation et visibilité plutôt faible. Niveau d'accessibilité interface graphique. Bon niveau de packaging. Ne dispose pas d'une traduction Française. OS indépendant. Taux d'activité Difficulté pour qualifié de part la jeunesse du projet. 08 avril 2008 Plate-forme Très bonne interface graphique de par son ergonomie qui n'autorise donc pas la possibilité de l'utilisateur à modifier cette dernière. De la même façon que pour FreeAnalysis, deux types de clients existent : un léger en AJAX et un lourd en environnement Eclipse. Chargement des données La qualité du chargement des données est assez faible car il n'inclue pas de concepteur de Cube, ni de connection au serveur compatible MDX/XMLA. Il possède cependant la capacité à se connecter au serveur Palo. Fonctionnalités Possibilité d'effectuer des analyses classiques et poussées. Le défaut primordiale serait dans le fait qu'il ne dispose pas d'interface graphique afin de concevoir les Cubes. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 33 / 56

34 Publication des résultats Possibilité de créer des rapports et de les publier via une interface Web. La spécificité de Jpalo est dans le fichier d'export choisi qui est propre à Jpalo. Sécurité Aucun niveau de sécurité. Conclusion LE challenger du couple phare Mondrian/JPivot. Reposant sur un serveur R-OLAP actuellement, la possibilité de connection à un serveur M-OLAP est actuellement en développement. Bien que sa communauté utilisateur ne soit pas très importante, il convient de mettre en relation sa visibilité Internet avec son jeune âge pour s'apercevoir que de nombreux espoirs sont portés sur lui (il est notamment inclus dans la Road Map de SpagoBI). Néanmoins, ses caractéristiques techniques sont assez faibles dans l'état actuel des choses et l'un des aspects les plus défavorables est qu'il ne permet pas de représentation graphique, ce qui peut être considéré, au vu des utilisateurs, comme un critère discriminatoire. Jpivot Jpivot est une JSP custom tag library qui permet la création de tables OLAP et permet à l'utilisateur d'utiliser les fonctions classiques de l'analyse multidimensionnelle. Fiche d'identité Caractéristique spécifique de la solution Type de Cube : R-OLAP. Caractéristiques générales de la solution Projet âgé de 6 ans. Mauvaise documentation. Distribué sous Licence CPL. Communauté Sponsorisé par TONBELLER, 1 administrateur et 18 développeur clairement identifié. Taille et visibilité Internet assez bonne. Taux de fréquentation très bon. Niveau d'accessibilité interface graphique. Bon niveau de packaging. Ne dispose pas d'une traduction Française. OS indépendant. Taux d'activité Pas un grand taux d'activité mais stable depuis 3 ans. 08 avril 2008 Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 34 / 56

35 Plate-forme Plate-forme assez ergonomique mais qui possède la particularité d'être modulable via l'utilisation de feuilles de style. Ainsi, l'utilisateur peut modifier l'interface afin de disposer de celle qui lui convient le mieux. Cette plate-forme n'est disponible qu'en client léger Web. Chargement des données La conception de Cubes n'est pas prise en charge par l'application. Néanmoins, l'utilisateur dispose, s'il le souhaite, d'une connection XML/A. Les Cubes utilisés par cette solution sont de type Mondrian. Fonctionnalités Les fonctionnalités de Jpivot sont les plus abouties des Client OLAP car elle possède tout aussi bien les éléments d'analyse classique comme celles plus poussées, ainsi que la possibilité de récupérer des graphiques. Publication des résultats La création des rapports est possible, ainsi que l'export au format PDF ou Excel. Néanmoins, la publication de rapport n'est pas comprise dans cette solution. Sécurité Aucun niveau de sécurité. Conclusion LE client OLAP de référence. Inclus dans les suites décisionnelles les plus prometteuses (Jasper Intelligence, Pentaho et SpagoBI), il possède des caractéristiques techniques très bonnes. En effet, il n'est pas le plus performant dans tous les domaines mais il peut se vanter d'être le plus homogène, suivi par la communauté la plus importante. De plus, sa stabilité n'est plus à démontrer car il est le serveur OLAP Open Source le plus ancien (5 ans). Bien qu'étant, combiné avec Mondrian, LE couple OLAP Open Source incontournable, une critique peut néanmoins lui être formulée : la documentation n'est pas à la hauteur de ses capacités. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 35 / 56

36 Jrubik Jrubik est un client OLAP développé en Java/Swing et basé sur les composants du projet Jpivot. Le client se connecte aux sources de données de Mondrian et les requêtes OLAP peuvent être faites en langage MDX. Fiche d'identité Caractéristique spécifique de la solution Type de Cube : R-OLAP. Caractéristiques générales de la solution Projet âgé de 4 ans. Mauvaise documentation. Distribué sous Licence CPL. Communauté Aucun sponsor n'a été identifié en tant que tel, 3 administrateur et 3 développeur clairement identifié. Taille,taux de fréquentation et visibilité Internet assez bonne. Niveau d'accessibilité interface graphique. Bon niveau de packaging. Ne dispose pas d'une traduction Française. OS indépendant. Taux d'activité Aucune activité depuis fin avril 2008 Plate-forme Plate-forme extrêmement ergonomique doté ainsi d'une bonne interface. Cette dernière est basée sur du Java. Chargement des données Pas de concepteur de Cube incorporé mais la possibilité d'une part de se connecter en XML/A sur un serveur Mondrian central. D'autre part, il est également possible d'embarquer Mondrian si on le souhaite. Fonctionnalités Pas de fonctionnalité d'analyse multidimensionnelle poussée mais de bonnes fonctionnalités d'analyse multidimensionnelle classique. De plus, la création de graphiques est également possible. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 36 / 56

37 Publication des résultats La publication de rapports ne peut être effectuée mais il est possible de les exporter via des PDF, des XML, des HTML... Sécurité Aucun niveau de sécurité. Conclusion Il est primordial de mettre en relation cette analyse avec celle des serveurs. En effet, bien qu'il soit possible d'évaluer certains aspects techniques et fonctionnels des différents clients, il convient de comparer ce qui est comparable. Comme vu dans l'analyse des serveurs, un cube R-OLAP n'est pas conçu pour répondre aux mêmes besoins qu'un cube M-OLAP. Il est donc important de définir avant toute chose le type de cube souhaité, en fonction des besoins, afin de pouvoir cadrer le choix d'un serveur approprié. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 37 / 56

38 Data Mining Waikato Environment for Knowledge Analysis (WEKA) WEKA est une collection d'algorithmes pour les taches de Data Mining. Les algorithmes peuvent être appliqués directement aux données ou appelés par le code Java. WEAK contient les outils pour différents traitements. Fiche d'identité Caractéristique spécifique de la solution Analyse de données et modèles prédictifs. Caractéristiques générales de la solution Développer en Java. Très bonne documentation. Distribué sous Licence GPL. Communauté Activité Université Waikato. 3 administrateur et 3 développeur clairement identifiés. Sponsorisé par Pentaho. Projet lancé en Début du développement Java en avril 2008 Taux d'activité Le mode de développement de WEKA est tout particulièrement intéressant par le fait qu'il n'est pas linéaire. En effet, le passage d'une version 3.X à la 3.Y n'implique pas l'arrêt du développement de la version 3.X. Ainsi, tout en apportant des améliorations notables qui impliquent le passage à une version supérieure, la version antérieure n'est pas oubliée pour autant et se trouve entretenue pendant quelques temps. Cette façon de procéder permet à des utilisateurs d'une version de ne pas forcément avoir à passer à la version supérieure, dans la mesure où la version actuelle les satisfait, tout en profitant de quelques améliorations. Néanmoins, bien qu'il existe actuellement 5 versions de WEKA, seules les deux dernières (versions 3.4 et 3.5) sont entretenues, comme l'illustre le graphique suivant. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 38 / 56

39 Nombres Weka 3.0 Weka 3.2 Weka 3.3 Weka 3.4 Weka 3.5 Années Taux dactivité des différentes versions de WEKA Traitements WEKA supporte plusieurs de nombreux types de sources de données. D'une part il peut travailler avec les bases de données, mais d'autre part il peut également extraire les informations de fichiers plats de type.arff. Plusieurs types de traitements des données sont ensuite disponibles, les principaux étant : Filtrage : permettant ainsi de préparer les données avant de les traiter. Classification : utiliser pour de l'analyse prédictive. Clustering : analyse descriptive, permet d'identifier des groupes d'enregistrements. Règles d'associations : analyse prédictive également, permet d'identifier des corrélations entre données. Accessibilité Hormis une bonne documentation, ainsi qu'une communauté relativement active, WEKA possède l'avantage de disposer de plusieurs interfaces graphiques possédant leurs propres utilités : SIMPLE CLI : niveau d'accessibilité le plus bas, c'est une console permettant l'utilisation de modules de calculs. EXPLORER : utilisé pour l'analyse d'un jeu de données, il permet le paramétrage de ce dernier ainsi que la visualisation des résultats. EXPERIMENTER : analyse poussée permettant ainsi d'utiliser les méthodes d'analyse complexes sur plusieurs jeux de données. KNOWLEDGEFLOW : chaque traitement possède ses composants graphiques et cette interface permet d'effectuer des analyses en fonction. Conclusion WEKA est sans nul doute l'outil de Data Mining le plus mature de l'open Source. Possédant une communauté bien active, fourni avec une bonne documentation et ayant intégré plusieurs suites décisionnelle, la stabilité de ce projet est présente. Les différentes interfaces lui confèrent une certaine accessibilité qui s'avère assez simple d'utilisation. De plus, les différents traitements possibles au vu des différents algorithmes d'analyse intégrés lui permettent de répondre à différents besoins. Néanmoins, un point important à prendre en compte ne vient pas tant de l'outil mais plus du Data Mining en général. Le Data Mining se doit d'être intégré à un système décisionnel stable et mature. Ses points forts ne se révèlent que dans une structure décisionnelle forte. Ainsi, un outil de Data Mining doit plutôt être considéré comme l'étape finale d'une solution de Business Intelligence. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 39 / 56

40 Générateur d'état Business Intelligence and Reporting Tools (BIRT) BIRT est système de reporting, open source, basé sur Eclipse qui, intégré aux applications Java/J2EE produit des rapports compilés. Fiche d'identité Caractéristiques générales de la solution Projet âgé de 3 ans. Bonne documentation. Distribué sous Licence GPL. Communauté Sponsorisé par Actuate, 2 administrateurs et 10 développeurs ont clairement étaient identifiés. Taille de la communauté et visibilité Internet très forte. Taux de fréquentation non communiqué. Niveau d'accessibilité Interface graphique. Très bon niveau de packaging. Pas de traduction Française. OS Indépendant. Taux d'activité Très bon. 14 avril 2008 Connectivité BIRT est l'outil de reporting possédant nativement le moins de connectivité. En effet, les possibilités se résument aux fichiers plats, aux fichiers XML, aux JDBC et Plain Old Java Object. Néanmoins, il possède un point fort non négligeable sur les autres solutions : la possibilité d'écrire en Java, ou en Javascript, des scripts renvoyant les données. Ainsi, bien que n'ayant pas le plus large éventail de connectivité en se focalisant sur le court terme, il est celui qui a la perspective d'intégration la plus forte. Indicateurs BIRT utilise la librairie graphique BIRT Chart. Cette dernière lui permet de disposer d'à peu près tous les diagrammes possibles et imaginables, qu'il s'agisse des diagrammes de lignes classiques jusqu'aux jauges, en passant par les diagrammes de zone. Il est, de toutes les solutions analysées, celle qui possède la plus grande offre de visualisation. Il offre également la possibilité de personnaliser les rapports émis selon des modèles prédéfinis. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 40 / 56

41 Format de sortie Les possibilités d'extraction sont correctes. En effet, il permet d'extraire les tableaux de bord dans la plupart des formats classiques, type PDF, CSV ou HTML. Néanmoins, l'extraction au format XML n'est pas proposée. Fonctionnement Source de données BIRT Designer Modèle XML BIRT Engine Rapport rempli Schéma de fonctionnement de BIRT Conclusion BIRT est un très bon outil de reporting. L'une des caractéristiques les plus attrayantes est la possibilité de créer des scripts d'extraction de données. Certes on pourra regretter qu'il n'offre pas en natif de nombreuses connectivités mais cet atout lui permet, avec un peu de développement en amont, de s'intégrer dans la plupart des systèmes. La richesse de indicateurs et les formats de sortie disponibles permettent de répondre aux besoins de la plupart des cas d'utilisation. A noter également que BIRT est présent dans les suites décisionnelles Pentaho et Spago BI. On peut donc dire de BIRT qu'il est à envisagé très sérieusement lors de la mise en place d'un outil de reporting seul. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 41 / 56

42 JasperReport Fiche d'identité JasperReports est une librairie Java embarquable. Elle permet d'accélérer le développement des rapports comparé aux approches de construction traditionnelle, et est un support pour tout tableau de bord. Caractéristiques générales de la solution Projet âgé de 2 ans. Très bonne documentation. Distribué sous Licence GPL. Communauté Sponsorisé par JasperSoft, 2 administrateur et 10 développeurs ont clairement étaient identifiés. Taille de la communauté et taux de fréquentation très fort. Bonne visibilité Internet. Niveau d'accessibilité Interface graphique. Très bon niveau de packaging. Pas de traduction Française. OS Indépendant. Taux d'activité Très bon. 14 avril 2008 Connectivité JasperReports possède le plus large panel de connectivités. De même que pour BIRT, il peut se connecter aux fichiers plats, aux fichiers XML... De plus, il est compatible avec le serveur OLAP et autorise une connexion aux serveur XML/A. Néanmoins, il ne possède pas de fonction permettant d'écrire des scripts afin de retourner les données, et ne peut également pas se connecter à Jpivot. Indicateurs A niveau égal avec BIRT, il utilise quand à lui la librairie graphique Jfree Chart. Possédant une multitude d'indicateurs également, il est très complet. Le point négatif serait le manque de personnalisation des tableaux de bord fourni. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 42 / 56

43 Format de sortie De même que pour BIRT, la plupart des formats standards tels que le PDF, le CSV ou HTML sont disponibles. Il se caractérise cependant par deux aspects : il n'offre pas la possibilité d'exporter au format DOC mais permet l'extraction au format XML. Fonctionnement Source de données ireport Modèle XML Jasper Design Jasper Reports Jasper Print Rapport rempli Conclusion Schéma de fonctionnement de Jasper Reports JasperReports est LE générateur d'état le plus répandu, ou tout du moins le plus connu. En effet, il se trouve intégré dans les suites décisionnelles Open Source les plus crédibles, à savoir Jasper Intelligence, Pentaho et Spago BI, et dans celles moins connues, comme notamment Marvel IT. Sa facilité d'intégration explique en partie cet aspect là car il est celui de tous les outils de reporting qui possède le plus large panel de connectivité. Les différents indicateurs et formats de sortie sont de très bonne qualité, mais on regrettera tout de même l'impossibilité de personnaliser les tableaux de bord. Dans le cadre d'une implémentation d'une suite décisionnelle, il paraît impensable de ne pas envisager d'intégrer JasperReport. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 43 / 56

44 Pentaho Reporting (ex. JfreeReports) Fiche d'identité Pentaho Reporting est une collection de projets open source principalement focalisés sur la création, la génération et la distribution de contenu de rapports riches et sophistiqués, à partir de toutes sources d'informations. Caractéristiques générales de la solution Projet âgé de 7 ans. Très bonne documentation. Distribué sous Licence GPL. Communauté Sponsorisé par Pentaho, 5 administrateur et 12 développeurs ont clairement étaient identifiés. Taille et taux de fréquentation bon. Taille de la communauté difficile à déterminer car reliée directement à la suite décisionnelle Pentaho. Niveau d'accessibilité Interface graphique. Très bon niveau de packaging. Pas de traduction Française. OS Indépendant. Taux d'activité Assez faible mais stable. 14 avril 2008 Connectivité Les connectivités de Pentaho Reporting ne sont pas les plus fabuleuses. En effet, il n'est pas possible d'écrire un script renvoyant les données, ce qui est une spécificité de BIRT. Il peut néanmoins se connecter au serveur OLAP Mondrian mais ne peut ni se connecter aux JavaBeans, ni aux EJB, ni au serveur XML/A. Indicateurs Utilisant également la librairie graphique Jfree Chart, il se révèle néanmoins un peu moins fourni en indicateurs que les deux solutions vues précédemment. A l'inverse de JasperReports, il possède quand à lui la possibilité de personnaliser les tableaux de bord. Format de sortie D'un niveau juste correct, il gère certains types de format standard comme le HTML ou le PDF mais n'accepte pas l'export au format CSV, DOC ou XML. Malheureusement, il ne possède pas Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 44 / 56

45 de caractéristiques propres à lui afin de couvrir ces lacunes. Fonctionnement Source de données Pentaho Report Designer Modèle XML Pentaho Reporting Rapport rempli Pentaho Report Design Schéma de fonctionnement de Pentaho Reporting Conclusion Outil de reporting correct, il a rejoint, comme son nom l'indique, la suite décisionnelle Pentaho. Il apparaît plus comme un générateur d'état moyen, assez standard, sans réelle valeur apportée. En effet, il possède des connectivités, des indicateurs et des formats de sortie d'un niveau moyen. De plus, aucune caractéristique spécifique à lui ne sont à noter. Il s'avère être un générateur d'état correct, pouvant être suffisamment performant pour répondre à certains besoins, dans un contexte précis et dans un cas d'intégration précis. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 45 / 56

46 OpenReports OpenReports est un outil de reporting flexible qui fournit un navigateur, un outil de paramétrage et génère des rapports dynamiques, tout en permettant une programmation temporelle. Fiche d'identité Caractéristiques générales de la solution Projet âgé de 7 ans. Bonne documentation. Distribué sous Licence GPL. Communauté Sponsorisé par Open Source Software Solutions, un administrateur et un développeurs ont clairement étaient identifiés. Taille de la communauté et visibilité Internet assez faible. Taux de fréquentation bon. Niveau d'accessibilité Interface graphique. Très bon niveau de packaging. Pas de traduction Française. OS Indépendant. Taux d'activité Assez faible mais stable. 14 avril 2008 Connectivité Les connectivités d'open Reports sont somme toute assez restreintes. Néanmoins, et ces caractéristiques s'appliquent également au Générateurs d'état précédemment cités, la compatibilité avec les JDBC permet d'accepter la plupart des bases de données. Notons également qu'il permet l'utilisation du serveur OLAP Mondrian, ainsi que, et c'est une caractéristique qui lui est propre, le serveur Jpivot. Indicateurs Comme la plupart des outils de reporting vus précédemment, OpenReports utilise la librairie graphique Jfree Chart. Au niveau des indicateurs, il y a peu de choses à dire car il possède un large choix d'indicateurs à même de répondre à tous les besoins utilisateurs. Notons que dans notre étude, OpenReports intègre tous les indicateurs étudiés. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 46 / 56

47 Format de sortie D'un bon niveau, il répond à la plupart des formats de sortie tel que PDF, HTML... Bien que n'ayant pas le panel le plus fourni en ce qui concerne la possibilité d'exportation, il se distingue cependant de par sa possibilité de fournir en ligne les rapports, et ce par le biais d'une application Web permettant également la gestion de droits, de groupes... Fonctionnement Source de données Pentaho Reporting JXLS BIRT OpenReports Designer Modèle XML Jasper Reports Rapport rempli Schéma de fonctionnement de OpenReports Conclusion OpenReports n'est pas a considérer comme un générateur d'état comme les autres. En effet, il est plus à voir comme une sur couche permettant, d'une part, d'utiliser les moteurs de reporting des 3 solutions précédentes, et d'autre part de diffuser via une application Web, et suivant certains droits, les tableaux et/ou rapports réalisés. il sera un outil intéressant dans une optique d'intégration ayant de nombreux utilisateurs comme cible. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 47 / 56

48 Suites décisionnelles Jasper Intelligence Plate-forme Open Source de Business Intelligence permettant de déployer aussi bien des outils de reporting, d'analyse et d'intégration de données utilisant le le langage J2EE. Fiche d'identité Caractéristiques générales de la solution Projet âgé de 2 ans. Bonne documentation. Distribué sous Licence GPL et commerciale. Communauté Sponsorisé par JasperSoft, 3 administrateur et 31 développeurs ont clairement étaient identifiés. Taille de la communauté et visibilité Internet assez bonne. Taux de fréquentation difficile à déterminer, pas de fréquentation propre à la suite mais aux composants. Niveau d'accessibilité Interface graphique. Faible niveau de packaging. Pas de traduction Française. OS Indépendant. Taux d'activité Assez bon. 12 mai 2008 Fonctionnalités La couverture des fonctionnalités de restitution est complète car Jasper Intelligence permet d'utiliser l'intégralité des fonctionnalités de JasperReport et Jpivot/Mondrian. De plus, outre cette couverture optimale, la planification possible des rapports, la possibilité de les recevoir par mail, ainsi que celle de les stocker dans un répertoire référentiel permet un choix total de diffusion d'une part, mais également un historique et un suivi d'autre part. La gestion des droit d'accès, des profils etc... a également été prise en compte afin de pouvoir définir certains niveaux de sécurité, mais également de permettre une personnalisation des interfaces. La spécificité de cette suite décisionnelle vient principalement du fait que, à contrario des autres solutions existantes, l'interface n'est pas conçue sous forme de portail. En effet, une application Web a été développée spécifiquement. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 48 / 56

49 Jasper Intelligence comprend également son propre concepteur de Cube OLAP, sous le nom de JasperWorkbench, que l'on peut considérer comme une surcouche par rapport à l'édition manuelle des fichiers XML. Nous pouvons cependant regretter le fait que deux licences existant, l'une GPL et l'autre commerciale, la solution disponible sous licence Open Source ne comprenant pas l'intégralité des fonctionnalités disponibles sous licence commerciale. Composants ETL Jasper ETL : Talend Open Studio. Générateur d'état Jasper Report. Analyse Multidimensionnelle Jasper Analysis : Mondrian. Jpivot. Planificateur Quartz. Conclusion Cette solution de suite décisionnelle s'avère être assez simple de prise en main, dont toutes les fonctions principales sont présentes. La navigation somme toute assez basique se trouve ainsi être assez allégée. Deux grands inconvénients sont cependant à noter : D'une part, l'outil de reporting de BIRT est absent de cette suite, ce qui est assez dommageable. D'autre part, au vu des composants présents, force est de penser que JasperSoft souhaite mettre en avant ces propres produits au détriment des solutions les plus pertinentes. Il est donc peu probable que d'autres outils de reporting soient intégrés à cette solution. En conclusion, JasperIntelligence s'avère être une solution assez intéressante de par sa simplicité, sa légèreté et sa rapidité de prise en main, mais bien que possédant la plupart des fonctionnalités importantes que l'on demande à une suite décisionnelle, elle s'avère être assez restreinte et elle peut être soumise à des contraintes «marketing». Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 49 / 56

50 Marvel IT Dash Dash est une plate-forme de développement gratuite qui permet un déploiement rapide des tableaux de bord dans le cadre d'une solution de Business Intelligence. Fiche d'identité Caractéristiques générales de la solution Projet âgé de 2 ans. Bonne documentation. Distribué sous Licence Open Source.. Communauté Sponsorisé par MarvelIT, 3 administrateurs et 3 développeurs ont été clairement identifiés. Taille de la communauté, visibilité Internet et taux de fréquentation très faible. Niveau d'accessibilité Interface graphique. Très bon niveau de packaging. Pas de traduction Française. OS Indépendant. Taux d'activité Très faible. 12 mai 2008 Fonctionnalités Cette suite décisionnelle est présentée sous forme de portail. L'administration se fait directement sur ce dernier, interface sous laquelle l'administrateur dispose de la possibilité d'intégrer différents portlets, afin d'afficher les graphiques ou les états. Le paramétrage des données se fait directement à ce niveau là. Les portlets sont au nombre de 4 : Affichage d'un graphique. Affichage d'un état. Ouverture d'un état en PDF ou HTML. Il est également à noter que la possibilité de planifier la génération et l'envoi d'un état à plusieurs adresses mail données est présent. Administration pour la définition des sources et la déclaration des états. Communauté Pas de communauté visible sauf la société. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 50 / 56

51 Composants Générateur d'état Portail Planificateur Jasper Report. Apache Jetspeed 1.6 Fusion. Quartz. Conclusion Cette solution est la moins aboutie de toutes les solutions étudiées. Disposant de fonctionnalités techniques assez limitées, l'invisibilité de la communauté autour de ce projet en fait une suite décisionnelle peu à même d'être choisie pour du long terme. Néanmoins, elle peut s'avérer intéressante, de part sa simplicité, pour un usage limité ou pour une initiation aux suites décisionnelles. La possibilité de disposer de fonctions plus exhaustives entraînera de se tourner vers les autres solutions. Pentaho Une plate-forme de Business Intelligence qui comprend le reporting, l'analyse OLAP, les tableaux de bord, le Data Mining et l'intégration de données par le biais d'un ETL. Elle peut être utilisée comme une suite complète ou composant par composant. Fiche d'identité Caractéristiques générales de la solution Projet âgé de 3ans. Très bonne documentation. Distribué sous Licence MPL 1.1 Communauté Sponsorisé par Pentaho, 8 administrateurs et 19 développeurs ont clairement étaient identifiés. Taille de la communauté, visibilité Internet et taux de fréquentation très bon. Niveau d'accessibilité Interface graphique. Très bon niveau de packaging. Pas de traduction Française. OS Indépendant. Taux d'activité Très bon. 12 mai 2008 Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 51 / 56

52 Fonctionnalités Pentaho possède deux possibilités d'interface : soit par le biais d'une application J2EE, Joss Portal, soit par une application Web. Les deux solutions proposent les mêmes types de fonctionnalités, à savoir la possibilité de consulter les états, d'utiliser les fonctions d'exploration des données et de constituer des tableaux de bord. L'ensemble des fonctions d'administration sont également disponibles sous les deux solutions. A noter également qu'il est possible d'interagir dynamiquement sur les documents. La diffusion des documents peut se faire sous plusieurs formes, par l'automatisation d'un envoi par mail, selon certaines échéances ou selon certaines conditions. Des fonctions de gestion des droits par le biais de comptes utilisateurs sont également mises à la disponibilité de l'administrateur, permettant ainsi de limiter et/ou de personnaliser les profils et les accès. Le portail permet quant à lui, par les biais de différents modules, d'intégrer un état, de composer des tableaux de bord, de combiner des graphiques et de parcourir l'ensemble des actions possibles. La Plate-forme est organisée ainsi, comme la majorité des suites décisionnelles, autour de 2 composants : Un moteur de workflow, Enhydra Shark. Chaque fonctionnalité de ce dernier correspond à l'éxecution d'une action sous fichier XML, ces dernières étant tout simplement une succession d'étapes simples. Pentaho dispose de son outil de conception des actions, sous le nom de Pentaho Design Studio, permettant ainsi une création graphique de ces dernières, augmentant de ce fait l'accessibilité. De plus, tous les composant présents dans la suite décisionnelle Pentaho sont considérés comme des étapes qu'il est ainsi possible d'automatiser. Un planificateur de tâches, Quartz. Ce dernier donne ainsi la possibilité d'effectuer un contrôle du planificateur, que ce soit manuellement ou en utilisant les étapes correspondantes dans une action. Pentaho se distingue par son outil Metatada editor, qui permet de créer des vues métiers de base de données. Ainsi, on ne voit plus les tables sous leur forme classique mais des regroupements d'informations. Il est ainsi possible de créer des requêtes sans passer par du SQL. Communauté La communauté autour de ce projet est très active et dynamique. Le fait que nombres de projets décisionnels aient rejoint Pentaho a accentué cet effet par le ralliement de leur communauté respective à ce projet. De plus, cette intégration de plusieurs briques décisionnelles autour de cette suite décisionnelle entraîne une parfaite implémentation et une évolution cohérente de l'ensemble. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 52 / 56

53 Composants ETL Générateur d'état Analyse Multidimensionnelle Data Mining Portail Planificateur Workflow Kettle. Eclipse BIRT. Jasper Reports. JfreeReport. Jpivot. Mondrian. Weka. Jboss Portal. Quartz. Enhydra shark. Conclusion Pentaho est une solution complète, gérant l'intégralité des niveaux du décisionnel, disposant de l'intégralité des fonctionnalités souhaitées et disposant de la majorité des solutions disponibles dans le secteur de la Business Intelligence en Open Source. Sa communauté est très active et sa logique d'intégration, par le biais de l'acceptation de plusieurs projets au sein du sien en font une solution cohérente dans son architecture, et permet un suivi évolutif pertinent dans son ensemble. Pentaho est ainsi la solution qui se distingue par le fait qu'elle peut couvrir l'ensemble des contextes d'informatique décisionnelle. Néanmoins, il est à noter que son large choix d'outils décisionnels en font une solution qui peut certes couvrir l'intégralité des cas possibles, mais qui ne s'avèrera pas la plus pertinente dans la mesure ou d'autre solutions, moins fournies, s'avèreront plus rapides de mise en place et tout aussi pertinentes, dans certains contextes. Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 53 / 56

54 Spago BI SpagoBI est une plate-forme de Business Intelligence Open Source qui utilise de nombreux moteurs analytiques, les intègre dans une infrastructure qui offre une vision coopérative et cohérente entre le reporting, les cubes OLAP, le Data Mining, les tableaux de bord et le Data Warehouse. Fiche d'identité Caractéristiques générales de la solution Projet âgé de 3 ans. Bonne documentation. Distribué sous Licence GPL. Communauté Sponsorisé par Engineering Ingegneria Informatica, un administrateur et 8 développeurs ont clairement étaient identifiés. Taille de la communauté assez moyenne. Visibilité internet très pauvre. Aucune information au niveau du taux de fréquentation. Niveau d'accessibilité Interface graphique. Très bon niveau de packaging. Pas de traduction Française. OS Indépendant. Taux d'activité Très bon. 12 mai 2008 Fonctionnalités L'interface de SpagoBI est développée sous forme de protail. Elle utilise à ce titre exo platform mais permet également une intégration simplifiée au portail Liferay. L'intégration de fonctionnalités se fait sous forme de portlets, permettant d'afficher les graphiques, les états et/ou les indicateurs. Il est à noter également que certains graphiques et/ ou indicateurs peuvent être actualisés automatiquement, sans nécessité d'une quelconque intervention de l'utilisateur. Ces indicateurs dynamiques sont en flash et sont générés par la plate-forme Open Laszlo. Spago BI dispose de son propre système de Workflow de publication, intégrant ainsi les différentes fonctions de création, de tests et de validation. La création permet également de créer des brouillons afin de les tester avant de les publier. La gestion des droits d'accès, de profils etc.. est également incluse et un référentiel de gestion de documents est également disponible, utilisant la norme JCR, afin de conserver les différentes versions de chaque état Aurélien CABROL - Mai 2008 Copyright ADULLACT Page 54 / 56

Montrer encore