Business Intelligence Prof. Mourad Oubrich Plan de Présentation Définition de la BI Chaine de la valeur de la BI Marché de la BI Métiers de la BI Architecture de la BI Technologie SAP BI Les priorités des DSI pour 2012 1
Données, Information, Connaissance Harris (1996) : Data => is facts, observations, or perceptions Information => involves manipulation of data Knowledge=> is a combination of information, context, and experience. Mack (1995) : Information = data + humain interpretation Durand (1992): Actes Assimiler Données Information Connaissance Exemple d illustration 1 C001090824000000001425000 C002071231000000189001250 Solde Date de dernière opération Code Client Données + Interprétation 2 = Information 3 Fouille de donnée Recherche des comptes Gelés : Tout compte présentant une date de dernière opération qui dépasse 1 an : Le client C002 est gelé (car sa date de DO : 31-12-2007) Interprétation 4 / Évaluation / Décision : Connaissance Recherche des causes du gel (historiques des événement), Génération des messages de relance des clients gelés Domaines d application de la BI Shipping and Logistics Human Resources Customer Service Budgeting and Planning Forecasting Marketing Sales Finance and Accounting 0% 10% 20% 30% 40% 50% 60% 70% (Gartner Research, 2009) 2
Platformes BI Mobile Devices Operational Application E-mail Corporate Portal Desktop Application Web Application 0% 10% 20% 30% 40% 50% Vendeurs de solution BI Business Intelligence (BI)? BI is a broad category of applications, technologies, and processes for gathering, storing, accessing, and analyzing data to help business users make better decisions (Wikipedia) BI is a set of technologies and processes that use data to understand and analyze business performance (Davenport and Harris, 2007). 3
Source Systems Many possible sources relational database, ERP, XML, Excel Many platforms IBM, Oracle Other issues which sources to use, granularity, etc. Data Integration Traditionally known as extract, transform, and load ETL Normally performed using commercial (DataStage, Informatica )and Open Source software (SAS Data Integration Studio, SQL Integration Service, PentahoData Integration, Talend Open Studio ) The data is transformed following business rules 4
Metadata Is data about the data Can be sourced from many different tools and systems Should be managed in a central directory Table Colonne Type donnée Description Client Id Client Numeric Client Nom Client Varchar(20) Produit Id Produit Numeric Data Quality Garbage in Garbage out Most companies have serious data quality problems Data profiling is the starting point for understanding the problems There are many reasons for dirty data Example Data Quality 5
Example Data Quality Data warehouse Architectures Enterprise data warehouse (Bill Inmon) Data mart bus (Ralph Kimball) BI Tools and Applications SQL queries ETL OLAP reports Excel (PivotTable) Dashboards Data mining 6
Why BI? Make more informed business decisions: Customer behavior analysis Marketing segmentation Sales strategies Forecasting Financial management BI Drivers Abundance of data ERP Systems Inexpensive storage Mature data warehouse technologies Powerful and easy to use analytical software Extraction Transformation Loading Data Warehouse 7
Architecture BI Qualité de donnée The Data Warehousing Institute estimates that data quality problems cost U.S. businesses more than $600 billiona year. Sources de problème de la qualité de donnée 80% 60% 40% 20% 0% Source: The Data Warehousing Institute Data entry by employees Data entry by customers Changes to your source system Data migration or conversion projects Mixed expectation by users External data Systems errors Other 8
ETL (1/1) Extraction: Consiste à lire et à copier les données sources dans une zone de préparation (stagingarea) pour les manipulations ultérieures. Transformation: Consiste au nettoyage des données (correction orthographique, résolution de conflits de domaine, traitement des éléments manquants, etc.). Loading: Charger dans le DW des masses de données nettoyées pour une utilisation à des fins décisionnelles. Technologie SQL Server Integration Services (SSIS) SAS Data Integration Studio Pentaho Data Integration ETL Informatica Talend Open Studio PL/SQL (Manuellement) Datamart Datamart est un sous-ensemble de données et ciblé sur un sujet unique ou un domaine d activité de l entreprise. Bases de production SGBD relationnel Data Marts Outils d alimentation Bases externes Data warehouse A data warehouse is a subject oriented integrated nonvolatile time variant collection of data in support of management s decisions. Subject Oriented Non Volatile Data Warehouse Integrated Time Variant Inmon 1992 27 9
Données Orientées Sujet Organiséesautourde sujetsmajeurscommeclient, Produit, Ventes, Promotion Donnéespour l analyseet la modélisationen vuede l aideà la décision, et non pas pour les opérationset transactions journalières Vuesynthétiquedes donnéesselonles sujetsintéressantles décideurs Données Intégrées Construit en intégrant des sources de données multiples et hétérogènes BD relationnelles, fichiers, enregistrements de transactions Nettoyage et intégration des données Consistence dansles nomsdes champs, le codagedes données issues de plusieurs sources La conversion se fait quand les donnés sont transférées dansle DW Données historisées L échellede temps dansle DW estbeaucoup plus longue quedansles BD BD opérationnelle: valeur courante des données DW : information dansuneperspective historique(ex: les 5 dernières années) Chaque structure dans le DW contient un élément décrivant le temps 10
Données Non Volatiles Stockage indépendant des BD opérationnelles Pas de misesà jour des donnéesdansle DW 2 actions surle DW Alimentation du DW à partir des données des BD opérationnelles Accès(lecture) de ces données Définition OLAP «Il s agit d une catégorie de logiciels axés sur l exploration et l analyse rapide des données selon une approche multidimensionnelle à plusieurs niveaux d agrégation» (Caron, 1998) Exploration et analyse rapide : OLAP vise à assister l usagerdansson analyseen lui facilitant l exploration de ses données et en lui donnant la possibilité de le faire rapidement Rapidité et facilité Avantages OLAP Facilité L usager n a pas à maîtriser des langages d interrogation et des interfaces complexes L usager interroge directement les données, en interagissant avec celles-ci Rapidité L usager devient opérationnel en très peu de temps L usager peut se concentrer sur son analyse et non sur le processus (les moyens utilisés pour l analyse). 11
MOLAP (OLAP Multidimensionnel) Les données détaillées de base ainsi que les données agrégées de DW sont stockées dans une base de données multidimensionnelle (souvent appelée cube ou hypercube) Le serveur MOLAP extrait les données de l hypercubeet les présente directement au module client ROLAP (OLAP Relationnel) Les données détaillées de base ainsi que les données agrégées de DW sont stockées sous forme de tables dans une base de données relationnelle La base de données relationnelle doit être structurée selon un modèle particulier (étoile, flocon, ) Le serveur extrait les données par des requêtes SQL et interprète les données selon une vue multidimensionnelle avant de les présenter au module client B a s e d e d o n n é e s re la tio n n e lle (é to ile o u flo c o n ) S e rv e u r R O L A P V u e m u ltid im e n s io n n e lle C lie n t O L A P HOLAP (OLAP Hybride) Les données détaillées de base de DW sont stockées dans une base de données relationnelle et les données agrégées sont stockées dans une base de données multidimensionnelle Le serveur HOLAP accède deux bases de données et les présente au module client, selon une vue multidimensionnelle. 12
SOLAP (Spatial OLAP) SIG + OLAP? : combinerdestechnologies spatialeset nonspatiales: SIG et OLAP Quelques logiciels combinant des fonctionnalités SIG et OLAP ont été mis sur le marché : CognosVisualizer ProClarity MapX AC OLAP Map SOLAP : Une plate-forme visuelle supportant l exploration et l analyse spatio-temporelle des données selon une approche multidimensionnelle à plusieurs niveaux d agrégation via un affichage cartographique, ou en diagramme statistique SOLAP (Spatial OLAP) 3 types de présentation des données : Descriptive Mixte Géométrique Dimension spatiale descriptive Maroc Dimension spatiale mixte Maroc Dimension spatiale géométrique Sud Centre Nord Casablanca Rabat Mesure numérique Ventes en $ Composantes OLAP L architecture OLAP consiste en trois services : Base de données (SQL, Access, Oracle ) Doit supporter les données agrégées ou résumées Doit posséder une structure multidimensionnelle (SGDB multidimensionnel ou relationnel) Serveur OLAP (ex. Designer BO) Gère la structure multidimensionnelle dans le SGBD Gère l accès aux données de la part des usagers Module client (ex. Desktop Intelligence BO ) : Permet aux usagers de manipuler et d explorer les données Affiche les données sous forme de graphiques statistiques et de tableaux 13
OLAP = cubes Un DW est basé sur une modélisation multidimensionnelle qui réprésenteles donnéesdansun cube Un cube, ventespar ex, permetde voirles donnéessuivant plusieurs axes d analyse Axe d analyse: Article, Promotion, Temps Des mesures: Somme des Ventes par article Modèle dimensionnel : Notion de Cube Un cube est un ensemble de mesures organisées selon un ensemble de dimensions (aussi hypercube). Ex. Un cube de ventes qui comprend : Les dimensions Temps, Produit, Magasin La mesure Ventes en $ Produit Magasin Temps 41 Table de faits (1/1) Un fait représente la valeur d une mesure, calculée, selon un membre de chacune des dimensions. Ex. «le coût des travaux en 1995pour la région 02 est 250 000 $» est un fait qui exprime la valeur de la mesure «coût des travaux» pour le membre «1995» du niveau «année» de la dimension «temps»et le membre «02» du niveau «région» de la dimension «découpage administratif». 42 14
Table de faits (1/2) Id Date Année Mois Jours Date Découpage administratif Id Région Numéro région. Suivi des travaux Id Date Id région Coût des travaux Mesures (1/1) Une mesure est un élément de donnée sur lequel portent les analyses, en fonction des différentes dimensions Ex. coût des travaux, nombre d accidents, ventes, dépenses Les mesuresles plus utilesd unetable de faitssont numérique, de valeur continue, et additive. Table de faitsdes Ventes journalières Clé date (CE) Clé produit(ce) Clé magasin (CE) Quantité vendue Montant des ventes Mesures Mesures (1/3) Additivité : Exemple: CA ; Quantité vendue Semi-additivité : Exemple: Nbre de contacts clients Non-additivité Exemple: Moyen des ventes du mois 15
Tables de dimension (1/1) Une dimension peut être définie comme un thème, ou un axe, selon lequel les données seront analysées Ex. Produit, Client, Temps Une dimension contient des membres organisés en hiérarchie, chacun des membres appartenant à un niveau hiérarchique (ou niveau de granularité) particulier. Ex. Pour la dimension Temps, les années, les mois et les jours peuvent être des exemples de niveaux hiérarchiques. 1998 est un exemple de membre du niveau Année 46 Tables de dimension (1/2) Table de dimension produit Clé produit (CP) Description du produit Description de la marque Description de la catégorie Description du rayon Description du type d emballage Taille de l emballage Description matière grasses Description type de régime Poids Unités de mesures de poids Types de stockage et bien d autres attributs Des attributs de dimensions nombreux permettent de varier les possibilité d analyse. Les meilleurs attributs sont textuelles. Ils doivent être des mots plutôt que des abréviations. La granularité des dimensions 16
Exemple de granularité des dimensions Exemple DW Dimension produit Clé produit (CP) Description du produit Description de la marque Description de la catégorie et d autres attributs Dimension magasin Clé magasin (CP) Numéro magasin Nom magasin Adresse magasin Ville du magasin Département du magasin Région du magasin Pays du magasin Continent du magasin et d autres attributs Faits de vente journaliers Clé date (CE) Clé produit (CE) Clé magasin (CE) Quantité vendue Montant vente (dh) Région du Magasin Centre Centre Centre Sud Sud Sud Description de la Marque Vitpropre Costal Ekla Vitpropre Costal Elka Dimension date Clé date (CP) Date Jour de la semaine Mois Année et d autres attributs Montant vente 1 233 2 239 848 2 097 2 428 6 33 Quantité Vendue 1 370 2 035 707 2 330 2 207 527 Opérations OLAP Roll up : Analyse ascendante«synthétiser» Vente par Géographie (ville > département > région > pays > continent) Drill down : Analyse descendante «détailler» Vente par Géographie (continent > pays > région > département > ville) Slice and dice : Projection et sélection Selection: Mois 04 Année 2008. Projection (Magasin, Produit) Pivot: Réorienterle cube Vente par Produit(Colonne) et Date (Ligne) Vente par Produit(Ligne) et Date (Colonne) Drill-across: Permet de passer d une mesure à l autreou de passer d un membre de dimension à un autre Ex. visualiser les Quantité Vendues au lieu du Montant des ventes Ex. visualiser les Ventes de Centre (Rabat ) au lieu de celles de Sud (Marrakech) 17
Schéma en étoile (Star Schema) Le schéma en étoile se compose de : Objet central, nommé table des faits, qui contient les faits Connecté à un certain nombre d axe d analyse ou de dimension, les tables de dimension, qui contiennent les attributs définissant chacun des membres des dimensions. 52 Schéma en étoile Dimension 1 Dimension 3 Temps Table de Faits Numbers de faits Product Dimension 2 Dimension 4 Magasin Promotion 53 Schéma en flocon (Snowflake Schema) Le schéma en flocon est dérivé du schéma en étoile où les tables de dimension sont normalisées. Avec ce schéma, chacune des dimensions est décomposée selon sa ou ses hiérarchie(s) 18
Schéma en flocon Quarter Season Time Sales Numbers Product Promotion Package Category 55 Schéma en constellation Le schéma en constellation est en fait composé de plusieurs schémas en étoile qui partagent des tables de dimension Schéma en constellation 19
Data Warehouse Etape 1 : Analyse Choisir le processus d affaires à modéliser Identifier les besoins Identifier les utilisateurs Identifier les sources de données Choisir le grain du processus d affaires Identifier la plus petite granularité Choisir les dimensions Identifier les dimensions à historier et leur type Choisir les mesures de la table de faits Identifier les indicateurs 58 Kimball 1998 L offre SAP Business Object Module ETL Nom commercial Tableaude bord Xcelsius Accès aux données Analyse et Reporting Diffusionen masse Qualité des données Description DataIntegrator C est la couche intégration de données de l offre BusinessObjects. Elle concerne l extraction, la transformation et le chargement des données de quelle que soit la source/cible et la fréquence. Issu du rachat de l ETL Acta. Designer Desktop Intelligence Xcelsius est un outil de mise en forme et de synthèse de données doté de fonctionnalités avancées permettant de transformer simplement tous types de données en tableau de bord interactif. La restitution des rapports est entièrement en HTML et en flash, donc accessible depuis un navigateur. Produitissu du rachat de Xcelsius. Designer destiné au concepteur d univers, couche sémantique d accès aux données d une base de données, qui évite aux utilisateurs finaux de faire face à la technicité de la structuration de la base. DesktopIntelligence permet d accéder aux données, de construire des rapports avec diverses mises en forme avant de les diffuser aux utilisateurs. Crystal Reports Crystal Reports est un puissant logiciel d'élaboration de rapport dynamique et interactif conçu pour les développeurs. Il permet de concevoir, d'explorer, de visualiser et de diffuser des rapports à partir du Web ou d'intégrer dans des applications d'entreprises. Data Quality Permetde vérifier si la donneés est correcte, consistente et complète par une analyse et profiling des sources de données. Offre issue du rachat de Fuzzy Informatik et FirstLogic Modules Business Object Designer Définition de la couche sémantique (univers) Classes d'objets et objets Conditions prédéfinis Liste de valeurs Objets personnels Jointures relationnelles Desktop Intelligence Accès aux données Analyse multi - dimensionnelle Filtres Rotation des dimensions Exploration Tableaux simples, croisés, graphiques, structure maître/détail Tris, ruptures, filtres, alerteurs, palmarès Combinaison de plusieurs requêtes Accès optimal au SGBD (micro-cube) Sauvegarde en format HTML Exportation des données sous divers formats 20