Le Business Intelligence Généralités et techniques Cédrine MADERA cedrinemadera@fr.ibm.com Adding Value Copyright IBM Corporation 2009
Le nouveau rôle de l'informatique est de définir et d'intégrer une architecture qui serve de fondation aux applications décisionnelles : le Data Warehouse.
Sommaire Jour 1 ƒintroduction au Data Warehouse ƒconstruction et conception d'un Data warehouse ƒarchitecture
PARTIE 1 Introduction au Data warehouse Adding Value Copyright IBM Corporation 2009
Sommaire Introduction au Data warehouse Concepts de base et définition Data mart Infocentre Les systèmes d'informations Terminologie
Pourquoi un Datawarehouse? ƒpour améliorer sa performance ƒvaloriser le capital d'information ƒgarder la trace d'événements de manière fiable et intègre ƒautomatiser de plus en plus les processus opérationnels. ƒpour accroître leur compétitivité et leur réactivité ƒ avoir une meilleur connaissance de ses clients, de sa compétitivité ou de son environnement.
A ce titre, le Data Warehouse doit être rapproché de tous les concepts visant à établir une synergie entre le système d'information et sa stratégie.
La mise en œuvre du Data Warehouse : un processus complexe. ƒune vision intégrée et transversale aux différentes fonctions de l'entreprise, ƒ une vision métier au travers de différents axes d'analyse, ƒune vision agrégée ou détaillée suivant le besoin des utilisateurs.
le data warehouse, point focal de l'informatique décisionnelle DONNEES SOURCES PRODUCTION SGBD/R PRODUCTION Fichier Plat SOURCE EXTERNE PRODUCTION SGBD/R SOURCE EXTERNE Extractio n Chargemen t RECEPTACLE Synchronisation Transformation Entrepôt de Données Vue Métier Vue Métier Vue Métier Vue Métier TABLEAU X DE BORD DATA MINING SQ S L ANALYSE SELECTION MULTIDIMENSIONNELL E
Le Data warehouse : ce n'est pas un produit c'est une solution...
Qu'est ce que le Data Warehouse? Support d'applications décisionnelles Data Sources Corporate sources External sources Data Warehouse Environment Caracteristiques et propriétés Organisation des données ayant l'objectif de rassembler tout ce qui peut être utile dans le support à la décision Entrepôt de données non volatile pour les données métiers, les transactions et les événements Construit sur la base d'un modèle de données 'temporel' Données intégrées, consolidées, sécurisées et nettoyées Source d'information pour toutes les applications d'aide à la décision
Data Warehouse Caracteristiques - Overview Organisation de données Les données dans le data warehouse sont organisées et orientées par métiers et par applications Entrepôt de données non volatile pour les données métiers, les transactions et les événements Un data warehouse doit être conçu et construit comme un entrepôt où les transactions, les évenements et les données métier sont non volatile Information intégrée, consolidée, dérivées et nettoyée Un data warehouse est un entrepôt de données logique provenant de sources de données disparates. Il doit être la seule source de données pour les utilisateurs Construit sur la base d'un modèle de données 'temporel' plusieurs techniques de modélisation peuvent être utilisées
Le Data Warehouse est une collection de données orientées metier, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision.
Definition du Datawarehouse ƒ Orientées metier ƒ Données intégrées ƒ Données historisées ƒ Données non volatiles
Corporate-wide, Subject-oriented Data Organization Données organisées orientées sujet Organisées autour de domaine métier customers, sales, supplies, products,... Basée sur une architecture de données organisée en plusieurs couches Données avec des règles de gestion. Data and rules consistent across the whole enterprise Modèle de donnée orienté application Organisé sur la base de un ou plusieurs modèle conceptuel pour les différents domaine d'application. Logiquement et /ou physiquement séparés des bases de données. Données adaptées à la conservation de l'information.
Non-Volatile Store of Data, Transactions and Events Non-volatile store of data, transactions and events Corporate data, external data Business transactions, represented by one or more, related data changes For example, 'a cash withdrawal', 'reception of a particular goods delivery', 'a customer sale' Notice that a business transaction usually is associated with an event (the cause of the transaction) Corporate and external (business) events, represented by event records For example, "start of a sales promotion campaign", 'election of a president', '4th of July',... Business transactions and events are associated with state changes in the source data Business transactions are usually not systematically recorded in the OLTP sources
Integrated, Consolidated and Cleansed Data and Derived Information Data source s OLTP Controlled and managed Data Warehouse Environment Controlled and managed environment Data Warehouse Integrated, consolidation and cleansed data From disparate sources Sources have different temporal characteristics Source data can have different meanings and interpretations Consolidation done once for all data elements Derived Information As needed by the end-users From a single, consistent store Shielded from disparate sources Derived information can be made persistent Information derivation can be automated
Temporal Modeling 'Styles' Cumulative snapshot OLT P Day 1 Day 2 Day 3...... Cumulative snapshot with rolling summarization OLTP Day 1 Day 2 Day 3... Day 10 Day 11Day 12... Month 2 Day 21 Day 22 Day 23 Continuous temporal model the best suited for the CDW but also the most complicated to make Month 3 OLTP John Main Street Jan 96, now Mary Hwy 55 Feb 55, March 88 Mary Tiny road March 88, now Paul Route 66 June 77, Jan 88
Data Mart OLTP
Définition ƒle Data Mart est une base de données destinée à quelques utilisateurs d'un département ƒpetite structure très ciblée et pilotée par les besoins utilisateurs ƒla même vocation que le Data Warehouse (fournir une architecture décisionnelle) ƒnombre d'utilisateurs plus restreint
Data Mart - Caracteristiques Caracteristiques d'un Data Mart Un data mart a un objectif restreint taille, cycle de vie, utilisation Un data mart supporte tous les types de données (dérivées, agrégées, détaillées) pour répondre aux besoins du domaine métier Un data mart est souvent fait pour répondre à des analyses multi-dimensionnelles La conception d'un Data Mart tend à être dépendante de l'outil choisit pour la restitution ou l'analyse
Avantages d'un Data Mart Satisfait les besoins d'un groupe de travail ou un département Permet une implémentation et un ROI rapide Implémentation abordable Attention au 'prototype' permanent Intégre trés bien tous les outils et les produits complémentaires
Un sytème décisionnel basé sur une strategie de féderation de data mart Inconvénients potentiels Chaque Data Mart est modelisé à partir des sources de données Pas de sources consolidées communes Pas de données consolidées et nettoyées communes vital mais trop coûteux Croissement des résultats très difficile à réaliser surtout quand le nombre de data mart augmente Data source s OLTP
Erreurs communement faites Un Data Mart n'est pas un Data Warehouse L'objectif d'un data mart est d'avoir une application décisionnelle donnée tandis qu'un data warehouse est une conféderation de toutes les données Un Data Mart n'est pas juste un petit Data Warehouse Si parfois la 'taille' d'un Data mart est effectivement plus petite que celle d'un Data warehouse, ce n'est pas un critère de différentiation Une collection de Data Marts n'est pas un Data Warehouse ne pas croire qu'en 'féderant ' des data marts on obtienne un Data warehouse Un Data warehouse n'est pas un Système d'aide à la Décision un SIAD comprend aussi bien le Data warehouse, que les applications décisionnelles, que l'environnement d'analyse et d'interrogation
Les mythes du Data Mart Les Data Marts sont petits Les Data Marts sont moins complexes et plus faciles à déployer que les Data Warehouse Les Data Marts peuvent évoluer facilement vers un Data Warehouse Les différents Data Marts indépendants peuvent être dynamiquement couplés pour se métamorphoser en Data Warehouse Les Data Marts ne se résument qu'à une seule information métier (exemple : ventes) Les Data Marts sont plus flexibles que les Data Warehouse Les Data Marts sont un nouveau concept.
Finalités des data marts et data warehouse Data Warehouse Data Mart Cible utilisateur Toute l'entreprise Département Implication du service Elevée Faible ou moyen informatique Base de données d'entreprise SQL type serveur SQL milieu de gamme, bases multidimensionnelles Modèles de données A l'échelle de Département l'entreprise Champ applicatif Multi sujets, neutre Quelques sujets, spécifique Sources de données Multiples Quelques unes Stockage Base de données Plusieurs bases distribuées
Commencer par un Data Mart oui mais... ƒimpliquer les utilisateurs ƒattention à la cohérence des données ƒbannir les redondances ƒféderer des data mart n'est pas facile ƒne pas construire de data mart isolé ƒattention à la prolifération de data mart 'sauvages' ƒavoir une vision de l'avenir...(modèle)
Donc le Data Mart peut préparer au Data Warehouse. Mais il faut penser grand, avenir, et adopter des technologies capables d'évoluer.
Infocentre et Data Warehouse
Définition L'infocentre est une collection de données orientées sujet, intégrées, volatiles, actuelles, organisées pour le support d'un processus de décision ponctuel. Le Data Warehouse est une collection de données orientées sujet, intégrées, non volatiles, historisées, organisées pour le support d'un processus d'aide à la décision.
L'infocentre ƒchaque nouvelle valeur remplace l'ancienne valeur ƒpas de gestion d'historique des valeurs. ƒprendre des décisions opérationnelles basées sur des valeurs courantes ƒprocessus d'alimentation simple. ƒ permettre aux utilisateurs d'accéder à leur données dans leurs propres termes.
Tableau de comparaison entre infocentre et Data Warehouse Infocentre Collection de données Orientées sujet Intégrées Volatiles Actuelles Organisées pour le support d'un processus de décision ponctuelle Outil Data Warehouse Collection de données Orientées sujet Intégrées Non volatiles Historisées Organisées pour le support d'un processus d'aide à la décision Architecture
Les systèmes d'information
LA REALITE DES SYSTEMES D'INFORMATIONS ƒles données contenues dans ces systèmes sont : Eparpillées Peu structurées pour l'analyse Focalisées pour améliorer le quotidien Utilisées pour des fonctions critiques
Différences entre données du système de production et données décisionnelles (1) Données opérationnelles Orientées application, détaillées, précises au moment de l'accès Mise à jour interactive possible de la part des utilisateurs Accédées de façon unitaires par une personne à la fois Cohérence atomique Haute disponibilité en continu Données décisionnelles Orientée activité (thème, sujet), condensées, représentes des données historiques Pas de mise à jour interactive de la part des utilisateurs Utilisées par l'ensemble des analystes, gérées par sous-ensemble Exigence différente, haute disponibilité ponctuelle Exigence différente, haute disponibilité ponctuelle
Différences entre données du système de production et données décisionnelles (2) Données opérationnelles Données décisionnelles Uniques (pas de redondance en théorie) Peuvent être redondantes Structure statique, contenu variable Structure flexible Petite quantité de données utilisées par un traitement Réalisation des opérations au jour le jour Grande quantité de données utilisée par les traitements Cycle de vie différent Utilisées de façon répétitive Utilisée de façon aléatoire
Différences entre système de production et data warehouse Critère Niveau de détail des informations utilisateurs Utilisateurs Données figées Opérations sur les données Système de production Très détaillé Une ou quelques fonctions de l'entreprise Non - évolution en temps réel Data Warehouse Synthétique, parfois détaillé Plusieurs fonctions de l'entreprise Oui - archivage Historique Non Oui Ajout/mise à jour/ consultation Consultation uniquement
Terminologie
Terminologie ƒdss ƒconcept OLAP ƒoltp ƒmeta-data
Decision Support System - Definition Decision Support System "A computing system designed for supporting the decision support processes (planning, managerial and operational) throughout a company" This definition encompasses "End-user Computing Systems (EUCS), 'Executive Information Systems' (EIS), 'On-line Analytical Data Processing Systems' Business (OLAP), Data Mining Systems,... Context Manage Plan Business Data Operate
Decision Support Processing - A "Continuum" of Information Processing Activities Select, manipulate and report "traditional" Q&R, OLAP Regression analysis Statistical analysis Correlation analysis Verifying and analyzing known or suspected correlations between events, transactions,... Time-series analysis Trend analysis Analysis of seasonal/cyclic variations Hypothesis testing "What-if" analysis, impact analysis Data Mining Discover unknown or unsuspected correlations, associations,... Query and Reportin g Track Answe r Verificatio n Mode Decisio n Support Data Analysi s Verify Analyze Discover y Mode Data Minin g Discover
Using the Data Warehouse for Decision Support Processing Query Complexity, Data Volumes & CPU Requirements Query and Reporting Standard queries Summary reports Detailed Reports Mathematical & Statistical Functions Multi-dimensional Reports Graphs Spreadsheets Data Analysis Multi-Dimensional Data Analysis Slice and Dice Drill-down and Roll-up Pivoting Dynamic Data Analysis Available Tools and Technology Data Mining Induction/Deduction Generalization Classification Association Pattern Recognition Clustering Sequential Patterns
Le concept OLAP On Line Anlytical Processing
Les 12 principes de l'olap ƒvue multidimensionnelle ƒtransparence du serveur OLAP à différents types de logiciels ƒaccessibilité à de nombreuses sources de données ƒperformance du système de Reporting ƒarchitecture Client/Serveur ƒdimensions Génériques ƒgestion dynamique des matrices creuses ƒsupport multi-utilisateurs ƒcalculs à travers les dimensions ƒmanipulation intuitive des données ƒsouplesse et facilité de constitution des rapports ƒnombre illimité de niveaux d'agrégation et de dimensions
OLAP Technical Architecture Multi-dimensional OLAP (MD- OLAP) DD W Data Warehouse or Data Sources OLAP server with MDDB data store (Datamart) Clien t Presentatio n Services Can be combined into fat MD- OLAP
OLAP Logical Architecture and Service Components Logical architecture OLAP "View" Data Store Technology Service components Presentation services OLAP services Data Store services OLAP "View" Data Warehouse or Datamart Data Store Services OLAP Services Clien t Presentation Services
OLTP On Line Transactionnel processing
OLTP ƒgarantir la persistance des données ƒminimisation des redondances ƒorienté processus ƒvise la productivité
Différences OLTP / OLAP OLTP Atomique actuel orienté processus mise à jour en ligne transactions nombreuses mais simple OLAP agrégé historisé orienté sujet mise à jour lors des phases de chargement processus complexes
OLTP et OLAP - Des rôles différents On-Line Transaction Processing On-Line Analytical Processing Enregistre les opérations Processus défini Deux dimensions Intégrité des données Détail des opérations GESTION des affaires Définit des actions Processus itératif Multi-dimensions Consolidation de données Synthèse d'informations CONDUITE des affaires Gestion Planification
PARTIE 2 Construction et conception d'un Data warehouse Adding Value Copyright IBM Corporation 2009
ƒintroduction au Data Warehouse ƒconstruction et conception d'un Data warehouse ƒarchitecture
Construction et conception d'un Data warehouse ƒconstruction d'un Data warehouse ƒconception d'un Data warehouse ƒadministration des données
Contruction du Data Warehouse ƒles Applications ƒles composants fonctionnels ƒles infrastructures
Les applications ƒdoivent rester maîtrisables ƒfournir des résultats tangibles ƒpérimètre clairement définis
Les composants fonctionnels ƒl'acquisition ƒle stockage ƒ l'accès
L'acquisition ƒextraction : collecter les données utiles dans le système de production ƒpréparation :plusieurs technologies sont utilisables les passerelles, fournies par les éditeurs de base de données, les utilitaires de réplication, utilisables si les systèmes de production et décisionnel sont homogènes les outils spécifiques d'extraction (prix élevé). ƒchargement :maîtriser la structure du SGBD
Le stockage ƒle composant de base est le SGBD ƒla structuration physique des données est très importante ƒle SGBD apporte la transparence à l'évolution matérielle, l'indépendance ainsi que la transparence à l'évolution des systèmes d'exploitation.
Les infrastructures ƒinfrastructure technique ƒinfrastructure opérationnelle
Infrastructure technique ƒensemble des composants matériels et logiciels (à associer aux composants fonctionnels : alimentation, stockage et accés)
Infrastructure opérationnelle ƒensemble des procédures et des services pour administrer les données, gérer les utilisateurs et exploiter le sytème
Pour la construction d'un Data Warehouse, de manière générale, il faut : 1. Bien connaître les métiers utilisateurs Impliquer les utilisateurs dans les projets Former l'utilisateur pour l'aider à comprendre la logique du Data Warehouse Avoir un chef de projet orienté utilisateur. Faire participer l'utilisateur à la définition et à l'évolution des méta-données, 2. Assurer une véritable conduite de projet 3. Commencer petit et voir grand 4. Gérer l'évolutivité
Conception du Data warehouse
La conception ƒ Les évolutions technologiques ƒ La stratégie de l'entreprise ƒ L'amélioration continue ƒ La maturité de l'entreprise
Trois phases pour la conception : ƒ Définir le pourquoi du Data Warehouse et les objectifs à atteindre (impliquer les utilisateurs). ƒ Définir l'infrastructure technique et organisationnelle du Data Warehouse. ƒmettre en œuvre les applications.
Etude strategique ƒinformer et motiver les personnes concernées dans l'entreprise. ƒ Impliquer les managers, les équipes opérationnelles, les équipes informatiques : phase d'identification et de compréhension des enjeux métier/entreprise. ƒ Identifier les projets Data Warehouse.
Plan d'action ƒvérifier la faisabilité de chaque projet (s'assurer de l'existence et de la qualité des données, des possibilités techniques, des possibilités organisationnelles). ƒ Estimer les ressources pour chaque projet, les besoins. ƒséquencer et planifier les projets.
L'infrastructure ƒinfrastructure technique ƒinfrastructure organisationnelle
Infrastructure technique ƒ Les fournisseurs ƒles outils ƒ Comment sera utilisé le Data Warehouse, par qui, comment sera structuré l'organisation qui l'exploitera. ƒ Faut-il une architecture centralisé (Data Warehouse), distribuée (plusieurs Data Mart), ou une architecture répliquée (un Data Warehouse et plusieurs Data Mart). ƒla structure de stockage, sera-t-elle relationnelle, multidimensionnelle, hybride (Data Warehouse en relationnel, Data Mart en multidimensionnel). ƒchoisir le matériel : selon les volumes envisagés, les utilisateurs concernés, l'architecture visée, la flexibilité attendue. ƒorganiser l'administration des systèmes et la gestion de la sécurité.
Infrastructure organisationnelle ƒ Déterminer la logistique et l'organisation nécessaires à la concrétisation des initiatives. ƒrépartir les tâches entre les équipes de développement et les équipes d'exploitation : déterminer l'alimentation du Data Warehouse, l'administration. ƒdéterminer les flux d'information entre le Data Warehouse et les utilisateurs.
Mise en oeuvre des applications ƒ la spécification, ƒ la conception, ƒ la mise en œuvre et l'intégration, ƒle déploiement et la mise en place des accompagnements, ƒles mesures.
Administration des données ƒles métadonnées ƒle referentiel du data warehouse ƒla mise en oeuvre
Définition d'une méta-donnée Type d'information Sémantique Signification Que signifie la donnée Origine D'où vient-elle, où, par qui est-elle créée ou mise à jour Règle de calcul Règle d'agrégation Stockage, format Règle de calcul, de gestion Périmètre de consolidation Où, comment est-elle stockée, sous quel format Utilisation Programmes informatiques qui l'utilisent, Machines : comment et sur lesquelles, à disposition, Temps de conservation
Réferentiel du Data warehouse ƒassurer la cohésion du système : Respecter la cohérence et la fiabilité des informations. Unifier la représentation des données. Respecter la cohérence des concepts. Vérifier la non redondance des informations. ƒsimplifier techniquement les systèmes d'information : Diminuer le nombre de fichiers. Unifier la saisie et le stockage des informations. Organiser les mises à jour et la diffusion des informations.
La mise en oeuvre ƒla sécurité ƒla gestion des performances ƒles bacths
PARTIE 3 L ARCHITECTURE Adding Value Copyright IBM Corporation 2009
ƒintroduction au Data Warehouse ƒconstruction et conception d'un Data warehouse ƒarchitecture
Architecture ƒchoix d'architecture & d'implementation ƒarchitecture en 3 couches
Choix d'architecture ƒarchitecture warehouse centrale ƒarchitecture de datamart indépendant ƒarchitecture de datamart interconnectés
Exemple d'implémentation : scénario 1 Pas de datamart. Les utilisateurs accèdent au datawarehouse. External External Data Data Donnés Externes Reconciliation / Nettoyage / Transformation Enterprise Data Warehouse Détail Historiques Aggrégats data marts Operational Operational Data Data Données Opérationelles Selection / Aggregation / Propagation
Implémentation scénario 1 ƒavantages Gain d'espace disque : l'information n'est stockée qu'une fois Pas de problème de synchronisation liées à la maintenance de plusieurs copies de données Recommandé lorsque les besoins de l'organisation sont génériques ƒinconvénients Les données ne sont pas organisées pour satisfaire les besoins d'un ensemble d'utilisateurs spécifique
Exemple d'implémentation : scénario 2 Pas de datawarehouse. Les utilisateurs accèdent à différents datamarts. External External Data Data Donnés Externes Operational Operational Data Data Données Opérationelles Reconciliation / Nettoyage / Transformation Enterprise Data Warehouse Détail Historiques Aggrégats Selection / Aggregation / Propagation data marts
Implémentation scénario 2 ƒavantages Les datamarts ont été optimisés pour les besoins (parfois uniques) d'utilisateurs spécifiques Recommandé en cas de besoins spécifiques de groupes d'utilisateur qui n'ont pas d'obligations de partager des informations communes ƒinconvénients Dupplication des données (consommation d'espace disque, maintenances multiples) Complexité de l'alimentation : m sources pour n datamarts Risques d'incohérences entre les datamarts
Exemple d'implémentation : scénario 3 Les utilisateurs accèdent à différents datamarts. Possibilité d'accès aux données détails si besoin Données Externes External Data Réceptacle Nettoyées Détail Reconciliation / Nettoyage/ Transformation / Derivation Enterprise Selection / Aggregation / Data Warehouse Propagation data marts virtuels Operational Operational Data Data Données Opérationelles Détails Aggrégées Historiques data marts
Implémentation scénario 3 ƒavantages Option la plus "propre" Alimentation des datamarts simplifiée : source unique Séparation claire entre les niveaux réconciliation / nettoyage transformation / dérivation propagation Recommandé en cas de nécessité de partage d'informations entre les utilisateurs de différents datamarts ƒinconvénients Consommateur en espace disque Gestion plus complexe Trop lourd pour les cas simples
Les 3 composants de l'architecture d'un DWH ƒarchitecture des données (le quoi) ƒarchitecture technique (le comment) ƒarchitecture de l'infrastructure (le où)
Architecture des données (le quoi) liste des données importantes zones de stockage les sources conception du modèle de données ( logique et physique) les agrégations, les hiérarchisations... définition du niveau de détail volume de données périodicité des traitements
Architecture technique (le comment) ƒprocessus et outils qui s'appliquent aux données ƒcomment récupérer les données sources ƒcomment leur donner une forme répondant aux besoins ƒcomment les placer à un endroit accéssible ƒles outils, le code, les utilitaires... ƒrégulation et direction du flux des données
Architecture de l'infrastructure (le où) ƒdiagnostic de l'infrastructure informatique existante ƒ définitions des plates_ formes, des cables, du réseau ƒle matériel
Valeur ajoutée de l'architecture Communication Planification Flexibilité et maintenance Apprentissage Productivité et réutilisation
FIN Jour 1 Adding Value Copyright IBM Corporation 2009