Datawarehouse and OLAP



Documents pareils
Bases de Données Avancées

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

et les Systèmes Multidimensionnels

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Intégration de données hétérogènes et réparties. Anne Doucet

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Introduction à la B.I. Avec SQL Server 2008

Les Entrepôts de Données. (Data Warehouses)

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

LES ENTREPOTS DE DONNEES

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

Construction d un EDD avec SQL 2008 R2. D. Ploix - M2 Miage - EDD - Création

Les Entrepôts de Données

Introduction aux entrepôts de données (2)

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Entrepôt de données 1. Introduction

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Business Intelligence : Informatique Décisionnelle

AXIAD Conseil pour décider en toute intelligence

Présentation du module Base de données spatio-temporelles

Business & High Technology

Département Génie Informatique

Introduc;on à l intelligence d affaires et aux entrepôts de données

Chapitre 9 : Informatique décisionnelle

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Bases de Données OLAP

Module BDR Master d Informatique (SAR)

QU EST-CE QUE LE DECISIONNEL?

SQL SERVER 2008, BUSINESS INTELLIGENCE

Cours Bases de données

Technologie data distribution Cas d usage.

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Introduction au domaine du décisionnel et aux data warehouses

Théories de la Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365

Les entrepôts de données

La problématique. La philosophie ' ) * )

Information utiles. webpage : Google+ : digiusto/

L INTELLIGENCE D AFFAIRE DANS LA VIE QUOTIDIENNE D UNE ENTREPRISE

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

//////////////////////////////////////////////////////////////////// Administration bases de données

SWISS ORACLE US ER GRO UP. Newsletter 5/2014 Sonderausgabe. OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features

BUSINESS INTELLIGENCE

Bases de données réparties: Fragmentation et allocation

Oracle Décisionnel : Modèle OLAP et Vue matérialisée D BILEK

Ici, le titre de la. Tableaux de bords de conférence

ETL Extract - Transform - Load

Techniques d optimisation des requêtes dans les data warehouses

Bases de données multidimensionnelles et mise en œuvre dans Oracle

Du 10 Fév. au 14 Mars 2014

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Plan de formation : Certification OCA Oracle 11g. Les administrateurs de base de données (DBA) Oracle gèrent les systèmes informatiques

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

Entrepôt de Données. Jean-François Desnos. ED JFD 1

Les attentes du marché

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Architectures d'intégration de données

Business Intelligence avec SQL Server 2012

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Bases de données Cours 1 : Généralités sur les bases de données

NF26 Data warehouse et Outils Décisionnels Printemps 2010

et les Systèmes Multidimensionnels

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Bases de données cours 1

Notes de cours : bases de données distribuées et repliquées

Bases de Données OLAP. Chapitre 2 Architecture. La Perspective d Oiseau. Perspective Détaillée ... Hiver 2011/2012

SAP BusinessObjects Web Intelligence (WebI) BI 4

Méthodologie de conceptualisation BI

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

CHAPITRE 1 ARCHITECTURE

SQL Server 2014 Administration d'une base de données transactionnelle avec SQL Server Management Studio

SQL Server 2012 et SQL Server 2014

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

Domaines d intervention

Evry - M2 MIAGE Entrepôt de données

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Urbanisation des SI-NFE107

27 janvier Issam El Hachimi Ludovic Schmieder

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

Evry - M2 MIAGE Entrepôt de données

BI Haute performance. Jean-François Vannier Responsable Infrastructures Décisionnelles, Bull

SQL Server SQL Server Implémentation d une solution. Implémentation d une solution de Business Intelligence.

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Evry - M2 MIAGE Entrepôts de Données

Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques

TP Bases de données réparties

Transcription:

Datawarehouse and OLAP Datawarehousing

Syllabus, materials, notes, etc. See http://www.info.univ-tours.fr/ marcel/dw.html

today architecture ETL refreshing warehousing projects

architecture architecture

architecture architecture que faut-il faire? 1. regrouper les données sources 2. concevoir le schéma de l entrepôt 3. remplir l entrepôt 4. maintenir l entrepôt

architecture architecture

architecture architecture vue logique de l entrepôt : une hiérarchie de dépôts ODS Operational Data Store regroupe les données intégrées récupérées des sources CDW Corporate Data Warehouse regroupe les vues agrégées

architecture 4 niveaux de construction 1. préparation des données 2. intégration des données 3. agrégation des données 4. personnalisation des données

architecture préparation et intégration des données jusqu à 80 % du temps de développement d un entrepôt 1. préparation 1.1 identification des données à extraire des sources 1.2 extraction de ces données 1.3 nettoyage des données extraites 1.4 archivage éventuel 2. intégration 2.1 définition d un format commun 2.2 transformation des données vers ce format 2.3 stockage dans l ODS

architecture agrégation et personnalisation préparation à la restitution agrégation calcul de vues agrégées définition des indexes stockage dans le CDW personnalisation construction de magasin de données (data marts) construction de cubes de données construction des présentations requises par les utilisateurs

architecture ETL

architecture ETL tools (Extract Transform Load) support et/ou automatisation des tâches suivantes : extraction nettoyage analyse transformation chargement méthode d accès aux différentes sources recherche et résolution des inconsistances dans les sources e.g., détection de valeurs non valides ou inattendues entre différents formats, langages, etc. alimentation de l ODS

architecture extraction un extracteur (wrapper) est associé à chaque source exemple : ODBC Oracle OCI JDBC

architecture nettoyage et transformation

architecture nettoyage 5 à 30 % des données des BD commerciales sont erronées une centaine de type d inconsistances ont été répertoriées but : résoudre le problème de consistance des données au sein de chaque source

architecture types d inconsistances présence de données fausses dès leur saisie faute de frappe différent format dans une même colonne texte masquant de l information (e.g., N/A ) valeur nulle incompatibilité entre la valeur et la description de la colonne duplication d information persistance de données obsolètes confrontation de données sémantiquement équivalentes mais syntaxiquement différentes

architecture nettoyage un outil de nettoyage comprend des fonctions d analyse des fonctions de normalisation des fonctions de conversion des dictionnaires de synonymes ou d abréviations

architecture normalisation, conversion, dictionnaires,... définition de table de règles remplacer valeur par Mr M monsieur M mnsieur M masculin M M M Msieur M M. M Monseur M utilisation d expression régulière, suppression de doublons, de valeur nulle,...

architecture transformation but : suppression des incohérences sémantiques entre les sources pouvant survenir lors de l intégration des schémas des données

architecture intégration des schémas problème de modélisation différents modèles de données sont utilisés problèmes de terminologie un objet est désigné par 2 noms différents un même nom désigne 2 objets différents incompatibilités de contraintes 2 concepts équivalents ont des contraintes incompatibles

architecture intégration des schémas conflit sémantique choix de différents niveaux d abstraction pour un même concept conflits de structures choix de différentes propriétés pour un même concept conflits de représentation 2 représentations différentes choisies pour les mêmes propriétés d un même objet

architecture intégration des schémas demande une solide connaissance de la sémantique des schémas peu traité par les produits du marché nombreux travaux de recherche généralement faite à la main...

architecture intégration des schémas

architecture intégration des schémas les heuristiques de réconciliation de schémas se basent sur l existence de similarités entre : noms de tables et d attributs types de données instances structure des schémas contraintes d intégrité

architecture équivalence de champs deux chaînes sont équivalentes si l une est le préfixe de l autre pour 2 champs c 1 et c 2 n(c i ) := nombre de chaînes de c i n e := le nombre de chaînes équivalentes compatibilité := n e /((n(c 1 ) + n(c 2 ))/2)

architecture équivalence d enregistrements fusion d enregistrements pour tous les tuples concernés si noss1 = noss2 et nom1 = nom2 fusionner personne1 et personne2 si (noss1 = noss2 ou nom1 = nom2) et adresse1 = adresse2... fusionner personne1 et personne2

architecture chargement définitions de vues relationnelles sur les données sources matérialisation des vues dans l entrepôt plus tris consolidations (pré-agrégation) indexation partitionnement des données enregistrement de méta-données...

architecture méta-données

architecture méta-données définition : toutes les informations nécessaires pour la construction et l administration de l entrepôt

architecture méta-données informations présentes dans l entrepôt données source données dérivées, dimensions, hiérarchies contraintes d intégrités schéma de l entrepôt indexes, partitions requêtes prédéfinies...

architecture méta-données informations d administration règles de nettoyage, transformation, extraction politique de rafraîchissement sécurité monitoring, statistiques traçage des données...

architecture méta-données chaque composant de l entrepôt fournit des méta-données doit connaitre celles des autres composants doit savoir où ces méta-données sont situées une BD est dédiée aux méta-données

architecture méta-données exemple de standard : Common Warehouse Metamodel proposé par l OMG basé notamment sur UML, XML conçu par IBM, Unisys, NCR, Oracle, Hyperion,...

architecture architecture typique (1) peut être distribué pour des raisons de taille équilibrage de charge disponibilité ce qui suppose une réplications des méta-données administration centrale

architecture architecture typique (2) fédération de petits entrepôts (data marts) lorsqu un seul entrepôt est trop couteux un data mart particulier à un département/secteur stockage décentralisé administration décentralisée

architecture data mart

architecture data warehouse / data mart caractéristiques data warehouse data mart utilisateur toute l entreprise un département BD SQL type serveur BD MD, OLAP échelle du modèle de données entreprise département champs applicatifs multi-sujet quelques sujets sources de données multiples quelques unes stockage plusieurs BD une BD distribuées taille > 100 Go 10 à 20 Go temps de mise en place 9 à 18 mois 6 à 12 mois coût plusieurs MF 500 KF à 3 MF matériel unix NT petit serveur

refreshing refreshing

refreshing refreshing

refreshing refreshing 3 approches 1. reconstruction périodique la plus simple la plus longue suppose une longue période d indisponibilité

refreshing refreshing 2. mise à jour périodique volume de données concerné plus petit algorithmes plus complexes que pour une reconstruction 3. mise à jour instantanée nécessite de nombreuses communications

refreshing ne pas reconstruire rafraîchissement périodique et de manière incrémentale prise en compte des changements des sources suppression des données anciennes

refreshing détection des changements dépend des sources triggers utilisés pour déclencher la mise à jour exploitation des logs des changements extraction des changements pertinents par requêtes comparaison de différentes images de la sources

refreshing comparaison d image de la source : principe F1 et F2 deux images de la source ensemble d enregistrements de la forme K,B calculer F1 - F2 et F2 - F1 déduire insert,k,b et delete,k,b calculer la jointure de F1 et F2 sélectionner les enregistrements où la partie B contient des différences déduire update,k,b

refreshing maintenance de vue équipe de Stanford, conférence SIGMOD 95 contexte la source signale les mises à jour l entrepôt questionne la source la source envoie les données concernées l entrepôt met la vue à jour

refreshing maintenance de vue cas simple une seule vue une seule source vue définie par V = π proj (σ cond (r 1 r 2... r n ))

refreshing extraction de changements par requête sources r 1 W X r 2 X Y 1 2 2 4 vue de l entrepôt V = π Y (r 1 r 2 ) l entrepôt contient MV = {(4)} la source prévient l entrepôt : insertion de (2,3) dans r 2 l entrepôt envoie la requête : Q 1 = π Y (r 1 (2,3))

refreshing extraction de changements par requête sources r 1 W X r 2 X Y 1 2 2 4 2 3 vue de l entrepôt V = π Y (r 1 r 2 ) l entrepôt contient MV = {(4),(3)}

refreshing extraction de changements par requête sources r 1 W X r 2 X Y 1 2 entrepôt V = π W,Y (r 1 r 2 ) contenant MV = la source prévient l entrepôt : insertion de (2,3) dans r 2 l entrepôt envoie la requête : Q 1 = π W,Y (r 1 (2,3)) la source prévient l entrepôt : insertion de (4,2) dans r 1

refreshing extraction de changements par requête sources r 1 W X r 2 X Y 1 2 2 3 4 2 évaluation de Q 1 : MV = {(1,3),(4,3)} l entrepôt envoie la requête : Q 2 = π W,Y ((4,2) r 2 ) évaluation de Q 2 : MV = {(1,3),(4,3),(4,3)}

refreshing solutions possibles verrouillage des sources pour la mise à jour de l entrepôt contraignant pour les sources recalcul de la vue coûteux en temps et en ressources garder des copies de chaque relation impliquée dans une vue coûteux en espace et en propagations de mises à jour

refreshing en fait problème : requêtes évaluées à la source après changement de l état de la source compensation à la demande (eager compensating) : compenser l effet de la mise à jour par requêtes Eager Compensating Algorithm (ECA)

refreshing notations U : mise à jour Q : requête MV : vue matérialisée A : résultat d une requête t : tuple r : relation ss : état courant de la source V < U > : expression V où une relation est remplacée par U UQS : requêtes envoyées non traités

refreshing tuples signés +t : tuple inséré ou existant -t : tuple supprimé pos(r) = {+t r} neg(r) = { t r} r 1 + r 2 = (pos(r 1 ) pos(r 2 )) (neg(r 1 ) neg(r 2 )) r 1 r 2 = r 1 + ( r 2 )

refreshing événements S up : mise à jour sur la source S qu : requête sur la source W up : mise à jour pour l entrepôt W ans : réponse pour l entrepôt

refreshing ECA : à la source S up i S qu i exécuter la mise à jour U i envoyer U i à l entrepôt signaler l événement W up i à l entrepôt recevoir la requête Q i A i = Q i [ss i ] envoyer A i à l entrepôt signaler l événement W ans i à l entrepôt

refreshing ECA : à l entrepôt COLLECT = UQS = W up i recevoir la mise à jour U i Q i = V < U i > Q j UQS Q j < U i > envoyer Q i à la source UQS = UQS + Q i signaler l événement S qu i à la source W ans i recevoir la réponse A i COLLECT = COLLECT + A i si UQS = alors MV = MV + COLLECT COLLECT = sinon rien

refreshing extraction de changements par requête sources r 1 W X r 2 X Y 1 2 entrepôt V = π W,Y (r 1 r 2 ) contenant MV = la source prévient l entrepôt : insertion de (2,3) dans r 2 l entrepôt envoie la requête : Q 1 = π W,Y (r 1 (2,3)) la source prévient l entrepôt : insertion de (4,2) dans r 1

refreshing extraction de changements par requête sources r 1 W X r 2 X Y 1 2 2 3 4 2 l entrepôt envoie la requête : Q 2 = π W,Y ((4,2) r 2 ) π W,Y ((4,2) (2,3)) évaluation de Q 1 : MV = {(1,3),(4,3)} évaluation de Q 2 : MV = {(1,3),(4,3)}

refreshing ECA k si la définition de la vue contient les clés des sources exemple : r 1 [W,X ], r 2 [X,Y ] et V = π W,Y (r 1 r 2 ) cas 1 : W non clé, cas 2 : W clé les suppressions sont faites à l entrepôt la clé permet de retrouver les tuples à supprimer I (r 1 ) = {(3,1),(3,2)}, I (r 2 ) = {(1,4)} suppression (3,2) de r 1

refreshing ECA k si la définition de la vue contient les clés des sources exemple : r 1 [W,X ], r 2 [X,Y ] et V = π W,Y (r 1 r 2 ) cas 1 : W non clé, cas 2 : W clé les suppressions sont faites à l entrepôt la clé permet de retrouver les tuples à supprimer I (r 1 ) = {(3,1),(3,2)}, I (r 2 ) = {(1,4)} suppression (3,2) de r 1 les insertions sont faites sans compensation les duplicats sont simplement ignorés I (r 1 ) = {(3,1)}, I (r 2 ) = {} ajout (1,4) puis (1,5) dans r 2

Warehousing projects Warehousing projects

Warehousing projects conception chaque entrepôt est unique construction coûteuse, longue et complexe construction souvent itérative il n existe pas de méthodologie concensuelle

Warehousing projects conception de quelles données a-t-on besoin? d où proviennent-elles? comment les nettoyer? quel est le schéma de l entrepôt? quelles données agréger? quelles données matérialiser? quels indexes?

Warehousing projects principe de construction selon Kimball, 1996 1. identification des utilisateurs, interviews sujet : ventes, commandes, envois, inventaire,... 2. identification des sources, interviews des DBA 3. choix de la granularité des faits granularité : transactions individuelles, images quotidiennes,... mesures : quantités, prix, coûts, marges,... 4. identification des dimensions dimensions : temps, produits, clients, vendeurs,... 5. définition des processus ETL 6. choix des matériels/logiciels BD, ETL, OLAP, frontends

Warehousing projects efficacité une bonne analyse suppose des données propres valides consistantes pertinentes informative

Warehousing projects efficacité de l analyse plus la granularité des faits est fine plus l analyse sera précise plus l entrepôt sera volumineux de l exécution des requêtes précalculer et préstocker des agrégats dénormaliser les tables de dimensions

Warehousing projects estimation de la taille : exemple dimensions 4 ans 365 jours = 1460 jours 300 magasins 200 000 références, 10% vendues par jours promotion : 1 valeur booléenne

Warehousing projects estimation de la taille : exemple faits 1460 300 20000 = 8,76 10 9 4 clés 4 mesures 8,76 10 9 8 champs 4 octets = 280 Go sans agrégats...

Warehousing projects estimation de la taille : exemple 3 ans = 1095 jours 100 million d appels téléphoniques par jour 5 clés 3 mesures 109 10 9 8 champs 4 octets = 3,49 To sans agrégats...

Warehousing projects pratiques courantes dans l industrie extraction et intégration faite off-line tout est copié dans l entrepôt

Warehousing projects success story cas de la grande distribution apports constatés augmentation des ventes grâce à un meilleur marketing amélioration des taux de rotation élimination des produits obsolètes réduction des rabais, remises, ristournes meilleure négociation des achats

Warehousing projects exemple 1 : le groupe Casino solution Teradata un des premiers entrepôts en France plusieurs millions de dollars économisés en s apercevant que les stocks de coca-cola faisaient souvent défaut... 1994 80 Go 2002 + de 10 To, 50 utilisateurs 1500 utilisateurs 25000 requêtes/jour

Warehousing projects exemple 2 : France Télécom région centre 12 BD sources récupération des données : 1,5 année données régionales et nationales parfois chez des prestataires de services parfois au prix d un intense lobbying en 2003 : environ 5 années de travail

Warehousing projects exemple 2 (suite) entreposage : SQL server DW de 3 bimestres, vidé périodiquement 1,2 million d individus 1 fait = 1 client 250 colonnes intégration faite à la main périodiquement exploitation : progiciel de DM développé spécifiquement

Warehousing projects exemple (3) : Walmart solution Teradata en 2006 : 0.5 Po de données le plus gros entrepôt de données du monde distributeurs, magasins, clients (> 10 8 ), produits (> 10 9 )... un des plus secret également... Wal-Mart, for example, discovered that people who buy Pampers often buy beer, so they moved Pampers and beer close together. The result was that sales of both increased (Computer Business Review, October 1996).

Warehousing projects échec des projets de construction d entrepôt manque de littérature sur la méthodologie de conception

Warehousing projects échec des projets de construction d entrepôt manque de littérature sur la méthodologie de conception mauvaises prévisions techniques dans l évaluation et le choix du matériel

Warehousing projects échec des projets de construction d entrepôt manque de littérature sur la méthodologie de conception mauvaises prévisions techniques dans l évaluation et le choix du matériel problème de déploiement, e.g., sensibilisation des utilisateurs finaux

Warehousing projects échec des projets de construction d entrepôt manque de littérature sur la méthodologie de conception mauvaises prévisions techniques dans l évaluation et le choix du matériel problème de déploiement, e.g., sensibilisation des utilisateurs finaux considérations sociotechniques ou éthiques, e.g., propriétés des données sources

Warehousing projects échec des projets de construction d entrepôt manque de littérature sur la méthodologie de conception mauvaises prévisions techniques dans l évaluation et le choix du matériel problème de déploiement, e.g., sensibilisation des utilisateurs finaux considérations sociotechniques ou éthiques, e.g., propriétés des données sources

Warehousing projects conclusion So far: we have the warehouse... Next: what do to with it?