Bases de Données OLAP



Documents pareils
4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Oracle Décisionnel : Modèle OLAP et Vue matérialisée D BILEK

Présentation du module Base de données spatio-temporelles

et les Systèmes Multidimensionnels

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

ETL Extract - Transform - Load

Les Entrepôts de Données

Bases de Données Avancées

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Introduction à la B.I. Avec SQL Server 2008

Les entrepôts de données

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Evry - M2 MIAGE Entrepôt de données

La problématique. La philosophie ' ) * )

BI = Business Intelligence Master Data-ScienceCours 3 - Data

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Les Entrepôts de Données. (Data Warehouses)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

La place de la Géomatique Décisionnelle dans le processus de décision

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

Bases de données multidimensionnelles et mise en œuvre dans Oracle

Département Génie Informatique

Bases de Données OLAP. Chapitre 2 Architecture. La Perspective d Oiseau. Perspective Détaillée ... Hiver 2011/2012

Introduc;on à l intelligence d affaires et aux entrepôts de données

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

BI = Business Intelligence Master Data-Science

Business & High Technology

Business Intelligence : Informatique Décisionnelle

Entrepôt de données 1. Introduction

IFT3030 Base de données. Chapitre 1 Introduction

LES ENTREPOTS DE DONNEES

Introduction au domaine du décisionnel et aux data warehouses

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

L information et la technologie de l informationl

et les Systèmes Multidimensionnels

Méthodologie de conceptualisation BI

Plan. Ce qu est le datawarehouse? Un modèle multidimensionnel. Architecture d un datawarehouse. Implémentation d un datawarehouse

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Information utiles. webpage : Google+ : digiusto/

Urbanisation des SI-NFE107

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

Fouille de Données : OLAP & Data Warehousing

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Architectures d'intégration de données

SQL SERVER 2008, BUSINESS INTELLIGENCE

Construction d un EDD avec SQL 2008 R2. D. Ploix - M2 Miage - EDD - Création

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Datawarehouse and OLAP

Les bases de données

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

BI2 : Un profil UML pour les Indicateurs Décisionnels

Compétences Business Objects

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

Big Data On Line Analytics

SWISS ORACLE US ER GRO UP. Newsletter 5/2014 Sonderausgabe. OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features

Jedox rafraîchit les rapports du fabricant de boissons MBG

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

Devoir Data WareHouse

Notes de cours : bases de données distribuées et repliquées

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

L INTELLIGENCE D AFFAIRE DANS LA VIE QUOTIDIENNE D UNE ENTREPRISE

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

ISC Système d Information Architecture et Administration d un SGBD Compléments SQL

La gestion des données de référence ou comment exploiter toutes vos informations

Intelligence Economique - Business Intelligence

DESCRIPTIF DE MODULE S5 GSI

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Les entrepôts de données et l analyse de données

BI : GESTION GESTION, PRODUCTION STRATEGIE DE BI. Un livre blanc d Hyperion

Didier MOUNIEN Samantha MOINEAUX

Pourquoi IBM System i for Business Intelligence

BD51 BUSINESS INTELLIGENCE & DATA WAREHOUSE

Chapitre 9 : Informatique décisionnelle

Hervé Couturier EVP, SAP Technology Development

GPC Computer Science

Eduardo Almeida. Master Alma Université de Nantes

Bases de données et sites WEB Licence d informatique LI345

Bases de données cours 1

BI = Business Intelligence Master Data-ScienceCours 2 - ETL

Systèmes d information décisionnels (SIAD) Extraction de connaissances (KDD) Business Intelligence (BI)

QU EST-CE QUE LE DECISIONNEL?

La Business Intelligence & le monde des assurances

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

palais des congrès Paris 7, 8 et 9 février 2012

Bases de données - Modèle relationnel

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2014

Transcription:

Bases de Données OLAP Hiver 2013/2014 Melanie Herschel melanie.herschel@lri.fr Université Paris Sud, LRI Chapitre 1 Introduction Détails administratifs Entrepôts de Données Perspective sur le semestre 2 Credit: Michael Marcol http://www.freedigitalphotos.net/images/view_photog.php?photogid=371

Horaires et Site Web Cours Horaire Dates lundi, 13h30 à 16h30 23/9 jeudi, 13h30 à 16h30 3/10, 10/10,17/10, 24/10, 7/11, 21/11, 28/11 Travaux dirigés Horaire Dates lundi, 13h30 à 16h30 7/10, 14/10, 21/10, 4/11, 25/11, 2/12 jeudi, 13h30 à 16h30 14/11, 5/12 mer., 13h30 à 16h30 16/10 http://www.lri.fr/~herschel/teaching.html Les transparents et autres informations concernant le cours seront accessibles sur ce site 3 Connaissances Connaissances requises: Introduction aux Bases de Données Modèle relationnel Modèle entité association SQL Connaissances préférables: Implémentation de Bases de Données Implémentations de jointures Optimisation de requêtes 4

Travaux Dirigés Pendant chaque heure de TD, une feuille d exercices sera distribuée. Vous pouvez résoudre les exercices dans une première partie du TD par groupe de deux étudiants. Je suis bien sur là pour répondre à toutes vos questions. Dans la seconde partie du TD, les exercices sont présentés par les étudiants et discutés. Dans certains cas, des informations approfondies seront données qui complèteront le cours. 5 Examen et Contrôle Continu Examen Sous forme écrite Durée: 90 minutes Aucune aide ni ressource n est autorisée Date à déterminer Contrôle continu Partiels le 4 novembre 2013 (13h30-15h00) Feuille d exercices similaires aux exercices des feuilles de TD Travail individuel, situation d examen 6

Concernant ces Transparents... Petits quiz Définition Prenez des notes Exemple Code 7 Litérature Christian S. Jensen, Torben Bach Pedersen und Christian Thomsen. Multidimensional Databases and Data Warehousing. Synthesis Lecture on Data Management, Morgan & Claypool. Voir également les liens cités en cours 8

Questions & Feedback N hésitez pas à poser des questions! Pendant le cours Par email ou par téléphone Feedback et suggestions sont les bienvenus! Transparents Informations sur le Web... 9 Chapitre 1 Introduction Détails administratifs Entrepôts de Données Perspective sur le semestre 10 Credit: Michael Marcol http://www.freedigitalphotos.net/images/view_photog.php?photogid=371

Systèmes OLAP OLAP = Online Analytical Processing Requêtes effectuant des analyses complexes sur des données. Informatique décisionnelle Business intelligence (BI) Dans ce cours, nous nous limitons Aux données relationnelles Aux données stockées dans des entrepôts de données (data warehouses (DW)) 11 Applications de Systèmes OLAP Gestion de risques chez les assurances Analyse de marché chez WalMart et Co. à travers toutes les filiales Gestion de la relation client (customer relationship management (CRM)) chez Amazon et partenaires Logistique mondiale chez UPS Analyse de données scientifiques (physiques, biologiques, etc.) acquises à travers le monde... Propriétés essentielles Intégration de données provenant de sources multiples afin d obtenir une vue globale. Analyse de larges volumes de données (peta octets @ ebay, Walmart, etc.). 12

Vendeurs Commerciaux IBM Teradata Oracle SAP... Open source Talend Clover... 13 Définition d un Entrepôt de Données Définition originale de William H. Inmon A data warehouse is a subject oriented, integrated, time variant, non-volatile collection of data in support of management s decision making process. [Inmon92] subject oriented: dédié à un type d entité précis. Exemples: des ventes, des produits ou des magasins. integrated: les données proviennent de plusieurs systèmes de bases de données, dis de source. Exemples: Différents catalogues de La Redoute, stocks à travers la France, chiffre d affaires dans différents pays. time-variant: l entrepôt de données (DW) montre l évolution temporelle de l entité observée. non-volatile: Les données ne sont pas effacées ou modifiées ultérieurement, la seule modifications de l ensemble des données est l ajout de données. 14

Exemple Motivant l Utilisation d un DW Une ou plusieurs bases de données (similaires) stockant des informations concernant la vente de livres. Les données opérationnelles sont souvent actualisées.! Par chaque commande! Par des modifications de catalogue quotidiennes Le management requiert de l aide à la décision (decision support) Ceci engendre des requêtes complexes sur les données. 15 Exemple Motivant l Utilisation d un DW Commande de livres par internet SQL 16

Exemple Motivant l Utilisation d un DW Commande de livres par internet portefeuille ventes publicité SQL 16 Exemple Motivant l Utilisation d un DW Commande de livres par internet sauvegarde, débit, équilibrage de charge portefeuille ventes publicité SQL 16

Exemple Motivant l Utilisation d un DW Commande de livres par internet sauvegarde, débit, équilibrage de charge conflit d objectifs portefeuille ventes publicité SQL 16 Exemple Motivant l Utilisation d un DW La base de données correspondante Year id year Month Id Month year_id Day Id day month_id Order Order_id book_id amount single_price Orders Id Day_id Customer_id Total_amt Bookgroup id name Book id Book_group_id Customer id name 17

Exemple Motivant l Utilisation d un DW Question du directeur du marketing Combien de commandes avons nous clôturées dans le mois précédant Noël en fonction du groupe de produit? Year id year Month Id Month year_id Day Id day month_id Order Order_id book_id amount single_price Orders Id Day_id Customer_id Total_amt Bookgroup id name Book id Book_group_id Customer id name 18 Exemple Motivant l Utilisation d un DW Question du directeur du marketing Combien de commandes avons nous clôturées dans le mois précédant Noël en fonction du groupe de produit? Year id year Month Id Month year_id Day Id day month_id Order Order_id book_id amount single_price Orders Id Day_id Customer_id Total_amt Bookgroup id name Book id Book_group_id Customer id name 18

Exemple Motivant l Utilisation d un DW Implémentation Requête SQL du directeur de marketing SELECT! Y.year, BG.name, COUNT(B.id) FROM year Y, month M, day D, order O, orders OS, book B, bookgroup BG WHERE! M.year = Y.id and! M.id = D.month and! O.day_id = D.id and! OS.order_id = O.id and! B.id = O.book_id and! B.book_group_id = BG.id and! day < 24 and month = 12 GROUP BY Y.year, PG.product_name ORDER BY Y.year 19 Exemple Motivant l Utilisation d un DW Implémentation Requête SQL du directeur de marketing SELECT! Y.year, BG.name, COUNT(B.id) FROM year Y, month M, day D, order O, orders OS, book B, bookgroup BG WHERE! M.year = Y.id and! M.id = D.month and! O.day_id = D.id and! OS.order_id = O.id and! B.id = O.book_id and! B.book_group_id = BG.id and! day < 24 and month = 12 GROUP BY Y.year, PG.product_name ORDER BY Y.year 6 jointures Year: 10 tuples Month: 120 tuples Day: 3650 tuples Orders: 36.000.000 tuples Order: 72.000.000 tuples Books: 200.000 tuples Bookgroups: 100 tuples Problème! Optimisation de requête (ordre des jointures) Résultats intermédiaires peuvent être gigantesques (dépend du plan d exécution choisi) Requêtes similaires résultats intermédiaires comparables 19

Exemple Motivant l Utilisation d un DW En réalité... Il y a les bases de données des différents pays, par exemple: Amazon.fr Amazon.de Amazon.it... Requête distribuée COUNT et UNION sur plusieurs requêtes identiques executées sur différentes bases de données? 20 Exemple Motivant l Utilisation d un DW En réalité... FR DE IT UK PL 21

Exemple Motivant l Utilisation d un DW Implémentation (utilisation d une vue) Définition d une vue CREATE VIEW christmas AS! SELECT! Y.year, PG.name, count(b.id) FROM!! DE.year Y, DE.month M, DE.day D, DE.order O,... WHERE! M.year = Y.id and... GROUP BY!Y.year, PG.product_name ORDER BY! Y.year UNION! SELECT! Y.year, PG.name, count(b.id) FROM! EN.year Y, EN.month M, EN.day D, DE.order O,... WHERE! M.year = Y.id and... 22 Exemple Motivant l Utilisation d un DW Implémentation (utilisation d une vue) Définition d une vue CREATE VIEW christmas AS! SELECT! Y.year, PG.name, count(b.id) FROM!! DE.year Y, DE.month M, DE.day D, DE.order O,... WHERE! M.year = Y.id and... GROUP BY!Y.year, PG.product_name ORDER BY! Y.year UNION! SELECT! Y.year, PG.name, count(b.id) FROM! EN.year Y, EN.month M, EN.day D, DE.order O,... WHERE! M.year = Y.id and... Utilisation de la vue dans une requête SQL SELECT! year, name, SUM(B.id) FROM!! christmas GROUP BY! year, name ORDER BY! year! 22

Exemple Motivant l Utilisation d un DW Implémentation (utilisation d une vue) Définition d une vue CREATE VIEW christmas AS! SELECT! Y.year, PG.name, count(b.id) FROM!! DE.year Y, DE.month M, DE.day D, DE.order O,... WHERE! M.year = Y.id and... GROUP BY!Y.year, PG.product_name ORDER BY! Y.year UNION! SELECT! Y.year, PG.name, count(b.id) FROM! EN.year Y, EN.month M, EN.day D, DE.order O,... WHERE! M.year = Y.id and... Utilisation de la vue dans une requête SQL SELECT! year, name, SUM(B.id) FROM!! christmas GROUP BY! year, name ORDER BY! year! 22 Exemple Motivant l Utilisation d un DW Problèmes de la solution présentée Question 1: COUNT et UNION sur des bases de données distribuées? Problème d hétérogénéité Le sources adaptent leurs schémas Cas particuliers de différents pays à modeler (format d adresse, TVA, frais d envoi, soldes,...) Des différences de schéma peuvent refléter des différences sémantiques entre les données stockées. Question 2: Calcul de gigantesques résultats intermédiaires? Problème de volume des données Transport de ces données sur le réseau Vue historique -Le volume de données augmente régulièrement Des bases de données opérationnelles n ont pas besoin de données historiques Objectif: Effacer les données le plus vite possible (commandes clôturées) Manager n a pas besoin de toutes les données opérationnelles Objectif: Garder toutes les données intéressantes 23

Exemple Motivant l Utilisation d un DW Solution au Problème d Hétérogénéité? FR DE IT BD centrale Problèmes: Toutes les agences doivent utiliser le réseau pour leurs opérations d écriture Long temps de réponse en mode opérationnel Problème du volume de données non résolu. 24 Exemple Motivant l Utilisation d un DW Solution au Problème d Hétérogénéité? FR DE IT BD centrale Problèmes: Toutes les agences doivent utiliser le réseau pour leurs opérations d écriture Long temps de réponse en mode opérationnel Problème du volume de données non résolu. 24

Exemple Motivant l Utilisation d un DW Solution au Problème du Temps de Réponse en Mode Opérationnel? IT Problèmes: Requêtes locales en mode opérationnel rapides Mais long temps de réponse pour des requêtes d analyse stratégique. Problème de l hétérogénéité non résolu 25 Exemple Motivant l Utilisation d un DW Solution au Problème du Temps de Réponse en Mode Opérationnel? FR DE IT Problèmes: Requêtes locales en mode opérationnel rapides Mais long temps de réponse pour des requêtes d analyse stratégique. Problème de l hétérogénéité non résolu 25

Exemple Motivant l Utilisation d un DW Solution au Problème du Temps de Réponse en mode analytique? Replikation Replikation A Problèmes: Requêtes locales travaillent sur de très grandes relations Temps de réponse augmente en mode opérationnel Long temps de réponse également pour les requêtes analytiques, car priorité doit être données au fonctionnement opérationnel 26 Exemple Motivant l Utilisation d un DW Solution au Problème du Temps de Réponse en mode analytique? A Replikation A Replikation A Problèmes: Requêtes locales travaillent sur de très grandes relations Temps de réponse augmente en mode opérationnel Long temps de réponse également pour les requêtes analytiques, car priorité doit être données au fonctionnement opérationnel 26

Exemple Motivant l Utilisation d un DW Solution réelle Construction d un Data Warehouse Données redondantes (dans systèmes opérationnels et DW) DW stocke des données sélectionnées et transformées Modélisation spéciale Actualisation des données asynchrone 27 BDs Opérationnelles vs. Entrepôt de Données Du point de vue de l application Utilisateur Durée et type d interaction Structure d une requête Etendue d une reqête Nombre d accès concurrents Nombre d utilisateurs BDs opérationnelles adjoint administratif très courte (>= quelques secondes) Insert, Update, Delete simple (par exemple peu de jointures) un nombre de tuples modéré (souvent, un seul tuple est concerné) beaucoup (des milliers) beaucoup Entrepôt de données Manager, contrôleur, analyste Requêtes d analyse longues (minutes voir heures) Lecture, ajout périodiques complexe, mais suivant en général un schéma défini au préalable beaucoup de tuples (pour la plupart des requêtes de plage de données) peu (des centeines) peu ( <= quelques centaines) 28

BDs Opérationnelles vs. Entrepôt de Données Du point de vue du stockage de données Sources de données Conception du schéma Propriétés des données Volume de données Temps de réponse typique Disponibilité BDs opérationnelles un seul système BD indépendante du type de requête (3FN) originales actuelles autonomes dynamiques méga-octets - giga-octets ms - s très haute disponibilité (Arrêt peut couter des millions!) Entrepôt de données plusieurs systèmes BD indépendants basée sur les requêtes analytiques envisagées dérivées/ consolidées historiques intégrées stables (pré-)agrégée partiellement tera-octets - peta-octets s - min haute disponibilité souhaitée, mais n est en générale pas critique 29 BDs Opérationnelles vs. Entrepôt de Données Du point de vue de l architecture BDs opérationnelles Architecture à 3 bandes ANSI-SPARC Se prête aux données d une source de données pas d hétérogénéité Entrepôt de données Un DW intègre des données de plusieurs sources. Ces sources sont typiquement hétérogènes (au niveau du schéma, par exemple nom vs. non de famille; dans les données, par exemple 06.1. vs. 01/06,...) Architecture se prêtant à l intégration de données de différentes sources Détails au chapitre 2 30

BDs Opérationnelles vs. Entrepôt de Données Du point de vue du modèle de stockage BDs opérationnelles Evitent redondance / anomalies Schéma en 3FN Schéma conçu indépendamment des requêtes année Entrepôt de données Modèle utilisant des dimensions et mesures, basées sur les requêtes analytiques envisagées. Redondance possible voir désirée Modèle multidimensionnel Détails au chapitre 3 2007 2006 2005 2004 2003 2002 Books CDs DVDs... région... North America Asia Europe groupe de produit 31 BDs Opérationnelles vs. Entrepôt de Données Du point de vue des requêtes BDs opérationnelles Requêtes transactionnelles Insertion, modification, effacement, selection Requêtes accédant à un / peu de tuples Optimisation de requête classique UPDATE Order SET amount = amount + 1 WHERE OrderID = 1 AND BookID = 204 Data Warehouse Requêtes analytiques Chargement en masse(bulk-insert) et selection Requêtes typiques (drill down, slice, dice,...) Techniques d optimisation de requêtes spécialisées Details au chapitres 4 et 5 année 2007 2006 2005 2004 2003 2002 Books CDs DVDs... région... North America Asia Europe groupe de produit 32

Extraction-Transformation-Chargement (ETC) Extract-Transform-Load (ETL) Comment ajouter les données au DW? Extraction de données pertinentes des sources. Transformation des données extraites pour conformer au schéma du DW et aux exigences à la qualité de données. Chargement des données transformées dans le DW. 33 Processus de Développement d un DW Intégration de plusieurs sources de données, souvent autonomes, requiert les mesures suivantes: Intégration / concours des départements spécialisés Faire adopter les exigences à la qualité de données Langage commun Garantir que le processus peut être suivi facilement Penser du produit vers le processus 34

Chapitre 1 Introduction Détails administratifs Entrepôts de Données Perspective sur le semestre 35 Credit: Michael Marcol http://www.freedigitalphotos.net/images/view_photog.php?photogid=371 Agenda de ce Cours Chapitre 1: Introduction Définition d un entrepôt de données (DW) Motivation pour construire un DW Différences entre bases de données opérationnelles et DW Chapitre 2: Architectures de systèmes DW Composantes d un système DW Configurations Facilitation de l intégration Chapitre 3:Modélisation Modèle multidimensionnel (dimensions, mesures, cubes) Implémentation relationnelle du modèle (star-schema, snowflake-schema) 36

Agenda de ce Cours Chapitre 4: Requêtes Types de requêtes (slice, dice, drill-down,...) Spécification de requêtes (extensions SQL, MDX) Chapitre 5: Traitement de requêtes et optimisation Partitionnement Vue matérialisées 37 Questions? Sur le contenu de ce cours? Sur le contrôle continu / l examen? Sur le déroulement?... 38