Les Entrepôts de Données. (Data Warehouses)



Documents pareils
Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

et les Systèmes Multidimensionnels

Entrepôt de données 1. Introduction

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Business Intelligence : Informatique Décisionnelle

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

Théories de la Business Intelligence

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Bases de Données Avancées

Chapitre 9 : Informatique décisionnelle

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

ETL Extract - Transform - Load

La place de la Géomatique Décisionnelle dans le processus de décision

Urbanisation des SI-NFE107

Introduction à la B.I. Avec SQL Server 2008

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Introduction au domaine du décisionnel et aux data warehouses

Les entrepôts de données

Intelligence Economique - Business Intelligence

Entrepôt de Données. Jean-François Desnos. ED JFD 1

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

LES ENTREPOTS DE DONNEES

Business & High Technology

et les Systèmes Multidimensionnels

L information et la technologie de l informationl

Business Intelligence avec SQL Server 2012

La problématique. La philosophie ' ) * )

Entrepôt de données et l Analyse en ligne. Maguelonne Teisseire Hugo Alatrista Salas hugo.alatrista- salas@teledetec9on.fr Flavien Bouillot

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Présentation du module Base de données spatio-temporelles

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

Modélisation Multidimensionnelle des Tableaux de Bord Prospectifs

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Systèmes d information décisionnels (SIAD) Extraction de connaissances (KDD) Business Intelligence (BI)

En synthèse. HVR pour garantir les échanges sensibles de l'entreprise

Les Entrepôts de Données

Business Intelligence avec SQL Server 2012

Présentations personnelles. filière IL

Mémoire de fin d études. Thème Conception et réalisation d un Data Warehouse pour la mise en place d un système décisionnel

Ici, le titre de la. Tableaux de bords de conférence

Bases de données multidimensionnelles et mise en œuvre dans Oracle

Architecture des entrepôts de données

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Méthodologie de conceptualisation BI

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Le Data Warehouse. Fait Vente. temps produit promotion. magasin. revenu ... Produit réf. libellé volume catégorie poids. Temps jour semaine date ...

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

Evry - M2 MIAGE Entrepôt de données

Inscriptions : Renseignements : 33 (0) education.france@sap.com

Entreposage de données complexes pour la médecine d anticipation personnalisée

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Datawarehouse and OLAP

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

INTRODUCTION A LA B.I AVEC PENTAHO BUSINESS ANALYTICS Formation animée par

Didier MOUNIEN Samantha MOINEAUX

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

BI Haute performance. Jean-François Vannier Responsable Infrastructures Décisionnelles, Bull

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

L INTELLIGENCE D AFFAIRE DANS LA VIE QUOTIDIENNE D UNE ENTREPRISE

Bases de Données OLAP

Chapitre 1 Introduction

Décisionnel & Reporting

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Communiqué de Lancement

AXIAD Conseil pour décider en toute intelligence

Mise en place d'un data mart concernant la paie du personnel de l'etat MEMOIRE DE FIN D'ETUDE. présenté et soutenu publiquement pour l'obtention du

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Titre : La BI vue par l intégrateur Orange

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion

Rejoignez la Communauté

Intégration de données hétérogènes et réparties. Anne Doucet

Projet M1 Sujet 21 : Développement d'un logiciel simplifié de type Business Object

Introduction aux entrepôts de données (2)

BI = Business Intelligence Master Data-Science

SQL Server 2012 et SQL Server 2014

Concevoir et déployer un data warehouse

République Algérienne Démocratique et Populaire

Entrepôts de Données

SQL SERVER 2008, BUSINESS INTELLIGENCE

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

VLDB ET BUSINESS INTELLIGENCE

Base de données clients outil de base du CRM

Les entrepôts de données et l analyse de données

Evry - M2 MIAGE Entrepôt de données

Solu%on de Business Intelligence leader pour la ges%on de la performance d entreprise. myssii Jedox AG,

RÉPUBLIQUE ALGÉRIENNE DÉMOCRATIQUE ET POPULAIRE. Ministère de l Enseignement Supérieur et de la Recherche Scientifique I.N.I THEME : Les outils OLAP

SGBD et aide à la décision, Aide à la décision

Eduardo Almeida. Master Alma Université de Nantes

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Gestion de la Relation Client (GRC)

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Transcription:

Les Entrepôts de Données (Data Warehouses) Pr. Omar Boussaid Département d'informatique et de Sta5s5que Université Lyon2 - France Les Entrepôts de Données 1. Généralités, sur le décisionnel 2. L'entreposage des données (Data warehousing) 1. ETL 2. Modélisation multidimensionnelle 3. L'analyse multidimensionnelle (OLAP) 1. Différentes approches OLAP 2. Opérateurs OLAP 1

Le décisionnel? Les entreprises passent à l'ère de l'information. Défi : Transformer une partie de leur système d'information qui avait une vocation de production à un SI décisionnel dont la vocation de pilotage devient majeure. Système d'info. de Production Flux de données externes Orientation : Gestion BD Fournisseurs BD Clients Système d'info. Décisionnel Orientation : Pilotage BD Compta BD DRH Entrepôt de Données BD Magasins Flux de données externes BD Marketing BD Produits 2

Le décisionnel? Un système d'information décisionnel (S.I.D.) est un ensemble de données organisé de façon spécifique, approprié à la prise de décision. Ø Connaître l'environnement dans lequel on évolue Ø Finalité d'un système décisionnel : pilotage de l'entreprise Le décisionnel? S.I.D. : pilotage de l'entreprise Outils : Data warehouse ; OLAP 3

4

5

Le décisionnel? Besoin accru de données d'horizons multiples et divers : réorganisation du SI è réactivité nécessaire Les systèmes de gestion sont dédiés aux métiers ; tandis que les systèmes décisionnels sont dédiés au pilotage de l'entreprise L'entreprise ne doit pas seulement avoir une vue verticale de ses métiers (Syst. de gestion) mais une vue transversale (Syst. Décisionnel) Les données peuvent être supportées par des outils spécialisés permettant le pilotage de l'entreprise Passage des données de production aux données décisionnelles Les bases de production : toutes les sources de données (légales, juridiques, fiscales, politiques, techniques, marketing ) Comment organiser ces différentes données dans un ensemble cohérent afin de procéder à toutes les analyses nécessaires pour construire les indicateurs indispensables au pilotage de l'entreprise? Par un processus d'entreposage de données (Data Warehousing) 6

Architecture Décisionnelle Entrepôt de données Data Mining E T L Méta données OLAP Analyses sta5s5ques Data Marts Bases de produc5on Administrateur OLAP Reporting Qu'est ce que l'entreposage des données? Phase ETL Phase Structuration Phase OLAP Entrepôt de données E T L Méta données OLAP Data Mining Bases de production Data Marts Analyses statistiques Administrateur OLAP Reporting 7

Qu'est ce que l'entreposage des données? Les différentes phases : Phase ETL Phase Structuration Phase OLAP Extraction Transformation Alimentation Administration Conception Modélisation Structuration Administration Analyse Restitution Administration v Phase ETL Travail technique. Extraction des données des différentes BD de production (internes ou externes) Nettoyage des données, règles d'homogénéisation des données sous formes de métadonnées. Techniques d'alimentation : û Chargement des données dans l'ed ; û Fréquences de rafraîchissement : ü par des applications sur les sources de données et l'ed ; ü par des serveurs de réplication du SGBD ou par des outils spécialisés. 8

v Phase Structuration Il s'agit de définir la finalité de l'ed : Cibler l'activité de l'entreprise à piloter ; Déterminer et recenser les données à entreposer ; Définir les aspects techniques de la réalisation ; Modèle de données ; Définir des démarches d'alimentation ; Arrêter des stratégies d'administration ; Définir des espaces d'analyse ; Choisir un mode de restitution v Phase (transversale) Administration Elle est constituée de plusieurs tâches pour assurer : la qualité et la pérennité des données aux différents applicatifs ; la maintenance ; la gestion de configuration ; les mises à jour ; l'organisation, l'optimisation du SID ; la mise en sécurité du SID. 9

v Phase OLAP C'est le but du processus d'entreposage des données. Elle conditionne le choix de l'architecture de l'ed et de sa construction. Elle doit permettre toutes les analyses nécessaires pour la construction des indicateurs recherchés. v OLAP OLAP (On-Line Analytical Processing) est défini comme étant «... le nom donné à l'analyse dynamique requise pour créer, manipuler, animer et synthétiser l'information par des modèles d'analyse de données exégétiques, contemplatifs et selon des formules» (Codd et al., 1993). En d'autres termes, il s'agit d'applications de modélisation descriptive et d'analyse exploratoire des données, conçues à des fins de prise de décision. 10

v OLAP Nigel Pendse auteur de OLAP Report (www.olapreport.com/fasmi.htm) récapitule la définition de l'olap en cinq mots : Fast Analysis of Shared Multidimensional Information (FASMI) traduit en français comme suit : ''Analyse Rapide d'information Multidimensionnelle Partagée'' (http://www.linux-france.org/prj/jargonf/f/fasmi.htm) Critères retenus pour simplifier les règles de Codd et faciliter l'évaluation des outils OLAP. v Phase OLAP Les combinaisons possibles des dimensions, avec les mesures qui en découlent, forment les faits. Il est possible d'appliquer des fonctions agrégatives (somme, moyenne, médiane, etc.) pour obtenir les mesures à partir des données transactionnelles ou de mesures de membres de niveau inférieur. Ainsi, on peut calculer une valeur pour un fait caractérisé par les membres d'une dimension du niveau hiérarchique inférieur qui s'agrègent vers un membre d'un niveau supérieur (ex. la population du Canada est la somme de la population de chacune de ses provinces). Un jeu de données multidimensionnelles est nommé «cube» ou «hypercube» l'organisation des faits selon des axes dimensionnels. 11

v Data warehouse : Définition (ou entrepôt de données) q Un ED est une structure informatique dans laquelle est centralisé un volume important de données consolidées à partir des différentes sources de renseignements d'une entreprise (notamment les BDs internes) et qui est conçue de manière que les personnes intéressées aient accès rapidement à l'information stratégique dont elles ont besoin. q Dans un ED, les données sont : sélectionnées et préparées (pour répondre aux questions vitales de l'entreprise), intégrées (à partir des différentes sources de renseignements) et datées (elles gardent la trace de leur origine). q Le terme entrepôt de données supplante ceux de dépôt de données et de centrale de données (se rapproche de magasin de données). v Data warehouse : Définition Bill Inmon a proposé les termes de : Entreprise Data warehouse (EDW) ou Corporate Information Factory (CIF) Ø Le DWH est orienté sujets : les données collectées doivent être orientées ''métier'' et donc triées par thème Ø Le DWH est composé de données intégrées : un ''nettoyage'' préalable des données est nécessaire dans un souci de rationalisation et de normalisation Ø Les données du DWH sont non volatiles : une donnée entrée dans l'entrepôt l'est pour de bon et n'a pas vocation à être supprimée ; Ø Les données du DWH doivent être historisées, donc datées 12

Qu'est ce qu'un Entrepôt de Données? D'après BILL Inmon : Un ED est une collection de données thématiques, intégrées, non volatiles et historisées, organisées pour la prise de décision. Thématiques : thèmes par activités majeures ; Intégrées : divers sources de données ; Non volatiles : ne pas supprimer les données du DW ; Historisées : trace des données, suivre l'évolution des indicateurs. Pb de volumétrie, de stockage, d'accès. Evolution des unités de volumétrie des données : Unité Symbole Valeur Observation Octet Octet 1 o représente un caractère d'imprimerie KiloOctet Ko 1 000 (1024) 100 Ko : image num. basse résolution MegaOctet Mo 10 GigaOctet Go 10 TeraOctet To 10 6 500 Mo à un CD-Rom 9 20 Go à un HD de PC 12 10 To à la bibliothèque du Congrès Américaine PetaOctet Po 10 15 8 Po à toute l'info. sur Internet ZettaOctet Zo 10 21 : 1 000 000 x 10 15 Pas encore d'application 26 13

v Architecture de Data warehouse Sources Data Systems Data staging Area (Opera5onal Data Store) Data et Metadata Storage Area End User Presenta5on Tools DSc 1 DWH DSc 2 DSc 3 DSc4 DSc n O.D.S. DM 1 DM 3 DM2 v Architecture de Data warehouse Staging area : C'est une zone temporaire qui sert à stocker les données extraites des systèmes sources. C'est là que s'effectuent les différentes transformations : le nettoyage des données, le merge, la standardisation, le déduplication des données. Les données dans le staging area sont détruites une fois le chargement des data-marts terminé. Data warehouse : Les données du staging area sont transférées vers le DWH. Les métadatas sont aussi stockées dans le DWH. Ce dernier est central et devrait contenir toutes les données de l'entreprise. Zone présentation : A partir du DWH, les utilisateurs peuvent y accéder pour exécuter leurs requêtes ad hoc, programmer les rapports, analyser et visualiser l'information... 14

v Architecture de Data warehouse Architecture prônée par Bill Inmon L'ODS : est l'acronyme pour Operational Data Store ou (Magasin de données opérationnelles). Il joue deux rôles : 1. sert à stocker les données extraites des systèmes sources. 2. intègre les données sources dans le but de présenter toute l'information nécessaire à prendre des décisions tactiques. L'Entreprise Data warehouse : Les données de l'ods sont transférées vers le DWH. Ce dernier est central (d'où son appellation Entreprise Data Warehouse (EDW)). Il contient toutes les données de l'entreprise. Les data-marts dépendants : Ils peuvent être alimentés soit de L'EDW soit de l'ods. La zone présentation : Une fois les données chargées dans le Data warehouse et les data-marts dépendants, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et visualiser l'information v Oparational Data Storage (ODS) Il est souvent mis en place pour répondre à au moins un des besoins suivants : - Intégrer les données provenant de plusieurs sources. Normalement ce genre d'intégration devrait être réalisé dans les systèmes sources, mais parce que cela peut couter cher ( temps, dispo. et rentabilité) : on met en place un ODS. - Fournir les données pour prendre des décisions tactiques (reporting) - Permettre de consolider les mises à jour communes aux systèmes sources. Un ODS peut servir de staging area pour alimenter un DW, cependant cela ne doit pas être sa raison d'être. 15

v Architecture de Data warehouse Sources Data Systems Data staging Area (Opera5onal Data Store) Bases mul5dimensionnelles End User Presenta5on Tools DSc 1 DSc 3 DSc 2 DSc4 DWH DM 1 DM 2 DM 3 DSc n O.D.S. Cubes OLAP v Approches de mise en place de DW Il existe plusieurs approches pour me>re en place un DW. Par contre seulement trois approches sont communes. il s'agit de l'approche "Top- Down" prônée par Inmon, l'approche "Bo4om- up" de Kimball et de l'approche "Hybride" qui dérivent des deux premières approches. 16

v Approches de mise en place de DW Top- Down de Bill Inmon et le CIF Caractéristiques majeures Ø L'emphase est mise sur le DW. Ø Commence par concevoir un modèle de DW au niveau de l'entreprise. Ø Déploies une architecture multi-tiers composée de staging area, de DW et des data- marts dépendants. Ø Le staging area est permanent. Ø Le DW est orienté entreprise; les data-marts sont orientés processus. Ø Le DW contient des données atomiques ; Les data-marts contiennent les données agrégées. Ø Le DW utilise un modèle de données normalisé de toute l'entreprise ; Les data-marts utilisent des modèles multidimensionnels orientés sujet. Ø Les utilisateurs peuvent effectuer des requêtes sur le DW et les data-marts. v Approches de mise en place de DW BoNom- Up de Ralph Kimball et le Bus Architecture Ø L'emphase est mise sur les data-marts. Ø Commence par concevoir un modèle multidimensionnel pour un data-mart. Ø Utilise une architecture qui consiste en un staging area et des data-marts. Ø Le staging area est en général non permanent, mais il peut devenir permanent pour implanter l'architecture en BUS ( Dimensions et faits conformes) Ø Les data-marts contiennent les données atomiques et les données agrégées. Ø Les data-marts peuvent fournir une vue entreprise ou processus. Ø Un data-mart consiste en un seul star schema physique. Ø Les data-marts sont implantés d'une façon incrémentale et intégrée en utilisant les dimensions conformes. Ø Les utilisateurs ne peuvent effectuer des requêtes sur le staging area. 17

v Approches de mise en place de DW Hybride Ø L'emphase est sur le DW et les data-marts ; utilise les deux approches top-down et bottom-up Ø Commence par concevoir un modèle de données de l'entreprise en même temps que les modèles spécifiques. Ø Crée un modèle normalisé d'entreprise de haut niveau ; génère les modèles des premiers data-marts. Ø Charge les data-marts avec les données atomiques en utilisant un staging area temporaire. Ø Les modèles des data-marts sont composés d'un ou plusieurs star schémas. Ø Utilise un outil ETL pour charger les data-marts et pour échanger les métadata avec ces derniers. Ø Charge le DW à partir des data-marts lorsqu'il y'a besoin de faire des requêtes à travers plusieurs data-marts en même temps. 18