Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation



Documents pareils
et les Systèmes Multidimensionnels

Les entrepôts de données

Entrepôt de données 1. Introduction

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

LES ENTREPOTS DE DONNEES

Business Intelligence : Informatique Décisionnelle

Urbanisation des SI-NFE107

Les Entrepôts de Données

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

Entrepôt de Données. Jean-François Desnos. ED JFD 1

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Les Entrepôts de Données. (Data Warehouses)

Introduction à la B.I. Avec SQL Server 2008

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Chapitre 9 : Informatique décisionnelle

et les Systèmes Multidimensionnels

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

ETL Extract - Transform - Load

Introduction au domaine du décisionnel et aux data warehouses

La place de la Géomatique Décisionnelle dans le processus de décision

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Bases de Données Avancées

L information et la technologie de l informationl

Le Data Warehouse. Fait Vente. temps produit promotion. magasin. revenu ... Produit réf. libellé volume catégorie poids. Temps jour semaine date ...

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Business & High Technology

Evry - M2 MIAGE Entrepôts de Données

La problématique. La philosophie ' ) * )

Bases de données multidimensionnelles et mise en œuvre dans Oracle

Entrepôt de données et l Analyse en ligne. Maguelonne Teisseire Hugo Alatrista Salas hugo.alatrista- salas@teledetec9on.fr Flavien Bouillot

Mémoire de fin d études. Thème Conception et réalisation d un Data Warehouse pour la mise en place d un système décisionnel

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

Intégration de données hétérogènes et réparties. Anne Doucet

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

Business Intelligence avec SQL Server 2012

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

FreeAnalysis. Schema Designer. Cubes

Entrepôts de Données

Le concept de Data Warehouse a été formalisé pour la première fois en 1990.

BUSINESS INTELLIGENCE

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

Evry - M2 MIAGE Entrepôt de données

Plan. Ce qu est le datawarehouse? Un modèle multidimensionnel. Architecture d un datawarehouse. Implémentation d un datawarehouse

Base de données clients outil de base du CRM

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Fouille de Données : OLAP & Data Warehousing

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

QU EST-CE QUE LE DECISIONNEL?

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

BI = Business Intelligence Master Data-Science

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

RÉPUBLIQUE ALGÉRIENNE DÉMOCRATIQUE ET POPULAIRE. Ministère de l Enseignement Supérieur et de la Recherche Scientifique I.N.I THEME : Les outils OLAP

Théories de la Business Intelligence

Didier MOUNIEN Samantha MOINEAUX

CONSERVATOIRE NATIONAL DES ARTS ET METIERS CENTRE REGIONAL ASSOCIE DE BOURGOGNE MEMOIRE. présenté en vue d'obtenir le DIPLOME D'INGENIEUR C.N.A.M.

Intelligence Economique - Business Intelligence

MyReport, une gamme complète. La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! pour piloter votre activité au quotidien.

Département Génie Informatique

SQL SERVER 2008, BUSINESS INTELLIGENCE

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

Ici, le titre de la. Tableaux de bords de conférence

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

Présentation du module Base de données spatio-temporelles

Mise en place d'un data mart concernant la paie du personnel de l'etat MEMOIRE DE FIN D'ETUDE. présenté et soutenu publiquement pour l'obtention du

La Business Intelligence en toute simplicité :

SQL Server SQL Server Implémentation d une solution. Implémentation d une solution de Business Intelligence.

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Objectif : Passer de l analyse métier et fonctionnelle à la définition des applications qui

L informatique décisionnelle

SWISS ORACLE US ER GRO UP. Newsletter 5/2014 Sonderausgabe. OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features

République Algérienne Démocratique et Populaire

Bases de Données OLAP

Business Intelligence Reporting

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Les attentes du marché

UE 8 Systèmes d information de gestion Le programme

MyReport, LE REPORTING SOUS EXCEL

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Les entrepôts de données et l analyse de données

Présentations personnelles. filière IL

Systèmes d information décisionnels (SIAD) Extraction de connaissances (KDD) Business Intelligence (BI)

25/05/2012. Business Intelligence. Plan de Présentation

Catalogue Formation «Vanilla»

En synthèse. HVR pour garantir les échanges sensibles de l'entreprise

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Projet M1 Sujet 21 : Développement d'un logiciel simplifié de type Business Object

Analyse comparative entre différents outils de BI (Business Intelligence) :

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

XCube XML For Data Warehouses

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Business Intelligence avec SQL Server 2012

Méthodologie de conceptualisation BI

Business Intelligence avec Excel, Power BI et Office 365

Introduction aux entrepôts de données (2)

Transcription:

Data WareHouse

Plan Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation 2

Présentation Besoin: prise de décisions stratégiques et tactiques Quoi: productivité de l'entreprise, réactivité des hommes, clients Qui: le système de pilotage de l'entreprise (Décideurs) 3

Eléments de la théorie des SI Référentiel des complexités croissantes L'entreprise système. 4

Référentiel des complexités croissantes Objectif: fournir une échelle pour mesurer la complexité d'un système Niveau 1 : objet passif (une pierre) Niveau 2 : actif (ampoule électrique) Niveau 3 : actif et régulé, (l objet refuse certains comportements) L objet est doté d un autre processeur chargé de cette régulation (la cocotte minute). Niveau 4 : l objet s informe Le processeur de régulation s informe sur l activité du processeur actif. Ce modèle représente le schéma de base de la cybernétique 5

Référentiel des complexités croissantes 6

Référentiel des complexités croissantes Niveau 5: L objet décide de son activité On passe d un comportement programmé à un comportement imprévisible Information Décision. Processeur décisionnel Information représentation Processeur actif 7

Référentiel des complexités croissantes Niveau 6: L objet à une mémoire Le processeur décisionnel fait appel aux informations non seulement de l état actuel, mais aussi aux informations des états passés. Processeur Décisionnel Mémorisation Mémoire Processeur actif 8

Référentiel des complexités croissantes Niveau 7: L objet se coordonne Le processeur actif devient une fédération de processeurs coordonnés (système opérant). 9

Référentiel des complexités croissantes Niveau 8: L objet imagine et s auto organise : Elaborer des plans d actions Imaginer l organisation de ses sous systèmes 10

Référentiel des complexités croissantes Niveau 9 : l objet est capable de définir ses objectifs. Objectifs : SP Système finalisation (le SP est capable de changer ses objectifs) Système imagination conception SD 11

L'entreprise système Définition: Le SI est une représentation de l activité du SO et/ou du SP, et de ses échanges avec l environnement 12

Typologie des systèmes d'information SP SD SIC SF SIO SO SIP: Systèmes d information de production: Dans ces SI l information est gérée par le SO de l entreprise. SIO (systèmes d'information opérationnels):information de représentation et de coordination de l activité du SO destiné au sous système de régulation dans le SP. SID (Systèmes d information décisionnels). SIS : SI à portée stratégique SSI: SI d aide à la stratégie Autre notation :(Tardieu : Le triangle stratégique, structure et technologie de l information) Systèmes d information stratégiques SI S Systèmes d informations stratégiques S IS 13

Informatisation d'un SI SIO SII SIO: Système d'informatisation organisationnel, résultat de l activité de l entreprise (Informations, tâches humaines/informatisées) SII: Système d'information informatisé. Sciences de la gestion SIO (naturel) Disciplines du génie logiciel SII (artificiel) L état actuel des connaissances ne nous permet pas d avoir une méthode de complexité 8 ou 9 (SI auto adaptatif SI auto exécutif) donc les méthodes de conception actuelles modélisent l entreprise uniquement au niveau 7 de complexité. (À organisation stabilisée). 14

Les données pertinentes Sources de données Sources internes Bases de données de production Bases créées par les utilisateurs (bases relationnelles, fichiers plats). Sources externes Internet. Organismes Caractéristiques de ces données: Dispersées et hétérogènes Détaillées Peu/pas adaptées à l analyse Volatiles: pas d historisation systématique Données pertinents informations dont la variation permet de dévoiler des dysfonctionnements ou même prévoir des problèmes futurs Types d'indicateurs Indicateurs internes: produits, services, fonctionnement, Personnel Indicateurs entrants/sortants: relations clients/fournisseurs Indicateurs externes: pouvoir d'achat des consommateurs, Réglementation, conjoncture du marché, concurrence, tendance technologique 15

Le processus de prise de décision Définir les objectifs Collecter les données Analyser Elaborer des Solutions Action de décision 16

Définition d un DW Le Data warehouse (entrepôt de données) est Une collection de données orientées sujet, intégrées, non volatiles et qui varie dans le temps, organisées pour le support d un processus d aide à la décision (Définition: [W. H. Inmon] ) Sujet Les données sont structurées par sujet ou par thème (clients, produits, personnel ) Données intégrées Les données sont issues du SIO de l'entreprise et éventuellement de sources externes à l'entreprise. Les différents données provenant de sources différentes (BDR, XML, fichiers plats, ) et hétérogènes sont intégrés et homogénéisées dans une structure unique. 17

Définition d un DW Homogénéisation: Synonymie :Par exemple deux attributs nom_salarié et nom_employe dans deux sources différentes désignent la même entité. Homonomie: deux noms identiques qui désignent des entités différentes. Une même information peut être exprimée dans deux sources avec des types ou des unités différentes. Les données sont non volatiles et historisées: la portée temporelle des données dans un DW et plus longue que celle des BDO. BDO: valeur courante des données. Les autres données sont soit détruites soit archivées. DW: les données sont historisées En général, dans un DW chaque donnée fait référence au temps. 18

Domaines d'applications Déterminer et contrôler la performance de l entreprise Mesurer et gérer les risques financiers. Planifier la stratégie Achat. Banque Risques d un prêt, prime plus précise Assurance Risque lié à un contrat d assurance (voiture) Santé Épidémiologie Risque alimentaire Marketing Améliorer la connaissance client Ciblage de clientèle Déterminer des promotions Logistique Adéquation demande/production 19

Data Marts ou magasins de données C'est un DW spécialisé dans un sujet ou un métier particulier (Finance, Marketing, ). Intérêt d'un DataMart Moins de données à gérer Amélioration des temps de réponse Plus simple à mettre en œuvre qu'un DW 20

Modèles de données Poste1 Poste2 Poste 3 Modèle de présentation Modèle de diffusion Modèle d'intégration Le modèle d'intégration unifie les données Le modèle de diffusion modélise la structure de l'entrepôt de données (Serveur OLAP). Le modèle de présentation définit la manière dont les données seront présentées à l'utilisateur. Base1:Base de données de production Base 2:Base de données de production Base3:Base de données de production 21

Les outils OLAP OLAP (On Line Analytical Processing): Ensemble des outils nécessaires pour la mise en place d'un Système d'information décisionnel (SID) 22

Les 12 règles OLAP Un système OLAP doit respecter les 12 règles suivantes (Edgar Frank Codd en 1993). Transparence: l'utilisateur doit accéder à la base par des outils standards Accessibilité: les sources qui servent à alimenter le système, doivent être facilement accessible à travers la structure logique de l'entrepôt Vue Dimensionnelle: les données sont structurées en dimensions métiers Dimension générique: Toutes les dimensions doivent avoir la même structure Architecture client serveur Gestion des matrices creuses Multi utilisateurs Simplicité d'utilisation Rapports de sortie ergonomiques Temps de réponse stable: le nombre de dimensions et la taille de la base peuvent augmenter sans influencer les performances du système. Nombre illimité de dimension et de niveaux d'agrégation: Croisement des dimensions: le système doit être capable de gérer les calculs associés entre les dimensions sans faire appel à l'utilisateur 23

Les outils OLAP Les outils relationnels OLAP (ROLAP) Les données sont stockées dans une base de données relationnelle, moteur OLAP permet de simuler le comportement d un SGBD multidimensionnel. Les outils MOLAP Utilisent un système multidimensionnel «pur» qui gère les structures multidimensionnelles natives (les cubes) Accès direct aux données dans le cube Les outils HOLAP (Hybrid OLAP) tables de faits et tables de dimensions stockées dans SGBD relationnel (données de base) données agrégées stockées dans des cubes 24

Le cube Modélisation multidimensionnelle des données facilitant l analyse d une quantité selon différentes dimensions: Temps Localisation géographique Produits Fournisseurs Clients Les calculs sont réalisés lors du chargement ou de la mise à jour du cube Un cube permet de visualiser les données selon plusieurs dimensions Un cuboïde est un cube de dimension n 25

treillis des cuboïdes 26

Exemple de cube 27

Treillis correspondant 28

Opérations typiques de l OLAP Roll up : consolider (résumer) les données : Passer à un niveau supérieur dans la hiérarchie d une dimension Drill down : l inverse du Roll up : descendre dans la hiérarchie d une dimension Slice et Dice (tranche et extraction): Projection et sélection du modèle relationnel Pivot (rotate): Réoriente le cube pour visualisation 29

Modélisation d'un DW Inconvénients du modèle Entité/Relation Schéma très/trop complet pour l'analyse des données Inapproprié pour l analyse Le modèle multidimensionnelle Concepts Les faits: mesurent l'activité ( exemple: quantité vendue) Dimensions: Axes d'analyse Attributs des dimensions Opérations sur les données Drill Down: une donnée agrégée est visualisée à un niveau de détail plus fin Consolidation: les données sont visualisées à un niveau plus agrégé Slicing and Dicing : visualisation des données selon différentes perspectives. Principe Ne pas trop normaliser les tables 30

Table de faits Table principale du modèle dimensionnel Contient les données observables (les faits) sur le sujet étudié selon divers axes d analyse (les dimensions) Clés étrangères vers les dimensions Faits Table de faits des ventes Clé Vendeur Clé produit Clé Mois Clé zone Quantité vendue Montant des ventes 31

Types des faits Fait additif: additionnable suivant toutes les dimensions (ex: chiffre d affaire) Fait semi additif: additionnable seulement suivant certaines dimensions Exemple : nombre de clients, dimension produit (un même client peut acheter plusieurs produits). Fait non additif: non additionnable quelque soit la dimension (comptage des faits ou affichage 1 par 1, ex: prix unitaire d'un produit) 32

Granularité ou finesse la table de faits La granularité définit le niveau de détails de la table de faits mois, jour, heure du jour région,magasin, rayonnage 33

Table de dimension Axe d analyse selon lequel vont être étudiées les faits Contient le détail sur les faits Dimension = axe d analyse Client, produit, temps Granularité d une dimension : nombre de niveaux hiérarchiques (ex: continent, pays, région, ville) Clé primaire Attributs de la dimension Dimension produit Clé produit (CP) Code produit Description du produit Famille du produits Marque Emballage Poids 34

Hiérarchie des dimensions Hiérarchie multiple Hiérarchie simple Année Continent Semestre Trimestre Mois Saison Date Semaine Pays Région Ville Quartier Rue 35

La dimension Date Commune à l ensemble du DW Reliée à toute table de faits Dimension Date ID Date (CP) Jour de la semaine Jour du mois Mois Trimestre Semestre Année Num_jour_dans_année Num_semaine_ds_année 36

Exemple de modèle en étoile Dimension Magasin ID magasin description ville surface Dimension Region ID région pays description district vente. Dimension Temps ID temps année mois jour Table de faits fi Achat ID client ID temps ID magasin ID région ID produit Quantité achetée Montant des achats Dimension i produit ID produit nom code prix poids groupe famille Dimension Client ID client nom prénom adresse 37

Le modèle en flocon Dérivé du modèle en étoile Les tables de dimension sont normalisées et le redondances sont éliminées. Comparaison étoile/flocon Flocon Le modèle en flocon permet de montrer les hiérarchies entre dimensions La normalisation dans le modèle en flocon permet de réduire la taille des tables. Etoile La dé normalisation du modèle permet d'améliorer les performances d'exécution des requêtes. Le modèle est plus facile à comprendre par l'utilisateur non informaticien Nombre de jointures limité. 38

Modèle en flocon Une table de fait et des dimensions décomposées en sous hiérarchies On a un seul niveau hiérarchique dans une table de dimension La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu elle a la granularité la plus fine Avantages: Normalisation des dimensions Économie d espace disque Inconvénients: Modèle plus complexe (jointure) Requêtes moins performantes 39

Dimension Magasin ID magasin description ville surface Dimension Division vente ID division vente description Continent Modèle en flocon Dimension Temps ID temps annee mois jour Dimension Region ID région ID division vente pays description. Dimension i produit ID produit ID groupe nom code prix poids Table de faits fi Achat ID client ID temps ID magasin ID région ID produit Quantité achetée Montant des achats Dimension Client ID client nom prénom adresse Dimension groupe ID groupe ID famille nom Dimension Famille ID famille nom 40

Etapes de modélisation d'un DW Choisir les processus métiers à modéliser : Exemple : le processus "vente". Définir la granularité de chaque processus: Définir ce que représente chaque enregistrement dans la table des faits (exemple : une ligne de ticket de caisse). Choisir les dimensions Exemple: date, produit, magasin, promotion Identifier les faits numériques: Les faits ayant des granularités différentes doivent appartenir à des tables de fais différentes. 41

Exemple Magasin ID magasin description ville surface Promotion ID région pays description district vente. Ventes ID Date ID magasin ID Promotion ID produit ID transaction POS Quantité Montant Coût Bénéfice brut Date ID client nom prénom adresse Produit ID produit nom code prix poids groupe famille 42

Magasin ID magasin description ville surface Promotion ID région pays description district vente. Exemple Ventes ID Date ID temps ID magasin ID Promotion ID produit ID transaction POS Quantité Montant Coût Bénéfice brut Produit ID produit nom Catégorie Marque Département groupe famille Date ID Date Date Date complète jour de la semaine Mois Année Mois fiscal Férié Week End 43

Types de dimension Dimension dégénérée Dimension à évolution lente Dimension à évolution rapide 44

Dimension dégénérée (Degenerate dimension) La dimension dégénérée est une clé de dimension dans la table des faits et qui n'est pas associée à une table dimension (exemples: numéro de POS, numéro de commande). 45

Dimensions à évolution lente Les attributs d'une dimension peuvent subir des changements. Un client peut changer d adresse, avoir des enfants,... Un produit peut changer de noms, de composition; 3 solutions possibles: Écrasement de l ancienne valeur Versionnement Valeur d origine / valeur courante. 46

Dimensions à évolution lente Solution 1: Écrasement de l ancienne valeur Avantage: Facile à mettre en œuvre Inconvénients: Perte de la trace des valeurs antérieures des attributs Solution 2: Ajout d un nouvel enregistrement. Avantages: Permet de suivre l évolution des attributs Permet de segmenter la table de faits en fonction de l historique Inconvénient: Accroit le volume de la table Solution 3: Ajout d un nouvel attribut Avantages: Avoir deux visions simultanées des données : Inconvénient: Inadapté pour suivre plusieurs valeurs d attributs intermédiaires 47

Dimension à évolution rapide Subit des changements très fréquents (tous les mois) dont on veut préserver l historique Solution: isoler les attributs qui changent rapidement et créer une mini dimension Dim client Clé_client Nom Prénom Adresse Revenus Nb_enfants Mini Dimension Clé Revenus Nb_enfants 48

Dictionnaire de données C'est un référentiel de métadonnées destiné aux utilisateurs et à l'administrateur du DW Une métadonnée permet de qualifier une données: sémantique, règle de calcul, provenance, qualité

Alimentation d'un DW Opérations sur les données Extraction Cette étape consiste à extraire d'une manière sélective les données appropriées. Transformation Filtrer, trier, homogénéiser, nettoyer Une même donnée peut avoir une structure ou une valeur différente selon la source (production, utilisateurs, externe). Une même entité peut apparaître plusieurs fois avec différents attributs selon les sources consultées. 50

Alimentation d'un DW Chargement dans l'entrepôt Opérations de calcul et d'agrégation. Définir la fréquence de chargement ( en général quotidiennement en début ou en fin de journée) ETL Outil permettant d automatiser les chargements dans l entrepôt 51