Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème



Documents pareils
Les Entrepôts de Données

Introduction à la B.I. Avec SQL Server 2008

et les Systèmes Multidimensionnels

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv>

Bases de Données Avancées

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

SII Stage d informatique pour l ingénieur

Plan. Ce qu est le datawarehouse? Un modèle multidimensionnel. Architecture d un datawarehouse. Implémentation d un datawarehouse

Les entrepôts de données

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Les types de fichiers

Bases de données multidimensionnelles et mise en œuvre dans Oracle

Business Intelligence : Informatique Décisionnelle

Urbanisation des SI-NFE107

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Entrepôt de données 1. Introduction

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

Fouille de Données : OLAP & Data Warehousing

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

LES ENTREPOTS DE DONNEES

Les entrepôts de données et l analyse de données

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

FreeAnalysis. Schema Designer. Cubes

XML : documents et outils

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Formation HTML / CSS. ar dionoea

2 Serveurs OLAP et introduction au Data Mining

Intégration de données hétérogènes et réparties. Anne Doucet

Techniques d optimisation des requêtes dans les data warehouses

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

ETL Extract - Transform - Load

et les Systèmes Multidimensionnels

BI = Business Intelligence Master Data-Science

Faculté Polytechnique de Mons. Le processus d Extraction, Transformation et Load (ETL) dans des entrepôts de données XML

Le Data Warehouse. Fait Vente. temps produit promotion. magasin. revenu ... Produit réf. libellé volume catégorie poids. Temps jour semaine date ...

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

Présentation du module Base de données spatio-temporelles

Mémoire de fin d études. Thème Conception et réalisation d un Data Warehouse pour la mise en place d un système décisionnel

Sommaire : Pourquoi créer un site web? Qu est-ce qu un site Web? Les différents types de sites. Quelles solutions peuvent être employées?

Business & High Technology

Media queries : gérer différentes zones de visualisation

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Option OLAP d'oracle Database 10g

HTML, CSS, JS et CGI. Elanore Elessar Dimar

Module BDWEB. Maîtrise d informatique Cours 9 - Xquery. Anne Doucet. anne.doucet@lip6.fr

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Chapitre 9 : Informatique décisionnelle

Oracle Décisionnel : Modèle OLAP et Vue matérialisée D BILEK

Les Entrepôts de Données. (Data Warehouses)

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

<?xml version="1.0" encoding="iso " standalone="yes"?>

Magento. Magento. Réussir son site e-commerce. Réussir son site e-commerce BLANCHARD. Préface de Sébastien L e p e r s

Introduction aux concepts d ez Publish

L INTELLIGENCE D AFFAIRE DANS LA VIE QUOTIDIENNE D UNE ENTREPRISE

UNIVERSITÉ MOHAMMED V AGDAL. FACULTÉ DES SCIENCES Rabat THÈSE DE DOCTORAT. Présentée par ELhoussaine ZIYATI Discipline : Sciences de l ingénieur

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

IBM System i. DB2 Web Query for System i : le successeur de Query/400? Oui, mais bien plus!!!

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Description des pratiques à adopter pour la mise à jour du layout en utilisant le gestionnaire de conception de Sharepoint 2013

LES GRANDES ETAPES DE CREATION D UN WEB DESIGN

L A B U S I N E S S. d a t a g i n f o r m a t i o n g a c t i o n

Base de Connaissances SiteAudit. Utiliser les Rapports Planifiés. Sommaire des Fonctionnalités. Les Nouveautés

Datawarehouse and OLAP

Ministère de l Enseignement Supérieur et de la Recherche Scientifique. Ecole nationale Supérieure d Informatique (ESI) (Oued Semar, Alger) Mémoire

Entrepôts de Données

L information et la technologie de l informationl

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Hervé Couturier EVP, SAP Technology Development

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

BUSINESS INTELLIGENCE

Méthodologie de conceptualisation BI

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Bases de Données OLAP

Faculté de Génie Chaire industrielle en infrastructures de communication. La technologie XML. Wajdi Elleuch

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

La problématique. La philosophie ' ) * )

SUGARCRM MODULE RAPPORTS

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

BIRT (Business Intelligence and Reporting Tools)

Gestion Électronique de Documents et XML. Master 2 TSM

Introduction à. Oracle Application Express

Gestion d identités PSL Exploitation IdP Authentic

Thierry BOULANGER. par la pratique. Bases indispensables Concepts et cas pratiques XML. 3 ième édition. Nouvelle édition

TP Conception de Datawarehouse Initiation à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Programmation Internet Cours 4

Guide de référence pour l achat de Business Analytics

Département Génie Informatique

SQL SERVER 2008, BUSINESS INTELLIGENCE

analyse Analyse de données avec le logiciel ABACUS Business Intelligence incluse

LE CONCEPT DU CMS CHAPITRE 1

QU EST-CE QUE LE DECISIONNEL?

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

Autour du web. Une introduction technique Première partie : HTML. Georges-André SILBER Centre de recherche en informatique MINES ParisTech

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Transcription:

Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration et de représentation différentes. Nous allons étudier deux techniques liées à ce problème. Les entrepôts de données (data warehouses) qui visent à regrouper des données en vue de leur analyse statistique et de leur exploitation en gestion stratégique. Le langage XML (extended Markup Language) qui définit un cadre générique de représentation de données (semi-)structurées. 286 287 Motivation L information accumulée dans les bases de données opérationnelles (exploitées pour la gestion quotidienne) est aussi utile pour une gestion plus stratégique de l entreprise. Les entrepôts de données (Data Warehouses) Le type de requêtes nécessaires (e.g. classer les clients en fonction de la fréquence de leur demande d interventions ) nécessite un traitement lourd, et donc ayant un impact sur les performances de la base de données opérationnelle, pas toujours aisément expressible en SQL, et impliquant parfois des données se trouvant dans des BD distinctes. Il est donc intéressant pour effectuer ce type de traitement de consolider les données dans une base de données spécifiquement conçue à cet effet : un entrepôt de données. 288 289

Qu est-ce qu un entrepôt de données Un entrepôt de données est une base de données Consolidant les données de bases de données opérationnelles, Utilisée en consultation et seulement mise à jour périodiquement, Organisée pour permettre le traitement de requêtes analytiques plutôt que transactionnelles (OLAP par rapport à OLTP). OLTP : On-line transaction processing. Petites transactions consistant en une recherche d informations et, souvent, une mise à jour. OLAP : On-line analytical processing. Grosses transactions impliquant une fraction importante des données réalisant, par exemple, un calcul statistique. De la base de données opérationnelle à l entrepôt de données Les informations contenues dans l entrepôt de données sont toutes issues des bases de données opérationnelles, mais leur schéma est en général différent, les mises à jour ne se font que périodiquement (par exemple tous les jours). On appelle extraction le processus par lequel les données opérationnelles sont transférées vers l entrepôt. Le schéma de l entrepôt peut être considéré comme une vue sur les données opérationnelles ; on parle de vue matérialisée vu que les relations correspondant à la vue sont effectivement créées. Il est utile, mais parfois difficile, de pouvoir mettre à jour les données de l entrepôt sans régénérer l entièreté de celui-ci ; on parle de mise à jour incrémentale. 290 291 Exemple Utilisation d un entrepôt par une entreprise de distribution. Les données de vente sont enregistrées dans les différents magasins (OLTP). Chaque nuit, les données des différents magasins sont transférées dans un entrepôt de données au siège de la firme. Les données de l entrepôt sont utilisée pour mettre au point des stratégies commerciales, des campagnes de promotion... L organisation des données d une entrepôt : les schémas en étoile On distingue habituellement deux types de données dans un entrepôt. 1. Les faits : grosse accumulation de données reprenant des faits simples, par exemple des chiffres de ventes ; 2. Les données dimensionnelles : données en quantité réduite, souvent statiques qui précisent des informations sur les éléments apparaissant dans les faits. 292 293

Exemple de schéma en étoile On considère en entrepôt de données dans lequel on accumule des informations concernant la consommation de bières dans les bars d une chaîne. Les faits sont accumulés dans une relation dont le schéma pourrait être vente(bar, biere, consommateur, date, heure, prix) Les données dimensionnelles pourraient être représentées dans des relations dont les schémas seraient les suivants : bars(bar, adresse, gerant) bieres(biere, taux_alcool, fabriquant) consommateurs(consommateur, adresse, date_naissance) Attributs de dimension et attributs dépendants On distingue deux types d attributs dans la table des faits : les attributs de dimension, les clés des relations dimensionnelles et les attributs dépendants, les valeurs déterminées par les attributs de dimension. Exemple : dans la relation vente, l attribut prix est un attribut dépendant déterminé par les attributs bar, biere, consommateur, date, heure. 294 295 Comment extraire des informations d un entrepôt? Il y a deux approches principales : 1. Exprimer les requêtes en SQL, on parle alors de ROLAP (relational on-line analytical processing). 2. Voir l entrepôt comme une base de données multidimensionnelle, dont le modèle est un cube à n-dimensions. Il y a une dimension du cube par attribut dimensionnel et les éléments du cube sont les valeurs des attributs dépendants. On parle alors de MOLAP (multidimensional on-line analytical processing). Les techniques ROLAP Une requête ROLAP est en général exprimée comme suit. 1. On calcule le joint de la table des faits et des relations dimensionnelles ; 2. On sélectionne des tuples en fonctions des données dimensionnelles ; 3. On groupe ces données suivant certaines dimensions ; 4. On calcule une valeur agrégée (le plus souvent une somme). 296 297

Un exemple de requête ROLAP Pour chaque bar d Angleur, trouver la somme des ventes de chaque bière produite par Interbrew. 2. On filtre le joint de la table des faits et des tables dimensionnelles par fabriquant = Interbrew et adresse = Angleur ; 3. On groupe le résultat par bar et biere ; 4. On agrège en calculant la somme de prix. ROLAP et problèmes d implémentation Les requêtes ROLAP peuvent être très coûteuses en ressources. Il y a des techniques qui permettent de les accélérer. Les index bitmaps. Il s agit d accélérer la sélection suivant les dimensions en créant pour chaque valeur des clés de dimension un vecteur de bits qui indique quels tuples de la table des faits ont cette valeur. Cela est très efficace pour gérer des sélections dimensionnelles multiples. Les vues matérialisées. On peut précalculer certains joints et ainsi créer des vues matérialisées. 298 299 L approche MOLAP : Exploiter un cube de données L approche MOLAP et les cubes de données (data cubes) Les clés des tables de dimension sont considérées comme les axes d un hypercube. Les attributs dépendants apparaissent comme les points du cube. Le cube peut aussi contenir des valeurs agrégées (en général la somme) suivant les axes, plans, hyperplans,...du cube. Dans l approche MOLAP, les requêtes consistent à effectuer les opérations suivantes. Sélectionner et agréger suivant certains axes (roll-up). Par exemple, grouper les bars par région. On parle aussi de slicing (sélectionner suivant une valeur) et de dicing (sélectionner suivant un domaine de valeurs). Désagréger certains groupements (drill-down). Par exemple, après avoir groupé les bières par taux d alcool, les séparer par fabriquant. Eliminer certaines dimensions (projeter), ce qui se fait en remplaçant les points du cube par les agrégats correspondants. On parle de pivoting. 300 301

La fouille des données La fouille des données (Data Mining) Le concept. Il s agit de trouver des informations dans un entrepôt, allant au delà de ce que l on peut aisément et efficacement exprimer avec une requête. Exemple. Dans une base de données de ventes, ventes{id_panier,produit} on essaie de trouver quels éléments apparaissent souvent simultanément. Le but est, par exemple, de cibler une offre promotionnelle ou de proposer des achats groupés. 302 303 La recherche des paires : Une approche naïve On se fixe un seuil de support (pourcentage de paniers dans lesquels une paire de produits apparaît) pour sélectionner les paires intéressantes. On calcule le joint de la relation ventes avec elle-même. On groupe par paires de produits. Le langage XML On sélectionne sur la fréquence. Problème : coût prohibitif. Solution : sélection a priori des articles isolés vendus fréquemment. Seuls ceux là peuvent apparaître dans les paires fréquentes. 304 305

Origine L origine se situe dans les langages d annotation de textes, permettant d ajouter à un texte des informations sur la nature de parties du texte ou des indications de mise en page. HTML est un tel langage d annotation qui prévoit un ensemble prédéfini d annotations possibles. SGML (Standard Generalized Markup Language) et XML qui en est une révision simplifiée permet d utiliser un ensemble définissable d annotations. SGML est assez ancien (standardisé en 1986), XML est plus récent (1998) et a en particulier été conçu pour être utilisé dans le cadre du Web. On peut voir HTML comme XML utilisé avec un ensemble particulier d annotations. XML et bases de données Dans une base de données, le schéma est fixé et conservé séparément des données. En XML, le schéma (précisé par les annotations) est incorporé dans les données. L intégration du schéma dans les données permet beaucoup de flexibilité. Le schéma et le contenu d une base de donnée peuvent donc facilement être représentés en XML, et ce indépendemment du type de base de données utilisé. XML est donc un format très utile pour exporter de l information d une base de données et l incorporer dans une autre. C est aussi une format utile pour extraire des informations d une base de données et les fournir à une application, par exemple un traitement de texte. 306 307 XML : exemples d utilisation Le programme des cours de l ULg L information sur les cours et programmes de cours de l ULg est maintenue dans une base de données. De cette base de données, on extrait l information dans le format XML. L information sous format XML est utilisée pour produire d une part le programme accessible par le Web (format HTML) et la version imprimée du programme de cours. Les documents sauvegardés par Open office Un fichier open office utilisé pour sauvegarder par exemple un document est une collection de fichiers XML comprimés. XML : exemples d utilisation - Open Office pwportb% ls -l total 8 -rw-r--r-- 1 pw pw-adm 5495 Apr 15 15:37 test.sxw pwportb% unzip test.sxw Archive: test.sxw extracting: mimetype inflating: content.xml inflating: styles.xml extracting: meta.xml inflating: settings.xml inflating: META-INF/manifest.xml pwportb% cat content.xml <!DOCTYPE office:document-content PUBLIC "-//OpenOffice.org//DTD OfficeDocument 1.0//EN" "office.dtd">... 308 309

La structure d un document XML : un exemple <note> <a>latour</a> <de>wolper</de> <sujet>rappel</sujet> <texte>ne pas oublier l examen de BD!</texte> </note> La première ligne déclare qu il s agit d un document XML et donne le codage des caractères utilisé. Le reste sont des éléments compris entre une annotation (tag) d ouverture (e.g.<note>) et de fermeture (e.g. </note>) et structurés sous forme d arbre (un élément peut en inclure d autres). Les attributs d une annotation <note date="15/04/2004"> <a>latour</a> <de>wolper</de> </note> Comme en HTML (<href="http://...">), une annotation peut avoir des attributs. Ceux-ci sont toujours compris entre guillemets. On a souvent le choix entre inclure une information sous forme d attribut ou d élément : <note> <date>15/04/2004</date> L élément est préférable quand il s agit de données ; l attribut est naturel quand il s agit de meta-données (informations au sujet des données). 310 311 Les définitions de types de documents Les éléments XML et leur signification Les éléments XML peuvent contenir directement de l information (du texte) ou d autres éléments. Pour que le document soit bien structuré, les annotations d ouverture et de fermeture doivent se correspondre, ce qui donne au document une structure d arbre. Chaque document comporte un élément de départ appelé élément racine (root element). Les annotations n ont pas de signification par elles-même, mais peuvent être interprétées par une application qui traite le document. Un document XML est bien formé (well formed) s il est syntaxiquement correct. Il est valide (valid) s il est conforme à une définition de type de document (data type definition - DTD). La définition du type de document est mentionnée dans l entête (ou dans un fichier auxiliaire mentionné dans l entête). <!DOCTYPE note [ <!ELEMENT note (a,de,sujet,texte)> <!ELEMENT a (#PCDATA)> <!ELEMENT de (#PCDATA)> <!ELEMENT sujet (#PCDATA)> <!ELEMENT texte (#PCDATA)> ]> <note>... </note> 312 313

Les définitions de types de documents - 2 La définition d un type de document définit les éléments qui peuvent apparaître dans le document, ainsi que les annotations correspondantes. <!ELEMENT note (a,de,sujet,texte)> indique que l élément annoté note comporte quatre sous éléments. <!ELEMENT a (#PCDATA)> indique que l élément annoté a est constitué de texte (Parsed Character Data). Le parsed indique que le texte sera analysé pour y détecter des annotations éventuelles. <!ELEMENT a (#CDATA)> indiquerait que le texte ne doit pas être analysé. Les définitions de types de documents - 3 Lorsque l on décrit la liste des constituants d un élément, on peut préciser la répétition de certains éléments :? zéro ou une fois, * zéro fois ou plus, + une fois ou plus. Exemple : <!ELEMENT note (message+)> Un choix est indiqué par le symbole. Exemple : <!ELEMENT note (a,de,header,(message texte))> 314 315 Les définitions de types de documents attributs et références Dans la définition d un type de document, on peut bien sûr aussi préciser les attributs des différents éléments et leur nature. Exemple : <!ATTLIST note date type CDATA #REQUIRED> Le dernier élément est la valeur par défaut ; #REQUIRED indique qu il n y en a pas et qu une valeur doit figurer dans le document pour l attribut. Différents types sont possibles pour les attributs ; les suivants sont un peu particuliers : ID un identificateur unique de l élément, IDREF une référence à un (identificateur d ) élément, IDREFS une liste de d identificateurs d éléments. Cela permet de faire référence au même élément à plusieurs endroits d un document. Documents XML et Web Les navigateurs Web peuvent interpréter le XML. Toutefois, sans information additionnelle, ils sont limités à donner la structure du document sans pouvoir interpréter les annotations. Une information de mise en page peut être donnée dans des feuilles de style (styles sheets). Un format utilisé est celui des cascading style sheets - CSS. Une autre possibilité est d écrire du HTML, mais en se conformant au format XML ; il s agit du XHTML. 316 317

Documents XML avec feuille de style <?xml-stylesheet type="text/css" href="note-style.css"?> <!DOCTYPE note [ <!ELEMENT note (a,de,sujet,texte)> <!ELEMENT a (#PCDATA)> <!ELEMENT de (#PCDATA)> <!ELEMENT sujet (#PCDATA)> <!ELEMENT texte (#PCDATA)> ]> <note> <a>latour</a> <de>wolper</de> <sujet>rappel</sujet> <texte>ne pas oublier l examen de BD!</texte> </note> Exemple de feuille de style note { background-color: #ffffff; width: 100%; } a{ display: block; color: #00FF00; margin-left: 0; font-size: 20pt; } de { display: block;color: #FF0000; font-size: 20pt; } sujet { Display: block; color: #0000FF; font-size: 20pt; } texte { Display: block; color: #000000; margin-top: 20pt; margin-left: 20pt; font-size: 20pt; } 318 319