1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin, F-93017 Bobigny cedex Tél. : 33 1.48.38.73.07, Fax. : 33 1.48.38.73.55 thierry.hamon@univ-paris13.fr http://www-limbio.smbh.univ-paris13.fr/membres/hamon/bda-20122013 INFO2 BDA
2/26 Les entrepôts de données/data Warehouses La majeure partie des applications Bases de Données reposent aujourd hui sur trois couches : La couche la plus externe est celle de qui permet de présenter les données aux utilisateurs. Elle est appelée Graphical User Interfaces GUI. La couche application intermédiaire inclut le programme de l application Elle même et ne stocke pas les données. La couche la plus interne gère le stockage des données. Elle est appelée la couche Base de Données.
3/26 Les applications interrogent les données avec, par exemple, le langage SQL (Select) et les mettent à jour par l intermédiaire des opérations Insert, Update et Delete qui constituent des transactions. Celles-ci doivent avoir certaines propriétés ACID (Atomicité, Cohérence, Isolation et Durabilité) Ce type d application est appelé On-Line Transaction Processing OLTP.
4/26 Couche Présentation Graphical User Interfaces GUI GUI Couche Application OLTP Application OLTP Application Decision support System Insert, Update, Delete Read, Select Couche Base de Données BD1 BD2 Ressources externes (file system, ftp, www,...)
5/26 Données volumineuses & Besoins nouveaux Systèmes d Information Décisionnel Systèmes d Aide à la Décision : Rapports, Etats, Tableaux de Bord, Graphiques, Synthèses, Groupement, Agrégat, Résumé... (Reporting Tools, Management Information System, Executive Information System, Decision Support System DSS)
6/26 Remarques Contrairement aux applications OLTP, qui consultent et mettent à jour les données des BD opérationnelles, les DSS lisent les données seulement pour avoir de nouvelles informations à partir des données sources Bénéfice de cette approche : seules les BD opérationnelles ont à être créées et maintenues Un ensemble de méta-données est utilisés pour les 2 systèmes. Les DSS ne nécessitent que des travaux supplémentaires mineurs.
7/26 Remarques Cependant, plusieurs désavantages : (quand le DSS et les application OLTP se partagent les mêmes BD) Le DSS ne peut utiliser que les données actuellement stockées dans les BD donc les analyses historiques sont souvent impossibles à cause des opérations de mises à jour qui changent les données historiques L utilisation des BD en mode multi-utilisateurs ce qui implique des opérations de verrouillage des données (Locking operations) et donc des problèmes de performances car les requêtes analytiques demandent l accès à de très grands nombre de tuples.
8/26 La solution est de séparer la BD orientée Transaction de la BD orientée Aide à la Décision d où la naissance du concept Entrepôt de Données = Data Warehouse. Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles)
9/26 Définitions Définitions (Inmon 1996) Orienté Sujet : Le but des DWH est d améliorer la prise de décision, de planification, et le contrôle des sujets majeurs de l entreprise comme les relations entre les marchants, les produits, les régions contrairement des applications OLTP qui sont organisées autour des flux de données de l entreprise
10/26 Définitions Définitions (Inmon 1996) Données Intégrées : Les données dans un DWH sont chargées de differentes sources contenant des données sur différents formats. Les données doivent être vérifiées, triées et tranformées dans un format unifié afin de faciliter et accélérer l accès.
11/26 Définitions Définitions (Inmon 1996) Données Historisées : et donc datées : avec une conservation de l historique et de son évolution pour permettre les analyses comparatives (par exemple, d une année sur l autre, etc.). Dans un Datawarehouse un référentiel de temps est nécessaire : C est l axe temps ou période.
12/26 Définitions Définitions (Inmon 1996) Donnnées Non-volatiles : stables en lecture seule non modifiables Afin de conserver la traçabilité des informations et des décisions prises, les informations stockées au sein du Datawarehouse ne doivent pas disparaître...
13/26 Définitions Couche Présentation Graphical User Interfaces GUI GUI Couche Application OLTP Application OLTP Application Decision support System Insert, Update, Delete Read, Select Couche Base de Données BD2 BD1 Target DataBase Load DataWareHouse Ressources externes (file system, ftp, www,...)
14/26 Architecture Architecture des DWHs Méta données Sources externes Extraire Nettoyer Transformer Charger (Load) Intégrer Utiliser Rafraichir Maintenir Entrepot de données OLAP BD opérationnelles
15/26 Architecture Le DWH intègre des données à partir de sources multiples et hétérogènes afin de répondre aux requêtes du système d aide à la décision. Ce type d application est appelé On-Line Analytical Processing OLAP OLAP permet la transformation des données en informations stratégiques
16/26 Définition d un DWH Définition d un Data Warehouse Un système de DWH peut être formellement défini comme un triplet <BD cible, méta-données, un ensemble d opérations> L ensembles des opérations peut être présentés en 4 catégories (ETL, Agrégation et Groupement)
17/26 Définition d un DWH Définition d un Data Warehouse Extraction (Extraction) : Ces opérations permettent de filtrer les données à partir de données sources (BD, fichiers, sites web...) dans des BD temporaires. Transformation (Transformation) : Ces opérations permettent de transformer les données extraites dans un format uniforme. Les conflits entre les modèles, les schémas et les données sont résolus durant cette phase. Chargement (Load) : Ces opérations permettent de charger les données transformées dans la BD cible. La BD cible est souvent implantée avec un SGBD relationnel-objet. Agrégat et Groupement (Agregating and Grouping) : La BD cible doit permettre de stocker les données opérationnelles et les données issues de calculs.
18/26 Définition d un DWH Les données des entreprises sont généralement : Surabondantes Eparpillées Peu structurées pour l analyse Focalisées pour améliorer le quotidien Problème : Prise de décision difficile Solution : Apparition d outils et de techniques visant à préparer les données pour l analyse Data warehousing Il s agit d une technique visant à extraire des données de différentes sources afin de les intégrer selon des formats plus adaptés à l analyse et la prise de décision
19/26 BD vs. DWH Pourquoi pas des BDs pour Data WareHouse? les 2 systèmes sont performants SGBD calibrés pour l OLAP : méthodes d accès index, contrôle de concurrence, reprise WareHouse - calibrés pour l OLAP : requêtes OLAP complexes, vue dimensionnelle, consolidation Fonctions et données différentes Données manquantes : l aide à la décision a besoin des données historiques qui ne se trouvent pas dans les BD opérationnelles Consolidation : l AD a besoin de données consolidées (agrégats) alors qu elles sont brutes dans les BD opérationnelles
20/26 : Comparaison Data Ware House vs. SGBD hétérogènes Traditionnellement, l intégration de BD hétérogènes se fait par le biais de Wrappers/médiateurs au dessus des BDs hétérogènes Approches orientées requêtes Quand une requête est posée sur un site client, un métadictionnaire est utilisé pour le traduire en plusieurs requêtes appropriées à chacune des BD. Le résultat est l intégration de réponses partielles L exécution des requêtes demandent donc beaucoup de ressources DataWare House : approche orientée mise à jour les informations sont intégrées et stockées pour une interrogation directe. Plus efficace en coût d exécution des requêtes BD vs. DWH
21/26 : Comparaison BD vs. DWH DataWare house vs. BD opérationnelle OLTP (On-Line Transaction Processing) Exécution en temps réel des transactions, pour l enregistrement des opérations quotidiennes : inventaires, commandes, paye, comptabilité Par opposition au traitement en batch OLAP (On-Line Analytical Processing) Traitement efficace des requêtes d analyse pour la prise de décision qui sont par défaut assez complexes (bien qu a priori, elles peuvent être réalisées par les SGBD classiques)
22/26 BD vs. DWH : Comparaison DataWare house vs. BD opérationnelle : OLTP vs. OLAP Données : courantes, détaillées vs. historiques, consolidées Conception : modèle ER + application vs. modèle en étoile + sujet Vues : courantes, locales vs. évolutive, intégrée Mode d accès : mise à jour vs. lecture seule mais requêtes complexes
23/26 : Comparaison BD vs. DWH Systèmes OLTP Données exhaustives Données courantes Données dynamiques Données non volumineuses Orientés applications Utlisateurs nombreux Utilisateurs variés Mises à jour, interrogation Réquêtes simples Systèmes OLAP Données résumées Données historiques Données statiques Données Volumineuses Orientés sujets Utilisateurs peu nombreux Décideurs Intérrogations Requêtes complexes
24/26 Architecture du DWH Architecture et conception Dictionnaire de Méta données OLAP SERVER Oracle Express Data select (requetes) 01 00 11 01 00 11 MVS (TSO, DB2...) UNIX (Oracle,...) E(xtract) T(ransform) L(oad) DataWareHouse Oracle 9i (Olap) Business Objects (rapports, analyses) 01 00 11 01 00 11 SAS (Datamining) Windows (SQL Server, Excel,...) Data Marts 01 00 11 01 00 11 Applications en production Controle et chargement des données OLAP Outils Front End
25/26 Architecture et conception Conception logique des DWHs Données multidimentionnelles Montant des ventes comme une fonction des paramètres produits, mois région Région Dimensions : Produit, Lieu, Temps Chemins de consolidation hiérarchiques Année Industrie Région Catégorie Pays Trimestre Produit Produit Ville Magasin Mois Jour Semaine Mois
26/26 A suivre Architecture et conception Fouille de données