Data WareHouse
Plan Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation 2
Présentation Besoin: prise de décisions stratégiques et tactiques Quoi: productivité de l'entreprise, réactivité des hommes, clients Qui: le système de pilotage de l'entreprise (Décideurs) 3
Eléments de la théorie des SI Référentiel des complexités croissantes L'entreprise système. 4
Référentiel des complexités croissantes Objectif: fournir une échelle pour mesurer la complexité d'un système Niveau 1 : objet passif (une pierre) Niveau 2 : actif (ampoule électrique) Niveau 3 : actif et régulé, (l objet refuse certains comportements) L objet est doté d un autre processeur chargé de cette régulation (la cocotte minute). Niveau 4 : l objet s informe Le processeur de régulation s informe sur l activité du processeur actif. Ce modèle représente le schéma de base de la cybernétique 5
Référentiel des complexités croissantes 6
Référentiel des complexités croissantes Niveau 5: L objet décide de son activité On passe d un comportement programmé à un comportement imprévisible Information Décision. Processeur décisionnel Information représentation Processeur actif 7
Référentiel des complexités croissantes Niveau 6: L objet à une mémoire Le processeur décisionnel fait appel aux informations non seulement de l état actuel, mais aussi aux informations des états passés. Processeur Décisionnel Mémorisation Mémoire Processeur actif 8
Référentiel des complexités croissantes Niveau 7: L objet se coordonne Le processeur actif devient une fédération de processeurs coordonnés (système opérant). 9
Référentiel des complexités croissantes Niveau 8: L objet imagine et s auto organise : Elaborer des plans d actions Imaginer l organisation de ses sous systèmes 10
Référentiel des complexités croissantes Niveau 9 : l objet est capable de définir ses objectifs. Objectifs : SP Système finalisation (le SP est capable de changer ses objectifs) Système imagination conception SD 11
L'entreprise système Définition: Le SI est une représentation de l activité du SO et/ou du SP, et de ses échanges avec l environnement 12
Typologie des systèmes d'information SP SD SIC SF SIO SO SIP: Systèmes d information de production: Dans ces SI l information est gérée par le SO de l entreprise. SIO (systèmes d'information opérationnels):information de représentation et de coordination de l activité du SO destiné au sous système de régulation dans le SP. SID (Systèmes d information décisionnels). SIS : SI à portée stratégique SSI: SI d aide à la stratégie Autre notation :(Tardieu : Le triangle stratégique, structure et technologie de l information) Systèmes d information stratégiques SI S Systèmes d informations stratégiques S IS 13
Informatisation d'un SI SIO SII SIO: Système d'informatisation organisationnel, résultat de l activité de l entreprise (Informations, tâches humaines/informatisées) SII: Système d'information informatisé. Sciences de la gestion SIO (naturel) Disciplines du génie logiciel SII (artificiel) L état actuel des connaissances ne nous permet pas d avoir une méthode de complexité 8 ou 9 (SI auto adaptatif SI auto exécutif) donc les méthodes de conception actuelles modélisent l entreprise uniquement au niveau 7 de complexité. (À organisation stabilisée). 14
Les données pertinentes Sources de données Sources internes Bases de données de production Bases créées par les utilisateurs (bases relationnelles, fichiers plats). Sources externes Internet. Organismes Caractéristiques de ces données: Dispersées et hétérogènes Détaillées Peu/pas adaptées à l analyse Volatiles: pas d historisation systématique Données pertinents informations dont la variation permet de dévoiler des dysfonctionnements ou même prévoir des problèmes futurs Types d'indicateurs Indicateurs internes: produits, services, fonctionnement, Personnel Indicateurs entrants/sortants: relations clients/fournisseurs Indicateurs externes: pouvoir d'achat des consommateurs, Réglementation, conjoncture du marché, concurrence, tendance technologique 15
Le processus de prise de décision Définir les objectifs Collecter les données Analyser Elaborer des Solutions Action de décision 16
Définition d un DW Le Data warehouse (entrepôt de données) est Une collection de données orientées sujet, intégrées, non volatiles et qui varie dans le temps, organisées pour le support d un processus d aide à la décision (Définition: [W. H. Inmon] ) Sujet Les données sont structurées par sujet ou par thème (clients, produits, personnel ) Données intégrées Les données sont issues du SIO de l'entreprise et éventuellement de sources externes à l'entreprise. Les différents données provenant de sources différentes (BDR, XML, fichiers plats, ) et hétérogènes sont intégrés et homogénéisées dans une structure unique. 17
Définition d un DW Homogénéisation: Synonymie :Par exemple deux attributs nom_salarié et nom_employe dans deux sources différentes désignent la même entité. Homonomie: deux noms identiques qui désignent des entités différentes. Une même information peut être exprimée dans deux sources avec des types ou des unités différentes. Les données sont non volatiles et historisées: la portée temporelle des données dans un DW et plus longue que celle des BDO. BDO: valeur courante des données. Les autres données sont soit détruites soit archivées. DW: les données sont historisées En général, dans un DW chaque donnée fait référence au temps. 18
Domaines d'applications Déterminer et contrôler la performance de l entreprise Mesurer et gérer les risques financiers. Planifier la stratégie Achat. Banque Risques d un prêt, prime plus précise Assurance Risque lié à un contrat d assurance (voiture) Santé Épidémiologie Risque alimentaire Marketing Améliorer la connaissance client Ciblage de clientèle Déterminer des promotions Logistique Adéquation demande/production 19
Data Marts ou magasins de données C'est un DW spécialisé dans un sujet ou un métier particulier (Finance, Marketing, ). Intérêt d'un DataMart Moins de données à gérer Amélioration des temps de réponse Plus simple à mettre en œuvre qu'un DW 20
Modèles de données Poste1 Poste2 Poste 3 Modèle de présentation Modèle de diffusion Modèle d'intégration Le modèle d'intégration unifie les données Le modèle de diffusion modélise la structure de l'entrepôt de données (Serveur OLAP). Le modèle de présentation définit la manière dont les données seront présentées à l'utilisateur. Base1:Base de données de production Base 2:Base de données de production Base3:Base de données de production 21
Les outils OLAP OLAP (On Line Analytical Processing): Ensemble des outils nécessaires pour la mise en place d'un Système d'information décisionnel (SID) 22
Les 12 règles OLAP Un système OLAP doit respecter les 12 règles suivantes (Edgar Frank Codd en 1993). Transparence: l'utilisateur doit accéder à la base par des outils standards Accessibilité: les sources qui servent à alimenter le système, doivent être facilement accessible à travers la structure logique de l'entrepôt Vue Dimensionnelle: les données sont structurées en dimensions métiers Dimension générique: Toutes les dimensions doivent avoir la même structure Architecture client serveur Gestion des matrices creuses Multi utilisateurs Simplicité d'utilisation Rapports de sortie ergonomiques Temps de réponse stable: le nombre de dimensions et la taille de la base peuvent augmenter sans influencer les performances du système. Nombre illimité de dimension et de niveaux d'agrégation: Croisement des dimensions: le système doit être capable de gérer les calculs associés entre les dimensions sans faire appel à l'utilisateur 23
Les outils OLAP Les outils relationnels OLAP (ROLAP) Les données sont stockées dans une base de données relationnelle, moteur OLAP permet de simuler le comportement d un SGBD multidimensionnel. Les outils MOLAP Utilisent un système multidimensionnel «pur» qui gère les structures multidimensionnelles natives (les cubes) Accès direct aux données dans le cube Les outils HOLAP (Hybrid OLAP) tables de faits et tables de dimensions stockées dans SGBD relationnel (données de base) données agrégées stockées dans des cubes 24
Le cube Modélisation multidimensionnelle des données facilitant l analyse d une quantité selon différentes dimensions: Temps Localisation géographique Produits Fournisseurs Clients Les calculs sont réalisés lors du chargement ou de la mise à jour du cube Un cube permet de visualiser les données selon plusieurs dimensions Un cuboïde est un cube de dimension n 25
treillis des cuboïdes 26
Exemple de cube 27
Treillis correspondant 28
Opérations typiques de l OLAP Roll up : consolider (résumer) les données : Passer à un niveau supérieur dans la hiérarchie d une dimension Drill down : l inverse du Roll up : descendre dans la hiérarchie d une dimension Slice et Dice (tranche et extraction): Projection et sélection du modèle relationnel Pivot (rotate): Réoriente le cube pour visualisation 29
Modélisation d'un DW Inconvénients du modèle Entité/Relation Schéma très/trop complet pour l'analyse des données Inapproprié pour l analyse Le modèle multidimensionnelle Concepts Les faits: mesurent l'activité ( exemple: quantité vendue) Dimensions: Axes d'analyse Attributs des dimensions Opérations sur les données Drill Down: une donnée agrégée est visualisée à un niveau de détail plus fin Consolidation: les données sont visualisées à un niveau plus agrégé Slicing and Dicing : visualisation des données selon différentes perspectives. Principe Ne pas trop normaliser les tables 30
Table de faits Table principale du modèle dimensionnel Contient les données observables (les faits) sur le sujet étudié selon divers axes d analyse (les dimensions) Clés étrangères vers les dimensions Faits Table de faits des ventes Clé Vendeur Clé produit Clé Mois Clé zone Quantité vendue Montant des ventes 31
Types des faits Fait additif: additionnable suivant toutes les dimensions (ex: chiffre d affaire) Fait semi additif: additionnable seulement suivant certaines dimensions Exemple : nombre de clients, dimension produit (un même client peut acheter plusieurs produits). Fait non additif: non additionnable quelque soit la dimension (comptage des faits ou affichage 1 par 1, ex: prix unitaire d'un produit) 32
Granularité ou finesse la table de faits La granularité définit le niveau de détails de la table de faits mois, jour, heure du jour région,magasin, rayonnage 33
Table de dimension Axe d analyse selon lequel vont être étudiées les faits Contient le détail sur les faits Dimension = axe d analyse Client, produit, temps Granularité d une dimension : nombre de niveaux hiérarchiques (ex: continent, pays, région, ville) Clé primaire Attributs de la dimension Dimension produit Clé produit (CP) Code produit Description du produit Famille du produits Marque Emballage Poids 34
Hiérarchie des dimensions Hiérarchie multiple Hiérarchie simple Année Continent Semestre Trimestre Mois Saison Date Semaine Pays Région Ville Quartier Rue 35
La dimension Date Commune à l ensemble du DW Reliée à toute table de faits Dimension Date ID Date (CP) Jour de la semaine Jour du mois Mois Trimestre Semestre Année Num_jour_dans_année Num_semaine_ds_année 36
Exemple de modèle en étoile Dimension Magasin ID magasin description ville surface Dimension Region ID région pays description district vente. Dimension Temps ID temps année mois jour Table de faits fi Achat ID client ID temps ID magasin ID région ID produit Quantité achetée Montant des achats Dimension i produit ID produit nom code prix poids groupe famille Dimension Client ID client nom prénom adresse 37
Le modèle en flocon Dérivé du modèle en étoile Les tables de dimension sont normalisées et le redondances sont éliminées. Comparaison étoile/flocon Flocon Le modèle en flocon permet de montrer les hiérarchies entre dimensions La normalisation dans le modèle en flocon permet de réduire la taille des tables. Etoile La dé normalisation du modèle permet d'améliorer les performances d'exécution des requêtes. Le modèle est plus facile à comprendre par l'utilisateur non informaticien Nombre de jointures limité. 38
Modèle en flocon Une table de fait et des dimensions décomposées en sous hiérarchies On a un seul niveau hiérarchique dans une table de dimension La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu elle a la granularité la plus fine Avantages: Normalisation des dimensions Économie d espace disque Inconvénients: Modèle plus complexe (jointure) Requêtes moins performantes 39
Dimension Magasin ID magasin description ville surface Dimension Division vente ID division vente description Continent Modèle en flocon Dimension Temps ID temps annee mois jour Dimension Region ID région ID division vente pays description. Dimension i produit ID produit ID groupe nom code prix poids Table de faits fi Achat ID client ID temps ID magasin ID région ID produit Quantité achetée Montant des achats Dimension Client ID client nom prénom adresse Dimension groupe ID groupe ID famille nom Dimension Famille ID famille nom 40
Etapes de modélisation d'un DW Choisir les processus métiers à modéliser : Exemple : le processus "vente". Définir la granularité de chaque processus: Définir ce que représente chaque enregistrement dans la table des faits (exemple : une ligne de ticket de caisse). Choisir les dimensions Exemple: date, produit, magasin, promotion Identifier les faits numériques: Les faits ayant des granularités différentes doivent appartenir à des tables de fais différentes. 41
Exemple Magasin ID magasin description ville surface Promotion ID région pays description district vente. Ventes ID Date ID magasin ID Promotion ID produit ID transaction POS Quantité Montant Coût Bénéfice brut Date ID client nom prénom adresse Produit ID produit nom code prix poids groupe famille 42
Magasin ID magasin description ville surface Promotion ID région pays description district vente. Exemple Ventes ID Date ID temps ID magasin ID Promotion ID produit ID transaction POS Quantité Montant Coût Bénéfice brut Produit ID produit nom Catégorie Marque Département groupe famille Date ID Date Date Date complète jour de la semaine Mois Année Mois fiscal Férié Week End 43
Types de dimension Dimension dégénérée Dimension à évolution lente Dimension à évolution rapide 44
Dimension dégénérée (Degenerate dimension) La dimension dégénérée est une clé de dimension dans la table des faits et qui n'est pas associée à une table dimension (exemples: numéro de POS, numéro de commande). 45
Dimensions à évolution lente Les attributs d'une dimension peuvent subir des changements. Un client peut changer d adresse, avoir des enfants,... Un produit peut changer de noms, de composition; 3 solutions possibles: Écrasement de l ancienne valeur Versionnement Valeur d origine / valeur courante. 46
Dimensions à évolution lente Solution 1: Écrasement de l ancienne valeur Avantage: Facile à mettre en œuvre Inconvénients: Perte de la trace des valeurs antérieures des attributs Solution 2: Ajout d un nouvel enregistrement. Avantages: Permet de suivre l évolution des attributs Permet de segmenter la table de faits en fonction de l historique Inconvénient: Accroit le volume de la table Solution 3: Ajout d un nouvel attribut Avantages: Avoir deux visions simultanées des données : Inconvénient: Inadapté pour suivre plusieurs valeurs d attributs intermédiaires 47
Dimension à évolution rapide Subit des changements très fréquents (tous les mois) dont on veut préserver l historique Solution: isoler les attributs qui changent rapidement et créer une mini dimension Dim client Clé_client Nom Prénom Adresse Revenus Nb_enfants Mini Dimension Clé Revenus Nb_enfants 48
Dictionnaire de données C'est un référentiel de métadonnées destiné aux utilisateurs et à l'administrateur du DW Une métadonnée permet de qualifier une données: sémantique, règle de calcul, provenance, qualité
Alimentation d'un DW Opérations sur les données Extraction Cette étape consiste à extraire d'une manière sélective les données appropriées. Transformation Filtrer, trier, homogénéiser, nettoyer Une même donnée peut avoir une structure ou une valeur différente selon la source (production, utilisateurs, externe). Une même entité peut apparaître plusieurs fois avec différents attributs selon les sources consultées. 50
Alimentation d'un DW Chargement dans l'entrepôt Opérations de calcul et d'agrégation. Définir la fréquence de chargement ( en général quotidiennement en début ou en fin de journée) ETL Outil permettant d automatiser les chargements dans l entrepôt 51