Un système d informations permet à une entreprise de gérer toutes les données utiles, ainsi que leurs connaissances, pour lui permettre de garantir une certaine pérennité. Nous produisons une quantité énorme de données mais les données brutes sont peu utiles. Il faut des techniques pour y extraire des connaissances. Un SID doit donc être capable de transformer un ensemble de données brutes et éparpillées en un système organisé permettant de fournir, de manière optimisée, les données nécessaires à la prise de décision. On s en fou de savoir que tel voiture a été vendu tel jour à telle agence. Par contre, il est intéressant de regrouper toutes les ventes de voiture du mois x dans cette agence pour pouvoir comparer ensuite avec les objectifs. Finalement, le SID est un outil de décision mais aussi de comparaison. DataWareHouse Rassembler et transformer des informations en un SID amenant des informations sur les connaissances de décisions à prendre. Utile quand on se pose les questions «en quelle saison on vend le plus de véhicule?» ou «Quelle est la succursale qui vend le plus de V60?», etc. Les données des SGBD OLTP doivent être extraites, nettoyées, groupées pour créer un DATAWareHouse OLAP Différence entre OLTP et OLAP Les systèmes OLTP servent, en général, de source de données pour les systèmes OLAP qui sont quant à eux, source d analyse des données qui vont permettre d aboutir à la décision. OLTP et OLAP ont donc des objectifs opposés et ont un stockage de données différent faisant l objet de requêtes différentes. OLTP est un traitement transactionnel qui sert à effectuer des modifications en temps réel. L objectif est de pouvoir insérer et interpréter les données de la base de donnée. OLAP est avant tout une méthode d'analyse représentée par un cube. Quand on dit cube, cela signifie que le traitement de données se base sur un comportement en trois dimensions. Ce modèle offre une réelle souplesse dans son mode de requête. Il suffit juste de se baser sur des données disponibles dans la base pour générer une interprétation du chiffre d affaires selon un critère déterminé, comme par produit par exemple. Le but est donc de générer les indicateurs de résultat en fonction du contenu de la base de donnée. Exemple : Benoît Andrey 2ptb Page 1 sur 6
Des verbes associés aux SGBD oltp peuvent être ajouter, insérer, mettre à jour supprimer et au DW lire, regrouper, organiser, analyser. Les modèles multidimensionnels d un cube contiennent 2 attributs : les dimensions et les mesures. Les mesures sont les valeurs numériques que l on compare, par exemple les quantités vendues. Les dimensions sont les points de vue depuis lesquels les mesures peuvent être observées, par exemple saison, année, type, etc. La granularité d une dimension représente le nombre de niveau hiérarchique. Ex : année, trimestre, mois, jour, etc. Notion de slicing et de dicing. Il se peut qu on veuille seulement une partie du cube on peut alors le trancher par exemple si on veut que l année 2004. Il se peut également qu on veuille une partie quelconque seulement. On parle dans ce cas de dicing (découpage). Benoît Andrey 2ptb Page 2 sur 6
Concernant la granularité, on peut faire 2 opérations : un roll-up (rassemblement, moins de précision) ou un drill-down (encore plus détailler) : Modèles en étoiles et en flocon Les modèles sont composés de dimensions et de mesures. La dimension peut être définie comme un thème ou axe selon lequel les données seront analysées. Une dimension contient des membres en hiérarchie, c est-à-dire que chaque membre a un niveau de granularité particulier. Une mesure est un élément de donnée sur lequel portent les analyses en fonction des dimensions. Un fait est une valeur de la mesure. Par exemple : 57 voiture est le fait lié à la mesure «nombre voiture». La table des faits permet de récupérer historiquement les données nécessaires pour répondre à une question précise. Différence entre schéma en étoile et flocon Un schéma en étoile est une structure dimensionnelle qui représente une seule table de faits entourée par un seul cercle de dimensions. Toute dimension à niveaux multiples est aplatie en une seule dimension. Le schéma en étoile est conçu pour répondre à des requêtes inhérentes à la structure dimension-fait. Benoît Andrey 2ptb Page 3 sur 6
Un schéma en flocons de neige est aussi une structure dans laquelle une seule table de faits est entourée par un seul cercle de dimensions. Cependant pour toute dimension à niveaux multiples au moins un niveau de dimension est géré dans une structure séparée des autres niveaux. Le schéma en flocons de neige est conçu pour répondre à des requêtes sur une dimension ayant des relations complexes entre ses niveaux. Le schéma en flocons de neige est approprié aux dimensions dont les niveaux sont reliés par des relations n à n et 1 à n. Par ailleurs, le schéma en flocons de neige devient obligatoire pour une relation dimension-fait de n à n. MODELE EN ETOILE MODELE EN FLOCON Benoît Andrey 2ptb Page 4 sur 6
DataWareHouse Marche à suivre 1. Acquérir les données : chercher les données au bon endroit (SGBD, feuille de calcul,..) nettoyer et filtrer les données alimenter les données 2. Stockage des données : choisir le modèle MEDW OU MFDW 3. Restitution des données : choisir et mettre en avant les données souhaitées (à l aide de cube par exemple) Ou Marche à suivre globale : 1) La question? à Economiste d entreprise 2) Où sont les données, comment sont-elles organisées? 3) MLDR oui non, faut-il le modifier? 4) Choisir le serveur de DW, fichier excel 5) MEDW, fichier excel 6) Cube 7) Constats 8) Décisions Il existe 2 types de DataWarehouse : le standard, où on prend l ensemble des données du SGBD et le réduit, ou Datamart, où on prend seulement une partie spécifique choisie. Benoît Andrey 2ptb Page 5 sur 6
Type de questions 1) Quel est le type de ce modèle? 2) Quel est la table de dimension qui peut-être transformée en flocons? 3) Quel est la table des Faits? 4) Quelles sont les mesures? 5) Quels sont les constats que l on peut retrouver avec ce modèle? 6) Quels sont les cubes exploitables? 7) Quels sont les tendances des décisions qui peuvent apparaître dans ce cas? Rappel de ce qu on peut faire avec les cubes 1. Pivoter (pivot, swap) : interchanger 2 dimensions. 2. Forage vers le bas (drill-down) : descendre dans la hiérarchie de la dimension (Ex. visualiser les ventes par mois au lieu de par année). 3. Forage vers le haut (drill-up, roll-up) : remonter dans la hiérarchie de la dimension (Ex. visualiser les ventes par année au lieu de par mois). 4. Forer latéralement (drill-across) : Permet de passer d un membre de dimension à un autre (Ex. visualiser les ventes d ANNECY au lieu de celles de PARIS). Notation et conseil derniers cours Toujours une table dimension temps (99% des cas) La mesure chiffrable (ex : quantité vendu, CAN, etc.) se trouve dans la table des faits mais attention si on a une table de dimension commande par exemple, il y a aussi l information «quantité» mais cette fois c est la quantité par commande. (ex : j ai une commande de 5 articles, une de 3 articles et une de 2 articles ; dans la table commande j aurai ces données et dans la table des faits j aurai l addition, soit 10) Dans la table des faits, on met également les FK des tables de dimensions. Il est toutefois par impossible qu on ait une PK. En effet, certaines entreprises font une PK avec l ensemble des FK. On ne touche pas au SGBD Il ne faut pas faire trop de dimensions car sinon c est trop lourd, mais plus on a de dimensions et plus on peut faire de cubes différents La table des fait se nomme T_A1_01.05.2014 les données sont dynamiques chaque jour ça va changer importance de la date Dans un DataWarehouse, on fait de l HISTORISATION c est un outil de comparaison (tendance, etc.) ; dans un DataMart, c est l analyse précise d un cas. Une table de dimension se nomme T_dym_temps par exemple ; ça nous permet de savoir dans quel modèle on est plus facile de se retrouver quand on fait des recherches. Une dimension peut être de mesure (ex : table dimension commande) ou d axe (les 3 axes sur lesquels on va se concentrer temps, client, région pourrait être un exemple) Tout doit être contrôlé, adapté, regardé On ne va pas que dans un sens, on revient facilement en arrière c est lié à la gestion d un projet. Benoît Andrey 2ptb Page 6 sur 6