Informatique décisionnelle (Première partie) Emmanuelle Cravoisier
Informatique décisionnelle Concepts Présentation de Business Objects Conception d un univers Business Objects Structure générale d une base ED Construction et mise à disposition Quizz Glossaire Références
Concepts Pourquoi un entrepôt de données? Pour avoir une vue d ensemble de l activité traitée 350 400 350 300 250 200 150 100 50 0 Année 1 Année 2 Année 3 300 250 200 150 100 50 0 Etudiants Diplômés Enseignants Iatos Budget (KF) Reliquat (KF) Exemple de tableau de bord : quelques indicateurs pour une unité de formation et de recherche donnée.
Concepts Quelles difficultés à prendre en compte? Les sources de données évoluent à des rythmes différents Les sources de données sont techniquement hétérogènes et de qualité variable Il existe une hétérogénéité structurelle liée aux différentes représentations de l entreprise selon les métiers traités.
Concepts Comment réaliser un entrepôt de données? Extraction d informations sélectionnées dans les bases de données «sources» Vérification et, le cas échéant, transformation Injection dans une base de données «cible» Restitution de tableaux de bord et d indicateurs.
Concepts Bases sources Base cible Base source 1 Couche n Base source 2 Extracteur Transformeur Chargeur Outil d infocentre Etats, Web,... Base source 3 Couche 1 Schéma de principe de chargement d un ED
Concepts Quelles étapes dans un projet d entrepôt de données? La définition du cahier des charges La constitution d un méta-dictionnaire Le méta dictionnaire est constitué des méta données du projet. Il comprend les définitions générales et détaillées sur les notions utilisées (agrégats, tables de fait) dans la base cible de l entrepôt de données Le méta dictionnaire précise la définition des données, la façon dont elles sont calculées à partir des données issues des bases sources
Concepts Quelles étapes dans un projet d entrepôt de données? La collecte ou datapumping et l intégration dans une base de données cible (utilise les outils d ETL) : cette étape s appuie sur la gestion des méta données La diffusion des données auprès des utilisateurs et la gestion des conditions d accès à l information L administration : supervision de toutes les tâches précédentes.
Concepts Objectif de l entrepôt de données Mettre à disposition des données permettant de réaliser des tableaux de bord à double vocation : constat et/ou prévision Les tableaux de bord contiennent des indicateurs placés au croisement d une ligne et d une colonne Les utilisateurs des données doivent pouvoir les interroger de manière simple et en autonomie.
A l Université de Picardie, c est Datastage d IBM (ETL) et BO (outil d infocentre) qui sont utilisés depuis de nombreuses années. Concepts Les outils utilisés : ETL ou ETC : IBM, Oracle, Talend Outil d infocentre ou de Reporting : Business Objects, Cognos, SAP BW, etc Liste d'outils décisionnels
Présentation de Business Objects L outil s appuie sur deux notions importantes : les univers et les objets du métier. Un univers est une représentation totale ou partielle de la base de données, correspondant à des besoins particuliers d un utilisateur et constitué d un ensemble d objets du métier Ces objets sont des informations élémentaires, calculées ou agrégées, issues de la base de données L utilisateur qui travaille sur un univers choisit les objets qu il souhaite sélectionner, spécifie les restrictions ou les tris.
Présentation de Business Objects Business Objects dispose d une interface de définition de requêtes de haut niveau. Il permet en effet de masquer la structure de la base de données à l utilisateur L utilisateur ne manipule pas des noms de tables ou de colonnes, mais des noms d objets correspondant à sa vision du système. Il n a pas à définir les liens à établir entre les différentes relations (jointures), ni les critères de groupement Les objets agrégés sont sémantiquement dynamiques : par exemple, le chiffre d affaires, prendra un sens par rapport au contexte de l utilisateur qui définira des requêtes en associant les "objets du métier" (chiffre d affaires par client, par produit).
Présentation de Business Objects
Présentation de Business Objects Architecture simplifiée de BO XI Administration ; gestion des utilisateurs et des groupes avec leurs droits associés, gestion de contenu (univers, connexions d univers), gestion de serveur : CMC (Central Management Console) Conception des univers : Designer Interrogation et analyse : Infowiew (client web), Web Intelligence (client web), Desktop Intelligence (client/serveur) Intégration des données : Data integrator (logiciel d ETL).
Présentation de Business Objects
Conception d un univers BO Quelques définitions Business Objects Indicateur : nombre, somme, minimum, maximum. Il s agit toujours d un nombre et il correspond aux cases de notre tableau de bord Dimension : entité dont le tableau de bord va énumérer les valeurs en ligne ou en colonne. C est la base de l analyse
Conception d un univers BO Quelques définitions Business Objects Classes : regroupement des indicateurs et dimensions. Les classes peuvent elles-mêmes se découper en sous-classes Univers : ensemble de classes basé sur la connexion à une base de données Tableau à deux dimensions : glissement de deux dimensions et d un indicateur dans la fenêtre de création de rapport (génération automatique d une requête SQL)
Conception d un univers BO
Conception d un univers BO Quelques définitions Business Objects Hiérarchie : une dimension appartient souvent à une hiérarchie. La hiérarchie permet d ordonner les dimensions et de changer de niveau d analyse. L intérêt? Mettre en évidence la cause de certains faits. On parle alors d analyse dimensionnelle.
Conception d un univers BO Quelques définitions Business Objects L analyse dimensionnelle peut être descendante (vers les détails) ou montante (vers les regroupements.
Conception d un univers BO Quelques définitions Business Objects Du tableau à l hyper cube : Le tableau : indicateur au croisement de deux dimensions Le cube : ajout d un axe d analyse supplémentaire L hypercube : ajout d un axe d analyse supplémentaire, on obtient alors un cube à plus de 3 dimensions Rotation des dimensions ou «tranches» de cube : il s agit de rendre constantes certaines dimensions pour revenir à un tableau à 2 dimensions
Conception d un univers BO Comment définir une structure efficace? Elle doit être claire et logique : logique des utilisateurs et bon sens et non pas logique du MCD sous-jacent Un seul chemin pour atteindre une donnée L utilisation des données doit être sécurisée Toutes les dimensions doivent être définies dans des hiérarchies.
Conception d un univers BO Les objets de l univers : Les noms des objets (et des classes) doivent être choisis dans le langage des utilisateurs et dans le langage courant Les noms des objets doivent être normalisés Chaque dimension doit avoir une liste de valeurs associée ; une liste de valeur permet par une liste déroulante de choisir une valeur par le libellé associé à un code.
Conception d un univers BO Listes de valeur Les listes de Valeur (Lov) sont en général accessibles par l objet information de la dimension associée.
Structure générale d une base ED Table de fait : Une table de base de l entrepôt va comprendre au moins un indicateur élémentaire et des dimensions, cet indicateur élémentaire peut être un nombre entier compris entre 0 et 1 (pour compter un élément) ou un nombre entier ou décimal (pour représenter une quantité)
Structure générale d une base ED Table de fait : Une table de ce type est appelée «table de fait». Un fait est représenté par la valeur d un indicateur élémentaire associé à une série de dimensions : il est numérisé pour pouvoir être utilisé en somme, moyenne, maximum ou minimum. Les entités qui caractérisent les faits sont des «dimensions».
Structure générale d une base ED Table de fait (conditions de création) : Le même «fait» apparent peut être lié à des dimensions sans rapport entre elles (exemple inscription administrative et pédagogique) Le domaine de définition d un indicateur pose problème En généralisant, si des dimensions sont dans des hiérarchies différentes, on a intérêt à faire des tables de fait séparées Cela n empêche pas que d autres dimensions complètement indépendantes du fait lui-même, soient liées au fait
Structure générale d une base ED Table de fait (conditions de création) : Un fait peut donc être représenté comme un indicateur élémentaire associé à une hiérarchie de dimensions intrinsèque au domaine mesuré (liée à un indicateur au moins).
Structure générale d une base ED Table de dimension : Une table de ce type contient pour chaque dimension au moins un libellé. C est ainsi que l on obtient un modèle en «étoile» caractéristique des entrepôts de données ; une table de fait au centre et les tables de dimensions liées à chaque dimension de la table de fait.
Poste_affecte date_de_chargement annee code_composante_ed code_structure_affectation n_occupation n_seq_affectation code_pers date_de_naissance sexe code_structure_e_ou_c code_categorie code_grade code_corps code_cnu_poste code_cnu_agent code_discipline_2 date_debut_contrat_trv date_fin_contrat_trv date_debut_carriere date_fin_carriere date_debut_affectation date_fin_affectation age quotite tem_enseignant tem_element_provisoire tem_hdr tem_type_enseignant tem_statut Lib_tem_statut tem_statut libelle_statut Identite_personnel code_pers date_de_chargement nom prenom Lib_tem_type_enseignant tem_type_enseignant libelle_ tem_type_enseignant Lib_tem_element_provisoire tem_element_provisoire libelle_ tem_element_provisoire Lib_tem_hdr tem_hdr libelle_ tem_hdr Lib_grade code_grade date_de_chargement libelle_grade Lib_corps code_corps date_de_chargem ent libelle_corps Lib_structure code_structure date_de_chargement libelle_structure Lib_tem_enseignant tem_enseignant libelle_ tem_enseignant Lib_discipline code_discipline_2 date_de_chargement libelle_ discipline Lib_structure code_structure date_de_chargeme nt libelle_structure Exemple de modèle en étoile
Structure générale d une base ED Si une dimension est hiérarchisée, sa table contiendra non seulement un libellé, mais en plus un renvoi vers la dimension de niveau supérieur On obtient alors un schéma «en flocon» Dans la pratique pour éviter les jointures multiples, pour des raisons de performance, on revient souvent au schéma en étoile en «dénormalisant» les tables de dimensions hiérarchisées.
Structure générale d une base ED Il faut prendre garde à ne pas faire glisser une dimension en un fait, on se prive alors de la puissance du langage SQL
Structure générale d une base ED Les agrégats : Les tables d agrégat sont des tables dans lesquelles une partie des additions, moyennes, maxima ou minima est calculée par avance. Il ne s agit que d une optimisation éventuelle de performance au cas où une table de fait contiendrait énormément de lignes On va alors regrouper des lignes par des ordres SQL simples avec la fonction «aggregate aware» de business objects et respecter la hiérarchie de la table de fait.
Construction et mise à disposition Le couple indicateur/dimension est le pivot central de la construction de l ED, il reste cependant à définir la dimension historique de l alimentation des tables de la base et à répartir les travaux nécessaires à la construction de l entrepôt et à sa mise à disposition entre les outils dont nous disposons.
Construction et mise à disposition Dimensions historiques Les faits eux-mêmes sont historiques L entrepôt est une succession de photographies des faits prises à différents moments ; il faut donc inclure dans chaque table la date de «prise de vue» et on en tiendra compte dans toutes les interrogations Il y a donc deux dimensions historiques : une inhérente aux faits et une autre provenant du processus d alimentation de la base ED.
Construction et mise à disposition Schéma général de construction et de mise à disposition de l ED 1. Définition des indicateurs et des dimensions 2. Création des tables nécessaires : l outil est le langage SQL de définition de la structure de la BDD 3. Extraction des données des bases de gestion, hiérarchisation de ces données, combinaison éventuelle par des règles précises : outil SQL ou outil spécifique d ETL (rapidité, maintenance, évolution des scripts)
Construction et mise à disposition Schéma général de construction et de mise à disposition de l ED 4. Création d un environnement d exploration (univers business objects) ; rangement des données selon la logique des utilisateurs, sécurisation, utilisation des hiérarchies, codification des noms des classes et des objets, mise en place de listes de valeurs : l outil est le module «designer» de BO 5. Création de rapports périodiques prédéfinis : l outil est le module «infoview» de BO 6. Exploration des données : l outil est le module «infoview» de BO.
Construction et mise à disposition Répartition des tâches entre les différents acteurs Le point 1 se fait en étroite collaboration entre les informaticiens et les utilisateurs des bases de gestion Les points suivants sont à la charges des informaticiens Le point 6 est à la charge de l utilisateur.
Quizz Caractéristiques Base de données Entrepôt de données Opération Modèle de données Données Mise à jour Niveau de consolidation Perception Opérations Taille
Quizz Caractéristiques Base de données Entrepôt de données Opération gestion courante, production analyse, support à la décision Modèle de données entité/relation 3NF, étoile, flocon Données actuelles, brutes historisées, parfois agrégées Mise à jour immédiate souvent différée Niveau de consolidation Faible élevé Perception Bidimensionnelle multidimensionnelle Opérations lectures, mises à jour, suppressions Taille Gigaoctets téraoctets lectures, analyses croisées,rafraîchissements
Glossaire datawarehouse : entrepôt de données datamart : petit entrepôt de données à l'échelle d'un département ou succursale d'une grande société. Généralement un datamart déverse ses données chez sa mère qui est le datawarehouse OLTP : OnLine Transactonal Processing. Il s'agit des traitements transactionnels. Par exemple, les logiciels des caisses enregistreuses des chaines de magasins font du OLTP. OLAP : OnLine Analytical Processing. Opposé à l'oltp, faire de l'olap signifie faire de l'analyse de données. Analyser les ventes, détecter les fraudes, prospecter des clients font partie du processus OLAP. ETL : un outil ETL (Extraction/Transformation/Loading) permet à partir de diverses sources de données, d'extraire de l'information, de faire des transformations afin de nettoyer les données et de charger des données utiles dans l'entrepôt de données.les sources de données peuvent être diverses (HTML,XML,Base de données, fichiers texte, tableurs, ERP etc..). Serveur d'analyse : un serveur d'analyse ou serveur OLAP est un serveur de base de données multidimensionnelle. Exemple : Analysis Server est un serveur de bases multidimensionnelles. Base de données multidimensionnelle : une base de données multidimensionnelle par opposition à une base de donnée relationnelle est une base dénormalisée ou il existe une table centrale (table de fait) liée à toutes les autres tables (tables de dimension).
Glossaire Table de fait : comme son nom l'indique, une table de fait est une table contenant tous les faits du SI et dont dépendent toutes les autres tables. Cette table ne contient que des clés étrangères venant des tables de dimension et des valeurs numériques appelées mesure. Exemple de table de fait : table des Ventes Tables de dimension : les tables de dimension sont des tables servant d'axes d'analyse. On peut par exemple analyser les ventes (table de fait) suivant l'axe des temps (table de dimension) pour indiquer par exemple pendant quel trimestre de l'année les ventes ont explosé. Mesure :une mesure est une quantité présente dans la table de fait qui permet de mesurer les faits. Par exemple, nombre de vente ou prix unitaire sont des exemples de mesures. Cube : un cube de données est une structure dimensionnelle comme une table est une structure relationnelle. Un cube est constitué d'un ou plusieurs tables de faits avec leurs tables de dimension. On peut par exemple considérer un cube vente contenant sa table de fait " vente " et ses tables de dimensions " clients ", " région " et " temps ". Niveau de hiérarchie : un niveau de hiérarchie se définit au niveau des tables de dimensions. Cela permet d'agréger les données. Par exemple, supposons qu'on ait la dimension région contenant la liste des villes, on pourrait faire un niveau de hiérarchie(niveau 1) classant les villes en région, ensuite un niveau plus bas qui les classerait en département (niveau 2).