Entrepôts de Données
|
|
|
- Dominique Boutin
- il y a 10 ans
- Total affichages :
Transcription
1 République Tunisienne Ministère de l Enseignement Supérieur Institut Supérieur des Etudes Technologique de Kef Support de Cours Entrepôts de Données Mention : Technologies de l Informatique (TI) Parcours : Développement des Systèmes d Information (DSI) Semestre : S5 Volume horaire : 22.5 h /semestre (à raison de 1.5h /semaine) Coefficient : 1.5 Enseignante: Amira SEDIKI Année Universitaire
2 Présentation du cours Ce cours est conçu comme une introduction à l informatique décisionnelle. Il présente les notions de base des entrepôts de données ainsi que ceux de la fouille de données : ETL,Cube de données, table de fait, table de dimension, datamarts, méta-données, ECD, apprentissage supervisé et non supervisé. Les concepts seront illustrés par une application de la fouille de données avec les arbres de décisions. Niveaux cibles : Étudiants de la troisième année, Semestre 5, option DSI Pré-requis : Base de données, Méthodologies de Conception, Atelier Système d'information Formule pédagogique : Exposé informel Moyens pédagogiques : Tableau Support de cours Méthodologie : Cours intégré Travaux dirigés (réalisation et correction d exercices) Volume Horaire : 22.5 heures de cours intégré Objectifs Généraux - Développer des habiletés de construction d'un entrepôt de données - Développer les habilités d'analyse de données Objectifs Spécifiques - Comprendre l'importance de l'information dans les métiers, - analyser les limites des systèmes de production existants pour les besoins en traitement de l'information, notamment dans les applications décisionnelles - introduire le concept d'entrepôt de données comme une solution alternative et en décrire les propriétés. 1
3 - Distinguer les différents niveaux de stockage de données qui composent une architecture à base d'entrepôt et comprendre les étapes de la construction de ces niveaux de stockage. - Comprendre les concepts du modèle de données multidimensionnel et introduire les opérateurs sur des cubes multidimensionnels ; - Comprendre les modèles de données ROLAP et les difficultés de cette modélisation - Comprendre la notion d'information cachée dans les données et les différents types d'algorithmes pour fouiller les données et trouver de l'information. Eléments de Contenu I- Objectifs des entrepôts de données. II- Architecture des systèmes à base d'entrepôts de données et Technologies OLAP, ROLAP, MOLAP III- Modélisation multidimensionnelle et Méthodes de conception des entrepôts. IV- Objectifs de la fouille de données : application l arbre de décision Évaluation : 1 test, 1 DS et un examen final écrits Bibliographie : Cours de ESPINASSE B., Université Aix-Marseille. Han J., Kamber M., «Data Mining: Concepts and Techniques», Morgan Kaufmann Publishers, Cours de PREUX Ph., Université de Lille 3. 2
4 Table des matières Chapitre 1 Introduction aux Entrepôts de données Importance de l information dans les métiers Informatique décisionnel vs Informatique de production Informatique de Production Informatique Décisionnel Définition de data warehouse...8 Chapitre 2 Architecture des systèmes à base d entrepôt de données Les niveaux fonctionnels de l architecture Structure générale des données d un ED Axe historique et axe synthétique Les méta données Architectures des serveurs OLAP Systèmes MOLAP (Multidimensionnel OLAP) Systèmes ROLAP (Relationnal OLAP) Systèmes HOLAP (Hybrid OLAP) Alimentation d un Entrepôt de données Sélection des données sources Extraction des données Nettoyage et Transformation Chargement Utilisation, exploitation Agrégats et navigation Visualisation...21 Chapitre 3 Modélisation multidimensionnelle Concept de base de la modélisation multidimensionnelle La notion de dimension La notion de fait La notion de cuboïde Notion de Cube de données Notion de dimensions multi-niveaux Hiérarchies de concepts d une dimension Opérations sur le data cube Opération Slice L opération Dice L opération Pivot L opération Drill-down Conception d un entrepôt de données Approches de Conception Schéma Conceptuel d un entrepôt de données Schéma en flocon Schéma en constellation...33 Chapitre 4 Introduction à la fouille de données Définition de la fouille de données? Le processus ECD Méthodes de fouille de données Apprentissage supervisé et non supervisé Les arbres de décision
5 Problèmes fondamentaux pour construire un arbre L algorithme ID Calcul de l entropie Exemple de mise en oeuvre
6 Chapitre 1 Introduction aux Entrepôts de données Objectifs spécifiques Introduire l importance de l information dans les métiers Introduction des limites des systèmes de production existants Introduire le concept d entrepôt de données Eléments de contenu I. Importance de l information dans les métiers II. Informatique décisionnel vs Informatique de production III. Définition de datawarehouse Volume Horaire : Cours : 1,5 heures TD : 0 heure 1.1 Importance de l information dans les métiers Les sociétés de téléphone gardent au moins un an les positions géographiques et les consommations de leurs abonnés mobiles. Les grands magasins et les entreprises de vente par correspondance (VPC) conservent les achats de leurs clients (tickets de caisse en grande distribution, commandes en VPC), collectent des informations sur leurs clients grâce à des systèmes de cartes de fidélité ou de crédit, et achètent des bases de données géographiques et démographiques. Les sites web conservent des traces de connexions sur leurs sites marchands. En résumé, les entreprises en secteur très concurrentiel conservent les données de leur activité et achètent même des données. Les motifs qui ont présidé à la conservation de ces données étaient : des obligations légales pour pouvoir justifier les facturations, des raisons de sécurité pour pouvoir détecter les fraudes, des motifs commerciaux pour suivre l'évolution des clients et des marchés. Quelle que soit la raison initiale, les entreprises se sont rendues compte que ces données pouvaient être une source d'informations à leur service. Ce constat, valable pour les sociétés du secteur marchand, peut être 5
7 étendu à de nombreux domaines comme la médecine, la pharmacologie. Il faut donc définir des environnements permettant de mémoriser de grands jeux de données et d'en extraire de l'information. Les structures qui accueillent ce flot important de données sont des entrepôts de données ou data warehouse. Ils sont construits sur une nouvelle architecture bien différente de celle prévue pour l'informatique de production, basée elle sur des systèmes de gestion de bases de données relationnelles et des serveurs transactionnels. Un entrepôt de données est construit en l'alimentant via les serveurs transactionnels de façon bien choisie et réfléchie pour permettre aux procédures d'extraction de connaissances de bien fonctionner. L'organisation logique des données est particulièrement conçue pour autoriser des recherches complexes. 1.2 Informatique décisionnel vs Informatique de production Informatique de Production Une des principales caractéristiques des systèmes de production est une activité constante constituée de modifications et d'interrogations fréquentes des données par de nombreux utilisateurs. Exemple : ajouter une commande, modifier une adresse de livraison, rechercher les coordonnées d'un client,... Conserver la cohérence (interdire la modification simultanée d'une même donnée par deux utilisateurs différents) de la base de données, est donc l'objectif et la difficulté principale pour l'informatique de production. Il s'agit donc de privilégier un enregistrement rapide et sûr des données. Les systèmes transactionnels (temps réel) OLTP (On-Line Transaction Processing) qui est la tâche principale des SGBD, garantissent l'intégrité des données. Les utilisateurs accèdent à des éléments de la base par de très courtes transactions indécomposables, isolées. L'isolation permet de garantir que la transaction ne sera pas perturbée ni interrompue. La brièveté garantit que les temps de réponse seront acceptables 6
8 La dernière caractéristique de ces bases de données est qu'elles conservent l'état instantané du système. Dans la plupart des cas, l'évolution n'est pas conservée. On conserve simplement des versions instantanées pour la reprise en cas de panne et pour des raisons légales Informatique Décisionnel À l'inverse de l informatique de production, les utilisateurs des systèmes d'information de décision n'ont aucun besoin de modification ou d'enregistrement de nouvelles données. Ils vont interroger le système d'information et les questions posées seront par exemple de la forme Exemple : Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans la région C. Comment se comporte le produit X par rapport au produit Y? Et par rapport à l'année dernière? Quel type de client peut bien acheter mon produit Z? Une telle interrogation peut nécessiter des temps de calcul importants. Or, l'activité d'un serveur transactionnel ne peut être interrompue. Il faut donc prévoir une nouvelle organisation qui permette de mémoriser de grands jeux de données et qui facilite la recherche d'informations ; c est le système OLAP (On-line Analytical Processing). L'existence d'un entrepôt simplifiera donc la tâche d'extraction de connaissances à partir de données et permettra donc d'optimiser le temps de développement d'un projet de fouille de données. Il sera souvent nécessaire de filtrer, d'agréger, de compter, sommer et de réaliser quelques statistiques élémentaires (moyenne, écart-type,...). La structure logique doit être prévue pour rendre aussi efficace que possible toutes ces requêtes. Pour y parvenir, on est amené à introduire de la redondance dans les informations stockées en mémorisant des calculs intermédiaires (dans l'exemple, on peut être amené à stocker toutes les sommes de ventes par produit ou par année). On rompt donc avec le principe de non redondance des bases de production. Si le critère de cohérence semble assuré avec les techniques du transactionnel, cette cohérence est toute relative. Elle se contrôle au niveau de la transaction élémentaire mais pas au niveau global et des activités de l'organisation. Pour les entrepôts, on requiert une cohérence interprétable par l'utilisateur. Par exemple, si les livraisons n'ont pas été toutes saisies dans le système, comment garantir la cohérence de l'état du stock? Autre, exemple, pour établir un profil client ou étudier les performances d'un magasin, toutes les données utiles le concernant doivent être présentes dans le système, ce que n'assure pas le serveur transactionnel mais que doit assurer le serveur 7
9 décisionnel. Les entrepôts de données assureront donc plutôt une cohérence globale des données. Une dernière caractéristique importante des entrepôts, qui est aussi une différence fondamentale avec les bases de production, est qu'aucune information n'y est jamais modifiée. En effet, on mémorise toutes les données sur une période donnée et terminée, il n'y aura donc jamais à remettre en cause ces données car toutes les vérifications utiles auront été faites lors de l'alimentation. L'utilisation se résume donc à un chargement périodique, puis à des interrogations non régulières, non prévisibles, parfois longues à exécuter. En résumé, on peut justifier la construction d'un entrepôt de données par l'affirmation suivante : Il est beaucoup plus simple de trouver une information pertinente dans une structure organisée pour la recherche de connaissance. 1.3 Définition de datawarehouse Le data warehousing désigne les processus de construction et d utilisation des entrepôts de Données. -Definition : «Un data warehouse est une collection de données orientées sujet, intégrées, historisées et persistantes, utilisée pour le support d un processus d aide à la décision.» - W. H. Inmon 8
10 Orientées sujets Organisées autours de sujets principaux (produits, clients, ventes, etc.) Pour la modélisation et l analyse des données pour l aide à la décision traitement quotidien des transactions ou opérations Fournit une vue simple et concise autour d un sujet particulier en excluant les données inutiles pour le processus d aide à la décision Intégrées Requiert une intégration de données sûres, consistantes et complètes Intégration de sources multiples et hétérogènes BD relationnelles, transactionnelles, orientées objets, flat files, applications dédiées... Diverses sources (Ex : diverses services, agences, départements, etc.) Techniques de nettoyage et intégration des données : Consistance entre les diverses sources des noms, des unités de mesure, etc. Historisées Point de vue de l entrepôt de données est plus étendu que celui de la BD opérationnelle BD opérationnelle : valeur actuelle de la donnée Entrepôt de données : valeurs d une perspective historique (ex : derniers 5 ans) Toutes les structures de clés d un entrepôt de données contiennent une référence à la date, explicitement ou implicitement Persistantes Stockage séparé en mémoire secondaire des données transformées de la BD opérationnelle Pas de mise à jour en ligne dans un entrepôt de données Pas besoin de mécanismes de traitement des transactions, récupération et contrôle d accès concurrents Opérations d accès : chargement initial des données, rafraîchissement des données et accès aux données 9
11 10
12 Chapitre 2 Architecture des systèmes à base d entrepôt de données Objectifs spécifiques Introduire L architecture des systèmes à base d entrepôt de données Introduction des niveaux de stockage de données Introduire les technologies des serveurs OLAP Eléments de contenu I. Niveaux fonctionnels de l architecture II. Structure générale des données d un ED III. Architecture des serveurs OLAP Volume Horaire : Cours : 6 heures TD : 0 heure 2.1. Les niveaux fonctionnels de l architecture Les différents composants de l architecture fonctionnelle d un système à base d entrepôt de données s organisent en 3 niveaux : a. Niveau extraction de données : 11
13 L opération d extraction de données concernent les bases de données opérationnelles (SGBD traditionnel en OLTP) et les données externes. Cette opération se déroule selon deux approches possibles. approche «push» : détection instantanée des mises à jour sur les BD opérationnelles pour intégration dans l entrepôt de données approche «pull» : détection périodique des mises à jour des BD opérationnelles pour intégration dans l ED b. Niveau fusion de données Les composants de ce niveau permettent de réaliser essentiellement les trois tâches suivantes intégration des données provenant des différentes sources chargement et stockage des données dans la BD entrepôt organisée par sujets rafraîchissement au fur et à mesure des mises à jour c. Niveau exploitation de données C est le niveau qui permet de présenter les données directement exploitables par l utilisateur final, il offre au preneur de décisions les opérations suivantes analyse et l exploration des données entreposées formulation de requêtes complexes afin de trouver des faits à étudier, l analyse de tendance (courbes d évolution), extrapolation, découverte de connaissance (règles,contraintes, ) présentations graphiques variées 2.2. Structure générale des données d un ED Axe historique et axe synthétique 12
14 Les données d un ED se structurent selon 2 axes ; synthétique et historique : Axe synthétique : établit une hiérarchie d agrégation comprenant : - les données détaillées représentant les événements les plus récents au bas de la hiérarchie - les données agrégées synthétisant les données détaillées les données fortement agrégées synthétisant à un niveau supérieur les données agrégées Axe historique : comprenant les données détaillées historisées représentant les événements passés La description de toutes ces données (provenance, structure, méthode utilisées pour l agrégation, ) constitue les méta-données de l entrepôt Les méta données Un annuaire spécialisé conserve toutes les informations (les métadonnées) au sujet du système d'information qui régit l'entrepôt. Sans référentiel qui qualifie de façon précise ce que signifie chaque valeur dans la base, il n'est pas possible de conduire une analyse et interpréter les résultats. C'est ce rôle que joue l'annuaire des métadonnées. Cet annuaire contient : Description de la structure du DW Schéma, dimensions, hiérarchies, définitions des données, et localisation et contenu des data marts 13
15 Méta-données d administration Historique de construction et transformation des données, statistiques d utilisation et rapports d erreurs Algorithmes de généralisation Calculs des mesures, agrégations, partition, requêtes et rapports prédéfinis Méta-données d intégration BDs sources et leurs contenus, description des passerelles, règles d extraction, nettoyage et transformation des données, règles de rafraîchissement et sécurité Données liées aux performances Index, vues, algorithmes de compression et accès aux données, règles de planification des mises-à-jour 2.3. Composants logiciel d un Entrepôt de données Sources de données: - données sources généralement modifiées quotidiennement, -issues de bases de données, fichiers plats, documents HTML, bases de connaissances, -données en général hétérogènes Serveur DW : - Les entrepôts de données (Data Warehouse): 14
16 Contient des données concernant l ensemble des composantes de l organisation Plusieurs BDs opérationnels et sources extérieures ; plusieurs thèmes nécessitent de puissantes machines pour gérer de très grandes bases de données contenant des données de détail historisées est le lieu de stockage centralisé d'un extrait des bases de production. l organisation des données est faite selon un modèle facilitant la gestion efficace des données et leur historisation. - Les magasins de données (Data Marts) : Un sous-ensemble de l entrepôt global concernant un groupe spécifique d utilisateurs Ex : data mart du service commercial, data mart concernant le transport sont de petits entrepôts nécessitant une infrastructure plus légère et sont mis en oeuvre plus rapidement (6 mois environs) conçus pour l aide à la décision à partir de données extraites d un ED plus conséquent ou de BD sources existantes les données extraites sont adaptées pour l aide à la décision (pour classe de décideurs, usage particulier, recherche de corrélation, logiciel de statistiques,...) l organisation des données est faite selon un modèle facilitant les traitements Décisionnels - Méta données (Meta Data) : données qui définissent l entrepôt de données Moteur d analyse en ligne (OLAP engine) requêtes interactives complexes sur ces volumes catégorie de traitements dédiés à l aide à la décision données organisées selon plusieurs axes d analyse et niveaux de détail les traitements permettent de changer interactivement de points de vue, changer de niveau de détail, effectuer les opérations OLTP classiques GUI (Interface utilisateur) : Outils d aide à la décision (analyse, requêtes, rapports, fouille de données, ) 15
17 2.3. Architectures des serveurs OLAP Trois types de systèmes OLAP : MOLAP, ROLAP et HOLAP : Systèmes MOLAP (Multidimensionnel OLAP) -utilisent pour stocker et gérer les données de l ED un SGBD Multidimensionnel dédiés aux calculs de cubes de données les cubes de données implantés comme des matrices à plusieurs dimensions -ont des temps de réponse faibles du fait qu ils effectuent la pré-agrégation et le pré-calcul des données sur tous les niveaux des hiérarchies du modèle de l entrepôt Techniques de compression pour les matrices creuses -génèrent de très grands volumes d information -les techniques incrémentales de rafraîchissement associées sont encore limitées, conduisant à reconstruire périodiquement l ED -sont adaptés à de petits ED (quelques Go) et lorsque le modèle multidimensionnel ne change pas beaucoup Avantage : efficacité de traitement des requêtes -produits : Essbase d Arbo Software, Pilot de pilot Software, TM1 d Applix, Systèmes ROLAP (Relationnal OLAP) - utilisent pour stocker les données de l ED un SGBD Relationnel le «moteur OLAP» est un élément supplémentaire fournissant une vision multidimensionnelle de l ED (organisé en étoile ou flocon) - il réalise des calculs de données dérivés et agrégations à différents niveaux - il génère des requêtes mieux adaptée au schéma relationnel de l ED et qui tire profit des vues matérialisées existantes (facteur principal de performance) Avantages : souplesse, évolutions faciles Architecture de loin la plus populaire -produits : DSS Agents de MicroStrategy, Metacube d Informix, Systèmes HOLAP (Hybrid OLAP) - utilisent pour stocker, gérer les données détaillées un SGBD Relationnel et pour stocker, gérer les données agrégées un SGBD Multidimensionnel 16
18 - permettent de gérer de très grande quantité de données et d avoir des temps de réponses acceptables en analyse OLAP Avantages : équilibre entre la facilité d évolution et la rapidité de traitement des requêtes - produits : Express d Oracle, Microsoft SQL Server 7.0 OLAP services, Media/MR de Speedware, Holos de Seagate Technology, 2.4. Alimentation d un Entrepôt de données L'alimentation est la procédure qui permet de transférer des données du système opérationnel vers l'entrepôt de données en les adaptant. Comment alimenter, donc, l Entrepôt de Donnée? C est la problématique de l ETL (Extracting Transforming and Loading) qu on peut résumer à l'extraction des données, en accédant aux différentes bases et sources de données de l'entreprise, la transformation, en développant les codifications, résolvant les liens, changeant et uniformisant les différents formats de fichiers d'origine dans un format unique compatible avec le datawarehouse, le chargement, pour alimenter datawarehouses et datamarts, en contrôlant la cohérence des données. En fait l alimentation de l ED se déroule en 4 étapes : Sélection des données sources Quelles données de production faut-il sélectionner pour alimenter l ED? Toutes les données sources ne sont forcément pas utiles Ex : Doit-on prendre l adresse complète ou séparer le code postal? Les données sélectionnées seront réorganisées pour devenir des informations. La synthèse de ces données sources a pour but de les enrichir. La dénormalisation des données crée des liens entre les données et permet des accès différents Extraction des données Un extracteur (wrapper) est associé à chaque source de données : Il sélectionne et extrait les données. En fait, la préparation des données consiste dans un premier temps à obtenir des données en accord avec les objectifs que l'on s'impose. Ces données 17
19 proviennent le plus souvent de bases de production ou d'entrepôts. Les données sont structurées en champs typés (dans un domaine de définition). Par la suite l extracteur, formate les données dans un format cible commun qui est en général le modèle Relationnel. Les interfaces comme ODB, OCI, JDBC sont souvent utilisées durant ce processus Nettoyage et Transformation Objectifs du nettoyage : résoudre le problème de consistance des données au sein de chaque source Objectifs de la transformation : Suppression des incohérences sémantiques entre les sources pouvant survenir lors de l intégration des schémas et des données L'étude des besoins a déterminé le contenu de l'entrepôt en partant des desiderata des utilisateurs. Néanmoins, la forme, le contenu des données de production ne convient pas toujours immédiatement au format choisi pour les données de l'entrepôt. Par conséquent, des transformations sont souvent nécessaires. Format Le format physique des données provenant de la production peut ne pas être adéquat avec le système hôte de l'entrepôt. Des transformations de type sont parfois nécessaires (Système IBM vers système Unix...). Les données pouvant provenir de serveurs différents dans des services différents, il est nécessaire d'uniformiser les noms et les formats des données manipulées au niveau de l'entrepôt. Consolidation Selon les choix des unités pour les dimensions, des opérations de consolidation devront accompagner le chargement des données (par exemple sommer les ventes pour obtenir et enregistrer un total par jour et non pas toutes les transactions). Uniformisation d'échelle Pour éviter de trop grandes dispersions dans les valeurs numériques, une homogénéisation des échelles de valeurs est utile. Ne pas la réaliser peut pénaliser les outils d'analyse et de visualisation et peut-être simplement remplir inutilement les disques. Autres 18
20 Des transformations qui permettent de mieux analyser les données sont aussi réalisées pendant la phase de chargement. Par exemple, la transformation de la date de naissance en âge, assure une plus grande lisibilité des données et permet de pallier les problèmes apparus avec l'introduction de la dimension temps. Malgré les efforts réalisés pour assurer l'intégrité des données de production, des erreurs peuvent survenir, en particulier, lorsque les données proviennent de sources différentes (par exemple, il est fréquent qu'un même client soit mémorisé plusieurs fois sur différents serveurs). Parmi les points à vérifier, on peut citer: Erreurs de saisie Des doublons sont présents mais sont invisibles ; à cause des fautes de frappe: (Marcel dupont; 3,rue verte; Lille) et (Marcel dupond; 3,rue verte; Lille) sont certainement un seul et même client ; plusieurs membres d'un même foyer peuvent être présents ;... Intégrité de domaine Un contrôle sur les domaines des valeurs permet de retrouver des valeurs aberrantes. De façon plus générale, des valeurs douteuses peuvent se rencontrer, comme par exemple des dates au 11 novembre 1911 (11/11/11) ou 1 janvier 1901 (01/01/01). Informations manquantes Des champs importants pour lesquels aucune valeur n'a été saisie peuvent pénaliser le processus de découverte d'information, ou bien encore avoir une signification particulière (ex: détection de fraudes). Il est parfois important d'insérer des valeurs par défaut significatives (comme NULL) plutôt que de laisser ces données vides. Il convient de noter que les sources des données alimentant un entrepôt peuvent être hétérogènes. Les bases de production peuvent être nombreuses, différentes et délocalisées géographiquement. Des fichiers peuvent être achetées auprès d'entreprises qui se sont spécialisées dans la constitution et la revente de fichiers qui vont aussi entrer dans le processus d'alimentation de l'entrepôt. Les suites logicielles d'accompagnement d'entrepôts de données contiennent des outils susceptibles d'aider à développer des procédures d'alimentation qui prennent en compte ces problèmes de vérification et de normalisation Chargement Objectif : charger les données nettoyées et préparées dans l ED C est une opération qui risque d être assez longue plutôt mécanique et la moins complexe. 19
21 Il est nécessaire de définir et mettre en place : des stratégies pour assurer de bonnes conditions à sa réalisation une politique de rafraîchissement Utilisation, exploitation L'alimentation des entrepôts s'accompagne, après validation, de l'édition automatique des tableaux de bord les plus courants. Ils sont prédéfinis, réalisés par le service informatique, et sont le reflet d'un besoin explicitement demandé au moment de la conception. Souvent, ils sont insuffisants lorsqu'une anomalie est détectée ou lorsqu'un nouveau besoin s'exprime. L'utilisateur final doit alors pouvoir interroger les données en ligne à l'aide d'outils simples et conviviaux. Ces outils commencent à se généraliser. Les éditeurs les nomment (ou les classent) : reporting tools, managed queries, Executive Information Systems (EIS), OLAP tools (Online analytical Processing),...bien que les différences entre tous ces systèmes ne soient pas toujours très nettes Requêtes Nous présentons ici les outils destinés à l'utilisateur final qui permettent d'extraire des données de l'entrepôt. Les outils de création de rapport (reporting tools) extraient les données et proposent une mise en forme destinée à la diffusion : par impression ou par des services internet ou intranet. Ils sont très utilisés pour générer des tableaux de bord conventionnels, qui sont souvent composés et diffusés automatiquement et périodiquement sans demande spécifique des utilisateurs. Lorsque leur intégration dans le système d'information est réussie, ils mettent en évidence la structure multidimensionnelle et présentent les agrégats, supportent la navigation. Ils sont accessibles aux utilisateurs finals pour créer de nouveaux tableaux de bord. Les progiciels (ex : SAS) dans ce domaine ont réalisé une percée importante. Ils sont souvent qualifiés de EIS tools et ajoutent des analyses classiques et paramétrables pour les ventes, les achats ou la finance par exemple. Les outils les plus adaptés sont certainement les outils OLAP Agrégats et navigation L'opération de navigation (ou forage) permet d'obtenir des détails sur la signification d'un résultat en affinant une dimension ou en ajoutant une dimension. Elle apparaît dans de nombreux outils et doit (parce qu'elle est souvent coûteuse) être intégrée dans le système. Pour illustrer le forage, supposons qu'un utilisateur final demande les chiffres d'affaires par produit, et s'étonne d'un résultat pour un produit donné. Il aura sûrement l'envie d'en analyser les raisons. Une solution 20
22 consisterait à ajouter la dimension temps, dans l'unité de temps trimestrielle pour trouver une variation saisonnière, dans l'unité hebdomadaire pour envisager l'effet week-end, ou encore la dimension magasin pour mettre en évidence un effet géographique. Pour des raisons de performance, il est utile de précalculer et préenregistrer dans l'entrepôt des agrégations de données. On peut toutefois noter que des machines sont parfois dédiées à leur exécution et leur diffusion : ce sont des serveurs d'agrégats. Pour expliquer un résultat, il est parfois nécessaire de le comparer avec d'autres faits. Par exemple, la baisse des ventes pour le mois de janvier peut s'expliquer par une baisse des achats ou une rupture de stock. Si l'entrepôt est conçu pour suivre les ventes et les achats ou le stock, et si les dimensions selon lesquelles ces trois faits sont suivis sont identiques, on doit pouvoir réaliser un rapport unique. On parle alors de forage transversal ou drill across. C'est une opération qu'il faut réaliser avec beaucoup de soins car mettre en oeuvre une requête sur plusieurs tables de faits peut se révéler irréalisable. Engagée sans précautions, la requête va générer une table intermédiaire énorme qui sera le produit cartésien entre les deux tables de faits Visualisation Les outils de visualisation sont très importants dans le processus de décision et peuvent intervenir à plusieurs niveaux. Ils sont utiles pour - découvrir de nouvelles informations, parce qu'une représentation permet de repérer plus simplement des singularités, des anomalies ; - présenter des résultats, dans l'optique d'une large diffusion, parce qu'un graphique est plus accessible qu'un tableau de chiffres ; - représenter un modèle issu d'une opération de fouille de données (représenter un arbre de décision, un ensemble des règles, un réseau de neurones...). Dans le premier cas, ils sont intégrés dans les outils d'analyse et doivent supporter des opérations comme comparer, modifier les échelles, retrouver les données correspondant à un point ou un objet tracé, zoomer sur des régions ou des sous-ensembles et enfin permettre la navigation (drillup, drill down). 21
23 Chapitre 3 Modélisation multidimensionnelle Objectifs spécifiques Comprendre les concepts du modèle de données multidimensionnel Introduire les opérateurs sur des cubes multidimensionnels Introduire les schémas de Conception logique Eléments de contenu I. Concepts de base de la Modélisation Multidimensionnelle II. Opération sur les data cube III. Schéma de conception d un ED Volume Horaire : Cours : 5 heures TD : 3 heure 3.1. Concept de base de la modélisation multidimensionnelle La modélisation multidimensionnelle consiste à considérer un sujet analysé comme un point dans un espace à plusieurs dimensions. Les données sont organisées de manière à mettre en évidence le sujet analysé et les différentes perspectives de l'analyse. Cette conception est basé sur un modèle multi-dimensionnel des données qui voit les données sous la forme d un data cube (cube de données) La notion de dimension Un Data cube : permet de modéliser et visualiser les données selon différentes dimensions ; les dimensions constituent donc les points de vues depuis lesquels les données peuvent être observées Chaque dimension est représentée par une table Ex : Localisation (ville, département, pays, région), Produit (article, type,catégorie), 22
24 Date (jour, semaine, mois, trimestre, année) La notion de fait Le Thème central est représenté par une table de faits.cette Table de faits contient les valeurs des mesures et des clés vers les tables de dimensions - La valeur d une mesure est le résultat d une opération d agrégation des données Ex : montant_ventes, quantité_vendue Les clés des tables de dimension sont en général construites automatiquement La notion de cuboïde L ensemble des valeurs d une mesure pour une combinaison de valeur des dimensions constitue un cuboïde Exemple: entrepôt de données des ventes électroniques d une société. Montants des ventes sur l année par type d article, par ville et par mois Une valeur est associée à chaque combinaison type ville mois Dimensions : Produit (type), Localisation (ville) et Date (mois) Notion de Cube de données Un Cube est un treillis de cuboïdes. 23
25 Exemple : Notion de dimensions multi-niveaux Pour chaque dimension, on définit différents niveaux d abstraction / spécialisation Lors du processus OLAP, les données sont généralement analysées en partant d'un faible niveau de détail vers des données plus détaillées pour "forer vers le bas". Pour définir ces différents niveaux de détail, chaque dimension est munie d'une (ou plusieurs) hiérarchie(s) de paramètres. La hiérarchie représenté par les tables de dimensions : -sert lors des analyses pour restreindre ou accroître les niveaux de détail de l'analyse organise les paramètres d'une dimension conformément à leur niveau de détail. Ces paramètres seront donc ordonnés par une relation hiérarchique "est_plus_fin" On définit donc la granularité d une dimension comme étant le nombre de niveaux d abstraction Exemple : 24
26 3.1.6 Hiérarchies de concepts d une dimension Un Concept est une valeur correspondant à un niveau d abstraction Exemple : dimension Localisation 3.2. Opérations sur le data cube Considérons l exemple cuboïde suivant ; nous pouvons y effectuer plusieurs Opérations de manipulation interactive des cuboïdes 25
27 3.2.1 Opération Slice Elle consiste en une sélection sur une dimension du cube Ex : 3ème trimestre sur la dimension Date pour visualiser les ventes par Localisation et Produit durant ce trimestre L opération Dice Elle consiste en la définition d un sous-cube par sélection sur deux (ou plus)dimensions 26
28 Ex : critère (Localisation = Paris v Rome) et (Date = 1er trimestre v 2èmetrimestre) et (Produit = Informatique v Téléphonie) L opération Pivot Elle permet une présentation alternative du cube Transformation en une série de plans 2D Renversement du cube sur un ou plus axes pour une vision alternative Ex : renversement sur l axe Date L opération Roll-up 27
29 Elle permet une généralisation du cube ; elle consiste à : Supprimer une dimension ou Remonter dans une hiérarchie de concepts d une dimension Ex : remonter du niveau Trimestre au niveau Semestre pour Date L opération Drill-down Elle a pour rôle la spécialisation du cube. Elle consiste à Ajouter une dimension Ex : dimension TypeClient ou Descendre dans une hiérarchie de concepts 28
30 Ex : descendre du niveau Catégorie au niveau Type pour Produit 3.3. Conception d un entrepôt de données Approches de Conception Il existe trois types d approches : Approche haut-bas, bas-haut ou une combinaison des deux : Haut-bas : débuter par le planning et la conception du modèle (mature) Bas-haut : débuter par des essais et des prototypes (rapide) Du point de vue de l ingénierie du logiciel ceci consiste à appliquer les modèles de cycle de vie suivants : Cascade : analyse structurée et systématique lors de chaque étape avant de passer à la suivante Spirale : génération rapide de systèmes fonctionnels croissants; modifications rapides et adaptation du modèle facile Le Processus de conception d un entrepôt de données inclut les étapes suivantes 29
31 Choix du processus à modéliser, ex : commandes, ventes, livraison Choix du grain (niveau de détail des données) pour le processus Choix des dimensions pour chaque table de faits - Choix des mesures stockées dans les tables de faits Schéma Conceptuel d un entrepôt de données La conception d un entrepôt de données un modèle au niveau logique qui soit concis et orienté sujet différent donc du modèle entités-relations. Trois types de schéma existent : Schéma en étoile Caractéristiques du schéma en étoile : structure simple utilisant le modèle entité-relation une entité centrale : la table des faits : objets de l'analyse taille très importante nombreux champs des entités périphériques : les tables de dimensions : dimensions de l'analyse taille peu importante peu de champs Exemple 1 : Ventes de médicaments dans des pharmacies 30
32 Schéma en étoile modélisant les analyses des quantités et des montants des médicaments dans les pharmacies selon 3 dimensions : le temps, la catégorie et la situation géographique Table de faits : Vente Tables de dimension : Temps, Catégorie, Géographie Exemple 2 : Ventes d"articles dans un supermarché Associé à l exemple 2 : un fait il a été acheté 3 exemplaires à 1 euro du produit pid3 par le client cid1 à la date did3 dans le magasin mid2 dans le chariot cid8 correspondant à la promotion prid1 31
33 un élément de la dimension location : store id mid2 store name rondpoint city blois region centre country France Schéma en flocon Un modèle en flocon est une évolution du schéma en étoile avec : une décomposition des dimensions du modèle en étoile en sous hiérarchies. le fait est conservé et les dimensions sont éclatées conformément à sa hiérarchie des paramètres cela conduit à une normalisation des tables de dimensions : structure hiérarchique des dimensions et un niveau inférieur identifie un niveau supérieur Les avantages de cette modélisation sont: formaliser une hiérarchie au sein d'une dimension. maintenance des tables de dimensions simplifiée réduction de la redondance Les inconvénient de cette modélisation : induit une dénormalisation des dimensions générant une plus grande complexité en termes de lisibilité et de gestion. navigation coûteuse Exemple : Ventes de médicament dans des pharmacies 32
34 Chaque dimension du schéma en étoile précédent est dénormalisée, formant ainsi une sorte de flocon Schéma en constellation Peut-être vu comme une collection d étoiles (schéma en galaxie ou constellation de faits) Un modèle en constellation : fusionne plusieurs modèles en étoile qui utilisent des dimensions communes. comprend en conséquence plusieurs faits et des dimensions communes ou non Exemple : Ventes de médicament dans des pharmacies 33
35 une constellation est constituée de 2 schémas en étoile : - l'un correspond aux ventes effectuées dans les pharmacies et - l'autre analyse les prescriptions des médecins les dimensions Temps et Geographie sont partagées par les faits Prescriptions et Vente. 34
36 Chapitre 4 Introduction à la fouille de données. Objectifs spécifiques Introduire les objectifs de la fouille de données Introduire la méthode des arbres de décision Eléments de contenu I. Définition de la fouille de données II. Le processus ECD III. Méthodes de fouille de données Volume Horaire : Cours : 5,5 heures TD : 1,5 heure 4.1 Définition de la fouille de données La fouille de données consiste à rechercher et extraire de l'information (utile et inconnue) de gros volumes de données stockées dans des bases ou des entrepôts de données. Le développement récent de la fouille de données (depuis le début des années1990) est lié à plusieurs facteurs : une puissance de calcul importante est disponible sur les ordinateurs de bureau ou même à domicile ; le volume des bases de données augmente énormément ; l'accès aux réseaux de taille mondiale, ces réseaux ayant un débit sans cesse croissant, qui rendent le calcul distribué et la distribution d'information sur un réseau d'échelle mondiale viable ; la prise de conscience de l'intérêt commercial pour l'optimisation des processus de fabrication, vente, gestion, logistique,... La fouille de données a aujourd'hui une grande importance économique du fait qu'elle permet d'optimiser la gestion des ressources (humaines et matérielles). Elle est utilisée par exemple: organisme de crédit : pour décider d'accorder ou non un crédit en fonction du profil du demandeur de crédit, de sa demande, et des expériences passées de prêts Définition La Fouille de données (Data Mining) est: Un ensemble de techniques d'exploration de données permettant d'extraire d'une base de données des connaissances sous la forme de modèles de description afin de : décrire le comportement actuel des données et/ou prédire le comportement futur des données 35
37 4.2 Le processus ECD Le processus d extraction de connaissances à partir de données est représenté par le schéma ci dessous En fait, Le «data mining» est l un des maillons de la chaîne de traitement pour la découverte des connaissances à partir des données. Sous forme imagée, nous pourrions dire que l ECD est un véhicule dont le «data mining» est le moteur. L ECD est un processus complexe qui se déroule suivant une suite d opérations. Des étapes de prétraitement ont lieu avant le «data mining» proprement dit. Le prétraitement porte sur l accès aux données en vue de construire des «datamarts», des corpus de données spécifiques. Le prétraitement concerne la mise en forme des données entrées selon leur type (numérique, symbolique, image, texte, son), ainsi que le nettoyage des données, le traitement des données manquantes, la sélection d attributs ou la sélection d instances. Cette première phase est cruciale car du choix des descripteurs et de la connaissance précise de la population va dépendre la mise au point des modèles de prédiction. L information nécessaire à la construction d un bon modèle de prévision peut être disponible dans les données mais un choix inapproprié de variables ou d échantillons d apprentissage peut faire échouer l opération. 36
38 4.3 Méthodes de fouille de données Apprentissage supervisé et non supervisé L une des classifications possibles des méthodes de fouille de données est la classification selon le type d apprentissage Types d'apprentissage utilisés dans les méthodes de fouille : Apprentissage supervisé - Fouille supervisée : - processus dans lequel l'apprenant reçoit des exemples d'apprentissage comprenant à la fois des données d'entrée et de sortie - les exemples d apprentissage sont fournis avec leur classe (valeur de sortie prédite) - But : classer correctement un nouvel exemple (généralisation) - utilisées principalement en classification et prédiction Apprentissage non supervisé - Fouille non supervisée : - processus dans lequel l'apprenant reçoit des exemples d'apprentissage ne comprenant que des données d'entrée - pas de notion de classe - But : regrouper les exemples en «paquets» (clusters) d exemples similaires (on peut ensuite donner un nom à chaque paquet) - utilisé principalement en association et segmentation Quelques méthodes de fouille de données classifiées selon le type d apprentissage et selon l objectif 37
39 4.3.2 Les arbres de décision - Objectif général : A partir d un ensemble de valeurs d'attributs (variables prédictives ou variable endogènes) il s agit de prédire la valeur d'un autre attribut (variable cible ou variable exogène) - une des méthodes supervisée (apprentissage) les plus connues de classification et de prédiction - un arbre est équivalent à un ensemble de règles de décision : grande explicabilité du modèle - un arbre est composé : de noeuds = classes d'individus de plus en plus fine depuis la racine d arcs = prédicats de partitionnement de la classe source - algorithmes d apprentissage d arbre : ID3 [Quilan 79], CART [Brieman et al.84], Problèmes fondamentaux pour construire un arbre a) Critère de choix de l attribut - Si y est l'attribut dont la valeur à prédire à partir des valeurs des attributs prédictifs xi : choisir l'attribut dont la valeur a le plus d'influence sur celle de y - Plusieurs techniques provenant de la théorie de l'information de Shannon : Ratio du Gain ou de l Entropie (algo ID3, C5, ) 38
40 indice de Gini (algo CART) X2 Ratio du gain / entropie - On parle de gain d'information ou d'entropie (concepts inverses) - On va chercher à choisir l'attribut qui va induire le gain d'information le plus élevé (ou dont l'entropie est la plus basse) - Intuitivement, l'entropie mesure le degré de désordre qui restera si on découpe selon cet attribut -> entropie la plus basse est la meilleure -Donc pour chaque attribut candidat, on va calculer son entropie et on choisit celui qui a l'entropie la plus basse. b) Affectation d'un label à une feuille : On affecte la modalité la plus fréquente. c) Arrêt de la segmentation : Différentes techniques: pre-pruning: On arrête l'expansion de l'arbre selon certains critères: - profondeur maximale - effectif de chaque sous-groupe: on fixe un seuil (souvent empiriquement) - on calcule des mesures comme pour le choix de l'attribut de segmentation (gain d'information, X2,...) auquel on associe un seuil en dessous duquel la segmentation sera refusée post-pruning: On laisse l'arbre se construire jusqu'au bout On élague l arbre en retirant des sous-arbres : - à l'aide d'heuristiques ou - grâce à l'intervention d'un expert, - l'arbre est élagué tant que l'erreur de l'arbre élagué reste inférieure à celle de l'arbre non élagué. - le noeud duquel on a retiré un sous-arbre devient une feuille et porte le label de la valeur la plus fréquente du sous-arbre 39
41 d) Choix des bornes de discrétisation : - On fixe les valeurs candidates comme les valeurs au milieu de 2 valeurs consécutives : ex: 35, 45, > 40, Puis on calcule éventuellement la meilleure valeur parmi celles là grâce à des mesures telles que : le gain, L algorithme ID3 Soit : Classe C : valeur d'attribut à prédire (ex: C1: risque = élevé, C2: risque = faible) tuples : ensemble des tuples de l'échantillon, liste_attributs: ensemble des attributs Procédure Générer_arbre_décision Créer un noeud N si tuples est vide alors retourner une feuille portant le label "Failure" si tuples sont dans la même classe C alors retourner N avec comme label C si liste_attributs = vide alors retourner N avec comme label le nom de la classe la plus fréquente dans l'échantillon Choisir l attribut a le plus discriminant parmi liste_attributs Affecter le label «a» au noeud N Pour chaque valeur ai de a : créer une branche issue du noeud N avec condition a s= ai Soit ti l'ensemble des éléments tuples vérifiant cette condition Attacher le noeud retourné par Générer_arbre_décision(ti, liste_attributs a) Calcul de l entropie Entropie = Quantité d'information nécessaire pour classifier l'exemple Soit S un ensemble de s tuples 40
42 Soit C comprenant m valeurs différentes, définissant Ci classes (i = 1,...,m) Soit si le nombre de tuples de S appartenant à Ci : I(s1,...sm) = quantité d'information nécessaire pour classifier l'ensemble des tuples I(s1,...sm) = - Σ(i=1..m) pi log2(pi) - pi: probabilité qu'un tuple appartienne à Ci - pi=si/s Entropie de l'attribut A = E(A) : Soit A un attribut candidat possédant v valeurs {a1,..., av}. A permet de partionner l'ensemble S en v sous-ensembles {S1,..., Sv} Si comprend les tuples ayant la valeur ai pour A Soit sij le nombre de tuples du sous-ensemble Sj appartenant à Ci Exemple de mise en oeuvre Entropie de l'attribut Couleur? C1: carré ; C2: triangle E(A) (S1 j...sij ). I (S1j,...,Sij ) ( j1..v) Pour couleur = rouge (i= carré ou triangle?, j=rouge) : 41
43 s11= scarré/rouge= 3 ; s21= striangle/rouge= 2 I(s11,s21) = I(3,2) = -3/5 log23/5-2/5 log22/5 = 0,971 Pour couleur = vert : s12= scarré/vert= 2 ; s22= striangle/vert= 3 I(s12, s22) = I(2,3) = -2/5 log22/5-3/5 log23/5 = 0,971 Pour couleur = jaune : s13= scarré/jaune=4 s23= striangle/jaune=0 I(s13,s23)=I(4,0)= -4/4 log24/4-0/4 log20/4 = 0 E (couleur) = 5/14 I(s11,s21) + 5/14 I(s12, s22) + 4/14 I(s13,s23) = 0,694 Gain (couleur) = 0,940 0,694 = 0,246 Etape suivante Etape suivante 42
44 Etape suivante Etape finale 43
45 44
et les Systèmes Multidimensionnels
Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées
Entrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Business Intelligence : Informatique Décisionnelle
Business Intelligence : Informatique Décisionnelle On appelle «aide à la décision», «décisionnel», ou encore «business intelligence», un ensemble de solutions informatiques permettant l analyse des données
Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique
Introduction à l informatique : Information automatisée Le premier ordinateur Définition disque dure, mémoire, carte mémoire, carte mère etc Architecture d un ordinateur Les constructeurs leader du marché
Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation
Data WareHouse Plan Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation 2 Présentation Besoin: prise de décisions
Les Entrepôts de Données
Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations
Chapitre 9 : Informatique décisionnelle
Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle
Business & High Technology
UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...
Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016
Entrepôts de données NEGRE Elsa Université Paris-Dauphine 2015-2016 Contexte et problématique Le processus de prise de décision L entrepôt de données Définition Différence avec un SGBD Caractéristiques
Urbanisation des SI-NFE107
OLAP Urbanisation des SI-NFE107 Fiche de lecture Karim SEKRI 20/01/2009 OLAP 1 Introduction PLAN OLAP Les différentes technologies OLAP Plate formes et Outils 20/01/2009 OLAP 2 Informatique décisionnelle
Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :
Page 1 of 6 Entrepôt de données Un article de Wikipédia, l'encyclopédie libre. L'entrepôt de données, ou datawarehouse, est un concept spécifique de l'informatique décisionnelle, issu du constat suivant
LES ENTREPOTS DE DONNEES
Module B4 : Projet des Systèmes d information Lille, le 25 mars 2002 LES ENTREPOTS DE DONNEES Problématique : Pour capitaliser ses informations, une entreprise doit-elle commencer par mettre en œuvre des
Bases de Données Avancées
1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,
Introduction à l Informatique Décisionnelle - Business Intelligence (7)
Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence
ETL Extract - Transform - Load
ETL Extract - Transform - Load Concept général d analyse en ligne (rappels) Rémy Choquet - Université Lyon 2 - Master 2 IIDEE - 2006-2007 Plan Définitions La place d OLAP dans une entreprise OLAP versus
Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani
Datawarehouse: Cubes OLAP Marlyse Dieungang Khaoula Ghilani Table des matières 1 Data Warehouse 3 1.1 Introduction............................ 3 1.1.1 Définition......................... 3 1.1.2 Architecture........................
Introduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Les Entrepôts de Données. (Data Warehouses)
Les Entrepôts de Données (Data Warehouses) Pr. Omar Boussaid Département d'informatique et de Sta5s5que Université Lyon2 - France Les Entrepôts de Données 1. Généralités, sur le décisionnel 2. L'entreposage
Fouille de Données : OLAP & Data Warehousing
Fouille de Données : OLAP & Data Warehousing Nicolas Pasquier Université de Nice Sophia-Antipolis Laboratoire I3S Chapitre 2. Data warehousing Définition : qu est-ce que le data warehousing? Entrepôt de
Théories de la Business Intelligence
25 Chapitre 2 Théories de la Business Intelligence 1. Architectures des systèmes décisionnels Théories de la Business Intelligence Depuis les premières requêtes sur les sources de données OLTP consolidées
Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours
Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres [email protected] LIA/Université d Avignon Cours/TP
Les entrepôts de données
Les entrepôts de données Lydie Soler Janvier 2008 U.F.R. d informatique Document diffusé sous licence Creative Commons by-nc-nd (http://creativecommons.org/licenses/by-nc-nd/2.0/fr/) 1 Plan Introduction
Introduction au domaine du décisionnel et aux data warehouses
Data warehouse Introduction au domaine du décisionnel et aux data warehouses http://dwh.crzt.fr STÉPHANE CROZAT Paternité - Partage des Conditions Initiales à l'identique : http://creativecommons.org/licenses/by-sa/2.0/fr/
et les Systèmes Multidimensionnels
Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Data warehouse (DW) Le Data warehouse (entrepôt de données) est une collection de données orientées sujet, intégrées, non volatiles
L information et la technologie de l informationl
L information et la technologie de l informationl CRM & informatique décisionnelled CRM CRM & informatique décisionnelle. d 1 2 3 Les Les fondements managériaux managériaux du du CRM. CRM. Les Les fondements
SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)
Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence
SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)
SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients
Bases de données multidimensionnelles et mise en œuvre dans Oracle
Bases de données multidimensionnelles et mise en œuvre dans Oracle 1 Introduction et Description générale Les bases de données relationnelles sont très performantes pour les systèmes opérationnels (ou
BI = Business Intelligence Master Data-ScienceCours 3 - Data
BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse UPMC 8 février 2015 Rappel L Informatique Décisionnelle (ID), en anglais Business Intelligence (BI), est l informatique à l usage
Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)
Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant
Didier MOUNIEN Samantha MOINEAUX
Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?
Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)
Introduction à lʼinformatique Décisionnelle et la «Business Intelligence» (1) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013
Intelligence Economique - Business Intelligence
Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit
La problématique. La philosophie ' ) * )
La problématique!" La philosophie #$ % La philosophie &'( ' ) * ) 1 La philosophie +, -) *. Mise en oeuvre Data warehouse ou Datamart /01-2, / 3 13 4,$ / 5 23, 2 * $3 3 63 3 #, 7 Datawarehouse Data warehouse
Intégration de données hétérogènes et réparties. Anne Doucet [email protected]
Intégration de données hétérogènes et réparties Anne Doucet [email protected] 1 Plan Intégration de données Architectures d intégration Approche matérialisée Approche virtuelle Médiateurs Conception
En synthèse. HVR pour garantir les échanges sensibles de l'entreprise
En synthèse HVR pour garantir les échanges sensibles de l'entreprise Le logiciel HVR fournit des solutions pour résoudre les problèmes clés de l'entreprise dans les domaines suivants : Haute Disponibilité
Le concept de Data Warehouse a été formalisé pour la première fois en 1990.
1 - LE DATA WAREHOUSE 1.1 - PRESENTATION Le concept de Data Warehouse a été formalisé pour la première fois en 1990. L idée de constituer une base de données orientée sujet, intégrée, contenant des informations
Chapitre 1 : Introduction aux bases de données
Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données
Le Data Warehouse. Fait Vente. temps produit promotion. magasin. revenu ... Produit réf. libellé volume catégorie poids. Temps jour semaine date ...
Le Data Warehouse Temps jour semaine date magasin nom ville m 2 région manager... Fait Vente temps produit promotion magasin revenu... Produit réf. libellé volume catégorie poids... Promo nom budget média
Présentation du module Base de données spatio-temporelles
Présentation du module Base de données spatio-temporelles S. Lèbre [email protected] Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes
BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise
BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la
BUSINESS INTELLIGENCE
GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3
Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre [email protected] Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:
Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants: Tassadit BOUADI 22 Juin 2010, Saint Jacut 1 Plan Introduc
Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.
Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service
QU EST-CE QUE LE DECISIONNEL?
La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce
Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème
Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration
Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement
Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données
Présentations personnelles. filière IL
Présentations personnelles filière IL Résumé Liste de sujets de présentations personnelles. Chaque présentation aborde un sujet particulier, l'objectif étant que la lecture du rapport ainsi que l'écoute
Plan. Ce qu est le datawarehouse? Un modèle multidimensionnel. Architecture d un datawarehouse. Implémentation d un datawarehouse
Datawarehouse 1 Plan Ce qu est le datawarehouse? Un modèle multidimensionnel Architecture d un datawarehouse Implémentation d un datawarehouse Autres développements de la technologie data cube 2 Ce qu
BI = Business Intelligence Master Data-Science
BI = Business Intelligence Master Data-Science UPMC 25 janvier 2015 Organisation Horaire Cours : Lundi de 13h30 à 15h30 TP : Vendredi de 13h30 à 17h45 Intervenants : Divers industriels (en cours de construction)
FreeAnalysis. Schema Designer. Cubes
FreeAnalysis Schema Designer Cubes Charles Martin et Patrick Beaucamp BPM Conseil Contact : [email protected], [email protected] Janvier 2013 Document : BPM_Vanilla_FreeAnalysisSchemaDesigner_v4.2_FR.odt
Entrepôt de Données. Jean-François Desnos. [email protected] ED JFD 1
Entrepôt de Données Jean-François Desnos [email protected] ED JFD 1 Définition (Bill Inmon 1990) Un entrepôt de données (data warehouse) est une collection de données thématiques, intégrées,
Méthodologie de conceptualisation BI
Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information
Techniques d optimisation des requêtes dans les data warehouses
Techniques d optimisation des requêtes dans les data warehouses Ladjel Bellatreche LISI/ENSMA Téléport2-1, Avenue Clément Ader 86960 Futuroscope - FRANCE [email protected] Résumé Un entrepôt de données
Bases de Données. Stella MARC-ZWECKER. [email protected]. Maître de conférences Dpt. Informatique - UdS
Bases de Données Stella MARC-ZWECKER Maître de conférences Dpt. Informatique - UdS [email protected] 1 Plan du cours 1. Introduction aux BD et aux SGBD Objectifs, fonctionnalités et évolutions
Datawarehouse and OLAP
Datawarehouse and OLAP Datawarehousing Syllabus, materials, notes, etc. See http://www.info.univ-tours.fr/ marcel/dw.html today architecture ETL refreshing warehousing projects architecture architecture
Business Intelligence avec SQL Server 2012
Editions ENI Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel Collection Solutions Informatiques Extrait Alimenter l'entrepôt de données avec SSIS Business
Evry - M2 MIAGE Entrepôt de données
Evry - M2 MIAGE Entrepôt de données Introduction D. Ploix - M2 Miage - EDD - Introduction 1 Plan Positionnement du BI dans l entreprise Déclinaison fonctionnelle du décisionnel dans l entreprise Intégration
Cours Base de données relationnelles. M. Boughanem, IUP STRI
Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),
La place de la Géomatique Décisionnelle dans le processus de décision
Géomatique décisionnelle La place de la Géomatique Décisionnelle dans le processus de décision - Arnaud Van De Casteele Mines ParisTech - CRC Arnaud {dot} van_de_casteele {at} mines-paristech.fr Les rencontres
Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel
Avant-propos 1. À qui s'adresse ce livre? 9 2. Les pré-requis 10 3. Les objectifs du livre 11 Introduction 1. Présentation du décisionnel 13 1.1 La notion de décideur 14 1.2 Les facteurs d'amélioration
L informatique décisionnelle
L informatique décisionnelle Thèse Professionnelle. Ce document est une thèse professionnelle dont la problématique est : Quelles sont les bonnes pratiques dans la mise en place d une solution décisionnelle
Business Intelligence
Pour aller plus loin Tous les détails de l offre Microsoft Business Intelligence : www.microsoft.com/france/decisionnel Contact Microsoft France : [email protected] Business Intelligence Votre Infrastructure
Enterprise Intégration
Enterprise Intégration Intégration des données L'intégration de données des grandes entreprises, nationales ou multinationales est un vrai cassetête à gérer. L'approche et l'architecture de HVR est très
Les entrepôts de données et l analyse de données
LOG660 - Bases de données de haute performance Les entrepôts de données et l analyse de données Quelques définitions Entreposage de données (data warehousing): «La copie périodique et coordonnée de données
Introduction aux entrepôts de données (2)
Introduction aux entrepôts de données (2) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Introduction et définition dʼun entrepôt
SQL SERVER 2008, BUSINESS INTELLIGENCE
SGBD / Aide à la décision SQL SERVER 2008, BUSINESS INTELLIGENCE Réf: QLI Durée : 5 jours (7 heures) OBJECTIFS DE LA FORMATION Cette formation vous apprendra à concevoir et à déployer une solution de Business
2 Serveurs OLAP et introduction au Data Mining
2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité
Bases de Données. Plan
Université Mohammed V- Agdal Ecole Mohammadia d'ingénieurs Rabat Bases de Données Mr N.EL FADDOULI 2014-2015 Plan Généralités: Définition de Bases de Données Le modèle relationnel Algèbre relationnelle
RÉPUBLIQUE ALGÉRIENNE DÉMOCRATIQUE ET POPULAIRE. Ministère de l Enseignement Supérieur et de la Recherche Scientifique I.N.I THEME : Les outils OLAP
RÉPUBLIQUE ALGÉRIENNE DÉMOCRATIQUE ET POPULAIRE Ministère de l Enseignement Supérieur et de la Recherche Scientifique I.N.I THEME : Les outils OLAP REALISE PAR : BENAKEZOUH Leïla & TIFOUS Amira Quatrième
Business Intelligence avec SQL Server 2012
Editions ENI Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel Collection Solutions Informatiques Table des matières Les éléments à télécharger sont disponibles
CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS
CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS Nazih Selmoune (*), Zaia Alimazighi (*) [email protected], [email protected] (*) Laboratoire des systèmes
Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza
Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Avant de commencer à travailler avec le produit, il est nécessaire de comprendre, à un haut niveau, les problèmes en réponse desquels l outil a été
UE 8 Systèmes d information de gestion Le programme
UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications
L INTELLIGENCE D AFFAIRE DANS LA VIE QUOTIDIENNE D UNE ENTREPRISE
2009 L INTELLIGENCE D AFFAIRE DANS LA VIE QUOTIDIENNE D UNE ENTREPRISE Chapitre 1 : BI Une introduction La plupart des administrateurs de bases de données (DBA) ont rencontré une certaine forme de business
Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel
Avant-propos 1. À qui s'adresse ce livre? 9 2. Les pré-requis 10 3. Les objectifs du livre 10 Introduction 1. Présentation du décisionnel 15 1.1 La notion de décideur 15 1.2 Les facteurs d'amélioration
Option OLAP d'oracle Database 10g
Option OLAP d'oracle Database 10g Quand utiliser l'option OLAP pour améliorer le contenu et les performances d'une application de Business Intelligence Livre blanc Oracle Juin 2005 Option OLAP d'oracle
La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1
La Geo-Business Intelligence selon GALIGEO avec ESRI 2005 session «Décisionnel» 26/10/2005 1 La Business Intelligence : Une Définition La Business intelligence permet l utilisation des données opérationnelles
Christophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Les bases de données Page 1 / 8
Les bases de données Page 1 / 8 Sommaire 1 Définitions... 1 2 Historique... 2 2.1 L'organisation en fichier... 2 2.2 L'apparition des SGBD... 2 2.3 Les SGBD relationnels... 3 2.4 Les bases de données objet...
CONCEPTION Support de cours n 3 DE BASES DE DONNEES
CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...
MyReport, une gamme complète. La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! pour piloter votre activité au quotidien.
MyReportle reporting sous excel La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! MyReport, une gamme complète pour piloter votre activité au quotidien. En rendant les données
La Business Intelligence en toute simplicité :
MyReportle reporting sous excel La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! En rendant les données accessibles aux personnes habilitées dans l entreprise (comptabilité,
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence
É C O L E D I N G É N I E U R D E S T E C H N O L O G I E S D E L I N F O R M A T I O N E T D E L A C O M M U N I C A T I O N Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION Mentions
Département Génie Informatique
Département Génie Informatique BD51 : Business Intelligence & Data Warehouse Projet Rédacteur : Christian FISCHER Automne 2011 Sujet : Développer un système décisionnel pour la gestion des ventes par magasin
Algorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]
Objectif Utiliser les techniques de gestion de la mise en cache pour contrôler et améliorer les performances des requêtes Définir des mesures simples et des mesures calculées pour une table de faits Créer
SQL Server 2012 et SQL Server 2014
SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation
Bases de Données OLAP
Bases de Données OLAP Hiver 2013/2014 Melanie Herschel [email protected] Université Paris Sud, LRI Chapitre 1 Introduction Détails administratifs Entrepôts de Données Perspective sur le semestre
Entrepôt de données et l Analyse en ligne. Maguelonne Teisseire Hugo Alatrista Salas hugo.alatrista- [email protected] Flavien Bouillot
Entrepôt de données et l Analyse en ligne Maguelonne Teisseire Hugo Alatrista Salas hugo.alatrista- [email protected] Flavien Bouillot Déroulement du cours 17 janvier : cours et TD 20 janvier : cours?
Entrepôts de données : Systèmes OLAP : ROLAP, MOLAP et OLAP (5) 1 Introduction aux systèmes
Entrepôts de données : Systèmes : R, M et H (5) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Introduction aux systèmes Systèmes
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
SQL Server 2014. SQL Server 2014. Implémentation d une solution. Implémentation d une solution de Business Intelligence.
Ce livre sur s adresse à toutes les personnes désireuses de mettre en œuvre les techniques de l informatique décisionnelle (ou BI, Business Intelligence) à l aide des composants de la suite Microsoft :
Analyse comparative entre différents outils de BI (Business Intelligence) :
Analyse comparative entre différents outils de BI (Business Intelligence) : Réalisé par: NAMIR YASSINE RAGUI ACHRAF Encadré par: PR. L. LAMRINI Dans le domaine d économies des Big Data et Open Data, comment
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Le Géodécisionnel. P7 : Projet Bibliographique Dans le cadre du Mastère ASIG. Les SIG au service du géodécisionnel.
P7 : Projet Bibliographique Dans le cadre du Mastère ASIG Le Géodécisionnel Les SIG au service du géodécisionnel Thierry Lallemant 15 Mai 2008 Mastère ASIG / Projet Bibliographique 2008 1 TABLE DES MATIERES
Votre Infrastructure est-elle? Business Intelligence. Améliorer la capacité d analyse et de décision de vos équipes
Votre Infrastructure est-elle? Business Intelligence Améliorer la capacité d analyse et de décision de vos équipes Sommaire Introduction : Les domaines d application de la Business Intelligence p. 4 Vue
