Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)



Documents pareils
SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

2 Serveurs OLAP et introduction au Data Mining

Les Entrepôts de Données

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Les bases de données

Introduction à la B.I. Avec SQL Server 2008

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Entrepôt de données 1. Introduction

Les bases de données Page 1 / 8

Bases de Données Avancées

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

ISC Système d Information Architecture et Administration d un SGBD Compléments SQL

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

Bases de Données. Plan

LES ENTREPOTS DE DONNEES

Présentation du module Base de données spatio-temporelles

Business & High Technology

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

SQL Historique

Méthodologie de conceptualisation BI

Business Intelligence avec Excel, Power BI et Office 365

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Département Génie Informatique

Optimisations des SGBDR. Étude de cas : MySQL

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

Les entrepôts de données

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

Mercredi 15 Janvier 2014

Didier MOUNIEN Samantha MOINEAUX

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

MODE OPERATOIRE OPENOFFICE BASE

Suite Jedox La Business-Driven Intelligence avec Jedox

Chapitre Introduction : Notion de Bases de données. 2. Définition : BD Répartie. 3. Architecture des SGBD. 4. Conception des bases réparties

A QUOI SERVENT LES BASES DE DONNÉES?

Evidian IAM Suite 8.0 Identity Management

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Bases de données multidimensionnelles et mise en œuvre dans Oracle

Business Intelligence : Informatique Décisionnelle

Fonctionnalités des différentes éditions de SQL Server 2012

Compétences Business Objects

SQL Server 2012 et SQL Server 2014

THOT - Extraction de données et de schémas d un SGBD

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Jérôme FESSY. IUT de Paris 5. Base de Données. Cours Introductif. Base de Données

MYXTRACTION La Business Intelligence en temps réel

Bases de Données Avancées

Module BDR Master d Informatique (SAR)

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

INTRODUCTION AU DATA MINING

PHP 5. La base de données MySql. A. Belaïd 1

Evry - M2 MIAGE Entrepôt de données

Construction d un EDD avec SQL 2008 R2. D. Ploix - M2 Miage - EDD - Création

ETL Extract - Transform - Load

INSTALLATION DE L APPLICATION DU CONTEXTE ITASTE

Oracle Décisionnel : Modèle OLAP et Vue matérialisée D BILEK

Fouille de Données : OLAP & Data Warehousing

BUSINESS INTELLIGENCE

Le langage SQL Rappels

CREATION WEB DYNAMIQUE

Le Data Warehouse. Fait Vente. temps produit promotion. magasin. revenu ... Produit réf. libellé volume catégorie poids. Temps jour semaine date ...

Bases de données relationnelles

MyReport, LE REPORTING SOUS EXCEL

NF26 Data warehouse et Outils Décisionnels Printemps 2010

La place de la Géomatique Décisionnelle dans le processus de décision

1 Introduction et installation

Urbanisation des SI-NFE107

Licence Professionnelle Commerce Electronique. MySQL. Michel DUBOIS Michel Dubois : Support de cours SGBD N 1

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1

FreeAnalysis. Schema Designer. Cubes

Le langage SQL (première partie) c Olivier Caron

Le Langage De Description De Données(LDD)

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

BI = Business Intelligence Master Data-Science

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

LoReNa : pour dynamiser votre Relation Client (CRM)

Analyse comparative entre différents outils de BI (Business Intelligence) :

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

Notre Catalogue des Formations IT / 2015

--- SIDOMTECH (Auto-Entreprise) ---

La place de SAS dans l'informatique décisionnelle

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ;

Domaines d intervention

Décisionnel. SI Virtualisé. Performant. Cloud. SAP BusinessObjects. Dashboards. Expertise. Succès. Service Reporting. Finance. SaaS. Web 2.0.

Le Langage SQL version Oracle

Bases de données Outils de gestion

et les Systèmes Multidimensionnels

Bases de Données relationnelles et leurs systèmes de Gestion

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

TP Bases de données réparties

PHP 4 PARTIE : BASE DE DONNEES

Transcription:

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant dans le temps, constitué par extraction à partir de bases applicatives ou de fichiers, consolidé dans une base de données unique et aidant à la prise de décision dans l'entreprise. Magasin : Petit entrepôt de données ciblé sur un sujet.

Structure des entrepôts En étoile (star schema): un table centrale contenant les faits à analyser référence des tables périphériques. Par exemple un numero SIREN de société renvoie à un nom de société, une adresse, un contact etc. En flocons (flock schema): les tables périphériques référencent elles même d'autres tables.

Différences avec un SGBDR Collecte de données par dépôt (Data Push) au lieu de gestion (Data Pull). Consultation au lieu d'utilisation. Ajout de données (historisées) par date au lieu de modification. Redondance des données dans le temps au lieu d'optimisation.

Les entrepôts de données avec MySQL Conçu pour être les bases de données des sites WWW. Rapidité des accès contre implantation exhaustive de SQL (tables HEAP possibles). Partitionnement des tables pour de très larges BDR avec de multiples tables intermédiaires. Indexation des BLOB (Binary Large Object) pour les tables InnoDB (multi-média). Programmation ouverte C++ du noyau. Toutes possibilités d'importations et exportations de données hétérogènes.

Autres SGBDR pour les entrepôts sans les sources et avec le prix ORACLE 10, mêmes performances que MySQL, avec beaucoup plus de SQL. DB2 (IBM) avec Visual Ware House et Intelligent Miner. SQL Server (souche SyBase, version 7 Microsoft) pour un environnement exclusivement MS. Dynamic Server (Informix): le plus complet pour les entrepôts. SAS Enterprise Miner: fouille de données.

Une utilisation spécifique de SQL Les cubes de données Regroupement des données selon certains attributs avec calcul d'effectifs. Implantation: CUBE nom (A1 Type 1,, Ap Type p, Nb INT) CREATE CUBE_nom (A1 Type 1,, Ap Type p, Nb INT); INSERT INTO CUBE_nom SELECT A1,, Ap, COUNT(*) GROUP BY A1,, Ap;

Opérations sur les cubes Coupes (slice): sélection de plans par restriction sur une valeur d'un attribut. Pliage (rollup), dépliage (drilldown) : jointure d'un des attributs avec l'une de ses tables périphériques pour le remplacer par par un attribut plus général (pliage) ou spécifique (dépliage) selon la granularité de l'attribut.

Exemples d'opérations Données : CUBE T(Id_fk VARCHAR(200), ref_fk INT, year INT) TABLE classif(id VARCHAR(200), cmp INT, cl INT) SLIDE T(year = x) : SELECT Id_fk, ref_fk FROM T WHERE year = x; ROLLUP T(Id, classe) : SELECT cl, ref_fk, year, COUNT(*) FROM T AS T, classif AS X where T.Id_fk = X.Id GROUP BY cl, year

Entrepôt pour Tableaux de bord Constituer l'entrepôt par : Accès directs aux bases de données. Flux de données textuelles tabulées (csv). Flux de données XML. Définir des clefs primaires Par concaténation de champs. Par auto incrémentation. Création du cube relationnel avec indexation des valeurs Autant de requêtes SQL que d'attributs à importer Création des vues auto-actualisables.

Outils d'importation/exportation Connectivité aux bases de données ODBC : Windows à l'origine JDBC : Java DBI : Perl, R et tous les outils libres Tunnels ssh Option -L de OpenSSH (noyau Linux) Putty : client pour windows Gestions des formats textes Langages interprétés avec expression régulières : perl Excel avec sa commande pour éclater les colonnes MySQL avec Load data et mysql -e

Statistiques de base et tableaux croisés Limiter la charge de calcul laissée aux interfaces 1 statistique élémentaire = 1 vue Mise à jour automatique Création par jointure avec une table d'intervalles Génération de tableaux croisés SQL bon pour les calculs mais pas l'affichage : nécessité d'une interface php, java (ou perl). Force de BO vendu avec SAP. Procédure Tabulate de SAS. Tableaux croisés de EXCEL et ACCESS.

Méthodes prédictives Bayésien et arbres de décisions Sélectionner les attributs les plus discriminants Appliquer le théorème de Bayes Règles d'association: Si A1=Val_1 et... et An=Val_n alors D=Val_p Support : probabilité totale Confiance : probabilité conditionnelle Régression logistique: Dégager des triplets attributs, intervalle, risque Classer les individus selon leur risque cumulé