K. Smaïli Professeur à l université Nancy2. 1/105 K. Smaïli 2008



Documents pareils
Les entrepôts de données

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

et les Systèmes Multidimensionnels

Urbanisation des SI-NFE107

Les Entrepôts de Données

Entrepôt de données 1. Introduction

Business Intelligence : Informatique Décisionnelle

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

LES ENTREPOTS DE DONNEES

Introduction à la B.I. Avec SQL Server 2008

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

La problématique. La philosophie ' ) * )

Chapitre 9 : Informatique décisionnelle

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Entrepôt de Données. Jean-François Desnos. ED JFD 1

Didier MOUNIEN Samantha MOINEAUX

Business & High Technology

L information et la technologie de l informationl

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Bases de Données Avancées

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Les Entrepôts de Données. (Data Warehouses)

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

et les Systèmes Multidimensionnels

QU EST-CE QUE LE DECISIONNEL?

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

La place de la Géomatique Décisionnelle dans le processus de décision

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

ETL Extract - Transform - Load

BI Open Source Octobre Alioune Dia, Consultant BI

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

BI = Business Intelligence Master Data-Science

Méthodologie de conceptualisation BI

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

Petit Déjeuner Pépinière du Logiciel Libre. 25 juin 2008

Evry - M2 MIAGE Entrepôt de données

Plan. Ce qu est le datawarehouse? Un modèle multidimensionnel. Architecture d un datawarehouse. Implémentation d un datawarehouse

Intégration de données hétérogènes et réparties. Anne Doucet

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Le Data Warehouse. Fait Vente. temps produit promotion. magasin. revenu ... Produit réf. libellé volume catégorie poids. Temps jour semaine date ...

Théories de la Business Intelligence

FreeAnalysis. Schema Designer. Cubes

SQL SERVER 2008, BUSINESS INTELLIGENCE

Bases de données multidimensionnelles et mise en œuvre dans Oracle

Fouille de Données : OLAP & Data Warehousing

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Mémoire de fin d études. Thème Conception et réalisation d un Data Warehouse pour la mise en place d un système décisionnel

Introduction au domaine du décisionnel et aux data warehouses

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

PROGICIELS DE GESTION INTÉGRÉS SOLUTIONS DE REPORTING

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

Bases de Données OLAP

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Ici, le titre de la. Tableaux de bords de conférence

Introduction à Business Objects. J. Akoka I. Wattiau

Analyse comparative entre différents outils de BI (Business Intelligence) :

L informatique décisionnelle

BUSINESS INTELLIGENCE

Oracle Décisionnel : Modèle OLAP et Vue matérialisée D BILEK

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Construction d un environnement destiné à l'aide au pilotage

Business Intelligence avec Excel, Power BI et Office 365

Catalogue Formation «Vanilla»

Intelligence Economique - Business Intelligence

Le concept de Data Warehouse a été formalisé pour la première fois en 1990.

Vers une vraie alternative du libre dans les logiciels d aide à la décision (BI)

BUSINESS INTELLIGENCE

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

BI2B est un cabinet de conseil expert en Corporate Performance Management QUI SOMMES-NOUS?

Présentation du module Base de données spatio-temporelles

Entrepôts de Données

UNIVERSITÉ MOHAMMED V AGDAL. FACULTÉ DES SCIENCES Rabat THÈSE DE DOCTORAT. Présentée par ELhoussaine ZIYATI Discipline : Sciences de l ingénieur

Entrepôt de données et l Analyse en ligne. Maguelonne Teisseire Hugo Alatrista Salas hugo.alatrista- salas@teledetec9on.fr Flavien Bouillot

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

Systèmes d information décisionnels (SIAD) Extraction de connaissances (KDD) Business Intelligence (BI)

BUSINESS INTELLIGENCE

MyReport, une gamme complète. La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! pour piloter votre activité au quotidien.

Base de données clients outil de base du CRM

La Business Intelligence en toute simplicité :

Projet M1 Sujet 21 : Développement d'un logiciel simplifié de type Business Object

Business Intelligence

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques

2 Serveurs OLAP et introduction au Data Mining

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Agenda de la présentation

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Les entrepôts de données et l analyse de données

UE 8 Systèmes d information de gestion Le programme

RÉPUBLIQUE ALGÉRIENNE DÉMOCRATIQUE ET POPULAIRE. Ministère de l Enseignement Supérieur et de la Recherche Scientifique I.N.I THEME : Les outils OLAP

Evry - M2 MIAGE Entrepôts de Données

Votre Infrastructure est-elle? Business Intelligence. Améliorer la capacité d analyse et de décision de vos équipes

Transcription:

K. Smaïli Professeur à l université Nancy2 1/105 K. Smaïli 2008

Introduction au BI (Business Intelligence) Notion de Datawarehouse Cognos Powerplay Powerplay Transformer Impromptu Datamining Le panier de la ménagère Les arbres de décision Les algorithmes génétiques 2/105 K. Smaïli 2008

Le Data Warehouse : objectifs, définitions, architectures» J.M. Franco Eyrolles 1997 Concevoir et déployer un DW, guide de conduite de projet R.Kimball et al. Eyrolles 2000 Stratégies des PME et Intelligence Économique «Une méthode d analyse du besoin» Maryse Salles, Economica Novembre 2003 3/105 K. Smaïli 2008

! " #$ %& ' () * +, '-.& 4/105 K. Smaïli 2008

Circulation de l information 5/105 K. Smaïli 2008

/ ' / &! " # $# % &' ' (! )*&%)) +,- ).//) ) 6/105 K. Smaïli 2008

'' Paradoxe : envoyez moi un sms pour me prévenir que vous m avez envoyé un mail 7/105 K. Smaïli 2008

0 ' '1 *2 3 3 2, - ''4 ' +. 4 54 '64 8/105 K. Smaïli 2008

0 ' ' 7.4-' '4 6 - '4.6 &8''5' '& 8- '& '. 9/105 K. Smaïli 2008

0 ' On consacrerait : 70 % de son temps à chercher l'emplacement de l'information 25 % à isoler l'information utile de la multitude des informations accolées 4 % à consulter des documents relatifs au thème de la recherche et seulement 1 % à comprendre. 10/105 K. Smaïli 2008

Le décideur est celui qui engage la pérennité ou la raison d être de l organisation. Les préoccupations du décideur Suis-je dans le vrai? Mes choix sont-ils bons? Comment prendre du recul par rapport à un quotidien qui m absorbe totalement? Où j en suis? Que deviendra mon entreprise dans les 2 ans qui viennent? Ou dois-je aller? Comment procéder? Quels sont les risques? 11/105 K. Smaïli 2008

Le Business Intelligence (BI), également "intelligence d'affaires" ou "informatique décisionnelle", englobe les solutions informatiques apportant une aide à la décision avec, en bout de chaîne, rapports et tableaux de bord de suivi à la fois analytiques et prospectifs. Le but est de consolider les informations disponibles au sein des bases de données de l'entreprise. 12/105 K. Smaïli 2008

Ensemble des disciplines de gestion des renseignements nécessaires à la prise de décision. Recouvre : L alimentation des entrepôts, Réalisation des cubes multidimensionnels Publication des informations La grande majorité des projets de BI sont fondés sur le fait que : "Pour décider, il faut un maximum d'informations". 13/105 K. Smaïli 2008

"0 1'2$!& 3) )#*)* 4 5 ) 14/105 K. Smaïli 2008

Décisionnel Caractérise le secteur de l informatique qui aide à la prise de décision, essentiellement dans les entreprises. Cela peut prendre la forme, par exemple, de tableaux de bord présentant de façon synthétique des informations diverses et variées. 15/105 K. Smaïli 2008

# Définition des tableaux de bord Un tableau de bord est un instrument de mesure de la performance. Le tableau de bord contribue à réduire l'incertitude et facilite la prise de risque inhérente à toute décision. Un des objectifs du tableau de bord est de détecter une activité anormale. Pour ce faire, il utilise généralement des figures et des couleurs permettant d'identifier rapidement le problème. 16/105 K. Smaïli 2008

9 17/105 K. Smaïli 2008

Raisons Accumulation des données grâce au faible coût de stockage Disponibilité de technologies adaptées pour : Exploration «intelligente» : Datamining L interrogation : Requêteurs L alimentation et l extraction : middleware 18/105 K. Smaïli 2008

Marché du décisionnel Le Business Intelligence connaît une croissance importante en France, il a atteint 1,57 milliards d'euros en 2007. D'après Gartner, le marché mondial de la Business Intelligence (BI) aurait généré 4,6 milliards de dollars de revenus en 2006 Les leaders du marché : IBM-Cognos Oracle-Hyperion SAP-BO 19/105 K. Smaïli 2008

Intérêts du décisionnel Le système décisionnel exploite les données structurées et accumulées dans l'entreprise en les mettant à la disposition de tous. Intérêts : La vision transversale permet d obtenir des performances des activités grâce à la centralisation et à la valorisation des données, L'animation des cadres par l'analyse de leurs performances, l'amélioration et l'automatisation des flux d informations circulant dans l entreprise, l'augmentation de la productivité et une meilleure réactivité, la faculté de pouvoir anticiper les évolutions des comportements des clients en s'affranchissant des compétences et contraintes techniques. 20/105 K. Smaïli 2008

Système décisionnel Sauvegarde et gère les données dans le Data Warehouse, les raffine avec les outils de datamining, les informations sont diffusées par le biais du reporting. Dans le Data Warehouse, on stocke le profil de chaque client au cours du temps. Cela permet à l entreprise de pratiquer une approche individualisée en marketing dite : one to one (plus exactement one to few). Un client fidèle à une enseigne de grande distribution vaut 200 000 au cours du temps. Un client dont on n a pas le profil est assimilé à un client connu. 21/105 K. Smaïli 2008

Vers la transformation des SI en SID 6/#è# /#*," é 6/# é /# é* é é/ # 7* É #7é 8# 4#é 4 495 : / #é /#; 22/105 K. Smaïli 2008

Système décisionnel Objectifs : Améliorer les performances d une entreprise Exemple : Qui sont mes clients? Pourquoi sont-ils chez nous? Comment les pousser à le rester ou les faire revenir En marketing : dans quel rayon placer un certain produit? Devant quel autre produit je peux le mettre pour attirer un maximum de clients. Quelle stratégie de marketing pour ce produit? 23/105 K. Smaïli 2008

Définition d un système d information stratégique Les SIS sont des systèmes d information qui visent à la fois à supporter la stratégie de l entreprise dans son activité opérationnelle et à former cette stratégie en aidant l entreprise à mieux se piloter (Tardieu 1991) 24/105 K. Smaïli 2008

Constat dès 1994 Les BD dans les entreprises contiennent de très nombreuses informations La recherche a proposé de nombreuses méthodes pour l aide à la décision Mais très peu d utilisation de l informatique par les décideurs 25/105 K. Smaïli 2008

Évolution de la situation Formalisation du concept de Data Warehouse en 1990. Concept créé par Bill Inmon Création des Data Warehouses (1992) Développement de nouveaux logiciels, EIS (Executive Information system) reposant sur une vision multidimensionnelle des données 26/105 K. Smaïli 2008

Data Warehouse Objectif Pour être exploitables, toutes les données (provenant du système de production de l'entreprise ou achetées) vont être organisées, coordonnées, intégrées et enfin stockées pour donner à l'utilisateur une vue globale des informations (informations "complètes" et "transversales"). Le Data Warehouse, "l Entrepôt de données" remplit la fonction de la BD. 27/105 K. Smaïli 2008

Base de données et Datawarehouse " / //)/ # //)& 1 ) //) / 4 *< //),%=.. 4 //) ) 28/105 K. Smaïli 2008

Base de données et Datawarehouse,%=. ># #?6@?-6 @! "# 4)# / /##//#)),) #A # ) A #5 29/105 K. Smaïli 2008

Base de données et Datawarehouse B C7 >#D EA ) &?3@?- 3@! #) F /# ) 1 A E )#) F E/#/# # 30/105 K. Smaïli 2008

Base de données et Datawarehouse Caractéristiques OLTP OLAP Utilisation Production aide à la décision Utilisateur Département Transversal (entreprise) Normalisées, non agrégées Dénormalisées et agrégées Données Simples, nombreuses, prévisibles et répétitives Requêtes Nb de tuples utilisés par requêtes Dizaines Millions Taille des données 100 MB à 1 GB Type de données Récentes, mises à jour Complexes, peu nombreuses, non prévisibles plusieurs Téra Historisées 31/105 K. Smaïli 2008

Spécification d un datawarehouse Par le biais d une interface conviviale et grâce à des outils d'édition un utilisateur non informaticien aura la possibilité de : Interroger et analyser les données de l entreprise en architecture client /serveur ou web, Diffuser et partager l information auprès de ses collaborateurs, Publier et traiter automatiquement des documents sur le Web. 32/105 K. Smaïli 2008

Data Warehouse La taille du Data Warehouse est globalement fonction de la taille des organisations. Rapprochement avec les activits logistiques : Entrepôt de données (DW) : pour les grands volumes Magasin (DM) : volumes plus faibles à la taille de magasin ou de services d entreprise. Taille du Data Warehouse : L unité de stockage est le giga octet Mag Info gère la carte Cofinoga (société de crédit) et dispose de 30 Téra octets soit 3. 10^5 GO Une PME de fabrication de lingerie féminine destinée aux grandes surfaces dispose de 4 GO 33/105 K. Smaïli 2008

Data Warehouse Dfinition B.7 ) 5 ># ) ) #># 7))>47 / 5 ) ="# )/)GB 7. 7G )/.7 /D & H.7 ) ))) 7) ) 4 4A )I 34/105 K. Smaïli 2008

Data Warehouse Orientées sujet Le Data Warehouse est organisé autour des sujets majeurs de l entreprise, contrairement aux données des systèmes de production. Ceux-ci sont généralement organisés par processus fonctionnels. Les données sont structurées par thème. L intérêt de cette organisation est de disposer de l ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l entreprise. 35/105 K. Smaïli 2008

Données intégrées Data Warehouse Avant d être intégrées dans le Data Warehouse, les données doivent êtres mises en forme et unifiées afin d avoir un état cohérent. Une donnée doit avoir une description et un codage unique. 36/105 K. Smaïli 2008

Données historisées Data Warehouse Dans un système de production ; la donnée est mise à jour à chaque nouvelle transaction. Dans un Data Warehouse, la donnée ne doit jamais être mise à jour. Un référentiel temps doit être associé à la donnée afin d être capable d identifier une valeur particulière dans le temps. 37/105 K. Smaïli 2008

Données non volatiles Data Warehouse La non volatilité des données est en quelque sorte une conséquence de l historisation. Une même requête effectuée à quelques mois d intervalle en précisant la date de référence de l information recherchée donnera le même résultat 38/105 K. Smaïli 2008

Notion de dimension Dimension Une dimension est un un thème porté par un axe (attributs) de l hypercube selon lequel les données seront analysées. Exemple : Temps, Commercial, Produits Une dimension contient des informations organisés en hiérarchie. Chacune des informations appartient à un niveau hiérarchique (ou niveau de granularité) particulier Exemple : pour la dimension Temps: année, semestre, mois, jour 39/105 K. Smaïli 2008

Notion de dimension #$!" 40/105 K. Smaïli 2008

: $% $% % &% '% % ( % ) % * +,$ $ (% ( +,$ $ 41/105 K. Smaïli 2008

Définition Notion de mesure B# é * / //é # Une mesure sert à déterminer les performances d'une entreprise. Il peut s'agir : d'un simple récapitulatif des informations disponibles (par exemple, le nombre d'unités expédiées, les recettes, les dépenses, les niveaux des stocks ou les quotas), d'une valeur calculée (par exemple, la différence entre les recettes prévues et les recettes réelles qui indique l'écart entre la réalité et les prévisions). 42/105 K. Smaïli 2008

Notion de mesure Objectifs Qté vendue Prix 43/105 K. Smaïli 2008

Exemple de dimensions et de mesures 9 TEMPS PRODUITS LIEU MESURES Années Familles Usines Qte-Produite Mois Gammes Unités Coût Produit fini 44/105 K. Smaïli 2008

Lien entre dimension et mesure : notion d hypercube Définition Un hypercube est une structure permettant de croiser des dimensions pour stocker des variables 45/105 K. Smaïli 2008

Représentation multidimensionnelle? Paris <==> Qte Vendue ; 46/105 K. Smaïli 2008

9 - $ $./ / $ $ / $ 0 47/105 K. Smaïli 2008

Transformation d une table en DW!, J, 3 # K,, ' BDD, L J ' 3 # ', ' %## J L %## 3 # L %##, 'L %## 'L DW " # $ % & $ K ' L '()) * ' ' ' +,))) - L L 'L 'L ')))) +.))) /)))) 0+))) 0.())10.()) 48/105 K. Smaïli 2008

9 Crayon Stylo Europe Amérique 1996 1997 1998 4000 11933 3633 3700 4600 11933 15733 27666 7933 7000 14933 8733 12733 15733 27766 6000 9633 6000 9700 3733 8333 12733 4700 4933 5200 2833 14933 27666 9633 4500 9700 5500 8333 49/105 K. Smaïli 2008

9 Crayon Stylo Allemagne 7933 7000 14933 France 5933 3000 8933 2000 4000 6000 7933 7000 14933 1998 2000 4000 6000 1997 2200 2000 4200 50/105 K. Smaïli 2008 1996 3733 1000 4733

1$. Hypercube : BD multidimensionnelle Axes: dimensions (date, type de produits, région), Chaque cellule de l'hypercube contient une mesure (vente de produit). Le modèle multidimensionnel contient 2 types d attributs : les dimensions et les mesures Dimension contient des membres organisés en hiérarchie : Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulier Granularité d une dimension : nombre de niveaux hiérarchiques Exemple Temps : année semestre trimestre - mois 51/105 K. Smaïli 2008

1$. 213 93 120 Continent 22 71 80 40 Pays 12 10 0 16 30 25 10 30 40 10 30 0 Ville 52/105 K. Smaïli 2008

2 $$. Opérateurs appliqués sur le cube sont algébriques (le résultat est un autre cube) et peuvent être combinés Les Opérateurs de base : Slicing (tranches) & Dicing (cube) (extraction) Changement de la granularité d'une dimension Roll up (agrégation d'une dimension =>résumé) Drill down (plus détaillées) 53/105 K. Smaïli 2008

Comparaison avec l approche relationnelle 8 ' Un point de l hypercube correspond à un quadruplet de la relation : Ventes (DATE,REFPROD,REFFOUR,QTEVENDUE) Date Date Produit Refproduit 0,n Ventes QtteVendus 0,n 0,n Fournisseur RefFour Avec un SGBD relationnel tout calcul de cumul partiel nécessite l écriture d une requête complexe (avec GROUP BY) Dans une BDM tous les agrégats sont pré-calculés (matrices creuses) 54/105 K. Smaïli 2008

Avantage des BD multidimensionelles 0 # Séparation des données quantitatives des données qualitatives Précalculs des agrégats à tous les niveaux Relative souplesse dans la définition des dimensions Exemple : ajouter «semestre» imposera de regénérer l hypercube Data Surfing : navigation dans les données 55/105 K. Smaïli 2008

Exemple - - - - # # 4!"!" ( * )% )% )% 3% " $ - #,$ 4 ( * )% )% % " 3( 3% 3( *% 3% ) (% 3( "!" 4 4 5$ #$ 56/105 K. Smaïli 2008

Construction d un Data Warehouse Comme pour n importe quelle structure de données, il est nécessaire de pouvoir extraire les données, les stocker et d y accéder : 1- Acquisition 2- Stockage 3- Accès 57/105 K. Smaïli 2008

Construction d un Data Warehouse Acquisition Elle se compose de trois phases : l extraction, la préparation et le chargement. L extraction : collecter les données utiles dans le système de production. La préparation : plusieurs technologies sont utilisables : les passerelles, fournies par les éditeurs de base de données, les outils spécifiques d extraction (prix élevé). 58/105 K. Smaïli 2008

Construction d un Data Warehouse La préparation inclus la mise en correspondance des formats de données, le nettoyage, la transformation et l agrégation. Le chargement : il constitue la dernière phase d alimentation. Il est indispensable de maîtriser la structure du SGBD (tables et index) pour optimiser au mieux le processus. 59/105 K. Smaïli 2008

Construction d un Data Warehouse Extraction SGBD et supports physiques hétérogènes Qualité inégale des données Représentation hétérogènes Centralisées Fiables interprétables 60/105 K. Smaïli 2008

Construction d un Data Warehouse (ETL) Alimentation Filtrer Nettoyer Homogénéiser trier 61/105 K. Smaïli 2008

Construction d un Data Warehouse (ETL) FS Intégration des données $ Uniformisation à cause de la multiplicité des sources Char(10) Real Real(15) Real(15) 62/105 K. Smaïli 2008

Construction d un Data Warehouse (ETL) Yard Intégration des données Inch Cm April, 29, 2008 Cm Uniformisation à cause de la multiplicité des sources 28 avril 2008l 28/04/2008 04/28/08 63/105 K. Smaïli 2008

Construction d un Data Warehouse Uniformisation des données et informations à cause de la multiplicité des sources : Codage de couleurs différents : Brun, marron Découpage des activités selon des normes géographiques particulières : Découpage des activités dans un pays Nord Sud ou Est-Ouest 64/105 K. Smaïli 2008

ETL (Extract-Transform-Load) Une technologie permettant d effectuer des synchronisation massives d information d une technologie permettant d effectuer des synchronisation massives d information d une banque de données vers une autre Ce système ne se contente pas de charger les données, il doit les dé-normaliser, les nettoyer,, puis de les charger de la façon adéquate. 65/105 K. Smaïli 2008

ETL Talend 66/105 K. Smaïli 2008

ETL Talend 67/105 K. Smaïli 2008

ETL Talend 68/105 K. Smaïli 2008

ETL (Extract-Transform-Load) Dénormalisation : La 3FN n est pas souhaitée. Il faut que les données apparaissent là où elles doivent être Nettoyage : Les utilisateurs peuvent introduire des erreurs dans les données. Ils peuvent saisir Toul au Lieu de Tour Chargées en DW : c'est l'étape la plus complexe, il s'agit ici d'ajouter de nouveaux enregistrements, de faire attention à la cohérence globale des données 69/105 K. Smaïli 2008

Construction d un Data Warehouse Stockage Agnès Dupont Nancy 24-03-06 Isabelle Paty Metz 12-02-06 Jean Mémé Paris 12-03-06 Danièle Koraci 13-02-06 Mars 2006 Agnès Dupont Nancy 24-03-06 Jean Mémé Paris 12-03-06 Février 2006 Danièle Koraci 13-02-06 Isabelle Paty Metz 12-02-06 70/105 K. Smaïli 2008

Construction d un Data Warehouse Stockage Jou1 Jou2 Jou3 Jou30 Sem1 Sem2 Sem3 Sem7 Organisation des données provenant des bases de données selon un certain découpage temporel Mois1 Mois2 Mois3 Moi12 Trim1 Trim2 Trim3 Trim4 Ann1 An 2 An 3 An n 71/105 K. Smaïli 2008

Construction d un Data Warehouse Produit(NumProd, Libelle,Prix) Vente(NumProd, NumEntrStock,Date,Qte) Entrepot(NumEntr,Ville,Dept) 72/105 K. Smaïli 2008

Construction d un Data Warehouse Produit(NumProd, Libelle,Prix) Vente(NumProd, NumEntrStock,Date,Qte) Entrepot(NumEntr,Ville,Dept) Pour obtenir le montant total des produits provenant d une ville SELECT [ville], p.numprod, sum([qte]*[prix]) AS Total FROM produit AS p, vente AS v, entrepot AS e WHERE p.numprod=v.numprod and v.numentrstock=e.numentr GROUP BY [ville], p.numprod; 73/105 K. Smaïli 2008

Construction d un Data Warehouse Produit(NumProd, Libelle,Prix) Vente(NumProd, NumEntrStock,Date,Qte) Entrepot(NumEntr,Ville,Dept) Pour obtenir le montant total des produits provenant d un département SELECT [Dep], p.numprod, sum([qte]*[prix]) AS Total FROM produit AS p, vente AS v, entrepot AS e WHERE p.numprod=v.numprod and v.numentrstock=e.numentr GROUP BY [Dep], p.numprod; 74/105 K. Smaïli 2008

Construction d un Data Warehouse Avec un data warehouse, tous les totaux et récapitulatifs peuvent être obtenus beaucoup plus facilement. Nous construisons la source de données par la requête suivante : SELECT [libelle], [prix], [numentr], [ville], [dep], [date], [qte], [qte]*[prix] AS [transaction] Faire une démo FROM vente AS v, entrepot AS e, produit AS p WHERE p.numprod=v.numprod and v.numentrstock=e.numentr; 75/105 K. Smaïli 2008

Construction d un Data Warehouse 76/105 K. Smaïli 2008

Construction d un Data Warehouse 77/105 K. Smaïli 2008

Construction d un Data Warehouse 78/105 K. Smaïli 2008

$6 $+ 78 Normalisation: Éliminer les redondances Préserver la cohérence des données Optimisation des transactions Réduction de l espace de stockage Inconvénients pour un utilisateur final: Schéma très/trop complet: Contient des tables/champs inutiles pour l analyse Inadapté pour l analyse 79/105 K. Smaïli 2008

9 80/105 K. Smaïli 2008

7: Transporteur Mode d expédition Contrat Type de contrat Client Commande client Magasin Produit Groupe de produits Employé Stock Région de ventes Famille de produits Fonction Fournisseurs Division de ventes 81/105 K. Smaïli 2008

6 Nouvelle méthode de conception autour des concepts métiers Ne pas normaliser au maximum Introduction de nouveaux types de table: Table de faits Table de dimensions Introduction de nouveaux modèles: Modèle en étoile Modèle en flocon 82/105 K. Smaïli 2008

Modélisation d un DataWarehouse 2 #1) / 6 / # ) # /&#57# #& 7# # E) / 83/105 K. Smaïli 2008

. Table principale du modèle dimensionnel Contient les données observables (les faits) sur le sujet étudié selon divers axes d analyse (les dimensions) Clés étrangères vers les dimensions Faits Table de faits des ventes Clé date (CE) Clé produit (CE) Clé vendeur (CE) Quantité vendue Montant 84/105 K. Smaïli 2008

Modélisation d un Datawarehouse 34 5 0)))) 6736 829:7560))' #22 79:& 85/105 K. Smaïli 2008

Modélisation d un DataWarehouse & 1;#! 6< 4 0;$ ; 35 +;2 35 ; 86/105 K. Smaïli 2008

. Axe d analyse selon lequel vont être étudiées les données observables (faits) Contient le détail sur les faits Clé de substitution Attributs de la dimension Clé produit (CP) Libellé Description du produit Famille du produits Marque Emballage Poids Dimension produit 87/105 K. Smaïli 2008

Modélisation d un Data Warehouse = B!! /# # @ # )-#) #4 88/105 K. Smaïli 2008

Modélisation en étoile Table de faits Vendeur NumVendeur Département Région Date Date Trimestre Mois Jour Vente NumVendeur Date RefProd Qtte Montant Produit RefProduit TypeProduit CatégorieProduit 89/105 K. Smaïli 2008

Modélisation en étoile Vendeur NumVendeur Département Région Table de faits Date Date Trimestre Mois Jour Vente NumVendeur Date RefProd Qtte Montant Normalisation : TypeProduit -> CatégorieProduit Département -> Région Mois -> Trimestre. Produit RefProduit TypeProduit CatégorieProduit 90/105 K. Smaïli 2008

Modélisation en flocon Le modèle en flocon de neige est dérivé du modèle étoile en normalisant les tables de dimensions. La table de faits reste inchangée Avec ce schéma chaque dimension est décomposée selon sa ou ses hiérarchies 91/105 K. Smaïli 2008

Modélisation en flocon 92/105 K. Smaïli 2008

Une table de faits et des dimensions décomposées en sous hiérarchies On a un seul niveau hiérarchique dans une table de dimension La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu elle a la granularité la plus fine Avantages: Normalisation des dimensions Économie d espace disque Inconvénients: Modèle plus complexe (jointure) Requêtes moins performantes 93/105 K. Smaïli 2008

Convertir un modèle E/A en modèle multidimensionnel Identifier le processus que l on souhaite modéliser Identifier les relations n-m pour les convertir en tables de faits Dé-normaliser les autres relations pour faire des dimensions plates Repérer le temps dans les différentes entités et l intégrer 94/105 K. Smaïli 2008

Convertir un modèle E/A en modèle multidimensionnel Une table de faits est constituée généralement de clés étrangères et de valeurs (ou mesures) Dé-normalisation des tables : Toutes les entités ou tables qui ont un lien 1 à n sont regroupées au sein d une même table appelée dimension. Cela permet d avoir la hiérarchisation que l on connaît dans les DW. On trouvera des informations du spécifique vers le général 95/105 K. Smaïli 2008

Région NumRégion Région 0,n AppReg 0,n Client NumClient NomClient Convertir un modèle E/A en modèle multidimensionnel 0,n 0,n Appartient Voiture 1,1 NumVoiture Type 1,n Type NumType Type NbChevaux 1,1 TypeMarq Possède PrixAchat D 0,n Date PrixAchat 1,n Marque NumMarque Marque DimensionVoiture NumVoiture Type Marque DimensionClient NomClient Région Possède NumClient NumVoiture DateTransac PrixAchat DimensionDate 96/105 Mois K. Smaïli 2008 Trimestre Année

+$ $6 9; $ OLAP (On-line Analysis Processing) cube à N dimensions où toutes les intersections sont calculées Opérations OLAP : Drill up /Drill down Rotate Slicing Scoping 97/105 K. Smaïli 2008

+$ $6 9&&<# Drill up Drill down 98/105 K. Smaïli 2008

+$ $6 9&&<# Rotate 99/105 K. Smaïli 2008 Rotate

+$ $6 9& Prendre une tranche du cube 100/105 K. Smaïli 2008 Slicing

+$ $6 9; $ Slicing et dicing Slicing: Sélection de tranches du cube par des prédicats selon une dimension filtrer une dimension selon une valeur Exemple: Slice (2005) : on ne retient que la partie du cube qui correspond à cette date Dicing: extraction d'un sous-cube (une partie du cube) Rollup (Drill up) : ou forage vers le haut: consiste à représenter les données du cube à un niveau de granularité supérieur conformément à la hiérarchie définie sur la dimension. Drill-down ou forage vers le bas : consiste à représenter les données du cube à un niveau de granularité de niveau inférieur, donc sous une forme plus détaillée. 101/105 K. Smaïli 2008

Architecture d un Data Warehouse Architecture ROLAP (Relational OLAP): Le stockage des données est réalisé dans un SGBD séparé du système de production. Le SGBD est alimenté par des extractions périodiques. Données stockées dans une base de données relationnelles Un moteur OLAP permet de simuler le comportement d un SGBD multidimensionnel Moins performant lors des phases de calcul 102/105 K. Smaïli 2008

Architecture d un Data Warehouse Architecture MOLAP (Multidimensional OLAP) : ")& ) #)#)## #A # B=M'&#'&'&NO#! 5) # 3P)& F 8 > # ) 5#&0 / 103/105 K. Smaïli 2008

Architecture d un Data Warehouse #4 >#3> #5 ")&?3@QF?3@.)/ #!1).)))1) *<77 ) 104/105 K. Smaïli 2008

Architecture d un Data Warehouse Architecture virtuelle : Cette architecture n est pratiquement pas utilisée pour le Data Warehouse. Les données résident dans le système de production. Elles sont rendues visibles par des produits middleware ou par des passerelles. Il en résulte deux avantages : pas de coût de stockage supplémentaire L inconvénient est que les données ne sont pas préparées. 105/105 K. Smaïli 2008

Schéma Décisionnel Pattern Evaluation Transformed Data Data mining Data Warehouse Selection Data cleaning Data integration 106/105 K. Smaïli 2008

107/105 K. Smaïli 2008

5$,$$$ ETL Entrepôt de données OLAP Reporting Data Mining Octopus MySql Mondrian Birt Weka Kettle Postgresql Palo Open Report R-Project CloverETL Greenplum Jasper Report Orange Talend JFreeReport Xelopes Intégré Pentaho (Kettle, Mondrian, JFreeReport, Weka) SpagoBI 108/105 K. Smaïli 2008