K. Smaïli Professeur à l université Nancy2 1/105 K. Smaïli 2008
Introduction au BI (Business Intelligence) Notion de Datawarehouse Cognos Powerplay Powerplay Transformer Impromptu Datamining Le panier de la ménagère Les arbres de décision Les algorithmes génétiques 2/105 K. Smaïli 2008
Le Data Warehouse : objectifs, définitions, architectures» J.M. Franco Eyrolles 1997 Concevoir et déployer un DW, guide de conduite de projet R.Kimball et al. Eyrolles 2000 Stratégies des PME et Intelligence Économique «Une méthode d analyse du besoin» Maryse Salles, Economica Novembre 2003 3/105 K. Smaïli 2008
! " #$ %& ' () * +, '-.& 4/105 K. Smaïli 2008
Circulation de l information 5/105 K. Smaïli 2008
/ ' / &! " # $# % &' ' (! )*&%)) +,- ).//) ) 6/105 K. Smaïli 2008
'' Paradoxe : envoyez moi un sms pour me prévenir que vous m avez envoyé un mail 7/105 K. Smaïli 2008
0 ' '1 *2 3 3 2, - ''4 ' +. 4 54 '64 8/105 K. Smaïli 2008
0 ' ' 7.4-' '4 6 - '4.6 &8''5' '& 8- '& '. 9/105 K. Smaïli 2008
0 ' On consacrerait : 70 % de son temps à chercher l'emplacement de l'information 25 % à isoler l'information utile de la multitude des informations accolées 4 % à consulter des documents relatifs au thème de la recherche et seulement 1 % à comprendre. 10/105 K. Smaïli 2008
Le décideur est celui qui engage la pérennité ou la raison d être de l organisation. Les préoccupations du décideur Suis-je dans le vrai? Mes choix sont-ils bons? Comment prendre du recul par rapport à un quotidien qui m absorbe totalement? Où j en suis? Que deviendra mon entreprise dans les 2 ans qui viennent? Ou dois-je aller? Comment procéder? Quels sont les risques? 11/105 K. Smaïli 2008
Le Business Intelligence (BI), également "intelligence d'affaires" ou "informatique décisionnelle", englobe les solutions informatiques apportant une aide à la décision avec, en bout de chaîne, rapports et tableaux de bord de suivi à la fois analytiques et prospectifs. Le but est de consolider les informations disponibles au sein des bases de données de l'entreprise. 12/105 K. Smaïli 2008
Ensemble des disciplines de gestion des renseignements nécessaires à la prise de décision. Recouvre : L alimentation des entrepôts, Réalisation des cubes multidimensionnels Publication des informations La grande majorité des projets de BI sont fondés sur le fait que : "Pour décider, il faut un maximum d'informations". 13/105 K. Smaïli 2008
"0 1'2$!& 3) )#*)* 4 5 ) 14/105 K. Smaïli 2008
Décisionnel Caractérise le secteur de l informatique qui aide à la prise de décision, essentiellement dans les entreprises. Cela peut prendre la forme, par exemple, de tableaux de bord présentant de façon synthétique des informations diverses et variées. 15/105 K. Smaïli 2008
# Définition des tableaux de bord Un tableau de bord est un instrument de mesure de la performance. Le tableau de bord contribue à réduire l'incertitude et facilite la prise de risque inhérente à toute décision. Un des objectifs du tableau de bord est de détecter une activité anormale. Pour ce faire, il utilise généralement des figures et des couleurs permettant d'identifier rapidement le problème. 16/105 K. Smaïli 2008
9 17/105 K. Smaïli 2008
Raisons Accumulation des données grâce au faible coût de stockage Disponibilité de technologies adaptées pour : Exploration «intelligente» : Datamining L interrogation : Requêteurs L alimentation et l extraction : middleware 18/105 K. Smaïli 2008
Marché du décisionnel Le Business Intelligence connaît une croissance importante en France, il a atteint 1,57 milliards d'euros en 2007. D'après Gartner, le marché mondial de la Business Intelligence (BI) aurait généré 4,6 milliards de dollars de revenus en 2006 Les leaders du marché : IBM-Cognos Oracle-Hyperion SAP-BO 19/105 K. Smaïli 2008
Intérêts du décisionnel Le système décisionnel exploite les données structurées et accumulées dans l'entreprise en les mettant à la disposition de tous. Intérêts : La vision transversale permet d obtenir des performances des activités grâce à la centralisation et à la valorisation des données, L'animation des cadres par l'analyse de leurs performances, l'amélioration et l'automatisation des flux d informations circulant dans l entreprise, l'augmentation de la productivité et une meilleure réactivité, la faculté de pouvoir anticiper les évolutions des comportements des clients en s'affranchissant des compétences et contraintes techniques. 20/105 K. Smaïli 2008
Système décisionnel Sauvegarde et gère les données dans le Data Warehouse, les raffine avec les outils de datamining, les informations sont diffusées par le biais du reporting. Dans le Data Warehouse, on stocke le profil de chaque client au cours du temps. Cela permet à l entreprise de pratiquer une approche individualisée en marketing dite : one to one (plus exactement one to few). Un client fidèle à une enseigne de grande distribution vaut 200 000 au cours du temps. Un client dont on n a pas le profil est assimilé à un client connu. 21/105 K. Smaïli 2008
Vers la transformation des SI en SID 6/#è# /#*," é 6/# é /# é* é é/ # 7* É #7é 8# 4#é 4 495 : / #é /#; 22/105 K. Smaïli 2008
Système décisionnel Objectifs : Améliorer les performances d une entreprise Exemple : Qui sont mes clients? Pourquoi sont-ils chez nous? Comment les pousser à le rester ou les faire revenir En marketing : dans quel rayon placer un certain produit? Devant quel autre produit je peux le mettre pour attirer un maximum de clients. Quelle stratégie de marketing pour ce produit? 23/105 K. Smaïli 2008
Définition d un système d information stratégique Les SIS sont des systèmes d information qui visent à la fois à supporter la stratégie de l entreprise dans son activité opérationnelle et à former cette stratégie en aidant l entreprise à mieux se piloter (Tardieu 1991) 24/105 K. Smaïli 2008
Constat dès 1994 Les BD dans les entreprises contiennent de très nombreuses informations La recherche a proposé de nombreuses méthodes pour l aide à la décision Mais très peu d utilisation de l informatique par les décideurs 25/105 K. Smaïli 2008
Évolution de la situation Formalisation du concept de Data Warehouse en 1990. Concept créé par Bill Inmon Création des Data Warehouses (1992) Développement de nouveaux logiciels, EIS (Executive Information system) reposant sur une vision multidimensionnelle des données 26/105 K. Smaïli 2008
Data Warehouse Objectif Pour être exploitables, toutes les données (provenant du système de production de l'entreprise ou achetées) vont être organisées, coordonnées, intégrées et enfin stockées pour donner à l'utilisateur une vue globale des informations (informations "complètes" et "transversales"). Le Data Warehouse, "l Entrepôt de données" remplit la fonction de la BD. 27/105 K. Smaïli 2008
Base de données et Datawarehouse " / //)/ # //)& 1 ) //) / 4 *< //),%=.. 4 //) ) 28/105 K. Smaïli 2008
Base de données et Datawarehouse,%=. ># #?6@?-6 @! "# 4)# / /##//#)),) #A # ) A #5 29/105 K. Smaïli 2008
Base de données et Datawarehouse B C7 >#D EA ) &?3@?- 3@! #) F /# ) 1 A E )#) F E/#/# # 30/105 K. Smaïli 2008
Base de données et Datawarehouse Caractéristiques OLTP OLAP Utilisation Production aide à la décision Utilisateur Département Transversal (entreprise) Normalisées, non agrégées Dénormalisées et agrégées Données Simples, nombreuses, prévisibles et répétitives Requêtes Nb de tuples utilisés par requêtes Dizaines Millions Taille des données 100 MB à 1 GB Type de données Récentes, mises à jour Complexes, peu nombreuses, non prévisibles plusieurs Téra Historisées 31/105 K. Smaïli 2008
Spécification d un datawarehouse Par le biais d une interface conviviale et grâce à des outils d'édition un utilisateur non informaticien aura la possibilité de : Interroger et analyser les données de l entreprise en architecture client /serveur ou web, Diffuser et partager l information auprès de ses collaborateurs, Publier et traiter automatiquement des documents sur le Web. 32/105 K. Smaïli 2008
Data Warehouse La taille du Data Warehouse est globalement fonction de la taille des organisations. Rapprochement avec les activits logistiques : Entrepôt de données (DW) : pour les grands volumes Magasin (DM) : volumes plus faibles à la taille de magasin ou de services d entreprise. Taille du Data Warehouse : L unité de stockage est le giga octet Mag Info gère la carte Cofinoga (société de crédit) et dispose de 30 Téra octets soit 3. 10^5 GO Une PME de fabrication de lingerie féminine destinée aux grandes surfaces dispose de 4 GO 33/105 K. Smaïli 2008
Data Warehouse Dfinition B.7 ) 5 ># ) ) #># 7))>47 / 5 ) ="# )/)GB 7. 7G )/.7 /D & H.7 ) ))) 7) ) 4 4A )I 34/105 K. Smaïli 2008
Data Warehouse Orientées sujet Le Data Warehouse est organisé autour des sujets majeurs de l entreprise, contrairement aux données des systèmes de production. Ceux-ci sont généralement organisés par processus fonctionnels. Les données sont structurées par thème. L intérêt de cette organisation est de disposer de l ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l entreprise. 35/105 K. Smaïli 2008
Données intégrées Data Warehouse Avant d être intégrées dans le Data Warehouse, les données doivent êtres mises en forme et unifiées afin d avoir un état cohérent. Une donnée doit avoir une description et un codage unique. 36/105 K. Smaïli 2008
Données historisées Data Warehouse Dans un système de production ; la donnée est mise à jour à chaque nouvelle transaction. Dans un Data Warehouse, la donnée ne doit jamais être mise à jour. Un référentiel temps doit être associé à la donnée afin d être capable d identifier une valeur particulière dans le temps. 37/105 K. Smaïli 2008
Données non volatiles Data Warehouse La non volatilité des données est en quelque sorte une conséquence de l historisation. Une même requête effectuée à quelques mois d intervalle en précisant la date de référence de l information recherchée donnera le même résultat 38/105 K. Smaïli 2008
Notion de dimension Dimension Une dimension est un un thème porté par un axe (attributs) de l hypercube selon lequel les données seront analysées. Exemple : Temps, Commercial, Produits Une dimension contient des informations organisés en hiérarchie. Chacune des informations appartient à un niveau hiérarchique (ou niveau de granularité) particulier Exemple : pour la dimension Temps: année, semestre, mois, jour 39/105 K. Smaïli 2008
Notion de dimension #$!" 40/105 K. Smaïli 2008
: $% $% % &% '% % ( % ) % * +,$ $ (% ( +,$ $ 41/105 K. Smaïli 2008
Définition Notion de mesure B# é * / //é # Une mesure sert à déterminer les performances d'une entreprise. Il peut s'agir : d'un simple récapitulatif des informations disponibles (par exemple, le nombre d'unités expédiées, les recettes, les dépenses, les niveaux des stocks ou les quotas), d'une valeur calculée (par exemple, la différence entre les recettes prévues et les recettes réelles qui indique l'écart entre la réalité et les prévisions). 42/105 K. Smaïli 2008
Notion de mesure Objectifs Qté vendue Prix 43/105 K. Smaïli 2008
Exemple de dimensions et de mesures 9 TEMPS PRODUITS LIEU MESURES Années Familles Usines Qte-Produite Mois Gammes Unités Coût Produit fini 44/105 K. Smaïli 2008
Lien entre dimension et mesure : notion d hypercube Définition Un hypercube est une structure permettant de croiser des dimensions pour stocker des variables 45/105 K. Smaïli 2008
Représentation multidimensionnelle? Paris <==> Qte Vendue ; 46/105 K. Smaïli 2008
9 - $ $./ / $ $ / $ 0 47/105 K. Smaïli 2008
Transformation d une table en DW!, J, 3 # K,, ' BDD, L J ' 3 # ', ' %## J L %## 3 # L %##, 'L %## 'L DW " # $ % & $ K ' L '()) * ' ' ' +,))) - L L 'L 'L ')))) +.))) /)))) 0+))) 0.())10.()) 48/105 K. Smaïli 2008
9 Crayon Stylo Europe Amérique 1996 1997 1998 4000 11933 3633 3700 4600 11933 15733 27666 7933 7000 14933 8733 12733 15733 27766 6000 9633 6000 9700 3733 8333 12733 4700 4933 5200 2833 14933 27666 9633 4500 9700 5500 8333 49/105 K. Smaïli 2008
9 Crayon Stylo Allemagne 7933 7000 14933 France 5933 3000 8933 2000 4000 6000 7933 7000 14933 1998 2000 4000 6000 1997 2200 2000 4200 50/105 K. Smaïli 2008 1996 3733 1000 4733
1$. Hypercube : BD multidimensionnelle Axes: dimensions (date, type de produits, région), Chaque cellule de l'hypercube contient une mesure (vente de produit). Le modèle multidimensionnel contient 2 types d attributs : les dimensions et les mesures Dimension contient des membres organisés en hiérarchie : Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulier Granularité d une dimension : nombre de niveaux hiérarchiques Exemple Temps : année semestre trimestre - mois 51/105 K. Smaïli 2008
1$. 213 93 120 Continent 22 71 80 40 Pays 12 10 0 16 30 25 10 30 40 10 30 0 Ville 52/105 K. Smaïli 2008
2 $$. Opérateurs appliqués sur le cube sont algébriques (le résultat est un autre cube) et peuvent être combinés Les Opérateurs de base : Slicing (tranches) & Dicing (cube) (extraction) Changement de la granularité d'une dimension Roll up (agrégation d'une dimension =>résumé) Drill down (plus détaillées) 53/105 K. Smaïli 2008
Comparaison avec l approche relationnelle 8 ' Un point de l hypercube correspond à un quadruplet de la relation : Ventes (DATE,REFPROD,REFFOUR,QTEVENDUE) Date Date Produit Refproduit 0,n Ventes QtteVendus 0,n 0,n Fournisseur RefFour Avec un SGBD relationnel tout calcul de cumul partiel nécessite l écriture d une requête complexe (avec GROUP BY) Dans une BDM tous les agrégats sont pré-calculés (matrices creuses) 54/105 K. Smaïli 2008
Avantage des BD multidimensionelles 0 # Séparation des données quantitatives des données qualitatives Précalculs des agrégats à tous les niveaux Relative souplesse dans la définition des dimensions Exemple : ajouter «semestre» imposera de regénérer l hypercube Data Surfing : navigation dans les données 55/105 K. Smaïli 2008
Exemple - - - - # # 4!"!" ( * )% )% )% 3% " $ - #,$ 4 ( * )% )% % " 3( 3% 3( *% 3% ) (% 3( "!" 4 4 5$ #$ 56/105 K. Smaïli 2008
Construction d un Data Warehouse Comme pour n importe quelle structure de données, il est nécessaire de pouvoir extraire les données, les stocker et d y accéder : 1- Acquisition 2- Stockage 3- Accès 57/105 K. Smaïli 2008
Construction d un Data Warehouse Acquisition Elle se compose de trois phases : l extraction, la préparation et le chargement. L extraction : collecter les données utiles dans le système de production. La préparation : plusieurs technologies sont utilisables : les passerelles, fournies par les éditeurs de base de données, les outils spécifiques d extraction (prix élevé). 58/105 K. Smaïli 2008
Construction d un Data Warehouse La préparation inclus la mise en correspondance des formats de données, le nettoyage, la transformation et l agrégation. Le chargement : il constitue la dernière phase d alimentation. Il est indispensable de maîtriser la structure du SGBD (tables et index) pour optimiser au mieux le processus. 59/105 K. Smaïli 2008
Construction d un Data Warehouse Extraction SGBD et supports physiques hétérogènes Qualité inégale des données Représentation hétérogènes Centralisées Fiables interprétables 60/105 K. Smaïli 2008
Construction d un Data Warehouse (ETL) Alimentation Filtrer Nettoyer Homogénéiser trier 61/105 K. Smaïli 2008
Construction d un Data Warehouse (ETL) FS Intégration des données $ Uniformisation à cause de la multiplicité des sources Char(10) Real Real(15) Real(15) 62/105 K. Smaïli 2008
Construction d un Data Warehouse (ETL) Yard Intégration des données Inch Cm April, 29, 2008 Cm Uniformisation à cause de la multiplicité des sources 28 avril 2008l 28/04/2008 04/28/08 63/105 K. Smaïli 2008
Construction d un Data Warehouse Uniformisation des données et informations à cause de la multiplicité des sources : Codage de couleurs différents : Brun, marron Découpage des activités selon des normes géographiques particulières : Découpage des activités dans un pays Nord Sud ou Est-Ouest 64/105 K. Smaïli 2008
ETL (Extract-Transform-Load) Une technologie permettant d effectuer des synchronisation massives d information d une technologie permettant d effectuer des synchronisation massives d information d une banque de données vers une autre Ce système ne se contente pas de charger les données, il doit les dé-normaliser, les nettoyer,, puis de les charger de la façon adéquate. 65/105 K. Smaïli 2008
ETL Talend 66/105 K. Smaïli 2008
ETL Talend 67/105 K. Smaïli 2008
ETL Talend 68/105 K. Smaïli 2008
ETL (Extract-Transform-Load) Dénormalisation : La 3FN n est pas souhaitée. Il faut que les données apparaissent là où elles doivent être Nettoyage : Les utilisateurs peuvent introduire des erreurs dans les données. Ils peuvent saisir Toul au Lieu de Tour Chargées en DW : c'est l'étape la plus complexe, il s'agit ici d'ajouter de nouveaux enregistrements, de faire attention à la cohérence globale des données 69/105 K. Smaïli 2008
Construction d un Data Warehouse Stockage Agnès Dupont Nancy 24-03-06 Isabelle Paty Metz 12-02-06 Jean Mémé Paris 12-03-06 Danièle Koraci 13-02-06 Mars 2006 Agnès Dupont Nancy 24-03-06 Jean Mémé Paris 12-03-06 Février 2006 Danièle Koraci 13-02-06 Isabelle Paty Metz 12-02-06 70/105 K. Smaïli 2008
Construction d un Data Warehouse Stockage Jou1 Jou2 Jou3 Jou30 Sem1 Sem2 Sem3 Sem7 Organisation des données provenant des bases de données selon un certain découpage temporel Mois1 Mois2 Mois3 Moi12 Trim1 Trim2 Trim3 Trim4 Ann1 An 2 An 3 An n 71/105 K. Smaïli 2008
Construction d un Data Warehouse Produit(NumProd, Libelle,Prix) Vente(NumProd, NumEntrStock,Date,Qte) Entrepot(NumEntr,Ville,Dept) 72/105 K. Smaïli 2008
Construction d un Data Warehouse Produit(NumProd, Libelle,Prix) Vente(NumProd, NumEntrStock,Date,Qte) Entrepot(NumEntr,Ville,Dept) Pour obtenir le montant total des produits provenant d une ville SELECT [ville], p.numprod, sum([qte]*[prix]) AS Total FROM produit AS p, vente AS v, entrepot AS e WHERE p.numprod=v.numprod and v.numentrstock=e.numentr GROUP BY [ville], p.numprod; 73/105 K. Smaïli 2008
Construction d un Data Warehouse Produit(NumProd, Libelle,Prix) Vente(NumProd, NumEntrStock,Date,Qte) Entrepot(NumEntr,Ville,Dept) Pour obtenir le montant total des produits provenant d un département SELECT [Dep], p.numprod, sum([qte]*[prix]) AS Total FROM produit AS p, vente AS v, entrepot AS e WHERE p.numprod=v.numprod and v.numentrstock=e.numentr GROUP BY [Dep], p.numprod; 74/105 K. Smaïli 2008
Construction d un Data Warehouse Avec un data warehouse, tous les totaux et récapitulatifs peuvent être obtenus beaucoup plus facilement. Nous construisons la source de données par la requête suivante : SELECT [libelle], [prix], [numentr], [ville], [dep], [date], [qte], [qte]*[prix] AS [transaction] Faire une démo FROM vente AS v, entrepot AS e, produit AS p WHERE p.numprod=v.numprod and v.numentrstock=e.numentr; 75/105 K. Smaïli 2008
Construction d un Data Warehouse 76/105 K. Smaïli 2008
Construction d un Data Warehouse 77/105 K. Smaïli 2008
Construction d un Data Warehouse 78/105 K. Smaïli 2008
$6 $+ 78 Normalisation: Éliminer les redondances Préserver la cohérence des données Optimisation des transactions Réduction de l espace de stockage Inconvénients pour un utilisateur final: Schéma très/trop complet: Contient des tables/champs inutiles pour l analyse Inadapté pour l analyse 79/105 K. Smaïli 2008
9 80/105 K. Smaïli 2008
7: Transporteur Mode d expédition Contrat Type de contrat Client Commande client Magasin Produit Groupe de produits Employé Stock Région de ventes Famille de produits Fonction Fournisseurs Division de ventes 81/105 K. Smaïli 2008
6 Nouvelle méthode de conception autour des concepts métiers Ne pas normaliser au maximum Introduction de nouveaux types de table: Table de faits Table de dimensions Introduction de nouveaux modèles: Modèle en étoile Modèle en flocon 82/105 K. Smaïli 2008
Modélisation d un DataWarehouse 2 #1) / 6 / # ) # /9# #& 7# # E) / 83/105 K. Smaïli 2008
. Table principale du modèle dimensionnel Contient les données observables (les faits) sur le sujet étudié selon divers axes d analyse (les dimensions) Clés étrangères vers les dimensions Faits Table de faits des ventes Clé date (CE) Clé produit (CE) Clé vendeur (CE) Quantité vendue Montant 84/105 K. Smaïli 2008
Modélisation d un Datawarehouse 34 5 0)))) 6736 829:7560))' #22 79:& 85/105 K. Smaïli 2008
Modélisation d un DataWarehouse & 1;#! 6< 4 0;$ ; 35 +;2 35 ; 86/105 K. Smaïli 2008
. Axe d analyse selon lequel vont être étudiées les données observables (faits) Contient le détail sur les faits Clé de substitution Attributs de la dimension Clé produit (CP) Libellé Description du produit Famille du produits Marque Emballage Poids Dimension produit 87/105 K. Smaïli 2008
Modélisation d un Data Warehouse = B!! /# # @ # )-#) #4 88/105 K. Smaïli 2008
Modélisation en étoile Table de faits Vendeur NumVendeur Département Région Date Date Trimestre Mois Jour Vente NumVendeur Date RefProd Qtte Montant Produit RefProduit TypeProduit CatégorieProduit 89/105 K. Smaïli 2008
Modélisation en étoile Vendeur NumVendeur Département Région Table de faits Date Date Trimestre Mois Jour Vente NumVendeur Date RefProd Qtte Montant Normalisation : TypeProduit -> CatégorieProduit Département -> Région Mois -> Trimestre. Produit RefProduit TypeProduit CatégorieProduit 90/105 K. Smaïli 2008
Modélisation en flocon Le modèle en flocon de neige est dérivé du modèle étoile en normalisant les tables de dimensions. La table de faits reste inchangée Avec ce schéma chaque dimension est décomposée selon sa ou ses hiérarchies 91/105 K. Smaïli 2008
Modélisation en flocon 92/105 K. Smaïli 2008
Une table de faits et des dimensions décomposées en sous hiérarchies On a un seul niveau hiérarchique dans une table de dimension La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu elle a la granularité la plus fine Avantages: Normalisation des dimensions Économie d espace disque Inconvénients: Modèle plus complexe (jointure) Requêtes moins performantes 93/105 K. Smaïli 2008
Convertir un modèle E/A en modèle multidimensionnel Identifier le processus que l on souhaite modéliser Identifier les relations n-m pour les convertir en tables de faits Dé-normaliser les autres relations pour faire des dimensions plates Repérer le temps dans les différentes entités et l intégrer 94/105 K. Smaïli 2008
Convertir un modèle E/A en modèle multidimensionnel Une table de faits est constituée généralement de clés étrangères et de valeurs (ou mesures) Dé-normalisation des tables : Toutes les entités ou tables qui ont un lien 1 à n sont regroupées au sein d une même table appelée dimension. Cela permet d avoir la hiérarchisation que l on connaît dans les DW. On trouvera des informations du spécifique vers le général 95/105 K. Smaïli 2008
Région NumRégion Région 0,n AppReg 0,n Client NumClient NomClient Convertir un modèle E/A en modèle multidimensionnel 0,n 0,n Appartient Voiture 1,1 NumVoiture Type 1,n Type NumType Type NbChevaux 1,1 TypeMarq Possède PrixAchat D 0,n Date PrixAchat 1,n Marque NumMarque Marque DimensionVoiture NumVoiture Type Marque DimensionClient NomClient Région Possède NumClient NumVoiture DateTransac PrixAchat DimensionDate 96/105 Mois K. Smaïli 2008 Trimestre Année
+$ $6 9; $ OLAP (On-line Analysis Processing) cube à N dimensions où toutes les intersections sont calculées Opérations OLAP : Drill up /Drill down Rotate Slicing Scoping 97/105 K. Smaïli 2008
+$ $6 9&&<# Drill up Drill down 98/105 K. Smaïli 2008
+$ $6 9&&<# Rotate 99/105 K. Smaïli 2008 Rotate
+$ $6 9& Prendre une tranche du cube 100/105 K. Smaïli 2008 Slicing
+$ $6 9; $ Slicing et dicing Slicing: Sélection de tranches du cube par des prédicats selon une dimension filtrer une dimension selon une valeur Exemple: Slice (2005) : on ne retient que la partie du cube qui correspond à cette date Dicing: extraction d'un sous-cube (une partie du cube) Rollup (Drill up) : ou forage vers le haut: consiste à représenter les données du cube à un niveau de granularité supérieur conformément à la hiérarchie définie sur la dimension. Drill-down ou forage vers le bas : consiste à représenter les données du cube à un niveau de granularité de niveau inférieur, donc sous une forme plus détaillée. 101/105 K. Smaïli 2008
Architecture d un Data Warehouse Architecture ROLAP (Relational OLAP): Le stockage des données est réalisé dans un SGBD séparé du système de production. Le SGBD est alimenté par des extractions périodiques. Données stockées dans une base de données relationnelles Un moteur OLAP permet de simuler le comportement d un SGBD multidimensionnel Moins performant lors des phases de calcul 102/105 K. Smaïli 2008
Architecture d un Data Warehouse Architecture MOLAP (Multidimensional OLAP) : ")& ) #)#)## #A # B=M'&#'&'&NO#! 5) # 3P)& F 8 > # ) 5#&0 / 103/105 K. Smaïli 2008
Architecture d un Data Warehouse #4 >#3> #5 ")&?3@QF?3@.)/ #!1).)))1) *<77 ) 104/105 K. Smaïli 2008
Architecture d un Data Warehouse Architecture virtuelle : Cette architecture n est pratiquement pas utilisée pour le Data Warehouse. Les données résident dans le système de production. Elles sont rendues visibles par des produits middleware ou par des passerelles. Il en résulte deux avantages : pas de coût de stockage supplémentaire L inconvénient est que les données ne sont pas préparées. 105/105 K. Smaïli 2008
Schéma Décisionnel Pattern Evaluation Transformed Data Data mining Data Warehouse Selection Data cleaning Data integration 106/105 K. Smaïli 2008
107/105 K. Smaïli 2008
5$,$$$ ETL Entrepôt de données OLAP Reporting Data Mining Octopus MySql Mondrian Birt Weka Kettle Postgresql Palo Open Report R-Project CloverETL Greenplum Jasper Report Orange Talend JFreeReport Xelopes Intégré Pentaho (Kettle, Mondrian, JFreeReport, Weka) SpagoBI 108/105 K. Smaïli 2008