2010 /11 Rapport sur les Datamarts Rapport sur les Datamarts Projet DARTIES Projet tuteuré de 3ème année de l Ecole Polytechnique Universitaire de Lyon I Encadré par Mr Babé. Rédigé par : Laura Tournier, Pierre GIRONA Relu par : Christophe Lucain, Mathieu VINCENT Groupe 3 03/10/2010
Sommaire I. Qu est-ce qu un datamart?... 3 a) Définition... 3 b) Les différents types de datamart... 4 Les datamarts dépendants... 5 Les datamarts indépendants... 5 II. La différence entre un datamart et un datawarehouse... 6 a) Datawarehouse... 6 b) Datamart... 7 III. Avantages et inconvénients d utiliser des datamarts... 8 IV. Les conditions d utilisation d un datamart... 9 V. Conclusion... 10 26/10/2010 Page 2
I. Qu est-ce qu un datamart? a) Définition Le DataMart peut être défini comme la version "allégée" du Data Warehouse. C est un sousensemble d une base de données relationnelle. Plutôt que de viser l'universalité des thèmes comme le fait le datawarehouse, le DataMart se focalise sur un sujet, un thème ou un métier. Il est amené à être utilisé directement par la restitution (outils de reporting). L information est préparée pour être exploitée brute par les personnes du métier auquel il se rapporte. Le Datamart reprend les caractéristiques du Datawarehouse. Il est alimenté par ce dernier et en constitue en quelque sorte un extrait. Les problèmes commencent lorsque les DataMarts se multiplient, doublonnent et compliquent la gestion des données... Source : http://fr.wikipedia.org/wiki/datamart 26/10/2010 Page 3
b) Les différents types de datamart Il existe deux principaux types de datamarts : les datamarts dependants, et les datamarts indépendants. La distinction est faite par la source qui alimente le datamart. Figure 1 : Un datawarehouse, différents types de datamarts 26/10/2010 Page 4
Les datamarts dépendants Les données qui alimentent les datamarts proviennent d un datawarehouse déjà existant. Les datamarts sont ensuite distingués selon les différents métiers ou thèmes de l entreprise. Figure 2 : exemple de datamart dépendant Les datamarts indépendants Les datamarts sont construits directement depuis les données source. Figure 3 : exemple de datamart indépendant 26/10/2010 Page 5
II. La différence entre un datamart et un datawarehouse La confusion entre les notions de datawarehouse et datamart sont fréquentes. Rappelons la différence entre ces deux notions. a) Datawarehouse Un entrepôt de données, ou datawarehouse, est une vision centralisée et universelle de toutes les informations de l'entreprise. C'est une structure (comme une base de données) qui à pour but, contrairement aux bases de données, de regrouper les données de l'entreprise pour des fins analytiques et pour aider à la décision stratégique. La décision stratégique étant une action entreprise par les décideurs de l'entreprise et qui vise à améliorer, quantitativement ou qualitativement, la performance de l'entreprise. En gros, c'est un gigantesque tas d'informations épurées, organisées, historisées et provenant de plusieurs sources de données, servant aux analyses et à l'aide à la décision. 26/10/2010 Page 6
b) Datamart Les Datawarehouses étant, en général, très volumineux et très complexes à concevoir, les Data Marts (littéralement magasin de données) permettent de les diviser en bouchées plus faciles à créer et entretenir. Ainsi, un datamart désigne un sous-ensemble du datawarehouse contenant les données du datawarehouse pour un secteur particulier de l'entreprise (département, direction, service, gamme de produit, etc.). Figure 4 : Datamart est un ensemble de datawarehouse (ici, cas de datamarts dépendants) On peut faire des divisions par fonction (un datamart pour les ventes, pour les commandes, pour les ressources humaines) ou par sous-ensemble organisationnel (un data mart par succursale). On parle ainsi par exemple de DataMart Marketing, DataMart Commercial,... 26/10/2010 Page 7
III. Avantages et inconvénients d utiliser des datamarts Moins lourd Avantages Focalisé sur un thème/métier, alors que le datawarehouse est multi-thématique Le projet est plus rapidement conduit à son terme et les utilisateurs profitent de l'outil sans attente exagérée Inconvénients Problèmes lorsque les DataMarts se multiplient, doublonnent et compliquent la gestion des données 26/10/2010 Page 8
IV. Les conditions d utilisation d un datamart Les conditions concernant les données sont les mêmes que les conditions caractéristiques des datawarehouses : La cohérence des données : Aucune mise à jour partielle ne doit fausser l'appréciation d'ensemble. Exemple: vous pensiez comparer les ventes d'un même produit dans des régions différentes pour le mois de Mai, mais vous ne saviez pas que la région Bretagne n'avait pas été mise à jour et présentait toujours les données d'avril... La stabilité des données : Elles n'évolueront pas entre deux requêtes successives. Exemple : vous êtes en train d'essayer de comprendre une situation mais, entre deux requêtes d'analyse, les données de l'étude ont changé suite à un rafraîchissement intempestif sans que vous en soyez informé. Les données stockées sont historisées : Les données sont aussi horodatées. On peut ainsi visualiser l'évolution dans le temps d'une valeur donnée. Le degré de détail de l'archivage est bien entendu relatif à la nature des données. Toutes les données ne méritent pas d'être archivées Les données ne sont pas volatiles : Les données ne disparaissent pas et ne changent pas au fil des traitements, au fil du temps. 26/10/2010 Page 9
V. Conclusion Le projet Darties comporte un datawarehouse dont le métier est orienté «ventes». On s intéresse principalement aux chiffres de l entreprise. Après avoir pesé le pour et le contre, nous nous apercevons que l utilisation d un Datamart n apportera pas des avantages considérables dans le cadre de notre projet. Au contraire, son utilisation provoquera des doublons, et il y a un fort risque d incohérence lors de l extraction des connaissances à partir des données. Dans le cas du projet Darties, nous allons utiliser qu un seul métier (Commercial). Il n est pas nécessaire d utiliser un ou plusieurs Datamart. Le fait de spécifier l information commerciale dans un seul Datamart peut amener un problème de flexibilité. En effet, si un utilisateur effectue une demande qui sort du cadre habituel, cela va générer des coûts de développement supplémentaire ou la création de solution de rechange car il va falloir interroger la base à un autre niveau. Il est vrai qu il est plus facile d interroger un Datamart que d avoir à cerner et trier toute la base, mais étant donné la faible quantité de données que nous allons gérer dans le projet Darties, il n est pas utile pour nous d opérer une simplification. 26/10/2010 Page 10