Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :



Documents pareils
Entrepôt de données 1. Introduction

et les Systèmes Multidimensionnels

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Chapitre 9 : Informatique décisionnelle

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Business Intelligence : Informatique Décisionnelle

LES ENTREPOTS DE DONNEES

Les Entrepôts de Données. (Data Warehouses)

Urbanisation des SI-NFE107

Présentations personnelles. filière IL

BI = Business Intelligence Master Data-ScienceCours 3 - Data

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Théories de la Business Intelligence

Introduction à la B.I. Avec SQL Server 2008

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

L information et la technologie de l informationl

AXIAD Conseil pour décider en toute intelligence

ETL Extract - Transform - Load

Intelligence Economique - Business Intelligence

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Bases de Données Avancées

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

L informatique décisionnelle

Ici, le titre de la. Tableaux de bords de conférence

BUSINESS INTELLIGENCE

Business & High Technology

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

Méthodologie de conceptualisation BI

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Business Intelligence avec SQL Server 2012

Didier MOUNIEN Samantha MOINEAUX

Entrepôt de Données. Jean-François Desnos. ED JFD 1

Introduction au domaine du décisionnel et aux data warehouses

La problématique. La philosophie ' ) * )

La place de la Géomatique Décisionnelle dans le processus de décision

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Les Entrepôts de Données

Evry - M2 MIAGE Entrepôt de données

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

BI = Business Intelligence Master Data-Science

En synthèse. HVR pour garantir les échanges sensibles de l'entreprise

QU EST-CE QUE LE DECISIONNEL?

RAMOS BELLO Laura Comment la culture de chaque agence PANALPINA va-t-elle influencer les enjeux de la mise en place du CRM?

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Décisionnel & Reporting

1 Introduction. Business Intelligence avec SharePoint Server 2010

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

Les entrepôts de données

Département Génie Informatique

Business Intelligence avec SQL Server 2012

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

ANTICIPEZ ET PRENEZ LES BONNES DÉCISIONS POUR VOTRE ENTREPRISE

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

Le cinquième chapitre

et les Systèmes Multidimensionnels

Business & High Technology

Business Intelligence Reporting

Cabinet Conseil en Intelligence d Affaires. L'Intégration de données et la Qualité des données dans l'écosystème BI actuel et future

Le Data Warehouse. Fait Vente. temps produit promotion. magasin. revenu ... Produit réf. libellé volume catégorie poids. Temps jour semaine date ...

BI2B est un cabinet de conseil expert en Corporate Performance Management QUI SOMMES-NOUS?

Technologie data distribution Cas d usage.

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

FreeAnalysis. Schema Designer. Cubes

Intégration de données hétérogènes et réparties. Anne Doucet

Mise en œuvre du PGI dans les enseignements tertiaires

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

L INTELLIGENCE D AFFAIRE DANS LA VIE QUOTIDIENNE D UNE ENTREPRISE

L information et la technologie de l information ERP, EAS, PGI : une nécessité? H. Isaac, 2003

Les PGI. A l origine, un progiciel était un logiciel adapté aux besoins d un client.

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Cahier des charges de l application visant à effectuer un suivi de consommation énergétique pour les communes. Partenaires du projet :

Votre Infrastructure est-elle? Business Intelligence. Améliorer la capacité d analyse et de décision de vos équipes

White Paper ADVANTYS. Workflow et Gestion de la Performance

Domaines d intervention

BI Open Source Octobre Alioune Dia, Consultant BI

PROGICIELS DE GESTION INTÉGRÉS SOLUTIONS DE REPORTING

Le concept de Data Warehouse a été formalisé pour la première fois en 1990.

Introduc;on à l intelligence d affaires et aux entrepôts de données

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

l E R P s a n s l i m i t e

République Algérienne Démocratique et Populaire

Evry - M2 MIAGE Entrepôt de données

Les attentes du marché

DESCRIPTIF DE MODULE S5 GSI

Pour Gérer votre Chaîne d Approvisionnement : Complétez vos Progiciels avec un Entrepôt de Données

JACQUES CAROLI CONSULTANT SENIOR DATAWAREHOUSE, BUSINESS INTELLIGENCE

Pentaho : Comparatif fonctionnel entre la version Communautaire (gratuite) et la version Entreprise (payante) Table des matières

SQL Server 2012 et SQL Server 2014

SQL SERVER 2008, BUSINESS INTELLIGENCE

Projet M1 Sujet 21 : Développement d'un logiciel simplifié de type Business Object

Systèmes d information décisionnels (SIAD) Extraction de connaissances (KDD) Business Intelligence (BI)

Business & High Technology

Analyse comparative entre différents outils de BI (Business Intelligence) :

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Transcription:

Page 1 of 6 Entrepôt de données Un article de Wikipédia, l'encyclopédie libre. L'entrepôt de données, ou datawarehouse, est un concept spécifique de l'informatique décisionnelle, issu du constat suivant : les données de l'informatique de production (également appelée «informatique transactionnelle»), notamment les progiciels de gestion intégrés (ou ERP, Enterprise Resource Planning) ne se prêtent pas à une exploitation dans un cadre d'analyse décisionnelle. Les systèmes de production sont en effet construits dans le but de traiter des opérations individuelles qui peuvent impliquer différents métiers de l'entreprise et surtout, ne se préoccupent pas de leur compilation ou historisation dans le temps. À l'inverse, les systèmes décisionnels doivent permettre l'analyse par métiers ou par sujets et le suivi dans le temps d'indicateurs calculés ou agrégés. Il est donc souvent indispensable de séparer ces deux mondes et de repenser les schémas de données, ce qui implique l'unification des différents gisements de données de l'entreprise en un entrepôt de données global (datawarehouse) ou dédié à un sujet/métiers (datamart). Sommaire 1 Les principes 2 En amont et en aval 3 Différences entre les bases et les entrepôts de données 4 Architecture d'un entrepôt de données 5 Citation 6 Voir également 6.1 Autres articles 6.2 Liens externes Les principes Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données : orientées «métiers» ou business (par exemple, pour une banque un compte débiteur sera agrégé avec les prêts accordés par la banque et non pas avec les autres comptes restés créditeurs, à la différence de ce qui se passe dans la comptabilité et le système de production d'origine). L objectif d un datawarehouse est la prise de décisions autour des activités majeures de l entreprise. Dans un datawarehouse, les données sont ainsi structurées par thèmes par opposition à celles organisées, dans les systèmes de production, par processus fonctionnel. L intérêt de cette organisation est de disposer de l ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l entreprise. On peut ainsi passer d une vision verticale de l entreprise à une vision transversale beaucoup plus riche en informations. On dit que le Datawarehouse est orienté «métier», en réponse aux différents métiers de l entreprise qu il est censé préparer à l analyse. présentées selon différents axes d'analyse ou «dimensions» (par exemple : le temps, les types

Page 2 of 6 ou segments de clientèle, les différentes gammes de produits, les différents secteurs régionaux ou commerciaux, etc.). Il est utile de préciser que le Datawarehouse est conçu pour contenir les données en adéquation avec les besoins actuels et futurs de l organisation, et répondre de manière centralisée à tous les utilisateurs. Ainsi, il n y a pas de règle puriste qui s applique en matière de stockage, ni de modélisation unique : le datawarehouse peut contenir certaines informations détaillées, issues des sources de production, nécessaires à un besoin de pilotage opérationnel récurrent, tout comme des tables de faits, prêtes à l emploi. non volatiles : stables, en lecture seule, non modifiables. Afin de conserver la traçabilité des informations et des décisions prises, les informations stockées au sein du Datawarehouse ne doivent pas disparaître. Une même requête lancée plusieurs fois, et ce à des mois d intervalle, sur une même population doit restituer les mêmes résultats. Ainsi, dès lors qu une donnée a été qualifiée pour être introduite au sein du Datawarehouse, elle ne peut ni être altérée, ni modifiée, ni supprimée (ou en tout cas en deçà d un certain délai de purge). Elle devient, de fait, partie prenante de l historique de l entreprise. Cette caractéristique diffère de la logique des systèmes de production qui bien souvent remettent à jour les données par annule et remplace à chaque nouvelle transaction. intégrées en provenance de sources hétérogènes ou d'origines diverses (y compris des fichiers externes de cotation ou de scoring). Dans un monde idéal, les systèmes d informations sources (systèmes de production) sont homogènes et l entreprise dispose de la connaissance parfaite de toutes les codifications dont elle a besoin pour tirer parti de son capital informationnel. Dans la réalité, les données, issues de différentes applications de production, existent sous des formes différentes. Il s agit alors de les intégrer afin de les homogénéiser et de leur donner un sens unique, compréhensible par tous les utilisateurs. La transversalité recherchée sera d autant plus efficiente que le système d information sera réellement intégré. Cette intégration nécessite une forte normalisation, une bonne gestion des référentiels et de la cohérence, une parfaite maîtrise de la sémantique et des règles de gestion s appliquant aux données manipulées. Elle concerne des données internes mais aussi des données externes qui posent des problèmes car leur codification et leur niveau de détail différent de ceux des données internes. Ce n est qu au prix d une intégration «réussie» que l on peut offrir une vision homogène et cohérente de l entreprise via ses indicateurs. Ceci suppose que le système d information de l entreprise soit déjà bien structuré, bien maîtrisé, et bénéficie d un niveau d intégration suffisant. Si tel n était pas le cas, la qualité des données peut empêcher la bonne mise en œuvre du Datawarehouse. archivées et donc datées : avec une conservation de l'historique et de son évolution pour permettre les analyses comparatives (par exemple, d'une année sur l'autre, etc.). La nonvolatilité permet l historisation. D un point de vue fonctionnel, cette propriété permet de suivre dans le temps l évolution des différentes valeurs des indicateurs à analyser. De fait, dans un Datawarehouse un référentiel de temps est nécessaire. C est l axe temps ou période. Ces données sont conservées dans le datawarehouse : de préférence sous forme élémentaire et détaillée (exemple : chaque opération sur chaque compte de chaque client,...) si la volumétrie le permet, éventuellement sous forme agrégée selon les axes ou dimensions d'analyse prévus (mais ces agrégations sont plutôt réalisées dans les datamarts que dans les datawarehouses proprement dits). Les données élémentaires présentent des avantages évidents (profondeur et niveau de détail, possibilité d'appliquer de nouveaux axes d'analyse et même de revenir a posteriori sur le «passé») mais représentent un plus grand volume et nécessitent donc des matériels plus performants. Les données agrégées présentent d'autres avantages (facilité d'analyse, rapidité d'accès, moindre volume) mais il n'est pas toujours possible de retrouver le détail et la profondeur des indicateurs une fois ceux-ci agrégés et figés : on prend le risque de figer les données dans une certaine vue, selon les axes d'agrégation retenus, et de ne plus pouvoir revenir plus tard sur ces critères si l'on n'a pas

Page 3 of 6 conservé le détail (par exemple, si l'on a agrégé les résultats par mois, il ne sera peut-être plus possible de faire une analyse par journée). L'entrepôt de données de type datawarehouse a une structure de données : en général, représentée par un modèle de données normalisé 3NF [[1]] pour les données de détail et/ou en étoile ou en flocon pour les données aggrégées et ce dans un SGBD relationnel (notamment lorsqu'il s'agit de données élémentaires ou unitaires non agrégées) éventuellement multidimensionnelle, stockée dans un cube ou hypercube M-OLAP (mais ces structures sont plutôt réservées aux données agrégées des datamarts). L'application de ces différents principes amène une rupture avec l'ancien concept d'infocentre. Etre à même de gérer ses activités en s'aidant de tableaux de bord et de moyens d'analyse à posteriori, c'est bien mais totalement insuffisant dans le monde compétitif d'aujourd'hui où le fait de pouvoir comprendre ce qui s'est passé et d'être simplement réactif ne permet pas d'envisager de prendre le leadership sur un marché. Il convient de pouvoir être beaucoup plus actif, il faut pouvoir être préactif, interactif et même proactif. Pour cela il ne s agit plus seulement d exploiter des données historiques plus ou moins fraîches, stockées dans un «data warehouse», mais d opérer un véritable couplage entre l entrepôt de données et les systèmes opérationnels de façon à être en mesure de toujours fournir au moment voulu une analyse pour l action, s appuyant sur la confrontation de données immédiates et d informations historiques : c est le concept de l entrepôt de données actif. La mise en œuvre de ce concept a pour effet concret de faire passer les moyens décisionnels de l entreprise d un rôle «passif» à un rôle «actif». La bonne définition de l intelligence active est le «juste à temps», c'est-à-dire la bonne information au bon moment, au bon endroit et donc au bon acteur, qu il s agisse d une personne ou d un système. En amont et en aval En amont du datawarehouse se place toute la logistique d'alimentation des données de l'entrepôt : extraction des données de production, transformations éventuelles et chargement de l'entrepôt (c'est l'etl ou Extract, Transform and Load ou encore datapumping). au passage les données sont épurées ou transformées par : un filtrage et une validation des données (les valeurs incohérentes doivent être rejetées) un codage (une donnée représentée différemment d'un système de production à un autre impose le choix d'une représentation unique pour les futures analyses) une synchronisation (s'il y a nécessité d'intégrer en même temps ou à la même «date de valeur» des événements reçus ou constatés de manière décalée) une certification (pour rapprocher les données de l'entrepôt des autres systèmes «légaux» de l'entreprise comme la comptabilité ou les déclarations réglementaires). Cette alimentation du datawarehouse se base sur les données sources issues des systèmes transactionnels de production, sous forme de : compte-rendu d'événement ou compte-rendu d'opération : c'est le constat au fil du temps des opérations (achats, ventes, écritures comptables,...), le film de l'activité de l'entreprise compte-rendu d'inventaire ou compte-rendu de stock : c'est l'image photo prise à un instant donné (à une fin de période : mois, trimestre,...) de l'ensemble du stock (les clients, les contrats, les commandes, les encours,...). La mise en place d'un système d'alimentation fiable du datawarehouse est souvent le poste

Page 4 of 6 budgétaire le plus coûteux dans un projet d'informatique décisionnelle. En aval du datawarehouse (et/ou des datamarts) se place tout l'outillage de restitution et d'analyse des données (en anglais : Business Intelligence) : outils de requêtage ou de reporting cubes ou hypercubes multidimensionnels data mining. Le datawarehousing est donc un processus en perpétuelle évolution. Sous cet angle, on peut finalement voir le datawarehouse comme une architecture décisionnelle capable à la fois de gérer l'hétérogénéité et le changement et dont l'enjeu est de transformer les données en informations directement exploitables par les utilisateurs du métier concerné. Différences entre les bases et les entrepôts de données Caractéristique Base de données Entrepôt de données Opération gestion courante, production analyse, support à la décision Modèle de données entité/relation 3NF, étoile, flocon de neige Normalisation fréquente plus rare dans les data marts Données actuelles, brutes historisées, parfois agrégées Mise à jour immédiate, temps réel souvent différée Niveau de consolidation faible élevé Perception bidimensionnelle multidimensionnelle Opérations lectures, mises à jour, suppressions Taille en gigaoctets en téraoctets lectures, analyses croisées, rafraîchissements Ces différences tiennent au fait que les entrepôts permettent des requêtes qui peuvent être complexes et qui ne reposent pas nécessairement sur une table unique. Exemples de requêtes OLAP : Quel est le nombre de paires de chaussures vendues par le magasin "OnVendDesChaussuresIci" en mai 2003 ET Comparer les ventes avec le même mois de 2001 et 2002 Quelles sont les composantes des machines de production ayant eu le plus grand nombre d incidents imprévisibles au cours de la période 1992-97? Les réponses aux requêtes OLAP peuvent prendre de quelques secondes à plusieurs minutes.

Page 5 of 6 Architecture d'un entrepôt de données Un entrepôt de données est généralement construit selon une architecture en 3 strates : 1. d'un serveur d'entrepôt (serveur de données) 2. d'un serveur OLAP (de type HOLAP/MOLAP ou ROLAP) 3. d'un client outil pour l'exécution des requêtes outil pour l'analyse des données Citation «Un datawarehouse ne s'achète pas, il se construit.» (Citation généralement attribuée à Bill Inmon, un des précurseurs du concept de datawarehouse) «Un datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d un processus d aide à la décision». (Bill Inmon, en 1994) Voir également Les grands éditeurs de bases de données pour entrepôt de données : IBM, Oracle, Teradata, Microsoft. Autres articles Datamart Hypercubes multidimensionnels M-OLAP, R-OLAP, H-OLAP, S-OLAP Informatique décisionnelle Datamining Modèle de données dit "en étoile" ou "en flocon" Voir aussi les grands éditeurs d'entrepôts de données : IBM, Oracle, Teradata,Microsoft. Liens externes Journées francophones sur les Entrepôts de Données et l'analyse en ligne (EDA) Portail de l informatique Récupérée de Catégories : Ingénierie décisionnelle Entrepôt de données Architecture logicielle [+] Catégorie cachée : Portail:Informatique/Articles liés Dernière modification de cette page le 30 août 2008 à 21:42. Droit d'auteur : Tous les textes sont disponibles sous les termes de la licence de documentation libre GNU (GFDL).

Page 6 of 6 Wikipedia est une marque déposée de la Wikimedia Foundation, Inc., organisation de bienfaisance régie par le paragraphe 501(c)(3) du code fiscal des États-Unis.