Bases de données et aide à la décision

Dimension: px
Commencer à balayer dès la page:

Download "Bases de données et aide à la décision"

Transcription

1 Chapitre 1 Bases de données et aide à la décision 1.1 Architecture d un entrepôt de données Actuellement, les systèmes d information sont principalement constitués par les bases de données utilisées par les services de production tels que le processus de fabrication, la gestion des approvisionnements, la gestion des ventes? L exploitation directe des données des bases de production s avèrent souvent inadaptés à leurs besoins décisionnels en raison de temps d accès importants, de structures de données ésotériques, d informations réparties dans plusieurs sites. Face à ce problème, les industriels ont progressivement mis en place des entrepôts de données, véritables interfaces entre les bases de données et les décideurs. L informatique décisionnelle a pour objectif d élaborer des systèmes d analyse de données dédiés au soutien et à l amélioration des processus décisionnels des organisations. Ces systèmes OLAP (On- Line Analytic Processing) sont généralement constitués de bases de données multidimensionnelles, communément appelées entrepôts (data warehouses) et/ou magasins (data marts) de données. Ces dernières connaissent un important essor en raison de leur adéquation dans la manipulation et l exploitation rapide, efficace et performante des données à des fins décisionnelles. En effet, les bases multidimensionnelles sont l un des nouveaux développements remarquables de la conception des bases de données qui étend de faon considérable les possibilités d analyse de grands ensembles de données multidimensionnels Dualité entrepôt-magasin Les systèmes décisionnels actuels comportent deux types d espaces de stockage que sont les entrepôts de données et les magasins de données: un entrepôt de données regroupe dans un format homogène des données utiles pour l aide à la décision provenant de sources internes (bases de production) ou externes (bases de partenaires, Internet?) à une entreprise, 5

2 un magasin de données est un extrait d informations, orienté sujet, provenant de l entrepôt et organisé de manière adéquate pour y appliquer des analyses rapides à des fins de prise de décision; l organisation des données suit généralement un modèle multidimensionnel qui facilite les traitements décisionnels Architecture d un système décisionnel La pluralité des sources et le caractère hétérogène des données qu elles contiennent, exigent un modèle permettant de décrire des structures de données complexes et un comportement fréquemment évolutif; un modèle orienté-objet est généralement bien adapté à la définition d un entrepôt, bien que le modèle relationnel soit actuellement le plus utilisé. La conception d un entrepôt repose sur une étude fine des besoins des décideurs afin de ne stocker que l information utile mais aussi pour tenir compte des volumes importants de données engendrés par les mécanismes d historisation; en effet, le stockage de l évolution des données constitue une contribution majeure des entrepôts à la prise de décision, face à des bases de production qui, de part leur finalité, stockent rarement les historiques. Une fois extraite les données de l entrepôt doivent être mises à jour périodiquement afin de préserver leur intérêt pour la prise de décision. Un magasin est un entrepôt thématique (orienté sujet), principalement dédié à une classe de décideurs. L objectif est d adapter au mieux les structures de données à l utilisation qui en sera faite. Ainsi les analyses de données selon différents critères (temps, lieu, responsable,...) sont facilitées lorsque ces données sont organisées selon un modèle multidimensionnel. Figure 1.1: Du système OLTP au système OLAP 1.2 Processus de construction La mise en place d un système décisionnel est une tche complexe qui recouvre de nombreuses difficultés. Dans le but de définir des problématiques parfaitement identifiées et indépendantes les unes des autres, nous détaillons une architecture générale [TES 00] [BEL 01] à la Figure 1.2. L intégration se propose de résoudre les problèmes d hétérogénéité (systèmes, modèles, formats et sémantiques des données,...) [KED 99] des différentes sources de données en intégrant celles-ci dans une source globale. Cette source globale est virtuelle, c est à dire que les données utilisées pour la décision restent stockées dans les sources de données et sont extraites uniquement au moment des mises à jour de 6

3 Figure 1.2: Architecture détaillée des systèmes d aide à la décision l entrepôt. La source globale peut être décrite au moyen du modèle de données orientées objet standard de l ODMG [CAT 95]. Le choix du paradigme objet se justifie car il s avère parfaitement adapté pour l intégration de sources hétérogènes [BUK 93]. L intégration s appuie sur des techniques de bases de données fédérées [SAM 98] et réparties [RAV 96]. La construction consiste à extraire les données pertinentes pour la prise de décision, puis à les recopier dans l entrepôt de données, tout en conservant, le cas échéant, les changements d états des données [INM 94, PED 99, YAN 98, YAN 00, MEN 00]. L entrepôt de données constitue une collection centralisée, de données matérialisées et historiques (conservation des évolutions), disponibles pour les applications de l entrepôt. La réorganisation permet de restructurer les données dans des magasins de données; la réorganisation des données vise à supporter efficacement les processus d interrogation et d analyse tels que les applications OLAP ( On-Line Analytical Processing ) [E.C 93] et la fouille de données (Data Mining) [FAY 96, CRI 99]. Pour ce faire, les données importées dans les magasins doivent être organisées dans un modèle facilitant la décision et adapté aux outils d analyse (base multidimensionnelle, tableaux de données,?). L interrogation permet de connaître, mesurer et prévoir (prise de décisions) au travers de la manipulation des données du magasin. Les manipulations peuvent recouvrir plusieurs aspects: une simple consultation des données d un tableau avec génération de graphiques associés, requêtage graphique sur une base de données, combinaison d opérations multidimensionnelles sur une base de données adaptée. 1.3 De l extraction à l intégration L intégration des données provenant de sources hétérogènes est à la base de la notion d entrepôt de données. Diverses architectures réalisent la production de données 7

4 intégrées et ont en commun les composantes suivantes : des outils d extraction de données, des outils de nettoyage de données et des outils d intégration de données Extraction L hétérogénéité physique des sources est résolue par l association à chaque source d un extracteur qui extrait les données désirées et les formate dans un modèle commun. Cet extracteur est dénommé généralement par le mot anglais wrapper. La modèle commun (ou pivot) est le plus souvent le modèle relationnel, du fait que les données extraites sont issues de bases de productions généralement organisées suivant le modèle relationnel. Cette approche est également celle utilisée dans le cadre de nombreux projets de recherche tel que le projet WHISP et le projet Information Manifold (qui étudie l intégration de sources non structurées). Le modèle peut également être orienté objet: dans le projet TSIMMIS, le modèle est OEM, beaucoup plus adapté au stockage de données issues de sources hétérogènes, de par sa souplesse au niveau des structures des objets d une même classe. De nombreux outils du marché sont spécialisés dans l extraction de données. On peut citer Oracle Warehouse Builder, DataStage, SAS Warehouse. Nombre de ces outils ont été initialement conu dans un but d interopérabilité. D autres outils sont détournés pour l extraction des données des sources. Des outils de peuplement de SGBD à partir de fichiers (contenant des données à format libre, dont on doit simplement déclarer les séparateurs), par exemple SQL loader d Oracle, sont également utilisés comme extracteurs. Alors que ces derniers ne permettent qu une extraction globale (et donc périodique) des données, les mécanismes de déclencheurs fournis par les SGBD relationnels peuvent également être utilisés pour des extractions synchrones aux mises à jour. Leur utilisation est cependant très délicate et ne gère que très partiellement le problème. Dans les projets de recherche, on attend aussi des extracteurs qu ils participent activement au rafraîchissement des données. Il s agit alors de leur donner des capacités pour gérer d une part le déclenchement du rafraîchissement (par exemple dès qu une mise à jour a été effectuée sur la source), et d autre part la quantité d information à rafraîchir (par exemple seulement la valeur de l attribut mis à jour) Nettoyage Le nettoyage ou épuration des données a pour but de résoudre le problème de la consistance des données. Ces inconsistances peuvent être locales à un enregistrement (ex: une erreur de saisie), locales à une source (ex: une même personne a deux numéros de téléphone), ou peuvent survenir lors de la mise en commun de deux sources (ex: une personne a un intitulé de fonction différent dans chaque source). Une centaine de type d inconsistances ont été répertoriées. Elles peuvent être dues : (1) à la présence de données fausses dès leur saisie, (2) à la persistance de données obsolètes, (3) à la confrontation de données exactes, sémantiquement identiques, mais syntaxiquement différentes. D après [JAR 99], les différentes fonctionnalités d un outil de nettoyage sont les suivantes : 8

5 des fonctions de normalisation et de conversion qui rendent standards des formats hétérogènes (par exemple, le sexe sera toujours codé M et F ), des nettoyages particuliers à certains champs, grce à des tables de conversion (ex.: les adresses aux États-Unis) et des dictionnaires de synonymes ou d abréviations (ex: av. et avenue ), des algorithmes de nettoyage indépendants du domaine, qui appliquent des techniques de matching pour établir l équivalence de deux champs, des règles de nettoyage qui établissent le matching de deux enregistrements par une combinaison de matching ou d égalités de leurs champs (ex: si deux enregistrement ont leurs clés identiques et tous leurs autres attributs proches par l application d une distance, alors ils matchent). Il est cependant à noter que ces fonctionnalités peuvent être combinées dans une même technique. Par exemple [KED 99] traite de la classe de problèmes des attributs ayant un très grand nombre de valeurs possibles (certaines faisant partie du vocabulaire courant, d autres étant propres aux fournisseurs) pouvant être organisées en une hiérarchie de subsomptions. De nombreux outils sont disponibles sur le marché pour nettoyer les données. La plupart des outils de nettoyage traitent en profondeur le problème des adresses et des noms de clients. C est en effet un des problèmes essentiels des entrepôts de données, cette donnée étant d une part de la plus haute importance, et d autre part à la fois subjective, sans format fixe et volatile. ACTAWorks d ACTA, EDD DataCleanser et GENIO de Leonards Logic appliquent des règles de transformation, pouvant être écrites par l utilisateur, ou par interfaage avec d autres outils de nettoyage. Vality et ID-Centric de Firstlogic nettoient les données en intégrant de la logique floue. Les travaux de recherche qui traitent du nettoyage des données concernent principalement les techniques de correspondance (maching) entre deux enregistrements. Un point souvent abordé dans le maching de n-uplets est la différence de traitement entre les attributs clés, les attributs non-clés mais sémantiquement discriminants et les attributs moins significatifs. Cette échelle conduit à un maching strict ou flou (avec une graduation). Une autre famille de travaux [CAL 99], visent à introduire la fonction de maching des valeurs inter sources, de faon formelle et unifiée, dans un algorithme d intégrations de données programmé en logique. 1.4 Intégration Intégration des schémas L intégration des schémas des sources fait apparaître des conflits, depuis longtemps bien répertoriés dans la littérature. Les principaux conflits pouvant survenir entre deux schémas sont les suivants: (1) problèmes de terminologie, (2) incompatibilités de contraintes, (3) conflits de structures et (4) conflits de représentation. (1) Un conflit de terminologie survient lorsqu un même objet du réel est désigné par des noms différents ou au contraire lorsqu un même nom est utilisé pour deux objets différents. Ces cas peuvent correspondre à des problèmes de synonymie ou 9

6 d homonymie, mais sont le plus souvent dus à une différence de niveau de généricité (ex: personne et étudiant ), ou à des converses (ex: vente et achat ). (2) Un conflit de contraintes apparaît lorsque sur deux concepts établis comme équivalents ont des contraintes incompatibles (par exemple un ge supérieur à 18 et un ge inférieur à 17). (3) Les conflits de structures sont caractérisés par un choix différent de propriétés à stocker pour un même concept du réel. Par exemple, on peut définir une personne dans une vue par son numéro, son nom et son ge, et dans une autre vue par son nom, son prénom et son adresse. (4) On détecte un conflit de représentation lorsque deux représentations différentes sont choisies pour les mêmes propriétés d un même concept. Par exemple la date de commande peut être inclue dans la commande ou former un objet relié à la commande. Peu traitée par les produits du marché, la comparaison de schémas - c est à dire la production d un ensemble d assertions inter schémas indiquant l équivalence, l inclusion ou la dissemblance de deux objets - a fait l objet de nombreux travaux de recherche. La seule aide actuellement fournie par les outils d aide à la conception d entrepôts du marché est une interface graphique aidant l utilisateur à entrer les assertions. Par exemple, PowerDesigner de Sybase offre une interface graphique très conviviale, permettant de comparer visuellement deux schémas, et de les intégrer à l aide de la souris, en cliquant sur les objets à rajouter ou à supprimer du modèle global, ou à fusionner deux objets ayant des propriétés différentes. En recherche, après une première génération d outils o les assertions devaient être exprimées par l utilisateur, sont apparues dans les années 80 une génération d approches expertes [SOU 86]. Les structures des objets sont comparées grce à des mesures de similarités souvent complexes qui prennent en compte plusieurs facettes des objets (dénominations, contraintes, structure). Cependant cette deuxième génération traitait les schémas presque exclusivement de faon syntaxique. Dès le début des années 90, une troisième génération d outils [FAN 91, MET 93, JOH 93, MIR 95] se caractérise par l utilisation de techniques et d outils de compréhension du langage naturel pour comprendre la sémantique des schémas à intégrer. Par exemple, la détection dans un dictionnaire linguistique d un concept personne, générique à la fois de l objet étudiant d un schéma S1 et de l objet enseignent d un schéma S2, peut introduire la création d un objet personne dans le schéma global, alors qu il n était présent ni dans S1 ni dans S2. Après l étape de comparaison de schéma, qui aboutit à un ensemble d assertions inter schémas, deux utilisations distinctes peuvent en être faites pour la mise en place d un entrepôt de données : (1) l élaboration d un schéma global de l entrepôt, appelé modèle d entreprise, (2) la transposition des assertions au niveau logique afin de permettre la distribution et la réécriture des requêtes sur les sources Intégration des données Deux principales approches permettent un accès unifié à des sources de données hétérogènes: une approche virtuelle (souvent appelée approche par médiateur) et une approche matérialisée (approche par entrepôt). Les approches virtuelles sont basées 10

7 sur une hiérarchie de médiateurs, correspondant à des vues virtuelles, au-dessus des extracteurs. Les données ne sont stockées que dans leur source d origine. Dans le système TSIMMIS [CHA 94], dès qu un utilisateur formule une requête, celle-ci est envoyée à un médiateur, qui décompose la requête vers d autres médiateurs ou vers des extracteurs. L intégration se fait vue par vue par chaque médiateur, uniquement en réponse à une requête de l utilisateur. Les médiateurs sont relativement indépendants et les données sont échangées à l aide du langage OEM. D un point de vue théorique, le problème se pose en terme de réécriture de la requête posée sur les vues de l entrepôts. [BEE 97] propose une réécriture de la requête sous forme de conjonctions de vues en Carin, un langage combinant Datalog et une logique de description. Le système Information Manifold [LEV 96], utilise également une logique de description, Carin et Classic pour décrire à la fois la requête et les sources par rapport au modèle du domaine (world view). D autres systèmes utilisant l approche virtuelle sont SIMS, Disco [TOM 97]. Dans l approche matérialisée, les données sont effectivement extraites, nettoyées, intégrées et stockées dans un entrepôt. Les requêtes sont posées directement sur les données de l entrepôt. Les meta-données décrivant le schéma global de l entrepôt doivent inclure le plus d explications possible sur l origine, la signification des données, elles jouent le rôle d une carte routière pour s orienter et poser des requêtes dans l entrepôt. Un des problèmes majeurs à résoudre dans cette approche est celui de la répercussion dans l entrepôt des mises à jour effectuées sur les sources. Dans une architecture d entrepôt, on distingue la matérialisation initiale d une vue, et la maintenance de la vue. Pour le peuplement initial de la vue, les requêtes sont généralement écrites par l administrateur. [KED 99] propose une génération automatique de requête de peuplement à partir d une description de la vue, des sources et des assertions contenues dans la méta-base. La maintenance de la vue peut s effectuer de deux manières : une réinitialisation périodique (en fonction de la fraîcheur désirée des données), ou de faon synchrone aux mises à jour. Les industriels préfèrent la première approche, qui ne perturbe pas les bases de données opérationnelles si le chargement est fait aux heures creuses, les chercheurs travaillent beaucoup sur la deuxième approche qui nécessite des méthodes sophistiquées mais répond plus réellement à la définition d un entrepôt pour l aide à la décision. Par exemple, dans le projet de recherche phare WHISP [HAM 95], l intégrateur joue un rôle central : les changement effectués sur les sources lui sont transmis par un moniteur associé à chaque relation, en réponse, il déclenche une requête de peuplement. D autres systèmes utilisant cette approche sont H2O [ZHO 95] et [JAR 99]. D importants problème encore à résoudre pour l intégration des données dans un entrepôt. Ils concernent d une part l historisation des données, et d autre part la cohabitation de données insérées dans l entrepôt à différents moments, et provenant d insertions dans les sources à des temps différents, sans coordination entre tous ces calendriers. L approche virtuelle a été traditionnellement utilisée pour des systèmes répartis et hétérogènes. Elle a actuellement la faveur des applications incluant des sources de données non structurées, par exemple issues du WEB. L approche par entrepôt est particulièrement adaptée à l exploitation des bases de données d entreprise par des traitement longs, par exemple du data mining. Ainsi les traitements effectués 11

8 pour l aide à la décision (OLAP: On-Line Analytical Processing) n affectent pas les performances des traitements habituels (OLTP: On-Line Transaction Processing). Il faut toutefois noter que les deux approches peuvent être combinées. Un médiateur de TSIMMIS peut matérialiser sa vue pour des raisons de performance. Les médiateurs de SQUIRREL sont assez sophistiqués pour ne matérialiser qu une partie de leur vue. Le choix des vues à matérialiser est d ailleurs un des sujet de recherche actuel [THE 98]. 1.5 Construction et modélisation de l entrepôt Vues matérialisées et maintenance La technique des vues matérialisées est couramment utilisée pour définir les données copiées dans l entrepôt [WID 95, GUP 95, CHA 97b]. De nombreux travaux traitent des problématiques concernant les vues matérialisées dans le contexte des entrepôts de données. Nous pouvons distinguer deux thèmes de recherche principaux: la maintenance incrémentale des vues matérialisées qui se propose de répercuter immédiatement les mises à jour survenues au niveau des sources de données, la configuration de l entrepôt (sélection des vues à matérialiser) qui se propose de déterminer un ensemble de vues à matérialiser dans l entrepôt de telle sorte que le coût de maintenance soit optimal. Ces travaux abordent les systèmes décisionnels sans distinguer l espace de stockage en un entrepôt de données et des magasins de données; ils représentent le système décisionnel comportant un unique espace de stockage appelé entrepôt. Dans les sous-sections suivantes nous utiliserons le terme entrepôt comme un terme générique désignant l espace de stockage du système décisionnel. Maintenance incrémentale des vues Nous présentons les caractéristiques ainsi qu un comparatif des travaux relatifs à la maintenance incrémentale des vues matérialisées dans le contexte des entrepôts de données. Le Tableau 1.1 présente les caractéristiques essentielles des travaux sur la maintenance. Le Tableau 2 effectue une comparaison des travaux sur la maintenance incrémentale. La première colonne indique le modèle de données utilisé dans l entrepôt. Plusieurs modèles peuvent être utilisés: les modèles habituels dans les bases de données comme le modèle relationnel (R) et le modèle objet (O), ou bien des modèles spécifiques aux systèmes décisionnels tel que les modèles multidimensionnels (M). La seconde colonne décrit les vues utilisées. Il s agit de vues pouvant être: virtuelles, notées V (les données de la vue restent physiquement stockées au niveau des sources et la vue est calculée au moment de l interrogation), matérialisées, notées M (la vue est calculée avant l interrogation et les données sont physiquement stockées dans l entrepôt), 12

9 Table 1.1: Caractéristiques des travaux sur la maintenance incrémentale des vues matérialisées dans le domaine des entrepôts de données. auxiliaires, notées A (une vue auxiliaire est une vue, généralement matérialisée, non directement définie par l administrateur; elle est utilisée par le système pour améliorer le fonctionnement de l entrepôt en conservant des informations supplémentaires). D autre part, la définition des vues peut être effectuée au travers d opérateurs de sélection, de projection et de jointure (SPJ), d opérateurs de groupement associés à des agrégations et enfin d opérateurs temporels. La troisième colonne indique les techniques mises en?uvre. Les travaux s appuient sur: des modèles de graphe (ils sont utilisés pour décrire les différents scénarios de calcul d une vue appelés plan de décomposition d une vue), des modèles de coûts (ils servent à modéliser les coûts liés au calcul d une vue ou à sa maintenance), des stratégies d auto-maintenance des vues (il s agit maintenir la vue sans accéder ou en limitant l accès aux sources notamment par l ajout de vues auxiliaires). Ces travaux n utilisent pas un modèle multidimensionnel mais prennent en compte la structure multidimensionnelle du système décisionnel. Les deux tableaux précédents, décrivant les travaux de recherche sur la maintenance des vues matérialisées, indiquent que les travaux actuels se focalisent sur des vues relationnelles. 13

10 Figure 1.3: Comparaison des travaux sur la maintenance incrémentale des vues matérialisées dans le domaine des entrepôts de données [ZHU 98] constitue une étude complète, dans laquelle différents algorithmes permettent de maintenir de manière incrémentale des vues relationnelles SPJ en fonction de différents niveaux de consistance (entre l entrepôt et les sources de données): la convergence (Convergence) garantit qu après la dernière transaction, l entrepôt est consistant avec la source, la faible consistance ( Weak consistency ) garantit l existence de transactions o chaque état de l entrepôt reflète un état valide des sources. Cependant, l entrepôt peut générer des transactions différentes de la source. la forte consistance ( Strong consistency ) garantit l existence de transactions o chaque état de l entrepôt reflète un état valide des sources. L entrepôt génère des transactions correspondantes aux transactions des sources. la complétude ( Completeness ) garantit en plus de la forte consistance, la préservation de l ordre entre les états de la vue de l entrepôt et les états des sources. Les techniques de maintenance proposées sont incrémentales (les mises à jour de la source sont répercutées immédiatement). Certains travaux traitent de l approche d auto-maintenance qui consiste à maintenir la vue en limitant les accès aux sources, notamment en utilisant des vues auxiliaires. Les vues sont, de manière générale, 14

11 Table 1.2: Caractéristiques des travaux sur la sélection des vues à matérialiser dans les entrepôts de données définies au travers d opérations de sélection, de projection et de jointure. Peu de travaux utilisent les agrégations [MUM 97] et des opérateurs temporels [YAN 98, YAN 00] qui sont pourtant essentiels dans les entrepôts de données, respectivement pour résumer l information et pour historiser les données. Configuration des vues Nous présentons les caractéristiques ainsi qu une comparaison des travaux relatifs à la configuration de l entrepôt, c est à dire à la détermination des vues à matérialiser. Le Tableau 1.2 décrit les caractéristiques des travaux abordant la problématique de la sélection d un ensemble optimal de vues à matérialiser en fonction de critères de limitation d espace de stockage, de temps de calcul, de coût de maintenance. Le Tableau compare ces travaux de recherche sur la sélection des vues à matérialiser. Nous considérons les mêmes critères de comparaison que dans le Tableau 1.3. On constate que les travaux se placent dans un contexte d entrepôts relationnels. Les vues sont définies au travers d opérations de sélection, de projection et de jointure ainsi que des fonctions d agrégations. Tous ces travaux se basent sur des techniques similaires de modèles de graphe et de modèles de coûts. Cependant, [KOT 99] se distingue en proposant de sélectionner dynamiquement l ensemble optimal des vues à matérialiser. L originalité du système Dynamat proposé réside dans l évolution permanente de l ensemble des vues sélectionnées (pour être matérialisées) en fonction de l utilisation de l entrepôt (requêtes) mais également de contraintes liés au volume 15

12 Table 1.3: Comparaison des travaux sur la sélection des vues à matérialiser dans les entrepôts de données des données matérialisées. En effet, les autres approches, se contentent de calculer un ensemble optimal de vues à matérialiser, mais ne permettent pas son évolution dans le temps. Autres travaux sur les vues Quelques travaux étudient des problèmes particuliers liés aux vues matérialisées dans le contexte des entrepôts. Ces points concernent principalement la gestion des données, c est à dire: le traitement des données qui expirent (il s agit de données qui deviennent inutiles dans l entrepôt ou inadaptées sous leur forme actuelle) [GAR 98], le traitement des relations entre les données de l entrepôt et les données source d o sont issues celles de l entrepôt [CUI 00], la gestion de la définition des vues matérialisées en fonction de l évolution du schéma des sources [BEL 98]. [GAR 98] aborde le problème de l expiration des données matérialisées dans l entrepôt. L approche proposée consiste simplement à supprimer l information devenue obsolète. Cette approche est donc limitée car elle ne propose pas de mécanismes plus souples comme l archivage de certaines données. Une des contributions de nos travaux présentés dans cette thèse est justement la proposition d un mécanisme automatique permettant d archiver les données dont le détail est devenu obsolète; 16

13 l administrateur définit les critères de détermination des données expirées ainsi que l opération d archivage appliquée sur ces données. [CUI 00] étudie les problèmes d identification des données source à partir desquelles sont construites les données matérialisées de l entrepôt (Tracing Lineage Problem). L approche proposée intègre des vues relationnelles SPJ avec des agrégations et s appuie sur des vues auxiliaires permettant de limiter l accès aux relations source. Dans notre approche, nous proposons de maintenir une trace permettant de retrouver les données source d origine; ceci est essentiel pour répercuter les évolutions des sources tout en maintenant l historique des données. [BEL 98] propose un environnement permettant de maintenir la définition des vues matérialisées dans un entrepôt en fonction des évolutions de schémas qui surviennent au niveau des relations source. Cette approche consiste à étendre le langage de définition des vues (SQL) pour indiquer des priorités sur les attributs impliqués dans la définition d une vue: les attributs peuvent être indispensables (leur suppression nécessite de redéfinir la vue), ou bien remplacés par un (ou plusieurs) attribut(s) équivalent(s) Données temporelles Les entrepôts de données améliorent le processus de prise de décisions dans les entreprises. Ce processus utilise systématiquement les données actuelles de l entreprise ainsi que l histoire de ces données. Par exemple, pour prévoir le chiffre d affaire d une entreprise, les décideurs s appuient sur les résultats passés pour se projeter dans l avenir via des techniques statistiques (régression linéaire?). Conserver les données passées afin de mieux appréhender le présent et anticiper le futur est une caractéristique majeure des entrepôts de données ; le terme d historisation des données est employé. Les données sources sont issues essentiellement des systèmes opérationnels (OLTP) de l entreprise, et éventuellement des partenaires de l entreprise, d organismes d état (INSEE), des serveurs du réseau Internet? Ces données sont peu ou pas historisées : certaines évolutions ne sont pas conservées (par exemple, l ancienne adresse d un fournisseur n est pas conservée dans les bases de production), la période de conservation des données temporelles (données associées à une date) est courte, de l ordre de quelques mois, alors que la prise de décision réclame une conservation des évolutions sur des périodes de temps plus importantes, de l ordre de plusieurs années [INM 94], par exemple, les ventes effectuées dans un magasin sont conservées de 6 mois à 2 ans maximum dans les bases de production), la représentation du temps est souvent minimale, les dates sont stockées sous forme d un simple attribut. L entrepôt de données doit palier ces insuffisances en terme de conservation des évolutions pour servir de support efficace aux techniques d analyse de type On-Line Analytical Processing (OLAP) utilisées lors de la prise de décision. 17

14 Dans le contexte des entrepôts de données, de nombreux problèmes liés à la représentation du temps se posent, et il est nécessaire de concevoir des moyens permettant de manipuler simplement le temps. Plusieurs temps orthogonaux coexistent : le temps de validité, le temps d entreposage, la série temporelle des temps d extraction. Le temps de validité correspond au temps pendant lequel l information est considérée valide dans la réalité. Le temps d entreposage est le temps pendant lequel l information est active dans la réalité. La série temporelle des temps d extraction correspond à la série des temps de demande d information de l entrepôt (mise à jour). Ce dernier temps est utile plus particulièrement dans la gestion de la sécurité de l entrepôt. En effet, l entrepôt de données constitue un élément très sensible pour les entreprises puisqu il contient des informations confidentielles vis à vis de l extérieur. Ainsi, il est important de prévoir des mécanismes de sécurité permettant par exemple de savoir quelles données ont été interrogé et par quelles personnes. L estampille temporelle relative au temps d extraction doit comporter d autres informations permettant de savoir par exemple qui a extrait l information à cette date. La matérialisation des données dans l entrepôt permet de conserver dans l entrepôt les évolutions des données. Lorsque les données sources évoluent, il est alors nécessaire de répercuter ces modifications dans l entrepôt de données, tout en conservant les anciennes valeurs. Un premier problème posé concerne la pertinence des évolutions : toutes les évolutions ne sont pas nécessairement utiles pour la prise de décision (par exemple, si une modification du nom d un client survient pour corriger une erreur de saisie, l ancienne valeur fausse ne doit pas être stockée dans l entrepôt). De plus, les évolutions des sources ne doivent pas (ou ne peuvent pas dans le cas d un accès limité) forcément être répercutées avec la même fréquence. Il est donc nécessaire d offrir des moyens permettant à l administrateur d adapter le processus de rafraîchissement suivant les parties de l entrepôt. Le rafraîchissement des données de l entrepôt est abordé suivant deux méthodes spécifiques : le rafraîchissement périodique et le rafraîchissement incrémental. L approche de rafraîchissement périodique consiste à extraire les modifications survenues à la source suivant une période de temps définie par l administrateur. Le processus de rafraîchissement propage les modifications de la source dans l entrepôt périodiquement. Cette approche fait appel à des techniques de comparaison de fichiers ou de comparaison de dates de mise à jour des données. L approche de rafraîchissement incrémental consiste à répercuter dans l entrepôt chaque modification de manière immédiate ou quasi immédiate. Cette approche utilise soit des déclencheurs qui repèrent les modifications à la source, soit le journal de la source o les changements intéressants sont recherchés. 18

15 Ces deux approches se heurtent au coût de rafraîchissement qui doit être minimiser pour garantir les meilleures performances possibles pour l entrepôt en terme de temps de réponse pour l interrogation et l analyse. Le processus de rafraîchissement a un coût qui est en conflit avec les besoins de temps de réponse rapide. Enfin, un problème crucial est celui du volume des données stockées dans l entrepôt lié en particulier à l historisation des données. Ce problème est d autant plus accrus que l entrepôt conserve l évolution des données sur des périodes de temps importantes (plusieurs années) Granularité des données L agrégation est le problème majeur lié à la construction des entrepôts de données car elle permet de résumer les données opérationnelles élémentaires à un niveau de détail plus élevé ; ce niveau plus élevé devient le niveau élémentaire dans l entrepôt. L agrégation est utilisée afin de définir la granularité des données stockées dans l entrepôt. Le choix de la granularité influence de manière significative la pertinence des données contenues dans l entrepôt, et dans le même temps, affecte le type des requêtes possibles. Une grande granularité limite les requêtes possibles, en particulier les niveaux de détails fins ne sont pas disponibles. Inversement, un niveau de détail fin dans l entrepôt a pour conséquence une faible granularité. Plusieurs niveaux de granularité peuvent être présents dans l entrepôt. Les données récentes sont stockées généralement avec un niveau de détail très fins (par exemple, le détail des ventes d un magasin sont conservées avec un niveau de détail journalier, durant plusieurs mois), tandis que les données plus anciennes sont agrégées à un niveau de granularité plus grand (par exemple, les ventes du magasin sont résumées au bout d un an avec un niveau de détail mensuel). Enfin, les données très anciennes peuvent être archivées avec un taux d agrégation très fort (par exemple, les ventes du magasin peuvent être réduite à l année). Il faut remarquer que cette opération d agrégation provoque une perte d information. Le choix de la granularité consiste à déterminer la perte d information acceptable suivant des contraintes de volume de données (c est à dire de coût de stockage pour l entreprise). Une autre utilisation importante des agrégations est celle de l amélioration des performances de l entrepôt lors de l interrogation. La méthode utilisée consiste à déterminer des pré-agrégations ; des algorithmes permettent de déterminer une politique optimale permettant de déterminer quels agrégats doivent être calculés. Lorsque les requêtes sont posées, les agrégats pré-calculés sont utilisés pour améliorer les temps de réponses. Là encore, le besoin de haute performance pour l interrogation est en conflit avec la contrainte d un faible coût de maintenance de l entrepôt, ainsi que la contrainte du volume des données stockées. Pour finir, il est essentiel de comprendre que dans les entrepôts de données, l agrégation n induit pas une réduction du volume des données, au contraire ; on parle du paradoxe de la volumétrie. Plus on monte le niveau de granularité, plus le volume des informations à stocker est grand. En effet, l information de synthèse est plus volumineuse que celle de détail. 19

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

Intégration de données hétérogènes et réparties. Anne Doucet Anne.Doucet@lip6.fr

Intégration de données hétérogènes et réparties. Anne Doucet Anne.Doucet@lip6.fr Intégration de données hétérogènes et réparties Anne Doucet Anne.Doucet@lip6.fr 1 Plan Intégration de données Architectures d intégration Approche matérialisée Approche virtuelle Médiateurs Conception

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Datawarehouse and OLAP

Datawarehouse and OLAP Datawarehouse and OLAP Datawarehousing Syllabus, materials, notes, etc. See http://www.info.univ-tours.fr/ marcel/dw.html today architecture ETL refreshing warehousing projects architecture architecture

Plus en détail

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Avant de commencer à travailler avec le produit, il est nécessaire de comprendre, à un haut niveau, les problèmes en réponse desquels l outil a été

Plus en détail

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation Data WareHouse Plan Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation 2 Présentation Besoin: prise de décisions

Plus en détail

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016 Entrepôts de données NEGRE Elsa Université Paris-Dauphine 2015-2016 Contexte et problématique Le processus de prise de décision L entrepôt de données Définition Différence avec un SGBD Caractéristiques

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Business Intelligence : Informatique Décisionnelle

Business Intelligence : Informatique Décisionnelle Business Intelligence : Informatique Décisionnelle On appelle «aide à la décision», «décisionnel», ou encore «business intelligence», un ensemble de solutions informatiques permettant l analyse des données

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles) SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence É C O L E D I N G É N I E U R D E S T E C H N O L O G I E S D E L I N F O R M A T I O N E T D E L A C O M M U N I C A T I O N Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION Mentions

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL Présenté par Hana Gara Kort Sous la direction de Dr Jalel Akaichi Maître de conférences 1 1.Introduction

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier? DOSSIER SOLUTION CA ERwin Modeling Comment gérer la complexité des données et améliorer l agilité métier? CA ERwin Modeling fournit une vue centralisée des définitions de données clés afin de mieux comprendre

Plus en détail

Module BDR Master d Informatique (SAR)

Module BDR Master d Informatique (SAR) Module BDR Master d Informatique (SAR) Cours 6- Bases de données réparties Anne Doucet Anne.Doucet@lip6.fr 1 Bases de Données Réparties Définition Conception Décomposition Fragmentation horizontale et

Plus en détail

Faculté des sciences de gestion et sciences économiques BASE DE DONNEES

Faculté des sciences de gestion et sciences économiques BASE DE DONNEES BASE DE DONNEES La plupart des entreprises possèdent des bases de données informatiques contenant des informations essentielles à leur fonctionnement. Ces informations concernent ses clients, ses produits,

Plus en détail

Architectures d'intégration de données

Architectures d'intégration de données Architectures d'intégration de données Dan VODISLAV Université de Cergy-ontoise Master Informatique M1 Cours IED lan Intégration de données Objectifs, principes, caractéristiques Architectures type d'intégration

Plus en détail

UE 8 Systèmes d information de gestion Le programme

UE 8 Systèmes d information de gestion Le programme UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications

Plus en détail

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer Bases de Données Réparties Définition Architectures Outils d interface SGBD Réplication SGBD répartis hétérogènes BD réparties Principe : BD locales, accès locaux rapides accès aux autres SGBD du réseau

Plus en détail

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Le tout fichier Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique Introduction à l informatique : Information automatisée Le premier ordinateur Définition disque dure, mémoire, carte mémoire, carte mère etc Architecture d un ordinateur Les constructeurs leader du marché

Plus en détail

LES ENTREPOTS DE DONNEES

LES ENTREPOTS DE DONNEES Module B4 : Projet des Systèmes d information Lille, le 25 mars 2002 LES ENTREPOTS DE DONNEES Problématique : Pour capitaliser ses informations, une entreprise doit-elle commencer par mettre en œuvre des

Plus en détail

BI = Business Intelligence Master Data-Science

BI = Business Intelligence Master Data-Science BI = Business Intelligence Master Data-Science UPMC 25 janvier 2015 Organisation Horaire Cours : Lundi de 13h30 à 15h30 TP : Vendredi de 13h30 à 17h45 Intervenants : Divers industriels (en cours de construction)

Plus en détail

Bases de Données. Stella MARC-ZWECKER. stella@unistra.u-strasbg.fr. Maître de conférences Dpt. Informatique - UdS

Bases de Données. Stella MARC-ZWECKER. stella@unistra.u-strasbg.fr. Maître de conférences Dpt. Informatique - UdS Bases de Données Stella MARC-ZWECKER Maître de conférences Dpt. Informatique - UdS stella@unistra.u-strasbg.fr 1 Plan du cours 1. Introduction aux BD et aux SGBD Objectifs, fonctionnalités et évolutions

Plus en détail

Techniques d optimisation des requêtes dans les data warehouses

Techniques d optimisation des requêtes dans les data warehouses Techniques d optimisation des requêtes dans les data warehouses Ladjel Bellatreche LISI/ENSMA Téléport2-1, Avenue Clément Ader 86960 Futuroscope - FRANCE bellatreche@ensma.fr Résumé Un entrepôt de données

Plus en détail

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Introduction à l Informatique Décisionnelle - Business Intelligence (7) Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Data warehouse (DW) Le Data warehouse (entrepôt de données) est une collection de données orientées sujet, intégrées, non volatiles

Plus en détail

SQL Server 2012 et SQL Server 2014

SQL Server 2012 et SQL Server 2014 SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

Les entrepôts de données

Les entrepôts de données Les entrepôts de données Lydie Soler Janvier 2008 U.F.R. d informatique Document diffusé sous licence Creative Commons by-nc-nd (http://creativecommons.org/licenses/by-nc-nd/2.0/fr/) 1 Plan Introduction

Plus en détail

Big Data On Line Analytics

Big Data On Line Analytics Fdil Fadila Bentayeb Lb Laboratoire ERIC Lyon 2 Big Data On Line Analytics ASD 2014 Hammamet Tunisie 1 Sommaire Sommaire Informatique décisionnelle (BI Business Intelligence) Big Data Big Data analytics

Plus en détail

Concevoir et déployer un data warehouse

Concevoir et déployer un data warehouse Concevoir et déployer un data warehouse Ralph Kimball Éditions Eyrolles ISBN : 2-212-09165-6 2000 2 Le cycle de vie dimensionnel Avant d étudier de plus près les spécificités de la conception, du développement

Plus en détail

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration

Plus en détail

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Masses de données 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Rédacteurs : Mjo Huguet / N. Jozefowiez 1. Introduction : Besoins Informations et Aide

Plus en détail

Bases de données multidimensionnelles et mise en œuvre dans Oracle

Bases de données multidimensionnelles et mise en œuvre dans Oracle Bases de données multidimensionnelles et mise en œuvre dans Oracle 1 Introduction et Description générale Les bases de données relationnelles sont très performantes pour les systèmes opérationnels (ou

Plus en détail

Thibault Denizet. Introduction à SSIS

Thibault Denizet. Introduction à SSIS Thibault Denizet Introduction à SSIS 2 SSIS - Introduction Sommaire 1 Introduction à SQL Server 2008 Integration services... 3 2 Rappel sur la Business Intelligence... 4 2.1 ETL (Extract, Transform, Load)...

Plus en détail

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2 éducalgo Manuel d utilisation 26 juin 2011 Table des matières 1 Tâche à effectuer : écrire un algorithme 2 2 Comment écrire un algorithme? 3 2.1 Avec quoi écrit-on? Avec les boutons d écriture........

Plus en détail

IBM Tivoli Monitoring, version 6.1

IBM Tivoli Monitoring, version 6.1 Superviser et administrer à partir d une unique console l ensemble de vos ressources, plates-formes et applications. IBM Tivoli Monitoring, version 6.1 Points forts! Surveillez de façon proactive les éléments

Plus en détail

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani Datawarehouse: Cubes OLAP Marlyse Dieungang Khaoula Ghilani Table des matières 1 Data Warehouse 3 1.1 Introduction............................ 3 1.1.1 Définition......................... 3 1.1.2 Architecture........................

Plus en détail

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données

Plus en détail

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012 CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE Edition 2012 AGENDA Qui sommes nous? Présentation de Keyrus Keyrus : Expert en formations BI Nos propositions de formation 3 modes de formations Liste des

Plus en détail

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...) Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

Evry - M2 MIAGE Entrepôt de données

Evry - M2 MIAGE Entrepôt de données Evry - M2 MIAGE Entrepôt de données Introduction D. Ploix - M2 Miage - EDD - Introduction 1 Plan Positionnement du BI dans l entreprise Déclinaison fonctionnelle du décisionnel dans l entreprise Intégration

Plus en détail

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données : Page 1 of 6 Entrepôt de données Un article de Wikipédia, l'encyclopédie libre. L'entrepôt de données, ou datawarehouse, est un concept spécifique de l'informatique décisionnelle, issu du constat suivant

Plus en détail

Dossier I Découverte de Base d Open Office

Dossier I Découverte de Base d Open Office ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire

Plus en détail

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.) Université de Lille 2 - Droit et Santé Ecole Supérieure des Affaires & Institut Universitaire de Technologie (IUT-C) Département Statistique et Traitement Informatique des Données Licence Professionnelle

Plus en détail

UNIVERSITÉ MOHAMMED V AGDAL. FACULTÉ DES SCIENCES Rabat THÈSE DE DOCTORAT. Présentée par ELhoussaine ZIYATI Discipline : Sciences de l ingénieur

UNIVERSITÉ MOHAMMED V AGDAL. FACULTÉ DES SCIENCES Rabat THÈSE DE DOCTORAT. Présentée par ELhoussaine ZIYATI Discipline : Sciences de l ingénieur UNIVERSITÉ MOHAMMED V AGDAL FACULTÉ DES SCIENCES Rabat N d ordre 2491 THÈSE DE DOCTORAT Présentée par ELhoussaine ZIYATI Discipline : Sciences de l ingénieur Spécialité : Informatique et Télécommunications

Plus en détail

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Chapitre VIII. Les bases de données. Orientées Objet. Motivation Chapitre VIII Motivation Le modèle relationnel connaît un très grand succès et s avère très adéquat pour les applications traditionnelles des bases de données (gestion) Les bases de données Orientées Objet

Plus en détail

Entrepôt de Données. Jean-François Desnos. Jean-Francois.Desnos@grenet.fr ED JFD 1

Entrepôt de Données. Jean-François Desnos. Jean-Francois.Desnos@grenet.fr ED JFD 1 Entrepôt de Données Jean-François Desnos Jean-Francois.Desnos@grenet.fr ED JFD 1 Définition (Bill Inmon 1990) Un entrepôt de données (data warehouse) est une collection de données thématiques, intégrées,

Plus en détail

Les Différents types de Requêtes dans Access

Les Différents types de Requêtes dans Access Les Différents types de Requêtes dans Access Il existe six types de requêtes. Les Requêtes «Sélection», qui sont le mode par défaut et correspondent à des «vues» des tables originelles. Cela signifie que

Plus en détail

Présentations personnelles. filière IL

Présentations personnelles. filière IL Présentations personnelles filière IL Résumé Liste de sujets de présentations personnelles. Chaque présentation aborde un sujet particulier, l'objectif étant que la lecture du rapport ainsi que l'écoute

Plus en détail

Les Entrepôts de Données. (Data Warehouses)

Les Entrepôts de Données. (Data Warehouses) Les Entrepôts de Données (Data Warehouses) Pr. Omar Boussaid Département d'informatique et de Sta5s5que Université Lyon2 - France Les Entrepôts de Données 1. Généralités, sur le décisionnel 2. L'entreposage

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Urbanisation des SI-NFE107

Urbanisation des SI-NFE107 OLAP Urbanisation des SI-NFE107 Fiche de lecture Karim SEKRI 20/01/2009 OLAP 1 Introduction PLAN OLAP Les différentes technologies OLAP Plate formes et Outils 20/01/2009 OLAP 2 Informatique décisionnelle

Plus en détail

Groupe Eyrolles, 2004 ISBN : 2-212-11504-0

Groupe Eyrolles, 2004 ISBN : 2-212-11504-0 Groupe Eyrolles, 2004 ISBN : 2-212-11504-0 Avant-propos L économie en réseau, ou la netéconomie, est au cœur des débats et des stratégies de toutes les entreprises. Les organisations, qu il s agisse de

Plus en détail

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et

Plus en détail

Pourquoi IBM System i for Business Intelligence

Pourquoi IBM System i for Business Intelligence Améliorer les performances et simplifier la gestion de vos applications d aide à la décision (Business Intelligence ou BI) Pourquoi IBM System i for Business Intelligence Points clés Technologie IBM DB2

Plus en détail

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98. J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98. J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES BASES DE DONNÉES CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98 J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES III. LES SYSTÈMES RÉSEAU IV. LES SYSTÈMES RELATIONNELS V. LE LANGAGE

Plus en détail

Regard sur hybridation et infogérance de production

Regard sur hybridation et infogérance de production Regard sur hybridation et infogérance de production Février 2014 édito «comment transformer l hybridation des infrastructures en levier de performances?» Les solutions d infrastructure connaissent depuis

Plus en détail

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé ESNE Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé I.Cirillo 2010-2011 Introduction Le laboratoire de base de données de l ESNE a mis en place, il y a quelques années,

Plus en détail

Introduction aux Bases de Données

Introduction aux Bases de Données Introduction aux Bases de Données I. Bases de données I. Bases de données Les besoins Qu est ce qu un SGBD, une BD Architecture d un SGBD Cycle de vie Plan du cours Exemples classiques d'applications BD

Plus en détail

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions Exemple accessible via une interface Web Une base de données consultable en ligne : Bases de données et systèmes de gestion de bases de données The Trans-atlantic slave trade database: http://www.slavevoyages.org/tast/index.faces

Plus en détail

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service

Plus en détail

NF26 Data warehouse et Outils Décisionnels Printemps 2010

NF26 Data warehouse et Outils Décisionnels Printemps 2010 NF26 Data warehouse et Outils Décisionnels Printemps 2010 Rapport Modélisation Datamart VU Xuan Truong LAURENS Francis Analyse des données Avant de proposer un modèle dimensionnel, une analyse exhaustive

Plus en détail

Résumé CONCEPTEUR, INTEGRATEUR, OPERATEUR DE SYSTEMES CRITIQUES

Résumé CONCEPTEUR, INTEGRATEUR, OPERATEUR DE SYSTEMES CRITIQUES Aristote ----- Cloud Interopérabilité Retour d'expérience L A F O R C E D E L I N N O V A T I O N Résumé Les systèmes d'information logistique (SIL) sont des outils qui amènent des gains de productivité

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

SUPPORT DE COURS ACCESS 2010

SUPPORT DE COURS ACCESS 2010 Qu est-ce qu Access? Access 2010 est un outil de déploiement et de conception d application de base de données que vous pouvez utiliser pour effectuer le suivi d informations importantes. Vous pouvez conserver

Plus en détail

Comment booster vos applications SAP Hana avec SQLSCRIPT

Comment booster vos applications SAP Hana avec SQLSCRIPT DE LA TECHNOLOGIE A LA PLUS VALUE METIER Comment booster vos applications SAP Hana avec SQLSCRIPT 1 Un usage optimum de SAP Hana Votre contexte SAP Hana Si vous envisagez de migrer vers les plateformes

Plus en détail

Tirez plus vite profit du cloud computing avec IBM

Tirez plus vite profit du cloud computing avec IBM Tirez plus vite profit du cloud computing avec IBM Trouvez des solutions de type cloud éprouvées qui répondent à vos priorités principales Points clés Découvrez les avantages de quatre déploiements en

Plus en détail

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 Workflow/DataWarehouse/DataMining 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 plan Workflow DataWarehouse Aide à la décision DataMinig Conclusion 14-09-98 LORIA

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

CHAPITRE 1 ARCHITECTURE

CHAPITRE 1 ARCHITECTURE 07/04/2014 Université des sciences et de la Technologie Houari Boumediene USTHB Alger Département d Informatique ADMINISTRATION ET TUNING DE BASES DE DONNÉES CHAPITRE 1 ARCHITECTURE RESPONSABLE DR K. BOUKHALFA

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

MYXTRACTION. 2009 La Business Intelligence en temps réel

MYXTRACTION. 2009 La Business Intelligence en temps réel MYXTRACTION 2009 La Business Intelligence en temps réel Administration Qui sommes nous? Administration et management des profils Connecteurs Base des données Gestion des variables et catégories de variables

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information

Plus en détail

La problématique. La philosophie ' ) * )

La problématique. La philosophie ' ) * ) La problématique!" La philosophie #$ % La philosophie &'( ' ) * ) 1 La philosophie +, -) *. Mise en oeuvre Data warehouse ou Datamart /01-2, / 3 13 4,$ / 5 23, 2 * $3 3 63 3 #, 7 Datawarehouse Data warehouse

Plus en détail

ETL Extract - Transform - Load

ETL Extract - Transform - Load ETL Extract - Transform - Load Concept général d analyse en ligne (rappels) Rémy Choquet - Université Lyon 2 - Master 2 IIDEE - 2006-2007 Plan Définitions La place d OLAP dans une entreprise OLAP versus

Plus en détail

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste Christian Soutou Avec la participation d Olivier Teste SQL pour Oracle 4 e édition Groupe eyrolles, 2004, 2005, 2008, 2010, is BN : 978-2-212-12794-2 Partie III SQL avancé La table suivante organisée en

Plus en détail

Pôle Référentiels Métier (Master Data Management)

Pôle Référentiels Métier (Master Data Management) Pôle Référentiels Métier (Master Data Management) KHIPLUS et le MDM Khiplus et le MDM : une longue histoire Émergence de solutions de MDM génériques Ralliement de Khiplus au MAG (MDM Alliance Group) Intervention

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures] Objectif Utiliser les techniques de gestion de la mise en cache pour contrôler et améliorer les performances des requêtes Définir des mesures simples et des mesures calculées pour une table de faits Créer

Plus en détail

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion M y R e p o r t, L A S O L U T I O N R E P O R T I N G D E S U T I L I S AT E U R S E X C E L Connexion Transformation Stockage Construction Exploitation Diffusion OBJECTIF REPORTING : De la manipulation

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille

Plus en détail

Bases de données Cours 1 : Généralités sur les bases de données

Bases de données Cours 1 : Généralités sur les bases de données Cours 1 : Généralités sur les bases de données POLYTECH Université d Aix-Marseille odile.papini@univ-amu.fr http://odile.papini.perso.esil.univmed.fr/sources/bd.html Plan du cours 1 1 Qu est ce qu une

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 3 - Data

BI = Business Intelligence Master Data-ScienceCours 3 - Data BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse UPMC 8 février 2015 Rappel L Informatique Décisionnelle (ID), en anglais Business Intelligence (BI), est l informatique à l usage

Plus en détail

Garantir une meilleure prestation de services et une expérience utilisateur optimale

Garantir une meilleure prestation de services et une expérience utilisateur optimale LIVRE BLANC Garantir une meilleure prestation de services et une expérience utilisateur optimale Mai 2010 Garantir une meilleure prestation de services et une expérience utilisateur optimale CA Service

Plus en détail