Bases de données et aide à la décision

Transcription

1 Chapitre 1 Bases de données et aide à la décision 1.1 Architecture d un entrepôt de données Actuellement, les systèmes d information sont principalement constitués par les bases de données utilisées par les services de production tels que le processus de fabrication, la gestion des approvisionnements, la gestion des ventes? L exploitation directe des données des bases de production s avèrent souvent inadaptés à leurs besoins décisionnels en raison de temps d accès importants, de structures de données ésotériques, d informations réparties dans plusieurs sites. Face à ce problème, les industriels ont progressivement mis en place des entrepôts de données, véritables interfaces entre les bases de données et les décideurs. L informatique décisionnelle a pour objectif d élaborer des systèmes d analyse de données dédiés au soutien et à l amélioration des processus décisionnels des organisations. Ces systèmes OLAP (On- Line Analytic Processing) sont généralement constitués de bases de données multidimensionnelles, communément appelées entrepôts (data warehouses) et/ou magasins (data marts) de données. Ces dernières connaissent un important essor en raison de leur adéquation dans la manipulation et l exploitation rapide, efficace et performante des données à des fins décisionnelles. En effet, les bases multidimensionnelles sont l un des nouveaux développements remarquables de la conception des bases de données qui étend de faon considérable les possibilités d analyse de grands ensembles de données multidimensionnels Dualité entrepôt-magasin Les systèmes décisionnels actuels comportent deux types d espaces de stockage que sont les entrepôts de données et les magasins de données: un entrepôt de données regroupe dans un format homogène des données utiles pour l aide à la décision provenant de sources internes (bases de production) ou externes (bases de partenaires, Internet?) à une entreprise, 5

2 un magasin de données est un extrait d informations, orienté sujet, provenant de l entrepôt et organisé de manière adéquate pour y appliquer des analyses rapides à des fins de prise de décision; l organisation des données suit généralement un modèle multidimensionnel qui facilite les traitements décisionnels Architecture d un système décisionnel La pluralité des sources et le caractère hétérogène des données qu elles contiennent, exigent un modèle permettant de décrire des structures de données complexes et un comportement fréquemment évolutif; un modèle orienté-objet est généralement bien adapté à la définition d un entrepôt, bien que le modèle relationnel soit actuellement le plus utilisé. La conception d un entrepôt repose sur une étude fine des besoins des décideurs afin de ne stocker que l information utile mais aussi pour tenir compte des volumes importants de données engendrés par les mécanismes d historisation; en effet, le stockage de l évolution des données constitue une contribution majeure des entrepôts à la prise de décision, face à des bases de production qui, de part leur finalité, stockent rarement les historiques. Une fois extraite les données de l entrepôt doivent être mises à jour périodiquement afin de préserver leur intérêt pour la prise de décision. Un magasin est un entrepôt thématique (orienté sujet), principalement dédié à une classe de décideurs. L objectif est d adapter au mieux les structures de données à l utilisation qui en sera faite. Ainsi les analyses de données selon différents critères (temps, lieu, responsable,...) sont facilitées lorsque ces données sont organisées selon un modèle multidimensionnel. Figure 1.1: Du système OLTP au système OLAP 1.2 Processus de construction La mise en place d un système décisionnel est une tche complexe qui recouvre de nombreuses difficultés. Dans le but de définir des problématiques parfaitement identifiées et indépendantes les unes des autres, nous détaillons une architecture générale [TES 00] [BEL 01] à la Figure 1.2. L intégration se propose de résoudre les problèmes d hétérogénéité (systèmes, modèles, formats et sémantiques des données,...) [KED 99] des différentes sources de données en intégrant celles-ci dans une source globale. Cette source globale est virtuelle, c est à dire que les données utilisées pour la décision restent stockées dans les sources de données et sont extraites uniquement au moment des mises à jour de 6

3 Figure 1.2: Architecture détaillée des systèmes d aide à la décision l entrepôt. La source globale peut être décrite au moyen du modèle de données orientées objet standard de l ODMG [CAT 95]. Le choix du paradigme objet se justifie car il s avère parfaitement adapté pour l intégration de sources hétérogènes [BUK 93]. L intégration s appuie sur des techniques de bases de données fédérées [SAM 98] et réparties [RAV 96]. La construction consiste à extraire les données pertinentes pour la prise de décision, puis à les recopier dans l entrepôt de données, tout en conservant, le cas échéant, les changements d états des données [INM 94, PED 99, YAN 98, YAN 00, MEN 00]. L entrepôt de données constitue une collection centralisée, de données matérialisées et historiques (conservation des évolutions), disponibles pour les applications de l entrepôt. La réorganisation permet de restructurer les données dans des magasins de données; la réorganisation des données vise à supporter efficacement les processus d interrogation et d analyse tels que les applications OLAP ( On-Line Analytical Processing ) [E.C 93] et la fouille de données (Data Mining) [FAY 96, CRI 99]. Pour ce faire, les données importées dans les magasins doivent être organisées dans un modèle facilitant la décision et adapté aux outils d analyse (base multidimensionnelle, tableaux de données,?). L interrogation permet de connaître, mesurer et prévoir (prise de décisions) au travers de la manipulation des données du magasin. Les manipulations peuvent recouvrir plusieurs aspects: une simple consultation des données d un tableau avec génération de graphiques associés, requêtage graphique sur une base de données, combinaison d opérations multidimensionnelles sur une base de données adaptée. 1.3 De l extraction à l intégration L intégration des données provenant de sources hétérogènes est à la base de la notion d entrepôt de données. Diverses architectures réalisent la production de données 7

4 intégrées et ont en commun les composantes suivantes : des outils d extraction de données, des outils de nettoyage de données et des outils d intégration de données Extraction L hétérogénéité physique des sources est résolue par l association à chaque source d un extracteur qui extrait les données désirées et les formate dans un modèle commun. Cet extracteur est dénommé généralement par le mot anglais wrapper. La modèle commun (ou pivot) est le plus souvent le modèle relationnel, du fait que les données extraites sont issues de bases de productions généralement organisées suivant le modèle relationnel. Cette approche est également celle utilisée dans le cadre de nombreux projets de recherche tel que le projet WHISP et le projet Information Manifold (qui étudie l intégration de sources non structurées). Le modèle peut également être orienté objet: dans le projet TSIMMIS, le modèle est OEM, beaucoup plus adapté au stockage de données issues de sources hétérogènes, de par sa souplesse au niveau des structures des objets d une même classe. De nombreux outils du marché sont spécialisés dans l extraction de données. On peut citer Oracle Warehouse Builder, DataStage, SAS Warehouse. Nombre de ces outils ont été initialement conu dans un but d interopérabilité. D autres outils sont détournés pour l extraction des données des sources. Des outils de peuplement de SGBD à partir de fichiers (contenant des données à format libre, dont on doit simplement déclarer les séparateurs), par exemple SQL loader d Oracle, sont également utilisés comme extracteurs. Alors que ces derniers ne permettent qu une extraction globale (et donc périodique) des données, les mécanismes de déclencheurs fournis par les SGBD relationnels peuvent également être utilisés pour des extractions synchrones aux mises à jour. Leur utilisation est cependant très délicate et ne gère que très partiellement le problème. Dans les projets de recherche, on attend aussi des extracteurs qu ils participent activement au rafraîchissement des données. Il s agit alors de leur donner des capacités pour gérer d une part le déclenchement du rafraîchissement (par exemple dès qu une mise à jour a été effectuée sur la source), et d autre part la quantité d information à rafraîchir (par exemple seulement la valeur de l attribut mis à jour) Nettoyage Le nettoyage ou épuration des données a pour but de résoudre le problème de la consistance des données. Ces inconsistances peuvent être locales à un enregistrement (ex: une erreur de saisie), locales à une source (ex: une même personne a deux numéros de téléphone), ou peuvent survenir lors de la mise en commun de deux sources (ex: une personne a un intitulé de fonction différent dans chaque source). Une centaine de type d inconsistances ont été répertoriées. Elles peuvent être dues : (1) à la présence de données fausses dès leur saisie, (2) à la persistance de données obsolètes, (3) à la confrontation de données exactes, sémantiquement identiques, mais syntaxiquement différentes. D après [JAR 99], les différentes fonctionnalités d un outil de nettoyage sont les suivantes : 8

5 des fonctions de normalisation et de conversion qui rendent standards des formats hétérogènes (par exemple, le sexe sera toujours codé M et F ), des nettoyages particuliers à certains champs, grce à des tables de conversion (ex.: les adresses aux États-Unis) et des dictionnaires de synonymes ou d abréviations (ex: av. et avenue ), des algorithmes de nettoyage indépendants du domaine, qui appliquent des techniques de matching pour établir l équivalence de deux champs, des règles de nettoyage qui établissent le matching de deux enregistrements par une combinaison de matching ou d égalités de leurs champs (ex: si deux enregistrement ont leurs clés identiques et tous leurs autres attributs proches par l application d une distance, alors ils matchent). Il est cependant à noter que ces fonctionnalités peuvent être combinées dans une même technique. Par exemple [KED 99] traite de la classe de problèmes des attributs ayant un très grand nombre de valeurs possibles (certaines faisant partie du vocabulaire courant, d autres étant propres aux fournisseurs) pouvant être organisées en une hiérarchie de subsomptions. De nombreux outils sont disponibles sur le marché pour nettoyer les données. La plupart des outils de nettoyage traitent en profondeur le problème des adresses et des noms de clients. C est en effet un des problèmes essentiels des entrepôts de données, cette donnée étant d une part de la plus haute importance, et d autre part à la fois subjective, sans format fixe et volatile. ACTAWorks d ACTA, EDD DataCleanser et GENIO de Leonards Logic appliquent des règles de transformation, pouvant être écrites par l utilisateur, ou par interfaage avec d autres outils de nettoyage. Vality et ID-Centric de Firstlogic nettoient les données en intégrant de la logique floue. Les travaux de recherche qui traitent du nettoyage des données concernent principalement les techniques de correspondance (maching) entre deux enregistrements. Un point souvent abordé dans le maching de n-uplets est la différence de traitement entre les attributs clés, les attributs non-clés mais sémantiquement discriminants et les attributs moins significatifs. Cette échelle conduit à un maching strict ou flou (avec une graduation). Une autre famille de travaux [CAL 99], visent à introduire la fonction de maching des valeurs inter sources, de faon formelle et unifiée, dans un algorithme d intégrations de données programmé en logique. 1.4 Intégration Intégration des schémas L intégration des schémas des sources fait apparaître des conflits, depuis longtemps bien répertoriés dans la littérature. Les principaux conflits pouvant survenir entre deux schémas sont les suivants: (1) problèmes de terminologie, (2) incompatibilités de contraintes, (3) conflits de structures et (4) conflits de représentation. (1) Un conflit de terminologie survient lorsqu un même objet du réel est désigné par des noms différents ou au contraire lorsqu un même nom est utilisé pour deux objets différents. Ces cas peuvent correspondre à des problèmes de synonymie ou 9

6 d homonymie, mais sont le plus souvent dus à une différence de niveau de généricité (ex: personne et étudiant ), ou à des converses (ex: vente et achat ). (2) Un conflit de contraintes apparaît lorsque sur deux concepts établis comme équivalents ont des contraintes incompatibles (par exemple un ge supérieur à 18 et un ge inférieur à 17). (3) Les conflits de structures sont caractérisés par un choix différent de propriétés à stocker pour un même concept du réel. Par exemple, on peut définir une personne dans une vue par son numéro, son nom et son ge, et dans une autre vue par son nom, son prénom et son adresse. (4) On détecte un conflit de représentation lorsque deux représentations différentes sont choisies pour les mêmes propriétés d un même concept. Par exemple la date de commande peut être inclue dans la commande ou former un objet relié à la commande. Peu traitée par les produits du marché, la comparaison de schémas - c est à dire la production d un ensemble d assertions inter schémas indiquant l équivalence, l inclusion ou la dissemblance de deux objets - a fait l objet de nombreux travaux de recherche. La seule aide actuellement fournie par les outils d aide à la conception d entrepôts du marché est une interface graphique aidant l utilisateur à entrer les assertions. Par exemple, PowerDesigner de Sybase offre une interface graphique très conviviale, permettant de comparer visuellement deux schémas, et de les intégrer à l aide de la souris, en cliquant sur les objets à rajouter ou à supprimer du modèle global, ou à fusionner deux objets ayant des propriétés différentes. En recherche, après une première génération d outils o les assertions devaient être exprimées par l utilisateur, sont apparues dans les années 80 une génération d approches expertes [SOU 86]. Les structures des objets sont comparées grce à des mesures de similarités souvent complexes qui prennent en compte plusieurs facettes des objets (dénominations, contraintes, structure). Cependant cette deuxième génération traitait les schémas presque exclusivement de faon syntaxique. Dès le début des années 90, une troisième génération d outils [FAN 91, MET 93, JOH 93, MIR 95] se caractérise par l utilisation de techniques et d outils de compréhension du langage naturel pour comprendre la sémantique des schémas à intégrer. Par exemple, la détection dans un dictionnaire linguistique d un concept personne, générique à la fois de l objet étudiant d un schéma S1 et de l objet enseignent d un schéma S2, peut introduire la création d un objet personne dans le schéma global, alors qu il n était présent ni dans S1 ni dans S2. Après l étape de comparaison de schéma, qui aboutit à un ensemble d assertions inter schémas, deux utilisations distinctes peuvent en être faites pour la mise en place d un entrepôt de données : (1) l élaboration d un schéma global de l entrepôt, appelé modèle d entreprise, (2) la transposition des assertions au niveau logique afin de permettre la distribution et la réécriture des requêtes sur les sources Intégration des données Deux principales approches permettent un accès unifié à des sources de données hétérogènes: une approche virtuelle (souvent appelée approche par médiateur) et une approche matérialisée (approche par entrepôt). Les approches virtuelles sont basées 10

7 sur une hiérarchie de médiateurs, correspondant à des vues virtuelles, au-dessus des extracteurs. Les données ne sont stockées que dans leur source d origine. Dans le système TSIMMIS [CHA 94], dès qu un utilisateur formule une requête, celle-ci est envoyée à un médiateur, qui décompose la requête vers d autres médiateurs ou vers des extracteurs. L intégration se fait vue par vue par chaque médiateur, uniquement en réponse à une requête de l utilisateur. Les médiateurs sont relativement indépendants et les données sont échangées à l aide du langage OEM. D un point de vue théorique, le problème se pose en terme de réécriture de la requête posée sur les vues de l entrepôts. [BEE 97] propose une réécriture de la requête sous forme de conjonctions de vues en Carin, un langage combinant Datalog et une logique de description. Le système Information Manifold [LEV 96], utilise également une logique de description, Carin et Classic pour décrire à la fois la requête et les sources par rapport au modèle du domaine (world view). D autres systèmes utilisant l approche virtuelle sont SIMS, Disco [TOM 97]. Dans l approche matérialisée, les données sont effectivement extraites, nettoyées, intégrées et stockées dans un entrepôt. Les requêtes sont posées directement sur les données de l entrepôt. Les meta-données décrivant le schéma global de l entrepôt doivent inclure le plus d explications possible sur l origine, la signification des données, elles jouent le rôle d une carte routière pour s orienter et poser des requêtes dans l entrepôt. Un des problèmes majeurs à résoudre dans cette approche est celui de la répercussion dans l entrepôt des mises à jour effectuées sur les sources. Dans une architecture d entrepôt, on distingue la matérialisation initiale d une vue, et la maintenance de la vue. Pour le peuplement initial de la vue, les requêtes sont généralement écrites par l administrateur. [KED 99] propose une génération automatique de requête de peuplement à partir d une description de la vue, des sources et des assertions contenues dans la méta-base. La maintenance de la vue peut s effectuer de deux manières : une réinitialisation périodique (en fonction de la fraîcheur désirée des données), ou de faon synchrone aux mises à jour. Les industriels préfèrent la première approche, qui ne perturbe pas les bases de données opérationnelles si le chargement est fait aux heures creuses, les chercheurs travaillent beaucoup sur la deuxième approche qui nécessite des méthodes sophistiquées mais répond plus réellement à la définition d un entrepôt pour l aide à la décision. Par exemple, dans le projet de recherche phare WHISP [HAM 95], l intégrateur joue un rôle central : les changement effectués sur les sources lui sont transmis par un moniteur associé à chaque relation, en réponse, il déclenche une requête de peuplement. D autres systèmes utilisant cette approche sont H2O [ZHO 95] et [JAR 99]. D importants problème encore à résoudre pour l intégration des données dans un entrepôt. Ils concernent d une part l historisation des données, et d autre part la cohabitation de données insérées dans l entrepôt à différents moments, et provenant d insertions dans les sources à des temps différents, sans coordination entre tous ces calendriers. L approche virtuelle a été traditionnellement utilisée pour des systèmes répartis et hétérogènes. Elle a actuellement la faveur des applications incluant des sources de données non structurées, par exemple issues du WEB. L approche par entrepôt est particulièrement adaptée à l exploitation des bases de données d entreprise par des traitement longs, par exemple du data mining. Ainsi les traitements effectués 11

8 pour l aide à la décision (OLAP: On-Line Analytical Processing) n affectent pas les performances des traitements habituels (OLTP: On-Line Transaction Processing). Il faut toutefois noter que les deux approches peuvent être combinées. Un médiateur de TSIMMIS peut matérialiser sa vue pour des raisons de performance. Les médiateurs de SQUIRREL sont assez sophistiqués pour ne matérialiser qu une partie de leur vue. Le choix des vues à matérialiser est d ailleurs un des sujet de recherche actuel [THE 98]. 1.5 Construction et modélisation de l entrepôt Vues matérialisées et maintenance La technique des vues matérialisées est couramment utilisée pour définir les données copiées dans l entrepôt [WID 95, GUP 95, CHA 97b]. De nombreux travaux traitent des problématiques concernant les vues matérialisées dans le contexte des entrepôts de données. Nous pouvons distinguer deux thèmes de recherche principaux: la maintenance incrémentale des vues matérialisées qui se propose de répercuter immédiatement les mises à jour survenues au niveau des sources de données, la configuration de l entrepôt (sélection des vues à matérialiser) qui se propose de déterminer un ensemble de vues à matérialiser dans l entrepôt de telle sorte que le coût de maintenance soit optimal. Ces travaux abordent les systèmes décisionnels sans distinguer l espace de stockage en un entrepôt de données et des magasins de données; ils représentent le système décisionnel comportant un unique espace de stockage appelé entrepôt. Dans les sous-sections suivantes nous utiliserons le terme entrepôt comme un terme générique désignant l espace de stockage du système décisionnel. Maintenance incrémentale des vues Nous présentons les caractéristiques ainsi qu un comparatif des travaux relatifs à la maintenance incrémentale des vues matérialisées dans le contexte des entrepôts de données. Le Tableau 1.1 présente les caractéristiques essentielles des travaux sur la maintenance. Le Tableau 2 effectue une comparaison des travaux sur la maintenance incrémentale. La première colonne indique le modèle de données utilisé dans l entrepôt. Plusieurs modèles peuvent être utilisés: les modèles habituels dans les bases de données comme le modèle relationnel (R) et le modèle objet (O), ou bien des modèles spécifiques aux systèmes décisionnels tel que les modèles multidimensionnels (M). La seconde colonne décrit les vues utilisées. Il s agit de vues pouvant être: virtuelles, notées V (les données de la vue restent physiquement stockées au niveau des sources et la vue est calculée au moment de l interrogation), matérialisées, notées M (la vue est calculée avant l interrogation et les données sont physiquement stockées dans l entrepôt), 12

9 Table 1.1: Caractéristiques des travaux sur la maintenance incrémentale des vues matérialisées dans le domaine des entrepôts de données. auxiliaires, notées A (une vue auxiliaire est une vue, généralement matérialisée, non directement définie par l administrateur; elle est utilisée par le système pour améliorer le fonctionnement de l entrepôt en conservant des informations supplémentaires). D autre part, la définition des vues peut être effectuée au travers d opérateurs de sélection, de projection et de jointure (SPJ), d opérateurs de groupement associés à des agrégations et enfin d opérateurs temporels. La troisième colonne indique les techniques mises en?uvre. Les travaux s appuient sur: des modèles de graphe (ils sont utilisés pour décrire les différents scénarios de calcul d une vue appelés plan de décomposition d une vue), des modèles de coûts (ils servent à modéliser les coûts liés au calcul d une vue ou à sa maintenance), des stratégies d auto-maintenance des vues (il s agit maintenir la vue sans accéder ou en limitant l accès aux sources notamment par l ajout de vues auxiliaires). Ces travaux n utilisent pas un modèle multidimensionnel mais prennent en compte la structure multidimensionnelle du système décisionnel. Les deux tableaux précédents, décrivant les travaux de recherche sur la maintenance des vues matérialisées, indiquent que les travaux actuels se focalisent sur des vues relationnelles. 13

10 Figure 1.3: Comparaison des travaux sur la maintenance incrémentale des vues matérialisées dans le domaine des entrepôts de données [ZHU 98] constitue une étude complète, dans laquelle différents algorithmes permettent de maintenir de manière incrémentale des vues relationnelles SPJ en fonction de différents niveaux de consistance (entre l entrepôt et les sources de données): la convergence (Convergence) garantit qu après la dernière transaction, l entrepôt est consistant avec la source, la faible consistance ( Weak consistency ) garantit l existence de transactions o chaque état de l entrepôt reflète un état valide des sources. Cependant, l entrepôt peut générer des transactions différentes de la source. la forte consistance ( Strong consistency ) garantit l existence de transactions o chaque état de l entrepôt reflète un état valide des sources. L entrepôt génère des transactions correspondantes aux transactions des sources. la complétude ( Completeness ) garantit en plus de la forte consistance, la préservation de l ordre entre les états de la vue de l entrepôt et les états des sources. Les techniques de maintenance proposées sont incrémentales (les mises à jour de la source sont répercutées immédiatement). Certains travaux traitent de l approche d auto-maintenance qui consiste à maintenir la vue en limitant les accès aux sources, notamment en utilisant des vues auxiliaires. Les vues sont, de manière générale, 14

11 Table 1.2: Caractéristiques des travaux sur la sélection des vues à matérialiser dans les entrepôts de données définies au travers d opérations de sélection, de projection et de jointure. Peu de travaux utilisent les agrégations [MUM 97] et des opérateurs temporels [YAN 98, YAN 00] qui sont pourtant essentiels dans les entrepôts de données, respectivement pour résumer l information et pour historiser les données. Configuration des vues Nous présentons les caractéristiques ainsi qu une comparaison des travaux relatifs à la configuration de l entrepôt, c est à dire à la détermination des vues à matérialiser. Le Tableau 1.2 décrit les caractéristiques des travaux abordant la problématique de la sélection d un ensemble optimal de vues à matérialiser en fonction de critères de limitation d espace de stockage, de temps de calcul, de coût de maintenance. Le Tableau compare ces travaux de recherche sur la sélection des vues à matérialiser. Nous considérons les mêmes critères de comparaison que dans le Tableau 1.3. On constate que les travaux se placent dans un contexte d entrepôts relationnels. Les vues sont définies au travers d opérations de sélection, de projection et de jointure ainsi que des fonctions d agrégations. Tous ces travaux se basent sur des techniques similaires de modèles de graphe et de modèles de coûts. Cependant, [KOT 99] se distingue en proposant de sélectionner dynamiquement l ensemble optimal des vues à matérialiser. L originalité du système Dynamat proposé réside dans l évolution permanente de l ensemble des vues sélectionnées (pour être matérialisées) en fonction de l utilisation de l entrepôt (requêtes) mais également de contraintes liés au volume 15

12 Table 1.3: Comparaison des travaux sur la sélection des vues à matérialiser dans les entrepôts de données des données matérialisées. En effet, les autres approches, se contentent de calculer un ensemble optimal de vues à matérialiser, mais ne permettent pas son évolution dans le temps. Autres travaux sur les vues Quelques travaux étudient des problèmes particuliers liés aux vues matérialisées dans le contexte des entrepôts. Ces points concernent principalement la gestion des données, c est à dire: le traitement des données qui expirent (il s agit de données qui deviennent inutiles dans l entrepôt ou inadaptées sous leur forme actuelle) [GAR 98], le traitement des relations entre les données de l entrepôt et les données source d o sont issues celles de l entrepôt [CUI 00], la gestion de la définition des vues matérialisées en fonction de l évolution du schéma des sources [BEL 98]. [GAR 98] aborde le problème de l expiration des données matérialisées dans l entrepôt. L approche proposée consiste simplement à supprimer l information devenue obsolète. Cette approche est donc limitée car elle ne propose pas de mécanismes plus souples comme l archivage de certaines données. Une des contributions de nos travaux présentés dans cette thèse est justement la proposition d un mécanisme automatique permettant d archiver les données dont le détail est devenu obsolète; 16

13 l administrateur définit les critères de détermination des données expirées ainsi que l opération d archivage appliquée sur ces données. [CUI 00] étudie les problèmes d identification des données source à partir desquelles sont construites les données matérialisées de l entrepôt (Tracing Lineage Problem). L approche proposée intègre des vues relationnelles SPJ avec des agrégations et s appuie sur des vues auxiliaires permettant de limiter l accès aux relations source. Dans notre approche, nous proposons de maintenir une trace permettant de retrouver les données source d origine; ceci est essentiel pour répercuter les évolutions des sources tout en maintenant l historique des données. [BEL 98] propose un environnement permettant de maintenir la définition des vues matérialisées dans un entrepôt en fonction des évolutions de schémas qui surviennent au niveau des relations source. Cette approche consiste à étendre le langage de définition des vues (SQL) pour indiquer des priorités sur les attributs impliqués dans la définition d une vue: les attributs peuvent être indispensables (leur suppression nécessite de redéfinir la vue), ou bien remplacés par un (ou plusieurs) attribut(s) équivalent(s) Données temporelles Les entrepôts de données améliorent le processus de prise de décisions dans les entreprises. Ce processus utilise systématiquement les données actuelles de l entreprise ainsi que l histoire de ces données. Par exemple, pour prévoir le chiffre d affaire d une entreprise, les décideurs s appuient sur les résultats passés pour se projeter dans l avenir via des techniques statistiques (régression linéaire?). Conserver les données passées afin de mieux appréhender le présent et anticiper le futur est une caractéristique majeure des entrepôts de données ; le terme d historisation des données est employé. Les données sources sont issues essentiellement des systèmes opérationnels (OLTP) de l entreprise, et éventuellement des partenaires de l entreprise, d organismes d état (INSEE), des serveurs du réseau Internet? Ces données sont peu ou pas historisées : certaines évolutions ne sont pas conservées (par exemple, l ancienne adresse d un fournisseur n est pas conservée dans les bases de production), la période de conservation des données temporelles (données associées à une date) est courte, de l ordre de quelques mois, alors que la prise de décision réclame une conservation des évolutions sur des périodes de temps plus importantes, de l ordre de plusieurs années [INM 94], par exemple, les ventes effectuées dans un magasin sont conservées de 6 mois à 2 ans maximum dans les bases de production), la représentation du temps est souvent minimale, les dates sont stockées sous forme d un simple attribut. L entrepôt de données doit palier ces insuffisances en terme de conservation des évolutions pour servir de support efficace aux techniques d analyse de type On-Line Analytical Processing (OLAP) utilisées lors de la prise de décision. 17

14 Dans le contexte des entrepôts de données, de nombreux problèmes liés à la représentation du temps se posent, et il est nécessaire de concevoir des moyens permettant de manipuler simplement le temps. Plusieurs temps orthogonaux coexistent : le temps de validité, le temps d entreposage, la série temporelle des temps d extraction. Le temps de validité correspond au temps pendant lequel l information est considérée valide dans la réalité. Le temps d entreposage est le temps pendant lequel l information est active dans la réalité. La série temporelle des temps d extraction correspond à la série des temps de demande d information de l entrepôt (mise à jour). Ce dernier temps est utile plus particulièrement dans la gestion de la sécurité de l entrepôt. En effet, l entrepôt de données constitue un élément très sensible pour les entreprises puisqu il contient des informations confidentielles vis à vis de l extérieur. Ainsi, il est important de prévoir des mécanismes de sécurité permettant par exemple de savoir quelles données ont été interrogé et par quelles personnes. L estampille temporelle relative au temps d extraction doit comporter d autres informations permettant de savoir par exemple qui a extrait l information à cette date. La matérialisation des données dans l entrepôt permet de conserver dans l entrepôt les évolutions des données. Lorsque les données sources évoluent, il est alors nécessaire de répercuter ces modifications dans l entrepôt de données, tout en conservant les anciennes valeurs. Un premier problème posé concerne la pertinence des évolutions : toutes les évolutions ne sont pas nécessairement utiles pour la prise de décision (par exemple, si une modification du nom d un client survient pour corriger une erreur de saisie, l ancienne valeur fausse ne doit pas être stockée dans l entrepôt). De plus, les évolutions des sources ne doivent pas (ou ne peuvent pas dans le cas d un accès limité) forcément être répercutées avec la même fréquence. Il est donc nécessaire d offrir des moyens permettant à l administrateur d adapter le processus de rafraîchissement suivant les parties de l entrepôt. Le rafraîchissement des données de l entrepôt est abordé suivant deux méthodes spécifiques : le rafraîchissement périodique et le rafraîchissement incrémental. L approche de rafraîchissement périodique consiste à extraire les modifications survenues à la source suivant une période de temps définie par l administrateur. Le processus de rafraîchissement propage les modifications de la source dans l entrepôt périodiquement. Cette approche fait appel à des techniques de comparaison de fichiers ou de comparaison de dates de mise à jour des données. L approche de rafraîchissement incrémental consiste à répercuter dans l entrepôt chaque modification de manière immédiate ou quasi immédiate. Cette approche utilise soit des déclencheurs qui repèrent les modifications à la source, soit le journal de la source o les changements intéressants sont recherchés. 18

15 Ces deux approches se heurtent au coût de rafraîchissement qui doit être minimiser pour garantir les meilleures performances possibles pour l entrepôt en terme de temps de réponse pour l interrogation et l analyse. Le processus de rafraîchissement a un coût qui est en conflit avec les besoins de temps de réponse rapide. Enfin, un problème crucial est celui du volume des données stockées dans l entrepôt lié en particulier à l historisation des données. Ce problème est d autant plus accrus que l entrepôt conserve l évolution des données sur des périodes de temps importantes (plusieurs années) Granularité des données L agrégation est le problème majeur lié à la construction des entrepôts de données car elle permet de résumer les données opérationnelles élémentaires à un niveau de détail plus élevé ; ce niveau plus élevé devient le niveau élémentaire dans l entrepôt. L agrégation est utilisée afin de définir la granularité des données stockées dans l entrepôt. Le choix de la granularité influence de manière significative la pertinence des données contenues dans l entrepôt, et dans le même temps, affecte le type des requêtes possibles. Une grande granularité limite les requêtes possibles, en particulier les niveaux de détails fins ne sont pas disponibles. Inversement, un niveau de détail fin dans l entrepôt a pour conséquence une faible granularité. Plusieurs niveaux de granularité peuvent être présents dans l entrepôt. Les données récentes sont stockées généralement avec un niveau de détail très fins (par exemple, le détail des ventes d un magasin sont conservées avec un niveau de détail journalier, durant plusieurs mois), tandis que les données plus anciennes sont agrégées à un niveau de granularité plus grand (par exemple, les ventes du magasin sont résumées au bout d un an avec un niveau de détail mensuel). Enfin, les données très anciennes peuvent être archivées avec un taux d agrégation très fort (par exemple, les ventes du magasin peuvent être réduite à l année). Il faut remarquer que cette opération d agrégation provoque une perte d information. Le choix de la granularité consiste à déterminer la perte d information acceptable suivant des contraintes de volume de données (c est à dire de coût de stockage pour l entreprise). Une autre utilisation importante des agrégations est celle de l amélioration des performances de l entrepôt lors de l interrogation. La méthode utilisée consiste à déterminer des pré-agrégations ; des algorithmes permettent de déterminer une politique optimale permettant de déterminer quels agrégats doivent être calculés. Lorsque les requêtes sont posées, les agrégats pré-calculés sont utilisés pour améliorer les temps de réponses. Là encore, le besoin de haute performance pour l interrogation est en conflit avec la contrainte d un faible coût de maintenance de l entrepôt, ainsi que la contrainte du volume des données stockées. Pour finir, il est essentiel de comprendre que dans les entrepôts de données, l agrégation n induit pas une réduction du volume des données, au contraire ; on parle du paradoxe de la volumétrie. Plus on monte le niveau de granularité, plus le volume des informations à stocker est grand. En effet, l information de synthèse est plus volumineuse que celle de détail. 19