2015-03- 09. Le cycle de vie d un projet en BI. Ques1on. Diagramme de flux de travail: Pourquoi est- il nécessaire de faire l intégra1on des données?



Documents pareils
BI = Business Intelligence Master Data-ScienceCours 2 - ETL

Le cycle de vie d'un projet en intelligence d'affaires

Architecture des entrepôts de données

MTI820 Entrepôts de données et intelligence d affaires. Gouvernance des données et ges1on des données de référence

MTI820 Entrepôts de données et intelligence d affaires. Les applica+ons de BI

Évolu>on et maintenance

Entrepôt de données et l Analyse en ligne. Maguelonne Teisseire Hugo Alatrista Salas hugo.alatrista- salas@teledetec9on.fr Flavien Bouillot

Introduc;on à l intelligence d affaires et aux entrepôts de données

Présentation Level5. Editeur de Logiciels. «If it s not monitored, it s not in production» Theo Schlossnagle #velocityconf

DOCUMENTATION KAPTravel Module de gestion des appels de disponibilité

Architecture matériel et logiciel 2

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Département Génie Informatique

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Cabinet de Conseil STRATÉGIE MANAGEMENT ORGANISATION JURIDIQUE FORMATION AVEC BW CONSULTANTS CHOISISSEZ DE GARANTIR VOTRE DEVELOPPEMENT

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

Architectures d'intégration de données

Introduction à la B.I. Avec SQL Server 2008

Introduction aux outils BI de SQL Server Tutoriel sur SQL Server Integration Services (SSIS)

Bases de Données Avancées

Optimisation de la supervision by Somone. - Présentation Générale -!

Les entrepôts de données et l analyse de données

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Le contrôle fiscal anno 2013

Thibault Denizet. Introduction à SSIS

Concepon et réalisaon

Améliorez et industrialisez vos feedback produit

Chapitre 9 : Informatique décisionnelle

Business & High Technology

Dysplasie osseuse. Groupe hétérogène de maladies géné%ques 440 types individuellement très rares Manifesta%ons possibles :

Prépara&on Opéra&onnelle à l Emploi de BASYCA (POEB) BASYCA SAS FRANCE - Anzize BADAROU

Business Intelligence avec SQL Server 2012

La problématique. La philosophie ' ) * )

INTRASTAT No ce explica ve Merkbla

CQP 112 Introduc/on à la programma/on. Thème 2 : Architecture d un système informa/que. Département d informa/que

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

Programme détaillé. Administrateur de Base de Données Oracle - SQLServer - MySQL. Objectifs de la formation. Les métiers

Présenta)on DesignBuilder

L Information en Temp Réel

LA LOGISTIQUE LES BONNES QUESTIONS À SE POSER

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Sécuriser et enrichir les transactions financières. URYX Capital

Business Intelligence avec SQL Server 2012

USER EXPERIENCE ET DATA : AUGMENTER LES CONVERSIONS GRÂCE À UN PARCOURS UTILISATEUR OPTIMISÉ

Catalogue de FORMATIONS 2015

Les méthodes Agiles. Introduc)on aux méthodes Agiles Exemple : Scrum

MOBILE FIRST : PARTIR DU MOBILE POUR DÉVELOPPER ENSUITE LES AUTRES DEVICES OU OPTER POUR LE RESPONSIVE DESIGN?

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

352B - Forefront pour la protec3on des infrastructures de messagerie

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

Ges$on des clients du réseau pédagogique. Stéphan Cammarata - DANE Strasbourg - Version 10/2013

BI = Business Intelligence Master Data-Science

LES ENTREPOTS DE DONNEES

Urbanisme du Système d Information et EAI

Devenez un virtuose de Google. Atelier en informa5que présenté par Dominic P. Tremblay

Urbanisation des SI. Des composants technologiques disponibles. Urbanisation des Systèmes d'information Henry Boccon Gibod 1

En synthèse. HVR pour garantir les échanges sensibles de l'entreprise

Les termes du cloud CUMULO NUMBIO 2015 O. COLLIN

SAUVER LA DISTRIBUTION!

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

FAMILLE EMC RECOVERPOINT

AVIS A MANIFESTATION D INTERET N 017/MPT/2013/UCP/CAB

Prise en main du BusinessObjects XI R2 Service Pack 2/ Productivity Pack

LA DIGITALISATION DE LA RELATION CLIENT

Design & conception de site web optimisé SEO. augmentez la conversion sur vos sites

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Business & High Technology

Réunion de rentrée Licence PER Programma3on en environnement répar3. Année universitaire

Clients et agents Symantec NetBackup 7

Service de Messagerie Enseignement et Recherche

Chapitre 10. Architectures des systèmes de gestion de bases de données

Conception Exécution Interopérabilité. Déploiement. Conception du service. Définition du SLA. Suivi du service. Réception des mesures

Technologie data distribution Cas d usage.

14 Octobre 2008 TICPME2010 Sage et TICPME2010

CURRICULUM VITAE. Martin Harnois. Consultant depuis 23 ans Spécialiste en Business Intelligence / entrepôt de données depuis 11 ans.

et les Systèmes Multidimensionnels

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Business Intelligence avec Excel, Power BI et Office 365

Les Entrepôts de Données

Business Intelligence : Informatique Décisionnelle

BI = Business Intelligence Master Data-ScienceCours 3 - Data

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Datawarehouse and OLAP

22 & 23 NOVEMBRE 2012 LE MOT DU PRESIDENT 20 ANS ET UN NOUVEAU RECORD 142 PARTICIPANTS POUR 71 CABINETS LES TITRES

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Les Entrepôts de Données. (Data Warehouses)

Chapitre 4 La prise en compte de l informa6on dans le modèle de marché

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Découvrir Drupal. Les meilleurs thèmes et modules Drupal (présenta5on démo)

SQL SERVER 2008, BUSINESS INTELLIGENCE

Catalyse IT. Innovation Digital/Numérique

Transcription:

MTI820 Entrepôts de données et intelligence d affaires Intégra1on des données et ETL Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 1 Le cycle de vie d un projet en BI Diagramme de flux de travail: Concep<on de l architecture technique Sélec<on et installa<on des produits Croissance Planifica<on de projet / programme Défini<on des besoins d affaires Modélisa<on des données Concep<on physique Concep<on et développement du système ETL Déploiement Concep<on des applica<on de BI Développement des applica<ons de BI Maintenance Ges<on de projet / programme Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 2 Ques1on Pourquoi est- il nécessaire de faire l intégra1on des données? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 3 1

Les problèmes des sources de données 1. Sources diverses et disparates; 2. Sources sur différentes plateformes et OS; 3. Applica1ons legacy u1lisant des BD et autres technologies obsolètes; 4. Historique de changement non- préservé dans les sources; 5. Qualité de données douteuse et changeante dans le temps; 6. Structure des systèmes sources changeante dans le temps; 7. Incohérence entre les différentes sources; 8. Données dans un format difficilement interprétable ou ambigu. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 4 Ques1on Quelles sont les principales approches d intégra1on et quels sont leurs principaux avantages/inconvénients? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 5 IBM Software Group Approches d intégra1on Information Integration Data Patterns Source: EII - ETL EAI What, Why, and How!, Tom Yu, 2005 EII EAI ETL SQL (or Content) Application Target / Data Warehouse Data Virtualization Structured Legacy Data Source Data Source unstructured Application Interpret Transform Route Application load transform extract Data Data Source Source Enterprise Real-time Informa<on information access Intergra<on Fédéra1on Federation de of data données from multiple provenant sources de plusieurs sources Dynamic drill down Accès temps- réel aux données Semi-structured & unstructured Données data structurées ou semi- structurées Enterprise Process Applica<on based integration Intergra<on of Processus application d intégra1on data des Message-based, transactionoriented processing d applica1ons données Basé Workflow sur l échange and data orchestration, de messages sur content-based un bus commun routing Extract, Bulk data Transform integration and Load Set-based Intégra1on & et hierarchical livraison des transformations High données scale, en batch-oriented lot data delivery Transforma1ons appliquées sur les données 13 Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 6 2

Extract, Transform and Load (ETL) Caractéris1ques: Permet la consolida1on des données à l aide des trois opéra1ons suivantes: Extrac1on: iden1fier et extraire les données de sources ayant subi une modifica1on depuis la dernière exécu1on; Transforma1on: appliquer diverses transforma1ons aux données pour les nehoyer, les intégrer et les agréger; Chargement: insérer les données transformées dans l entrepôt et gérer les changements aux données existantes (ex: stratégies SCD). Traite normalement de grande quan1tés de données en lots cédulés; Est surtout u1lisé avec les entrepôts de données et les comptoirs de données. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 7 Avantages: Extract, Transform and Load (ETL) Op1misé pour la structure de l entrepôt de données; Peut traiter de grandes quan1tés de données dans une même exécu1on (traitement en lot); Permet des transforma1ons complexes et agréga1ons sur les données; La cédule d exécu1on peut être contrôlée par l administrateur; La disponibilité d ou1ls GUI sur le marché permet d améliorer la produc1vité; Permet la réu1lisa1on des processus et transforma1ons (ex: packages dans SSIS). Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 8 Extract, Transform and Load (ETL) Inconvénients: Processus de développement long et coûteux; Ges1on des changements nécessaire; Exige de l espace disque pour effectuer les transforma1ons (staging area); Exécuté indépendamment du besoin réel; Latence des données entre la source et l entrepôt; Unidirec1onnel (des sources vers l entrepôt de données). Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 9 3

Entreprise Informa1on Integra1on (EII) Caractéris1ques: Fournit une vue unifiée des données de l'entreprise, où les sources de données forment une fédéra1on; Les sources de données dispersées sont consolidées à l'aide d'une BD virtuelle, de manière transparente aux applica1ons u1lisant ces données; Toute requête à la BD virtuelle est décomposée par en sous- requêtes aux sources respec1ves, dont les réponses sont assemblées en un résultat unifié et consolidé; Permet de consolider uniquement les données u1lisées, au moment où elles sont u1lisées (source data pulling). Le traitement en- ligne des données peut cependant entraîner des délais importants. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 10 Entreprise Informa1on Integra1on (EII) Avantages: Accès rela1onnel à des sources non- rela1onnelles; Permet d explorer les données avec la créa1on du modèle de l entrepôt de données; Accélère le déploiement de la solu1on; Peut être réu1lisé par le système ETL dans une itéra1on future; Aucun déplacement de données. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 11 Entreprise Informa1on Integra1on (EII) Inconvénients: Requiert la correspondance des clés d une source à l autre; Consolida1on des données plus complexe que dans l ETL; Surtaxe les système sources; Plus limité que l ETL dans la quan1té de données pouvant être traitée; Transforma1ons limitées sur les données; Peut consommer une grande bande passante du réseau. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 12 4

Entreprise Applica1on Integra1on (EAI) Caractéris1ques: Approche permehant de fournir à l'entrepôt des données provenant des sources (source data pushing); Repose sur l'intégra1on et le partage des fonc1onnalités des applica1ons sources à l'aide d'une architecture SOA; Généralement u1lisé en temps réel ou en semi- temps réel (Near Real Time); L'EAI ne remplace pas le processus ETL, mais permet de simplifier ce dernier. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 13 Entreprise Applica1on Integra1on (EAI) Avantages: Facilite l interopérabilité des applica1ons; Permet l accès en (quasi) temps- réel; Ne transfère que les données nécessaires; Contrôle du flot de l informa1on. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 14 Entreprise Applica1on Integra1on (EAI) Inconvénients: Support limité aux transforma1ons et agréga1ons des données; Taille des transac1ons limitée (en nombre de lignes); Développement complexe; Ges1on complexe de l intégrité séman1que des données (e.g., règles d affaires); U1lise la bande passante du réseau durant les heures de pointe. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 15 5

Comparaison entre les approches d intégra1on Flot de données Mouvement de données ETL EII EAI Unidirec1onnel (sources à l entrepôt) Lots cédulés Bidirec1onnel Au moment de la requête Bidirec1onnel Déclenché par la transac1on Latence Journalier à mensuel Temps- réel Quasi temps- réel Transforma<ons/ agréga<ons des données Volume des données Grande capacité Moyenne capacité Faible capacité Grand (millions ou milliards de lignes) Moyen (10,000 1,000,000 de lignes) Pe1t (100-1000 lignes) Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 16 Exemples de produits commerciaux Ou1ls ETL: Oracle Warehouse Builder; IBM Infosphere Informa1on Server; Microsou SQL Server Integra1on Services (SSIS); SAS Data Integra1on Studio. Ou1ls EAI: IBM WebSphere Message Broker; Microsou BizTalk Server; Oracle SOA Suite. Ou1ls EII: SAP BusinessObjects Data Federator; IBM WebSphere Federa1on Server. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 17 Ques1on Quelles sont les principales étapes dans le développement du système ETL? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 18 6

Tâches et étapes de l'etl ETL des tables de faits ETL des tables de dimension Définir les procédures pour le chargement de données Préparer le staging area et les ou1ls d'assurance qualité Planifier les agréga1ons de données Définir les règles de transforma1on et de nehoyage des données Définir les règles d'extrac1on des données cibles Déterminer les sources internes et externes renfermant ces données Déterminer les données nécessaires à la solu1on de BI Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 19 Considéra1ons pra1ques: Iden1fier les sources de données et leurs structures; Décider, pour chaque source, si l'extrac1on est faite à la main (ex: script) ou à l'aide d'un ou1l; Choisir, pour chaque source, la fenêtre temporelle durant laquelle sera faite l'extrac1on; Déterminer la séquence des tâches d'extrac1on; Déterminer comment gérer les excep1ons. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 20 Iden1fica1on des sources: 1. Énumérer les items cibles (métriques et ahributs de dimension) nécessaires à l'entrepôt de données; 2. Pour chaque item cible, trouver la source et l'item correspondant de cehe source; 3. Si plusieurs sources sont trouvées, choisir la plus per1nente; 4. Si l'item cible exige des données de plusieurs sources, former des règles de consolida1on; 5. Si l'item source referme plusieurs items cibles (ex: un seul champs pour le nom et l'adresse du client), définir des règles de découpage; 6. Inspecter les sources pour des valeurs manquantes. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 21 7

Extrac1on complète: Capture l'ensemble des données à un certain instant (snapshot de l'état opéra1onnel); Normalement employée dans deux situa1ons: 1. Chargement ini1al des données; 2. Rafraîchissement complet des données (ex: modifica1on d'une source). Peut être très coûteuse en temps (ex: plusieurs heures/jours). Extrac1on incrémentale: Capture uniquement les données qui ont changées ou ont été ajoutées depuis la dernière extrac1on; Peut être faite de deux façons: 1. Extrac1on temps- réel; 2. Extrac1on différée (en lot). Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 22 Ques1on Comment peut- on extraire les données qui ont changées dans les sources: En temps- réel? En différé (lot)? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 23 Extrac1on temps- réel: S'effectue au moment où les transac1ons surviennent dans les systèmes sources. Systèmes opéra1onnels sources BD sources triggers Journal de transac1ons Op<on 1: Capture à l'aide des journaux de transac1ons Fichiers générés par les sources Op<on 3: Capture dans les applica1ons sources Fichiers générés par les triggers Op<on 2: Capture à l'aide de triggers Zone de prépara<on de données (staging area) Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 24 8

Op1on 1: Capture à l'aide du journal des transac1ons U1lise les logs de transac1ons de la BD servant à la récupéra1on en cas de panne; Aucune modifica1on requise à la BD ou aux sources; Doit être fait avant le rafraîchissement périodique du journal; Pas possible avec les systèmes legacy ou les sources à base de fichiers (il faut une BD journalisée). Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 25 Op1on 2: Capture à l'aide de triggers Des procédures déclenchées (triggers) sont définies dans la BD pour recopier les données à extraire dans un fichier de sor1e; Meilleur contrôle de la capture d'évènements; Exige de modifier les BD sources; Pas possible avec les systèmes legacy ou les sources à base de fichiers. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 26 Op1on 3: Capture à l'aide des applica1ons sources Les applica1ons sources sont modifiées pour écrire chaque ajout et modifica1on de données dans un fichier d'extrac1on; Exige des modifica1ons aux applica1ons existantes; Entraîne des coûts addi1onnels de développement et de maintenance; Peut être employé sur des systèmes legacy et les systèmes à base de fichiers. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 27 9

Extrac1on différée: Extrait tous les changements survenus durant une période donnée (ex: heure, jour, semaine, mois). Systèmes opéra1onnels sources BD sources Extrac1on d'aujourd'hui Extrac1on d'hier Fichiers d'extrac1on u1lisant les Jmestamps Op<on 1: Capture basée sur les Jmestamps Programme d'extrac1on Zone de prépara<on de données (staging area) Programme de comparaison Op<on 2: Capture par Fichiers comparaison de d'extrac1on fichiers u1lisant la comparaison Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 28 Op1on 1: Capture basée sur les Jmestamps Une estampille (Jmestamp) d'écriture est ajoutée à chaque ligne des systèmes sources; L'extrac1on se fait uniquement sur les données dont le Jmestamp est plus récent que la dernière extrac1on; Fonc1onne avec les systèmes legacy et les fichiers plats, mais peut exiger des modifica1ons aux systèmes sources; Ges1on compliquée des suppressions. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 29 Op1on 2: Capture par comparaison de fichiers Compare deux snapshots successifs des données sources; Extrait seulement les différences (ajouts, modifica1ons, suppressions) entre les deux snapshots; Peut être employé sur des systèmes legacy et les systèmes à base de fichiers, sans aucune modifica1on; Exige de conserver une copie de l'état des données sources; Approche rela1vement coûteuse. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 30 10

Ques1on Quelles sont les transforma1ons à effectuer sur les données sources avant de les charger dans l entrepôt? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 31 Transforma1on des données Types de transforma1on: 1. Révision de format: Ex: Changer le type ou la longueur de champs individuels. 2. Décodage de champs: Consolider les données de sources mul1ples Ex: ['homme', 'femme'] vs ['M', 'F'] vs [1,2]. Traduire les valeurs cryp1ques Ex: 'AC', 'IN', 'SU' pour les statuts acjf, inacjf et suspendu. 3. Pré- calcul des valeurs dérivées: Ex: profit calculé à par1r de ventes et coûts. 4. Découpage de champs complexes: Ex: extraire les valeurs prénom, secondprénom et nomfamille à par1r d'une seule chaîne de caractères nomcomplet. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 32 Transforma1on des données Types de transforma1on (suite): 5. Fusion de plusieurs champs: Ex: informa1on d'un produit Source 1: code et descrip1on; Source 2: types de forfaits; Source 3: coût. 6. Conversion de jeu de caractères: Ex: EBCDIC (IBM) vers ASCII. 7. Conversion des unités de mesure: Ex: impérial à métrique. 8. Conversion de dates: Ex: '24 FEB 2011' vs '24/02/2011' vs '02/24/2011'. 9. Pré- calcul des agréga1ons: Ex: ventes par produit par semaine par région. 10. Déduplica1on: Ex: Plusieurs enregistrements pour un même client. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 33 11

Transforma1on des données Problème de résolu1on d'en1tés: Survient lorsqu'une même en1té se retrouve sur différentes sources, sans qu'on ait la correspondance entre ces sources; Ex: clients de longue date ayant un iden1fiant différent sur les différentes sources; L'intégra1on des données requiert de retrouver la correspondance; Approches basées sur des règles de résolu1on Ex: les en1tés doivent avoir au moins N champs iden1ques (fuzzy lookup). Problème des sources mul1ples: Survient lorsqu'une en1té possède une représenta1on différente sur plusieurs sources; Approches de sélec1on: Choisir la source la plus prioritaire; Choisir la source ayant l'informa1on la plus récente. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 34 Transforma1on des données Ges1on des changements dimensionnels: Déterminer la stratégie de ges1on des changements (SCD Type 1, 2 ou 3) de chaque ahribut dimensionnel modifié; Préparer l'image de chargement (load image) en conséquence: SCD Type 1: ancienne valeur écrasée; SCD Type 2: nouvelle ligne ajoutée; SCD Type 3: déplacement de l'ancienne valeur dans la colonne d'historique et écriture de la nouvelle valeur dans la colonne courante. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 35 Transforma1on des données Matrice de transforma1on: Champs cible Table cible Champs source Table source Règle de transformation Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 36 12

Types de chargement: Chargement des données Chargement ini1al: Fait une seule fois lors de l'ac1va1on de l'entrepôt de données; Les indexes et contraintes d'intégrité référen1elle (clé étrangères) sont normalement désac1vés temporairement; Peut prendre plusieurs heures. Chargement incrémental: Fait une fois le chargement ini1al complété; Tient compte de la nature des changements (ex: SCD Type 1, 2 ou 3); Peut être fait en temps- réel ou en lot. Rafraîchissement complet: Employé lorsque le nombre de changements rend le chargement incrémental trop complexe; Ex: lorsque plus de 20% des enregistrements ont changé depuis le dernier chargement. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 37 Chargement des données Considéra1on addi1onnelles: Faire les chargements en lot dans une période creuse (entrepôt de données non u1lisé); Considérer la bande passante requise pour le chargement; Avoir un plan pour évaluer la qualité des données chargées dans l'entrepôt; Commencer par charger les données des tables de dimension. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaIi, C. Desrosiers 38 13