MTI820 Entrepôts de données et intelligence d affaires. Intégra*on des données et ETL



Documents pareils
BI = Business Intelligence Master Data-ScienceCours 2 - ETL

Le cycle de vie d'un projet en intelligence d'affaires

Architecture des entrepôts de données

MTI820 Entrepôts de données et intelligence d affaires. Gouvernance des données et ges1on des données de référence

MTI820 Entrepôts de données et intelligence d affaires. Les applica+ons de BI

Évolu>on et maintenance

Entrepôt de données et l Analyse en ligne. Maguelonne Teisseire Hugo Alatrista Salas hugo.alatrista- salas@teledetec9on.fr Flavien Bouillot

Introduc;on à l intelligence d affaires et aux entrepôts de données

Présentation Level5. Editeur de Logiciels. «If it s not monitored, it s not in production» Theo Schlossnagle #velocityconf

DOCUMENTATION KAPTravel Module de gestion des appels de disponibilité

Architecture matériel et logiciel 2

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Département Génie Informatique

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Cabinet de Conseil STRATÉGIE MANAGEMENT ORGANISATION JURIDIQUE FORMATION AVEC BW CONSULTANTS CHOISISSEZ DE GARANTIR VOTRE DEVELOPPEMENT

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

Architectures d'intégration de données

Introduction à la B.I. Avec SQL Server 2008

Introduction aux outils BI de SQL Server Tutoriel sur SQL Server Integration Services (SSIS)

Bases de Données Avancées

Optimisation de la supervision by Somone. - Présentation Générale -!

Les entrepôts de données et l analyse de données

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Le contrôle fiscal anno 2013

Thibault Denizet. Introduction à SSIS

Concepon et réalisaon

Améliorez et industrialisez vos feedback produit

Chapitre 9 : Informatique décisionnelle

Business & High Technology

Dysplasie osseuse. Groupe hétérogène de maladies géné%ques 440 types individuellement très rares Manifesta%ons possibles :

Prépara&on Opéra&onnelle à l Emploi de BASYCA (POEB) BASYCA SAS FRANCE - Anzize BADAROU

Business Intelligence avec SQL Server 2012

La problématique. La philosophie ' ) * )

INTRASTAT No ce explica ve Merkbla

CQP 112 Introduc/on à la programma/on. Thème 2 : Architecture d un système informa/que. Département d informa/que

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

Programme détaillé. Administrateur de Base de Données Oracle - SQLServer - MySQL. Objectifs de la formation. Les métiers

Présenta)on DesignBuilder

L Information en Temp Réel

LA LOGISTIQUE LES BONNES QUESTIONS À SE POSER

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Sécuriser et enrichir les transactions financières. URYX Capital

Business Intelligence avec SQL Server 2012

USER EXPERIENCE ET DATA : AUGMENTER LES CONVERSIONS GRÂCE À UN PARCOURS UTILISATEUR OPTIMISÉ

Catalogue de FORMATIONS 2015

Les méthodes Agiles. Introduc)on aux méthodes Agiles Exemple : Scrum

MOBILE FIRST : PARTIR DU MOBILE POUR DÉVELOPPER ENSUITE LES AUTRES DEVICES OU OPTER POUR LE RESPONSIVE DESIGN?

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

352B - Forefront pour la protec3on des infrastructures de messagerie

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

Ges$on des clients du réseau pédagogique. Stéphan Cammarata - DANE Strasbourg - Version 10/2013

BI = Business Intelligence Master Data-Science

LES ENTREPOTS DE DONNEES

Urbanisme du Système d Information et EAI

Devenez un virtuose de Google. Atelier en informa5que présenté par Dominic P. Tremblay

Urbanisation des SI. Des composants technologiques disponibles. Urbanisation des Systèmes d'information Henry Boccon Gibod 1

En synthèse. HVR pour garantir les échanges sensibles de l'entreprise

Les termes du cloud CUMULO NUMBIO 2015 O. COLLIN

SAUVER LA DISTRIBUTION!

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

FAMILLE EMC RECOVERPOINT

AVIS A MANIFESTATION D INTERET N 017/MPT/2013/UCP/CAB

Prise en main du BusinessObjects XI R2 Service Pack 2/ Productivity Pack

LA DIGITALISATION DE LA RELATION CLIENT

Design & conception de site web optimisé SEO. augmentez la conversion sur vos sites

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Business & High Technology

Réunion de rentrée Licence PER Programma3on en environnement répar3. Année universitaire

Clients et agents Symantec NetBackup 7

Service de Messagerie Enseignement et Recherche

Chapitre 10. Architectures des systèmes de gestion de bases de données

Conception Exécution Interopérabilité. Déploiement. Conception du service. Définition du SLA. Suivi du service. Réception des mesures

Technologie data distribution Cas d usage.

14 Octobre 2008 TICPME2010 Sage et TICPME2010

CURRICULUM VITAE. Martin Harnois. Consultant depuis 23 ans Spécialiste en Business Intelligence / entrepôt de données depuis 11 ans.

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

et les Systèmes Multidimensionnels

Business Intelligence avec Excel, Power BI et Office 365

Les Entrepôts de Données

Business Intelligence : Informatique Décisionnelle

BI = Business Intelligence Master Data-ScienceCours 3 - Data

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Datawarehouse and OLAP

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Les Entrepôts de Données. (Data Warehouses)

Chapitre 4 La prise en compte de l informa6on dans le modèle de marché

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

SQL SERVER 2008, BUSINESS INTELLIGENCE

Catalyse IT. Innovation Digital/Numérique

Didier MOUNIEN Samantha MOINEAUX

Nom du client. Date. Client Logo or project name

Transcription:

MTI820 Entrepôts de données et intelligence d affaires Intégra*on des données et ETL Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 1

Le cycle de vie d un projet en BI Diagramme de flux de travail: Concep<on de l architecture technique Sélec<on et installa<on des produits Croissance Planifica<on de projet / programme Défini<on des besoins d affaires Modélisa<on des données Concep<on physique Concep<on et développement du système ETL Déploiement Concep<on des applica<on de BI Développement des applica<ons de BI Maintenance Ges<on de projet / programme Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 2

Ques*on Pourquoi est- il nécessaire de faire l intégra*on des données? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 3

Les problèmes des sources de données 1. Sources diverses et disparates; 2. Sources sur différentes plateformes et OS; 3. Applica*ons legacy u*lisant des BD et autres technologies obsolètes; 4. Historique de changement non- préservé dans les sources; 5. Qualité de données douteuse et changeante dans le temps; 6. Structure des systèmes sources changeante dans le temps; 7. Incohérence entre les différentes sources; 8. Données dans un format difficilement interprétable ou ambigu. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 4

Ques*on Quelles sont les principales approches d intégra*on et quels sont leurs principaux avantages/inconvénients? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 5

IBM Software Group Approches d intégra*on Information Integration Data Patterns Source: EII - ETL EAI What, Why, and How!, Tom Yu, 2005 EII EAI ETL SQL (or Content) Application Target / Data Warehouse Structured Data Source Data Virtualization Legacy Data Source unstructured Application Interpret Transform Route Application Data Source load transform extract Data Source Real-time information access Federation of data from multiple sources de plusieurs sources Dynamic drill down Semi-structured & unstructured data Enterprise Informa<on Intergra<on Fédéra*on de données provenant Accès temps- réel aux données Données structurées ou semi- structurées Process based integration of Processus application d intégra*on data des Message-based, transactionoriented données processing d applica*ons Workflow and data orchestration, sur content-based un bus commun routing Enterprise Applica<on Intergra<on Basé sur l échange de messages Extract, Bulk data Transform integration and Load Set-based Intégra*on & et hierarchical livraison des transformations High données scale, en batch-oriented lot data delivery Transforma*ons appliquées sur les données 13 Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 6

Extract, Transform and Load (ETL) Caractéris*ques: Permet la consolida*on des données à l aide des trois opéra*ons suivantes: Extrac*on: iden*fier et extraire les données de sources ayant subi une modifica*on depuis la dernière exécu*on; Transforma*on: appliquer diverses transforma*ons aux données pour les negoyer, les intégrer et les agréger; Chargement: insérer les données transformées dans l entrepôt et gérer les changements aux données existantes (ex: stratégies SCD). Traite normalement de grande quan*tés de données en lots cédulés; Est surtout u*lisé avec les entrepôts de données et les comptoirs de données. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 7

Extract, Transform and Load (ETL) Avantages: Op*misé pour la structure de l entrepôt de données; Peut traiter de grandes quan*tés de données dans une même exécu*on (traitement en lot); Permet des transforma*ons complexes et agréga*ons sur les données; La cédule d exécu*on peut être contrôlée par l administrateur; La disponibilité d ou*ls GUI sur le marché permet d améliorer la produc*vité; Permet la réu*lisa*on des processus et transforma*ons (ex: packages dans SSIS). Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 8

Extract, Transform and Load (ETL) Inconvénients: Processus de développement long et coûteux; Ges*on des changements nécessaire; Exige de l espace disque pour effectuer les transforma*ons (staging area); Exécuté indépendamment du besoin réel; Latence des données entre la source et l entrepôt; Unidirec*onnel (des sources vers l entrepôt de données). Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 9

Entreprise Informa*on Integra*on (EII) Caractéris*ques: Fournit une vue unifiée des données de l'entreprise, où les sources de données forment une fédéra*on; Les sources de données dispersées sont consolidées à l'aide d'une BD virtuelle, de manière transparente aux applica*ons u*lisant ces données; Toute requête à la BD virtuelle est décomposée par en sous- requêtes aux sources respec*ves, dont les réponses sont assemblées en un résultat unifié et consolidé; Permet de consolider uniquement les données u*lisées, au moment où elles sont u*lisées (source data pulling). Le traitement en- ligne des données peut cependant entraîner des délais importants. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 10

Entreprise Informa*on Integra*on (EII) Avantages: Accès rela*onnel à des sources non- rela*onnelles; Permet d explorer les données avec la créa*on du modèle de l entrepôt de données; Accélère le déploiement de la solu*on; Peut être réu*lisé par le système ETL dans une itéra*on future; Aucun déplacement de données. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 11

Entreprise Informa*on Integra*on (EII) Inconvénients: Requiert la correspondance des clés d une source à l autre; Consolida*on des données plus complexe que dans l ETL; Surtaxe les système sources; Plus limité que l ETL dans la quan*té de données pouvant être traitée; Transforma*ons limitées sur les données; Peut consommer une grande bande passante du réseau. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 12

Entreprise Applica*on Integra*on (EAI) Caractéris*ques: Approche permegant de fournir à l'entrepôt des données provenant des sources (source data pushing); Repose sur l'intégra*on et le partage des fonc*onnalités des applica*ons sources à l'aide d'une architecture SOA; Généralement u*lisé en temps réel ou en semi- temps réel (Near Real Time); L'EAI ne remplace pas le processus ETL, mais permet de simplifier ce dernier. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 13

Entreprise Applica*on Integra*on (EAI) Avantages: Facilite l interopérabilité des applica*ons; Permet l accès en (quasi) temps- réel; Ne transfère que les données nécessaires; Contrôle du flot de l informa*on. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 14

Entreprise Applica*on Integra*on (EAI) Inconvénients: Support limité aux transforma*ons et agréga*ons des données; Taille des transac*ons limitée (en nombre de lignes); Développement complexe; Ges*on complexe de l intégrité séman*que des données (e.g., règles d affaires); U*lise la bande passante du réseau durant les heures de pointe. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 15

Comparaison entre les approches d intégra*on Flot de données Mouvement de données ETL EII EAI Unidirec*onnel (sources à l entrepôt) Lots cédulés Bidirec*onnel Au moment de la requête Bidirec*onnel Déclenché par la transac*on Latence Journalier à mensuel Temps- réel Quasi temps- réel Transforma<ons/ agréga<ons des données Volume des données Grande capacité Moyenne capacité Faible capacité Grand (millions ou milliards de lignes) Moyen (10,000 1,000,000 de lignes) Pe*t (100-1000 lignes) Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 16

Exemples de produits commerciaux Ou*ls ETL: Oracle Warehouse Builder; IBM Infosphere Informa*on Server; Microsou SQL Server Integra*on Services (SSIS); SAS Data Integra*on Studio. Ou*ls EAI: IBM WebSphere Message Broker; Microsou BizTalk Server; Oracle SOA Suite. Ou*ls EII: SAP BusinessObjects Data Federator; IBM WebSphere Federa*on Server. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 17

Ques*on Quelles sont les principales étapes dans le développement du système ETL? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 18

Tâches et étapes de l'etl ETL des tables de faits ETL des tables de dimension Définir les procédures pour le chargement de données Préparer le staging area et les ou*ls d'assurance qualité Planifier les agréga*ons de données Définir les règles de transforma*on et de negoyage des données Définir les règles d'extrac*on des données cibles Déterminer les sources internes et externes renfermant ces données Déterminer les données nécessaires à la solu*on de BI Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 19

Considéra*ons pra*ques: Extrac*on des données Iden*fier les sources de données et leurs structures; Décider, pour chaque source, si l'extrac*on est faite à la main (ex: script) ou à l'aide d'un ou*l; Choisir, pour chaque source, la fenêtre temporelle durant laquelle sera faite l'extrac*on; Déterminer la séquence des tâches d'extrac*on; Déterminer comment gérer les excep*ons. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 20

Iden*fica*on des sources: Extrac*on des données 1. Énumérer les items cibles (métriques et agributs de dimension) nécessaires à l'entrepôt de données; 2. Pour chaque item cible, trouver la source et l'item correspondant de cege source; 3. Si plusieurs sources sont trouvées, choisir la plus per*nente; 4. Si l'item cible exige des données de plusieurs sources, former des règles de consolida*on; 5. Si l'item source referme plusieurs items cibles (ex: un seul champs pour le nom et l'adresse du client), définir des règles de découpage; 6. Inspecter les sources pour des valeurs manquantes. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 21

Extrac*on des données Extrac*on complète: Capture l'ensemble des données à un certain instant (snapshot de l'état opéra*onnel); Normalement employée dans deux situa*ons: 1. Chargement ini*al des données; 2. Rafraîchissement complet des données (ex: modifica*on d'une source). Peut être très coûteuse en temps (ex: plusieurs heures/jours). Extrac*on incrémentale: Capture uniquement les données qui ont changées ou ont été ajoutées depuis la dernière extrac*on; Peut être faite de deux façons: 1. Extrac*on temps- réel; 2. Extrac*on différée (en lot). Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 22

Ques*on Comment peut- on extraire les données qui ont changées dans les sources: En temps- réel? En différé (lot)? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 23

Extrac*on des données Extrac*on temps- réel: S'effectue au moment où les transac*ons surviennent dans les systèmes sources. Systèmes opéra*onnels sources BD sources triggers Journal de transac*ons Op<on 1: Capture à l'aide des journaux de transac*ons Fichiers générés par les sources Op<on 3: Capture dans les applica*ons sources Fichiers générés par les triggers Op<on 2: Capture à l'aide de triggers Zone de prépara<on de données (staging area) Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 24

Extrac*on des données Op*on 1: Capture à l'aide du journal des transac*ons U*lise les logs de transac*ons de la BD servant à la récupéra*on en cas de panne; Aucune modifica*on requise à la BD ou aux sources; Doit être fait avant le rafraîchissement périodique du journal; Pas possible avec les systèmes legacy ou les sources à base de fichiers (il faut une BD journalisée). Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 25

Extrac*on des données Op*on 2: Capture à l'aide de triggers Des procédures déclenchées (triggers) sont définies dans la BD pour recopier les données à extraire dans un fichier de sor*e; Meilleur contrôle de la capture d'évènements; Exige de modifier les BD sources; Pas possible avec les systèmes legacy ou les sources à base de fichiers. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 26

Extrac*on des données Op*on 3: Capture à l'aide des applica*ons sources Les applica*ons sources sont modifiées pour écrire chaque ajout et modifica*on de données dans un fichier d'extrac*on; Exige des modifica*ons aux applica*ons existantes; Entraîne des coûts addi*onnels de développement et de maintenance; Peut être employé sur des systèmes legacy et les systèmes à base de fichiers. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 27

Extrac*on des données Extrac*on différée: Extrait tous les changements survenus durant une période donnée (ex: heure, jour, semaine, mois). Systèmes opéra*onnels sources BD sources Extrac*on d'aujourd'hui Extrac*on d'hier Fichiers d'extrac*on u*lisant les Jmestamps Op<on 1: Capture basée sur les Jmestamps Programme d'extrac*on Zone de prépara<on de données (staging area) Programme de comparaison Op<on 2: Capture par comparaison de fichiers Fichiers d'extrac*on u*lisant la comparaison Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 28

Extrac*on des données Op*on 1: Capture basée sur les Jmestamps Une estampille (Jmestamp) d'écriture est ajoutée à chaque ligne des systèmes sources; L'extrac*on se fait uniquement sur les données dont le Jmestamp est plus récent que la dernière extrac*on; Fonc*onne avec les systèmes legacy et les fichiers plats, mais peut exiger des modifica*ons aux systèmes sources; Ges*on compliquée des suppressions. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 29

Extrac*on des données Op*on 2: Capture par comparaison de fichiers Compare deux snapshots successifs des données sources; Extrait seulement les différences (ajouts, modifica*ons, suppressions) entre les deux snapshots; Peut être employé sur des systèmes legacy et les systèmes à base de fichiers, sans aucune modifica*on; Exige de conserver une copie de l'état des données sources; Approche rela*vement coûteuse. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 30

Ques*on Quelles sont les transforma*ons à effectuer sur les données sources avant de les charger dans l entrepôt? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 31

Transforma*on des données Types de transforma*on: 1. Révision de format: Ex: Changer le type ou la longueur de champs individuels. 2. Décodage de champs: Consolider les données de sources mul*ples Ex: ['homme', 'femme'] vs ['M', 'F'] vs [1,2]. Traduire les valeurs cryp*ques Ex: 'AC', 'IN', 'SU' pour les statuts acjf, inacjf et suspendu. 3. Pré- calcul des valeurs dérivées: Ex: profit calculé à par*r de ventes et coûts. 4. Découpage de champs complexes: Ex: extraire les valeurs prénom, secondprénom et nomfamille à par*r d'une seule chaîne de caractères nomcomplet. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 32

Transforma*on des données Types de transforma*on (suite): 5. Fusion de plusieurs champs: Ex: informa*on d'un produit Source 1: code et descrip*on; Source 2: types de forfaits; Source 3: coût. 6. Conversion de jeu de caractères: Ex: EBCDIC (IBM) vers ASCII. 7. Conversion des unités de mesure: Ex: impérial à métrique. 8. Conversion de dates: Ex: '24 FEB 2011' vs '24/02/2011' vs '02/24/2011'. 9. Pré- calcul des agréga*ons: Ex: ventes par produit par semaine par région. 10. Déduplica*on: Ex: Plusieurs enregistrements pour un même client. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 33

Transforma*on des données Problème de résolu*on d'en*tés: Survient lorsqu'une même en*té se retrouve sur différentes sources, sans qu'on ait la correspondance entre ces sources; Ex: clients de longue date ayant un iden*fiant différent sur les différentes sources; L'intégra*on des données requiert de retrouver la correspondance; Approches basées sur des règles de résolu*on Ex: les en*tés doivent avoir au moins N champs iden*ques (fuzzy lookup). Problème des sources mul*ples: Survient lorsqu'une en*té possède une représenta*on différente sur plusieurs sources; Approches de sélec*on: Choisir la source la plus prioritaire; Choisir la source ayant l'informa*on la plus récente. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 34

Transforma*on des données Ges*on des changements dimensionnels: Déterminer la stratégie de ges*on des changements (SCD Type 1, 2 ou 3) de chaque agribut dimensionnel modifié; Préparer l'image de chargement (load image) en conséquence: SCD Type 1: ancienne valeur écrasée; SCD Type 2: nouvelle ligne ajoutée; SCD Type 3: déplacement de l'ancienne valeur dans la colonne d'historique et écriture de la nouvelle valeur dans la colonne courante. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 35

Transforma*on des données Matrice de transforma*on: Champs cible Table cible Champs source Table source Règle de transformation Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 36

Types de chargement: Chargement des données Chargement ini*al: Fait une seule fois lors de l'ac*va*on de l'entrepôt de données; Les indexes et contraintes d'intégrité référen*elle (clé étrangères) sont normalement désac*vés temporairement; Peut prendre plusieurs heures. Chargement incrémental: Fait une fois le chargement ini*al complété; Tient compte de la nature des changements (ex: SCD Type 1, 2 ou 3); Peut être fait en temps- réel ou en lot. Rafraîchissement complet: Employé lorsque le nombre de changements rend le chargement incrémental trop complexe; Ex: lorsque plus de 20% des enregistrements ont changé depuis le dernier chargement. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 37

Chargement des données Considéra*on addi*onnelles: Faire les chargements en lot dans une période creuse (entrepôt de données non u*lisé); Considérer la bande passante requise pour le chargement; Avoir un plan pour évaluer la qualité des données chargées dans l'entrepôt; Commencer par charger les données des tables de dimension. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaEi, C. Desrosiers 38