VLDB ET BUSINESS INTELLIGENCE



Documents pareils
et les Systèmes Multidimensionnels

Chapitre 9 : Informatique décisionnelle

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

QU EST-CE QUE LE DECISIONNEL?

Introduction à la B.I. Avec SQL Server 2008

Entrepôt de données 1. Introduction

Méthodologie de conceptualisation BI

LES ENTREPOTS DE DONNEES

Les Entrepôts de Données. (Data Warehouses)

Technologie data distribution Cas d usage.

AXIAD Conseil pour décider en toute intelligence

SQL Server 2012 et SQL Server 2014

Business Intelligence : Informatique Décisionnelle

BUSINESS INTELLIGENCE

en version SAN ou NAS

ANTICIPEZ ET PRENEZ LES BONNES DÉCISIONS POUR VOTRE ENTREPRISE

Bases de Données Avancées

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

vbladecenter S! tout-en-un en version SAN ou NAS

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

Garantir une meilleure prestation de services et une expérience utilisateur optimale

Enterprise Intégration

PROGICIELS DE GESTION INTÉGRÉS SOLUTIONS DE REPORTING

Thibault Denizet. Introduction à SSIS

Ici, le titre de la. Tableaux de bords de conférence

Prestations de conseil en SRM (Storage Ressource Management)

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Tirez plus vite profit du cloud computing avec IBM

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM

Votre Infrastructure est-elle? Business Intelligence. Améliorer la capacité d analyse et de décision de vos équipes

Sage 100. pour les PME. Faites de votre gestion un levier de performance

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

MYXTRACTION La Business Intelligence en temps réel

SQL SERVER 2008, BUSINESS INTELLIGENCE

La Business Intelligence & le monde des assurances

IBM Tivoli Monitoring, version 6.1

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

BI = Business Intelligence Master Data-ScienceCours 3 - Data

L information et la technologie de l informationl

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

La problématique. La philosophie ' ) * )

Evry - M2 MIAGE Entrepôt de données

Les Entrepôts de Données

Objectif : Passer de l analyse métier et fonctionnelle à la définition des applications qui

Business & High Technology

Guide de référence pour l achat de Business Analytics

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Bases de données Cours 1 : Généralités sur les bases de données

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Domaines d intervention

BI Haute performance. Jean-François Vannier Responsable Infrastructures Décisionnelles, Bull

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Stratégies gagnantes pour la fabrication industrielle : le cloud computing vu par les dirigeants Dossier à l attention des dirigeants

IBM Tivoli Compliance Insight Manager

Comment réussir son projet de Master Data Management?

IBM Business Process Manager

Décisionnel & Reporting

Jedox rafraîchit les rapports du fabricant de boissons MBG

Cisco Unified Computing Migration and Transition Service (Migration et transition)

Axe de valeur BMC Identity Management, la stratégie d optimisation de la gestion des identités de BMC Software TM

PRÉSENTE SES SERVEURS L ESPACE LE PLUS INNOVANT POUR FAIRE TRAVAILLER VOS DONNÉES EN TEMPS RÉEL

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

Architectures d implémentation de Click&DECiDE NSI

EMC DATA DOMAIN HYPERMAX

DATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

DISCRETE MANUFACTURING

ERP Service Negoce. Pré-requis CEGID Business version sur Plate-forme Windows. Mise à jour Novembre 2009

Contact. entreprise. Appsfinity Gmbh Neuhofstrasse 3a CH 6340 Baar (ZG)

Contexte. Objectif. Enjeu. Les 3 questions au cœur du Pilotage de la Performance :

Pour les entreprises de taille moyenne. Descriptif Produit Oracle Real Application Clusters (RAC)

CRM Assurance. Fonctionnalités clés. Vue globale de l assuré. Gestion des échanges en Multicanal

10 USAGES DE QLIK POUR AFFINER VOS ANALYSES FINANCIÈRES. Customer Success Stories 2015

SWISS ORACLE US ER GRO UP. Newsletter 5/2014 Sonderausgabe. OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Suite Jedox La Business-Driven Intelligence avec Jedox

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

La gestion des données de référence ou comment exploiter toutes vos informations

Sage FRP Treasury Universe Edition Module Cash L expert en gestion de trésorerie et flux financiers

BIG DATA AVEC BULLION

Sage 30 pour les petites entreprises

Conseil et Ingénierie des Systèmes d Information d Entreprise

Business Intelligence avec SQL Server 2012

Système de stockage IBM XIV Storage System Description technique

BI Open Source Octobre Alioune Dia, Consultant BI

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

APPEL D OFFRE. Projet décisionnel. Juillet 2011

Comment réussir la mise en place d un ERP?

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Contexte. Objectif. Enjeu. Les 3 questions au cœur du Pilotage de la Performance :

Pilot4IT Tableaux de Bord Agréger et consolider l ensemble de vos indicateurs dans un même portail.

Regard sur hybridation et infogérance de production

Les nouveaux tableaux de bord des managers

Transcription:

VLDB ET BUSINESS INTELLIGENCE Un White Paper publié par la rédaction de IT-Media

P A R T I E 1 VLDB : COMMENT RÉUSSIR SON PROJET? VLDB ET BUSINESS INTELLIGENCE : COMMENT RÉUSSIR SON PROJET? Que l on parle de VLDBs ou de data warehouse, dans une approche de Business Intelligence ou de traditionnel SID, il s agit toujours de gérer des volumes de données importants. Et cela ne s improvise pas. L entrepôt de données peut être d une efficacité redoutable, pour peu qu il soit bien construit, au renfort d une méthodologie adéquate et d un vrai souci de qualité de données. >> Par Catherine China 2 WHITE PAPER VERY LARGE DATABASE

A la fin des années quatre-vingt, les bases de données étaient principalement utilisées à des fins de reporting d entreprise et financier. Le reporting financier d un groupe industriel avec cinquante filiales dans le monde se limitait par exemple à 50 mégaoctets. Dérisoire! C est le volume de données que l on peut aujourd hui gérer sur un PDA ou un smartphone. Moins de 10 années plus tard, les volumes de données en entreprise ont littéralement explosé. Avènement de l Internet et de l e-business, multiplication des centres d appels et des bases de données e.mails, déferlante de la vague CRM, passage d un marketing off line à un marketing on line, ère de l entreprise étendue : sont autant de phénomènes qui ont participé à l explosion de la volumétrie de données avec comme objectif pour les entreprises de diffuser un maximum d informations utiles, disponibles pour chaque acteur de la chaîne économique, (collaborateurs, clients, partenaires) soit dans le cadre d opérations commerciales, soit dans un cadre collaboratif. C est en 1993 qu est né le concept du data warehouse (entrepôt de données), donnant ainsi toute ses lettres de noblesse tant à la base de données, qu à la notion de référentiel (UDM). En 2002, Teradata Solutions Group par la voix de sa présidente Nice Werber Sülzer, annonçait fièrement l explosion des data warehouses de plus de 1 To. On en est déjà très loin! Le concept de VLDB (Very Large Database) ou «très grandes bases de données» est en fait assez flou et subjectif. Selon Oracle, les VLDB approchent la taille du téraoctet et vont jusqu aux centaines de To, allant même jusqu'à atteindre le pétaoctet. Chez IBM, on parle >> LA DÉFINITION DES VLDB NE PEUT ÊTRE RESTREINTE AU SEUL CRITÈRE DE VOLUMÉTRIE de VLDB à partir de quelques centaines de gigaoctets. Certains auteurs proposent déjà un nouveau sigle «ELDB», pour la notion d extrêmement grande base de données destiné aux bases dépassant 100 To. Figure 1 : Entreprise étendue itpro.fr 3

P A R T I E 1 VLDB : COMMENT RÉUSSIR SON PROJET? Qualité des données : prendre le problème à la source La qualité des données est au coeur de la mise en place des systèmes de Business Intelligence et leur impact sur la rentabilité des entreprises est loin d être négligeable. Pourtant, ce n est pas une priorité. Véritable paradoxe, car comment calculer des indicateurs de performance sur des données erronées et prendre alors les bonnes décisions? En logistique, il sera difficile de suivre l'état de réalisation d'une commande si les caractéristiques du produit sont mal renseignées... Selon une enquête réalisée en 2003 avec Ascential Sofware, si 82 % des entreprises interrogées sont conscientes des conséquences liées à une mauvaise qualité des données, seules 41 % mènent des actions correctives ponctuelles et 22 % le font en cours, voire en fin de projet. La solution? Prendre le problème à la source et traiter cette problématique de qualité des données comme un véritable sous projet informatique, en amont du projet VLDB, en prenant en compte les impératifs de traçabilité liés par exemple aux lois Sarbane Oaxley ou Bâle II. «C est avant tout le rôle de l ETL et des règles d alimentation de veiller à l intégrité des données. Et il ne sert strictement à rien de faire des analyses multidimensionnelles poussées sur des données qui ne sont pas fiables» indique Manuel Sevilla. La phase ETL doit être menée avec une vigilance toute particulière car elle conditionne la qualité de la chaîne décisionnelle. «Point crucial et pourtant souvent mis de côté, que celui du recyclage et de la qualité des données, la modélisation finale pouvant être impactée par la qualité des données constatée. Figure 2 : Architecture générique des SID Du VLDB au data warehouse Pour Manuel Sevilla, Architecte BI chez Capgemini, «on parle de VLDB pour des volumes de données supérieurs ou égal à 10 To». Mais selon lui, la définition des VLDB ne peut être restreinte au seul critère de volumétrie. La composante «sectorielle» des VLDBs est tout aussi importante. Et de distinguer ainsi trois familles de VLDBs. La première famille de VLDB repose sur la constitution d'une ou plusieurs tables par- 4 WHITE PAPER VERY LARGE DATABASE

Comment réussir son projet d entrepôt de données? Quelles sont les grandes causes d échecs des projets de VLDB BI et de data warehouse? Premièrement, l oubli des objectifs métier au profit de la seule technique. Au delà de la réflexion sur l architecture technique à préconiser, ce sont les procédures qui comptent, la manière dont la VLDB sera renseignée et mise à jour. Si l on veut un bel entrepôt de données, permettant de gérer un volume de données important, on est sûr de dépenser beaucoup d argent, mais on n est pas sûr d en gagner. Nous conseillons donc de ne pas laisser ce chantier aux seuls informaticiens, cela ne peut pas fonctionner «Au vu du coût du projet et des impacts sur l organisation interne, il est important d obtenir un fort sponsoring de la maîtrise d ouvrage, qui doit être tirée par le business et non par la technique» souligne Manuel Sevilla. Cette MOA permettra aussi de donner de la visibilité à la direction d entreprise (et de la conforter dans son appui du projet). Il faudra également veiller à bien évaluer le nombre et le rôle des utilisateurs du SID et se donner des objectifs réalistes de SLA (niveau de qualité de service) en termes de temps de réponse sur certains rapports et de profondeur de l historisation. Les notions de SLA et de haute disponibilité sont importantes dans ce type de projet. Un data warehouse international doit pouvoir fonctionner 24/24. Plus le nombre d utilisateurs concernés par le SID est important, plus cela impactera les temps de réponse. Enfin, il faudra dès le commencement du projet prévoir le chantier de conduite du changement. Un projet adopté par les utilisateurs finaux reste un projet gagnant. ticulièrement volumineuses, adressant des secteurs tels que les télécommunications (bases de données clients, liste des appels émis, ), la vente par correspondance, pionnière dans l exploitation de très larges bases de données marketing (BDDM), le secteur bancaire, spécialiste de la gestion de très grosses bases transactionnelles, mais aussi de bases marketing et client, jusqu à la grande distribution habituée à gérer de son côté de très grandes bases de données consommateur, produits et logistiques. La deuxième famille de VLDB correspond au concept >> AU DELÀ DE LA RÉFLEXION SUR L ARCHITECTURE TECHNIQUE À PRÉCONISER, CE SONT LES PROCÉDURES QUI COMPTENT, LA MANIÈRE DONT LA VLDB SERA RENSEIGNÉE ET MISE À JOUR du data warehouse. Ici, il s agit, à l image d un entrepôt de données, de recueillir des données très diverses issues des différentes fonctions métiers de l entreprise (logistique, achat, RH, commercial, marketing, finance..) en se basant sur un référentiel de données commun dans une approche fonctionnelle de type Business Intelligence. Le volume est généré de part le nombre de domaines de l'entreprise alimentant cette base de données. Enfin, la troisième famille regroupe les deux premières familles et se révèle être la mise en oeuvre de data warehouses de très hautes capacités, tant en volumétrie extrême de certaines tables et de la base en général, qu au regard du nombre important d utilisateurs concernés et par conséquent des exigences fortes en terme de qualité de service (temps de réponse, fonctionnement 24/24, etc.). Quel que soit le type de projet VLDB, de la très grosse base de données marketing, au data warehouse orienté CRM ou BI, une constante demeure : les contraintes de gestion et d exploitation peuvent être exprimées selon trois axes : la taille ou volumétrie, la complexité (nombre d utilisateurs, complexité des requêtes ) et les temps de réponses attendus. Une base à très forte volumétrie de tables (100 To) pour 100 utilisateurs exécutant des requêtes simples (reporting financier) ne sera pas forcément plus complexe à gérer qu une table de itpro.fr 5

P A R T I E 1 VLDB : COMMENT RÉUSSIR SON PROJET? La gestion de VLDB temps réel : l ère de l activewarehouse Avec le passage d un marketing off-line à un marketing de plus en plus on line: les entreprises doivent gérer autant d offres, que de campagnes marketing, et de clients. L active warehouse met l accent sur l équipement des employés qui sont directement au contact de la clientèle comme, par exemple, les opérateurs des centres d appels, ou encore, les agents affectés à l embarquement pour les transports aériens ou maritimes. Ceux-ci doivent fournir des réponses rapides sur des informations régulièrement mises à jour, en ayant accès à l entrepôt de donnés à partir d une interface Web. Dans le cas d un centre d appels, l opérateur pourra par exemple prendre en compte de données capturées lors d une visite effectuée par le client sur le site Web de l entreprise quelques instants avant d appeler. Dans un hypermarché, l analyse de tickets de caisse en quasi temps réel permettra de détecter, par exemple, les corrélations entre la vente de certains produits, l efficacité des messages sonores promotionnels, voire la présence d un commercial en tête de gondole. Le système d information devra forcément suivre cette évolution, par sa capacité à gérer des bases de données de plus en plus volumineuses, complexes, voire multimédia et non plus en différé mais en temps réel. Le data warehouse et les VLDBs n échappent pas non plus à cette vague du Net et du temps réel. Cette approche d activewarehouse, ou d entrepôt de données actif, va de plus en plus se développer pour répondre aux stratégies de marketing one to one en temps réel. Dans sa version 2005, SQL Server au travers de son cache Pro actif permet de répondre à la problématique de rafraîchissement des données OLAP en temps réel. Ce cache permet de définir la fréquence de mise à jour des données, soit en fonction du temps, soit en fonction d évènements notifiés par la base opérationnelle (mise à jour d un contrat client par exemple.) Dans la pratique, les données intermédiaires sont stockées dans un espace mémoire temporaire (dit cache pro actif) grâce à Notification services (notifications d évènements de SQL Server 2005), puis intégrées définitivement lors du traitement complet du cube (phase d analyse). 20 To supportant 300 utilisateurs exécutant des requêtes concurrentes, complexes, voire multidimensionnelles, avec des contraintes de temps de réponse proche du temps réel. Architecture des VLDB Au sein d une architecture type de SID (Système d Information Décisionnelle), quelle que soit l option technologique retenue pour le stockage des données (ODS, data warehouse, datamarts métiers ), on retrouve des étapes clés : la collecte des données des systèmes opérationnels et/ou de gestion (PGI, Best of Breeds, applicatifs spécifiques, données de front office ). Une opération qui sera rendue d autant plus complexe par la diversité et l hétérogénéité des sources de données et leurs dispersions dans l entreprise. C est ici qu interviennent les outils ETL (Extraction, Transformation, Loading) également appelés par certains éditeurs «outils d intégration» puisqu ils permettent d extraire les données des systèmes opérationnels, de les nettoyer, de les organiser puis les consolider dans une structure décisionnelle adaptée. Ce travail de collecte et d organisation des données représente 8O % de l effort de construction d un SID, les 20 % restants étant dédiés aux processus de présentation et de restitution des informations aux utilisateurs concernés (reporting financier, tableaux de bord logistiques, datamining, analyse prédictive, traitement statistique ). Configuration des VLDB > La collecte permet d assurer l approvisionnement en données provenant des systèmes opérationnels. > L intégration assure la cohérence globale des données capturées et les stocke dans une base (datamart, data warehouse) qui constitue l entrepôt selon un modèle conceptuel spécifique. > La diffusion permet de puiser les données dans l entrepôt et de les mettre dans une forme dimensionnelle. > La présentation assure la mise à la disposition de l utilisateur des données organisées par le service de diffusion. 6 WHITE PAPER VERY LARGE DATABASE

Figure 3 : Flux d'alimentation d'un SID «Il existe un lien entre la taille du système d information et le besoin d un data warehouse. Plus l entreprise gère de données, plus le besoin d un data warehouse se fait sentir Bill Inmon, inventeur du concept de data warehouse Faut-il construire une architecture centralisée, un data warehouse, ou plutôt adopter une approche décentralisée autour de datamarts «métiers» répondant à des besoins décisionnels >> LE DATA WAREHOUSE REPOSE EN FAIT SUR LA CONSTRUCTION D UNE BASE UNIQUE, CENTRALISANT L ENSEMBLE DES DONNÉES PERTINENTES, DÉTAILLÉES ET HISTORISÉES DE L ENTREPRISE ciblés? Le data warehouse repose en fait sur la construction d une base unique, centralisant l ensemble des données pertinentes, détaillées et historisées de l entreprise, autour d un référentiel commun, afin de fournir aux utilisateurs finaux des informations fiables et de qualité dans les meilleurs délais et au format adapté à leurs besoins. Cet espace de stockage fiabilisé peut servir à alimenter un datamart «métier», à fournir des données au travers de services Web (SOA) ou bien entendu, répondre à des attentes de reporting et d analyses. La construction d un data warehouse peut être une opération longue, avec des résultats qui se font parfois un peu attendre, mais avec un ROI qui peut atteindre 70 % au bout de 3 ans! De plus en plus d architectes de systèmes décisionnels souhaitent adopter une démarche RAD (Rapid Application Development) et poussent à la création rapide de datamart «métiers». Ces bases de données spécialisées (type infocentre) sont destinées à mettre à disposition d une sous population de l entreprise (marketers, commerciaux, logistiques ) des données les concernant : des données orientées «produits» pour les marketers, des données «clients» au commercial, et des données de fabrication et de transport au responsable logistique. L approche «datamart» permet donc de simplifier la vision de l activité en la mettant à l échelle de chacune des fonctions clés de l entreprise. Chaque métier adopte sa propre vision du produit, ce qui pose itpro.fr 7

P A R T I E 1 VLDB : COMMENT RÉUSSIR SON PROJET? Figure 4 : Mise en oeuvre d'un SID des problèmes, dans le cadre d un projet de Business Intelligence, dont l objectif est d offrir à tous les métiers, la même vision unique de la stratégie d entreprise. «Cette démarche datamart ne s oppose nullement à la création d un data warehouse si elle répond à une réflexion tactique» explique Manuel Sevilla, Architecte BI chez Capgemini. On peut en effet utiliser un data warehouse pour alimenter un datamart métier, mais réintégrer un datamart à un data warehouse reste une opération délicate, cohérence des données oblige. Certaines situations peuvent entraîner d autres choix d architectures. On peut par exemple choisir de construire une zone de stockage intermédiaire (ou ODS pour Operational Data Store) adoptant un modèle classique entité/relation, alimentée par les applications de production, et alimentant elle-même des datamarts. Cette zone permet de résoudre des problèmes techniques parfois insurmontables lorsque l on extrait directement des données mainframes pour construire les datamarts. Difficile dans ces conditions de faire des jointures hétérogènes ou du nettoyage entre plusieurs fichiers VSAM ou IMS (formats grands systèmes) issus de bases non relationnelles. Le stockage intermédiaire résout ce problème par la duplication des données au sein d une base relationnelle moderne où il sera possible de faire par exemple des jointures. La détection des changements sur les bases sources, minimisant le volume de données à déplacer, et parfois complexe suivant les systèmes sources, peut se faire à partir de l ODS. Enfin, on centralisera les règles de transformation dans un référentiel commun. Les transformations les plus lourdes (dédoublonage, nettoyage) seront faites en amont de l ODS, et l on pourra passer simplement de l ODS vers les datamarts en étoile en changeant de modèle, par des agrégations. On s assure ainsi que ce qui est fait pour le premier datamart resservira et que l on pourra mettre en place d autres datamarts rapidement et à peu de frais. Si la typologie des utilisateurs est très variée, il est préférable de stocker les informations non agrégées au sein d un modèle classique entité/relation (E/R) en amont, puis de nourrir à partir de ces données plusieurs modèles en étoile différents, parta- 8 WHITE PAPER VERY LARGE DATABASE

geant éventuellement des dimensions communes. Avant de mettre en oeuvre un ODS, il faut se poser deux questions fondamentales. Quels sont les éléments à prendre en compte pour adopter telle ou telle modélisation? Quelles sont les conséquences en termes de réutilisation et d évolutivité dans chaque cas? Le datamart en étoile est ainsi par nature difficilement réutilisable car trop spécialisé. A l opposé, un modèle entité/relation classique se construit plus aisément, mais n est pas directement utilisable, à moins de calculer des filtres et des jointures complexes. Une fois le datamart des commandes >> POUR MENER À BIEN SON PROJET DE VLDB, MIEUX VAUT SE MÉNAGER DES ÉTAPES CORRESPONDANT À DES BESOINS PRÉCIS pour la compatibilité construit, il faudra presque tout refaire pour élaborer le suivi des ventes pour le marketing. On risque donc en adoptant une démarche «datamart» mal construite de se retrouver avec des systèmes difficilement dupliquables entre les différentes fonctions de l entreprise, des systèmes en silos particulièrement chers à mettre en œuvre et à administrer. Méthodologie de mise en œuvre des VLDB : procéder par étapes Pour mener à bien son projet de VLDB, mieux vaut se ménager des étapes correspondant à des besoins précis. En commençant, par exemple, par le marketing, avec pour objectif de pouvoir mieux cibler le marché. En y ajoutant, ensuite, le service commercial afin de gérer les forces de vente et, enfin, le département financier pour analyser la rentabilité de chaque client. Enfin, l une des grandes failles de ce type de projet consiste à mettre en place une architecture non évolutive et non intégrée. Le cas le plus fréquent consistant à monter un petit datamart indépendant pour chaque service. Or le service commercial peut avoir besoin de connaître la rentabilité de ses clients, donnée qui lui sera fournie par le datamart de la comptabilité. Il faut donc dès le départ avoir une vision globale de son projet de data warehouse, de façon à pouvoir le modifier en fonction des besoins. «Eviter l effet tunnel est une règle d or pour la conception de VLDB orienté BI. Il est indispensable de connaître le cycle de déploiement dès le démarrage du projet» explique Manuel Sevilla, Architecte BI chez Capgemini. La plupart des projets informatiques traditionnels sont présentés par un enchaînement linéaire de 7 étapes, dit de «cycle en V». Cette méthode a pour but de présenter les processus et les outils, mais ne fait pas suffisamment apparaître les interactions entre les acteurs, facteur clé de réussite d un projet BI. Considéré par beaucoup comme l expert mondial de la Business Intelligence, Ralph Kimball a défini précisément les modules méthodologiques participant au cycle de vie d un projet BI, à savoir : L analyse des besoins (étude préalable) Les données (modélisation dimensionnelle, modèle physique des données, définition des étapes de chargement du data warehouse ) La technologie (définition de l architecture technique, choix et installation des outils) L application (spécification de l application, développement de l application utilisateur) Le déploiement La maintenance L évolutivité (scaleability) du projet est importante à prendre en compte. Les projets évoluent très vite en terme de besoins et il faut pouvoir garantir l évolutivité de la solution de bout en bout, notamment en adoptant une méthode de modélisation modulaire. «En revanche lorsqu un lot du projet est démarré, il ne doit plus évoluer au risque de ne pas tenir les délais et de générer de l insatisfaction auprès des utilisateurs» explique Manuel Sevilla. itpro.fr 9

P A R T I E 2 SQL SERVER 2005 : HP INTEGRITY L'ALLIANCE DES TECHNOLOGIES MICROSOFT, HP ET INTEL POUR LES PROJETS VLDB Nombreuses sont les entreprises qui ont mis de côté, voir repoussé leurs projets décisionnels d entrepôts de données pour des raisons de complexité de mise en œuvre, de maintenance, de manque de budget L alliance des technologies Microsoft et HP permet de bâtir des solutions complètes décisionnelles, de data warehouse et de Business Intelligence qui n ont rien à envier au monde du mainframe en termes de sécurité et de fiabilité. Des architectures hautement évolutives, qui répondent aux attentes de montées en charge des VLDBs, avec une réelle garantie de SLA >> Par Catherine China 10 WHITE PAPER VERY LARGE DATABASE

La mise en œuvre de VLDB nécessite sur le plan du système d information, des configurations matérielles et logicielles adaptées. Dans sa version 2005, SQL Server a franchi un cap décisif : permettre la gestion de fortes volumétries de données au renfort de ses mécanismes évolués de parallélisme (parallélisation des requêtes) de compression de données, de partitionnement de tables, et grâce à une architecture qui garantit la totale disponibilité des données (database mirroring). Côté hardware, les VLDBs nécessitent la mise en œuvre de plates-formes hautement disponibles, capables de s adapter à la montée en charge de la volumétrie (parallélisation des requêtes et du traitement des E/S, répartition des données, bande passante E/S imposante) En moyenne, un entrepôt de données provoque le doublement du volume des données opérationnelles pendant les 12 premiers mois, et le décuplement de l entrepôt de données lui-même pendant les 18 premiers mois. Partant de ce constat, mieux vaut opter pour une architecture à la fois évolutive et performante. Reste que les projets de Business Intelligence n impactent pas seulement le système d information (IT). Par nature transverses et orientés «métiers», ils posent également d importants défis à l activité même de l entreprise. Côté utilisateur, le système d information décisionnel doit être rapide, facile à mettre en œuvre, offrir des informations en temps réel et ciblées, être capable de faire face à un nombre croissant d utilisateurs, en garantissant des temps de réponses quelle que soit la complexité des requêtes. L architecture SQL Server 2005 couplée à l offre de serveurs HP Integrity basée sur les processeurs Intel Itanium permet de répondre à ces objectifs clés à la fois techniques et métiers, pour supporter des projets de VLDB orientés Business Intelligence. le nécessaire choix d architecture dite en «scale in», en lieu et place d architectures de «scale up» ou de «scale out». En termes plus simples, les serveurs standard HP en scale up font que l évolutivité verticale des serveurs s effectue par l accroissement des capacités internes de la machine. Pour les architectures de type «scale out», l évolutivité est dite horizontale par multiplication de serveurs en parallèle. Avec le scale >> PERFORMANCE ET ÉVOLUTIVITÉ SONT LES MAÎTRES MOTS DES PROJETS DE VLDB BI up, les coûts engagés à l achat, ainsi que la faible utilisation au départ en freinent son adoption : le scale out, voit le budget initial de la configuration augmenter en fonction du nombre de serveurs à mettre en place, et à gérer, tout en ayant une utilisation unitaire du serveur qui reste faible. Avec le scale in, les coûts sont répartis au fur et à mesure des besoins, l utilisation est rationalisée, ainsi que les coûts de gestion et de licenses, le serveur peut supporter plusieurs systèmes d exploitation. Cette solution est évolutive. Dans cette logique de scale in, on peut certes adopter différentes stratégies de déploiement de serveurs pour la BI, celle qui demeure la plus cohérente par rapport à ce modèle, demeure la stratégie de consolidation. Sur un même serveur HP, on pourra ainsi mettre en œuvre l ensemble des modules de SQL Server 2005 : entrepôt de Du Scale out au Scale In Performance et évolutivité sont les maîtres mots des projets de VLDB BI. Sur le terrain, cela se traduit par Figure 1: Evolution des entrepôts de données en bande passante E/S itpro.fr 11

P A R T I E 2 SQL SERVER 2005 : HP INTEGRITY Figure 2 : Différentes stratégies de serveurs pour BI données relationnel, l ETL (Integration Services) base de données multidimensionnelle (OLAP) et même le moteur de base de données opérationnelles OLTP. Applications et bases de données peuvent ainsi se trouver consolidées sur un seul et même système, réduction du TCO à la clé. Une base de données à capacité ajustable est aussi un moyen économique de concevoir des entrepôts de données locaux (datamarts) ou des data warehouses, accessibles par de multiples serveurs La réponse HP Integrity / Intel Itanium / SQL Server 2005 pour la gestion de VLDB - Une plate-forme adaptée pour le partitionnement Pour supporter les projets de très grandes bases de données, l association HP Integrity (Intel Itanium) et SQL Server 2005 apparaît comme la meilleure réponse notamment pour la gestion des bases de données partitionnées, partagées et à capacité ajustable (scalability). Le partitionnement des bases de données et plus précisément des tables et des index associés est une fonctionnalité capitale en matière de gestion d un volume de données important. L avantage du partitionnement est de pouvoir exécuter des requêtes aussi bien sur la totalité de la table que sur une partition, ce qui permet de réduire considérablement le nombre de tuples en jeu. Un des intérêts majeurs est de permettre l exécution des requêtes en parallèle sur les différentes partitions. Ce gain de performance peut être crucial dans de nombreux contextes où les temps de réponses ne peuvent excéder quelques secondes, ce qui est généralement le cas de l OLTP sur de grands volumes. Sur les très grandes bases de données, les opérations de maintenance (copies, sauvegardes, restaurations, défragmentation, etc.) sont lourdes à gérer. Le partitionnement procure à l administrateur un niveau de granularité plus fin que la table. Par exemple, si un problème survient à l intérieur d une partition, il n est pas nécessaire de restaurer la totalité de la table, voire de la base de données, mais uniquement la partition incriminée. L autre bénéfice est de procurer davantage de souplesse pour gérer Les Processeurs Intel Itanium Les serveurs équipés des processeurs Intel Itanium 2 double cœur série 9000 affichent une flexibilité et une évolutivité optimales alliées à une fiabilité avérée. Leurs performances confirmées, leur rendement électrique et leur architecture standardisée concourent à abaisser le coût de revient et font d'eux une solution alternative économique par rapport aux machines propriétaires d architecture RISC. Ils sont prévus pour prendre en charge les applications métier les plus stratégiques et sont les compléments idéaux à SQL 2005 pour supporter les très grandes bases de données et les applications de types ERP/SCM. - Parallélisme accrue : L architecture EPIC combinée à la technologie Hyper-Threading offre un parallélisme multi niveau massif optimal pour les applications qui manipulent intensément des données. Les serveurs ainsi équipés apportent une réserve de puissance pour accéder rapidement à l'information et prendre des décisions en temps réel et apporter une extrême réactivité pour les calculs complexes. - Performances et évolutivité optimales : Avec des configurations pouvant prendre en charge jusqu'à 512 processeurs, des ressources massives intégrées à la puce dont 24 Mo de mémoire cache niveau 3, les services informatiques peuvent augmenter la capacité de traitement en fonction des besoins, sans être limités. - Disponibilité et continuité de service : Intégrant de multiples fonctionnalités de gestion des erreurs en mémoire cache et de virtualisation, les processeurs Intel Itanium offre la meilleure solution pour les applications critiques nécessitant une haute disponibilité et une continuité de service optimisée.» 12 WHITE PAPER VERY LARGE DATABASE

Pourquoi choisir une plate-forme HP Integrity/SQL Server 2005? Besoin d implémenter des data warehouses de moyennes et grosses volumétries au moins supérieur à 600 Go Besoin de répondre à la montée en charge rapide de son entrepôt de données à moindre coût Besoin de consolider les composants d une architecture de Business Intelligence sur un même serveur (SGBDR, OLAP, ETL, Reporting) Besoin d un système qui puisse garantir des temps de réponse et un SLA même avec un grand nombre d utilisateurs et de requêtes simultanées (parallélisation des requêtes, gestion du parallélisme hardware, partitionnement, gestion des I/O) Volonté de consolider des datamarts existants au sein d une architecture unique de data warehouse performante, facile à gérer, et permettant de réduire les coûts de maintenance liés à l exploitation de multiples silos décisionnels. Processeurs Intel Itanium : évolutivité, scalabilité. les inévitables accroissements de volume. Ainsi, lorsque la taille d une table croît, rien n oblige l agrandissement de la taille des partitions ; l administrateur peut simplement décider d augmenter le nombre de partitions. Il garde ainsi une plus grande maîtrise des charges en ressources sur les partitions existantes. Dans le cadre d un projet de VLDB BI, les avantages du partitionnement sont indéniables : meilleur temps de réponse à l exécution des requêtes, process optimisés liés à l ETL, génération plus rapide de cubes OLAP, période de maintenance réduite Grâce à leurs architectures modulaires basées NUMA Non Uniform Memory Access - les serveurs HP Integrity Intel Itanium sont particulièrement adaptés : applications et bases de données peuvent être installées sur différentes partitions permettant ainsi une meilleure granularité dans le cas de charge de travail complexe. Par ailleurs, sécurité oblige, elles permettent d isoler les applications les plus sensibles et d autoriser des opérations de maintenance sans pour autant arrêter tout le système. Côté SQL Server, les mécanismes de partitionnement ont nettement été améliorés dans la version 2005, permettant un chargement rapide des données, la maintenance simplifiée de tables très volumineuses, la possibilité d ajouter des données à la volée dans une partition, ou encore d assurer la reconstruction totale d une partition. - Une plate-forme adaptée à la gestion du parallélisme Pour gérer de très grandes bases de données, le support du parallélisme est également très important car il permet de réduire considérablement les temps d exécution en traitant les requêtes en parallèle. Ceci est possible à trois conditions : La plate-forme matérielle doit être multi-processeurs. Le SGBD doit être conçu pour gérer le parallélisme. La base de données doit être partitionnée (non monolithique). L architecture NUMA des serveurs HP Integrity, les processeurs Intel Itanium avec leur jeu d instructions EPIC (Explicitly parallellism Instruction Computing) couplés aux mécanismes évolués de parallélisme de SQL Server 2005 permet de traiter massivement des instructions en concomitance, ou encore de paralléliser les plans d exécution de SQL Server. Dans un contexte d entrepôt de données (data warehousing) cette plate-forme est capable de supporter simultanément des process d alimentation et de restitution de l ETL. Les process de chargement de données se réalisent en effet dans des fenêtres de chargement de plus en plus réduites, alors que d un autre côté, les utilisateurs finaux insistent pour que leurs requêtes ne soient pas impactées par l indisponibilité de l entrepôt de données. SQL Server 2005 permet d effectuer des requêtes en parallèle en vue d optimiser l exécution des requêtes et d indexer les opérations pour les ordinateurs qui disposent de plus d un processeur. Du fait que SQL Server opère de cette manière en utilisant plusieurs processus (threads), l opéra- itpro.fr 13

P A R T I E 2 SQL SERVER 2005 : HP INTEGRITY Figure 3: Plate-forme NUMA tion est effectuée rapidement et efficacement. Au cours de l optimisation des requêtes, SQL Server examine si ces requêtes ou ces opérations d indexation pourraient bénéficier d une exécution en parallèle. Pour ces requêtes, SQL Server insère des opérateurs d échange dans le plan d exécution qui regroupe la gestion du traitement, la redistribution des données et le contrôle des flux. - Une plate-forme à haute disponibilité et tolérance de panne La mise en place de VLDBs et de data warehouses impose de fortes contraintes en terme de tolérances de panne, tolérances qui doivent prendre en compte l ensemble des ressources machines du SID qu il s agisse de l ETL, de la base de données, du système OLAP et de reporting. Dans ce contexte, le choix d une architecture serveur à haute disponibilité est une condition sine qua non. C est le cas de la gamme de serveurs HP Integrity, qui offre la fiabilité, la disponibilité et l évolutivité (les processeurs Intel Itanium permettent d'avoir des plateformes contenant jusqu à 64 sockets, 128 cœurs et 2 To de capacité mémoire) des architectures RISC (mainframe) en environnement Microsoft. «Les systèmes sont basés sur le Intel Machine Check Architecture (architecture destinée aux environnement dits «business critical» et grand nombre de composants sont redondants, remplaçables en fonctionnement (ventilateurs, alimentation, horloge ). Des mécanismes de détection et correction d erreurs (Processeur Intel Itanium, mémoire, bus d interconnexion, PCI, ), ainsi que des fonctionnalités d isolation des fautes et de diagnostiques, font partie intégrante de ces machines» assure Laurence Grizaud, consultante technique Windows Integrity Engineering chez HP. Des plates-formes qui s adressent notamment aux clients du monde mainframe, exigeants en termes de sécurité et de fiabilité, mais souhaitant s ouvrir au monde de Windows et de SQL Server. Côté SQL Server, la sécurité a également été très prise au sérieux. La version 2005 permet la mise en place de solutions de haute disponibilité, sans ajout de composant externe. Elle autorise la mise en cluster de l ensemble des services de la base de données (ETL, services OLAP, reporting). La technologie de «Scalable Shared Database» permet de partager une base de données en lecture entre plusieurs instances actives de SQL Server 2005, très utile pour répondre aux besoins de reporting. Le SP1 de SQL Server 2005 a par ailleurs introduit la mise en miroir des bases de données (database mirroring) comme alternative au «share everything», pour optimiser la disponibilité des bases de données. Cette fonctionnalité permet d obtenir une base miroir en transférant les fichiers journaux des transactions d un serveur vers un autre de manière continue et de permettre aussi un basculement automatique des applications clientes inférieur à 10 secondes, sans perte de données. Plus un entrepôt de données est utilisé (en alimentation, comme en restitution) plus les besoins de haute disponibilité augmentent. L intérêt de l architecture HP Integrity / SQL Server 2005 est justement de permettre aux entreprises de répondre à la montée en charge rapide de leurs VLDBs, tout en leur garantissant la disponibilité de leurs données et applications. - Une plate-forme hautement performante et évolutive Dans le cadre de projet de data warehouse et de VLDB, l ETL doit permettre de rapatrier des données issues de multiples systèmes opérationnels, répartis dans l entreprise. En entrée, l alimentation des flux nécessite de respecter des plages horaires définies, en sortie, l accès simultané à de nombreux flux (reporting, analyses) nécessite de garantir des temps de réponses. D où l intérêt de mettre en œuvre une architecture performante dédiée sur le serveur d entrepôt de données, 14 WHITE PAPER VERY LARGE DATABASE

tant en connecteurs I/O, qu en ressources CPU. Pour interconnecter le système opérationnel au système décisionnel, assurer le chargement d un volume de données important, et leur restitution, l ETL doit être hébergé par un système hardware qui offre une très grande capacité de traitement en entrée/sortie. Sur les systèmes HP Integrity, jusqu à 192 canaux d entrée/ sortie indépendants sont disponibles. Ce qui permet d obtenir des résultats probants lors du chargement massif de données (bulk load) ou lors du balayage complet d une table (Full table Scans). Selon les derniers benchmarks, les systèmes HP Integrity /SQL Server 2008 sont capables de traiter en E/S jusqu à 20 go/s. Comme le souligne Bertrand Audras, Architecte MTC, «Réussir la mise en œuvre d un VLDB, c est non seulement choisir une infrastructure adaptée comme celle proposée par HP, mais c est aussi avoir une approche d ensemble de la problématique, de la conception au déploiement et surtout sans oublier la gestion au quotidien des données. L objectif est de garantir la maîtrise sur les données et le contrôle sur la qualité de service aux utilisateurs. Pour répondre à ce besoin de conception d architecture, Microsoft a mis en Figure 4: Niveau de gestion de ressources SQL avec Soft NUMA place le Microsoft Technology Center dont la vocation est de mener des revues d architecture afin de couvrir l ensemble des enjeux VLDB, et aussi de valider en conditions réelles les choix technologiques sur les plateformes mises à disposition au MTC Paris.» En résumé, l alliance des technologies SQL Server / HP Integrity / Intel est particulièrement adaptée à la construction de VLDBs et de data warehouses, dans le cadre de projets décisionnels et de Business Intelligence, impliquant outre la gestion d une importante volumétrie de données, des chargement performants et continus de données, type OLTP, et des restitutions quasi temps réel d analyses et de reporting. SQL Server 2008/ VLDB Evolution de la version 2005, Microsoft SQL Server 2008 confirme le positionnement de la plateforme Microsoft sur la gestion des très gros volumes de données d entreprise. Administration, design, performance, voici quelques exemples d amélioration ou de nouveautés permettant de gérer plus facilement les VLDB avec MS SQL Server 2008: X5 des volumes gérés pour la prise en charge des bases de données à 100 Teras octets Amélioration du moteur de requête avec notamment l ajout d optimisations sur la prise en compte des schémas en étoile, nouvelle commande T-SQL MERGE Amélioration des temps de requêtes sur les tables partitionnées Ressource Governor : pour arbitrer les ressources système sur des scénarios concurrents Nouveau mécanisme d administration par règle (DMF): pour une meilleure montée en charge du travail des administrateurs quand il s agit de gérer un très grand nombre de bases Mécanisme d audit amélioré tant sur les composants relationnels que décisionnels Possibilité de mettre en ligne plusieurs instances Analysis Services (scaling out) sur les mêmes données pour une meilleure montée en charge Compression des données : pour un gain de place précieux sur les gros volumes (Réduction du stockage jusqu à facteur 7) et sur les sauvegardes Change Data Capture : Détection des modifications au niveau de la base de données qui peut avoir un intérêt certain dans la réduction du temps de chargement des gros datawarehouse» itpro.fr 15

P A R T I E 3 TÉMOIGNAGE PREMIER BANKCARD PREMIER BANKCARD GÈRE SES 5 MILLIONS DE CLIENTS AVEC UN ENTREPÔT DE DONNÉES SQL SERVER 2005 Pour l un des premiers fournisseurs de cartes de crédits aux Etats Unis, le droit à l erreur n existe pas. Mieux gérer sa relation client, limiter les comptes défaillants d un côté et fidéliser de l autre, donner à tous les collaborateurs une seule version de la vérité : Autant d objectifs qui ont pu être atteints grâce à la mise en œuvre d une solution d entrepôt de données construite autour de SQL Server 2005 et de plates-formes HP sur base de processeurs Intel Itanium. Récit d un succès. >> Par Catherine China 16 WHITE PAPER VERY LARGE DATABASE

Spécialisé sur le marché des populations à risque, PREMIER Bankcard fait partie des principaux fournisseurs de cartes de crédit de type VISA et MasterCard aux Etats-Unis. Ses cartes de crédits sont actuellement utilisées par environ 5 millions de clients américains et la banque affiche un taux de croissance annuelle d environ 20 %. A l origine de cette réussite? Une stratégie de développement visant le marché de second ordre : les clients sont jugés solvables en dépit de leurs notations de crédits inférieures au seuil de risque accepté par les autres émetteurs de cartes crédits. Comme la plupart des sociétés de crédit, PREMIER Bankcard doit à la fois veiller à satisfaire ses clients, mais aussi à réduire le nombre de comptes en défaut. Pour la banque, il ne s agit pas seulement de traiter les défaillances existantes. Pour réussir à diminuer les comptes débiteurs, PREMIER Bankcard doit aussi éviter tous retards sur les délais de paiement. «L un de nos objectifs pour y parvenir consistait d une part à centraliser les informations, et à offrir à tous les membres de l entreprise un seul et même état des lieux, une vue unique du client, pour leur permettre de travailler à un objectif commun» explique Ron Von Zanten, Directeur du projet Business Intelligence. Jusqu en 2003, l état des lieux du système d information décisionnel de la banque mettait en relief de nombreuses lacunes. Les conseillers accédaient à des données sans cohérence sur des bases hétérogènes, réparties en silos dans l entreprise. Le reporting se limitait à du tableur Excel. Ils ne disposaient pas de vision unifiée à 360 de leurs clients et autant dire que la direction ne pouvait pas se servir des données émises par le SID pour piloter l activité efficacement. Les nouveaux enjeux en matière de décisionnel sont de taille. Il s agit de manière prioritaire, de résoudre les problèmes de cohérence de données, de casser cette architecture décisionnelle en silo, pour offrir à tout un chacun, une seule version de la vérité. Autre objectif de poids : permettre une mise à disposition des données à J+ 1 et non plus à J+30. Pour la banque, il s agit également de définir un nouveau système décisionnel qui lui permette de suivre l évolution de son activité, un système simple d utilisation et qui soit de surcroît auditable. Du côté des administrateurs, les attentes sont également fortes. Ils sont en quête d un système décisionnel totalement centralisé, intégrant un ETL, offrant un outil de modélisation standard et des fonctionnalités de qualité de données. Un système qui puisse s intégrer à l existant assurant une rétro alimentation de la base OLTP (1,5 To) et bien entendu avec des objectifs affichés de performance et de maîtrise des coûts! Cette équation technico fonctionnelle n est certes pas simple à résoudre au regard des solutions de data warehouse existantes sur le marché. Aussi, le choix de la solution HP/SQL Server 2005 ne s est pas réalisé uniquement sur des critères technologiques mais surtout très fortement >> «GRÂCE AU PARTITIONNEMENT DE TABLE ET À L INDEXATION EN LIGNE, NOUS AVONS PU RÉDUIRE NOS TEMPS DE MAINTENANCE DE 80%» sur des critères d intégration avec le système transactionnel existant, de flexibilité de la solution et cerise sur le gâteau, de la qualité du service support apporté par le binôme HP/ Microsoft. Un projet géré de main de maître via une approche itérative Le projet de data warehouse de PREMIER Bankcard a débuté par la constitution d un comité de pilotage composé de fonctionnels et de responsables IT. Passée la définition d objectifs métiers très clairs, décision fut prise de décomposer le projet en lots et de s en tenir à la livraison du projet sur des spécifications figées, de manière à tenir les délais. Côté mise en œuvre, c est l approche «bottom up» qui a été retenue, ainsi que la mise en place d une politique de «Master Data Management» pour éviter que le itpro.fr 17

P A R T I E 3 TÉMOIGNAGE PREMIER BANKCARD Figure 1: Infrastructure BI de PREMIER Bankcard data warehouse ne se construise, ni n évolue sur des données non fiables. La solution décisionnelle repose sur la conception d une architecture d entrepôt de données unique et centralisé de 10 To (80 tables et 850 dimensions). Le chargement des données via l ETL «Integration Services» se réalise à partir de 16 sources différentes (XML, Mainframe, Sybase ) soit 13 Go/jour en 109 lots SSIS quotidiens et 14 chargements mensuels. Une fois les données chargées, elles passent par le process de qualité et d audit des données de l ETL permettant le recyclage des rejets et la génération d une piste d audit. Les données ainsi nettoyées sont ensuite agrégées dans le data warehouse. Puis en fonction des besoins utilisateurs, ces données sont soit restituées sous la forme de reporting simple, soit elles viennent alimenter une base multidimensionnelle OLAP pour la production de rapports d analyses plus poussés. Le modèle push déclenché par l'etl «SQL Server Integration Services» permet aux données d être immédiatement transférées dans une partition d Analysis Services, sans stockage intermédiaire, pour un rafraîchissement des cubes et des rapports beaucoup plus rapide. Entre 2003 et 2007, la volumétrie du data warehouse de PREMIER Bankcard a été multiplié par 4 pour atteindre les 10 To. Un accroissement exponentiel qui a nécessité en 2006 le benchmarking d un système HP Superdome pour garantir la montée en charge. SLA oblige, PREMIER Bankcard a également mis en œuvre des tableaux de bord de contrôle des process de chargement (pour vérifier la capacité de la fenêtre de chargement) et de contrôle des process de temps de réponse du data warehouse à des requêtes (estimés en millisecondes) pour veiller à satisfaire les utilisateurs finaux. Du reporting classique, à l analyse multidimensionnelle La clé de voûte d un système décisionnel demeure la phase de reporting et d analyse. Côté reporting, l objectif de PREMIER Bankcard était de permettre à l ensemble de ses collaborateurs, d accéder facilement à des rapports prédéfinis, au travers d une interface conviviale. Aujourd hui, 200 utilisateurs peuvent en mode Web, en self service sur le portail de la société ou via e.mail, accéder aux rapports développés par des fonctionnels et des techniciens, pour mieux servir les clients ou optimiser les opérations internes. La solution de reporting mise en place (Reporting Services) accepte même la gestion d utilisateurs occasionnels tels que les commissaires aux comptes et l intégration avec l annuaire d entreprise. Reporting Services permet dès le chargement, la génération automatique de rapport à J+1. 18 WHITE PAPER VERY LARGE DATABASE

Figure 2: Reporting en self service web Composante essentielle du système de Business Intelligence, l infrastructure multidimensionnelle OLAP «SQL Server Analysis Services» offre de son côté l accès à un plus grand jeu de données, la gestion des analyses et des simulations beaucoup plus poussées, en seulement quelques jours, mais aussi la gestion prédictive de temps de réponse, qualité de service oblige. Analysis Services permet d aider les utilisateurs outre à analyser les données historiques, à découvrir des corrélations ou des modèles de comportements entre les données : le système permet de modéliser jusqu à 850 dimensions (analyse par avance de trésorerie, analyse de crédit par assurance vie, analyse du montant des achats sur cartes de crédit etc. ). «L un de nos départements financiers avait ainsi besoin de prendre des décisions sur les capacités de crédit octroyées aux clients. Et de répondre à la question : «que se passerait-il si nous réduisions d un point le taux d approbation de crédit, quel serait l impact sur notre base de qualification clientèle? Les fonctionnalités de croisement des données sont essentielles à ce type d analyse et cela nous aurait pris des mois pour répondre à cette question auparavant» explique ainsi Ron Von Zanten, pour illustrer la puissance d analyse fournie par Analysis Services. L intégration Analysis Services et d Excel permet d étendre encore le périmètre d utilisation du data warehouse à une plus large population d utilisateurs. A l heure du bilan : un ROI de 400 % Projet totalement critique, le data warehouse de PREMIER Bankcard est devenu, au fil du temps, le système de stockage central officiel de l information. Le retour sur investissement avoisine les 400 %. Une réussite qui tient à plusieurs facteurs. Le data warehouse de PREMIER Bankcard en chiffres... SQL Server 2005 64 bits Partitionnement par mois Backup et archivage par mois (read only file grp) 100 instances de base HP Integrity RX8640 16 processeurs Intel Itanium 2 séquence single core, 64GB RAM Volumétrie Baie HP StorageworksXP24000, 178 disques 10 To dans le data warehouse à la fin 2007 1.5 To dans la base OLTP 20 To au total itpro.fr 19

P A R T I E 3 TÉMOIGNAGE PREMIER BANKCARD Figure 3: Reporting en self service web (suite) D une part, le choix d une méthodologie de projet pragmatique, par lot, pour gagner en visibilité et tenir les délais. Autre facteur clé de réussite, que celui de l implication du sponsor et de la constitution d un comité de pilotage mixant intelligemment compétences fonctionnelles et techniques. Enfin, le sous projet de Master Data Management a été essentiel et garant de la qualité et de la cohérence des données restituées. Dans le futur, PREMIER Bankcard prévoit une intégration encore plus forte entre son système transactionnel (OLTP) et son data warehouse. La banque réfléchit à la mise en œuvre d une architecture orientée services (SOA) pour favoriser l intégration applicative. Elle souhaite également bénéficier d un décisionnel alimenté au fil de l eau, à l image d un activewarehouse, promesse qui pourra être tenue grâce aux fonctionnalités de cache proactif de SQL Server 2005 et à l architecture Mainframe Windows des systèmes HP Integrity. D ici les 5 prochaines années, le data warehouse de PREMIER Bankcard pourrait atteindre les 30 To. Une évolutivité assurée par la migration à la version 64 bits de SQL Server 2005 et le choix de serveurs HP Integrity (Itanium2). «Nous n aurions pas été capables de gérer notre entrepôt de données, sans les bénéfices de très grandes capacités de gestion mémoire apportée par la version 64 bits de SQL Server.» Une performance qui se fait également largement ressentir pour la gestion de la base OLTP, quand il s agit de traiter 2700 requêtes utilisateurs en simultané! Les bénéfices de la plate-forme SQL Server 2005/HP/Intel - Vision à 360 du client via un data warehouse centralisé et unique - Système supportant l évolution de l activité de la banque et supportant la montée en charge de la volumétrie, avec un bon niveau de SLA (temps de chargement, temps de restitution ) - Système décisionnel démocratique et flexible accessible à tous les profils d utilisateurs (du simple reporting de gestion, aux experts des simulations bancaires via des analyses OLAP) - Système offrant une mise en œuvre des standards ETL, de modélisation, et de déploiement - ETL de qualité offrant le chargement rapide de données de 16 sources différentes avec un vrai système de data Master Management à la clé (contrôle de la qualité des données) - Système décisionnel complet totalement intégré, offrant un ROI de 400 % sur 4 ans. 20 WHITE PAPER VERY LARGE DATABASE