Pratiques «Lean» data warehouse



Documents pareils
Gestion des données de test à des fins de sécurité et de conformité

ORACLE TUNING PACK 11G

TRANSFORMEZ VOTRE INFRASTRUCTURE DE BASE DE DONNEES

DOSSIER SOLUTION : CA RECOVERY MANAGEMENT

IBM CommonStore for SAP V8.4 fournit un nouveau support complet pour ILM à partir de la gestion de la rétention des données SAP

Renforcez la flexibilité et la réactivité de votre entreprise Dotez votre entreprise d'un système de gestion des données de référence éprouvé

Symantec Enterprise Vault et Symantec Enterprise Vault.cloud

Faire le grand saut de la virtualisation

Fiche technique: Archivage Symantec Enterprise Vault Stocker, gérer et rechercher les informations stratégiques de l'entreprise

Chapitre 9 : Informatique décisionnelle

Simplifier la gestion de l'entreprise

ManageEngine IT360 : Gestion de l'informatique de l'entreprise

La solution IBM Rational pour une ALM Agile

Économies d'échelle Aide à l'intégration Mises à niveau Infrastructure et sécurité de niveau international... 7

CA ARCserve Backup. Avantages. Vue d'ensemble. Pourquoi choisir CA

Altiris Asset Management Suite 7.1 from Symantec

Comment répondre aux enjeux du Big Data?

Fiche technique: Archivage Symantec Enterprise Vault for Microsoft Exchange Stocker, gérer et rechercher les informations stratégiques de l'entreprise

Service de réplication des données HP pour la gamme de disques Continuous Access P9000 XP

IBM Software Big Data. Plateforme IBM Big Data

SafeNet La protection

LIVRE BLANC. Meilleures pratiques en matière de gestion des données de test

Comment mettre en oeuvre une gestion de portefeuille de projets efficace et rentable en 4 semaines?

Optimisation WAN de classe Centre de Données

Examen professionnel. Informatique, système d information. Réseaux et télécommunications

En synthèse. HVR pour garantir les échanges sensibles de l'entreprise

Symantec Protection Suite Enterprise Edition Protection éprouvée pour les terminaux, la messagerie et les environnements Web

DÉVELOPPEMENT INFONUAGIQUE - meilleures pratiques

Article 2 : Conseils et meilleures pratiques pour gérer un cloud privé

Fiche technique: Archivage Symantec Enterprise Vault Stocker, gérer et rechercher les informations stratégiques de l'entreprise

Module 0 : Présentation de Windows 2000

Gestion du centre de données et virtualisation

L'ensemble de ces tendances présente de nouveaux challenges pour les départements IT de l'entreprise. Plus précisément :

IBM CloudBurst. Créer rapidement et gérer un environnement de Cloud privé

Tirez plus vite profit du cloud computing avec IBM

Bénéficiez d'un large choix d'applications novatrices et éprouvées basées sur les systèmes d'exploitation i5/os, Linux, AIX 5L et Microsoft Windows.

Base de données MySQL

Brochure Optimisez les relations. HP Exstream pour les services financiers

PRINCIPES DE BASE DE LA SAUVEGARDE POUR LA PROTECTION DE VOS DONNÉES ET DE VOTRE ACTIVITÉ

FICHE TECHNIQUE DE RÉDUCTION DES COÛTS AVEC LES COMMUNICATIONS UNIFIÉES

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

ORACLE DIAGNOSTIC PACK 11G

Cisco Unified Computing Migration and Transition Service (Migration et transition)

Documentation de produit SAP Cloud for Customer (novembre 2013) Nouveautés de SAP Cloud for Customer pour les administrateurs

Déduplication des données : un élément essentiel de votre stratégie de protection des données

Votre guide 2013 pour la gestion des déplacements et frais professionnels

Microsoft Dynamics AX 2012 Une nouvelle génération de système ERP

IBM Cloudant Data Layer Local Edition

Réduisez vos activités de maintenance SAP pour vous concentrer sur la valeur ajoutée

Avantages de l'archivage des s

Comment réduire vos coûts en suivant les meilleures pratiques. grâce à la simplification de la gestion informatique

BASE DE DONNÉES ORACLE 11G SUR LE SYSTÈME DE STOCKAGE PILLAR AXIOM. Livre blanc publié par Oracle Novembre 2007

Licences Windows Server 2012 R2 dans le cadre de la virtualisation

Présentation de l'architecture QlikView. Livre blanc sur la technologie QlikView. Date de publication : octobre

DOSSIER SOLUTION : CA ARCserve r16. Recours au Cloud pour la continuité d'activité et la reprise après sinistre

Suite IBM Tivoli IT Service Management : comment gérer le système d information comme une véritable entreprise

De nouveaux horizons pour votre Datacenter

Siemens Grâce aux documents intelligents, un leader mondial de la haute technologie augmente l efficacité et la précision de ses employés.

Axe de valeur BMC Identity Management, la stratégie d optimisation de la gestion des identités de BMC Software TM

Qu'est-ce que le BPM?

Vous avez des problèmes d'impression réseau? UniPrint. est la solution qu'il vous faut. Aperçu du produit

Symantec Control Compliance Suite 8.6

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Service Cloud d'hitachi pour le stockage de fichiers dans un système multi-classe privé

La gestion des données de référence ou comment exploiter toutes vos informations

IBM SPSS Direct Marketing

Solutions McAfee pour la sécurité des serveurs

Accélérez le projet de Cloud privé de votre entreprise

Clouds et plates-formes multiples

Guide de configuration de SQL Server pour BusinessObjects Planning

Créez le cloud privé dont vous avez besoin avec votre infrastructure existante

Importance de l'innovation déployée par les fournisseurs de systèmes, de services et de solutions en vue de définir des offres holistiques

Chapitre 1 : Introduction aux bases de données

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement

Virtualisation des postes de travail

Gestion de la mobilité en entreprise (EMM, enterprise mobility management)

portnox pour un contrôle amélioré des accès réseau Copyright 2008 Access Layers. Tous droits réservés.

Enterprise Intégration

Clients et agents Symantec NetBackup 7

CA ARCserve Backup r12

Guide d Intégration PPM et ERP:

1 JBoss Entreprise Middleware

IBM BigInsights for Apache Hadoop

La sécurité du «cloud computing» Le point de vue de Microsoft

CA ARCserve Backup Option NAS (Network Attached Storage) NDMP (Network Data Management Protocol)

ARTEMIS VIEWS TIME REPORTING. Avec TrackView

Solution de gestion des journaux pour le Big Data

R É S U M É É T A T D E S L I E U X. L e s d é f i s a c t u e l s d e s P M E e n m a t i è r e d e d o n n é e s. Sponsorisé par : Mozy

Optimisation de la gestion de la sécurité avec McAfee epolicy Orchestrator

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

Du 10 Fév. au 14 Mars 2014

SolarWinds Virtualization Manager

Snaphot stratégique. Les atouts d une stratégie unifiée de sauvegarde et d archivage. Sageza Ltd Mars Clay Ryder et Rob Kidd

UPSTREAM for Linux on System z

Livre blanc. Accroître l'agilité et réduire les coûts liés au cloud computing privé et hybride

Conception d une infrastructure «Cloud» pertinente

Guide Dell Alimentation et refroidissement

La protection de la vie privée à l'ère du «cloud computing» Le point de vue de Microsoft

Prestataire Informatique

Transcription:

Pratiques «Lean» data warehouse Optimisez vos data warehouses grâce à une meilleure visibilité sur l'utilisation de vos données LIVRE BLANC

Le présent document contient des données confidentielles et exclusives, ainsi que des informations constituant des secrets commerciaux («Informations confidentielles») d'informatica Corporation. Il ne peut être copié, distribué, dupliqué ni reproduit de quelque manière que ce soit, sans l'autorisation écrite préalable d'informatica. Même si tout a été mis en œuvre pour garantir que les informations contenues dans ce document sont exactes et exhaustives, il est possible qu'il contienne des erreurs typographiques ou des inexactitudes techniques. Informatica ne saurait être tenu responsable des pertes résultant de l'utilisation d'informations figurant dans ce document. Les informations contenues dans le présent document sont susceptibles d'être modifiées sans préavis. L'intégration des attributs des produits étudiés dans ce document dans une quelconque version ou mise à jour d'un produit logiciel Informatica ainsi que le calendrier de sortie de ces versions ou mises à jour sont à la seule discrétion d'informatica. Protégé par les brevets américains suivants : 6,032,158 ; 5,794,246 ; 6,014,670 ; 6,339,775 ; 6,044,374 ; 6,208,990 ; 6,208,990 ; 6,850,947 et 6,895,471 ; ou par les brevets américains en instance suivants : 09/644,280 ; 10/966,046 ; 10/727,700. Version publiée en octobre 2012

Livre blanc Table des matières Synthèse...2 La croissance des Big Data et l'explosion de la complexité analytique...4 Des anciens outils de contrôle inadaptés...5 Des pratiques de gestion de data warehouse existantes inadaptées...5 Présentation des pratiques de data warehouse «Lean»...6 Justifier les coûts, établir la priorité des ressources et investir selon leur utilisation....7 Conserver et optimiser les données et processus les plus pertinents...7 Répondre plus rapidement et assurer l'évolutivité et les performances....7 Réduire la taille des instances de production et hors production pour diminuer les coûts....8 Implémentation des pratiques de data warehouse «Lean»...8 Développer des indicateurs de performance clés permettant de révéler l'utilisation et la consommation au sein de l'entreprise...8 Identifier les données inutilisées et inutiles pour rationaliser les charges de données et archiver les données inactives.............................. 8 Optimiser les bases de données en fonction de l'utilisation des données...9 Réduire la complexité pour améliorer l'évolutivité et les performances...10 Réduire le volume des instances hors production et diminuer encore les coûts...10 Solutions Informatica de data warehouse «Lean»... 11 Informatica Data Warehouse Advisor...11 Informatica Data Archive....11 Informatica Data Subset....12 Conclusion... 12 Pratiques «Lean» data warehouse : optimisez vos data warehouses grâce à une meilleure visibilité sur l'utilisation de vos données 1

Synthèse Ces dernières années, les avancées technologiques ont révolutionné les entreprises, les structures gouvernementales et les clients. Depuis, les déploiements de data warehouse et d'applications de business intelligence (BI) ne se limitent plus à des services mais s'étendent désormais à l'ensemble de chaque entreprise. Par conséquent, les besoins en données sont insatiables, les volumes de données analytiques augmentent de manière exponentielle et les systèmes de data warehouse composés de centaines de téraoctets, voire de pétaoctets, deviennent la norme. En raison de l'explosion des volumes de données et de l'augmentation de la complexité analytique, les responsables informatiques sont sous pression : ils doivent répondre aux besoins métiers tout en réduisant les coûts associés à la mise à disposition des données. Malheureusement, les responsables de données, les administrateurs de bases de données applicatives, les architectes de données et les responsables d'applications analytiques n'ont pas les outils nécessaires pour obtenir une meilleure visibilité et savoir si les données sont utilisées ou non et plus important encore, découvrir la manière dont les données sont utilisées afin de conserver et d'optimiser les ressources les plus pertinentes. Les data warehouses «Lean» représentent une méthodologie de meilleures pratiques pour obtenir une meilleures visibilité sur l'environnement de data warehouse en contrôlant l'activité métier et l'utilisation des données et en gérant la croissance des volumes de données au sein des data warehouses. Grâce à cette visibilité, les entreprises peuvent réduire les coûts de gestion de données et assurer l'évolutivité de l'infrastructure et des ressources informatiques disponibles. Les principaux objectifs des data warehouses «Lean» sont les suivants : Justifier les coûts, établir la priorité des ressources et investir selon leur utilisation Conserver et optimiser les données et processus les plus pertinents Répondre plus rapidement et assurer l'évolutivité et les performances Les data warehouses «Lean» sont l'un des trois piliers des meilleures pratiques de gestion «Lean» des données et ont pour but de relever les défis associés à la gestion des data warehouses volumineux (voir figure 1). La gestion de données «Lean» est adaptée des pratiques d'industrialisation «Lean» qui mettent l'accent sur l'élimination des gaspillages pour réduire les coûts. Les deux autres piliers de la gestion de données «Lean» ont pour objectif de relever les défis associés à la gestion des applications volumineuses et des grands portefeuilles d'applications. GÉRER LES BIG DATA, RÉDUIRE LES COÛTS, RESPECTER LES NIVEAUX DE SERVICE CONTRACTUELS APPLICATIONS «LEAN» Archiver les données de production Créer des sous-ensembles hors production Améliorer les performances Réduire la maintenance DATA WAREHOUSES «LEAN» Contrôler l'utilisation Identifier les données en sommeil Optimiser l'infrastructure Optimiser les processus PORTEFEUILLES D'APPLICATIONS «LEAN» Retirer les applications héritées Préserver l'accès aux données Éliminer les coûts Conserver les données Améliorer la conformité et la découverte électronique Figure 1 : les trois piliers des pratiques de gestion de données «Lean» 2

Pour obtenir des avantages tangibles, il faut combiner une solution exhaustive de data warehouses «Lean» basée sur le contrôle de l'utilisation à des meilleures pratiques permettant d'analyser l'utilisation des données et de prendre les mesures adéquates. Les meilleures pratiques qui exploitent le contrôle de l'utilisation pour offrir des avantages immédiats et quantifiables comprennent : le développement d'indicateurs de performance clés permettant de révéler l'utilisation et la consommation au sein de l'entreprise ; l'identification des données inutilisées et inutiles ; la rationalisation des charges de données et l'archivage des données en fonction de l'identification des données inutilisées et rarement consultées ; l'optimisation des bases de données selon l'utilisation réelle des données ; la réduction de la complexité inutile afin d'améliorer l'évolutivité et les performances. Pour contrôler efficacement l'utilisation, il faut disposer d'une solution s'intégrant à la BI, au data warehouse et aux infrastructures d'intégration de données afin de fournir une vue complète sur l'activité métier et l'utilisation des données. Informatica Data Warehouse Advisor est une solution logicielle qui contrôle la manière dont les services et divisions opérationnelles utilisent les données de manière à aider les services informatiques à améliorer leur efficacité opérationnelle, leur évolutivité et leurs performances et à contrôler les coûts de livraison des données. Une fois les données en sommeil identifiées, Informatica Data Archive peut être utilisé pour déplacer les données inactives en dehors des instances de production afin de réduire considérablement les volumes des données de production, les coûts et les délais de maintenance et d'améliorer la disponibilité et les performances du data warehouse. Lorsque l'archivage n'est pas encore une option, le partitionnement intelligent permet d'automatiser la gestion des partitions de bases de données afin d'améliorer les performances des requêtes et de poser les bases d'un archivage futur de qualité. Pour optimiser encore la gestion de la croissance des volumes de données dans les environnements hors production, les pratiques de data warehouse «Lean» d'informatica utilisent la solution de gestion de données de test basée sur le logiciel Informatica Data Subset. Cette solution réduit considérablement l'encombrement des data warehouses hors production en créant des copies de sous-ensembles des données de production, moins volumineuses, intactes en termes de référentiel et ne contenant que les données les plus pertinentes pour l'utilisateur. Ensemble, les solutions Informatica Data Archive, Data Subset et Data Warehouse prennent en charge les pratiques de data warehouse «Lean». Dans la suite de ce livre blanc, nous aborderons les points suivants : les défis liés à la croissance des volumes de données et les raisons d'adopter une approche basée sur les data warehouses «Lean» ; le caractère inadapté des anciens outils de contrôle des data warehouses et pratiques de gestion de data warehouse ; la manière dont Informatica Data Warehouse Advisor, Data Archive et Data Subset fournissent la technologie et les solutions adaptées pour implémenter les pratiques de data warehouse «Lean». Pratiques «Lean» data warehouse : optimisez vos data warehouses grâce à une meilleure visibilité sur l'utilisation de vos données 3

La croissance des Big Data et l'explosion de la complexité analytique Ces dernières années, les entreprises ont énormément investi dans les applications de business intelligence (BI) et le data warehousing afin de fournir un meilleur accès aux données d'entreprise. Le déploiement d'applications analytiques a évolué, passant d'outils disparates utilisés par des super utilisateurs de petits services à des applications de BI utilisées dans l'ensemble de l'entreprise. Suite à l'explosion de l'utilisation des applications analytiques au sein des entreprises, le besoin en données a également explosé. Les volumes de Big Data analytiques des data warehouses augmentent constamment, au fur et à mesure de l'explosion des volumes de données brutes et du nombre de systèmes sources. Les données stockées dans les data warehouses atteignent désormais rapidement des dizaines, voire des centaines, de téraoctets. Une enquête récente menée par Aberdeen Group a montré que les grandes entreprises avaient constaté une croissance de leurs volumes de données de 41 % par an entre 2009 et 2010. 1 Cette enquête a également montré que 50 % des entreprises avaient indiqué que de nombreuses données n'étaient jamais consultées ou étaient très peu utilisées au sein de l'entreprise. Dans cet environnement en pleine expansion, les responsables informatiques ont la tâche peu enviable de devoir réagir plus rapidement aux besoins métiers de plus en plus exigeants, tout en réduisant les coûts associés à la livraison des données. En outre, lorsque les entreprises imposent des déploiements de BI et des implémentations de data warehouse étendus, les services informatiques subissent une pression pour contrôler les coûts. Le problème est d'autant plus compliqué que les déploiements de BI et le data warehousing nécessitent une interaction et une collaboration complexes entre différents groupes fonctionnels avant, pendant et surtout après l'implémentation. De plus, contrairement aux applications transactionnelles prêtes à l'emploi, les déploiements de BI et de data warehouse évoluent constamment. Le nombre d'utilisateurs, le volume de requêtes et la complexité des requêtes changent avec une irrégularité alarmante au fur et à mesure de l'augmentation du volume et de la complexité des data marts et data warehouses. Malheureusement, le manque d'efficacité identifié dans les environnements de BI et de data warehousing est généralement dû à une manque de compréhension de l'utilisation des applications et des données dans l'entreprise. Les responsables de données, les administrateurs de bases de données applicatives, les architectes de données et les responsables d'applications analytiques sont gênés dans leur travail par le manque d'outils nécessaires pour savoir si les données sont utilisées ou non et plus important encore, pour connaître la manière dont les données sont utilisées. Ces informations sont critiques pour pouvoir conserver et optimiser les données les plus pertinentes. Les data warehouses sont en grande partie confrontés aux mêmes problèmes de croissance des données que les systèmes transactionnels : coûts d'infrastructure plus élevés pour prendre en charge les données en sommeil dans les environnements de production, délais de maintenance de plus en plus importants, diminution de la productivité des utilisateurs en raison de mauvaises performances, création d'entrepôts de données dérivées et effet multiplicateur des nombreuses copies hors production associé à un risque accru d'atteinte à la sécurité des données. Ces problèmes sont d'autant plus importants pour les data warehouses puisque ceux-ci intègrent des données d'applications multiples, ainsi que des informations historiques à des fins de reporting analytique. Ils sont donc beaucoup plus volumineux que les systèmes transactionnels et leur volume augmente généralement plus rapidement. Les data warehouses contiennent généralement des dizaines, voire des centaines, de téraoctets. Selon les estimations des experts du secteur, les data warehouses n'utilisent activement qu'une année de données, mais la conservation de données historiques peut facilement multiplier par 20 la quantité de stockage nécessaire. Au vu de ces estimations et de l'immense volume potentiel des data warehouses, l'impact sur les coûts peut être énorme. 1 Data Management for BI, Aberdeen Group, décembre 2010 4

Des anciens outils de contrôle inadaptés Pour résoudre les problèmes cités précédemment, la plupart des responsables informatiques utilisent des anciens outils de contrôle des applications et bases de données ou des journaux d'audit d'applications. Pourtant, ces solutions ne sont tout simplement pas conçues pour offrir la visibilité nécessaire pour comprendre l'activité métier et l'utilisation des données, de manière à aider les entreprises à gérer leurs data warehouses plus efficacement. Les anciens outils de contrôle des applications ont pour objectif principal de contrôler les applications transactionnelles et d'en assurer le suivi. Ils permettent aux développeurs d'applications de réaliser le test de charge et le profilage transactionnel nécessaires pour concevoir, tester et déployer les applications transactionnelles dans un environnement de production. Les anciens outils de contrôle des applications ne sont pas conçus pour offrir une visibilité sur l'utilisation des données analytiques au sein de l'entreprise. De plus, les anciens outils de contrôle des bases de données sont principalement destinés aux administrateurs de bases de données et se concentrent sur le contrôle des mesures du système, telles que les ressources processeur, la mémoire, les pools de mémoire tampon et les plans d'exécution SQL pour optimiser les bases de données. Les anciens outils de contrôle des bases de données ne s'intègrent pas aux applications analytiques et ne sont donc pas en mesure de fournir des informations sur les interactions entre les utilisateurs métiers et applications et les données analytiques. Conçus pour les systèmes transactionnels et pour être utilisés par les administrateurs de bases de données, ces anciens outils de contrôle n'offrent pas d'analyse de l'utilisation des données (au niveau de l'objet) adaptée aux architectes de données, gestionnaires d'applications, développeurs de data warehouse et responsables de la gestion de données. «Nous disposons de trop de copies de données dans nos outils d'administration de bases de données classiques et ces informations ne nous aident pas à comprendre les activités et l'utilisation des données par nos utilisateurs métiers.» Director of Data Management, Grande entreprise de services financiers La plupart des fournisseurs d'applications analytiques fournissent des journaux d'audit afin de contrôler l'activité des applications. Ces journaux sont spécialement conçus pour permettre aux administrateurs d'applications de contrôler les activités de gestion des documents, de suivi des changements, d'administration de la sécurité et de planification des travaux. Étant donné que les journaux d'audit d'applications sont limités aux activités liées aux serveurs d'applications, ils ne mettent pas en corrélation les activités des utilisateurs et applications avec l'utilisation des données et l'impact sur les serveurs du data warehouse. Ils ne peuvent donc pas indiquer la manière dont l'entreprise utilise les données. Des pratiques de gestion de data warehouse existantes inadaptées Les environnements de data warehouse peuvent présenter de nombreux défis liés à la croissance explosive des volumes de données, notamment en termes de performances, de ralentissement des délais de maintenance, d'augmentation des coûts d'infrastructure de production, d'incapacité à respecter les niveaux de service contractuels et d'effet multiplicateur. En outre, la pratique habituelle consistant à effectuer des copies complètes de l'environnement de production pour les utiliser hors production renforce ces problèmes. Pour résoudre le problème de perte de performances, les entreprises ont souvent recours à l'optimisation du data warehouse. Cependant, si les administrateurs de bases de données du data warehouse consacrent beaucoup de temps à l'optimisation, ils n'auront pas de temps à consacrer à des activités plus productives à moins que vous n'engagiez des administrateurs supplémentaires. En outre, l'optimisation du data warehouse n'est efficace que jusqu'à un certain point. Le ralentissement des délais de maintenance (sauvegarde, reprise après sinistre, réplication et mises à niveau) dû à l'explosion des volumes de données contraint les entreprises à diviser les tâches de maintenance en plusieurs tâches plus courtes. Cette opération demande une planification plus complexe, sans quoi la disponibilité du data warehouse risque d'être affectée. Étant donné la croissance continue de la base de données, vous pourriez être confronté à ce problème à de nombreuses reprises, avant de manquer de temps et de devoir sacrifier des heures d'exploitation. Pratiques «Lean» data warehouse : optimisez vos data warehouses grâce à une meilleure visibilité sur l'utilisation de vos données 5

L'un des moyens les plus répandus pour faire face à ce problème de croissance des volumes de données consiste à acheter du matériel supplémentaire. Le recours à des systèmes de stockage supplémentaires et à la mise à niveau des serveurs est une solution couramment utilisée pour répondre à la croissance explosive des volumes de données. Mais comme vous équipez votre environnement de production avec les systèmes de stockage et les serveurs les plus coûteux pour prendre en charge des données dont la valeur est limitée pour votre entreprise, assurez-vous que le matériel que vous achetez est vraiment nécessaire pour prendre en charge les données qu'il héberge. La plupart des services informatiques réalisent une copie complète de leur système de production pour leurs environnements hors production. Ce processus de création de copies complètes hors production se révèle inefficace et coûteux, à la fois en termes de maintenance, de support et de stockage (voir Figure 2). Les environnements de développement et de test devant faire face à quantité de données inutiles et obsolètes, les performances du système en pâtissent et les équipes informatiques ont du mal à se conformer aux niveaux de service contractuels. PRODUCTION Copie de production de 10 To Copie de production de 10 To Copie de production de 10 To data warehouse Instance de production de 10 To data warehouse Copie de production de 10 To Copie de production de 10 To Copie de production de 10 To data warehouse TEST ET DÉVELOPPEMENT/HORS PRODUCTION SANS DATA WAREHOUSES «LEAN» Coût discrétionnaire du stockage d'un data warehouse de production de 10 To 70 000 $ Coût discrétionnaire du stockage de 6 copies de production complètes 420 000 $ Coût discrétionnaire total du stockage 490 000 $ L'utilisation de copies complètes du data warehouse de production pour les projets de test et de développement exerce une pression sur les capacités de stockage et peut causer des retards inutiles Au fil du temps, l'utilisation de copies complètes à cette fin peut devenir très coûteuse. Figure 2 : l'effet multiplicateur de la croissance des volumes de données dans des environnements hors production Présentation des pratiques de data warehouse «Lean» Les data warehouses des grandes entreprises atteignent désormais couramment des dizaines, voire des centaines, de téraoctets. De plus, la complexité et les frais de gestion de données augmentent de manière exponentielle. Les entreprises ne peuvent pas continuer à prendre en charge cette croissance sans subir un impact considérable sur les coûts associés aux ressources et à l'infrastructure. Tout comme les divisions opérationnelles qui s'appuient sur les données pour prendre des décisions en toute connaissance de cause leur assurant rentabilité et maîtrise des coûts, les services informatiques doivent pouvoir évaluer l'utilisation (ou sous-utilisation) de l'application et des données pour pouvoir prendre des décisions avisées. Les pratiques de data warehouse «Lean» impliquent le contrôle et l'évaluation de l'activité métier et de l'utilisation des données, ainsi que la gestion de l'augmentation des volumes de données, dans le but d'améliorer l'efficacité opérationnelle, d'assurer l'évolutivité de l'infrastructure et des ressources informatiques disponibles et de réduire les coûts de la gestion de données. 6 Par exemple, en analysant l'utilisation de ses données, une grande entreprise du secteur de la santé a récemment constaté que 87 % d'entre elles n'étaient jamais utilisées (sur une période de trois mois) et que seulement 2 schémas sur 5 700 recevaient plus de 60 % des requêtes. Cette analyse a permis à l'entreprise de concentrer ses efforts d'optimisation sur les données les plus pertinentes (et les plus fréquemment utilisées) et de commencer à rationaliser les charges de données en éliminant les données inutiles. L'entreprise a également interrompu une mise à niveau de l'infrastructure, ce qui lui a permis d'économiser plusieurs millions de dollars, pour exploiter au maximum son infrastructure existante.

Justifier les coûts, établir la priorité des ressources et investir selon leur utilisation La business intelligence (BI) et le data warehousing devenant des éléments critiques pour les entreprises, celles-ci continuent à exercer une pression sur les équipes informatiques afin qu'elles apportent une valeur durable à l'entreprise malgré leurs restrictions budgétaires. Face à la croissance des volumes de données et aux exigences métiers leur imposant de fournir des informations plus pertinentes plus rapidement, les services informatiques ont tout intérêt à mesurer et évaluer clairement la manière dont l'entreprise utilise ses investissements existants afin de pouvoir justifier les coûts, établir l'ordre de priorité des ressources et investir en toute connaissance de cause. En mesurant et en assurant le suivi de l'activité métier, de l'exploitation des ressources et des tendances en termes d'utilisation des données, les entreprises peuvent évaluer et identifier les ressources informatiques sous-utilisées ainsi que les ressources les plus utilisées mais dont les performances laissent à désirer, de manière à réduire les coûts opérationnels et à optimiser la planification des besoins futurs en capacité et en ressources. Conserver et optimiser les données et processus les plus pertinents Alors que les volumes de données continuent à exploser et que les utilisateurs métiers réclament l'accès à davantage de données, les équipes informatiques doivent comprendre comment les utilisateurs interagissent avec les données afin d'assurer la conservation et la mise à disposition des informations les plus pertinentes. Les entreprises doivent assurer l'évaluation et le suivi des données qui sont utilisées, de celles qui ne le sont plus et de celles qui ne le sont jamais. Les données en sommeil ou inactives qui ne sont plus utilisées mais doivent être conservées à des fins de conformité doivent être archivées. Informatica Data Archive vous permet de déplacer vos données inactives de data warehouses vers une autre instance de data warehouse sur une infrastructure moins coûteuse ou de les convertir dans un format d'archivage de fichiers compressés et inaltérables optimisé, tout en continuant à garantir un accès facile depuis n'importe quel outil de reporting. Les données qui ne sont jamais utilisées doivent être supprimées des charges du data warehouse. Pour ce qui est des données ne pouvant pas être archivées, Informatica Data Archive avec partitionnement intelligent permet aux administrateurs de gérer de façon plus automatique les partitions de base de données et le déploiement de stratégies d'amélioration des performances, tout en rationalisant les futures tâches d'archivage et de compression de la base de données. Il est également important que les services informatiques comprennent la manière dont les données sont utilisées au sein de l'entreprise afin qu'ils puissent concentrer leurs efforts d'optimisation sur les données les plus pertinentes pour l'entreprise. En disposant d'informations sur l'utilisation des données, les services informatiques peuvent s'aligner plus efficacement sur l'activité de l'entreprise, tout en réduisant les coûts de stockage et de gestion de données. Répondre plus rapidement et assurer l'évolutivité et les performances Le volume et la complexité des systèmes de BI et de data warehouse ne cessent d'augmenter et ils doivent être disponibles en permanence afin de prendre en charge diverses communautés d'utilisateurs, souvent internationales. Les utilisateurs métiers attendent des équipes informatiques qu'elles recherchent de manière proactive les problèmes et les résolvent avant qu'ils n'aient un impact négatif sur les services critiques. «Je ne veux pas consacrer des millions de dollars à l'achat de matériel supplémentaire sans avoir d'abord tenté d'identifier les moyens d'optimiser l'utilisation du matériel existant. Je veux avoir la possibilité de savoir qui fait quoi et d'identifier les données utilisées et inutilisées, afin de gérer plus efficacement nos données et l'infrastructure associée.» IT Director, Grande entreprise du secteur de la santé Plutôt que de gérer la BI, le data warehouse et les infrastructures d'intégration de données comme des silos indépendants, les entreprises doivent offrir une visibilité de bout en bout aux équipes multifonctionnelles responsables de la livraison des données. En déployant une solution qui offre une vue intégrée sur l'activité des utilisateurs de BI et des applications ainsi qu'une vue corrélée sur l'utilisation et les performances du data warehouse, les services informatiques peuvent améliorer leur efficacité opérationnelle et réduire le temps et les efforts nécessaires pour identifier les goulets d'étranglement en termes de performances. Pratiques «Lean» data warehouse : optimisez vos data warehouses grâce à une meilleure visibilité sur l'utilisation de vos données 7

Réduire la taille des instances de production et hors production pour diminuer les coûts Bien que l'archivage réduise la taille de votre data warehouse de production et des copies correspondantes, la création de sous-ensembles de données dans des copies hors production peut encore réduire les volumes des données et vous aider à relever les défis des Big Data dans les environnements hors production. La création de sous-ensembles consiste à fournir un ensemble plus réduit de données de production, en fonction des intervalles de temps ou éléments fonctionnels les plus pertinents, tout en conservant l'intégrité des données et du référentiel et en répondant aux besoins des utilisateurs hors production, tels que les développeurs et les testeurs. Implémentation des pratiques de data warehouse «Lean» Développer des indicateurs de performance clés permettant de révéler l'utilisation et la consommation au sein de l'entreprise Trop souvent, les services informatiques se fient à leur intuition et à leur instinct pour prendre des décisions clés quant aux investissements matériels et logiciels et à l'optimisation des performances. En mesurant et un analysant l'utilisation d'un point de vue des usages, les services informatiques peuvent non seulement développer des objectifs et mesures de performance clés, mais également mesurer les résultats et les écarts. La fourniture d'informations exploitables dans l'ensemble du service informatique permet aux membres du personnel du support de travailler plus efficacement afin d'atteindre leurs objectifs tactiques et stratégiques. Ces informations permettent également aux Directeurs Informatiques de mesurer l'efficacité de leur investissement, de lancer des initiatives susceptibles d'apporter une plus grande valeur métier et de réduire le coût total de possession. Identifier les données inutilisées et inutiles pour rationaliser les charges de données et archiver les données inactives Étant donné que les utilisateurs métiers exigent toujours plus de données, il est impératif que les responsables informatiques évaluent et identifient les données qui sont chargées dans le data warehouse chaque jour (et souvent plusieurs fois par jour) mais ne sont si utilisées ni requises. En identifiant les données inutilisées (schémas, tables et colonnes), les services informatiques peuvent développer un moyen plus efficace pour cibler uniquement les données nécessaires, rationalisant ainsi les charges de données et améliorant indirectement les temps de chargement des données. De plus, en identifiant les données en sommeil ou celles qui ne sont plus utilisées, les services informatiques peuvent mettre en place un programme d'archivage des données historiques dans une infrastructure moins coûteuse (voir Figure 3). Informatica Data Archive fournit des archives optimisées, hautement compressées (jusqu'à 98 %), inaltérables, sécurisées et facilement accessibles à des fins de reporting ou de recherches. Les avantages opérationnels de l'archivage sont clairs : il vous permet de minimiser les délais de maintenance et de réduire considérablement l'encombrement de votre data warehouse (hébergé sur l'infrastructure la plus coûteuse), en déplaçant les données inactives vers des archives hautement compressées sur une infrastructure moins coûteuse. 8 Figure 3 : gérer l'utilisation de données et identifier les enregistrements en sommeil à des fins d'archivage

Par exemple, une grande société pharmaceutique a réduit ses coûts de gestion de données de plus de 500 000 $ par an en conservant uniquement les données pertinentes et utilisées par l'entreprise et en archivant les données inactives. De plus, elle rationalise ses charges de données en continu en écartant les données inutiles et a réduit ses temps de chargement par batch de 50 %. Optimiser les bases de données en fonction de l'utilisation des données Le manque de connaissances quant à l'utilisation des colonnes de données représente un grand défi pour les administrateurs de bases de données. Très souvent, des index sont créés pour optimiser la base de données à partir de l'évaluation des plans d'exécution d'instructions SQL individuelles. Cette approche peut être trompeuse car la charge de travail que représentent les requêtes du data warehouse est généralement ad hoc. En identifiant les données fréquemment utilisées qui bénéficient d'une indexation (par exemple, les colonnes les plus utilisées dans Where, OrderBy ou GroupBy), les administrateurs de bases de données peuvent se concentrer sur l'indexation des stratégies offrant les meilleures performances (voir Figure 4). Par exemple, une grande entreprise spécialisée dans le secteur de la finance a économisé des semaines de travail en implémentant des stratégies d'indexation basées sur l'utilisation des colonnes de données plutôt que sur des instructions SQL de base de données individuelles. Cette entreprise exploite le contrôle de l'utilisation et les analyses associées pour identifier périodiquement les colonnes de données fréquemment utilisées qui nécessiteraient une indexation. Avec ces informations, elle peut ensuite notifier de manière proactive les administrateurs de data warehouse concernés afin qu'ils prennent les mesures nécessaires. Figure 4 : optimiser le data warehouse en contrôlant les rapports BI et les colonnes utilisées Pratiques «Lean» data warehouse : optimisez vos data warehouses grâce à une meilleure visibilité sur l'utilisation de vos données 9

Réduire la complexité pour améliorer l'évolutivité et les performances En analysant les interactions entre les utilisateurs et applications analytiques et les données, les équipes informatiques responsables de la livraison des données peuvent implémenter des stratégies pour réduire la complexité et améliorer l'expérience utilisateur. Il est possible d'améliorer considérablement les performances des applications en identifiant les conversions de données fréquentes ou les fonctions exécutées par les applications qui seraient plus adaptées à une exécution au sein du data warehouse. Il est possible d'identifier des agrégations de données fréquentes et coûteuses qui pourraient avantageusement être réalisées au moment du chargement des données. Il est conseillé d'identifier les requêtes complexes qui comptent un très grand nombre de jonctions ou de sous-requêtes afin de revoir la conception et modifier les rapports analytiques de manière à réduire l'impact sur les data warehouses. Enfin, les utilisateurs métiers se chargeant de plus en plus fréquemment de tâches de reporting ad hoc, vous pouvez identifier les rapports mal rédigés (par exemple ceux qui entraînent de nombreuses questions) ou les stratégies de partitionnement de base de données à améliorer. Ainsi, une grande entreprise du secteur industriel prenant en charge environ 20 000 rapports analytiques utilisés par plus de 10 000 utilisateurs à travers le monde évalue les interactions entres les applications analytiques et rapports et les données pendant les phases de test et de développement afin d'optimiser l'expérience utilisateur et les performances. Elle contrôle également l'utilisation des données sur les systèmes de production afin de comparer les caractéristiques de cette utilisation et des performances associées à celles des données de référence créées dans des environnements de test et de développement afin d'identifier rapidement les domaines susceptibles d'être optimisés. Cette entreprise estime qu'elle a économisé plus de 2 millions de dollars de coûts en gagnant plus de 22 000 heures sur ses temps de traitement agrégés. En outre, cette économie a un impact direct sur l'expérience et la productivité des utilisateurs métiers et assure l'évolutivité des investissements existants de l'entreprise dans son infrastructure. Réduire le volume des instances hors production et diminuer encore les coûts Informatica Data Subset permet à votre service informatique de créer et de mettre à jour rapidement des systèmes hors production à l'aide de sous-ensembles de données de production de taille réduite et d'assurer plus vite le provisioning des copies hors production. Vous pouvez personnaliser rapidement les règles d'approvisionnement afin de répondre à l'évolution des besoins du service. En testant les mises à jour de la configuration au moyen de données réalistes et actuelles avant de les utiliser en production, vous limitez les risques lors du déploiement. Grâce à la réduction de l'encombrement des environnements hors production, votre service informatique peut réduire de manière importante les coûts d'infrastructure et de maintenance (voir Figure 5). Les coûts de formation se trouvent également réduits par l'emploi d'une approche et d'une infrastructure uniques, l'efficacité de la formation étant quant à elle accrue par l'utilisation de données fiables à l'image des données de production dans les environnements de formation. PRODUCTION Base de données de production de 10 To data warehouse copies de production ciblées, moins volumineuses ou clients légers 3 To 3 To 3 To 3 To 3 To 3 To SANS PRATIQUES DE DATA WAREHOUSE «LEAN» Coût discrétionnaire du stockage d'un data warehouse de production de 10 To 70 000 $ Coût discrétionnaire du stockage de 6 copies moins volumineuses, de 3 To 126 000 $ Coût discrétionnaire total du stockage 196 000 $ En utilisant des clones ciblés, moins volumineux du data warehouse de production pour les nouveaux projets, les équipes de test subissent moins de décalages et réalisent des économies considérables sur les coûts de stockage. TEST ET DÉVELOPPEMENT/HORS PRODUCTION 10 Figure 5 : créer des copies ciblées plus petites des data warehouses de production dans des environnements hors production afin de réduire les coûts d'infrastructure et d'augmenter l'efficacité du développement et des tests

Solutions Informatica de data warehouse «Lean» Informatica Data Warehouse Advisor Informatica Data Warehouse Advisor est une solution logicielle qui contrôle la manière dont les services et divisions opérationnelles utilisent les données de manière à aider les services informatiques à améliorer leur efficacité opérationnelle, leur évolutivité et leurs performances et contrôler les coûts de livraison des données. Informatica Data Warehouse Advisor contrôle l'activité des utilisateurs métiers à l'aide d'outils de business intelligence (BI), tels que Microstrategy, SAP Business Objects, IBM Cognos et Oracle BI. Il enregistre qui accède à quels rapports et à quelles données du data warehouse ces rapports accèdent. Le logiciel contrôle également l'utilisation des données, telles que les tables, colonnes et enregistrements du data warehouse, afin d'identifier celles qui sont utilisées le plus souvent et qui accède à quelles données, y compris les données sensibles. Informatica Data Warehouse Advisor mesure les performances des requêtes du data warehouse. Il détermine, par exemple, quelles requêtes sont destinées à identifier les index qui doivent être créés sur les tables pour améliorer les performances des requêtes. Le logiciel contrôle également les performances des workflows Informatica PowerCenter. Il met en corrélation les workflows PowerCenter et les charges de travail du data warehouse afin que les workflows PowerCenter puissent être programmés pour être exécutés lorsque les charges de travail du data warehouse sont plus faibles, améliorant ainsi les performances des workflows. En bénéficiant d'une meilleure visibilité sur les opérations du data warehouse, les services informatiques peuvent résoudre les erreurs de workflows PowerCenter plus facilement et plus rapidement. Informatica Data Archive Informatica Data Archive gère la croissance des volumes de données dans les Big Data warehouses en déplaçant les données identifiées comme en sommeil par Informatica Data Warehouse Advisor. Informatica Data Archive est un logiciel hautement performant et évolutif conçu pour aider les services informatiques à gérer de manière profitable la prolifération des volumes de données dans une large gamme d'applications d'entreprise. Ce logiciel permet aux équipes informatiques d'archiver de manière rapide et sûre les données structurées dans les bases de données, applications d'entreprise et data warehouses afin de vous permettre d'y accéder rapidement en cas de nécessité. Grâce à Informatica Data Archive, les services informatiques peuvent identifier les données inactives et les déplacer vers une infrastructure de data warehouse moins coûteuse ou dans un fichier inaltérable, sécurisé et hautement compressé. Les données de production comme les données archivées continuent à être facilement accessibles à partir de n'importe quel outil de reporting ou de BI. En archivant les données dans un fichier hautement compressé (jusqu'à 98 %), la solution réduit également considérablement les besoins en stockage. Pour ce qui est des données ne pouvant pas être archivées mais qui bénéficieraient de meilleures stratégies de partitionnement pour s'aligner sur les modèles d'accès des utilisateurs finaux et sur les stratégies de data warehousing «Lean», la fonctionnalité de partitionnement intelligent d'informatica Data Archive offre aux entreprises tous les avantages de l'archivage en termes de performances, sans déplacer les données. Pratiques «Lean» data warehouse : optimisez vos data warehouses grâce à une meilleure visibilité sur l'utilisation de vos données 11

Informatica Data Subset Informatica Data Subset est un logiciel d'entreprise flexible qui automatise le processus de création de bases de données plus petites et ciblées à partir de bases de données complexes et volumineuses. Son intégration à la plate-forme Informatica offre évolutivité, robustesse et connectivité aux bases de données hors production dans l'ensemble de l'entreprise. En outre, le logiciel permet de créer des sous-ensembles à partir de toutes les données d'entreprise, quels que soient la base de données, la plate-forme ou son emplacement. Tous les sous-ensembles de données sont des copies de données de production compactes et intactes en termes de référentiel. Les services informatiques peuvent ainsi réduire considérablement le temps, le travail et l'espace disque nécessaires à la prise en charge d'environnements hors production. En répliquant et en actualisant rapidement les données de production au moyen de données applicatives réalistes, pertinentes et de haute qualité, Informatica Data Subset vous évite d'avoir à créer une copie complète de la base de données. Le logiciel vous aide à mettre de l'ordre dans des systèmes transactionnels et data warehouses complexes, en séparant les données liées d'un point de vue fonctionnel. Conclusion Les data warehouses des grandes entreprises atteignent couramment des dizaines, voire des centaines, de téraoctets. De plus, la complexité et les frais de gestion de données associés augmentent de manière exponentielle. Les entreprises ne peuvent pas continuer à prendre en charge cette croissance sans subir un impact considérable sur les coûts associés aux ressources et à l'infrastructure. Les data warehouses «Lean» consistent en de meilleures pratiques et solutions qui exploitent le contrôle de l'utilisation des données et la gestion de l'augmentation des volumes de données, dans le but d'améliorer l'efficacité opérationnelle, d'assurer l'évolutivité de l'infrastructure et des ressources informatiques disponibles et de réduire les coûts de la gestion de données. Pour contrôler efficacement l'utilisation, il faut disposer d'une solution s'intégrant à la BI, au data warehouse et aux infrastructures d'intégration de données afin de fournir une vue complète sur l'activité métier et l'utilisation des données. Le contrôle de l'utilisation des données est seulement la première étape des pratiques de data warehouse «Lean». Une fois que vous savez comment les données sont utilisées, vous devez agir en : éliminant les données inutilisées des charges de données ; optimisant le schéma de data warehouse ; archivant les données périodiquement de manière proactive pour réduire la taille du data warehouse, en créant des sous-ensembles plus petits dans des environnements hors production afin de réduire encore les coûts. Informatica offre une technologie et des solutions de premier ordre pour implémenter les pratiques de data warehouse «Lean» (voir Figure 6). 12

Utilisateurs métiers et services POUR EN SAVOIR PLUS Data warehouse «Lean» Applications de BI Data warehouse ETL Actives En sommeil Inutilisées Actives Suppression de la charge du data warehouse Pour en savoir plus sur les solutions de data warehouse «Lean» et de gestion du cycle de vie des données d'informatica, visitez le site www.informatica.com/fr/ solutions/application_ilm ou appelez le 01 42 04 89 00. Figure 6 : utiliser les pratiques de data warehouse «Lean» pour contrôler l'utilisation des données, identifier les données en sommeil pouvant être archivées, éliminer les données inutilisées des charges du data warehouse et créer des sous-ensembles plus petits dans des environnements hors production afin de réduire encore les coûts En optant pour les solutions de data warehouse «Lean» d'informatica, vous diminuerez le coût total de possession de vos data warehouses et autres applications grâce à : la réduction des coûts de stockage, de serveur, de logiciels et de maintenance ; l'amélioration des performances des data warehouses ; l'augmentation de la disponibilité des data warehouses ; la mise en conformité avec les réglementations internes, sectorielles et gouvernementales. Ensemble, Informatica et votre service informatique peuvent mettre en adéquation la valeur métier des données de vos data warehouses avec l'infrastructure de gestion informatique la mieux appropriée et la plus rentable pour les gérer. À PROPOS D'INFORMATICA Informatica Corporation (NASDAQ : INFA) est le leader des fournisseurs indépendants de solutions d'intégration de données. Les sociétés du monde entier font confiance à Informatica pour optimiser le retour sur les données et répondre à leurs principaux impératifs métiers. Plus de 5 000 entreprises dans le monde s'appuient sur Informatica pour tirer pleinement profit de leurs ressources en matière d'informations hébergées sur site, dans le cloud et sur les réseaux sociaux. Pratiques «Lean» data warehouse : optimisez vos data warehouses grâce à une meilleure visibilité sur l'utilisation de vos données 13

Siège mondial, 100 Cardinal Way, Redwood City, CA 94063, États-Unis Téléphone : +33 1 42 04 89 00 (France) www.informatica.com/fr informatica.com linkedin.com/company/informatica twitter.com/informaticafr 2012 Informatica Corporation. Tous droits réservés. Imprimé aux États-Unis. Informatica, le logo Informatica et The Data Integration Company sont des marques commerciales ou déposées appartenant à Informatica Corporation aux États-Unis et dans d'autres pays. Tous les autres noms de sociétés et de produits sont la propriété de leurs détenteurs respectifs et peuvent avoir fait l'objet d'un dépôt de marque. IN09_1012_01887FR