DATAWAREHOUSE SCÉNARII, SOLUTIONS & MISE EN OEUVRE Un supplément publié par la rédaction de IT-Media
PARTIE 1 DATAWAREHOUSE, UN ENJEU MAJEUR POUR L ENTREPRISE DATAWAREHOUSE, UN ENJEU MAJEUR POUR L ENTREPRISE >> Par Loïc Duval 2 UN SUPPLÉMENT PUBLIÉ PAR LA RÉDACTION DE IT PRO MAGAZINE
Depuis fort longtemps, l information est la clé de toute guerre qu elle soit militaire ou économique. Mais dans l ère de l information où nous vivons, récupérer et stocker cette information est désormais sans enjeu. Ce qui compte vraiment, ce qui fait la différence, c est notre capacité à utiliser et analyser cette information pour en soustraire la substantifique moelle et la transformer en avantage concurrentiel et en indicateurs sur la bonne marche de l entreprise. Les prises de décisions stratégiques de l entreprise dépendent directement de cette capacité d analyse. L objectif ultime du Data Warehouse est de stocker et présenter l information de sorte qu elle permette la prise de décisions fiables et rapides. Elle est la fondation de tout projet décisionnel. La fondation des décisions stratégiques Sur le papier, un Data Warehouse n est jamais qu une immense base de données. Historiquement, les besoins d une base de données spécialisée dans le décisionnel trouve son origine dans le poids excessif des traitements d analyse et de reporting sur les bases de production. Il est alors très vite apparu qu il fallait techniquement séparer l analyse de la production. Mais, cette séparation trouve en réalité sa raison d être bien au-delà des contraintes techniques : données opérationnelles (de production) et données décisionnelles sont intrinsèquement différentes. En pratique, le Data Warehouse est bien davantage qu une base de données. C est une approche stratégique et un ensemble complexe de processus destinés à livrer une vision vaste, juste/fiable, précise et pertinente de l entreprise dans son ensemble. Il donne une image claire du business de l entreprise. Une vision à 360 Un Data Warehouse est capable de présenter cette vision générale de l entreprise de multiples façons en fonction des besoins et des interrogations. Si les SGBD de production sont avant tout des systèmes transactionnels destinés à mémoriser l activité de l entreprise, le Data Warehouse est, lui, avant tout, un système d interrogation. Il collecte, combine, trie, filtre, réorganise, relie et remodèle les informations provenant des multiples systèmes et sources de données de l entreprise. Il offre ainsi un accès à une très vaste quantité d informations afin de solutionner le plus grand nombre de questions possibles. L information y est donc stockée de sorte à satisfaire ces besoins efficacement. >> L OBJECTIF ULTIME DU DATA WAREHOUSE EST DE STOCKER ET PRÉSENTER L INFORMATION DE SORTE QU ELLE PERMETTE LA PRISE DE DÉCISIONS FIABLES ET RAPIDES Quels services, quels enjeux? Cette capacité d analyse, de regroupement de l information, de mise en évidence des liens qui relient les différentes informations, fait du Data Warehouse non seulement un centre de réponses mais surtout un outil d analyse idéal pour l indentification et l analyse de tendances, la gestion de la traçabilité, la CE SUPPLÉMENT EST PUBLIÉ EN PARTENARIAT AVEC Architecte d'un monde ouvert, Bull a ouvert la voie. Avec la convergence des technologies de l'information, des télécommunications et des médias, Bull, seul acteur européen maîtrisant les principaux maillons de la chaîne de valeur informatique, aide les entreprises et les administrations à bâtir, optimiser, exploiter et rentabiliser leurs systèmes d'information (SI) pour opérer en toute sécurité. Notre obsession : moderniser les SI avec des solutions ouvertes et flexibles qui conjuguent intérêts économiques et écologiques. Notre savoir-faire : les systèmes ouverts et sécurisés. C'est notre héritage, notre culture. www.bull.com/fr/decisionnel/fast-track/ Les solutions Microsoft SQL Server 2008 en terme de Data Warehouse permettent de réduire les temps de chargement pour privilégier la fraîcheur de vos données. Intégrer l ensemble de vos systèmes, valider les données tout en réduisant la charge du département informatique sont autant d atouts de Microsoft SQL Server 2008 pour vous aider à mettre en place une vue complète, homogène et fiable de votre business. www.microsoft.com/france/serveur/sql 1er mensuel informatique dédié aux professionnels des environnements IT d entreprise. Une source d expertise de référence pour la gestion et l opti mi sation des environnements IT Professionnels, environnements réseaux, serveurs, environnements de bases de données et de développement applicatifs. IT Pro Magazine est un support de formation privilégié pour accompagner et répondre à vos préoccupations quotidiennes en termes d administration, de sécurité, d interopérabilité. www.itpro.fr itpro.fr 3
PARTIE 1 DATAWAREHOUSE, UN ENJEU MAJEUR POUR L ENTREPRISE Vue d ensemble d un projet décisionnel d entreprise et la place prépondérante tenue par le Data Warehouse. compréhension des mécanismes complexes du marché, les prédictions d évolution, l amélioration des processus métiers, le contrôle et la mise en conformité aux réglementations. Il sert de fondation à la Business Intelligence (les cubes multidimensionnels en sont extraits) et à la gestion de la performance. Pour Bertrand Audras, architecte au MTC, «Un projet décisionnel d entreprise, c est d abord et avant tout un projet fonctionnel et applicatif: on souhaite analyser ses informations et on souhaite obtenir une vision à 360 du Business de l entreprise, du Business des clients, etc.». Tout l enjeu est donc à la fois de savoir précisément ce que l on souhaite obtenir de toutes ces informations internes et externes qui sont à disposition et de déterminer quelles vont être les informations que l on va agréger à partir de l ERP, du système marketing avec ses générateurs de campagne, des systèmes de facturation, des systèmes de production, etc. Bertrand Audras rappelle ainsi qu un «entrepôt de données est voué à recueillir des données issues de l ensemble des fonctions métier de l entreprise car l ensemble des fonctions métier de l entreprise va directement ou indirectement y accéder. C est d ailleurs cette diversité des données qui génère la très forte volumétrie des Data Warehouse modernes». Les 6 clés du succès Première étape de tout projet décisionnel d envergure, le Data Warehouse peut rapidement se transformer en ogre financier et en dure déconvenue pour les DSI comme pour les directions générales. Alors quels conseils peut-on donner pour garantir le succès d un tel projet et quels sont les écueils à éviter? Pour Bertrand Audras, «il faut d abord un sponsor du projet, quelqu un de très haut niveau autrement dit de la Direction Générale. C est lui qui permettra de fixer les priorités et notamment de donner l autorité au projet Data Warehouse face aux autres projets de l entreprise et aux applicatifs métiers. Car le projet décisionnel d une entreprise peut impliquer des aménagements et des adaptations sur les applicatifs métiers et l existant, notamment parce qu il faut les ouvrir aux processus d intégration/capture du Data Warehouse». Le succès d un tel projet implique donc un sponsoring très fort de la direction. On touche au cœur du métier de l entreprise, on va au cœur du système d information et on touche aux secrets de l entreprise. Il faut dès lors une autorité forte qui donne l accès à ces informations. La seconde clé du succès réside dans l investissement des utilisateurs. On dit parfois d un Data Warehouse qu il doit être amical dans le sens où il doit être avant tout l ami des utilisateurs. Il doit être aussi simple que possible d un point de vue utilisateur. Ses concepteurs ne doivent pas focaliser leur attention sur les difficultés techniques (un réflexe naturel sur des projets d une telle envergure et d une telle complexité intrinsèque) mais sur ce qu il apporte à l utilisateur. Pour Gérard Haudiquert, architecte chez Bull «On ne part pas la fleur au fusil dans un projet Data Warehouse. Il faut monter une équipe avec des compétences mais le cœur de cette équipe doit être 4 UN SUPPLÉMENT PUBLIÉ PAR LA RÉDACTION DE IT PRO MAGAZINE
Microsoft fait une entrée remarquée parmi les «acteurs clés» du quadrant magique du Gartner dans leur dernière étude datée Décembre 2008. Et ceci avant même l introduction des technologies Madison et Master-Data-Management dans SQL Server 2008 R2 en fin d année. les utilisateurs. Il n y a pas de projet Data Warehouse sans une forte implication des utilisateurs». La troisième clé tient dans la mise en place d un dictionnaire de données. Face à la multiplicité des sources et des métiers, «il est impératif de définir un dictionnaire de données cohérent sur lequel tout le monde est d accord» explique Gérard Haudiquert. Il en découle une conduite des méta-données nécessaire non seulement à la mise en place du Data Warehouse mais aussi à son évolution dans le futur. Quatrième clé, adoptez une démarche itérative. Elle est essentielle ne serait-ce que pour éviter l effet tunnel. Pour Bertrand Audras, «L approche itérative est clairement la seule qui fonctionne. Il faut concevoir des lots immédiatement opérationnels. Autrement dit adopter une démarche certes itérative, mais dans laquelle chaque itération réalise un lot opérationnel. Vous commencez par mettre en œuvre un premier périmètre, puis un deuxième, puis un troisième Vous avez tout de suite un périmètre opérationnel au moins dans un premier niveau, puis vous avancez par étapes. Ainsi, vous donnez de la visibilité au projet, vous vous donnez de la lisibilité en termes de délai (et donc de succès) et de coûts sur l ensemble du projet, vous gagnez en maîtrise d ouvrage». rejets font partie intrinsèquement du capital «données» et la mise en œuvre de tests précoces permet de réfléchir à leur gestion ainsi qu à leur volumétrie afin de mettre en place des solutions adéquates. Enfin, il ne faut pas négliger l aspect confidentialité et droits d accès à l information, notamment en raison des contraintes légales et juridiques qui en découlent. «Dans l entrepôt de données, on trouve par définition toutes les données qui comptent pour l entreprise. Evidemment tous les utilisateurs n ont pas accès à cette intégralité mais qu à la partie qui les concerne et à laquelle ils ont droit. Il faut donc gérer la confidentialité des informations et protéger cette information.» rappelle Bertrand Audras. Cinquième clé, prévoir l aspect tests le plus tôt possible. Pour Bertrand Audras «il ne faut pas travailler dans le vide et utiliser le plus tôt possible des données réelles. Il est notamment impératif d anticiper la gestion des rejets. Les rejets, c est ce qui met le doute aux utilisateurs et leur fait perdre confiance dans le projet car l information leur paraîtra parcellaire». Les itpro.fr 5
PARTIE 2 CHOIX D UNE ARCHITECTURE DE DATA WAREHOUSE CHOIX D UNE ARCHITECTURE DE DATA WAREHOUSE Un moteur de base de données comme SQL Server offre une telle souplesse d emploi et de montée en charge qu il est possible d imaginer et mettre en œuvre des solutions techniques très variées et adaptées à chaque besoin. >> Par Loïc Duval 6 UN SUPPLÉMENT PUBLIÉ PAR LA RÉDACTION DE IT PRO MAGAZINE
Bien des DSI et des architectes impliqués dans un projet décisionnel ont une fâcheuse tendance à vouloir faire entrer très tôt dans le processus de réflexion, les choix d architecture matérielle et statuer sur l opportunité ou non de partir sur des Appliances. Pourtant, cette décision est plutôt l une des dernières étapes du processus de décision du projet Data Warehouse. Avant d en arriver à ce stade, il est impératif d avoir franchi d autres étapes nécessaires à la découverte des éléments qui permettront de statuer judicieusement sur vos choix d architectures. La démarche du projet décisionnel 1- La phase préliminaire : Tout projet Data Ware house doit commencer par une phase d apprentissage et d élaboration sur la méthodologie que l on va utiliser, sur le jargon que l on va employer et sur la conduite de projet que l on va adopter. 2- La conception et le design du modèle de données: on débute par une phase de mise en place d un dictionnaire de métadonnées qui va permettre non seulement de mettre tout le monde d accord, mais aussi de statuer sur les types d informations et sur ce que l on veut analyser. Puis, on va construire une modélisation décisionnelle de cette information qui peut être à la fois à plat (avec des modèles en 3ème forme normale, en étoile ou en flocon) ou multidimensionnelle (avec des cubes OLAP), les deux approches étant bien plus complémentaires qu antino miques. 3- On va ensuite s intéresser à la façon dont on va charger les données: techniques de capture des données (fonction change data capture de SQL Server), outils ETL de transformation, processus d acquisition, outils de réplication, connecteurs disponibles, etc. 4- Concevoir le système de stockage du Data Warehouse: c est lors de cette phase que l on va prendre en compte les notions de Performance et de Qualité de service (aussi bien en termes de stabilité que de capacité de montée en charge). >> TOUT PROJET DATA WAREHOUSE DOIT COMMENCER PAR UNE PHASE D APPRENTISSAGE ET D ÉLABORATION SUR LA MÉTHODOLOGIE QUE L ON VA UTILISER Dans une architecture SMP, les traitements sont répartis sur des ressources partagées Attention au processus initial d alimentation C est une étape extrêmement importante qu il ne faut pas négliger et qu il faut surtout savoir anticiper. Bertrand Audras explique ainsi qu «il faut bien avoir conscience qu on parle d un volume de données important voire très important. On est forcément face à de grands traitements automatiques qui ont un impact très fort en termes de volumétrie, de temps de traitements, de bande passante réseau et I/O, et de disponibilité des sources». Une phase et un impact qui sont souvent mal anticipés dans bien des projets Data Warehouse. «Il faut savoir anticiper les phases d alimentation totale initiale très tôt dans le processus de développement pour ne pas se faire surprendre par des délais incroyablement plus longs que ce qu on avait imaginé. Pour cela, il faut prendre très tôt (dès la phase de réflexion sur la capture des sources) des exports complets d un système puis récupérer régulièrement des deltas afin de pouvoir le faire le jour J en toute sécurité. Sinon, on risque de se retrouver avec une phase d alimentation du Data Warehouse très lourde pour les systèmes ERP et de production qui risque de fortement impacter la qualité de service de ces applications critiques pour l entreprise». itpro.fr 7
PARTIE 2 CHOIX D UNE ARCHITECTURE DE DATA WAREHOUSE La qualité de la donnée Comme le souligne Gérard Haudiquert «la donnée d un Data Warehouse se prépare». Parce qu il donne une seule vision - fiable et juste - de la réalité de l entreprise, le Data Warehouse doit être alimenté par des informations qui ont été en amont qualifiées et vérifiées. Pour Bertrand Audras «Dans un Data Warehouse on consolide des données qui doivent être cohérentes et fiables puisque c est sur elles que vont se porter les processus de décision et les indicateurs remontés par les outils BI. On doit absolument avoir une confiance absolue dans les données qui y sont chargées. Il faut dont contrôler en amont et en cas de doute il faut rejeter/filtrer à l entrée les éléments sur lesquels on a des doutes ou que l on ne peut qualifier». La qualité des données n est donc pas uniquement une qualité technique, elle possède aussi une qualité fonctionnelle et dépend de la qualité des processus d intégration : «l outil ETL de SQL Server intègre des modules de nettoyage de données s appuyant par exemple sur de la logique floue qui consiste en particulier à avoir des notions de rapprochement d informations (la manière de rapprocher ou non des homonymes par exemple) et de combinatoire «scoring/probabilités» qui permet selon les choix de design d accepter ou refuser une donnée» explique ainsi Bertrand Audras. L efficacité des requêtes métiers les plus complexes est améliorée par l utilisation du moteur OLAP et de cubes précalculés On doit notamment évaluer comment la performance doit évoluer avec l augmentation de la volumétrie d une part (comment on passe de 5 To à 10 ou 15 To par exemple) et avec l augmentation d un nombre d utilisateurs (comment la performance évolue si on passe de 1000 à 3000 utilisateurs). C est à ce moment que l on va définir l architecture matérielle. 5- La restitution: il s agit là de savoir comment les services et informations fournis par le Data Warehouse vont être exploités et présentés aux utilisateurs au travers des outils internes de l entreprise, des outils de reporting et reporting ad-hoc et au travers des suites Office ou des portails (SharePoint par exemple). Le choix d une architecture Data Warehouse Le choix d une architecture matérielle pour héberger le Data Warehouse est une étape complexe. Elle consiste en réalité à résoudre une équation à quatre inconnues: la volumétrie des données, le nombre d utilisateurs (et par voie de conséquence le nombre de requê tes simultanées), la complexité des requêtes et la complexité du modèle logique des données (3ème forme normale, flocon, étoile, dimensionnel, multidimensionnel). Une fois la démarche, vue cidessus, entreprise, on dispose des éléments nécessaires pour résoudre cette équation et choisir l architecture adéquate. Mais, en la matière rien n est inscrit dans le marbre. Les évolutions technologiques des architectures x86 ces dernières années tout comme celles des stockages, associées à la souplesse de mise en œuvre et la capacité de montée en charge de logiciels SGBD comme SQL Server permettent d envisager de multiples stratégies. Architecture simple Contrairement à une idée fréquemment répandue, un Data Warehouse n est pas une solution de grandes entreprises uniquement et n implique pas nécessairement des volumétries gigantesques. L idée fondamentale d un Data Warehouse est d offrir une vision homogène et fiable des données de l entreprise dans son ensemble. Le Data Warehouse fournit en quelque sorte une version unique de la «vérité» de l entreprise. Dès lors, toute 8 UN SUPPLÉMENT PUBLIÉ PAR LA RÉDACTION DE IT PRO MAGAZINE
Dans une architecture MPP les traitements sont réparties sur des unités de traitements parallélisées entreprise quelle que soit sa taille mérite son Data Warehouse. Il est tout à fait envisageable pour une PTE ou une PME d avoir un Data Warehouse de 200 Go ou plus sur un simple serveur sous SQL Server 2008 Standard Edition. Il suffit simplement de ne pas mélanger les applications de production (qui sont transactionnelles et passent l essentiel de leur temps à écrire) et les applications décisionnelles (qui sont interrogatives et passent l essentiel de leur temps à lire) sur les mêmes machines et baies disques. Architecture SMP Avec l évolution des processeurs multi-cœurs et des SAN, n importe quelle entreprise peut désormais accéder à ce que l on qualifie d architecture SMP. Dans ces architectures, les multiples nœuds et processeurs accèdent à des ressources partagées. Pour gagner en puissance, on multiplie les processeurs jusqu à atteindre la saturation des ressources partagées. Cette approche convient bien aux «appliances» mais elle n y est nullement limitée. Par exemple, les spécifications «Fast Track» de Microsoft définissent une référence d architecture SMP pour des Data Warehouse de 500 Go à quelques dizaines de Téraoctets sous SQL Server en s appuyant sur des équipements standard. Ces spécifications peuvent être appliquées telles quelles sur des appliances ou au contraire être appliquées sur des infrastructures existantes et facilement être personnalisées, adaptées et étendues notamment par des intégrateurs partenaires. Architecture SMP+OLAP D autant qu avec un peu de souplesse dans la conception du modèle du Data Warehouse, en mixant l approche base de données relationnelles pures et l approche OLAP, on peut obtenir des gains de performance étonnants sans pour autant changer d architecture matérielle. En effet, il existe des requêtes métiers qui s énoncent naturellement sur des cubes pré-calculés et évitent ainsi la saturation du Data Warehouse par des requêtes trop complexes. En ce sens, le multidimensionnel permet de servir un plus grand nombre d utilisateurs. Ajouter de la «BI» au dessus du Data Warehouse permet donc de booster celui-ci, un atout non négligeable sur des offres comme SQL Server 2008 qui intègre en standard les outils BI. Vers l Appliance SMP Malgré tout, dès lors que l on parle de volumétrie de plus d 1 To et d un nombre important d utilisateurs, les IT sont confrontés à des problématiques parfois ardues de paramétrage. Frank Sidi, Presales Lead Architect SQL Server chez Microsoft, rappelle ainsi que «Lorsqu on installe un projet décisionnel sur les architectures non Appliance, on doit tuner (autrement dit régler précisément) le système, tuner le système relationnel, tuner le système d entrées/sorties (les I/O). Il faut notamment gérer un alignement au niveau des disques qui soit parfait. C est une opération d autant plus complexe que la volumétrie est importante et que le nombre de requêtes est important». Face à cette problématique, l approche Appliance présente un avantage flagrant: «Dans une Appliance, tout ce réglage est déjà pré-réalisé. Une Appliance, c est du clé en main, où l on trouve à la fois du hardware, du software, de l inter connectique réseau, des disques le tout complètement préconfiguré, optimisé et prêt à démarrer». «La notion d Appliance, c est vraiment celle d un accéléra- itpro.fr 9
PARTIE 2 CHOIX D UNE ARCHITECTURE DE DATA WAREHOUSE SQL SERVER FAST TRACK Microsoft dispose depuis quelques mois d une architecture de référence de décisionnel pour de l Appliance sous SQL Server en mode SMP : le programme SQL Server Fast Track Data Warehouse. Il définit en fonction du nombre de cœurs le nombre de cartes HBA, la configuration Fiber Chanel, l alignement des LUN nécessaires pour tirer un débit I/O optimal sur cette architecture. Fast Track est donc à la fois une référence d architecture SMP et un label. C est un accélérateur de processus et un réducteur de risque : lorsqu il met en place une solution FastTrack, le client a la garantie qu à la fois le constructeur et l éditeur ont travaillé ensemble pour bâtir une plateforme optimale et pré-réglée. teur» explique aussi Bertrand Audras, «La démarche Appliance permet d accélérer tout le processus d adoption et de déploiement. En particulier tout le dimensionnement: les garanties de performances et de bande passante sont déjà traitées en amont». L Appliance est avant tout une garantie de performance qui se traduit souvent par un TCO plus attractif. Appliance MPP Sur les projets les plus ambitieux, sur des volumétries qui se chiffrent en centaine de Teraoctets voire en Pétaoctets, l approche très «Scale-In» du SMP ne suffit pas. Il faut opter MADISON «L approche MPP et Appliance, issue du rachat très stratégique de DATAllegro, permettra bientôt à SQL Server d accéder à des volumétries de plusieurs centaines de Téraoctets voire même d aborder le Pétaoctet». C est en ces termes que Frank Sidi explique le «Projet Madison». «C est le Data Warehouse de demain. C est une technologie mature et opérationnelle qui s appuie sur des composants standard». Madison est l adaptation en «.NET» et SQL Server de la technologie d Appliance MPP imaginée par DATAllegro. C est un ensemble composé d un cœur applicatif (le Control Node) qui découpe les traitements pour les disséminer et les exécuter en parallèle sur un certain nombre de Compute Node ou Database Node. Le Control Node communique avec les Database Nodes (et les Database Nodes communiquent entre eux) au travers de l infiniband à des débits de l ordre de 500 Go par minute! C est du MPP avec une approche «Ultra share nothing» : chaque Database Node a sa mémoire, ses CPU, ses disques locaux, son environnement et son SAN. «Toutefois cette architecture est totalement transparente pour l utilisateur : celui-ci se connecte à son outil de gestion habituel de SQL Server, comme sur un SQL Server classique. C est le système Madison qui se charge de découper et partitionner de façon totalement automatique à la fois les databases et les tables» explique Gérard Haudiquert. «La force de Madison réside dans une répartition des données totalement automatisée et une répartition très efficace totalement parallélisée de chaque requête. Le système se débrouille tout seul. Dans ces architectures, on divise très rapidement par 32 le temps de balayage séquentiel des données. Et ceci avant même de mettre en place la moindre optimisation logique au niveau des bases ou des requêtes.» Exemple d implémentation de Madison 10 UN SUPPLÉMENT PUBLIÉ PAR LA RÉDACTION DE IT PRO MAGAZINE
pour une approche de type «Scale-Out» dans la quelle on utilise de multiples machines pour diviser le problème et répartir la charge sur les unités de parallélisme, chaque unité adressant une partie du problème soumis. Dans une requête posée à une architecture MPP composée de 32 nœuds, chaque nœud prendra en compte un trente-deuxième du travail, tous les nœuds travaillant simultanément à la résolution de la requête. Pour Gérard Haudiquert, architecte Data Warehouse chez Bull: «dans les grands projets Data Warehouse on part d un point A pour aller vers un point B qu on ne sait pas situer dans le temps. Le Data Warehouse doit donc être «scalable» pas uniquement techniquement mais aussi en fonction de son besoin et de son utilisation. Le MPP répond à ce besoin de performances et de scalabilité (montée en charge)». L avantage d une architecture MPP comme celle de Madison, c est que ce changement reste relativement transparent et qu il existe des chemins de migration pour évoluer en souplesse du SMP Fast Track au MPP Madison et garantir la pérennité des investissements». Rien n est inscrit dans le marbre Alors quand faut-il partir vers de l Appliance et quand faut-il adopter du MPP? Il n existe aucune réponse unique et universelle. Et la volumétrie, souvent présentée comme principal critère, est loin d être un critère unique et significatif. Pour Frank Sidi «Avec Fast Track en mode SMP, on peut travailler sur des architectures jusqu à 32 To de données. Mais, chez Microsoft, on a déployé des systèmes décisionnels SMP à beaucoup plus forte volumétrie: 50 to en Turquie, 150 To au Danemark, 100 To en Inde. Tout dépend en réalité du type d utilisation : si vous avez aujourd hui un DataWarehouse de 100 To, avec un grand nombre d utilisateurs simultanés utilisant des requêtes très complexes, le modèle SMP révèlera bien évidemment ses limites même en construisant des Datamarts autour de l entrepôt». Un avis largement partagé par Gérard Haudiquert pour qui la volumétrie n est pas pertinente. «On sait que l on a des clients qui ont des petits volumes (entre un 1 et 5 To chez Bull) mais plus de 3000 utilisateurs simultanés avec des requêtes hypercomplexes. Et que dans ce cadre, il faut passer sur une architecture MPP façon Madison.». Les frontières entre le SMP et MPP sont complexes et liées aux limitations même du SMP. Pour aller plus loin que ce que permet le SMP, il faut changer d approche. «Chez, Bull on limite nos offres en SMP à 32 cœurs (8x4 cœurs). On sait par expérience qu on atteint là le plafond de l architecture SMP. Ce n est pas tant une limitation matérielle qu une limitation logicielle. Au-delà, il devient nécessaire de passer à une architecture MPP pour profiter réellement de la puissance théorique ment disponible et s affranchir des limitations de l architecture SMP» explique Gérard Haudiquert. «C est tout le sens du projet Madison de Microsoft qui arrivera au second semestre et sur lequel nous travaillons d ores et déjà. itpro.fr 11
PARTIE 3 SQL SERVER 2008 ET APPLIANCES BULL : L ALLIANCE DES GRANDS DÉFIS SQL SERVER 2008 ET APPLIANCES BULL : L ALLIANCE DES GRANDS DÉFIS Avec des partenaires comme Bull, Microsoft s attaque désormais aux marchés des grosses infrastructures et des grandes volumétries démontrant ainsi les qualités d ouverture et de montée en charge de son moteur SQL Server dans le décisionnel. >> Par Loïc Duval 12 UN SUPPLÉMENT PUBLIÉ PAR LA RÉDACTION DE IT PRO MAGAZINE
L offre SGBD/BI de Microsoft s est construite au fil des versions de SQL Server avec une volonté affichée de démocratiser le décisionnel et de le rendre accessible à toutes les entreprises. Souvent perçue comme une solution bien adaptée aux petites et moyennes volumétries, SQL Server a évolué bien plus rapidement que sa perception publique. Mise en œuvre sur des Data Warehouse de 50 To, 150 To et même 200 To un peu partout dans le monde, elle n a plus aujourd hui à démontrer son potentiel et sa très forte capacité de montée en puissance. Evidemment, de telles volumétries nécessitent des partenariats forts avec les constructeurs de matériels. Au travers de programmes comme FastTrack, Microsoft a tissé des liens permettant l intégration de ses solutions logicielles de Data Warehouse par des parte - naires comme Dell, HP ou Bull. La présence de Bull aux côtés de Microsoft est tout sauf anodine. L entreprise est notamment réputée pour servir les grosses entreprises et les administrations aux besoins de volumétries et de performances très importants. Elle est aussi l'un des grands intégrateurs de solutions interopérables comme le rappelle le Leitmotiv de la marque : «Achitect of an Open World». L adoption par Bull de SQL Server (et par voie de conséquence l adoption de SQL Server par son exigeante clientèle) est à elle seule une démonstration, non seulement du potentiel technique du logiciel de Microsoft mais également de son ouverture et de sa facilité d intégration dans tous les types d infrastructure qu elle soit ou non basée sur des technologies Microsoft. SQL SERVER 2008, le moteur de votre DataWarehouse SQL Server 2008 est bien davantage qu un puissant moteur de base de données. C est une offre complète et cohérente qui intègre en standard tous les outils décisionnels. Au fil de ses évolutions, et des records TPC, SQL Server s est bâtie une solide réputation de «performeur» aussi bien en termes de bases de données transactionnelles que de bases décisionnelles. Aujourd hui, avec SQL Server 2008 et le rachat récent de sociétés comme DATAllegro ou Stratature, Microsoft confirme sa volonté de devenir leader sur le marché du DataWarehouse. même pour tous les clients, seuls l échelle et les délais varient». >> SQL SERVER2008 EST BIEN DAVANTAGE QU UN PUISSANT MOTEUR DE BASE DE DONNÉES Un packaging très attractif L autre atout fondamental de SQL Server, c est que l ensemble du panel applicatif nécessaire à un projet Data Warehouse est fourni en standard: base de données OLTP, cube OLAP, ETL, connecteurs, parties Reporting et Reporting Ad-Hoc, intégration à Microsoft Office et outils d intégration aux applications internes. Ce packaging, qui intègre tout, est associé à une politique de licences très agressive et imaginative. Microsoft a su faire évoluer sa politique de licences pour prendre en compte les évolutions multi-cœurs. C est l un des rares éditeurs à conserver un «pricing» au «socket» (autrement dit au processeur, quel que soit le nombre de cœurs). La licence au processeur physique permet de regrouper beaucoup d activités décisionnelles (Data Warehouse, cubes, reportings, BI) et d absorber beaucoup de traitements sur les mêmes ressources, ce qui limite le nombre de licences dont on a besoin et le TCO global de votre solution décisionnelle. Mais pour Bertrand Audras, ce packaging intégré, outre ces aspects financiers, présente deux autres qualités fondamentales: «D une part, on utilise les mêmes outils d administration et de développement pour l ensemble du projet Data Warehouse et Décisionnel. D autre part, avec les derniers processeurs quadri-cœurs ou octo-cœurs, on bénéficie d une Le décisionnel pour tous La grande force de SQL Server 2008 et son principal atout est sans conteste sa faculté à s adapter à (et apporter du décisionnel pour) tous les types de projets et tous les types de clients. «Avec SQL Server on sait adresser aussi bien les PME que les gros clients de type CAC40 ou multinationales» explique ainsi Bertrand Audras, architecte au MTC. «La démarche est la Schéma général de l offre Fast Track de Bull itpro.fr 13
PARTIE 3 SQL SERVER 2008 ET APPLIANCES BULL : L ALLIANCE DES GRANDS DÉFIS Spécifications techniques des BULL FAST TRACK R460/R480 NOEUDS 3 Serveurs BULL NovaScale R460 (DW, BI, Spare) * 2 Intel Xeon E5440 QuadCore * 64 Go de RAM * Disques internes : 2x73 Go + 6x300 Go en SAS Associés à 2 Serveurs Bull NovaScale R460 (administration, ETL + Reporting) * 2 Intel Xeon E5440 QuadCore * 16 Go de RAM * Disques internes 2x250 Go en SATA II 3 Serveurs BULL NovaScale R480 (DW, BI, Spare) * 4 Intel Xeon X7460 6-Cores * 256 Go de RAM * Disques internes : 2x73 Go + 6x300 Go en SAS Associés à 2 Serveurs Bull NovaScale R460 (administration, ETL + Reporting) * 2 Intel Xeon E5440 QuadCore * 16 Go de RAM * Disques internes 2x250 Go en SATA II STOCKAGE 2 EMC CX4-240 associés à 1 EMC CX4-120 6 EMC CX-240 associés à 1 EMC CX4-120 LOGICIELS SQL Server 2008 Entreprise Edition Windows Server 2008 Entreprise Edition BSM 1.x (Bull System Management) SQL Server 2008 Entreprise Edition Windows Server 2008 Entreprise Edition BSM 1.x (Bull System Management) belle réserve de puissance sur les Appliances ce qui permet à tout moment d envisager l enrichissement de la solution de départ avec de nouveaux applicatifs BI et des cubes OLAP, sans surcoût et sans contrainte de licences. La présence en standard de tous ces outils BI permet d évaluer très rapidement la faisabilité et les besoins fonctionnels et de décider si on veut partir sur ces projets et ces outils ou au contraire de ne pas les utiliser sur tel ou tel projet. Il en découle une très grande souplesse qui évite de se retrouver bridé dans le développement d un projet parce que, par exemple, on ne pourrait pas disposer d un cube OLAP sans surcoût». Très grandes volumétries Montées en charge, architectures hautement évolutives, très haute disponibilité, garanties de SLA, et très fortes volumétries sont désormais le quotidien de SQL Server 2008. Pour Frank Sidi, Presales Lead Architect SQL Server chez Microsoft, «nous avons assisté ces dernières années à une forte évolution vers le haut à la fois au niveau du système et au niveau de SQL Server. Un gros travail a été effectué depuis SQL Server 2005 sur l optimiseur, sur le moteur de stockage, sur la parallélisation, sur la gestion du threading et sur celle de la mémoire. On a aujourd hui des clients avec des volumétries de 150 ou 200 To et des débits I/O jusqu à 25 Go par secondes». Les atouts qui font la différence Si SQL Server 2008 acquiert aujourd hui une réputation d acteur clé dans l univers des Data Warehouse, ce n est pas uniquement en raison de son packaging ou de l attrait de sa politique de licences. C est aussi et surtout grâce à ses qualités intrinsèques. Il intègre des technologies originales qui permettent l élaboration de nouveaux scénarios d implémentation et l accession à des niveaux de performances excep - tionnelles. Trois caractéristiques techniques font de SQL Server 2008 l un des plus puissants moteurs de Data Warehouse du marché. La compression SQL Server 2008 offre la possibilité de compresser tables, index et partitions. Les gains réalisés dépendent des tables et des données qu elles contiennent mais s avèrent souvent spectaculaires sur les Data Warehouse. Officiellement, Microsoft annonce des taux de compression d un facteur 2 à 5. Mais pour Frank Sidi, «les taux varient d un facteur 2 à 20 selon la typologie des données d après ce que nous avons pu rencontrer au MTC. Chez un récent client bancaire, on a implémenté un Data Warehouse sous SQL Server 2008 à partir de 10 To de données qui, une fois chargés dans l entrepôt, ne pesaient plus qu un seul Téraoctet grâce à ce mécanisme de compression! Il en résulte non seulement un gain de place, mais surtout un gain de performances très important car on élimine de façon drastique les Entrées/Sorties et on manipule donc beaucoup moins de blocs en mémoire. Ainsi, une compression d un facteur 5 se traduit directement par 5 fois moins d Entrées/Sorties». SQL Server 2008 propose également une fonctionnalité de compression des sauvegardes. Pour Bertrand Audras, là encore, il en résulte «non seulement une économie importante de stockage mais également en performances: comment on écrit beaucoup moins d informations, on divise par plus de deux le temps de sauvegarde ou de rechargement. Etant donné la volumétrie des Data Warehouse, c est un atout important». Le partitionnement Le partitionnement c est la possibilité de segmenter, au sein d un même objet, les données dans des espaces de stockage 14 UN SUPPLÉMENT PUBLIÉ PAR LA RÉDACTION DE IT PRO MAGAZINE
ture de référence dénommée Fast Track Data Warehouse et s est appuyé sur un certain nombre de partenaires cons tructeurs ayant une forte compétence dans le domaine des VLBD et du décisionnel. Parmi eux, on trouve l un des plus importants intégrateurs d infrastructures complexes: Bull. L entreprise a construit autour de SQL Server 2008 différentes solutions et «Appliances» qui bénéficient de toute l expertise et de toute l expérience du constructeur sur les architectures HPC, les Data Warehouse SMP/MPP et les infrastructures à haute disponibilité. L Appliance Fast Track R480 de Bull vue de face et d arrière. différents. Il en découle d excellentes performances car les entrées-sorties sont réduites au stricte minimum: «Quand on parle de Data Warehouse, on parle essentiellement d accès à un grand volume de données et de balayage de tables. Tout ce qui permet d éviter de balayer des données inutiles est un gain net et immédiat. Et en la matière, le partitionnement est un atout phare» explique Bertrand Audras. Haute disponibilité Le Data Warehouse est une application critique pour l entreprise. Haute disponibilité et garantie des SLA ne peuvent être optionnelles. Pour assurer la continuité des services, SQL Server multiplie les technologies: clustering, database mirroring, réplication peer-to-peer, log shipping, ajouts de ressources à chaud, sauvegardes et restaurations en ligne, etc. Mais la technologie la plus différenciatrice et probablement la plus marquante dans un projet décisionnel et de Data Warehouse est sans conteste le gestionnaire de ressources. Bertrand Audras explique ainsi que «le Resource Governor permet d une part de garantir des ressources (donc de garantir que certains traitements prioritaires auront un accès prioritaires sur les ressources dont ils ont besoin) mais aussi de fixer des limites (en isolant les processus, on est certain d avoir une bonne intelligence entre les différents traitements qui se déroulent au sein de la base de données). Cela permet de garantir des temps de réponses aux utilisateurs et de cantonner les traitements les plus lourds. C est un atout clé en termes de stabilité des temps de réponse et de qualité de service». Bull, un savoir faire au service du Data Warehouse Pour gérer efficacement à la fois des volumétries très importantes et un nombre élevé d utilisateurs simultanés, il est essentiel de coupler la solution logicielle à des solutions matérielles testées, éprouvées et certifiées. Cette combinaison est essentielle pour obtenir les performances espérées. Dans le cadre des Data Warehouses, Microsoft a défini une architec- Les solutions Bull Fast Track Bull a décliné ses solutions Fast Track selon deux objectifs et deux volumétries. L offre «Bull Fast Track R460» est destinée aux entrepôts de données de 5 To (en déclinaison «performance») ou 10 To (en déclinaison «stockage»). L offre «Bull Fast Track R480» est destinée aux entrepôts de 15 To (en déclinaison «performance») ou de 30 To (en déclinaison stockage). Toutes se présentent comme des solutions d infrastruc ture décisionnelle complète et évolutive. Elles bénéficient des services de haut niveau de Bull afin de garantir la parfaite intégration au système d information décisionnel (support niveaux 2 et 3, centre de POC, monitorat de transfert de compétences, etc.). Elles sont conçues pour évoluer selon un processus de «Scale Out» réalisable sur site. Les Appliances Bull Fast Track Ces solutions ont également été déclinées sous forme de deux Appliances bâties pour la performance et la haute disponibilité : le Bull Fast Track R460 Appliance (pour les Data Warehouse de moins de 5 To) et le Bull Fast Track 480 Ap - pliance (pour les Data Warehouse de moins de 15 To). «Nous avons cherché à construire une Appliance SMP la plus simple et la plus évolutive possible. C est le fruit d un gros travail d intégration sécurisé par les outils Bull System Management qui permet d administrer et piloter simplement toute l exploitation de la machine» explique Gilbert Breton, consultant Data Warehouse chez Bull. A la spécification technique MS Fast Track de base, la version «Appliance de Bull» rajoute un nœud dédié pour le décisionnel OLAP, un nœud dédié pour l ETL (le chargement) et le reporting et une console d administration qui surveille et sécurise l ensemble. Autre originalité majeure, l Appliance possède un serveur-nœud en «spare» qui assure la haute-disponibilité de la solution: «Le Data Warehouse et le décisionnel sont aujourd hui des applications stratégiques pour l entreprise. Dès lors, ils doivent être hébergés sur des systèmes à haute disponibilité. La solution Fast Track de Bull est entièrement équipée d un cluster de haute disponibilité in- itpro.fr 15
DATAWAREHOUSE : SCÉNARII, SOLUTIONS & MISE EN OEUVRE 5 questions à Gérard Haudiquert, Senior Achitect, Datawarehouse & BI chez Bull. Comment Bull en est arrivé à adopter les solutions Microsoft pour le décisionnel? Chez Bull, nous avons construit les premiers systèmes DATAllegro pour le marché européen. Et quand Microsoft a racheté DATAllegro, nous nous sommes de facto intéressés aux solutions Microsoft et nous avons alors commencé à mettre en œuvre les infrastructures SMP FastTrack. Votre appliance va au-delà de la spécification FastTrack. Pourquoi? Nous trouvions dommage de ne pas utiliser la richesse de l écosystème de Microsoft puisqu il est là en standard. En offrant la seule Appliance du marché qui soit à la fois «une machine base de données» et une «plateforme applicative BI», Bull fait preuve d innovation et se démarque ainsi de la concurrence. Quel est le temps de mise en route d une telle Appliance? C est du Plug and Play. Tout est préconfiguré. Notre Applian - ce est totalement packagée en usine (durant 4 semaines). Elle est livrable et opérationnelle en une journée. Dés le lendemain de sa livraison, l entreprise peut démarrer son projet décisionnel. Vous qui êtes spécialisé dans les infrastructures complexes à haute performance, qu est-ce qui fait de SQL Server un moteur de Data Warehouse hors pair? L une des grandes forces de SQL Server 2008, c est sa performance sur les I/O séquentiels. Le SGBD a la faculté de réaliser un maximum d entrées/sorties en mode séquentiel. Et ça, dans le décisionnel, c est une qualité fondamentale! Car 80 % des opérations se traduisent par des balayages de table! En outre, le programme FastTrack définit une implémentation de SQL Server sur des architectures de référence qui sont spécialement étudiées pour booster les I/O séquentiels. Les performances sont exceptionnelles. Parmi les atouts de la solution Bull, quel est celui qui paraît le moins évidents et pourtant marque un atout important? Notre solution Data Warehouse basée sur Microsoft a un autre intérêt qui n est souvent pas perçu. Elle évite l effet «SICOB» autrement dit la multiplication des solutions applicatives en provenance d éditeurs différents au sein de la machine. Ici tout repose intégralement sur SQL Server. Quand la base évolue, tous les outils qui y sont attachés (l ETL, la BI, le Reporting, etc.) évoluent avec. Avec une telle solution, on assiste à une réduction drastique des coûts de maintenance et des coûts cachés! L interopérabilité des couches logicielles et matérielles, c est l un des postes de coûts cachés majeurs. tégré (qui repose sur Windows Cluster Services) qui permet de continuer à travailler, sans aucune chute de performance si le nœud de base de données ou le nœud OLAP sombre (on peut même perdre les deux nœuds et continuer à fonctionner en mode dégradé)» détaille Gilbert Breton. A cet ensemble déjà très complet, vient s ajouter un soussystème de stockage pour les cubes ainsi qu un DAE de backup qui permet de sauvegarder l ensemble des données (bases relationnelles et multi-décisionnelles). Et Gérard Haudiquert de préciser «On utilise les backups services de Windows sous forme de fichiers de sorte que ce serveur de sauvegarde s intègre instantanément aux solutions et aux stratégies de sauvegarde de sites type Veritas, Legato, ComVault, etc.» Les avantages de l Appliance, sans ses inconvénients On reproche parfois aux «Appliances» d être fermées ou d offrir une marge de puissance inexploitée la majeure partie du temps. Pour Gérard Haudiquert, un effort particulier a été fourni pour réduire ces défauts et améliorer encore le TCO de ces solutions: «Notre Appliance est à la fois bundlée et hyper customisable. Le client, comme dans un Lego, peut choisir les services qu il veut y activer ou même y ajouter. Nous avons veillé à ce que non seulement la partie applicative s intègre à l existant mais aussi à son intégration au niveau de l exploitation des sites. On est totalement ici dans l idée de l Appliance «plug n play» et de l industrialisation du déploiement: ainsi certaines entreprises ont besoin de systèmes reproductibles et faciles à déployer sur les différentes zones géographiques d activité. Il est ici très facile de répliquer les modèles pour chaque filiale par exemple.» Le tout reste personnalisable et souple. «Si un client veut ajouter une couche Sharepoint par exemple pour la présentation des rapports, c est tout à fait possible. La machine est largement dimensionnée pour offrir une totale souplesse de personnalisation et d utilisation. Même le nœud High Availability peut être utilisé à d autres choses quand tout va bien comme du reporting par exemple. C est simplement une question de gestion du SLA.». Ce Supplément est une édition : IT-Media, 21 avenue Saint Fiacre, 78100 - Saint Germain en Laye - France Tél. 01 39 04 25 00 Fax 01 39 04 25 05 SARL de presse au capital de 10 000 euros SIRET 441 810 199 00022 - www.itpro.fr Comité de rédaction : Loïc Duval Directrice de la rédaction : Sabine Terrey Ce supplément est publié en partenariat avec : Bull et Microsoft