5 étapes pour. Allégez la pression sur. et vos budgets AVEC HADOOP GUIDE DE DÉMARRAGE

Transcription

1 5 étapes pour AVEC HADOOP GUIDE DE DÉMARRAGE Allégez la pression sur votre data warehouse et vos budgets

2 SOMMAIRE Intro : Comment en sommes-nous arrivés là? Historique du phénomène ETL L opportunité Hadoop Étape 1 : Comprendre et définir les objectifs métiers Étape 2 : Mettre en place la bonne connectivité pour Hadoop Étape 3 : Identifier les 20 % de charges ETL/ELT les plus coûteuses Étape 4 : Recréer les transformations équivalentes dans MapReduce Étape 5 : Rendez votre environnement ETL Hadoop prêt pour votre entreprise Conclusion

3 Comment en sommes-nous arrivés là? Historique du phénomène ETL. On dit que savoir, c est pouvoir. Or, sachant que les données produisent de l information, et que cette information produit du savoir, les données ne sont-elles pas en définitive la source de ce pouvoir? C est pourquoi les entreprises s appuient de plus en plus sur leurs données pour améliorer leurs décisions stratégiques. Mais à quel prix? Aujourd hui, l univers des données se mesure en trillions de gigaoctets. Pour en concrétiser le potentiel, l intégration de données, et plus précisément l ETL (Extract-Transform-Load), s est imposé comme la solution. L ETL est le processus qui consiste à extraire les données brutes des systèmes sources, à les transformer dans un format exploitable, puis à les charger dans un système cible à des fins d analyses avancées et de reporting. Pendant des années, les entreprises ont peiné à faire évoluer leurs architectures ETL traditionnelles pour tenir la cadence imposée par les trois «V» du phénomène Big Data : Volume, Vitesse et Variété des données. Totalement dépassées, les plates-formes d intégration de données ont contraint les départements informatiques à pousser les opérations de transformation dans le data warehouse. L ETL est ainsi devenu ELT (Extract-Load-Transform). Or, cette méthode s est rapidement avérée coûteuse et inefficace. L intégration de données consomme désormais jusqu à 80 % de la capacité des bases de données. Résultat : des dépenses insoutenables, des efforts d optimisation et de maintenance permanents, et des réponses lentes aux requêtes utilisateurs. 3

4 70 % DES DATA WAREHOUSES SONT CONTRAINTS DANS LEURS CAPACITÉS ET LEURS PERFORMANCES d après le Gartner Sans surprise, la plupart des entreprises citent le coût total de possession (TCO) comme le problème n 1 de leurs outils d intégration de données. Et pendant ce temps, les volumes de données, eux, continuent de gonfler. Concrètement, IDC prévoit un doublement des volumes de données tous les deux ans. Sachant que la courbe n est pas prête de s infléchir, les entreprises ont commencé à se tourner vers Hadoop pour collecter, traiter et distribuer des données toujours plus volumineuses. En transférant les opérations ETL vers Hadoop, elles épargnent à leur data warehouse des tâches de transformation lourdes. Ce faisant, elles parviennent à réduire considérablement leurs coûts et à libérer des capacités de leur base de données pour accélérer leurs analyses et raccourcir les temps de réponse aux requêtes utilisateurs. 4

5 L opportunité Hadoop Hadoop s est rapidement imposé comme le système d exploitation de facto pour la gestion des Big Data. Ses avantages : une évolutivité horizontale exceptionnelle et des services système qui permettent aux développeurs de créer des applications Big Data à un coût étonnamment bas. Selon de nombreuses estimations, la gestion des données dans Hadoop coûterait entre 250 $ et $ par téraoctet de données, contre $ à $ dans des data warehouses comme Teradata. C est pourquoi de nombreuses entreprises se lancent dans des projets ETL Hadoop afin de capitaliser sur l efficacité et la puissance de l outil. Mais voilà, Hadoop ne constitue en rien une solution ETL complète. En clair, bien qu il offre d excellents utilitaires et une évolutivité horizontale quasi illimitée, Hadoop n intègre pas toutes les fonctionnalités dont les utilisateurs ont besoin pour leurs opérations ETL. Dans la plupart des cas, pour pallier à ces lacunes, on développe en code, ce qui ralentit l adoption d Hadoop et génère des frustrations au sein d entreprises impatientes de récolter les fruits de leur investissement. Or, il existe un moyen d associer les avantages de l ETL haute performance à ceux d Hadoop pour libérer les capacités de votre data warehouse tout en bénéficiant d une solution ETL complète. En comblant le vide entre Hadoop et l ETL d entreprise, les solutions Syncsort Hadoop ETL transforment Hadoop en une solution ETL plus robuste et plus fonctionnelle. Les logiciels ETL haute performance de Syncsort permettent d exploiter tous les avantages de MapReduce, sans compromis sur les fonctionnalités et l ergonomie des outils ETL conventionnels. Avec les solutions Syncsort Hadoop ETL, les entreprises exploitent tout le potentiel d Hadoop, via la seule architecture capable d exécuter les processus ETL en natif dans Hadoop. 5

6 UNE NOUVELLE ARCHITECTURE POUR L ANALYSE DES BIG DATA Ce guide propose de vous accompagner à travers cinq étapes de démarrage de l offload de votre data warehouse vers Hadoop. Vous y trouverez également des conseils pratiques pour surmonter les principales difficultés et accélérer vos activités d intégration de données. Quel que soit l outil choisi, ces étapes vous permettront d alléger la charge de votre data warehouse pour le recentrer sur sa fonction première : fournir des informations via des analyses performantes et des réponses rapides aux requêtes des utilisateurs. 6

7 Étape 1 COMPRENDRE ET DÉFINIR LES OBJECTIFS MÉTIERS La plupart des entreprises ont dépensé énormément de temps et d argent dans la création de leur infrastructure d intégration de données. Mais les demandes croissantes d informations se sont révélées trop lourdes à supporter pour les architectures traditionnelles, et ce sur plusieurs fronts : Coûts : L affectation de transformations de données lourdes au data warehouse engendre des coûts et une complexité intolérables. Sachant que les traitements ELT comptent pour 40 à 80 % des charges des bases de données, il n est pas rare de voir des entreprises dépenser plus de par an dans l achat de capacités Teradata supplémentaires et ce juste pour maintenir la tête hors de l eau! Volumes de données : Pour prendre les bonnes décisions et déceler de nouvelles opportunités, les entreprises doivent se connecter à des sources de données toujours plus nombreuses et plus volumineuses. Or, face à des volumes qui gonflent sans cesse, les technologies traditionnelles et les approches manuelles ont atteint leurs limites. Accords de niveaux de service (SLA) : L infrastructure existante étant incapable de respecter les engagements SLA, les délais de reporting passent de plusieurs heures à plusieurs jours, voire plusieurs semaines, engendrant ainsi le mécontentement des utilisateurs. Réduction des coûts, exploitation d un plus grand volume de données, respect des SLA quelles que soient leurs priorités, de nombreuses entreprises se retrouvent contraintes à rechercher une approche alternative. En plaçant les données de l entreprise au service de sa compétitivité, Hadoop s est imposé comme l outil de choix pour répondre à des questions auparavant insolubles, accélérer les temps d analyse et réduire les coûts globaux de gestion des données. 7

8 En offloadant les charges ETL lourdes du data warehouse vers Hadoop, les entreprises peuvent rapidement valoriser leurs données : Réduction des fenêtres de traitement Données plus actuelles et plus pertinentes Accélération des temps d analyse Bases de données plus réactives aux requêtes utilisateur Économie de centaines de milliers de dollars de dépenses annuelles dans le data warehouse Néanmoins, il convient de rappeler qu Hadoop n est pas à proprement parler un outil de traitement ETL, mais un système d exploitation qui, dès lors qu il est associé aux outils adéquats, vous permet d exploiter toute la puissance des Big Data. Il n est donc pas réaliste d en attendre les mêmes résultats qu une solution ETL haute performance. Lorsqu elles se reposent uniquement sur Hadoop pour le traitement ETL, les entreprises se retrouvent confrontées à trois grandes difficultés. Tout d abord, les programmeurs Hadoop expérimentés sont rares et coûtent cher. La création d opérations ETL dans MapReduce suppose des connaissances approfondies en Pig, Hive et Sqoop une denrée rare dans la plupart des entreprises. 8

9 Ensuite, la perspective de perdre la fonction «ETL d entreprise», avec ses interfaces graphiques, ses métadonnées, ses possibilités de réutilisation et sa connectivité, remet en cause les gains de productivité escomptés. D autant qu un retour vers un codage complexe se traduirait par un allongement des cycles de développement, avec les soucis de maintenance et de réutilisation que cela entraîne. Bref, on risque d assister à la réémergence des problèmes que les entreprises cherchaient précisément à résoudre. Enfin, un mauvais traitement ETL dans Hadoop peut introduire des lourdeurs nuisibles aux performances. Par ailleurs, bien qu en répartissant le traitement et les données sur de nombreux nœuds, Hadoop obtienne une excellente évolutivité horizontale, le processus ETL reste perfectible et optimisable sur chaque nœud. BONNES PRATIQUES Pour atteindre vos objectifs métiers, vous privilégierez une méthode répondant aux critères suivants : Interface graphique synonyme de maîtrise des coûts par exploitation des compétences des développeurs ETL internes Utilisation des métadonnées pour accélérer le développement, faciliter la réutilisation, doper la productivité des départements informatiques et respecter les SLA Fonctions d optimisation intégrées pour maximiser l évolutivité verticale de Hadoop vous pouvez ainsi plus facilement atteindre vos objectifs de performance et réduire vos coûts en traitant davantage de données, en moins de temps et sur moins de nœuds. Pas de génération de code, pour éviter sur Hadoop les insuffisances de l intégration de données traditionnelle, à savoir : les optimisations manuelles constantes qui allongent les cycles de développement, du code inefficace qui nuit aux performances des nœuds, une sous-exploitation des ressources qui augmente les coûts matériels. Réalisation d un PoC (Proof of Concept) et d un stress test de votre approche sur Hadoop ETL et d autres outils ETL sur Hadoop afin de mesurer les résultats réels par rapport à vos SLA, vos impératifs de coûts, d évolutivité et de connectivité Solution Cloud capable de migrer facilement de lourdes charges ETL. Certaines entreprises peuvent avoir intérêt à adopter une solution Cloud comme Amazon Elastic MapReduce (EMR) pour déployer instantanément des clusters Hadoop. Ce recours au Cloud ne les dispense pourtant pas de trouver les outils qui leur permettront de produire rapidement des résultats. 9

10 COMMENT SYNCSORT PEUT VOUS AIDER Les solutions Syncsort Hadoop ETL aident les entreprises à atteindre leurs objectifs lorsqu elles utilisent Hadoop comme ETL dans leurs initiatives. La seule solution capable de s exécuter en natif dans MapReduce pour améliorer à la fois les performances et l efficacité sur chaque nœud Sans générer aucun code, MapReduce invoque le moteur d exécution Syncsort pour Hadoop ETL, qui s exécute sur tous les nœuds comme composant intégré à Hadoop Le code Java, Pig ou HiveQL complexe est remplacé par un environnement de développement graphique puissant et convivial Première et unique solution Hadoop «ETL-as-a-service» pour Amazon EMR, qui dope la productivité tout en exploitant l évolutivité considérable du Cloud Amazon 10

11 Étape 2 METTRE EN PLACE LA BONNE CONNECTIVITÉ POUR HADOOP Une fois vos objectifs métiers définis, l étape suivante consiste à établir toute la connectivité nécessaire pour éviter qu Hadoop ne devienne un nouveau silo au sein de votre entreprise. Les Big Data viennent de sources et cibles de données diverses et variées : bases de données relationnelles, fichiers, systèmes CRM, réseaux sociaux, etc. Or, toutes ces données doivent entrer et sortir d Hadoop, ce qui est loin d être une formalité et suppose l écriture manuelle de scripts personnalisés au moyen d une panoplie d outils spécialisés : Sqoop pour les tables de bases de données relationnelles, Hadoop fs shell pour les fichiers et Flume pour l assimilation des fichiers journaux. Les entreprises doivent également tenir compte d autres sources, comme les systèmes legacy et les mainframes. Et lorsque l on sait qu au moins 70 % des applications de production transactionnelles s exécutent encore sur des mainframes, Hadoop laisse entrevoir d importantes possibilités d analyse approfondie de ces données à moindre coût. Hadoop ne proposant pas de support natif des mainframes, le processus est manuel et fastidieux. Pour les entreprises qui traitent des milliards d enregistrements par jour, la réduction des temps de chargement dans HDFS (Hadoop Distributed File System) peut revêtir une importance capitale. Devant la croissance des volumes et des demandes métiers, la réduction des temps de chargements devient importante. Bien évidemment, la connectivité au data warehouse reste essentielle. Or, les méthodes de connectivité traditionnelles faisant appel à des outils hétéroclites ou à du codage manuel s avèrent fastidieuses car, à chaque changement, les équipes informatiques doivent entamer un lourd travail de modification qui se solde par un allongement des temps d analyse. D où le besoin de pouvoir se connecter efficacement à toutes les sources avec un même outil, sans aucun codage. Les fonctions de prétraitement des données (tri, nettoyage, filtrage et compression) améliorent les performances et permettent de réaliser d importantes économies d espace de stockage. 11

12 BONNES PRATIQUES Extraire de la valeur des Big Data requiert une connectivité étendue aux données. Plus cette connectivité est simple et rapide, plus vous exploiterez la valeur de vos données et de votre investissement Hadoop. Choisissez un outil doté de connecteurs vers une grande variété de sources (relationnelles, Cloud, fichiers et mainframe) pour simplifier l importation et l exportation de données dans/vers Hadoop Optez pour une méthode vous permettant un prétraitement des données pour gagner en efficacité Pérennisez votre approche en recourant à des partenaires engagés sur la voie des API ouvertes et de l Open Source COMMENT SYNCSORT PEUT VOUS AIDER Les solutions Syncsort Hadoop ETL intègrent des fonctions de connectivité indispensables à la réussite des déploiements Hadoop ETL. Un seul outil suffit pour connecter toutes vos sources et cibles, y compris les bases de données relationnelles, les appliances, les fichiers, le JSON, le XML, le Cloud et même les mainframes Connecte Hadoop à toutes vos données sans aucun codage Prétraitement des données avant chargement dans Hadoop pour gagner en performance et économiser du stockage Fonctionnalités uniques de lecture, traduction et distribution des données mainframe avec Hadoop API de connexion aux données permettant d exploiter sans limite de nouvelles sources et cibles de données en fonction des besoins 12

13 Étape 3 IDENTIFIER LES 20 % DE CHARGES ETL/ELT LES PLUS COÛTEUSES À ce stade, vous êtes prêt à vous lancer. Mais comment hiérarchiser et concentrer vos efforts pour obtenir les meilleurs résultats? Pendant des années, de nombreuses entreprises ont dû composer avec les contraintes de coût et de traitement liées à l utilisation de leur data warehouse pour l intégration de données. Une fois considérée comme une bonne pratique, les zones de stockage temporaire sont devenues «le secret caché» de tous les data warehouses, dans la mesure où elles mobilisent le plus de temps, de budgets et de main d œuvre informatique. C est pourquoi de nombreuses implémentations Hadoop commencent par des initiatives ETL. De par son faible coût de stockage, son excellente fiabilité et son évolutivité massive, Hadoop peut devenir la zone de stockage temporaire idéale pour toutes vos données. L exécution de transformations et traitements batch dans Hadoop permet de pallier facilement aux grosses carences de l intégration de données conventionnelle. Toutefois, pour prouver la valeur ajoutée réelle d Hadoop, créer une dynamique positive autour de l outil et s attirer l adhésion des dirigeants, les premières initiatives devront identifier les transformations de données à cibler en priorité. En règle générale, les 20 % de charges ETL/ELT les plus coûteuses consomment jusqu à 80 % de la capacité de traitement. En conséquence, elles absorbent une quantité importante de vos ressources financières et informatiques, tant matérielles qu humaines, pour l optimisation et la maintenance. En ciblant prioritairement ces 20 %, vous accélérerez et optimiserez le retour sur investissement de votre projet Hadoop ETL. Les économies d exploitation et de coûts de base de données peuvent alors bénéficier au financement d initiatives plus stratégiques. 13

14 BONNES PRATIQUES Lorsque vous identifiez les 20 % de transformations à migrer prioritairement vers Hadoop, cherchez des flux présentant une ou plusieurs des problématiques suivantes : Temps de traitement relativement élevés Scripts très complexes : change data capture (CDC), dimensions changeantes, agrégats, tables volatiles, jointures multiples, fusions, curseurs et unions Fichiers et données semi-structurées comme des journaux Web et analyses clickstream Impact élevé sur les ressources, notamment les processeurs, la mémoire et le stockage Code instable et source d erreurs COMMENT SYNCSORT PEUT VOUS AIDER Pour placer votre projet Hadoop ETL sur de bons rails, les solutions Syncsort présentent de nombreux avantages : Analyse et compréhension de scripts SQL complexes au moyen d outils intelligents et auto-documentés Migration de milliers de lignes de code vers quelques opérations Syncsort Hadoop ETL graphiques Identification et résolution rapide des erreurs de données grâce à des fonctions évoluées de journalisation et de débogage 14

15 Étape 4 RECRÉER DES TRANSFORMATIONS ÉQUIVALENTES DANS MAPREDUCE Une fois les charges ETL prioritaires identifiées, l étape suivante consiste à comprendre toutes les transformations de données effectuées dans le data warehouse, puis à les répliquer dans Hadoop. Or, les variantes SQL propriétaires comme Teradata BTEQ ou Oracle PL/SQL, dont les métadonnées et la documentation sont limitées, compliquent notablement cette étape. Une fois que vous avez bien appréhendé les difficultés des opérations ETL en SQL, vous disposez d un écosystème foisonnant d utilitaires Hadoop pour créer des opérations ETL. Seul problème, tous ces projets évoluent de manière indépendante et exigent de nouvelles compétences spécialisées. Les développeurs doivent maîtriser Java, HiveQL et Pig pour créer des opérations MapReduce ETL efficaces. Or, non seulement ce codage manuel freine la productivité, mais il exige aussi le plus souvent de bien maîtriser Hadoop et MapReduce, notamment pour les fonctions définies par l utilisateur (UDF, User-Defined Function). De plus, certains scripts peuvent occasionner des charges supplémentaires et, même écrits par des développeurs chevronnés, ils devront passer par de nombreuses itérations avant d atteindre une performance optimale. Par exemple, les instructions HiveQL sont traduites en opérations MapReduce avant d être soumises à Hadoop, augmentant par là-même le temps de traitement. 15

16 L ETL DANS HADOOP À L HEURE ACTUELLE Avec Hadoop, les transformations de données peuvent vite devenir complexes. Pour combler le fossé existant entre Hadoop et le traitement ETL (les activités de tri, jointure, agrégation et connexion), un codage manuel complexe s impose. Au final, on en revient donc aux lourdeurs et aux coûts élevés de l intégration de données traditionnelle. De même, le développement d un flux de données avancé comme du CDC (Change-Data- Capture), une pratique aujourd hui courante pour l ETL est encore plus difficile dans Hadoop. Les ensembles de données sont généralement beaucoup plus volumineux et distribués sur des nœuds de données dans HDFS : les enregistrements doivent être colocalisés pour en déterminer les changements ; vient ensuite une longue phase de codage et d optimisation (plusieurs centaines de lignes de code) nécessaire pour obtenir des performances acceptables. 16

17 BONNES PRATIQUES Utilisez des raccourcis pour amorcer le processus d offload de votre data warehouse : Commencez par analyser, étudier et documenter les transformations et traitements complexes exécutés dans le data warehouse Utilisez des outils à interface graphique pour développer rapidement les pratiques ETL types et migrez-les en premier Évitez les outils exigeant un codage manuel Pour exploiter vos compétences en programmation, optez pour des outils à interface graphique et dotés de fonctions d intégration de données COMMENT SYNCSORT PEUT VOUS AIDER Les solutions Syncsort Hadoop ETL proposent des outils d intégration de données éprouvés qui simplifient la création et la maintenance des opérations Hadoop ETL : Possibilités de développer et tester en local, dans une interface graphique Windows, avant déploiement dans Hadoop Nombreuses transformations intégrées, notamment des opérations MapReduce avec Mappers et Reducers prêts à l emploi Bibliothèque de modèles types pour une prise en main et un développement rapide des opérations ETL standard dans Hadoop (CDC, agrégation, jointures, etc.) Fonctionnalités de métadonnées intégrées pour une amélioration des taux de réutilisation, des analyses d impact et de la traçabilité des données. 17

18 Étape 5 OPTEZ POUR UN ENVIRONNEMENT ETL HADOOP PRÊT POUR VOTRE ENTREPRISE À l heure où de plus en plus de processus ETL sont réaffectés à Hadoop, la solution doit s appuyer sur des bases solides et pérennes. En effet, toute incapacité à tenir les délais et les SLA de vos traitements ETL risque de mettre en péril votre transition vers Hadoop. Pour sa part, l entreprise exige le même niveau de fonctionnalité et de services qu avec ses outils conventionnels d intégration de données, mais en plus vite et en moins cher. Certes, Hadoop abaisse les coûts de traitement de gros volumes de données. Mais son déploiement dans toute l entreprise est loin d être gratuit. De fait, les coûts en matériel et en main d œuvre informatique peuvent sérieusement compromettre le retour sur investissement. Même si Hadoop tourne sur des machines standard, à l échelle d un grand nombre de nœuds, la facture matérielle augmente. Par ailleurs, la programmation HiveQL, Pig, Java, MapReduce, etc. peut également s avérer coûteuse et impacter la productivité. De nombreux outils d intégration de données fonctionnant en périphérie d Hadoop génèrent du code Hive, Pig ou Java, et ajoutent une couche supplémentaire qui nuit aux performances. C est pourquoi les solutions ETL «zéro code» étroitement intégrées à Hadoop sont plus simples à déployer et à gérer, sans impact sur les performances et sans contrepartie en aval. L un des inconvénients d une transformation des données dans un data warehouse tel que Teradata porte sur l absence de métadonnées : toute analyse d impact, suivi des opérations ou réutilisation s avère donc impossible. Les scripts BTEQ, composés le plus souvent de milliers de lignes de code, doivent être réécrits et gérés manuellement pour chaque opération. Pour simplifier la gestion, favoriser la réutilisation et garantir le respect des SLA, il est donc essentiel que le système ETL Hadoop puisse prendre en charge les métadonnées. L information compte parmi les ressources les plus précieuses d une entreprise. Le Big Data représente un défi lourd de responsabilité. D où l importance de fournir une sécurité d entreprise aux données dans Hadoop. Or, Hadoop n offre que des moyens limités pour la protection des processus d intégration de données. Bien que certains outils ETL disposent d interfaces graphiques et des fonctions de connectivité nécessaires, ils appliquent aussi leurs propres modèles de sécurité, ce qui n est pas sans poser certains problèmes d intégration et de synchronisation avec les dispositifs en place dans votre entreprise. Vous devrez donc vous appuyer sur l infrastructure de sécurité existante pour renforcer la protection du processus d intégration de données. 18

19 BONNES PRATIQUES Garantissez le respect des SLA lors de l offload de votre data warehouse vers l ETL Hadoop pour faciliter la mise en place de projets Hadoop futurs. Pour ce faire, vous devrez : Déterminer comment les différentes solutions interagissent avec Hadoop, ainsi que le type et la quantité de code qu elles génèrent Identifier une méthode capable de compléter les avantages de l Open Source pour réaliser des économies tout en gagnant en efficacité Envisager un outil intégrable en natif à Hadoop pour respecter les SLA et éviter les lourdeurs superflues Rechercher des solutions dotées d un référentiel de métadonnées qui permettra de réutiliser les développements et de tracer les données Veiller à ne pas compromettre la sécurité. Une méthode viable doit exploiter l infrastructure existante pour contrôler et sécuriser toutes vos données Rechercher des outils proposant des approches évolutives pour le déploiement, le suivi et l administration de votre environnement ETL Hadoop 19

20 COMMENT SYNCSORT PEUT VOUS AIDER Les solutions Syncsort Hadoop ETL proposent aux entreprises une approche clé en main de l ETL Hadoop. Exécution native dans Hadoop le moteur d exécution se déploie sur tous les nœuds comme partie intégrante du framework Hadoop Intégration étroite à toutes les distributions Hadoop courantes, dont Apache, Cloudera, Hortonworks, MapR, PivotalHD et même Amazon EMR Intégration transparente à Cloudera Manager pour le déploiement et la mise à niveau en un clic des solutions Syncsort Hadoop ETL sur l ensemble du cluster Hadoop Intégration complète à Hadoop Jobtracker pour faciliter le suivi des opérations ETL MapReduce Intégration aux clusters Hadoop pour une optimisation transparente des opérations HiveQL et MapReduce existantes, gage d amélioration des performances et de gain d efficacité des clusters Hadoop Optimisation ETL automatique en fonction des opérations et des ressources disponibles pour améliorer les performances et l efficacité sur chaque nœud Prise en charge des protocoles d authentification LDAP et Kerberos pour une sécurité renforcée des données 20

21 Conclusion Pour réduire leurs coûts et libérer de la capacité sur leurs bases de données, de nombreuses entreprises transfèrent actuellement des traitements ETL du data warehouse vers Hadoop. Elles livrent ainsi des analyses plus rapides et accélèrent le traitement des requêtes utilisateur. Pourtant, Hadoop n est pas une solution ETL proprement dite : sa vocation première est celle d un système d exploitation pour les Big Data. Pour produire les résultats escomptés, l outil doit donc être associé à une véritable solution ETL d entreprise. Que vous choisissiez les solutions Syncsort Hadoop ETL ou une autre méthode, ces cinq étapes vous aideront à offloader certaines charges de votre data warehouse vers Hadoop, à surmonter les principales difficultés et à mettre en place les bonnes pratiques qui garantiront une intégration rapide des données et le succès de vos projets Hadoop futurs. Étape 1 : Cerner et définir vos objectifs métiers. Réduction des coûts, exploitation d un plus grand volume de données, respect des SLA quelles que soient vos priorités, fixez des objectifs clairs pour mieux définir la migration de vos charges ETL coûteuses du data warehouse vers Hadoop. Pour atteindre ces objectifs, adoptez une approche qui mise sur les compétences de vos développeurs, vous offre des fonctionnalités ETL avancées et s exécute en natif dans Hadoop pour l optimisation des performances ETL. Étape 2 : Mettre en place la bonne connectivité pour Hadoop. Attention à ne pas faire d Hadoop un nouveau silo au sein de votre entreprise. La valorisation de vos Big Data passe par une connectivité étendue à vos données ; ce qui est possible avec Hadoop, mais seulement au prix d importants développements manuels. Si vous disposez d un outil offrant l accès à toutes les sources et cibles de données sans codage manuel, vous capitalisez sur toutes vos données tout en accélérant le retour sur votre investissement Hadoop. Étape 3 : Identifier les 20 % de charges ETL/ELT les plus coûteuses. En règle générale, les 20 % de charges de transformation des données les plus coûteuses consomment jusqu à 80 % des capacités de traitement. En conséquence, elles absorbent une quantité importante de vos ressources financières et informatiques, tant matérielles qu humaines pour l optimisation et la maintenance. Pour raccourcir vos délais d amortissement et améliorer le ROI de vos projets ETL Hadoop, commencez par offloader ces charges. 21

22 Étape 4 : Recréer des transformations équivalentes dans MapReduce. Les transformations de données peuvent vite s avérer complexes dans Hadoop. De fait, elles requièrent des compétences en Java, Pig et HiveQL, ainsi qu une connaissance approfondie d Hadoop et de MapReduce pour réaliser le codage et les optimisations manuelles nécessaires. Pour les transformations, les tâches ETL courantes et la gestion des métadonnées, vous privilégierez donc une solution ETL dotée d une interface graphique capable de faciliter la création et la maintenance des opérations Hadoop ETL. Étape 5 : Opter pour un environnement ETL Hadoop prêt pour votre entreprise. Sans respect des SLA liés aux traitements ETL, difficile de maintenir vos projets Hadoop à flots. Privilégiez des fonctionnalités qui facilitent les déploiements à grande échelle, le suivi et l administration, et la protection des données dans Hadoop, afin de préparer vos futures initiatives. Parmi ces fonctionnalités figurent l intégration native à Hadoop, l optimisation des performances et l exploitation des infrastructures de sécurité existantes. 22

23 INFORMATION SYNCSORT Pour les entreprises appelées à gérer un flux constant de Big Data, Syncsort offre une méthode plus intelligente de collecte et de traitement de volumes de données en pleine explosion. Avec des milliers de déploiements à son actif sur les plus grandes plates-formes, notamment les mainframes, Syncsort aide ses clients du monde entier à repousser les limites architecturales des environnements ETL et Hadoop pour obtenir de meilleurs résultats, plus rapidement, avec moins de ressources et un TCO en baisse. Pour en savoir plus, rendez-vous sur CE GUIDE VOUS A ÉTÉ UTILE? FAITES-LE DÉCOUVRIR À D AUTRES! 2014 Syncsort Incorporated. Tous droits réservés. DMExpress est une marque déposée de Syncsort Incorporated. Tous les autres noms de produits et marques cités appartiennent à leurs propriétaires respectifs. DMXH-EB FR