5 étapes pour. Allégez la pression sur. et vos budgets AVEC HADOOP GUIDE DE DÉMARRAGE

Dimension: px
Commencer à balayer dès la page:

Download "5 étapes pour. Allégez la pression sur. et vos budgets AVEC HADOOP GUIDE DE DÉMARRAGE"

Transcription

1 5 étapes pour AVEC HADOOP GUIDE DE DÉMARRAGE Allégez la pression sur votre data warehouse et vos budgets

2 SOMMAIRE Intro : Comment en sommes-nous arrivés là? Historique du phénomène ETL L opportunité Hadoop Étape 1 : Comprendre et définir les objectifs métiers Étape 2 : Mettre en place la bonne connectivité pour Hadoop Étape 3 : Identifier les 20 % de charges ETL/ELT les plus coûteuses Étape 4 : Recréer les transformations équivalentes dans MapReduce Étape 5 : Rendez votre environnement ETL Hadoop prêt pour votre entreprise Conclusion

3 Comment en sommes-nous arrivés là? Historique du phénomène ETL. On dit que savoir, c est pouvoir. Or, sachant que les données produisent de l information, et que cette information produit du savoir, les données ne sont-elles pas en définitive la source de ce pouvoir? C est pourquoi les entreprises s appuient de plus en plus sur leurs données pour améliorer leurs décisions stratégiques. Mais à quel prix? Aujourd hui, l univers des données se mesure en trillions de gigaoctets. Pour en concrétiser le potentiel, l intégration de données, et plus précisément l ETL (Extract-Transform-Load), s est imposé comme la solution. L ETL est le processus qui consiste à extraire les données brutes des systèmes sources, à les transformer dans un format exploitable, puis à les charger dans un système cible à des fins d analyses avancées et de reporting. Pendant des années, les entreprises ont peiné à faire évoluer leurs architectures ETL traditionnelles pour tenir la cadence imposée par les trois «V» du phénomène Big Data : Volume, Vitesse et Variété des données. Totalement dépassées, les plates-formes d intégration de données ont contraint les départements informatiques à pousser les opérations de transformation dans le data warehouse. L ETL est ainsi devenu ELT (Extract-Load-Transform). Or, cette méthode s est rapidement avérée coûteuse et inefficace. L intégration de données consomme désormais jusqu à 80 % de la capacité des bases de données. Résultat : des dépenses insoutenables, des efforts d optimisation et de maintenance permanents, et des réponses lentes aux requêtes utilisateurs. 3

4 70 % DES DATA WAREHOUSES SONT CONTRAINTS DANS LEURS CAPACITÉS ET LEURS PERFORMANCES d après le Gartner Sans surprise, la plupart des entreprises citent le coût total de possession (TCO) comme le problème n 1 de leurs outils d intégration de données. Et pendant ce temps, les volumes de données, eux, continuent de gonfler. Concrètement, IDC prévoit un doublement des volumes de données tous les deux ans. Sachant que la courbe n est pas prête de s infléchir, les entreprises ont commencé à se tourner vers Hadoop pour collecter, traiter et distribuer des données toujours plus volumineuses. En transférant les opérations ETL vers Hadoop, elles épargnent à leur data warehouse des tâches de transformation lourdes. Ce faisant, elles parviennent à réduire considérablement leurs coûts et à libérer des capacités de leur base de données pour accélérer leurs analyses et raccourcir les temps de réponse aux requêtes utilisateurs. 4

5 L opportunité Hadoop Hadoop s est rapidement imposé comme le système d exploitation de facto pour la gestion des Big Data. Ses avantages : une évolutivité horizontale exceptionnelle et des services système qui permettent aux développeurs de créer des applications Big Data à un coût étonnamment bas. Selon de nombreuses estimations, la gestion des données dans Hadoop coûterait entre 250 $ et $ par téraoctet de données, contre $ à $ dans des data warehouses comme Teradata. C est pourquoi de nombreuses entreprises se lancent dans des projets ETL Hadoop afin de capitaliser sur l efficacité et la puissance de l outil. Mais voilà, Hadoop ne constitue en rien une solution ETL complète. En clair, bien qu il offre d excellents utilitaires et une évolutivité horizontale quasi illimitée, Hadoop n intègre pas toutes les fonctionnalités dont les utilisateurs ont besoin pour leurs opérations ETL. Dans la plupart des cas, pour pallier à ces lacunes, on développe en code, ce qui ralentit l adoption d Hadoop et génère des frustrations au sein d entreprises impatientes de récolter les fruits de leur investissement. Or, il existe un moyen d associer les avantages de l ETL haute performance à ceux d Hadoop pour libérer les capacités de votre data warehouse tout en bénéficiant d une solution ETL complète. En comblant le vide entre Hadoop et l ETL d entreprise, les solutions Syncsort Hadoop ETL transforment Hadoop en une solution ETL plus robuste et plus fonctionnelle. Les logiciels ETL haute performance de Syncsort permettent d exploiter tous les avantages de MapReduce, sans compromis sur les fonctionnalités et l ergonomie des outils ETL conventionnels. Avec les solutions Syncsort Hadoop ETL, les entreprises exploitent tout le potentiel d Hadoop, via la seule architecture capable d exécuter les processus ETL en natif dans Hadoop. 5

6 UNE NOUVELLE ARCHITECTURE POUR L ANALYSE DES BIG DATA Ce guide propose de vous accompagner à travers cinq étapes de démarrage de l offload de votre data warehouse vers Hadoop. Vous y trouverez également des conseils pratiques pour surmonter les principales difficultés et accélérer vos activités d intégration de données. Quel que soit l outil choisi, ces étapes vous permettront d alléger la charge de votre data warehouse pour le recentrer sur sa fonction première : fournir des informations via des analyses performantes et des réponses rapides aux requêtes des utilisateurs. 6

7 Étape 1 COMPRENDRE ET DÉFINIR LES OBJECTIFS MÉTIERS La plupart des entreprises ont dépensé énormément de temps et d argent dans la création de leur infrastructure d intégration de données. Mais les demandes croissantes d informations se sont révélées trop lourdes à supporter pour les architectures traditionnelles, et ce sur plusieurs fronts : Coûts : L affectation de transformations de données lourdes au data warehouse engendre des coûts et une complexité intolérables. Sachant que les traitements ELT comptent pour 40 à 80 % des charges des bases de données, il n est pas rare de voir des entreprises dépenser plus de par an dans l achat de capacités Teradata supplémentaires et ce juste pour maintenir la tête hors de l eau! Volumes de données : Pour prendre les bonnes décisions et déceler de nouvelles opportunités, les entreprises doivent se connecter à des sources de données toujours plus nombreuses et plus volumineuses. Or, face à des volumes qui gonflent sans cesse, les technologies traditionnelles et les approches manuelles ont atteint leurs limites. Accords de niveaux de service (SLA) : L infrastructure existante étant incapable de respecter les engagements SLA, les délais de reporting passent de plusieurs heures à plusieurs jours, voire plusieurs semaines, engendrant ainsi le mécontentement des utilisateurs. Réduction des coûts, exploitation d un plus grand volume de données, respect des SLA quelles que soient leurs priorités, de nombreuses entreprises se retrouvent contraintes à rechercher une approche alternative. En plaçant les données de l entreprise au service de sa compétitivité, Hadoop s est imposé comme l outil de choix pour répondre à des questions auparavant insolubles, accélérer les temps d analyse et réduire les coûts globaux de gestion des données. 7

8 En offloadant les charges ETL lourdes du data warehouse vers Hadoop, les entreprises peuvent rapidement valoriser leurs données : Réduction des fenêtres de traitement Données plus actuelles et plus pertinentes Accélération des temps d analyse Bases de données plus réactives aux requêtes utilisateur Économie de centaines de milliers de dollars de dépenses annuelles dans le data warehouse Néanmoins, il convient de rappeler qu Hadoop n est pas à proprement parler un outil de traitement ETL, mais un système d exploitation qui, dès lors qu il est associé aux outils adéquats, vous permet d exploiter toute la puissance des Big Data. Il n est donc pas réaliste d en attendre les mêmes résultats qu une solution ETL haute performance. Lorsqu elles se reposent uniquement sur Hadoop pour le traitement ETL, les entreprises se retrouvent confrontées à trois grandes difficultés. Tout d abord, les programmeurs Hadoop expérimentés sont rares et coûtent cher. La création d opérations ETL dans MapReduce suppose des connaissances approfondies en Pig, Hive et Sqoop une denrée rare dans la plupart des entreprises. 8

9 Ensuite, la perspective de perdre la fonction «ETL d entreprise», avec ses interfaces graphiques, ses métadonnées, ses possibilités de réutilisation et sa connectivité, remet en cause les gains de productivité escomptés. D autant qu un retour vers un codage complexe se traduirait par un allongement des cycles de développement, avec les soucis de maintenance et de réutilisation que cela entraîne. Bref, on risque d assister à la réémergence des problèmes que les entreprises cherchaient précisément à résoudre. Enfin, un mauvais traitement ETL dans Hadoop peut introduire des lourdeurs nuisibles aux performances. Par ailleurs, bien qu en répartissant le traitement et les données sur de nombreux nœuds, Hadoop obtienne une excellente évolutivité horizontale, le processus ETL reste perfectible et optimisable sur chaque nœud. BONNES PRATIQUES Pour atteindre vos objectifs métiers, vous privilégierez une méthode répondant aux critères suivants : Interface graphique synonyme de maîtrise des coûts par exploitation des compétences des développeurs ETL internes Utilisation des métadonnées pour accélérer le développement, faciliter la réutilisation, doper la productivité des départements informatiques et respecter les SLA Fonctions d optimisation intégrées pour maximiser l évolutivité verticale de Hadoop vous pouvez ainsi plus facilement atteindre vos objectifs de performance et réduire vos coûts en traitant davantage de données, en moins de temps et sur moins de nœuds. Pas de génération de code, pour éviter sur Hadoop les insuffisances de l intégration de données traditionnelle, à savoir : les optimisations manuelles constantes qui allongent les cycles de développement, du code inefficace qui nuit aux performances des nœuds, une sous-exploitation des ressources qui augmente les coûts matériels. Réalisation d un PoC (Proof of Concept) et d un stress test de votre approche sur Hadoop ETL et d autres outils ETL sur Hadoop afin de mesurer les résultats réels par rapport à vos SLA, vos impératifs de coûts, d évolutivité et de connectivité Solution Cloud capable de migrer facilement de lourdes charges ETL. Certaines entreprises peuvent avoir intérêt à adopter une solution Cloud comme Amazon Elastic MapReduce (EMR) pour déployer instantanément des clusters Hadoop. Ce recours au Cloud ne les dispense pourtant pas de trouver les outils qui leur permettront de produire rapidement des résultats. 9

10 COMMENT SYNCSORT PEUT VOUS AIDER Les solutions Syncsort Hadoop ETL aident les entreprises à atteindre leurs objectifs lorsqu elles utilisent Hadoop comme ETL dans leurs initiatives. La seule solution capable de s exécuter en natif dans MapReduce pour améliorer à la fois les performances et l efficacité sur chaque nœud Sans générer aucun code, MapReduce invoque le moteur d exécution Syncsort pour Hadoop ETL, qui s exécute sur tous les nœuds comme composant intégré à Hadoop Le code Java, Pig ou HiveQL complexe est remplacé par un environnement de développement graphique puissant et convivial Première et unique solution Hadoop «ETL-as-a-service» pour Amazon EMR, qui dope la productivité tout en exploitant l évolutivité considérable du Cloud Amazon 10

11 Étape 2 METTRE EN PLACE LA BONNE CONNECTIVITÉ POUR HADOOP Une fois vos objectifs métiers définis, l étape suivante consiste à établir toute la connectivité nécessaire pour éviter qu Hadoop ne devienne un nouveau silo au sein de votre entreprise. Les Big Data viennent de sources et cibles de données diverses et variées : bases de données relationnelles, fichiers, systèmes CRM, réseaux sociaux, etc. Or, toutes ces données doivent entrer et sortir d Hadoop, ce qui est loin d être une formalité et suppose l écriture manuelle de scripts personnalisés au moyen d une panoplie d outils spécialisés : Sqoop pour les tables de bases de données relationnelles, Hadoop fs shell pour les fichiers et Flume pour l assimilation des fichiers journaux. Les entreprises doivent également tenir compte d autres sources, comme les systèmes legacy et les mainframes. Et lorsque l on sait qu au moins 70 % des applications de production transactionnelles s exécutent encore sur des mainframes, Hadoop laisse entrevoir d importantes possibilités d analyse approfondie de ces données à moindre coût. Hadoop ne proposant pas de support natif des mainframes, le processus est manuel et fastidieux. Pour les entreprises qui traitent des milliards d enregistrements par jour, la réduction des temps de chargement dans HDFS (Hadoop Distributed File System) peut revêtir une importance capitale. Devant la croissance des volumes et des demandes métiers, la réduction des temps de chargements devient importante. Bien évidemment, la connectivité au data warehouse reste essentielle. Or, les méthodes de connectivité traditionnelles faisant appel à des outils hétéroclites ou à du codage manuel s avèrent fastidieuses car, à chaque changement, les équipes informatiques doivent entamer un lourd travail de modification qui se solde par un allongement des temps d analyse. D où le besoin de pouvoir se connecter efficacement à toutes les sources avec un même outil, sans aucun codage. Les fonctions de prétraitement des données (tri, nettoyage, filtrage et compression) améliorent les performances et permettent de réaliser d importantes économies d espace de stockage. 11

12 BONNES PRATIQUES Extraire de la valeur des Big Data requiert une connectivité étendue aux données. Plus cette connectivité est simple et rapide, plus vous exploiterez la valeur de vos données et de votre investissement Hadoop. Choisissez un outil doté de connecteurs vers une grande variété de sources (relationnelles, Cloud, fichiers et mainframe) pour simplifier l importation et l exportation de données dans/vers Hadoop Optez pour une méthode vous permettant un prétraitement des données pour gagner en efficacité Pérennisez votre approche en recourant à des partenaires engagés sur la voie des API ouvertes et de l Open Source COMMENT SYNCSORT PEUT VOUS AIDER Les solutions Syncsort Hadoop ETL intègrent des fonctions de connectivité indispensables à la réussite des déploiements Hadoop ETL. Un seul outil suffit pour connecter toutes vos sources et cibles, y compris les bases de données relationnelles, les appliances, les fichiers, le JSON, le XML, le Cloud et même les mainframes Connecte Hadoop à toutes vos données sans aucun codage Prétraitement des données avant chargement dans Hadoop pour gagner en performance et économiser du stockage Fonctionnalités uniques de lecture, traduction et distribution des données mainframe avec Hadoop API de connexion aux données permettant d exploiter sans limite de nouvelles sources et cibles de données en fonction des besoins 12

13 Étape 3 IDENTIFIER LES 20 % DE CHARGES ETL/ELT LES PLUS COÛTEUSES À ce stade, vous êtes prêt à vous lancer. Mais comment hiérarchiser et concentrer vos efforts pour obtenir les meilleurs résultats? Pendant des années, de nombreuses entreprises ont dû composer avec les contraintes de coût et de traitement liées à l utilisation de leur data warehouse pour l intégration de données. Une fois considérée comme une bonne pratique, les zones de stockage temporaire sont devenues «le secret caché» de tous les data warehouses, dans la mesure où elles mobilisent le plus de temps, de budgets et de main d œuvre informatique. C est pourquoi de nombreuses implémentations Hadoop commencent par des initiatives ETL. De par son faible coût de stockage, son excellente fiabilité et son évolutivité massive, Hadoop peut devenir la zone de stockage temporaire idéale pour toutes vos données. L exécution de transformations et traitements batch dans Hadoop permet de pallier facilement aux grosses carences de l intégration de données conventionnelle. Toutefois, pour prouver la valeur ajoutée réelle d Hadoop, créer une dynamique positive autour de l outil et s attirer l adhésion des dirigeants, les premières initiatives devront identifier les transformations de données à cibler en priorité. En règle générale, les 20 % de charges ETL/ELT les plus coûteuses consomment jusqu à 80 % de la capacité de traitement. En conséquence, elles absorbent une quantité importante de vos ressources financières et informatiques, tant matérielles qu humaines, pour l optimisation et la maintenance. En ciblant prioritairement ces 20 %, vous accélérerez et optimiserez le retour sur investissement de votre projet Hadoop ETL. Les économies d exploitation et de coûts de base de données peuvent alors bénéficier au financement d initiatives plus stratégiques. 13

14 BONNES PRATIQUES Lorsque vous identifiez les 20 % de transformations à migrer prioritairement vers Hadoop, cherchez des flux présentant une ou plusieurs des problématiques suivantes : Temps de traitement relativement élevés Scripts très complexes : change data capture (CDC), dimensions changeantes, agrégats, tables volatiles, jointures multiples, fusions, curseurs et unions Fichiers et données semi-structurées comme des journaux Web et analyses clickstream Impact élevé sur les ressources, notamment les processeurs, la mémoire et le stockage Code instable et source d erreurs COMMENT SYNCSORT PEUT VOUS AIDER Pour placer votre projet Hadoop ETL sur de bons rails, les solutions Syncsort présentent de nombreux avantages : Analyse et compréhension de scripts SQL complexes au moyen d outils intelligents et auto-documentés Migration de milliers de lignes de code vers quelques opérations Syncsort Hadoop ETL graphiques Identification et résolution rapide des erreurs de données grâce à des fonctions évoluées de journalisation et de débogage 14

15 Étape 4 RECRÉER DES TRANSFORMATIONS ÉQUIVALENTES DANS MAPREDUCE Une fois les charges ETL prioritaires identifiées, l étape suivante consiste à comprendre toutes les transformations de données effectuées dans le data warehouse, puis à les répliquer dans Hadoop. Or, les variantes SQL propriétaires comme Teradata BTEQ ou Oracle PL/SQL, dont les métadonnées et la documentation sont limitées, compliquent notablement cette étape. Une fois que vous avez bien appréhendé les difficultés des opérations ETL en SQL, vous disposez d un écosystème foisonnant d utilitaires Hadoop pour créer des opérations ETL. Seul problème, tous ces projets évoluent de manière indépendante et exigent de nouvelles compétences spécialisées. Les développeurs doivent maîtriser Java, HiveQL et Pig pour créer des opérations MapReduce ETL efficaces. Or, non seulement ce codage manuel freine la productivité, mais il exige aussi le plus souvent de bien maîtriser Hadoop et MapReduce, notamment pour les fonctions définies par l utilisateur (UDF, User-Defined Function). De plus, certains scripts peuvent occasionner des charges supplémentaires et, même écrits par des développeurs chevronnés, ils devront passer par de nombreuses itérations avant d atteindre une performance optimale. Par exemple, les instructions HiveQL sont traduites en opérations MapReduce avant d être soumises à Hadoop, augmentant par là-même le temps de traitement. 15

16 L ETL DANS HADOOP À L HEURE ACTUELLE Avec Hadoop, les transformations de données peuvent vite devenir complexes. Pour combler le fossé existant entre Hadoop et le traitement ETL (les activités de tri, jointure, agrégation et connexion), un codage manuel complexe s impose. Au final, on en revient donc aux lourdeurs et aux coûts élevés de l intégration de données traditionnelle. De même, le développement d un flux de données avancé comme du CDC (Change-Data- Capture), une pratique aujourd hui courante pour l ETL est encore plus difficile dans Hadoop. Les ensembles de données sont généralement beaucoup plus volumineux et distribués sur des nœuds de données dans HDFS : les enregistrements doivent être colocalisés pour en déterminer les changements ; vient ensuite une longue phase de codage et d optimisation (plusieurs centaines de lignes de code) nécessaire pour obtenir des performances acceptables. 16

17 BONNES PRATIQUES Utilisez des raccourcis pour amorcer le processus d offload de votre data warehouse : Commencez par analyser, étudier et documenter les transformations et traitements complexes exécutés dans le data warehouse Utilisez des outils à interface graphique pour développer rapidement les pratiques ETL types et migrez-les en premier Évitez les outils exigeant un codage manuel Pour exploiter vos compétences en programmation, optez pour des outils à interface graphique et dotés de fonctions d intégration de données COMMENT SYNCSORT PEUT VOUS AIDER Les solutions Syncsort Hadoop ETL proposent des outils d intégration de données éprouvés qui simplifient la création et la maintenance des opérations Hadoop ETL : Possibilités de développer et tester en local, dans une interface graphique Windows, avant déploiement dans Hadoop Nombreuses transformations intégrées, notamment des opérations MapReduce avec Mappers et Reducers prêts à l emploi Bibliothèque de modèles types pour une prise en main et un développement rapide des opérations ETL standard dans Hadoop (CDC, agrégation, jointures, etc.) Fonctionnalités de métadonnées intégrées pour une amélioration des taux de réutilisation, des analyses d impact et de la traçabilité des données. 17

18 Étape 5 OPTEZ POUR UN ENVIRONNEMENT ETL HADOOP PRÊT POUR VOTRE ENTREPRISE À l heure où de plus en plus de processus ETL sont réaffectés à Hadoop, la solution doit s appuyer sur des bases solides et pérennes. En effet, toute incapacité à tenir les délais et les SLA de vos traitements ETL risque de mettre en péril votre transition vers Hadoop. Pour sa part, l entreprise exige le même niveau de fonctionnalité et de services qu avec ses outils conventionnels d intégration de données, mais en plus vite et en moins cher. Certes, Hadoop abaisse les coûts de traitement de gros volumes de données. Mais son déploiement dans toute l entreprise est loin d être gratuit. De fait, les coûts en matériel et en main d œuvre informatique peuvent sérieusement compromettre le retour sur investissement. Même si Hadoop tourne sur des machines standard, à l échelle d un grand nombre de nœuds, la facture matérielle augmente. Par ailleurs, la programmation HiveQL, Pig, Java, MapReduce, etc. peut également s avérer coûteuse et impacter la productivité. De nombreux outils d intégration de données fonctionnant en périphérie d Hadoop génèrent du code Hive, Pig ou Java, et ajoutent une couche supplémentaire qui nuit aux performances. C est pourquoi les solutions ETL «zéro code» étroitement intégrées à Hadoop sont plus simples à déployer et à gérer, sans impact sur les performances et sans contrepartie en aval. L un des inconvénients d une transformation des données dans un data warehouse tel que Teradata porte sur l absence de métadonnées : toute analyse d impact, suivi des opérations ou réutilisation s avère donc impossible. Les scripts BTEQ, composés le plus souvent de milliers de lignes de code, doivent être réécrits et gérés manuellement pour chaque opération. Pour simplifier la gestion, favoriser la réutilisation et garantir le respect des SLA, il est donc essentiel que le système ETL Hadoop puisse prendre en charge les métadonnées. L information compte parmi les ressources les plus précieuses d une entreprise. Le Big Data représente un défi lourd de responsabilité. D où l importance de fournir une sécurité d entreprise aux données dans Hadoop. Or, Hadoop n offre que des moyens limités pour la protection des processus d intégration de données. Bien que certains outils ETL disposent d interfaces graphiques et des fonctions de connectivité nécessaires, ils appliquent aussi leurs propres modèles de sécurité, ce qui n est pas sans poser certains problèmes d intégration et de synchronisation avec les dispositifs en place dans votre entreprise. Vous devrez donc vous appuyer sur l infrastructure de sécurité existante pour renforcer la protection du processus d intégration de données. 18

19 BONNES PRATIQUES Garantissez le respect des SLA lors de l offload de votre data warehouse vers l ETL Hadoop pour faciliter la mise en place de projets Hadoop futurs. Pour ce faire, vous devrez : Déterminer comment les différentes solutions interagissent avec Hadoop, ainsi que le type et la quantité de code qu elles génèrent Identifier une méthode capable de compléter les avantages de l Open Source pour réaliser des économies tout en gagnant en efficacité Envisager un outil intégrable en natif à Hadoop pour respecter les SLA et éviter les lourdeurs superflues Rechercher des solutions dotées d un référentiel de métadonnées qui permettra de réutiliser les développements et de tracer les données Veiller à ne pas compromettre la sécurité. Une méthode viable doit exploiter l infrastructure existante pour contrôler et sécuriser toutes vos données Rechercher des outils proposant des approches évolutives pour le déploiement, le suivi et l administration de votre environnement ETL Hadoop 19

20 COMMENT SYNCSORT PEUT VOUS AIDER Les solutions Syncsort Hadoop ETL proposent aux entreprises une approche clé en main de l ETL Hadoop. Exécution native dans Hadoop le moteur d exécution se déploie sur tous les nœuds comme partie intégrante du framework Hadoop Intégration étroite à toutes les distributions Hadoop courantes, dont Apache, Cloudera, Hortonworks, MapR, PivotalHD et même Amazon EMR Intégration transparente à Cloudera Manager pour le déploiement et la mise à niveau en un clic des solutions Syncsort Hadoop ETL sur l ensemble du cluster Hadoop Intégration complète à Hadoop Jobtracker pour faciliter le suivi des opérations ETL MapReduce Intégration aux clusters Hadoop pour une optimisation transparente des opérations HiveQL et MapReduce existantes, gage d amélioration des performances et de gain d efficacité des clusters Hadoop Optimisation ETL automatique en fonction des opérations et des ressources disponibles pour améliorer les performances et l efficacité sur chaque nœud Prise en charge des protocoles d authentification LDAP et Kerberos pour une sécurité renforcée des données 20

21 Conclusion Pour réduire leurs coûts et libérer de la capacité sur leurs bases de données, de nombreuses entreprises transfèrent actuellement des traitements ETL du data warehouse vers Hadoop. Elles livrent ainsi des analyses plus rapides et accélèrent le traitement des requêtes utilisateur. Pourtant, Hadoop n est pas une solution ETL proprement dite : sa vocation première est celle d un système d exploitation pour les Big Data. Pour produire les résultats escomptés, l outil doit donc être associé à une véritable solution ETL d entreprise. Que vous choisissiez les solutions Syncsort Hadoop ETL ou une autre méthode, ces cinq étapes vous aideront à offloader certaines charges de votre data warehouse vers Hadoop, à surmonter les principales difficultés et à mettre en place les bonnes pratiques qui garantiront une intégration rapide des données et le succès de vos projets Hadoop futurs. Étape 1 : Cerner et définir vos objectifs métiers. Réduction des coûts, exploitation d un plus grand volume de données, respect des SLA quelles que soient vos priorités, fixez des objectifs clairs pour mieux définir la migration de vos charges ETL coûteuses du data warehouse vers Hadoop. Pour atteindre ces objectifs, adoptez une approche qui mise sur les compétences de vos développeurs, vous offre des fonctionnalités ETL avancées et s exécute en natif dans Hadoop pour l optimisation des performances ETL. Étape 2 : Mettre en place la bonne connectivité pour Hadoop. Attention à ne pas faire d Hadoop un nouveau silo au sein de votre entreprise. La valorisation de vos Big Data passe par une connectivité étendue à vos données ; ce qui est possible avec Hadoop, mais seulement au prix d importants développements manuels. Si vous disposez d un outil offrant l accès à toutes les sources et cibles de données sans codage manuel, vous capitalisez sur toutes vos données tout en accélérant le retour sur votre investissement Hadoop. Étape 3 : Identifier les 20 % de charges ETL/ELT les plus coûteuses. En règle générale, les 20 % de charges de transformation des données les plus coûteuses consomment jusqu à 80 % des capacités de traitement. En conséquence, elles absorbent une quantité importante de vos ressources financières et informatiques, tant matérielles qu humaines pour l optimisation et la maintenance. Pour raccourcir vos délais d amortissement et améliorer le ROI de vos projets ETL Hadoop, commencez par offloader ces charges. 21

22 Étape 4 : Recréer des transformations équivalentes dans MapReduce. Les transformations de données peuvent vite s avérer complexes dans Hadoop. De fait, elles requièrent des compétences en Java, Pig et HiveQL, ainsi qu une connaissance approfondie d Hadoop et de MapReduce pour réaliser le codage et les optimisations manuelles nécessaires. Pour les transformations, les tâches ETL courantes et la gestion des métadonnées, vous privilégierez donc une solution ETL dotée d une interface graphique capable de faciliter la création et la maintenance des opérations Hadoop ETL. Étape 5 : Opter pour un environnement ETL Hadoop prêt pour votre entreprise. Sans respect des SLA liés aux traitements ETL, difficile de maintenir vos projets Hadoop à flots. Privilégiez des fonctionnalités qui facilitent les déploiements à grande échelle, le suivi et l administration, et la protection des données dans Hadoop, afin de préparer vos futures initiatives. Parmi ces fonctionnalités figurent l intégration native à Hadoop, l optimisation des performances et l exploitation des infrastructures de sécurité existantes. 22

23 INFORMATION SYNCSORT Pour les entreprises appelées à gérer un flux constant de Big Data, Syncsort offre une méthode plus intelligente de collecte et de traitement de volumes de données en pleine explosion. Avec des milliers de déploiements à son actif sur les plus grandes plates-formes, notamment les mainframes, Syncsort aide ses clients du monde entier à repousser les limites architecturales des environnements ETL et Hadoop pour obtenir de meilleurs résultats, plus rapidement, avec moins de ressources et un TCO en baisse. Pour en savoir plus, rendez-vous sur CE GUIDE VOUS A ÉTÉ UTILE? FAITES-LE DÉCOUVRIR À D AUTRES! 2014 Syncsort Incorporated. Tous droits réservés. DMExpress est une marque déposée de Syncsort Incorporated. Tous les autres noms de produits et marques cités appartiennent à leurs propriétaires respectifs. DMXH-EB FR

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE ORACLE DATA INTEGRATOR ENTERPRISE EDITION offre de nombreux avantages : performances de pointe, productivité et souplesse accrues pour un coût total de

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier? DOSSIER SOLUTION CA ERwin Modeling Comment gérer la complexité des données et améliorer l agilité métier? CA ERwin Modeling fournit une vue centralisée des définitions de données clés afin de mieux comprendre

Plus en détail

Surmonter les 5 défis opérationnels du Big Data

Surmonter les 5 défis opérationnels du Big Data Surmonter les 5 défis opérationnels du Big Data Jean-Michel Franco Talend Connect 9 octobre 2014 Talend 2014 1 Agenda Agenda Le Big Data depuis la découverte jusqu au temps réel en passant par les applications

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Offre formation Big Data Analytics

Offre formation Big Data Analytics Offre formation Big Data Analytics OCTO 2014 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél : +33 (0)1 58 56 10 00 Fax : +33 (0)1 58 56 10 01 www.octo.com 1 Présentation d OCTO Technology 2 Une

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

Cisco Unified Computing Migration and Transition Service (Migration et transition)

Cisco Unified Computing Migration and Transition Service (Migration et transition) Cisco Unified Computing Migration and Transition Service (Migration et transition) Le service Cisco Unified Computing Migration and Transition Service (Migration et transition) vous aide à migrer vos applications

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Jean-Marc Spaggiari Cloudera jms@cloudera.com @jmspaggi Mai 2014 1 2 Avant qu on commence Agenda -Qu est-ce que Hadoop et pourquoi

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Tables Rondes Le «Big Data»

Tables Rondes Le «Big Data» Tables Rondes Le «Big Data» 2012-2013 1 Plan Introduc9on 1 - Présenta9on Ingensi 2 - Le Big Data c est quoi? 3 - L histoire 4 - Le monde du libre : Hadoop 5 - Le système HDFS 6 - Les algorithmes distribués

Plus en détail

Vos experts Big Data. contact@hurence.com. Le Big Data dans la pratique

Vos experts Big Data. contact@hurence.com. Le Big Data dans la pratique Vos experts Big Data contact@hurence.com Le Big Data dans la pratique Expert Expert Infrastructure Data Science Spark MLLib Big Data depuis 2011 Expert Expert Hadoop / Spark NoSQL HBase Couchbase MongoDB

Plus en détail

Optimisation des niveaux de service dans le cadre de déploiements de Clouds publics

Optimisation des niveaux de service dans le cadre de déploiements de Clouds publics LIVRE BLANC Optimisation des niveaux de service dans le cadre de déploiements de Clouds publics Clés pour une gestion efficace des services agility made possible Table des matières Résumé 3 Introduction

Plus en détail

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au

Plus en détail

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Avant de commencer à travailler avec le produit, il est nécessaire de comprendre, à un haut niveau, les problèmes en réponse desquels l outil a été

Plus en détail

Technologie data distribution Cas d usage. www.gamma-soft.com

Technologie data distribution Cas d usage. www.gamma-soft.com Technologie data distribution Cas d usage www.gamma-soft.com Applications stratégiques (ETL, EAI, extranet) Il s agit d une entreprise industrielle, leader français dans son domaine. Cette entreprise est

Plus en détail

Echapper légalement à l impôt sur les données

Echapper légalement à l impôt sur les données Echapper légalement à l impôt sur les données L IMPOT SUR LES DONNEES EST UN IMPOT SUR LE VOLUME... 3 L IMPOT SUR LES DONNEES EST UN IMPOT SUR LA DIVERSITE... 4 L IMPOT SUR LES DONNEES EST IMPREVISIBLE...

Plus en détail

Guide de référence pour l achat de Business Analytics

Guide de référence pour l achat de Business Analytics Guide de référence pour l achat de Business Analytics Comment évaluer une solution de décisionnel pour votre petite ou moyenne entreprise : Quelles sont les questions à se poser et que faut-il rechercher?

Plus en détail

Documentation Technique

Documentation Technique Ellipsys openaudit Documentation Technique Ellipsys openaudit Les différents niveaux d information La construction et le stockage de l information dans les entreprises s effectue techniquement à différents

Plus en détail

Hadoop, les clés du succès

Hadoop, les clés du succès Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

IBM Tivoli Monitoring, version 6.1

IBM Tivoli Monitoring, version 6.1 Superviser et administrer à partir d une unique console l ensemble de vos ressources, plates-formes et applications. IBM Tivoli Monitoring, version 6.1 Points forts! Surveillez de façon proactive les éléments

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Préface Dunod Toute reproduction non autorisée est un délit. Les raisons de l émergence du Big Data sont bien connues. Elles sont d abord économiques et technologiques. La chute exponentielle des coûts

Plus en détail

Suite Jedox La Business-Driven Intelligence avec Jedox

Suite Jedox La Business-Driven Intelligence avec Jedox Suite La Business-Driven Intelligence avec Une solution intégrée pour la simulation, l analyse et le reporting vous offre la possibilité d analyser vos données et de gérer votre planification selon vos

Plus en détail

Les quatre piliers d une solution de gestion des Big Data

Les quatre piliers d une solution de gestion des Big Data White Paper Les quatre piliers d une solution de gestion des Big Data Table des Matières Introduction... 4 Big Data : un terme très vaste... 4 Le Big Data... 5 La technologie Big Data... 5 Le grand changement

Plus en détail

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012 Livre blanc Solution Hadoop d entreprise d EMC Stockage NAS scale-out Isilon et Greenplum HD Par Julie Lockner et Terri McClure, Analystes seniors Février 2012 Ce livre blanc d ESG, qui a été commandé

Plus en détail

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr Avril 2014 Virtualscale 1 Sommaire Les enjeux du Big Data et d Hadoop Quels enjeux

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Programme ASI Développeur

Programme ASI Développeur Programme ASI Développeur Titre de niveau II inscrit au RNCP Objectifs : Savoir utiliser un langage dynamique dans la création et la gestion d un site web. Apprendre à développer des programmes en objet.

Plus en détail

Planifier la migration des applications d entreprise dans le nuage

Planifier la migration des applications d entreprise dans le nuage TM Planifier la migration des applications d entreprise dans le nuage Guide de vos options de migration : nuage privé et public, critères d évaluation des applications et meilleures pratiques de migration

Plus en détail

Comment booster vos applications SAP Hana avec SQLSCRIPT

Comment booster vos applications SAP Hana avec SQLSCRIPT DE LA TECHNOLOGIE A LA PLUS VALUE METIER Comment booster vos applications SAP Hana avec SQLSCRIPT 1 Un usage optimum de SAP Hana Votre contexte SAP Hana Si vous envisagez de migrer vers les plateformes

Plus en détail

Document réalisé par Khadidjatou BAMBA

Document réalisé par Khadidjatou BAMBA Comprendre le BIG DATA Document réalisé par Khadidjatou BAMBA 1 Sommaire Avant propos. 3 Historique du Big Data.4 Introduction.....5 Chapitre I : Présentation du Big Data... 6 I. Généralités sur le Big

Plus en détail

LES DONNÉES SENSIBLES SONT PARTOUT. NOUS AUSSI.

LES DONNÉES SENSIBLES SONT PARTOUT. NOUS AUSSI. THE DATA PROTECTION COMPANY LES DONNÉES SENSIBLES SONT PARTOUT. NOUS AUSSI. La Fondation Crypto de SafeNet : Protéger les données sensibles dans le datacenter physique et virtuel ainsi que dans le Cloud

Plus en détail

UC4 effectue tout l ordonnancement batch pour Allianz en Allemagne

UC4 effectue tout l ordonnancement batch pour Allianz en Allemagne UC4 effectue tout l ordonnancement batch pour Allianz en Allemagne La société Le groupe Allianz est un des principaux fournisseurs de services globaux dans les domaines de l assurance, de la banque et

Plus en détail

Le Cloud Computing et le SI : Offre et différentiateurs Microsoft

Le Cloud Computing et le SI : Offre et différentiateurs Microsoft Le Cloud Computing désigne ces giga-ressources matérielles et logicielles situées «dans les nuages» dans le sens où elles sont accessibles via Internet. Alors pourquoi recourir à ces centres serveurs en

Plus en détail

Est-il possible de réduire les coûts des logiciels pour mainframe en limitant les risques?

Est-il possible de réduire les coûts des logiciels pour mainframe en limitant les risques? DOSSIER SOLUTION Programme de rationalisation des logiciels pour mainframe (MSRP) Est-il possible de réduire les coûts des logiciels pour mainframe en limitant les risques? agility made possible Le programme

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail

Big Data, un nouveau paradigme et de nouveaux challenges

Big Data, un nouveau paradigme et de nouveaux challenges Big Data, un nouveau paradigme et de nouveaux challenges Sebastiao Correia 21 Novembre 2014 Séminaire Thématique : Traitement et analyse statistique des données massives, Poitiers. 1 Présentation Sebastiao

Plus en détail

Comment choisir la solution de gestion des vulnérabilités qui vous convient?

Comment choisir la solution de gestion des vulnérabilités qui vous convient? Comment choisir la solution de gestion des vulnérabilités qui vous convient? Sommaire 1. Architecture 2. Sécurité 3. Evolutivité et convivialité 4. Précision/Performance 5. Découverte/Inventaire 6. Analyse

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

La reconquête de vos marges de manœuvre

La reconquête de vos marges de manœuvre La reconquête de vos marges de manœuvre Libérez vos applications critiques Bull ouvre de nouvelles portes à votre patrimoine applicatif. Bull LiberTP fait passer simplement vos applications transactionnelles

Plus en détail

DataStudio. Solution d intégration des données et de diffusion de l information

DataStudio. Solution d intégration des données et de diffusion de l information DataStudio Solution d intégration des données et de diffusion de l information L ETL, cœur de la performance des entreprises La forte intégration des applications est désormais une condition indispensable

Plus en détail

Semarchy Convergence for Data Integration La Plate-Forme d Intégration pour le MDM Évolutionnaire

Semarchy Convergence for Data Integration La Plate-Forme d Intégration pour le MDM Évolutionnaire FICHE PRODUIT Semarchy Convergence for Data Integration La Plate-Forme d Intégration pour le MDM Évolutionnaire BENEFICES Des projets réussis dans les délais et les budgets La bonne donnée disponible au

Plus en détail

GOUVERNANCE DES IDENTITES ET DES ACCES ORIENTEE METIER : IMPORTANCE DE CETTE NOUVELLE APPROCHE

GOUVERNANCE DES IDENTITES ET DES ACCES ORIENTEE METIER : IMPORTANCE DE CETTE NOUVELLE APPROCHE GOUVERNANCE DES IDENTITES ET DES ACCES ORIENTEE METIER : IMPORTANCE DE CETTE NOUVELLE APPROCHE RÉSUMÉ Depuis des années, les responsables de la sécurité de l information et les responsables opérationnels

Plus en détail

Archivage : SaaS ou hébergé sur site? Avantages de TCO et gestion des risques

Archivage : SaaS ou hébergé sur site? Avantages de TCO et gestion des risques Archivage : SaaS ou hébergé sur site? Avantages de TCO et gestion des risques Livre blanc sur Proofpoint Enterprise Archive protection contre les menaces conformité archivage et gouvernance communications

Plus en détail

Axway SecureTransport

Axway SecureTransport Axway SecureTransport Passerelle étendue de gestion du transfert de fichiers Pour renforcer leur position concurrentielle sur un marché global et exigeant, les entreprises doivent échanger un flot d informations

Plus en détail

PaperCut MF. une parfaite maîtrise de vos impressions, copies et scans.

PaperCut MF. une parfaite maîtrise de vos impressions, copies et scans. PaperCut MF TM une parfaite maîtrise de vos impressions, copies et scans. TM PaperCut MF PaperCut MF est une application logicielle simple qui vous permet de contrôler et de gérer l ensemble des fonctionnalités

Plus en détail

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux

Plus en détail

L I V R E B L A N C P r o t ég e r l e s a p p l i c a t i o n s m ét i e r s c r i t i q u e s M a i n f r a m e, un b e s o i n c r u c i a l

L I V R E B L A N C P r o t ég e r l e s a p p l i c a t i o n s m ét i e r s c r i t i q u e s M a i n f r a m e, un b e s o i n c r u c i a l Siège social : 5 Speen Street Framingham, MA 01701, É.-U. T.508.872.8200 F.508.935.4015 www.idc.com L I V R E B L A N C P r o t ég e r l e s a p p l i c a t i o n s m ét i e r s c r i t i q u e s M a i

Plus en détail

Entreprises Solutions

Entreprises Solutions ERP Entreprises Solutions Choisir un progiciel de gestion intégrée Questions de technologie? 1 Dans le choix d une solution de gestion intégrée de type PGI/ERP, les aspects fonctionnels sont clés. L entreprise

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES M a l g r é s o n ca r act è r e en apparence multiforme un enjeu central s est progressivement affirmé en matière

Plus en détail

CA Mainframe Chorus for Security and Compliance Management version 2.0

CA Mainframe Chorus for Security and Compliance Management version 2.0 FICHE PRODUIT CA Mainframe Chorus for Security and Compliance CA Mainframe Chorus for Security and Compliance Management version 2.0 Simplifiez et rationalisez vos tâches de gestion de la sécurité et la

Plus en détail

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014 Introduction aux algorithmes MapReduce Mathieu Dumoulin (GRAAL), 14 Février 2014 Plan Introduction de la problématique Tutoriel MapReduce Design d algorithmes MapReduce Tri, somme et calcul de moyenne

Plus en détail

MYXTRACTION. 2009 La Business Intelligence en temps réel

MYXTRACTION. 2009 La Business Intelligence en temps réel MYXTRACTION 2009 La Business Intelligence en temps réel Administration Qui sommes nous? Administration et management des profils Connecteurs Base des données Gestion des variables et catégories de variables

Plus en détail

La Solution Logicielle Multicanal pour votre Centre de Contacts

La Solution Logicielle Multicanal pour votre Centre de Contacts La Solution Logicielle Multicanal pour votre Centre de Contacts 90% des entreprises fonctionnent en silo Outils de gestion des appels Solutions d enregistrement des conversations Outils de gestion des

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

Analyse comparative entre différents outils de BI (Business Intelligence) :

Analyse comparative entre différents outils de BI (Business Intelligence) : Analyse comparative entre différents outils de BI (Business Intelligence) : Réalisé par: NAMIR YASSINE RAGUI ACHRAF Encadré par: PR. L. LAMRINI Dans le domaine d économies des Big Data et Open Data, comment

Plus en détail

DEMARREZ RAPIDEMENT VOTRE EVALUATION

DEMARREZ RAPIDEMENT VOTRE EVALUATION Pentaho Webinar 30 pour 30 DEMARREZ RAPIDEMENT VOTRE EVALUATION Resources & Conseils Sébastien Cognet Ingénieur avant-vente 1 Vous venez de télécharger une plateforme moderne d intégration et d analyses

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

PRÉSENTE SES SERVEURS L ESPACE LE PLUS INNOVANT POUR FAIRE TRAVAILLER VOS DONNÉES EN TEMPS RÉEL

PRÉSENTE SES SERVEURS L ESPACE LE PLUS INNOVANT POUR FAIRE TRAVAILLER VOS DONNÉES EN TEMPS RÉEL PRÉSENTE SES SERVEURS L ESPACE LE PLUS INNOVANT POUR FAIRE TRAVAILLER VOS DONNÉES EN TEMPS RÉEL La solution simple et efficace aux 3 défis majeurs de la direction informatique. Des bénéfices concrets,

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 CNAM 2010-2011 Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 Déploiement d une application dans le cloud. 1. Cloud Computing en 2010 2. Offre EC2

Plus en détail

LES FONCTIONS DE SURVEILLANCE DES FICHIERS

LES FONCTIONS DE SURVEILLANCE DES FICHIERS SYSLOG and APPLICATION LOGS Knowledge Module for PATROL - Data Sheet Version 1.5 Développé par http://www.axivia.com/ PRESENTATION DU PRODUIT SYSLOG and APPLICATION LOGS Knowledge Module for PATROL est

Plus en détail

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications Plan Le Big Data Mining enjeux et approches techniques Bernard Dousset Professeur des universités Institut de Recherche en Informatique de Toulouse UMR 5505 Université de Toulouse 118, Route de Narbonne,

Plus en détail

UPSTREAM for Linux on System z

UPSTREAM for Linux on System z FICHE PRODUIT UPSTREAM for Linux on System z UPSTREAM for Linux on System z UPSTREAM for Linux on System z est conçu de manière à assurer une protection de données complète pour votre environnement Linux

Plus en détail

Introduction à. Oracle Application Express

Introduction à. Oracle Application Express Introduction à Oracle Application Express Sommaire Qu est-ce que Oracle Application Express (APEX)? Vue d ensemble des fonctionnalités et des différents composants d Oracle APEX Démonstration de création

Plus en détail

Opérateur global de la performance IT

Opérateur global de la performance IT Opérateur global de la performance IT Pour une informatique performante et fiable, délivrant les services attendus par les Métiers, au moindre coût. Opérateur global de la performance IT depuis près d

Plus en détail

L'infonuagique, les opportunités et les risques v.1

L'infonuagique, les opportunités et les risques v.1 L'infonuagique, les opportunités et les risques v.1 Avril 2014 Présenté au PMI 2014 Tactika inc. www.tactika.com @tactika http://ca.linkedin.com/in/tactika 1 Contenu de la conférence 1. Les concepts 2.

Plus en détail

Mercredi 15 Janvier 2014

Mercredi 15 Janvier 2014 De la conception au site web Mercredi 15 Janvier 2014 Loïc THOMAS Géo-Hyd Responsable Informatique & Ingénierie des Systèmes d'information loic.thomas@anteagroup.com 02 38 64 26 41 Architecture Il est

Plus en détail

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic Mesures DNS à l ère du Big Data : outils et défis JCSA, 9 juillet 2015 Vincent Levigneron, Afnic Sommaire 1. Mesures DNS réalisées par l Afnic 2. Volumes et biais 3. Limitations 4. Pourquoi une approche

Plus en détail

QLIKVIEW ET LE BIG DATA

QLIKVIEW ET LE BIG DATA QLIKVIEW ET LE BIG DATA Livre blanc sur la technologie QlikView Juillet 2012 qlikview.com Introduction Le Big Data suscite actuellement un vif intérêt. En l exploitant dans un cadre opérationnel, nombre

Plus en détail

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata! R+Hadoop = Rhadoop* * Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata! 27 Janvier 2014 / Université Paul Sabatier / DTSI / David Tsang-Hin-Sun Big

Plus en détail

Introduction Big Data

Introduction Big Data Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue

Plus en détail

Enterprise Intégration

Enterprise Intégration Enterprise Intégration Intégration des données L'intégration de données des grandes entreprises, nationales ou multinationales est un vrai cassetête à gérer. L'approche et l'architecture de HVR est très

Plus en détail

CA Workload Automation Agent pour implémentation mainframe Systèmes d exploitation, ERP, bases de données, services applicatifs et services Web

CA Workload Automation Agent pour implémentation mainframe Systèmes d exploitation, ERP, bases de données, services applicatifs et services Web FICHE PRODUIT CA Workload Automation Agent CA Workload Automation Agent pour implémentation mainframe Systèmes d exploitation, ERP, bases de données, services applicatifs et services Web CA Workload Automation

Plus en détail

Anticiper et prédire les sinistres avec une approche Big Data

Anticiper et prédire les sinistres avec une approche Big Data Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél

Plus en détail

Garantir une meilleure prestation de services et une expérience utilisateur optimale

Garantir une meilleure prestation de services et une expérience utilisateur optimale LIVRE BLANC Garantir une meilleure prestation de services et une expérience utilisateur optimale Mai 2010 Garantir une meilleure prestation de services et une expérience utilisateur optimale CA Service

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend 2012 2

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend 2012 2 Big Data: au delà du Buzz Yves de Montcheuil @ydemontcheuil Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend 2012 2 Hype Cycle Gartner Talend 2012 3 Big Data

Plus en détail

Guide de référence pour l achat de Business Analytics

Guide de référence pour l achat de Business Analytics Guide de référence pour l achat de Business Analytics Comment évaluer une solution de décisionnel pour votre petite ou moyenne entreprise : Quelles sont les questions à se poser et que faut-il rechercher?

Plus en détail

Les bases de données relationnelles

Les bases de données relationnelles Bases de données NO SQL et SIG : d un existant restreint à un avenir prometteur CHRISTIAN CAROLIN, AXES CONSEIL CAROLIN@AXES.FR - HTTP://WWW.AXES.FR Les bases de données relationnelles constituent désormais

Plus en détail

Une représentation complète

Une représentation complète LIVRE BLANC Une représentation complète Les temps de réponse aux utilisateurs finals : une surveillance à redécouvrir agility made possible Table des matières Résumé 3 Introduction 3 Obstacles à la surveillance

Plus en détail

Analytics Platform. MicroStrategy. Business Intelligence d entreprise. Self-service analytics. Big Data analytics.

Analytics Platform. MicroStrategy. Business Intelligence d entreprise. Self-service analytics. Big Data analytics. Business Intelligence d entreprise MicroStrategy Analytics Platform Self-service analytics Big Data analytics Mobile analytics Disponible en Cloud Donner l autonomie aux utilisateurs. Des tableaux de bord

Plus en détail