Tout savoir sur Hadoop : Vulgarisation de la technologie et les stratégies de certains acteurs

Transcription

1 Tout savoir sur Hadoop : Vulgarisation de la technologie et les stratégies de certains acteurs Hadoop suscite l'intérêt d'un nombre croissant d'entreprises. Dans ce guide, LeMagIT fait le tour des fonctionnalités d'hadoop mais aussi de ces bénéfices et inconvénients. PRÉSENTATION DÉCOUVRIR

2 Pésentation DECOUVRIR JUIN 2014 La première technologie qui vient à l esprit lorsque l on évoque aujourd hui le sujet du Big Data est Hadoop, le framework analytique Java développé au sein de la fondation Apache. Populaire, Hadoop reste toutefois un mystère pour nombre d utilisateurs désireux de mettre en oeuvre la technologie ou de mieux la comprendre. LeMagIT a réuni au sein de ce dossier un ensemble d'articles dont l'objectif est d'aider à comprendre ce qu'est réellement Hadoop, comment il fonctionne, quels sont ses usages, comment la technologie est architecturée. CYRILLE CHAUSSON Rédacteur en chef, TechTarget / LeMagIT 2 TOUT SAVOIR SUR

3 DÉCOUVRIR DÉCOUVRIR DÉCOUVRIR DECOUVRIR 1. A LA DÉCOUVERTE D' La première technologie qui vient à l esprit lorsque l on évoque aujourd hui le sujet du Big Data est Hadoop est le framework analytique Java développé au sein de la fondation Apache. Populaire, Hadoop reste toutefois un mystère pour nombre d utilisateurs. Pour mieux comprendre les fondements technologiques d Hadoop et les différentes briques qui le composent, LeMagIT s est plongé dans l histoire et l architecture du framework. Hadoop trouve ses racines dans les technologies propriétaires d analyse de données de Google. En 2004, le moteur de recherche a publié un article de recherche présentant son algorithme MapReduce, conçu pour réaliser des opérations analytiques à grande échelle sur un grand cluster de serveurs, et sur son système de fichier en cluster, Google Filesystem (GFS). Doug Cutting, qui travaillait alors sur le développement du moteur de recherche libre Apache Lucene et butait sur les mêmes problèmes de volumétrie de données qu avait rencontré Google, s est alors emparé des concepts décrits dans l article du géant de la recherche et a décidé de répliquer en open source les outils développés par Google pour ses besoins. Employé chez Yahoo, il s est alors lancé dans le développement de ce qui est aujourd hui le projet Apache Hadoop pour la petite histoire, Hadoop est le nom de l éléphant qui servait de doudou à son jeune fils. Hadoop : un framework modulaire Hadoop n a pas été conçu pour traiter de grandes quantités de données structurées à grande vitesse. Cette mission reste largement l apanage des grands systèmes de Datawarehouse et de datamart reposant sur des SGBD traditionnelles et faisant usage de SQL comme langage de requête. La spécialité d Hadoop, ce serait plutôt le traitement à très grande échelle de grands volumes de données non structurées tels que des documents textuels, des images, des fichiers audio même s il est aussi possible de traiter des données semi-structurées ou structurées avec Hadoop. HDFS : le système de gestion de fichier en cluster au cœur d Hadoop Au cœur du framework open source se trouve avant tout un système de fichiers en cluster, baptisé HDFS (Hadoop Distributed Filesystem). HDFS a été conçu pour stocker de très gros volumes de données sur un grand nombre de machines équipées de disques durs banalisés. Le filesystem HDFS est conçu pour assurer la sécurité des données en répliquant de multiples fois l ensemble des données écrites sur le cluster. 3 TOUT SAVOIR SUR

4 DÉCOUVRIR DECOUVRIR Par défaut, chaque donnée est écrite sur trois nœuds différents. Il ne s agit pas du plus élégant des mécanismes de redondance, ni du plus efficace, mais étant donné que l on s appuie sur des disques durs SATA économiques, un cluster HDFS a le bénéfice d offrir une solution de stockage très économique par rapport à celui des baies de stockage traditionnelles. En l état, HDFS est optimisé pour maximiser les débits de données et non pas pour les opérations transactionnelles aléatoires. La taille d un bloc de données est ainsi de 64 Mo dans HDFS contre 512 octets à 4 Ko dans la plupart des systèmes de fichiers traditionnels. Cette taille de bloc s explique par le fait que Hadoop doit analyser de grandes quantités de données en local. Avec la version 2.0 d Hadoop, la principale faiblesse d HDFS a été levée : jusqu alors la gestion des métadonnées associées aux fichiers étaient la mission d un unique «name node» ; ce qui constituait un point de faille unique. Depuis la version 2.0 et l arrivée de la fonction HDFS High Availability, le "name node" est répliqué en mode actif/passif, ce qui offre une tolérance aux pannes. Un autre «défaut» d HDFS est que le système n est pas conforme au standard POSIX et que certaines commandes familières sur un filesystem traditionnel ne sont pas disponibles. Il est à noter que si HDFS est le système de fichiers par défaut d Hadoop, le framework peut aussi être déployé sur des systèmes tiers, souvent grâce à des couches de compatibilité. MapR, l un des pionniers d Hadoop, a ainsi développé son propre système de gestion de fichiers qui règle le problème de fragilité lié aux "name nodes" d HDFS (en distribuant les informations de métadonnées sur les nœuds de données) et qui ajoute aussi des fonctions avancées comme les snapshots, la réplication ou le clonage. Plusieurs constructeurs de baies de stockage comme EMC, HP ou IBM ont aussi développé des couches de compatibilité HDFS au dessus de certaines de leurs baies ; ce qui leur permet de stocker les données d un cluster Hadoop. MapReduce : distribuer le traitement des données entre les nœuds Le second composant majeur d Hadoop est MapReduce, qui gère la répartition et l exécution des requêtes sur les données stockées par le cluster. Le framework MapReduce est conçu pour traiter des problèmes parallèlisables à très grande échelle en s appuyant sur un très grand nombre de nœuds. L objectif de MapReduce et de son mécanisme avancé de distribution de tâches est de tirer parti de la localité entre données et traitements sur le même nœud de façon à minimiser l impact des transferts de données entre les nœuds du cluster sur la performance. 4 TOUT SAVOIR SUR

5 DÉCOUVRIR DECOUVRIR MapReduce est un processus en plusieurs étapes. Dans la phase «Map», le nœud maitre divise le problème posé en sous-problèmes et les distribue entre nœuds de traitement. Ces nœuds peuvent en cascade distribuer à nouveau les tâches qui leur ont été assignées. Les réponses sont ensuite remontées de nœuds en nœuds jusqu au nœud maitre ayant assigné les travaux à l origine. C est alors que s opère l étape "Reduce" : le nœud maitre collationne les réponses emontant des nœuds de traitement et les combine afin de fournir la réponse à la question posée à l origine. Il est à noter que les traitements Mapreduce s opèrent sur des données structurées sous la forme (clé, valeur) et que des mécanismes d optimisation assurent que les traitements sont distribués de telle sorte qu ils s opèrent au plus proche des données (c est-à-dire idéalement sur les neuds qui hébergent les données concernées). De nouveaux outils de langages pour faciliter les requêtes sur Hadoop Les API clés de MapReduce sont accessibles en Java, un langage certes populaire mais qui requiert des compétences bien plus pointues que la maîtrise d un langage d interrogation comme SQL. Plusieurs langages ont donc émergé pour tenter de simplifier le travail des utilisateurs d Hadoop, dont Pig et Hive. Né chez Yahoo, Pig est conçu pour traiter toute forme de données. Le langage de Pig est PigLatin, complété par un runtime destiné à exécuter les programmes rédigés en PigLatin. PigLatin a une sémantique assez simple. 5 TOUT SAVOIR SUR

6 DÉCOUVRIR DECOUVRIR Il permet de charger des données, puis de les manipuler (appliquer des filtres, des groupements, des opérations mathématiques ). Chez Facebook, des développeurs ont quant à eux conçu Hive, pour permettre à des développeurs familiers du langage SQL de manipuler des données dans Hadoop. Hive dispose d un langage baptisé HQL (Hive Query Langage) dont la syntaxe est similaire à celle de SQL. Le service Hive découpe les requêtes en jobs MapReduce afin de les exécuter sur le cluster. Au fil des ans, Hadoop a continué à s enrichir de nouvelles applications, comme la base de données Hbase, qui fournit des services similaires au service BigTable de Google. Hbase est une base de données en colonnes (dans la mouvance NoSQL) qui s appuie sur le système de gestion de fichiers en cluster HDFS pour le stockage de ses données. Hbase est notamment utile pour ceux qui ont besoin d accès aléatoires en lecture/écriture à de grands volumes de données. La base intègre des fonctions de compression et de traitement «in-memory».parmi les autres composants connus, on peut aussi citer la technologie d apprentissage Apache Mahout, ainsi que la technologie d administration de cluster Zookeeper. Zookeeper est lui-même un service distribué qui permet de coordonner l ensemble des processus distribués sur le cluster, mais aussi de gérer les configurations de ses différents éléments. Un écosystème qui ne cesse de s enrichir Signalons pour terminer que le périmètre d Hadoop continue de s élargir, les différents développeurs de distributions Hadoop ajoutant progressivement de nouveaux composants, outils ou langages afin d enrichir les composants de base du framework. Cloudera a ainsi récemment publié Impala, sa technologie de query SQL massivement parallèle, pour le traitement en temps réel de données stockées dans Hbase ou dans HDFS. Dans le cadre de son projet Hawq, Pivotal a, quant à lui, porté sa base de données massivement parallèle Greenplum sur HDFS et étendu sa technologie de query aux données non structurées et semi-structurées stockées sur HDFS. Et c est sans compter sur les multiples intégrations réalisées par des acteurs des bases de données traditionnelles et de l analytique, comme Teradata, Oracle ou Microsoft Un signe évident du dynamisme de l écosystème Hadoop, mais aussi de sa relative jeunesse. Christophe Bardy 6 TOUT SAVOIR SUR

7 DÉCOUVRIR DECOUVRIR 2. 2 VEUT ÉTENDRE LE CHAMP D'APPLICATION D' AU-DELÀ DU BATCH Hadoop 2 a officiellement été dévoilé par la fondation Apache cette semaine et constitue une évolution majeure pour le framework analytique historiquement basé sur le système de gestion de fichiers en cluster HDFS (Hadoop Distributed File System) et sur le framework MapReduce. Les premiers utilisateurs d Hadoop notamment dans le monde internet, ont utilisé la technologie pour traiter des volumes massifs de données non structurées et semi structurées, typiquement des données de logs serveur et réseau, des données de provenant de réseaux de capteurs, de flux sociaux ou des images Ces données sont stockées sur des clusters de serveurs banalisés fournissant un pool relativement peu couteux de ressources de stockage et de traitement. Comme l explique Tony Consentino, vice-président et directeur de recherche chez Ventana Research, Hadoop a la capacité de traiter des données peu structurées et des informations qui se prête peu à un stockage dans des bases de données traditionnelles. Toutefois, comme le précise Cosentino, les implémentations de l architecture actuelle d Hadoop sont limitées par son orientation batch. «Hadoop est bien adapté pour les applications ou la latence n est pas un problème et qui nécessitent le traitement de grandes volumétries de données». Le couple HDFS MapReduce «est bien adapté à l analyse de jeu de donnés très larges de données non structurées statiques comportant des téraoctets ou des petaoctets de données» explique William Bain, le CEO de ScaleOut Software, un éditeur de solutions de traitement de données basé à Beaverton, dans l Oregon. Comme Cosentino, Bain insiste que du fait de sa nature batch, et de l important overhead requis pour le traitement de données, Hadoop n a pas été utile pour le traitement de données en temps réel, même si cela pourrait changer dans l avenir avec l avènement d Hadoop 2 et l apparition de nouveaux moteurs de requêtes développés par certains fournisseurs. On pense par exemple à des technologies comme Impala chez Cloudera. Un écosystème dynamique Le dynamisme de l écosystème qui entoure Hadoop est remarquable. Depuis ses débuts, la technologie a attiré des centaines de développeurs désireux de créer des outils additionnels pour combler des trous dans le spectre fonctionnel du framework. On peut par exemple citer des composants comme Hbase une base de données 7 TOUT SAVOIR SUR

8 DÉCOUVRIR DECOUVRIR distribuée au dessus d HDFS -, Hive un datawarehouse de type SQL - ou Pig un langage de haut niveau pour développer des programmes d analyse au dessus de MapReduce. D autres acteurs ont contribué des composants qui sont devenus des sous-projets Hadoop comme Ambari pour le provisioning et l administration de clusters, Cassandra, une base de données NoSQL ou ZooKeeper qui permet de conserver les données de configuration et de synchroniser les opérations entre clusters. YARN apporte plus de flexibilité à Hadoop 2 C est là qu entre en scène Hadoop 2 originellement connu sous le nom Hadoop 2.0. Au cœur de cette mise à jour majeure figure YARN, un nouveau gestionnaire de ressources qui devrait permettre à d autres applications que les programmes MapReduce de tirer parti des capacités d HDFS. YARN (Yet Another Resource Negotiator) est en parti conçu pour venir à bout des limitations de MapReduce dans les configurations de très grands clusters mais aussi pour venir à bout des limitations lié à l utilisation du mode Batch tout en garantissant la compatibilité avec les API existantes et avec les job MapReduce existants (moyennant une recompilation). Avec YARN (aussi appelé MapReduce 2.0 ou MRv2) les tâches de gestion de ressources et de job scheduling/monitoring de MapReduce sont séparées en deux démons autonomes. L idée selon la fondation Apache est d avoir un gestionnaire de ressources global (distribuant les tâches selon des critères de mémoire, de CPU et de réseau) et un gestionnaire d application, qui gère les jobs (au sens MapReduce du terme). «YARN est une différence clé d Hadoop 2.0», explique Cosentino. «Au lieu de laisser un job MapReduce se considérer comme le seul utilisateur d un cluster HDFS, il permet à de multiples workloads de s exécuter de façon simultanée». Un exemple est le cas d utilisation de Yahoo qui a mis en œuvre le traitement d événements complexes Storm au dessus de YARN, afin de canaliser les données issues des activités sur ses sites web sur un cluster Hadoop. Yahoo dispose actuellement de plus de 365 Po de données sur nœuds de clusters Hadoop gérés par YARN a récemment expliqué Bruno Fernandez-Ruiz, un «senior fellow» et vice-président en charge des plates-formes chez Yahoo. C est bien plus que ce que vous pourrez trouver dans une entreprise typique aujourd hui explique Fernandez-Ruiz, tout en estimant que d autres pourraient suivre son exemple dans les années à venir. «Notre présent est votre futur» a-t-il expliqué aux participants du dernier Hadoop Summit. 8 TOUT SAVOIR SUR

9 DÉCOUVRIR DECOUVRIR Hadoop 2 est aussi censé apporté des améliorations en termes de disponibilité (en permettant de fédérer les name nodes Hadoop) et apporte aussi le support de Windows. Les innovations du nouveau framework devraient faire leur apparition dans les multiples distributions commerciales Hadoop au cours des prochains mois. Christophe Bardy 3. Mike Olson, CEO de Cloudera : Hadoop change la façon dont les entreprises traitent leurs données Comment le Big Data et Hadoop vont changer la façon dont les entreprises traitent leurs données... Un grand nombre d'organisations et d entreprises utilisatrices de technologie, vont modifier la façon dont elles traitent leurs données comme elles ne l ont jamais fait auparavant. Le monde va devenir plus guidé par le Big Data, car les données sont disponibles. Et soit dit en passant, si votre organisation choisit de ne pas en tirer profit, cela deviendra un désavantage concurrentiel. Car d autres, dans votre secteur, feront un meilleur usage des données. Ce qui change tout, bien sûr, est le volume, la variété et la vitesse des données qui nous sont maintenant accessibles. Elles proviennent de nombreuses sources, y compris d activités non humaines, telles que mes tweets, mon Facebook ou mes achats en ligne sur les sites d'ecommerce. À cela viennent les données générées automatiquement par des équipements électroniques parlant à d autres équipements électroniques. Aux États- Unis, le réseau électrique intelligent est en cours de déploiement, donc ma maison rapporte désormais régulièrement des informations à mon fournisseur d'énergie : combien je consomme, à quel moment et même aujourd'hui, avec certains appareils, les détails de ma consommation dans ma maison, par exemple combien mon système de chauffage domestique consomme. C'est une information qui n'était pas disponible auparavant. Elle nous permettra d'optimiser le réseau de nouvelles façons. L exploration de ces données à grande échelle permet à nos clients d'utiliser ces données différemment. En réalité, cela leur permet de poser des questions qu ils ne pouvaient tout simplement pas poser jusqu alors. Par exemple, les banques et les assurances cherchent à détecter la fraude. Ce n est pas une nouveauté, mais que se passerait-il si vous pouviez traiter une décennie de données plutôt qu un mois d historique de transactions. Et si vous pouviez ingérer non seulement les transactions financières mais aussi les activités des utilisateurs sur le web, quelles pages ils ont visité, pendant combien de temps, ce qu ils ont acheté... Si vous pouvez ingérer des données variées et les soumettre à des algorithmes d apprentissage informatisés, à des outils d analyse statistique et à des techniques de modélisation avancées, 9 TOUT SAVOIR SUR

10 DÉCOUVRIR DECOUVRIR vous pouvez commencer à poser des questions qu il était impossible de poser précédemment. Et les exemples sont multiples. A propos du marché du Big Data et d Hadoop Le volume, la variété et la vitesse des données sont en pleine expansion et cela crée une opportunité majeure pour Cloudera. ( ) En 2016, nous nous attendons à ce que 123 Md$ soient dépensés en logiciels au niveau mondial. De façon importante, les applications et les bases de données représenteront plus de la moitié de cette dépense. C'est un investissement énorme et il est lié à des activités économiques déjà engagées. Si le volume de données et les analyses que souhaitent réaliser les entreprises continuent à évoluer de façon rapide, une partie de ce budget va être perturbée et va aller à de nouveaux endroits. Franchement, nous espérons qu une bonne partie vienne à nous. Si l on regarde au-delà des grandes tendances, ( ) IDC indique que 1,7 Md$ sont consacrés aujourd hui à l'analyse de données ; le traitement de données et les ETL pèsent pour 3,5 Md$. Ce sont des marchés adressables immédiatement pour nous et où les clients achètent aujourd'hui ( ). Les analystes en général sont horriblement mauvais pour réaliser des prévisions en particulier sur de nouveaux marchés. Néanmoins, un certain nombre d'entre eux a tenté d évaluer l opportunité que représente le marché du Big Data. Selon les sources, les prévisions varient énormément, mais il y a un consensus : entre 10 et 30 Md$ au cours des années à venir. C est une grande nouvelle pour nous. Nous avons été les premiers à entrer sur le marché du Big Data, nous avons été les premiers à commercialiser Hadoop et nous pensons que nous avons un certain nombre d avantages pour capturer une partie de ce marché. La vision de Michael Olson sur Cloudera et Hadoop... Cloudera a apporté au marché une solution de Big Data basée sur Hadoop. Basée, car notre distribution est la solution la plus complète construite sur Hadoop et les produits l entourant. Vous pouvez considérer un tel assemblage comme Linux. Ce que Red Hat produit est un logiciel que vous pouvez installer sur votre ordinateur, basé sur le noyau Linux. Vous pourriez assembler les modules vous-mêmes, mais ce que Linux (au sens kernel.com) est vraiment, est un composant compact qui permet de stocker des fichiers et faire tourner des programmes. Ce que Red Hat a fait est packager toutes les applications et outils, éditeurs de texte et fournit l infrastructure de support qui rend cette plate-forme 10 TOUT SAVOIR SUR

11 DÉCOUVRIR DECOUVRIR utilisable. Red Hat l a ensuite livré avec un support 24/24 ainsi qu avec un service de mise à jour. Ce service ressemble à ce que nous faisons pour Hadoop. Nous pensons que nous avons l opportunité de remplacer une variété de systèmes de stockage, bases de données, systèmes de gestion de contenus spécifiques, propriétaires et vieillissants par une seule solution cohérente, à même de stocker une grande variété de données et de faire tourner un grand nombre de workload. Soyons clairs : nous ne pensons pas remplacer les bases de données relationnelles. Les grands datawarehouses font un boulot excellent pour l OLTP et l OLAP depuis longtemps. Ces marchés resteront durablement l apanage des vendeurs qui les dominent. Mais nous avons des clients qui dépensent bien trop d argent sur certains de leurs workloads. Si par exemple vous avez un grand datawarehouse et que vous utilisez ce système grand et cher pour vos applications d ETL, vous dépensez sans doute bien trop. Vous pourriez libérer de la capacité analytique sur ce système si vous pouviez transférer les workloads de data processing sur une infrastructure moins coûteuse. Notre plate-forme permet à nos clients de faire exactement cela. Notre désir est de délivrer une seule et unique plate-forme à même de permettre à nos clients d ingérer des données depuis n importe quelle source, de la soumettre à une variété de processus de traitement de données et en plus, de l analyser avec des outils et algorithmes puissants jusqu alors inaccessibles. Comme je l ai dit, nous délivrons une nouvelle plateforme critique et nous pensons qu elle deviendra aussi prévalente que les SGBD le sont aujourd hui. Elle ne remplacera pas les systèmes existants, mais viendra les compléter pour permettre à nos clients d optimiser leurs déploiements. Ils pourront faire tourner les workloads sur la plate-forme la plus adaptée et au meilleur coût. Ce que l on a fait est packager le projet open source avec des outils d administration et de monitoring. Tout ce que nous savons sur la gestion des clusters Hadoop a été mis dans le logiciel et nous délivrons le tout avec un support 24/7. Nous rendons Hadoop manageable. Notre go-tomarket est le même que celui de Sybase, Ingres ou Oracle dans le milieu des années quatre-vingt-dix. Hadoop, comme les bases SGBD à l époque, est nouveau. Il faut des compétences pointues pour l opérer et elles sont encore assez rares sur le terrain. Les applications, les outils qui tournent sur Hadoop, sont eux aussi encore rares, mêmes si nous en voyons apparaître de plus en plus. Comme Oracle, Sybase, IBM ou Microsoft, Cloudera se concentre non pas sur le développement d applications mais sur la livraison d une infrastructure fiable, simple à administrer et à exploiter. Nous laissons intentionnellement le marché des applications et des outils à nos partenaires. Notre désir est de créer un écosystème riche de vendeurs qui s appuient sur notre plate-forme. Si nous y parvenons, chacun de ces outils et applications accélérera l adoption de notre plate-forme. 11 TOUT SAVOIR SUR

12 DÉCOUVRIR DECOUVRIR Cette stratégie devrait nous permettre de nous développer de façon solide à long terme. Il se pourrait qu un jour viendra où nous aurons saturé le marché pour les platesformes Big Data, mais nous avons aujourd hui un large espace ouvert devant nous pour délivrer cette plate-forme et encourager l innovation dans l écosystème. Nous avons aujourd hui 400 partenaires dans notre programme Connect. Ce sont des éditeurs, des intégrateurs systèmes, ou des constructeurs comme Dell ou HP ainsi que des éditeurs d outils comme Microstrategy. Cloudera et ses concurrents dans le monde Hadoop (MapR, HortonWorks )... Nous existons depuis mi C est plus vieux que nos concurrents immédiats. Le créateur d'hadoop travaille pour Cloudera; nous employons une population non négligeable de contributeurs et de commiteurs au code Hadoop open source; nous disposons d une équipe compétente en charge du développement de nos outils de management et des personnels adaptés pour le support de nos clients et de nos partenaires... Nous sommes leaders simplement parce que les dés étaient pipés d avance : nous sommes sur le marché depuis plus longtemps que tous nos concurrents, et de ce fait, nous avons plus de retours sur ce dont ont besoin les clients. Et puis, nous avons simplement eu plus de temps que tout le monde pour construire nos produits. Notre technologie, notre équipe, nous séparent des concurrents. 20 milliards d événements online sont ingérés chaque jour par nos systèmes. 20 millions de foyers voient leur consommation énergétique traitée et analysée par nos systèmes, 70% des activités en ligne des utilisateurs mobiles US passent à un moment ou à un autre par un système Cloudera, notamment les services en matière de géolocalisation. 4 des 5 premières banques US nous utilisent pour de l analyse de risque ou de la détection de fraude et nous sommes présents chez les plus grands opérateurs télécoms, ainsi que dans les grandes agences de renseignement américaines. Il ne s agit pas, comme vous le voyez, que d applications internet grand public. Il ne s agit pas de Facebook - pour motoriser la sélection de publicités qu il va afficher à ses membres. On parle là d un échantillon très large de workloads dans des secteurs économiques très variés, permettant de résoudre des problèmes spécifiques à chaque client. Cette plate-forme ne peut générer un marché de plusieurs milliards de dollars que si elle est suffisamment générique et peut être appliquée à des problèmes très différents, c est le cas dans notre base installée. Hadoop et les traitements en temps réel TOUT SAVOIR SUR

13 DÉCOUVRIR DÉCOUVRIR DECOUVRIR Pour ceux qui ne connaissent pas très bien Hadoop, la conception a eu lieu chez Google et l accouchement s est fait dans des sociétés comme Facebook ou Yahoo. Le problème que ces sociétés cherchaient à résoudre était celui du traitement à très grande échelle de log web. Ils avaient beaucoup de données à traiter en mode batch. Ils ont donc conçu MapReduce, un système de traitement de données en mode batch pour analyser ces données. Cela a transformé la façon dont Internet opère. Ce qui nous a motivés chez Cloudera est que nous étions convaincus que ce qui a transformé l Internet grand public était applicable aux entreprises : Google n était pas différent d une entreprise normale, il opérait simplement 10 ans dans le futur Stocker de grandes quantités de données et pouvoir réaliser des traitements en mode batch dessus a déjà changé les choses. Mais soyons honnêtes, il y a beaucoup d applications qui ne fonctionnent pas en mode batch dans le monde. Il y aussi un grand nombre d applications temps réel et interactives. Si Hadoop était prisonnier du ghetto batch, il ne pourrait pas tirer parti d opportunités de marché très larges. C est pourquoi dans le cadre de notre plate-forme, nous délivrons une plateforme d analyse de données en temps réel baptisée Hbase. Nous avons aussi fait une contribution majeure à la communauté Open Source avec un logiciel de traitement en temps réel baptisé Impala qui permet d effectuer des requêtes interactives sur les données stockées dans Hadoop. En fait vous pouvez utiliser MapReduce, Hbase ou Impala sur un même jeu de données. Une fois que les données sont stockées sur Hadoop, vous pouvez lui apporter tout type de moteur de traitement. MapReduce n est pas la seule alternative, Hbase ou Impala sont disponibles aujourd hui mais au fil des ans de nouveaux moteurs devraient s ajouter à la liste. Impala n est-il pas une implémentation de Google Dremel avec 2 à 4 ans de retard? Et que dire du retard général Hadoop sur les technologies développées en interne par Google? Si vous regardez le projet open source Hadoop vous avez effectivement raison. Il s agit d une «imitation» avec 4 ans de retard sur ce que Google avait inventé en interne. J ai passé 26 ans de ma carrière dans le monde des SGBD, j ai lu à l époque l article de Google sur MapReduce et j ai pensé qu il s agissait d une blague. Tout le monde dans l industrie pensait savoir comment bâtir des bases de données à grande échelle et nous avons complètement raté l opportunité que représentaient Hadoop et le Big Data en général. Une industrie avec des milliards de dollars de revenus, avec un énorme budget R&D épaulé par la recherche de multiples universités de classe mondiale, a passé 30 ans à perfectionner ses 13 TOUT SAVOIR SUR

14 DÉCOUVRIR DECOUVRIR logiciels de traitement de données et au final, c est une bande de développeurs hirsutes de Mountain View en Californie qui a sorti de son chapeau la technologie qui a révolutionné le secteur.( ) Impala est un mix entre des idées neuves et des concepts empruntés à Dremel. Dans les trimestres à venir, nous allons apporter de nouvelles innovations à la plate-forme qui ne sont pas dérivées de Google. Mais nous n avons pas honte : nous prendrons les bonnes idées d où qu elles proviennent. Ce que nous avons fait franchement est d interroger notre base installée pour voir quels étaient ses besoins et pour y répondre, nous avons embauché l ingénieur de Google qui avait construit Dremel. Il y a en revanche des fonctions qui arrivent qui sont inspirées de demandes de nos clients et qui n ont rien à voir avec ce que fait Google. Et je le répète. Nous n avons aucune réserve à emprunter de bonnes idées à Google. En fait, il va se passer pour la plate-forme Hadoop, ce qui est arrivé aux SGBD. Il y a 30 ans, vous pouviez aller voir Ingres et acheter un SGBD. Aujourd hui vous ne pouvez plus aller voir Ingres(sic), mais IBM, Oracle ou Microsoft pour acheter votre SGBD. Mais ce logiciel n a plus rien à voir avec les SGBD d il y a 30 ans. Hadoop est jeune, il va évoluer pour exploiter de nouveaux développements techniques, comme la généralisation des réseaux longue distance à haute performance, la chute des coûts du stockage. Il sera intéressant de voir ce que sera le positionnement prix de la Flash d ici 5 ans. En fait si vous entendez aujourd hui quelqu un critiquer Hadoop en disant, «oui, mais Hadoop n est bon qu à X ou Y», il est prudent de rajouter «aujourd hui». Les limitations que nous connaissons aujourd hui seront certainement contournables dans le futur avec un peu d ingénierie. Christophe Bardy 4. CLOUD ET IMPLEMENTATION : ETAT DES LIEUX Le Big Data a déjà marqué de son empreinte le marché IT. C'est notamment visible chez les acteurs du Paas, tels que Amazon, Google, Heroku, IBM et Microsoft dont les offres ont largement occupé le haut de l affiche. Toutefois, dans ce contexte, il est difficile de savoir quel fournisseur propose l implémentation la plus complète d Apache Hadoop dans un cloud public. Clairement, le framework de la fondation Apache, ainsi que HDFS, MapReduce, Hive, Pig ont gagné en popularité dans l analytique Big Data, alors que les entreprises sont de plus en plus adeptes des modèles Paas pour entreposer leurs données. A cela s ajoute un niveau de maturité d Hadoop, dont la sortie de la version 1.0 a poussé le framework dans les environnements de production liés à l analytique. 14 TOUT SAVOIR SUR

15 DÉCOUVRIR DECOUVRIR Du côté des entreprises, le gain est également évident. Cette capacité à créer des clusters Hadoop hautement scalables sur un modèle OnDemand, combiné à des traitements MapReduce, a permis aux entreprises de réduire leurs dépenses en matériels et serveurs à demeure, dont l utilisation n était que sporadique. En conséquence, Hadoop s est imposé chez les fournisseurs de Paas, comme Amazon, Google, IBM et Microsoft, qui ont décidé de pré-packager Hadoop et MapReduce sous la forme de services pré-configurés. AWS Elastic MapReduce Amazon Web Services a dégainé le premier en avril 2009, avec Elastic MapReduce (EMR). EMR prend en charge le provisioning de cluster Hadoop, exécute des jobs flow et transfère les données entre Amazon EC2 et Amazon S3. EMR intègre également Apache Hive, un service bâti sur Hadoop pour l entrepôt de données. EMR supporte la tolérance de panne pour les noeuds esclaves. Amazon conseille de seulement exécuter Task Instance Group dans des instances ponctuelles (instances spots) afin de bénéficier de coûts réduits, tout en assurant la haute disponibilité. Toutefois, AWS n a ajouté le support des instances ponctuelles qu en août Pour EMR, Amazon pratique un surcoût de 0,015 à 0,50 dollars par heure sur ses offres de petites instances et celles dédiés au calcul à hautes performances (Cluster Compute Eight Extra Large d EC2). Selon AWS, une fois les traitements démarrés, EMR prend en charge le provisioning des instances EC2, les paramètres de sécurité, la configuration d Hadoop, la collecte des logs, le monitoring ainsi que les problématiques hardware, telles que la désactivation automatique des instances en échec des job flow. AWS a récemment annoncé l accès gratuit à Cloudwatch pour EMR. Google App Engine - MapReduce Selon Mike Aizatskyi, développeur chez Google, toutes les équipes du groupe utilisent MapReduce, depuis sa création en Google a publié des API AppEngine - MapReduce, sous la forme de versions expérimentales des API MapReduce destinées à supporter les 15 TOUT SAVOIR SUR

16 DÉCOUVRIR DÉCOUVRIR DECOUVRIR développements réalisés avec Hadoop 0.20 sur Google App Engine. Les équipes de Google ont ensuite publié des API en mars 2011 pour proposer un type de système de fichiers pour le stockage Blob. Elles ont également amélioré la fonction User-Space Shuffler. L API Google AppEngine - MapReduce permet de manipuler les opérations de type Map, Shuffle et Reduce via l API Pipeline. Toutefois, Google n a toujours pas modifié le statut, toujours au stade expérimental de son API. AppEngine - Mapreduce adresse davantage les problématiques des développeurs Java et Python que celles des statisticiens Big Data ou encore les spécialistes de l analytique. Shuffler est également limité à 100 Mo de données, ce qui ne le fait pas véritablement entrer dans la vision Big Data. Pour de plus gros volume de données, un accès vers BigShuffler peut être demandé auprès de Google. Treasure Data Hadoop, add-on pour Heroku L add-on Treasure Data Hadoop pour Heroku permet d utiliser Hadoop et Hive pour analyser les logs et les événements des applications hébergées - une des principales fonctions de la technologie. Heroku propose également d autres add-on Big Data, comme l implémentation de Apache CouchBase (Cloudant), MongoDB, MongoHQ, Redis To Go, et Neo4, notamment. AppHarbor, présenté par certains comme le Heroku pour.net propose également une série d add-on pour Cloudant, MongoLab, MongoHQ et Redis To Go, ainsi que des add-ons pour RavenHQ. Ni Heroku ni AppHarbor ne proposent des implémentations globales d Hadoop. IBM Apache Hadoop pour SmartCloud L aventure de l analytique Hadoop d IBM a débuté en octobre 2011 avec InfoSphere BigInsights Basic pour IBM SmartCloud Enterprise. BigInsight Basic, qui peut gérer jusqu à 10 To de données, est également disponible gratuitement pour les systèmes Linux. BigInsights Enterprise reste en revanche payant. Ces deux versions intègrent Apache Hadoop, HDFS, et le framework MapReduce, ainsi qu un ensemble de sous-projets 16 TOUT SAVOIR SUR

17 DÉCOUVRIR DECOUVRIR Hadoop. L édition Enterprise, quant à elle, comprend une plug-in pour Eclipse pour créer des formats texte, la découverte de données formatées (comme celles d un tableur) ainsi qu une connectivité JDBC à Netezza et DB2. Ces deux éditions embarquent également des outils d installation et d administration. Les spécifications techniques fournies par IBM restent toutefois floues quant aux versions de BigInsights présentes dans le cloud public. Microsoft Apache Hadoop sur Windows Azure Microsoft s est associé à Hortonworks, une spin-off de Yahoo spécialisée dans les services Hadoop, pour implémenter Hadoop sur Azure (HoA - Hadoop on Azure). Depuis le 14 décembre 2011, HoA est disponible en version CTP, mais uniquement sur invitation. Avant de prendre le train Hadoop en marche, Microsoft a développé Dryad, une base de données de type graphe développée par Microsoft Research, et sur l add-on High- Performance Computing (LINQ to HPC) pour gérer l analytique Big Data. La CTP de HoA donne accès à un choix de clusters Hadoop pré-définis (de Small, pour 4 noeuds et 4 Go de stockage, à Extra Large, 32 noeuds et 16 To), pour simplifier les opérations MapReduce. Microsoft a développé plusieurs projets autour de Hadoop / MapReduce, comme le calcul de la valeur de pi ou encore une méthode de développement portant sur l utilisation de C# pour écrire un programme MapReduce pour le streaming de données. L éditeur de Redmond fournit également de nouvelles bibliothèques Javascript, afin de faire du langage un outil de programmation pour Hadoop. Une façon de lever les barrières à l adoption de Hadoop et MapReduce en permettant de développer des programmes MapReduce en Javascript et de les exécuter dans le navigateur. La CTP comprend également un add-on à Hive pour Excel qui permet aux utilisateurs d interagir avec les données dans Hadoop. Les utilisateurs peuvent ainsi réaliser des requêtes Hive afin d analyser les données non structurées d Hadoop au sein de l interface d Excel. Cette version inclut également un pilote ODBC Hive qui permet d intégrer Hadoop aux autres outils de BI de Microsoft. HoA devrait être mis à jour lors d une évolution d Azure prévue à la mi Elle devrait ainsi ouvrir le programme CTP à davantage de développeurs. Cette version devrait également inclure l implémentation d Hadoop pour Windows Server 2008 R2 pour les cloud privé et les environnements hybrides. Comme peuvent le laisser penser les dernières réductions tarifaires d Azure, 17 TOUT SAVOIR SUR

18 DÉCOUVRIR DECOUVRIR Microsoft entend placer, d un point du vue prix, HoA en frontal à Elastic MapReduce. Le Big Data, au delà de Hadoop et MapReduce Comme l indique James Kobielus de cabinet d étude Forrester, «si Hadoop et MapReduce seront des frameworks clés de la sphère Big Data, ils ne seront toutefois pas les seuls». Par exemple, Microsoft travaille également à un projet baptisé Cloud Numerics (en CTP) pour.net, pour le calcul intensif sur un large volume de données distribuées dans Windows Azure. Les équipes de recherche ont également publié le code source pour implémenter l analyse de données Excel dans Windows Azure, au sein de son projet Daytona. Les fournisseurs de Paas qui permettront d automatiser l implémentation de Hadoop, MapReduce et Hive bénéficieront du soutien d un grand nombre de «data scientists» et des acteurs de l analyse de données. Pouvoir placer Excel en front-end d application de BI donne à Microsoft et à son offre Big Data une longueur d avance. Amazon et Microsoft proposent pour l heure les services Hadoop les plus automatisés et complets. Christophe Bardy 18 TOUT SAVOIR SUR

19 LES ACTEURS DE LA SPHÈRE Les acteurs de la sphère Hadoop DECOUVRIR 1. ENTRETIEN AVEC AMR AWADALLAH, CTO DE CLOUDERA Amr Awadallah est le CTO et co-fondateur de Cloudera, spécialiste de la distribution Hadoop. Avant cela, il était vice président de l ingénierie produit chez Yahoo. Lors d une récente visite à Londres, il s est entretenu avec nos confrères et partenaires de ComputerWeekly sur la façon dont la société met en place son concept de «Hub de données en entreprise» par opposition aux entrepôts de données déjà établis dans les entreprises. Il existe deux publics pour le Big Data. Celui intéressé par le concept et celui qui l utilise. Quelle est votre approche par rapport à cela? Amr Awadallah : On trouve des personnes à tous les étages : ceux qui ne sont pas certains de ce qu il faut faire et qui tâtonnent, et les clients qui sont déjà dedans. Cela est normal, comme dans tout cycle d adoption d une nouvelle technologie. Est-il moins nécessaire d évangéliser avec les technologies Big Data? Les problèmes ne sont-ils pas plus évidents qu à l habitude? Amr Awadallah : Non, nous n'en sommes encore qu au commencement. On trouve certains cas d usage liés à l efficacité opérationnelle, qui abordent la question de économie de coûts. Les gens comprennent cela tout de suite. Mais pour vendre la vision complète de ce que nous appelons le hub de données d'entreprise [Enterprise Data Hub] - il faut encore plus d évangélisation, même si les clients sont devenus réceptifs. Un hub de données d entreprise? Amr Awadallah : La mission de Cloudera est de permettre aux clients d utiliser toutes leurs données pour obtenir encore plus d informations et poser davantage de questions. «Toutes» est ici le mot-clé. Il ne s agit pas que des Big Data, mais de toutes les données. Il s agit d avoir une vision globale de vos clients. L exemple que j aime donner de cet ensemble de données en question est celui des distributeurs de billets. Il y a 10 ans, la seule information enregistrée était la transaction en elle-même. Aujourd hui, vous pouvez également collecter des informations implicites, comme votre visage, la façon dont vous interagissez avec l écran, si vous disposez d un smartphone sur lequel est installé l application de la banque et les informations liées au scanner de chèques. Tout cela améliore la détection de fraudes. 19 TOUT SAVOIR SUR

20 LES ACTEURS DE LA SPHÈRE DECOUVRIR «Poser davantage de questions» est également un point important. Les applications traditionnelles se sont focalisées sur l usage de SQL. Désormais, SQL est puissant, mais il y a toujours des questions que vous ne pouvez pas poser. Vous ne pouvez pas traiter des images ou faire de la reconnaissance vocale avec SQL. Ni scanner un document PDF. Le cas d usage ultime est une vue à 360 du client. Cela résout les problèmes de silos de données et de données répartis sur plusieurs canaux. Notre plate-forme permet de casser ces silos. Cloudera est un distributeur de distribution Hadoop. En quoi cette approche de hub correspond-il à une évolution? Amr Awadallah : Il ne s agit pas de renier de ce que nous avons fait. Mais de parler un langage plus familier aux entreprises. 80% des distibutions Hadoop vendues dans le monde sont les notres. Mais nous proposons également des technologies en parallèle. Hadoop est aussi en train de se transformer - Yarn contribue ainsi à ouvrir la plate-forme. Il y a 5 ans, tout ce que vous pouviez réaliser avec Hadoop était des opérations MapReduce. Yarn permet à d autres applications de s exécuter au dessus des données, comme des applications interactives SQL, ce que propose Impala par exemple. Nous disposons également d une fonction de recherche nativement intégrée. Nous nous intégrons avec SAS et Splunk - Hunk s exécute nativement sur Hadoop. Le moteur d ETL d Informatica s exécute également au dessus de la plate-forme Cloudera. L analogie que nous aimons utiliser est celle-ci : nous sommes le smartphone de la donnée, au lieu du Reflex numérique. Les entrepôts de données des entreprises sont les Reflex du monde de la données. Ils sont chers et ne font qu une seule chose - interroger des données structurées. Le hub de données en entreprise est équivalent à un smartphone. Il est pratique et les applications peuvent toutes partager les données. C est pareil avec nous. Le modèle est que les applications viennent aux données, plutôt que de déplacer les données vers des silos de traitement fermés, ce qui empêche d avoir une vue à 360 degré. Notre approche est plus économique que l entrepôt de données traditionnel. Avec nous, le coût pour un teraoctet de données tourne autour de 1 000$. Dans des entrepôts de données, vous pouvez payer jusqu à $ par teraoctoet pour stocker des données que vous n utilisez pas - des données que vous n avez pas consulté depuis 6 mois par exemple. Nous proposons un système d archivage dynamique pour cela. 20 TOUT SAVOIR SUR

Montrer encore