Tout savoir sur Hadoop : Vulgarisation de la technologie et les stratégies de certains acteurs

Dimension: px
Commencer à balayer dès la page:

Download "Tout savoir sur Hadoop : Vulgarisation de la technologie et les stratégies de certains acteurs"

Transcription

1 Tout savoir sur Hadoop : Vulgarisation de la technologie et les stratégies de certains acteurs Hadoop suscite l'intérêt d'un nombre croissant d'entreprises. Dans ce guide, LeMagIT fait le tour des fonctionnalités d'hadoop mais aussi de ces bénéfices et inconvénients. PRÉSENTATION DÉCOUVRIR

2 Pésentation DECOUVRIR JUIN 2014 La première technologie qui vient à l esprit lorsque l on évoque aujourd hui le sujet du Big Data est Hadoop, le framework analytique Java développé au sein de la fondation Apache. Populaire, Hadoop reste toutefois un mystère pour nombre d utilisateurs désireux de mettre en oeuvre la technologie ou de mieux la comprendre. LeMagIT a réuni au sein de ce dossier un ensemble d'articles dont l'objectif est d'aider à comprendre ce qu'est réellement Hadoop, comment il fonctionne, quels sont ses usages, comment la technologie est architecturée. CYRILLE CHAUSSON Rédacteur en chef, TechTarget / LeMagIT 2 TOUT SAVOIR SUR

3 DÉCOUVRIR DÉCOUVRIR DÉCOUVRIR DECOUVRIR 1. A LA DÉCOUVERTE D' La première technologie qui vient à l esprit lorsque l on évoque aujourd hui le sujet du Big Data est Hadoop est le framework analytique Java développé au sein de la fondation Apache. Populaire, Hadoop reste toutefois un mystère pour nombre d utilisateurs. Pour mieux comprendre les fondements technologiques d Hadoop et les différentes briques qui le composent, LeMagIT s est plongé dans l histoire et l architecture du framework. Hadoop trouve ses racines dans les technologies propriétaires d analyse de données de Google. En 2004, le moteur de recherche a publié un article de recherche présentant son algorithme MapReduce, conçu pour réaliser des opérations analytiques à grande échelle sur un grand cluster de serveurs, et sur son système de fichier en cluster, Google Filesystem (GFS). Doug Cutting, qui travaillait alors sur le développement du moteur de recherche libre Apache Lucene et butait sur les mêmes problèmes de volumétrie de données qu avait rencontré Google, s est alors emparé des concepts décrits dans l article du géant de la recherche et a décidé de répliquer en open source les outils développés par Google pour ses besoins. Employé chez Yahoo, il s est alors lancé dans le développement de ce qui est aujourd hui le projet Apache Hadoop pour la petite histoire, Hadoop est le nom de l éléphant qui servait de doudou à son jeune fils. Hadoop : un framework modulaire Hadoop n a pas été conçu pour traiter de grandes quantités de données structurées à grande vitesse. Cette mission reste largement l apanage des grands systèmes de Datawarehouse et de datamart reposant sur des SGBD traditionnelles et faisant usage de SQL comme langage de requête. La spécialité d Hadoop, ce serait plutôt le traitement à très grande échelle de grands volumes de données non structurées tels que des documents textuels, des images, des fichiers audio même s il est aussi possible de traiter des données semi-structurées ou structurées avec Hadoop. HDFS : le système de gestion de fichier en cluster au cœur d Hadoop Au cœur du framework open source se trouve avant tout un système de fichiers en cluster, baptisé HDFS (Hadoop Distributed Filesystem). HDFS a été conçu pour stocker de très gros volumes de données sur un grand nombre de machines équipées de disques durs banalisés. Le filesystem HDFS est conçu pour assurer la sécurité des données en répliquant de multiples fois l ensemble des données écrites sur le cluster. 3 TOUT SAVOIR SUR

4 DÉCOUVRIR DECOUVRIR Par défaut, chaque donnée est écrite sur trois nœuds différents. Il ne s agit pas du plus élégant des mécanismes de redondance, ni du plus efficace, mais étant donné que l on s appuie sur des disques durs SATA économiques, un cluster HDFS a le bénéfice d offrir une solution de stockage très économique par rapport à celui des baies de stockage traditionnelles. En l état, HDFS est optimisé pour maximiser les débits de données et non pas pour les opérations transactionnelles aléatoires. La taille d un bloc de données est ainsi de 64 Mo dans HDFS contre 512 octets à 4 Ko dans la plupart des systèmes de fichiers traditionnels. Cette taille de bloc s explique par le fait que Hadoop doit analyser de grandes quantités de données en local. Avec la version 2.0 d Hadoop, la principale faiblesse d HDFS a été levée : jusqu alors la gestion des métadonnées associées aux fichiers étaient la mission d un unique «name node» ; ce qui constituait un point de faille unique. Depuis la version 2.0 et l arrivée de la fonction HDFS High Availability, le "name node" est répliqué en mode actif/passif, ce qui offre une tolérance aux pannes. Un autre «défaut» d HDFS est que le système n est pas conforme au standard POSIX et que certaines commandes familières sur un filesystem traditionnel ne sont pas disponibles. Il est à noter que si HDFS est le système de fichiers par défaut d Hadoop, le framework peut aussi être déployé sur des systèmes tiers, souvent grâce à des couches de compatibilité. MapR, l un des pionniers d Hadoop, a ainsi développé son propre système de gestion de fichiers qui règle le problème de fragilité lié aux "name nodes" d HDFS (en distribuant les informations de métadonnées sur les nœuds de données) et qui ajoute aussi des fonctions avancées comme les snapshots, la réplication ou le clonage. Plusieurs constructeurs de baies de stockage comme EMC, HP ou IBM ont aussi développé des couches de compatibilité HDFS au dessus de certaines de leurs baies ; ce qui leur permet de stocker les données d un cluster Hadoop. MapReduce : distribuer le traitement des données entre les nœuds Le second composant majeur d Hadoop est MapReduce, qui gère la répartition et l exécution des requêtes sur les données stockées par le cluster. Le framework MapReduce est conçu pour traiter des problèmes parallèlisables à très grande échelle en s appuyant sur un très grand nombre de nœuds. L objectif de MapReduce et de son mécanisme avancé de distribution de tâches est de tirer parti de la localité entre données et traitements sur le même nœud de façon à minimiser l impact des transferts de données entre les nœuds du cluster sur la performance. 4 TOUT SAVOIR SUR

5 DÉCOUVRIR DECOUVRIR MapReduce est un processus en plusieurs étapes. Dans la phase «Map», le nœud maitre divise le problème posé en sous-problèmes et les distribue entre nœuds de traitement. Ces nœuds peuvent en cascade distribuer à nouveau les tâches qui leur ont été assignées. Les réponses sont ensuite remontées de nœuds en nœuds jusqu au nœud maitre ayant assigné les travaux à l origine. C est alors que s opère l étape "Reduce" : le nœud maitre collationne les réponses emontant des nœuds de traitement et les combine afin de fournir la réponse à la question posée à l origine. Il est à noter que les traitements Mapreduce s opèrent sur des données structurées sous la forme (clé, valeur) et que des mécanismes d optimisation assurent que les traitements sont distribués de telle sorte qu ils s opèrent au plus proche des données (c est-à-dire idéalement sur les neuds qui hébergent les données concernées). De nouveaux outils de langages pour faciliter les requêtes sur Hadoop Les API clés de MapReduce sont accessibles en Java, un langage certes populaire mais qui requiert des compétences bien plus pointues que la maîtrise d un langage d interrogation comme SQL. Plusieurs langages ont donc émergé pour tenter de simplifier le travail des utilisateurs d Hadoop, dont Pig et Hive. Né chez Yahoo, Pig est conçu pour traiter toute forme de données. Le langage de Pig est PigLatin, complété par un runtime destiné à exécuter les programmes rédigés en PigLatin. PigLatin a une sémantique assez simple. 5 TOUT SAVOIR SUR

6 DÉCOUVRIR DECOUVRIR Il permet de charger des données, puis de les manipuler (appliquer des filtres, des groupements, des opérations mathématiques ). Chez Facebook, des développeurs ont quant à eux conçu Hive, pour permettre à des développeurs familiers du langage SQL de manipuler des données dans Hadoop. Hive dispose d un langage baptisé HQL (Hive Query Langage) dont la syntaxe est similaire à celle de SQL. Le service Hive découpe les requêtes en jobs MapReduce afin de les exécuter sur le cluster. Au fil des ans, Hadoop a continué à s enrichir de nouvelles applications, comme la base de données Hbase, qui fournit des services similaires au service BigTable de Google. Hbase est une base de données en colonnes (dans la mouvance NoSQL) qui s appuie sur le système de gestion de fichiers en cluster HDFS pour le stockage de ses données. Hbase est notamment utile pour ceux qui ont besoin d accès aléatoires en lecture/écriture à de grands volumes de données. La base intègre des fonctions de compression et de traitement «in-memory».parmi les autres composants connus, on peut aussi citer la technologie d apprentissage Apache Mahout, ainsi que la technologie d administration de cluster Zookeeper. Zookeeper est lui-même un service distribué qui permet de coordonner l ensemble des processus distribués sur le cluster, mais aussi de gérer les configurations de ses différents éléments. Un écosystème qui ne cesse de s enrichir Signalons pour terminer que le périmètre d Hadoop continue de s élargir, les différents développeurs de distributions Hadoop ajoutant progressivement de nouveaux composants, outils ou langages afin d enrichir les composants de base du framework. Cloudera a ainsi récemment publié Impala, sa technologie de query SQL massivement parallèle, pour le traitement en temps réel de données stockées dans Hbase ou dans HDFS. Dans le cadre de son projet Hawq, Pivotal a, quant à lui, porté sa base de données massivement parallèle Greenplum sur HDFS et étendu sa technologie de query aux données non structurées et semi-structurées stockées sur HDFS. Et c est sans compter sur les multiples intégrations réalisées par des acteurs des bases de données traditionnelles et de l analytique, comme Teradata, Oracle ou Microsoft Un signe évident du dynamisme de l écosystème Hadoop, mais aussi de sa relative jeunesse. Christophe Bardy 6 TOUT SAVOIR SUR

7 DÉCOUVRIR DECOUVRIR 2. 2 VEUT ÉTENDRE LE CHAMP D'APPLICATION D' AU-DELÀ DU BATCH Hadoop 2 a officiellement été dévoilé par la fondation Apache cette semaine et constitue une évolution majeure pour le framework analytique historiquement basé sur le système de gestion de fichiers en cluster HDFS (Hadoop Distributed File System) et sur le framework MapReduce. Les premiers utilisateurs d Hadoop notamment dans le monde internet, ont utilisé la technologie pour traiter des volumes massifs de données non structurées et semi structurées, typiquement des données de logs serveur et réseau, des données de provenant de réseaux de capteurs, de flux sociaux ou des images Ces données sont stockées sur des clusters de serveurs banalisés fournissant un pool relativement peu couteux de ressources de stockage et de traitement. Comme l explique Tony Consentino, vice-président et directeur de recherche chez Ventana Research, Hadoop a la capacité de traiter des données peu structurées et des informations qui se prête peu à un stockage dans des bases de données traditionnelles. Toutefois, comme le précise Cosentino, les implémentations de l architecture actuelle d Hadoop sont limitées par son orientation batch. «Hadoop est bien adapté pour les applications ou la latence n est pas un problème et qui nécessitent le traitement de grandes volumétries de données». Le couple HDFS MapReduce «est bien adapté à l analyse de jeu de donnés très larges de données non structurées statiques comportant des téraoctets ou des petaoctets de données» explique William Bain, le CEO de ScaleOut Software, un éditeur de solutions de traitement de données basé à Beaverton, dans l Oregon. Comme Cosentino, Bain insiste que du fait de sa nature batch, et de l important overhead requis pour le traitement de données, Hadoop n a pas été utile pour le traitement de données en temps réel, même si cela pourrait changer dans l avenir avec l avènement d Hadoop 2 et l apparition de nouveaux moteurs de requêtes développés par certains fournisseurs. On pense par exemple à des technologies comme Impala chez Cloudera. Un écosystème dynamique Le dynamisme de l écosystème qui entoure Hadoop est remarquable. Depuis ses débuts, la technologie a attiré des centaines de développeurs désireux de créer des outils additionnels pour combler des trous dans le spectre fonctionnel du framework. On peut par exemple citer des composants comme Hbase une base de données 7 TOUT SAVOIR SUR

8 DÉCOUVRIR DECOUVRIR distribuée au dessus d HDFS -, Hive un datawarehouse de type SQL - ou Pig un langage de haut niveau pour développer des programmes d analyse au dessus de MapReduce. D autres acteurs ont contribué des composants qui sont devenus des sous-projets Hadoop comme Ambari pour le provisioning et l administration de clusters, Cassandra, une base de données NoSQL ou ZooKeeper qui permet de conserver les données de configuration et de synchroniser les opérations entre clusters. YARN apporte plus de flexibilité à Hadoop 2 C est là qu entre en scène Hadoop 2 originellement connu sous le nom Hadoop 2.0. Au cœur de cette mise à jour majeure figure YARN, un nouveau gestionnaire de ressources qui devrait permettre à d autres applications que les programmes MapReduce de tirer parti des capacités d HDFS. YARN (Yet Another Resource Negotiator) est en parti conçu pour venir à bout des limitations de MapReduce dans les configurations de très grands clusters mais aussi pour venir à bout des limitations lié à l utilisation du mode Batch tout en garantissant la compatibilité avec les API existantes et avec les job MapReduce existants (moyennant une recompilation). Avec YARN (aussi appelé MapReduce 2.0 ou MRv2) les tâches de gestion de ressources et de job scheduling/monitoring de MapReduce sont séparées en deux démons autonomes. L idée selon la fondation Apache est d avoir un gestionnaire de ressources global (distribuant les tâches selon des critères de mémoire, de CPU et de réseau) et un gestionnaire d application, qui gère les jobs (au sens MapReduce du terme). «YARN est une différence clé d Hadoop 2.0», explique Cosentino. «Au lieu de laisser un job MapReduce se considérer comme le seul utilisateur d un cluster HDFS, il permet à de multiples workloads de s exécuter de façon simultanée». Un exemple est le cas d utilisation de Yahoo qui a mis en œuvre le traitement d événements complexes Storm au dessus de YARN, afin de canaliser les données issues des activités sur ses sites web sur un cluster Hadoop. Yahoo dispose actuellement de plus de 365 Po de données sur nœuds de clusters Hadoop gérés par YARN a récemment expliqué Bruno Fernandez-Ruiz, un «senior fellow» et vice-président en charge des plates-formes chez Yahoo. C est bien plus que ce que vous pourrez trouver dans une entreprise typique aujourd hui explique Fernandez-Ruiz, tout en estimant que d autres pourraient suivre son exemple dans les années à venir. «Notre présent est votre futur» a-t-il expliqué aux participants du dernier Hadoop Summit. 8 TOUT SAVOIR SUR

9 DÉCOUVRIR DECOUVRIR Hadoop 2 est aussi censé apporté des améliorations en termes de disponibilité (en permettant de fédérer les name nodes Hadoop) et apporte aussi le support de Windows. Les innovations du nouveau framework devraient faire leur apparition dans les multiples distributions commerciales Hadoop au cours des prochains mois. Christophe Bardy 3. Mike Olson, CEO de Cloudera : Hadoop change la façon dont les entreprises traitent leurs données Comment le Big Data et Hadoop vont changer la façon dont les entreprises traitent leurs données... Un grand nombre d'organisations et d entreprises utilisatrices de technologie, vont modifier la façon dont elles traitent leurs données comme elles ne l ont jamais fait auparavant. Le monde va devenir plus guidé par le Big Data, car les données sont disponibles. Et soit dit en passant, si votre organisation choisit de ne pas en tirer profit, cela deviendra un désavantage concurrentiel. Car d autres, dans votre secteur, feront un meilleur usage des données. Ce qui change tout, bien sûr, est le volume, la variété et la vitesse des données qui nous sont maintenant accessibles. Elles proviennent de nombreuses sources, y compris d activités non humaines, telles que mes tweets, mon Facebook ou mes achats en ligne sur les sites d'ecommerce. À cela viennent les données générées automatiquement par des équipements électroniques parlant à d autres équipements électroniques. Aux États- Unis, le réseau électrique intelligent est en cours de déploiement, donc ma maison rapporte désormais régulièrement des informations à mon fournisseur d'énergie : combien je consomme, à quel moment et même aujourd'hui, avec certains appareils, les détails de ma consommation dans ma maison, par exemple combien mon système de chauffage domestique consomme. C'est une information qui n'était pas disponible auparavant. Elle nous permettra d'optimiser le réseau de nouvelles façons. L exploration de ces données à grande échelle permet à nos clients d'utiliser ces données différemment. En réalité, cela leur permet de poser des questions qu ils ne pouvaient tout simplement pas poser jusqu alors. Par exemple, les banques et les assurances cherchent à détecter la fraude. Ce n est pas une nouveauté, mais que se passerait-il si vous pouviez traiter une décennie de données plutôt qu un mois d historique de transactions. Et si vous pouviez ingérer non seulement les transactions financières mais aussi les activités des utilisateurs sur le web, quelles pages ils ont visité, pendant combien de temps, ce qu ils ont acheté... Si vous pouvez ingérer des données variées et les soumettre à des algorithmes d apprentissage informatisés, à des outils d analyse statistique et à des techniques de modélisation avancées, 9 TOUT SAVOIR SUR

10 DÉCOUVRIR DECOUVRIR vous pouvez commencer à poser des questions qu il était impossible de poser précédemment. Et les exemples sont multiples. A propos du marché du Big Data et d Hadoop Le volume, la variété et la vitesse des données sont en pleine expansion et cela crée une opportunité majeure pour Cloudera. ( ) En 2016, nous nous attendons à ce que 123 Md$ soient dépensés en logiciels au niveau mondial. De façon importante, les applications et les bases de données représenteront plus de la moitié de cette dépense. C'est un investissement énorme et il est lié à des activités économiques déjà engagées. Si le volume de données et les analyses que souhaitent réaliser les entreprises continuent à évoluer de façon rapide, une partie de ce budget va être perturbée et va aller à de nouveaux endroits. Franchement, nous espérons qu une bonne partie vienne à nous. Si l on regarde au-delà des grandes tendances, ( ) IDC indique que 1,7 Md$ sont consacrés aujourd hui à l'analyse de données ; le traitement de données et les ETL pèsent pour 3,5 Md$. Ce sont des marchés adressables immédiatement pour nous et où les clients achètent aujourd'hui ( ). Les analystes en général sont horriblement mauvais pour réaliser des prévisions en particulier sur de nouveaux marchés. Néanmoins, un certain nombre d'entre eux a tenté d évaluer l opportunité que représente le marché du Big Data. Selon les sources, les prévisions varient énormément, mais il y a un consensus : entre 10 et 30 Md$ au cours des années à venir. C est une grande nouvelle pour nous. Nous avons été les premiers à entrer sur le marché du Big Data, nous avons été les premiers à commercialiser Hadoop et nous pensons que nous avons un certain nombre d avantages pour capturer une partie de ce marché. La vision de Michael Olson sur Cloudera et Hadoop... Cloudera a apporté au marché une solution de Big Data basée sur Hadoop. Basée, car notre distribution est la solution la plus complète construite sur Hadoop et les produits l entourant. Vous pouvez considérer un tel assemblage comme Linux. Ce que Red Hat produit est un logiciel que vous pouvez installer sur votre ordinateur, basé sur le noyau Linux. Vous pourriez assembler les modules vous-mêmes, mais ce que Linux (au sens kernel.com) est vraiment, est un composant compact qui permet de stocker des fichiers et faire tourner des programmes. Ce que Red Hat a fait est packager toutes les applications et outils, éditeurs de texte et fournit l infrastructure de support qui rend cette plate-forme 10 TOUT SAVOIR SUR

11 DÉCOUVRIR DECOUVRIR utilisable. Red Hat l a ensuite livré avec un support 24/24 ainsi qu avec un service de mise à jour. Ce service ressemble à ce que nous faisons pour Hadoop. Nous pensons que nous avons l opportunité de remplacer une variété de systèmes de stockage, bases de données, systèmes de gestion de contenus spécifiques, propriétaires et vieillissants par une seule solution cohérente, à même de stocker une grande variété de données et de faire tourner un grand nombre de workload. Soyons clairs : nous ne pensons pas remplacer les bases de données relationnelles. Les grands datawarehouses font un boulot excellent pour l OLTP et l OLAP depuis longtemps. Ces marchés resteront durablement l apanage des vendeurs qui les dominent. Mais nous avons des clients qui dépensent bien trop d argent sur certains de leurs workloads. Si par exemple vous avez un grand datawarehouse et que vous utilisez ce système grand et cher pour vos applications d ETL, vous dépensez sans doute bien trop. Vous pourriez libérer de la capacité analytique sur ce système si vous pouviez transférer les workloads de data processing sur une infrastructure moins coûteuse. Notre plate-forme permet à nos clients de faire exactement cela. Notre désir est de délivrer une seule et unique plate-forme à même de permettre à nos clients d ingérer des données depuis n importe quelle source, de la soumettre à une variété de processus de traitement de données et en plus, de l analyser avec des outils et algorithmes puissants jusqu alors inaccessibles. Comme je l ai dit, nous délivrons une nouvelle plateforme critique et nous pensons qu elle deviendra aussi prévalente que les SGBD le sont aujourd hui. Elle ne remplacera pas les systèmes existants, mais viendra les compléter pour permettre à nos clients d optimiser leurs déploiements. Ils pourront faire tourner les workloads sur la plate-forme la plus adaptée et au meilleur coût. Ce que l on a fait est packager le projet open source avec des outils d administration et de monitoring. Tout ce que nous savons sur la gestion des clusters Hadoop a été mis dans le logiciel et nous délivrons le tout avec un support 24/7. Nous rendons Hadoop manageable. Notre go-tomarket est le même que celui de Sybase, Ingres ou Oracle dans le milieu des années quatre-vingt-dix. Hadoop, comme les bases SGBD à l époque, est nouveau. Il faut des compétences pointues pour l opérer et elles sont encore assez rares sur le terrain. Les applications, les outils qui tournent sur Hadoop, sont eux aussi encore rares, mêmes si nous en voyons apparaître de plus en plus. Comme Oracle, Sybase, IBM ou Microsoft, Cloudera se concentre non pas sur le développement d applications mais sur la livraison d une infrastructure fiable, simple à administrer et à exploiter. Nous laissons intentionnellement le marché des applications et des outils à nos partenaires. Notre désir est de créer un écosystème riche de vendeurs qui s appuient sur notre plate-forme. Si nous y parvenons, chacun de ces outils et applications accélérera l adoption de notre plate-forme. 11 TOUT SAVOIR SUR

12 DÉCOUVRIR DECOUVRIR Cette stratégie devrait nous permettre de nous développer de façon solide à long terme. Il se pourrait qu un jour viendra où nous aurons saturé le marché pour les platesformes Big Data, mais nous avons aujourd hui un large espace ouvert devant nous pour délivrer cette plate-forme et encourager l innovation dans l écosystème. Nous avons aujourd hui 400 partenaires dans notre programme Connect. Ce sont des éditeurs, des intégrateurs systèmes, ou des constructeurs comme Dell ou HP ainsi que des éditeurs d outils comme Microstrategy. Cloudera et ses concurrents dans le monde Hadoop (MapR, HortonWorks )... Nous existons depuis mi C est plus vieux que nos concurrents immédiats. Le créateur d'hadoop travaille pour Cloudera; nous employons une population non négligeable de contributeurs et de commiteurs au code Hadoop open source; nous disposons d une équipe compétente en charge du développement de nos outils de management et des personnels adaptés pour le support de nos clients et de nos partenaires... Nous sommes leaders simplement parce que les dés étaient pipés d avance : nous sommes sur le marché depuis plus longtemps que tous nos concurrents, et de ce fait, nous avons plus de retours sur ce dont ont besoin les clients. Et puis, nous avons simplement eu plus de temps que tout le monde pour construire nos produits. Notre technologie, notre équipe, nous séparent des concurrents. 20 milliards d événements online sont ingérés chaque jour par nos systèmes. 20 millions de foyers voient leur consommation énergétique traitée et analysée par nos systèmes, 70% des activités en ligne des utilisateurs mobiles US passent à un moment ou à un autre par un système Cloudera, notamment les services en matière de géolocalisation. 4 des 5 premières banques US nous utilisent pour de l analyse de risque ou de la détection de fraude et nous sommes présents chez les plus grands opérateurs télécoms, ainsi que dans les grandes agences de renseignement américaines. Il ne s agit pas, comme vous le voyez, que d applications internet grand public. Il ne s agit pas de Facebook - pour motoriser la sélection de publicités qu il va afficher à ses membres. On parle là d un échantillon très large de workloads dans des secteurs économiques très variés, permettant de résoudre des problèmes spécifiques à chaque client. Cette plate-forme ne peut générer un marché de plusieurs milliards de dollars que si elle est suffisamment générique et peut être appliquée à des problèmes très différents, c est le cas dans notre base installée. Hadoop et les traitements en temps réel TOUT SAVOIR SUR

13 DÉCOUVRIR DÉCOUVRIR DECOUVRIR Pour ceux qui ne connaissent pas très bien Hadoop, la conception a eu lieu chez Google et l accouchement s est fait dans des sociétés comme Facebook ou Yahoo. Le problème que ces sociétés cherchaient à résoudre était celui du traitement à très grande échelle de log web. Ils avaient beaucoup de données à traiter en mode batch. Ils ont donc conçu MapReduce, un système de traitement de données en mode batch pour analyser ces données. Cela a transformé la façon dont Internet opère. Ce qui nous a motivés chez Cloudera est que nous étions convaincus que ce qui a transformé l Internet grand public était applicable aux entreprises : Google n était pas différent d une entreprise normale, il opérait simplement 10 ans dans le futur Stocker de grandes quantités de données et pouvoir réaliser des traitements en mode batch dessus a déjà changé les choses. Mais soyons honnêtes, il y a beaucoup d applications qui ne fonctionnent pas en mode batch dans le monde. Il y aussi un grand nombre d applications temps réel et interactives. Si Hadoop était prisonnier du ghetto batch, il ne pourrait pas tirer parti d opportunités de marché très larges. C est pourquoi dans le cadre de notre plate-forme, nous délivrons une plateforme d analyse de données en temps réel baptisée Hbase. Nous avons aussi fait une contribution majeure à la communauté Open Source avec un logiciel de traitement en temps réel baptisé Impala qui permet d effectuer des requêtes interactives sur les données stockées dans Hadoop. En fait vous pouvez utiliser MapReduce, Hbase ou Impala sur un même jeu de données. Une fois que les données sont stockées sur Hadoop, vous pouvez lui apporter tout type de moteur de traitement. MapReduce n est pas la seule alternative, Hbase ou Impala sont disponibles aujourd hui mais au fil des ans de nouveaux moteurs devraient s ajouter à la liste. Impala n est-il pas une implémentation de Google Dremel avec 2 à 4 ans de retard? Et que dire du retard général Hadoop sur les technologies développées en interne par Google? Si vous regardez le projet open source Hadoop vous avez effectivement raison. Il s agit d une «imitation» avec 4 ans de retard sur ce que Google avait inventé en interne. J ai passé 26 ans de ma carrière dans le monde des SGBD, j ai lu à l époque l article de Google sur MapReduce et j ai pensé qu il s agissait d une blague. Tout le monde dans l industrie pensait savoir comment bâtir des bases de données à grande échelle et nous avons complètement raté l opportunité que représentaient Hadoop et le Big Data en général. Une industrie avec des milliards de dollars de revenus, avec un énorme budget R&D épaulé par la recherche de multiples universités de classe mondiale, a passé 30 ans à perfectionner ses 13 TOUT SAVOIR SUR

14 DÉCOUVRIR DECOUVRIR logiciels de traitement de données et au final, c est une bande de développeurs hirsutes de Mountain View en Californie qui a sorti de son chapeau la technologie qui a révolutionné le secteur.( ) Impala est un mix entre des idées neuves et des concepts empruntés à Dremel. Dans les trimestres à venir, nous allons apporter de nouvelles innovations à la plate-forme qui ne sont pas dérivées de Google. Mais nous n avons pas honte : nous prendrons les bonnes idées d où qu elles proviennent. Ce que nous avons fait franchement est d interroger notre base installée pour voir quels étaient ses besoins et pour y répondre, nous avons embauché l ingénieur de Google qui avait construit Dremel. Il y a en revanche des fonctions qui arrivent qui sont inspirées de demandes de nos clients et qui n ont rien à voir avec ce que fait Google. Et je le répète. Nous n avons aucune réserve à emprunter de bonnes idées à Google. En fait, il va se passer pour la plate-forme Hadoop, ce qui est arrivé aux SGBD. Il y a 30 ans, vous pouviez aller voir Ingres et acheter un SGBD. Aujourd hui vous ne pouvez plus aller voir Ingres(sic), mais IBM, Oracle ou Microsoft pour acheter votre SGBD. Mais ce logiciel n a plus rien à voir avec les SGBD d il y a 30 ans. Hadoop est jeune, il va évoluer pour exploiter de nouveaux développements techniques, comme la généralisation des réseaux longue distance à haute performance, la chute des coûts du stockage. Il sera intéressant de voir ce que sera le positionnement prix de la Flash d ici 5 ans. En fait si vous entendez aujourd hui quelqu un critiquer Hadoop en disant, «oui, mais Hadoop n est bon qu à X ou Y», il est prudent de rajouter «aujourd hui». Les limitations que nous connaissons aujourd hui seront certainement contournables dans le futur avec un peu d ingénierie. Christophe Bardy 4. CLOUD ET IMPLEMENTATION : ETAT DES LIEUX Le Big Data a déjà marqué de son empreinte le marché IT. C'est notamment visible chez les acteurs du Paas, tels que Amazon, Google, Heroku, IBM et Microsoft dont les offres ont largement occupé le haut de l affiche. Toutefois, dans ce contexte, il est difficile de savoir quel fournisseur propose l implémentation la plus complète d Apache Hadoop dans un cloud public. Clairement, le framework de la fondation Apache, ainsi que HDFS, MapReduce, Hive, Pig ont gagné en popularité dans l analytique Big Data, alors que les entreprises sont de plus en plus adeptes des modèles Paas pour entreposer leurs données. A cela s ajoute un niveau de maturité d Hadoop, dont la sortie de la version 1.0 a poussé le framework dans les environnements de production liés à l analytique. 14 TOUT SAVOIR SUR

15 DÉCOUVRIR DECOUVRIR Du côté des entreprises, le gain est également évident. Cette capacité à créer des clusters Hadoop hautement scalables sur un modèle OnDemand, combiné à des traitements MapReduce, a permis aux entreprises de réduire leurs dépenses en matériels et serveurs à demeure, dont l utilisation n était que sporadique. En conséquence, Hadoop s est imposé chez les fournisseurs de Paas, comme Amazon, Google, IBM et Microsoft, qui ont décidé de pré-packager Hadoop et MapReduce sous la forme de services pré-configurés. AWS Elastic MapReduce Amazon Web Services a dégainé le premier en avril 2009, avec Elastic MapReduce (EMR). EMR prend en charge le provisioning de cluster Hadoop, exécute des jobs flow et transfère les données entre Amazon EC2 et Amazon S3. EMR intègre également Apache Hive, un service bâti sur Hadoop pour l entrepôt de données. EMR supporte la tolérance de panne pour les noeuds esclaves. Amazon conseille de seulement exécuter Task Instance Group dans des instances ponctuelles (instances spots) afin de bénéficier de coûts réduits, tout en assurant la haute disponibilité. Toutefois, AWS n a ajouté le support des instances ponctuelles qu en août Pour EMR, Amazon pratique un surcoût de 0,015 à 0,50 dollars par heure sur ses offres de petites instances et celles dédiés au calcul à hautes performances (Cluster Compute Eight Extra Large d EC2). Selon AWS, une fois les traitements démarrés, EMR prend en charge le provisioning des instances EC2, les paramètres de sécurité, la configuration d Hadoop, la collecte des logs, le monitoring ainsi que les problématiques hardware, telles que la désactivation automatique des instances en échec des job flow. AWS a récemment annoncé l accès gratuit à Cloudwatch pour EMR. Google App Engine - MapReduce Selon Mike Aizatskyi, développeur chez Google, toutes les équipes du groupe utilisent MapReduce, depuis sa création en Google a publié des API AppEngine - MapReduce, sous la forme de versions expérimentales des API MapReduce destinées à supporter les 15 TOUT SAVOIR SUR

16 DÉCOUVRIR DÉCOUVRIR DECOUVRIR développements réalisés avec Hadoop 0.20 sur Google App Engine. Les équipes de Google ont ensuite publié des API en mars 2011 pour proposer un type de système de fichiers pour le stockage Blob. Elles ont également amélioré la fonction User-Space Shuffler. L API Google AppEngine - MapReduce permet de manipuler les opérations de type Map, Shuffle et Reduce via l API Pipeline. Toutefois, Google n a toujours pas modifié le statut, toujours au stade expérimental de son API. AppEngine - Mapreduce adresse davantage les problématiques des développeurs Java et Python que celles des statisticiens Big Data ou encore les spécialistes de l analytique. Shuffler est également limité à 100 Mo de données, ce qui ne le fait pas véritablement entrer dans la vision Big Data. Pour de plus gros volume de données, un accès vers BigShuffler peut être demandé auprès de Google. Treasure Data Hadoop, add-on pour Heroku L add-on Treasure Data Hadoop pour Heroku permet d utiliser Hadoop et Hive pour analyser les logs et les événements des applications hébergées - une des principales fonctions de la technologie. Heroku propose également d autres add-on Big Data, comme l implémentation de Apache CouchBase (Cloudant), MongoDB, MongoHQ, Redis To Go, et Neo4, notamment. AppHarbor, présenté par certains comme le Heroku pour.net propose également une série d add-on pour Cloudant, MongoLab, MongoHQ et Redis To Go, ainsi que des add-ons pour RavenHQ. Ni Heroku ni AppHarbor ne proposent des implémentations globales d Hadoop. IBM Apache Hadoop pour SmartCloud L aventure de l analytique Hadoop d IBM a débuté en octobre 2011 avec InfoSphere BigInsights Basic pour IBM SmartCloud Enterprise. BigInsight Basic, qui peut gérer jusqu à 10 To de données, est également disponible gratuitement pour les systèmes Linux. BigInsights Enterprise reste en revanche payant. Ces deux versions intègrent Apache Hadoop, HDFS, et le framework MapReduce, ainsi qu un ensemble de sous-projets 16 TOUT SAVOIR SUR

17 DÉCOUVRIR DECOUVRIR Hadoop. L édition Enterprise, quant à elle, comprend une plug-in pour Eclipse pour créer des formats texte, la découverte de données formatées (comme celles d un tableur) ainsi qu une connectivité JDBC à Netezza et DB2. Ces deux éditions embarquent également des outils d installation et d administration. Les spécifications techniques fournies par IBM restent toutefois floues quant aux versions de BigInsights présentes dans le cloud public. Microsoft Apache Hadoop sur Windows Azure Microsoft s est associé à Hortonworks, une spin-off de Yahoo spécialisée dans les services Hadoop, pour implémenter Hadoop sur Azure (HoA - Hadoop on Azure). Depuis le 14 décembre 2011, HoA est disponible en version CTP, mais uniquement sur invitation. Avant de prendre le train Hadoop en marche, Microsoft a développé Dryad, une base de données de type graphe développée par Microsoft Research, et sur l add-on High- Performance Computing (LINQ to HPC) pour gérer l analytique Big Data. La CTP de HoA donne accès à un choix de clusters Hadoop pré-définis (de Small, pour 4 noeuds et 4 Go de stockage, à Extra Large, 32 noeuds et 16 To), pour simplifier les opérations MapReduce. Microsoft a développé plusieurs projets autour de Hadoop / MapReduce, comme le calcul de la valeur de pi ou encore une méthode de développement portant sur l utilisation de C# pour écrire un programme MapReduce pour le streaming de données. L éditeur de Redmond fournit également de nouvelles bibliothèques Javascript, afin de faire du langage un outil de programmation pour Hadoop. Une façon de lever les barrières à l adoption de Hadoop et MapReduce en permettant de développer des programmes MapReduce en Javascript et de les exécuter dans le navigateur. La CTP comprend également un add-on à Hive pour Excel qui permet aux utilisateurs d interagir avec les données dans Hadoop. Les utilisateurs peuvent ainsi réaliser des requêtes Hive afin d analyser les données non structurées d Hadoop au sein de l interface d Excel. Cette version inclut également un pilote ODBC Hive qui permet d intégrer Hadoop aux autres outils de BI de Microsoft. HoA devrait être mis à jour lors d une évolution d Azure prévue à la mi Elle devrait ainsi ouvrir le programme CTP à davantage de développeurs. Cette version devrait également inclure l implémentation d Hadoop pour Windows Server 2008 R2 pour les cloud privé et les environnements hybrides. Comme peuvent le laisser penser les dernières réductions tarifaires d Azure, 17 TOUT SAVOIR SUR

18 DÉCOUVRIR DECOUVRIR Microsoft entend placer, d un point du vue prix, HoA en frontal à Elastic MapReduce. Le Big Data, au delà de Hadoop et MapReduce Comme l indique James Kobielus de cabinet d étude Forrester, «si Hadoop et MapReduce seront des frameworks clés de la sphère Big Data, ils ne seront toutefois pas les seuls». Par exemple, Microsoft travaille également à un projet baptisé Cloud Numerics (en CTP) pour.net, pour le calcul intensif sur un large volume de données distribuées dans Windows Azure. Les équipes de recherche ont également publié le code source pour implémenter l analyse de données Excel dans Windows Azure, au sein de son projet Daytona. Les fournisseurs de Paas qui permettront d automatiser l implémentation de Hadoop, MapReduce et Hive bénéficieront du soutien d un grand nombre de «data scientists» et des acteurs de l analyse de données. Pouvoir placer Excel en front-end d application de BI donne à Microsoft et à son offre Big Data une longueur d avance. Amazon et Microsoft proposent pour l heure les services Hadoop les plus automatisés et complets. Christophe Bardy 18 TOUT SAVOIR SUR

19 LES ACTEURS DE LA SPHÈRE Les acteurs de la sphère Hadoop DECOUVRIR 1. ENTRETIEN AVEC AMR AWADALLAH, CTO DE CLOUDERA Amr Awadallah est le CTO et co-fondateur de Cloudera, spécialiste de la distribution Hadoop. Avant cela, il était vice président de l ingénierie produit chez Yahoo. Lors d une récente visite à Londres, il s est entretenu avec nos confrères et partenaires de ComputerWeekly sur la façon dont la société met en place son concept de «Hub de données en entreprise» par opposition aux entrepôts de données déjà établis dans les entreprises. Il existe deux publics pour le Big Data. Celui intéressé par le concept et celui qui l utilise. Quelle est votre approche par rapport à cela? Amr Awadallah : On trouve des personnes à tous les étages : ceux qui ne sont pas certains de ce qu il faut faire et qui tâtonnent, et les clients qui sont déjà dedans. Cela est normal, comme dans tout cycle d adoption d une nouvelle technologie. Est-il moins nécessaire d évangéliser avec les technologies Big Data? Les problèmes ne sont-ils pas plus évidents qu à l habitude? Amr Awadallah : Non, nous n'en sommes encore qu au commencement. On trouve certains cas d usage liés à l efficacité opérationnelle, qui abordent la question de économie de coûts. Les gens comprennent cela tout de suite. Mais pour vendre la vision complète de ce que nous appelons le hub de données d'entreprise [Enterprise Data Hub] - il faut encore plus d évangélisation, même si les clients sont devenus réceptifs. Un hub de données d entreprise? Amr Awadallah : La mission de Cloudera est de permettre aux clients d utiliser toutes leurs données pour obtenir encore plus d informations et poser davantage de questions. «Toutes» est ici le mot-clé. Il ne s agit pas que des Big Data, mais de toutes les données. Il s agit d avoir une vision globale de vos clients. L exemple que j aime donner de cet ensemble de données en question est celui des distributeurs de billets. Il y a 10 ans, la seule information enregistrée était la transaction en elle-même. Aujourd hui, vous pouvez également collecter des informations implicites, comme votre visage, la façon dont vous interagissez avec l écran, si vous disposez d un smartphone sur lequel est installé l application de la banque et les informations liées au scanner de chèques. Tout cela améliore la détection de fraudes. 19 TOUT SAVOIR SUR

20 LES ACTEURS DE LA SPHÈRE DECOUVRIR «Poser davantage de questions» est également un point important. Les applications traditionnelles se sont focalisées sur l usage de SQL. Désormais, SQL est puissant, mais il y a toujours des questions que vous ne pouvez pas poser. Vous ne pouvez pas traiter des images ou faire de la reconnaissance vocale avec SQL. Ni scanner un document PDF. Le cas d usage ultime est une vue à 360 du client. Cela résout les problèmes de silos de données et de données répartis sur plusieurs canaux. Notre plate-forme permet de casser ces silos. Cloudera est un distributeur de distribution Hadoop. En quoi cette approche de hub correspond-il à une évolution? Amr Awadallah : Il ne s agit pas de renier de ce que nous avons fait. Mais de parler un langage plus familier aux entreprises. 80% des distibutions Hadoop vendues dans le monde sont les notres. Mais nous proposons également des technologies en parallèle. Hadoop est aussi en train de se transformer - Yarn contribue ainsi à ouvrir la plate-forme. Il y a 5 ans, tout ce que vous pouviez réaliser avec Hadoop était des opérations MapReduce. Yarn permet à d autres applications de s exécuter au dessus des données, comme des applications interactives SQL, ce que propose Impala par exemple. Nous disposons également d une fonction de recherche nativement intégrée. Nous nous intégrons avec SAS et Splunk - Hunk s exécute nativement sur Hadoop. Le moteur d ETL d Informatica s exécute également au dessus de la plate-forme Cloudera. L analogie que nous aimons utiliser est celle-ci : nous sommes le smartphone de la donnée, au lieu du Reflex numérique. Les entrepôts de données des entreprises sont les Reflex du monde de la données. Ils sont chers et ne font qu une seule chose - interroger des données structurées. Le hub de données en entreprise est équivalent à un smartphone. Il est pratique et les applications peuvent toutes partager les données. C est pareil avec nous. Le modèle est que les applications viennent aux données, plutôt que de déplacer les données vers des silos de traitement fermés, ce qui empêche d avoir une vue à 360 degré. Notre approche est plus économique que l entrepôt de données traditionnel. Avec nous, le coût pour un teraoctet de données tourne autour de 1 000$. Dans des entrepôts de données, vous pouvez payer jusqu à $ par teraoctoet pour stocker des données que vous n utilisez pas - des données que vous n avez pas consulté depuis 6 mois par exemple. Nous proposons un système d archivage dynamique pour cela. 20 TOUT SAVOIR SUR

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

À PROPOS DE TALEND...

À PROPOS DE TALEND... WHITE PAPER Table des matières Résultats de l enquête... 4 Stratégie d entreprise Big Data... 5 Intégration des Big Data... 8 Les défis liés à la mise en œuvre des Big Data... 10 Les technologies pour

Plus en détail

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012 Livre blanc Solution Hadoop d entreprise d EMC Stockage NAS scale-out Isilon et Greenplum HD Par Julie Lockner et Terri McClure, Analystes seniors Février 2012 Ce livre blanc d ESG, qui a été commandé

Plus en détail

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES FAMILLE EMC VPLEX Disponibilité continue et mobilité des données dans et entre les datacenters DISPONIBLITÉ CONTINUE ET MOBILITÉ DES DONNÉES DES APPLICATIONS CRITIQUES L infrastructure de stockage évolue

Plus en détail

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement Ne laissez pas le stockage cloud pénaliser votre retour sur investissement Préparé par : George Crump, analyste senior Préparé le : 03/10/2012 L investissement qu une entreprise fait dans le domaine de

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data LE BIG DATA Solution EMC Big Data TRANSITION VERS LE BIG DATA En tirant profit du Big Data pour améliorer leur stratégie et son exécution, les entreprises se démarquent de la concurrence. La solution EMC

Plus en détail

Offre formation Big Data Analytics

Offre formation Big Data Analytics Offre formation Big Data Analytics OCTO 2014 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél : +33 (0)1 58 56 10 00 Fax : +33 (0)1 58 56 10 01 www.octo.com 1 Présentation d OCTO Technology 2 Une

Plus en détail

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters FAMILLE EMC VPLEX Disponibilité continue et mobilité des données dans et entre les datacenters DISPONIBILITE CONTINUE ET MOBILITE DES DONNEES DES APPLICATIONS CRITIQUES L infrastructure de stockage évolue

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 CNAM 2010-2011 Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 Déploiement d une application dans le cloud. 1. Cloud Computing en 2010 2. Offre EC2

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Les quatre piliers d une solution de gestion des Big Data

Les quatre piliers d une solution de gestion des Big Data White Paper Les quatre piliers d une solution de gestion des Big Data Table des Matières Introduction... 4 Big Data : un terme très vaste... 4 Le Big Data... 5 La technologie Big Data... 5 Le grand changement

Plus en détail

Transformez vos données en opportunités. avec Microsoft Big Data

Transformez vos données en opportunités. avec Microsoft Big Data Transformez vos données en opportunités avec Microsoft Big Data 1 VOLUME Augmentation du volume de données tous les cinq ans Vélocité x10 4,3 Nombre d appareils connectés par adulte VARIÉTÉ 85% Part des

Plus en détail

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Big Data. Concept et perspectives : la réalité derrière le buzz Big Data Concept et perspectives : la réalité derrière le "buzz" 2012 Agenda Concept & Perspectives Technologies & Acteurs 2 Pierre Audoin Consultants (PAC) Pierre Audoin Consultants (PAC) est une société

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE Contact : Mme Lapedra, stage@isoft.fr ISoft, éditeur de logiciels, est spécialisé dans l informatique décisionnelle et l analyse de données. Son expertise

Plus en détail

Hadoop, les clés du succès

Hadoop, les clés du succès Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

IBM Software Big Data. Plateforme IBM Big Data

IBM Software Big Data. Plateforme IBM Big Data IBM Software Big Data 2 Points clés Aide les utilisateurs à explorer de grands volumes de données complexes Permet de rationaliser le processus de développement d'applications impliquant de grands volumes

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Introduction Big Data

Introduction Big Data Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015 Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS Salon du Big Data 11 mars 2015 Accélération de l innovation +500 +280 Amazon EC2 Container Service +159 AWS Storage Gateway Amazon Elastic Transcoder

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

QLIKVIEW ET LE BIG DATA

QLIKVIEW ET LE BIG DATA QLIKVIEW ET LE BIG DATA Livre blanc sur la technologie QlikView Juillet 2012 qlikview.com Introduction Le Big Data suscite actuellement un vif intérêt. En l exploitant dans un cadre opérationnel, nombre

Plus en détail

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris ArcGIS et le Cloud Gaëtan LAVENU Agenda Qu'attendent nos clients du Cloud Computing? Les solutions de Cloud ArcGIS dans le Cloud Quelles attendent

Plus en détail

Chapitre 4: Introduction au Cloud computing

Chapitre 4: Introduction au Cloud computing Virtualisation et Cloud Computing Chapitre 4: Introduction au Cloud computing L'évolution d'internet Virt. & Cloud 12/13 2 Définition Le cloud computing est une technologie permettant de délocaliser les

Plus en détail

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24.2 1 Semestre 4 : Fev. 2015 Grid : exemple SETI@home 2 Semestre 4 : Fev. 2015 Grid : exemple SETI@home

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Surmonter les 5 défis opérationnels du Big Data

Surmonter les 5 défis opérationnels du Big Data Surmonter les 5 défis opérationnels du Big Data Jean-Michel Franco Talend Connect 9 octobre 2014 Talend 2014 1 Agenda Agenda Le Big Data depuis la découverte jusqu au temps réel en passant par les applications

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

Hébergement MMI SEMESTRE 4

Hébergement MMI SEMESTRE 4 Hébergement MMI SEMESTRE 4 24/03/2015 Hébergement pour le Web Serveurs Mutualités Serveurs Dédiés Serveurs VPS Auto-Hébergement Cloud Serveurs Mutualités Chaque Serveur héberge plusieurs sites Les ressources

Plus en détail

Cloud Computing : Généralités & Concepts de base

Cloud Computing : Généralités & Concepts de base Cloud Computing : Généralités & Concepts de base Les 24èmes journées de l UR-SETIT 22 Février 2015 Cette oeuvre, création, site ou texte est sous licence Creative Commons Attribution - Pas d Utilisation

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail

Quels choix de base de données pour vos projets Big Data?

Quels choix de base de données pour vos projets Big Data? Quels choix de base de données pour vos projets Big Data? Big Data? Le terme "big data" est très à la mode et naturellement un terme si générique est galvaudé. Beaucoup de promesses sont faites, et l'enthousiasme

Plus en détail

La rencontre du Big Data et du Cloud

La rencontre du Big Data et du Cloud La rencontre du Big Data et du Cloud Libérez le potentiel de toutes vos données Visualisez et exploitez plus rapidement les données de tous types, quelle que soit leur taille et indépendamment de leur

Plus en détail

SQL Server 2012 et SQL Server 2014

SQL Server 2012 et SQL Server 2014 SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation

Plus en détail

AXIAD Conseil pour décider en toute intelligence

AXIAD Conseil pour décider en toute intelligence AXIAD Conseil pour décider en toute intelligence Gestion de la Performance, Business Intelligence, Big Data Domaine d expertise «Business Intelligence» Un accompagnement adapté à votre métier dans toutes

Plus en détail

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD Xe, RAFF et StableTrac sont des marques de Western Digital

Plus en détail

LES SOLUTIONS OPEN SOURCE RED HAT

LES SOLUTIONS OPEN SOURCE RED HAT LES SOLUTIONS OPEN SOURCE RED HAT Red Hat, le fournisseur leader Linux et de l open source mondial a son siège à Raleigh, en Caroline du Nord, avec des bureaux dans le monde entier. Red Hat propose les

Plus en détail

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis Joseph Salmon Télécom ParisTech Jeudi 6 Février Joseph Salmon (Télécom ParisTech) Big Data Jeudi 6 Février 1 / 18 Agenda Contexte et opportunités

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

SAP Business Suite Powered by SAP HANA Transactionnel et Analytique réunis

SAP Business Suite Powered by SAP HANA Transactionnel et Analytique réunis Christophe Toulemonde Janvier 2013 SAP Business Suite Powered by SAP HANA Transactionnel et Analytique réunis Cette note a pour objectif de décrypter l annonce de SAP Business Suite Powered by SAP HANA.

Plus en détail

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée Communiqué de presse Charles-Yves Baudet Twitter: Les clients de Teradata Teradata Corporation peuvent dan.conway@teradata.com tirer parti de plusieurs + 33 1 64 86 76 14 + 33 (0) 1 55 21 01 48/49 systèmes,

Plus en détail

Document réalisé par Khadidjatou BAMBA

Document réalisé par Khadidjatou BAMBA Comprendre le BIG DATA Document réalisé par Khadidjatou BAMBA 1 Sommaire Avant propos. 3 Historique du Big Data.4 Introduction.....5 Chapitre I : Présentation du Big Data... 6 I. Généralités sur le Big

Plus en détail

Comment booster vos applications SAP Hana avec SQLSCRIPT

Comment booster vos applications SAP Hana avec SQLSCRIPT DE LA TECHNOLOGIE A LA PLUS VALUE METIER Comment booster vos applications SAP Hana avec SQLSCRIPT 1 Un usage optimum de SAP Hana Votre contexte SAP Hana Si vous envisagez de migrer vers les plateformes

Plus en détail

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

Dossier Special LE SOFTWARE DEFINED STORAGE

Dossier Special LE SOFTWARE DEFINED STORAGE Dossier Special LE SOFTWARE DEFINED STORAGE existant en de type I l existe un moyen d en finir avec ces baies de disques en silos, difficiles à mettre en œuvre et où les espaces non utilisés ne peuvent

Plus en détail

TRANSFORM IT + BUSINESS + YOURSELF

TRANSFORM IT + BUSINESS + YOURSELF TRANSFORM IT + BUSINESS + YOURSELF Copyright 2012 EMC Corporation. All rights reserved. 2 Vos environnements SAP sont complexes et couteux : pensez «replatforming» TRANSFORM IT+ BUSINESS + YOURSELF Alexandre

Plus en détail

Séminaire Partenaires Esri France 7-8 juin 2011 - Paris Cloud Computing Stratégie Esri

Séminaire Partenaires Esri France 7-8 juin 2011 - Paris Cloud Computing Stratégie Esri Séminaire Partenaires Esri France 7-8 juin 2011 - Paris Cloud Computing Stratégie Esri Gaëtan LAVENU Plan de la présentation Evolution des architectures SIG Qu'est ce que le Cloud Computing? ArcGIS et

Plus en détail

Mettre en place une infrastructure Web nouvelle génération avec Drupal et Acquia

Mettre en place une infrastructure Web nouvelle génération avec Drupal et Acquia Mettre en place une infrastructure Web nouvelle génération avec Drupal et Acquia Pour l architecte de solutions web Table des matières Présentation générale... 3 Des outils disparates.... 4 Une gestion

Plus en détail

Informatique en nuage Cloud Computing. G. Urvoy-Keller

Informatique en nuage Cloud Computing. G. Urvoy-Keller Informatique en nuage Cloud Computing G. Urvoy-Keller Sources de ce documents Next Stop, the cloud Objectifs de l'étude : Comprendre la popularité des déploiements de services basés sur des clouds Focus

Plus en détail

1 Actuate Corporation 2012. + de données. + d analyses. + d utilisateurs.

1 Actuate Corporation 2012. + de données. + d analyses. + d utilisateurs. 1 Actuate Corporation 2012 + de données. + d analyses. + d utilisateurs. Actuate et BIRT Actuate est l Editeur spécialiste de la Business Intelligence et le Reporting qui a créé le projet Open Source BIRT

Plus en détail

Tables Rondes Le «Big Data»

Tables Rondes Le «Big Data» Tables Rondes Le «Big Data» 2012-2013 1 Plan Introduc9on 1 - Présenta9on Ingensi 2 - Le Big Data c est quoi? 3 - L histoire 4 - Le monde du libre : Hadoop 5 - Le système HDFS 6 - Les algorithmes distribués

Plus en détail

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1 2 Introduction Historique des bases de données : méthodes de stockage et d analyse

Plus en détail

Big Data et l avenir du décisionnel

Big Data et l avenir du décisionnel Big Data et l avenir du décisionnel Arjan Heijmenberg, Jaspersoft 1 Le nouveau monde des TI L entreprise en réseau de McKinsey McKinsey sur le Web 2.0 McKinsey Global Institute, décembre 2010 Emergence

Plus en détail

Qu est-ce que le «cloud computing»?

Qu est-ce que le «cloud computing»? Qu est-ce que le «cloud computing»? Par Morand Studer eleven Octobre 2011 Qu est-ce que le «cloud computing»? - Morand Studer eleven Octobre 2011 www.eleven.fr 1 Aujourd hui, la démocratisation de l informatique

Plus en détail

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES M a l g r é s o n ca r act è r e en apparence multiforme un enjeu central s est progressivement affirmé en matière

Plus en détail

Enterprise Intégration

Enterprise Intégration Enterprise Intégration Intégration des données L'intégration de données des grandes entreprises, nationales ou multinationales est un vrai cassetête à gérer. L'approche et l'architecture de HVR est très

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

Windows Azure. Principales fonctions

Windows Azure. Principales fonctions Calipia usage re serve aux e tablissements de pendant du Ministe re de l Enseignement Supe rieur et de la Recherche Windows Azure Principales fonctions Alors qu environ 70% du budget informatique est dédié

Plus en détail

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data? Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data? Dr Wolfgang Martin Analyste et adhérant du Boulder BI Brain Trust Les Big data Démystifier les Big data.

Plus en détail

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Avant de commencer à travailler avec le produit, il est nécessaire de comprendre, à un haut niveau, les problèmes en réponse desquels l outil a été

Plus en détail

Vos experts Big Data. contact@hurence.com. Le Big Data dans la pratique

Vos experts Big Data. contact@hurence.com. Le Big Data dans la pratique Vos experts Big Data contact@hurence.com Le Big Data dans la pratique Expert Expert Infrastructure Data Science Spark MLLib Big Data depuis 2011 Expert Expert Hadoop / Spark NoSQL HBase Couchbase MongoDB

Plus en détail

Cycle de conférences sur Cloud Computinget Virtualisation. Le Cloud et la sécurité Stéphane Duproz Directeur Général, TelecityGroup

Cycle de conférences sur Cloud Computinget Virtualisation. Le Cloud et la sécurité Stéphane Duproz Directeur Général, TelecityGroup Cycle de conférences sur Cloud Computinget Virtualisation Le Cloud et la sécurité Stéphane Duproz Directeur Général, TelecityGroup Le «Cloud»a déjàdécollé Source: http://blog.rightscale.com/ 2 Mais de

Plus en détail

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr Avril 2014 Virtualscale 1 Sommaire Les enjeux du Big Data et d Hadoop Quels enjeux

Plus en détail

Les plates-formes informatiques intégrées, des builds d infrastructure pour les datacenters de demain

Les plates-formes informatiques intégrées, des builds d infrastructure pour les datacenters de demain Livre blanc Les plates-formes informatiques intégrées, des builds d infrastructure pour les datacenters de demain Par Mark Bowker, analyste senior, et Perry Laberis, associé de recherche senior Mars 2013

Plus en détail

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce

Plus en détail

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM alain.darmon@fr.ibm.

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM alain.darmon@fr.ibm. WEB15 IBM Software for Business Process Management un offre complète et modulaire Alain DARMON consultant avant-vente BPM alain.darmon@fr.ibm.com Claude Perrin ECM Client Technical Professional Manager

Plus en détail

Entreprise et Big Data

Entreprise et Big Data Entreprise et Big Data Christophe Favart Chef Architecte, SAP Advanced Development, Business Information Technology Public Juin 2013 Agenda SAP Données d Entreprise Big Data en entreprise Solutions SAP

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

1 JBoss Entreprise Middleware

1 JBoss Entreprise Middleware 1 JBoss Entreprise Middleware Les produits de la gamme JBoss Entreprise Middleware forment une suite de logiciels open source permettant de construire, déployer, intégrer, gérer et présenter des applications

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Transformation vers le Cloud. Premier partenaire Cloud Builder certifié IBM, HP et VMware

Transformation vers le Cloud. Premier partenaire Cloud Builder certifié IBM, HP et VMware Transformation vers le Cloud Premier partenaire Cloud Builder certifié IBM, HP et VMware 1 Sommaire Introduction Concepts Les enjeux Modèles de déploiements Modèles de services Nos offres Nos Références

Plus en détail

IBM Tivoli Monitoring, version 6.1

IBM Tivoli Monitoring, version 6.1 Superviser et administrer à partir d une unique console l ensemble de vos ressources, plates-formes et applications. IBM Tivoli Monitoring, version 6.1 Points forts! Surveillez de façon proactive les éléments

Plus en détail

Préface Dunod Toute reproduction non autorisée est un délit. Les raisons de l émergence du Big Data sont bien connues. Elles sont d abord économiques et technologiques. La chute exponentielle des coûts

Plus en détail

FAMILLE EMC RECOVERPOINT

FAMILLE EMC RECOVERPOINT FAMILLE EMC RECOVERPOINT Solution économique de protection des données et de reprise après sinistre en local et à distance Avantages clés Optimiser la protection des données et la reprise après sinistre

Plus en détail

CloudBees AnyCloud : Valeur, Architecture et Technologie cloud pour l entreprise

CloudBees AnyCloud : Valeur, Architecture et Technologie cloud pour l entreprise CloudBees AnyCloud : Valeur, Architecture et Technologie cloud pour l entreprise Alors que les plates-formes PaaS (Platform as a Service) commencent à s imposer comme le modèle privilégié auprès des entreprises

Plus en détail

Le stockage. 1. Architecture de stockage disponible. a. Stockage local ou centralisé. b. Différences entre les architectures

Le stockage. 1. Architecture de stockage disponible. a. Stockage local ou centralisé. b. Différences entre les architectures Le stockage 1. Architecture de stockage disponible a. Stockage local ou centralisé L architecture de stockage à mettre en place est déterminante pour l évolutivité et la performance de la solution. Cet

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

Master Data Management en Open Source C est le Bon Moment

Master Data Management en Open Source C est le Bon Moment Master Data Management en Open Source C est le Bon Moment White Paper Sommaire Introduction... 2 Les Pré Requis du Marché Open Source... 2 La Liberté... 3 Prédire les Effets de l Open Source sur le MDM...

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail