Improving MapReduce Performance in Heterogeneous Environments

Dimension: px
Commencer à balayer dès la page:

Download "Improving MapReduce Performance in Heterogeneous Environments"

Transcription

1 Improving MapReduce Performance in Heterogeneous Environments Minwei CHEN Université Claude Bernard Lyon 1 Master Recherche en Informatique M2 Technologies de l information et Web pro: CONTENTS I Intro 1 I-A Thématique générale I-B Principales conférences et revues du domaine I-C Principaux laboratoires et auteurs du domaine I-D Les auteurs de l article I-E La conférence ou la revue dans laquelle l article est paru I-F Problème que l article vise à résoudre. 2 II Résumé des contributions de l article 2 II-A Contexte II-B Le planificateur LATE III Critique 3 III-A Critique de la partie état de l art III-B Critique de l évaluation des résultats.. 4 III-C Autres points forts et points faibles.. 5 IV Impact de l article 5 References 5 Abstract Cet article a introduit les techniques natives de planification dans Apache Hadoop. Connaissant les points faibles du mécanisme et des stratégies par défaut dans les environnements hétérogènes, les auteurs ont proposé un nouveau planificateur avec une nouvelle stratégie ainsi que les tests de performances. Les auteurs ont trouvé des hypothèses invalides lors que l on est dans les systèmes cloud virtualisés, et c est le premier qui a pensé aux impacts du planificateur d Apache Hadoop sur les performances en milieu hétérogène, sachant que ce sujet est de plus en plus critique dans la production. Cependant, les auteurs ont laissé des travaux non-finis. La solution proposée pourrait considérer davantage les tâches map, l algorithme n est pas parfait dans certains cas et pourrait être mieux détaillé. De plus, les environnements cible pourraient être plus variants. I. INTRODUCTION A. Thématique générale dont fait partie l article Aujourd hui, la quantité de données liée aux connaissances humaines est en croissance exponentielle. Nous avons de plus en plus besoin de nouvelles technologies pour traiter et analyser efficacement des données échangées. En 2004, les chercheurs de Google ont publié le fameux modèle MapReduce qui est devenu vite la référence pour les calculs parallèles distribués. Un an plus tard, inspiré par ce modèle et deux autres articles de Google(Google File System et Big Table), deux employés de Yahoo! ont créé Hadoop, qui est maintenant le framework le plus utilisé dans le monde entier. Il permet aux applications de travailler avec des milliers de nuds et des pétaoctets(1po = 1000To) de données. Comme il a été déployé davantage sur les infrastructures différentes, notamment celles cloud, les gens ont distingué des inconvénients en milieu homogène(e.g. Amazon EC2, Microsoft Azure, etc). Ces points faibles réduisaient considérablement les performances de Hadoop dans ces environnements, donc il était nécessaire de trouver une solution. B. Principales conférences et revues du domaine Cette publication est plutôt dans le domaine des réseaux et communications, dont les conférences importantes sont comme IEEE INFOCOM, MOBICOM (Mobile Computing and Networking) et ACM SIGCOMM Conference. Dans un autre domaine voisin de calculs parallèles et distribués, on a ICDCS (International Conference on Distributed Computing Systems), PODC (Symposium on Principles of Distributed Computing), etc. Pour le domaine spécifique de MapReduce, VLDB conference et IEEE Big Data conference sont les deux les plus connues. Au niveau de revues, les principales dans ces domaines sont comme CACM (Communications of The ACM), TCOM (IEEE Transactions on Communications), TOCS (ACM Transactions on Computer Systems), TPDS (IEEE Transactions on Parallel and Distributed Systems). Pour le domaine spécifique de MapReduce, VLDB journal est le journal de la plus haute qualité. C. Principaux laboratoires et auteurs du domaine Pour les principaux laboratoires du domaine, à part du laboratoire AMP de l Université de Californie à Berkeley, il y a aussi de nombreux qui ont fait des travaux brillants : par exemple les laboratoires de Google et de Microsoft, le laboratoire GRIDS - Grid Computing and Distributed Systems

2 Laboratory de l Université de Melbourne, le groupe de bases de données de L université Yale, etc. Quant aux auteurs, à part les deux chercheurs Jeffrey Dean et Sanjay Ghemawat qui ont publié l article fondamental MapReduce, les trois derniers co-auteurs ont tous publié plusieurs articles de haute qualité. Beaucoup d autres auteurs comme Scott J. Shenker ont contribué au développement de ce domaine. D. Les auteurs de l article Tous les auteurs, Matei Zaharia, Andy Konwinski, Anthony D. Joseph, Randy H. Katz, Ion L. Stoica travaille actuellement dans le laboratoire AMP - ALGORITHMS MACHINES PEO- PLE de l Université de Californie à Berkeley, de la discipline Computer Science. Etant étudiant en doctorat dans ce dernier laboratoire, Maeti Zaharia concentre sur la gestion de données à très grande échelle pour les calculs intensifs. Il a publié une vingtaine d articles de haute qualité pendant les années précédentes y compris ceci. Andy Konwinski est un chercheur postdoctoral qui fixe son attention sur les systèmes distribués à grande échelle. Anthony D. Joseph est un professeur de la faculté informatique et il a commencé à publier des articles depuis l année Ses principaux champs de recherche sont l apprentissage automatique, Datacenters et la conception des systèmes mobiles distribués. Finalement, Randy H. Katz et Ion L. Stoica sont deux spécialistes très connus dans le domaine réseau et systèmes distribués. Ils sont aussi professeurs du département Génie Electrique et Informatique. Ion L. Stoica est le membre principal du projet P2P subventionné Chord et du projet Apache Spark (un système open source pour les grappes de serveurs). D ailleurs, la plupart des cinq auteurs sont contributeurs principaux du projet Apache Spark, qui est en plein essor. E. La conférence ou la revue dans laquelle l article est paru La conférence OSDI (Operating Systems Design and Implementation) où l article a été publié est une conférence annuelle sur le système d exploitation. Créée en 1994 par USENIX, environ articles ont été soumis chaque année, parmi lesquels 10-20% ont finalement été acceptés (http://www.lamsade.dauphine.fr/~sikora/ratio/confs.php). F. Problème que l article vise à résoudre Comment peut-on mieux effectuer l exécution spéculative dans Hadoop afin d optimiser les performances. II. RÉSUMÉ DES CONTRIBUTIONS DE L ARTICLE Apparu dans l acte de conférence OSDI 2008, cet article est devenu vite un document de référence concernant l amélioration de performances pour les services basés sur les technologies MapReduce et Apache Hadoop. A. Contexte Fig. 1. Un exemple de MapReduce Dans un premier temps, il faut savoir comment Hadoop planifie des tâches et connaître quelles sont des éléments qui pourraient être erronnés. L implémentation de MapReduce dans Hadoop est similaire à celle native de Google [1]. Fig. 1 indique les procédures MapReduce. Concrètement, avec un seul master et plusieurs slaves gérés par ce master, les données à traiter qui se situent dans un système de fichiers distribué sont découpées en chunks d une taille unique. Ces chunks sont dupliqués afin d obtenir une meilleure tolérance aux fautes. Puis, chaque chunk est introduit dans une série de tâches : d abord la tâche map qui produit une liste de clés-valeurs générée par une fonction prédéfinie. Lors que toutes les tâches map sont terminées, les tâches reduce commencent à traiter la liste de clés-valeurs selon les clés dedans. Sachant que les tâches sont distribuées dans des slaves différents et donc sont parallèles, il existe un mécanisme de synchronisation - le planificateur qui distribue les tâches aux slaves qui ont des créneaux vides. Une stratégie importante est l exécution speculative dont le but est de réduire le temps de réponse des tâches. Quand un noeud(slave) a des créneaux vides, Hadoop choisit une tâche parmi ces trois catégories pour lui : 1)Tâches échouées, 2)Tâches pas encore commencées, 3)Tâches au choix pour l exécution spéculative(celles lentes ou moins finies). Avec l exécution spéculative, Hadoop cherche des tâches lentes à distribuer aux autres noeuds en utilisant un algorithme par défaut : une tâche map est divisée en copy et sort, puis copy, sort et reduce compte chacune un tiers du taux de terminaison. Enfin, Hadoop peut obtenir la priorité : en ajoutant ces trois chiffres, on peut calculer le taux d exécution des tâches qui s appelle aussi la note de progression. Toutes les tâches qui ont une note de moins de 0,2 et qui durent plus de 60 secondes sont marquées comme traînard, c est-à-dire celles qui sont les moins terminées. Ces traînards sont ensuite distribués en premier lieu. Hadoop considère aussi que les

3 tâches a une tendance d arriver et de sortir en vagues. Alors, en faisant des recherches, les auteurs ont trouvé six hypothèses établies au cours de la conception d Hadoop, et ont finalement prouvé que cinq des six ne sont pas validées au sein d un milieu hétérogène : Dans un environnement virtualisé, il est impossible de garantir la même débit et délai des noeuds, il existe trop de facteurs incertains comme le sous-système de stockage et l état du réseau. L exécution spéculative n est jamais gratuite car l algorithme est trop approximatif. En fait, pour cette raison, parfois on doit le désactiver pour avoir une meilleure performance. En réalité, les tâches copy, sort et reduce ne respectent pas une proportion de temps d exécution fixe, et donc on ne peut pas non plus dire qu une tâche est vraiment un traînard si elle n a pas une bonne note, puisque le système de note n est déjà pas correct. B. Le planificateur LATE Les auteurs ont implémenté un nouveau planificateur spéculatif qui contourne ces hypothèses invalides. L idée principale est d estimer les tâches dans l autres sens : le planificateur natif calcule le taux d exécution donc le pourcentage d achèvement d une tâche, alors ce nouveau essaie de savoir dans combien de temps une tâche va finir. Avant, un traînard est ce qui le moins fini, et maintenant c est la tâche qui va se terminer le plus tard. Voici le nouvel algorithme : On estime le taux d exécution d une tâche comme note de progression/t, où T égale au temps déjà écoulé. En faisant une soustraction, on aura le temps resté estimé. On calcule la vitesse d un noeud en additionnant toutes les tâches éffectuées dans ce noeud. SpeculativeCap est le nombre maximal des tâches speculatives sur un noeud à un moment donné. Cette valeur est prédéfinie et modifiable. SlowNodeThreshold est la limite des tâches effectuées par un noeud, en dessous de laquelle le système le considèrera incapable d ecécuter plus de tâches d exécution speculative. SlowTaskThreshold est la limite de la vitesse de progression d une tâche, en dessous de laquelle cette tâche sera "suffisamment lente" et prête à être distribuée à un noeud "capable" pour l exécution spéculative. Les trois dernières valeurs heuristiques sont à choisir manuellement. Voici deux exemples : Pour deux tâches lentes, si l une avec 90% finie est 5 fois plus lente que la moyenne et l autres avec 10% finie est 2 fois plus lente que la moyenne. Au cas où le temps resté de la première est estimé plus long que celui de la deuxième, cette première est distribuée plus tôt à un autre noeud pour l exécution speculative, même si la deuxième est quantitativement plus proche de la fin. Fig. 2. Un exemple simplifié de l exécution spéculative Si le nombre de tâches traitées d un noeud est inférieur à SlowNodeThreshold, ce noeud est considéré comme pas assez puissant. Le système va distribuer d abord les tâches aux noeuds qui sont plus capables pour les exécutions spéculatives. Généralement, on considère les deux côtés : le pourcentage fini d une tâche et la capacité - donc la vitesse d exécution des noeuds qui demandent de nouvelles tâches. III. CRITIQUE A. Critique de la partie état de l art Comment évaluer l efficacité et les possibilités d amélioration des services MapReduce offerts aux utilisateurs était un gros sujet pendant quelques années après la sortie du principe de MapReduce. Il était encore plus intéressant de redarder en même temps les environnements virtualisés cloud sachant que les services comme EC2 qui ont comme solution la possibilité de fournir un système de plusieurs noeuds sont en train de devenir non seulement le premier choix de milliers de startups(par exemple Facebook en 2008), mais aussi une alternative idéale pour beaucoup d établissements de recherche qui cherchent une capacité permettant d effectuer leurs calculs en masse. En ce moment-là, la plupart des articles concernant MapReduce s agissaient des rapports d évaluations [5] et des applications relativement simples [6]. Certains articles [7] [8] avaient commencé à discuter les mécanismes de la planification au sein d un groupe de serveurs, cependant, suite de l essor des services cloud, il ne fallait pas rester seulement dans les systèmes multi-processus et multi-threadé, c était le moment de toucher les environnements hétérogènes. Certains avaient essayé d identifier les tâches lentes [9], mais personne n avait lié ces aspects ensemble. Ensuite, un point illustre est que les auteurs ont trouvé que l exécution spéculative pourrait être un bon chemin de recherche. Imaginons que dans un système où les données sont distribuées dans plusieurs noeuds Fig. 2, quand les exécutions normales ont eu des soucis, par exemple un échec de disque dur, les autres noeuds peuvent constater la latence anormale

4 Fig. 3. Une preuve de l algorithme à amélioer puis vont commencer à traiter les données qui ont rencontré cet échec de disque. L exécution parallèle dans Hadoop était un champ innovant à attaquer, cependant, les articles [10] et [11] ne fournissaient pas une vue systématique en traitant principalement la prévision de branches selon probabilité mais pas la sélection de tâches à exécuter. Or, étant un sujet non traité, ce dernier pourrait être plus fiable. Même les seules références, le tout premier article [1] et un autre article publié en 2008 par les deux auteurs originaux [12] n ont pas découvert plus profondémment pour cette partie, qui pourrait surmonter les limites prétendues des autres travaux, et qui serait un point intéressant sur les systèmes de traitement intensif de données et sur les services cloud à grande échelle. Or, les auteurs n ont pas continué à chercher plus loin à cause de plusieurs raisons possibles. Avec le nouvel algorithme contenant trois variables heuristiques cité dans la partie 4, cet article a laissé un espace d amélioration des performances du délai de réponse en cas général. Une des conséquences est l existence d insuffisance de l algorithme, parce que l architecture du planificateur LATE n est pas parfaitement implémentée. Peut-être les auteurs voulaient juste donner une idée ou une orientation de recherche, alors ce point insuffisant est directement visible par les tests : Dans les pires cas comme Fig. 3, les performances obtenus avec le nouveau planificateur LATE pourrait être encore pire que sans rien. Même si ces cas ne sont pas ordinaires, de toute façon, ceci n est pas un bon symbol. Sur ce niveau, cet article n a pas beaucoup avancé par rapport aux autres travaux. Il vaudrait mieux donner au moins des indications pour les cas extrêmes. B. Critique de l évaluation des résultats Au moment de la publication de l article, il n y avait pas encore beaucoup d autres auteurs travaillant dans ce sens. En effet, étant un nouveau algorithme, l apparition de cet article nous a fourni un bon indicateur d amélioration de la qualité des services basés sur MapReduce. Dans la section 5, les auteurs ont éffectué les tests par quatre blocs suivants : Les tests concernant les impacts sur les performances des entrées/sorties des machines virtualisées dans EC2, pour donner une idée de la mesure d hétérogénéité. Les tests sur les temps de réponse, dans un environnement hétérogène d Amazon EC2 et puis dans un environnement local virtualisé. Ces tests ont prouvé que ce planificateur plus sérieux donne des performances de 20% à 220% meilleures que celles de l ancien planificateur. Les tests sur la sensibilité du choix de SpeculativeCap, SlowTaskThreshold et SlowNodeThreshold. La première évaluation supporte les deux suivants en prouvant l hétérogénéité des performances en raison de l effet de la contention. Dans des groupes de machines avec tailles différentes au sein d Amazon EC2, il existe un coefficient d environ 2,5 entre les meilleures et les pires performances des entrées/sorties, lors que plusieurs machines virtuelles sont hébergées dans un même host physique. Comme ce qu il est indiqué par les auteurs, ce test a été fait sur les machines virtuelles small sur EC2. Ce test est nécessaire pour montrer l erreur de certaines hypothèses du mécanisme natif, et en même temps, il comfirme l importance et la possibilité d une solution mieux améliorée. La deuxième et la troisième évaluation permettent d avoir des résultats quantitatifs. En faisant une série de tests de comparaison, nous pouvons voir la progression du nouveau planificateur LATE. La deuxième s est passée au sein d un environnement hétérogène sur Amazon EC2. Les tests ont été exécutés conséquemment dans les grilles de 100 et 243 machines, avec distinctement d un à sept et d un à sept machines virtuelles sur chacune des machines physiques, avec les benckmarks Sort, Grep et WordCount d Hadoop. La troisième s est passée au sein d un environnement local virtualisé, avec prèsque les mêmes tests de la deuxième évaluation. La quatrième partie concernant la sensibilité liée aux choix de SpeculativeCap, SlowTaskThreshold et SlowNodeThreshold, donc les trois principaux variables de la speculation. Les tests nous donnent des résultats indicatifs non seulement de l ajustement du planificateur, mais aussi de la variance des performances d un tel algorithme. Cette phase s est effectuée au sein d un environnement local puisqu il y avait un bug sur EC2. La tâche Sort a été utilisée comme la charge pour les tests. Les tests éffectués sont généralement rigoureux et ont finalement prouvé les affirmations des auteurs : tous les tests ont été répétés plusieurs fois pour le but d éliminer les facteurs instables. Comparé aux solutions existantes en ce momentlà, nous pouvons avoir une vue quantitative détaillée qui est en même temps assez concrète. Personnellement, en connaissant les architectures des systèmes actuellement utilisés, les sujets de tests ont été bien choisi pour mesurer les délais de réponse. Un petit bémol pourrait être que les tests pourraient contenir plus de variables, donc il vaudrait mieux avoir plus de combinaison des tâches et des configurations dans les tests : les chercheurs et les techniciens seront souvent plus satisfaits d avoir des tableaux de comparaison avec des statistiques plus détaillés. Par exemple, la taille des grilles de machines pourrait être un facteur à inclure dans les tests, puisqu il y a souvent une grande différence d utilisation entre les systèmes de tailles

5 variées. Enfin, par manque de ressources et de connaissance, je n ai pas pu déployer un même environnement pour tester. Or avec la concultation des documents [2] [3] et les indications décrites dans l article, l expérience avec un environnement localement virtualisé et avec une groupe de machine EC2 marché sur Hadoop, donc ce que les auteurs ont fait devrait être reproductible en donnant suffisamment de temps. C. Autres points forts et points faibles En fait, principalement deux autres points faibles potentiels, à part des tests qui pourraient être plus peuplés et plus complets, ont été trouvés pendant la lecture de cet article. D une part, au début, les auteurs ont décidé de travaliier avec les machines virtuelles de petites tailles qui proposaient un meilleur rapport de qualité-prix, ou plutôt performance-prix. Cependant, de nos jours, les machines virtuelles de grandes tailles sont beaucoup utilisées, pour les besoins spécifiques. Le manque de ce côté pourrait être un dommage au moins pour les applications liée. D autre part, l estimation du temps d exécution resté n est pas parfaite selon des cas : pour des tâches non typiques d Hadoop, l algorithme heuristique pourrait mal estimer ce temps. Sinon, pour le reste, les auteurs ont pu repérer un nouveau point donc les nouveaux variables d optimisation d Hadoop. Comme la distributeur de tâches et les services de parallélisation, le planificateur configurable est un composant important de la plateforme Hadoop et doit entrer dans la vision. De plus, c est bien pour les papiers ayant un objectif applicatif d avoir les tests analytiques comme ceux-ci. En conclusion, pour la totalité du travail, personnellement je n ai pas pu généré plus de critiques. Les articles fournissant la nouvelle vision et l utilisation des plateformes clous [15] [16] ont pu mieux réfléchir les impacts des fausses hypothèses préliminairement proposées par les plateformes intégrées dans les environnements hétérogènes. D ailleurs, les auteurs de ces articles ont pu mieux comprendre le principe des tests au sein des environnements hétérogènes. Les articles traitant la combinaison des deux côtés [18] [19] nous ont donné de noubreuses nouvelles idées innovantes par exemple l optimisation du partage de ressources dans une grille informatique et l amélioration des architectures multi-tâches pour les utilisations scientifiques, dans les environnements cloud comme Amazon EC2. Plusieurs parmi ces articles qui ont cité l article parlé ont aussi redigé par au moins un des cinq auteurs de cet article [13]. D ailleurs, nous ne pouvons pas nier que de plus en plus de nouveaux travaux réalisés [20] [21] [22] [23] ont hérité les stratégies initialement conçues par cet article : les influences de la configuration de MapReduce sur les tâches différentes, les performances en fonction du choix de planificateur, la pertinence du paramétrage et de l algorithme appliqué de planificateur, l importance de l exécution spéculative pour Hadoop au sein d un environnement hétérogène, etc. Suite aux impacts provoqués, plusieurs projets [24] [25] [26] ont aussi été lancé pour objectif de surmonter les limitations des environnements actuels de MapReduce comme Hadoop et de permettre ainsi le traitement de données à ultragrande échelle sur diverses architectures comme les clouds, les grilles de PC et les infrastructures hybrides construites en combinant ces types d architectures, en réfléchissant sur le côté d hétérogénéité, le planificateur d Hadoop et le mécanisme global de la distribution de tâche. IV. IMPACT DE L ARTICLE Cet article a été cité 112 fois selon ACM et 605 fois selon Google Scholar, c est déjà un chiffre considérable dans la communauté de MapReduce même celle de BigData et de Cloud Computing. Inspiré par cet article : Les articles concernant l implémentation de nouvelles fonctionnalités de MapReduce [12] ont commencé à chercher des outils supplémentaires par exemple les moniteurs de tâches qui pourraient améliorer les performances des systèmes en traçant les comportements de ressources. Les articles concernant l organisation de la planification au sein des systèmes basés sur Hadoop [13] [14] ont pu mieux comprendre l effet des traînards pendant des tâches parallèles. Certains ont pu mieux améliorer les argorithmes de la balance et le positionnement de tâches pour les systèmes sous charge dans les sénarios où les groupes de serveurs ont une grande quantité de données à traiter, avec un coût généralement limité et des machines virtuelles variées. REFERENCES [1] J. Dean and S. Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. In Communications of the ACM, 51 (1): , , 4 [2] Tom White. Hadoop:The Definitive Guide,3rd Edition. O Reilly Media and Yahoo Press, May [3] Amazon Elastic Compute Cloud (Amazon EC2). aws.amazon.com/ec2 5 [4] B.Dragovic, K.Fraser, S.Hand, T.Harris, A.Ho, I.Pratt, A.Warfield, P.Barham, and R.Neugebauer. Xen and the art of virtualization. ACM SOSP [5] Ranger, Colby, et al. Evaluating mapreduce for multi-core and multiprocessor systems. High Performance Computer Architecture, HPCA IEEE 13th International Symposium on. IEEE, [6] Yang, Hung-chih, et al. Map-reduce-merge: simplified relational data processing on large clusters. Proceedings of the 2007 ACM SIGMOD international conference on Management of data. ACM, [7] Mor Harchol-Balter, Task Assignment with Unknown Duration. Journal of the ACM, 49 (2): , [8] M.Crovella, M.Harchol-Balter, and C.D. Murta. Task assignment in a distributed system: Improving performance by unbalancing load. In Measurement and Modeling of Computer Systems, pp , [9] J. Bernardin, P. Lee, J. Lewis, DataSynapse, Inc. Using Execution statistics to select tasks for redundant assignment in a distributed computing platform. Patent number , filed Nov 27, 2002, issued Aug 15, [10] E.B. Nightingale, P.M. Chen, and J.Flinn. Speculative execution in a distributed file system. ACM Trans. Comput. Syst., 24 (4): , November

6 [11] G. Barish. Speculative plan execution for information agents. PhD dissertation, University of Southernt California. Dec [12] J Dean, S Ghemawat. MapReduce: simplified data processing on large clusters. In Communications of the ACM, , 5 [13] Zaharia, Matei, et al. Delay scheduling: a simple technique for achieving locality and fairness in cluster scheduling. Proceedings of the 5th European conference on Computer systems. ACM, [14] Chohan, Navraj, et al. "See spot run: using spot instances for mapreduce workflows." Proceedings of the 2nd USENIX conference on Hot topics in cloud computing. USENIX Association, [15] Buyya, Rajkumar, et al. Cloud computing and emerging IT platforms: Vision, hype, and reality for delivering computing as the 5th utility. Future Generation computer systems 25.6 (2009): [16] Iosup, Alexandru, et al. Performance analysis of cloud computing services for many-tasks scientific computing. Parallel and Distributed Systems, IEEE Transactions on 22.6 (2011): [17] Ananthanarayanan, Ganesh, et al. "Reining in the Outliers in Map- Reduce Clusters using Mantri." OSDI. Vol. 10. No [18] Isard, Michael, et al. Quincy: fair scheduling for distributed computing clusters. Proceedings of the ACM SIGOPS 22nd symposium on Operating systems principles. ACM, [19] Ananthanarayanan, Ganesh, et al. "Reining in the Outliers in Map- Reduce Clusters using Mantri." OSDI. Vol. 10. No [20] Rizvandi, Nikzad Babaii, et al. "A study on using uncertain time series matching algorithms for MapReduce applications." Concurrency and Computation: Practice and Experience (2012). 5 [21] Xie, Jiong, et al. "Improving mapreduce performance through data placement in heterogeneous hadoop clusters." Parallel and Distributed Processing, Workshops and Phd Forum (IPDPSW), 2010 IEEE International Symposium on. IEEE, [22] Chen, Qi, Cheng Liu, and Zhen Xiao. "Improving MapReduce Performance Using Smart Speculative Execution Strategy." (2013): [23] Afrati, Foto N., et al. "Designing good algorithms for MapReduce and beyond." Proceedings of the Third ACM Symposium on Cloud Computing. ACM, [24] Current Big Data projects. University of Washington. 5 [25] News of Hadoop projects. blog.cloudera.com/blog/category/hadoop/ 5 [26] Project suggestions - Apache Hadoop. wiki.apache.org/hadoop/projectsuggestions 5

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 CNAM 2010-2011 Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 Déploiement d une application dans le cloud. 1. Cloud Computing en 2010 2. Offre EC2

Plus en détail

http://blog.khaledtannir.net

http://blog.khaledtannir.net Algorithme de parallélisations des traitements Khaled TANNIR Doctorant CIFRE LARIS/ESTI http://blog.khaledtannir.net these@khaledtannir.net 2e SéRI 2010-2011 Jeudi 17 mars 2011 Présentation Doctorant CIFRE

Plus en détail

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages 1 Mehdi LOUIZI Plan Pourquoi Hadoop? Présentation et Architecture Démo Usages 2 Pourquoi Hadoop? Limites du Big Data Les entreprises n analysent que 12% des données qu elles possèdent (Enquête Forrester

Plus en détail

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24.2 1 Semestre 4 : Fev. 2015 Grid : exemple SETI@home 2 Semestre 4 : Fev. 2015 Grid : exemple SETI@home

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing Les Clusters Les Mainframes Les Terminal Services Server La virtualisation De point de vue naturelle, c est le fait de regrouper

Plus en détail

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions? Introduction Quelles sont les défis actuels

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data LE BIG DATA Solution EMC Big Data TRANSITION VERS LE BIG DATA En tirant profit du Big Data pour améliorer leur stratégie et son exécution, les entreprises se démarquent de la concurrence. La solution EMC

Plus en détail

Les données massives à Calcul Québec

Les données massives à Calcul Québec Les données massives à Calcul Québec Marc Parizeau, professeur et directeur scientifique de Calcul Québec Plan Calcul Québec / Calcul Canada Les outils et les services disponibles Un outil en particulier

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Cloud Computing. Introduction. ! Explosion du nombre et du volume de données

Cloud Computing. Introduction. ! Explosion du nombre et du volume de données Cloud Computing Frédéric Desprez LIP ENS Lyon/INRIA Grenoble Rhône-Alpes EPI GRAAL 25/03/2010! Introduction La transparence d utilisation des grandes plates-formes distribuées est primordiale Il est moins

Plus en détail

Chapitre 4: Introduction au Cloud computing

Chapitre 4: Introduction au Cloud computing Virtualisation et Cloud Computing Chapitre 4: Introduction au Cloud computing L'évolution d'internet Virt. & Cloud 12/13 2 Définition Le cloud computing est une technologie permettant de délocaliser les

Plus en détail

Hébergement MMI SEMESTRE 4

Hébergement MMI SEMESTRE 4 Hébergement MMI SEMESTRE 4 24/03/2015 Hébergement pour le Web Serveurs Mutualités Serveurs Dédiés Serveurs VPS Auto-Hébergement Cloud Serveurs Mutualités Chaque Serveur héberge plusieurs sites Les ressources

Plus en détail

Bonjour. Yohan PARENT, Cyprien FORTINA, Maxime LEMAUX, Hyacinthe CARTIAUX

Bonjour. Yohan PARENT, Cyprien FORTINA, Maxime LEMAUX, Hyacinthe CARTIAUX Bonjour I.Le contexte II.Le cloud computing III.L'expérimentation des solutions libres sur Grid'5000 1.Eucalyptus 2.OpenNebula 3.OpenStack IV.Tableau Comparatif V.Conclusion I.Le contexte 1)Le projet

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

La tête dans les nuages

La tête dans les nuages 19 novembre 2010 La tête dans les nuages Démystifier le "Cloud Computing" Jean Bernard, Directeur, Gestion des services Radialpoint SafeCare Inc. Au sujet de Radialpoint Radialpoint offre des solutions

Plus en détail

Surmonter les 5 défis opérationnels du Big Data

Surmonter les 5 défis opérationnels du Big Data Surmonter les 5 défis opérationnels du Big Data Jean-Michel Franco Talend Connect 9 octobre 2014 Talend 2014 1 Agenda Agenda Le Big Data depuis la découverte jusqu au temps réel en passant par les applications

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Résolvez vos problèmes d énergie dédiée à l informatique

Résolvez vos problèmes d énergie dédiée à l informatique Résolvez vos problèmes d énergie dédiée à l informatique GRÂCE À UNE SOLUTION ENERGY SMART DE DELL Surmonter les défis énergétiques des datacenters Les responsables informatiques ont un problème urgent

Plus en détail

Les dessous du cloud

Les dessous du cloud Les dessous du cloud Brice Lopez Administrateur Réseaux et Systèmes Experiences Numériques - Janvier 2014 Brice Lopez Les dessous du cloud 11 janvier 2014 1 / 22 Intro Le cloud? Brice Lopez Les dessous

Plus en détail

Les activités de recherche sont associées à des voies technologiques et à des opportunités concrètes sur le court, moyen et long terme.

Les activités de recherche sont associées à des voies technologiques et à des opportunités concrètes sur le court, moyen et long terme. Mémoires 2010-2011 www.euranova.eu EURANOVA R&D Euranova est une société Belge constituée depuis le 1er Septembre 2008. Sa vision est simple : «Être un incubateur technologique focalisé sur l utilisation

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 09 : CC : Cloud Computing Sommaire Introduction... 2 Définition... 2 Les différentes

Plus en détail

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES FAMILLE EMC VPLEX Disponibilité continue et mobilité des données dans et entre les datacenters DISPONIBLITÉ CONTINUE ET MOBILITÉ DES DONNÉES DES APPLICATIONS CRITIQUES L infrastructure de stockage évolue

Plus en détail

Influence De La Taille Du Jeton Sur Les Performances De L algorithme D'exclusion Mutuelle De Ricart - Agrawala

Influence De La Taille Du Jeton Sur Les Performances De L algorithme D'exclusion Mutuelle De Ricart - Agrawala Influence De La Taille Du Jeton Sur Les Performances De L algorithme D'exclusion Mutuelle De Ricart - Agrawala Sarah Benkouider, Souhila Labgaa 2, Mohamed Yagoubi 3 Université Amar Telidji Département

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

Le Cloud au LIG? Pierre Neyron PimLIG - 2013-04-14

Le Cloud au LIG? Pierre Neyron PimLIG - 2013-04-14 Le Cloud au LIG? Pierre Neyron PimLIG - 2013-04-14 Cloud = buzz word Employé à toutes les sauces... http://www.youtube.com/watch?v=rdkbo2qmyjq (pub SFR) tout le monde fait du cloud? Qui fait du cloud au

Plus en détail

Séminaire Partenaires Esri France 7-8 juin 2011 - Paris Cloud Computing Stratégie Esri

Séminaire Partenaires Esri France 7-8 juin 2011 - Paris Cloud Computing Stratégie Esri Séminaire Partenaires Esri France 7-8 juin 2011 - Paris Cloud Computing Stratégie Esri Gaëtan LAVENU Plan de la présentation Evolution des architectures SIG Qu'est ce que le Cloud Computing? ArcGIS et

Plus en détail

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr http://www.metz.supelec.

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr http://www.metz.supelec. 3A-IIC - Parallélisme & Grid Stéphane Vialle Stephane.Vialle@supelec.fr http://www.metz.supelec.fr/~vialle Principes et Objectifs Evolution Leçons du passé Composition d une Grille Exemple d utilisation

Plus en détail

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan 1 Sommaire 1. Google en chiffres 2. Les raisons d être de GFS 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan 4. Les Evolutions et Alternatives

Plus en détail

Le BigData, aussi par et pour les PMEs

Le BigData, aussi par et pour les PMEs Parole d expert Le BigData, aussi par et pour les PMEs Stéphane MOUTON, CETIC Département Software and Services Technologies Avec le soutien de : LIEGE CREATIVE Le Big Data, aussi par et pour les PMEs

Plus en détail

CONSEIL INFOGÉRANCE HÉBERGEMENT

CONSEIL INFOGÉRANCE HÉBERGEMENT Séminaire du 17 Décembre 2009 CONSEIL INFOGÉRANCE HÉBERGEMENT Cloud Computing: Innovation Technique ou Marketing? Sommaire Le contexte Oxalide L offre Cloud Computing Les vraies et les fausses solutions

Plus en détail

+ = OpenStack Presentation. Raphaël Ferreira - CoFounder. @ enovance. Credits : Thanks to the OpenStack Guys 1

+ = OpenStack Presentation. Raphaël Ferreira - CoFounder. @ enovance. Credits : Thanks to the OpenStack Guys 1 + = OpenStack Presentation Raphaël Ferreira - CoFounder @ enovance Credits : Thanks to the OpenStack Guys 1 INTRODUCTION 2 Les entreprises déploient des clouds pour... Répondre aux besoins de ressources

Plus en détail

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE Mémoires 2010-2011 www.euranova.eu MÉMOIRES ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE Contexte : Aujourd hui la plupart des serveurs d application JEE utilise des niveaux de cache L1

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters FAMILLE EMC VPLEX Disponibilité continue et mobilité des données dans et entre les datacenters DISPONIBILITE CONTINUE ET MOBILITE DES DONNEES DES APPLICATIONS CRITIQUES L infrastructure de stockage évolue

Plus en détail

La fédération des infrastructures cloud

La fédération des infrastructures cloud La fédération des infrastructures cloud Ecole IN2P3 : Maîtriser le cloud Charles LOOMIS (LAL) 4 juillet 2014 Questions importantes Est-ce que la fédération des ressources est nécessaire? Si oui, comment

Plus en détail

M2 GL UE DOC «In memory analytics»

M2 GL UE DOC «In memory analytics» M2 GL UE DOC «In memory analytics» Alexandre Termier 2014/2015 Sources Travaux Amplab, U.C. Berkeley Slides Ion Stoica Présentations Databricks Slides Pat McDonough Articles de M. Zaharia et al. sur les

Plus en détail

Le Cercle Vertueux du Cloud Public

Le Cercle Vertueux du Cloud Public Le Cercle Vertueux du Cloud Public Le Cercle Vertueux du Cloud Public Le Cloud public rencontre un intérêt croissant auprès de tous les directeurs IT voulant planifier les stratégies informatiques de leur

Plus en détail

System Center 2012 R2 Licensing Fiche Produit

System Center 2012 R2 Licensing Fiche Produit Licensing Fiche Produit Aperçu du produit Microsoft offre des solutions pour administrer des ressources de datacenters, des clouds privés et des appareils clients. Gestion de Cloud privé/datacenter aide

Plus en détail

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015 Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS Salon du Big Data 11 mars 2015 Accélération de l innovation +500 +280 Amazon EC2 Container Service +159 AWS Storage Gateway Amazon Elastic Transcoder

Plus en détail

Gestion dynamique des tâches dans les grappes

Gestion dynamique des tâches dans les grappes Gestion dynamique des tâches dans les grappes une approche à base de machines virtuelles Fabien Hermenier Équipe ASCOLA, École des Mines de Nantes 26 novembre 2009 Fabien Hermenier (ASCOLA) Gestion dynamique

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux

Plus en détail

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012 Livre blanc Solution Hadoop d entreprise d EMC Stockage NAS scale-out Isilon et Greenplum HD Par Julie Lockner et Terri McClure, Analystes seniors Février 2012 Ce livre blanc d ESG, qui a été commandé

Plus en détail

Infrastructures Parallèles de Calcul

Infrastructures Parallèles de Calcul Infrastructures Parallèles de Calcul Clusters Grids Clouds Stéphane Genaud 11/02/2011 Stéphane Genaud () 11/02/2011 1 / 8 Clusters - Grids - Clouds Clusters : assemblage de PCs + interconnexion rapide

Plus en détail

Demande de livres blancs en vue de l élaboration d un Plan durable pour l informatique de pointe en recherche (PDIPR)

Demande de livres blancs en vue de l élaboration d un Plan durable pour l informatique de pointe en recherche (PDIPR) Message important de Calcul Canada aux chercheurs et aux groupes de recherche du Canada Demande de livres blancs en vue de l élaboration d un Plan durable pour l informatique de pointe en recherche (PDIPR)

Plus en détail

Contributions à l expérimentation sur les systèmes distribués de grande taille

Contributions à l expérimentation sur les systèmes distribués de grande taille Contributions à l expérimentation sur les systèmes distribués de grande taille Lucas Nussbaum Soutenance de thèse 4 décembre 2008 Lucas Nussbaum Expérimentation sur les systèmes distribués 1 / 49 Contexte

Plus en détail

Formation owncloud Thierry DOSTES - Octobre 2013 1

Formation owncloud Thierry DOSTES - Octobre 2013 1 1 2 3 4 5 IasS (Infrastructure as a Service) : l entreprise gère les OS des serveurs et les applicatifs tandis que le fournisseur administre le matériel serveur, les couches de virtualisation, le stockage

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

Cloud Computing Concepts de base Année académique 2014/15

Cloud Computing Concepts de base Année académique 2014/15 Concepts de base Année académique 2014/15 Qu'est que le? online 2 Qu'est que le? Cela s'est-il produit auparavant? Innovation Produit Service 3 Qu'est que le? Considérons-le comme-ça... Crée ta propre

Plus en détail

Ordonnancement dynamique des transferts dans MapReduce sous contrainte de bande passante

Ordonnancement dynamique des transferts dans MapReduce sous contrainte de bande passante Ordonnancement dynamique des transferts dans MapReduce sous contrainte de bande passante Sylvain Gault To cite this version: Sylvain Gault. Ordonnancement dynamique des transferts dans MapReduce sous contrainte

Plus en détail

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce Algorithmes : K-means et Apriori Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Cloud Computing et MapReduce

Plus en détail

Culture numérique Cloud computing

Culture numérique Cloud computing Culture numérique Cloud computing Hervé Le Crosnier Université de Caen Basse-Normandie herve.lecrosnier@unicaen.fr Processus John McCarthy «computation may someday be organized as a public utility.» Transformations

Plus en détail

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

Christophe Dubos Architecte Infrastructure et Datacenter Microsoft France chrisdu@microsoft.com

Christophe Dubos Architecte Infrastructure et Datacenter Microsoft France chrisdu@microsoft.com Christophe Dubos Architecte Infrastructure et Datacenter Microsoft France chrisdu@microsoft.com Microsoft et le Cloud Computing Quelle approche? Voyage au Cœur du Cloud Microsoft Self Service Client Délégation

Plus en détail

Propagation de labels avec barrages sur de grands graphes en utilisant Apache Hadoop et Apache Spark (GraphX)

Propagation de labels avec barrages sur de grands graphes en utilisant Apache Hadoop et Apache Spark (GraphX) Propagation de labels avec barrages sur de grands graphes en utilisant Apache Hadoop et Apache Spark (GraphX) Jean Philippe Attal *, ** Maria Malek * * EISTI: Ecole Internationale des Sciences du Traitement

Plus en détail

CA Automation Suite for Data Centers

CA Automation Suite for Data Centers FICHE PRODUIT : CA Automation Suite for Data Centers CA Automation Suite for Data Centers agility made possible «La technologie a devancé la capacité à la gérer manuellement dans toutes les grandes entreprises

Plus en détail

Informatique en nuage Cloud Computing. G. Urvoy-Keller

Informatique en nuage Cloud Computing. G. Urvoy-Keller Informatique en nuage Cloud Computing G. Urvoy-Keller Sources de ce documents Next Stop, the cloud Objectifs de l'étude : Comprendre la popularité des déploiements de services basés sur des clouds Focus

Plus en détail

Veille Technologique. Cloud-Computing. Jérémy chevalier

Veille Technologique. Cloud-Computing. Jérémy chevalier E6 Veille Technologique Cloud-Computing Jérémy chevalier Table des matières DESCRIPTION :...2 Introduction :...2 Définition du Cloud :...2 Exemple de serveur proposant la solution de Cloud :...2 Les spécificités

Plus en détail

Liste de conférences et revues Thème Com A

Liste de conférences et revues Thème Com A Liste de conférences et revues Thème Com A April 11th, 2007 Ci-dessous, la synthèse des listes de publications fournies par les projets. Il faut noter que ACES/CEPAGE/OASIS/ n ont pas répondu et ne sont

Plus en détail

ASG CloudFactory Transformez votre IT avec l orchestration du Cloud & l automatisation des services TECHNOLOGY TO RELY ON

ASG CloudFactory Transformez votre IT avec l orchestration du Cloud & l automatisation des services TECHNOLOGY TO RELY ON ASG CloudFactory Transformez votre IT avec l orchestration du Cloud & l automatisation des services TECHNOLOGY TO RELY ON L industrie automobile comme modèle Transformer l IT Dans les années 1950s, l industrie

Plus en détail

Sauvegarde et restauration en environnement VMware avec Avamar 6.0

Sauvegarde et restauration en environnement VMware avec Avamar 6.0 Livre blanc Sauvegarde et restauration en environnement VMware avec Avamar 6.0 Analyse détaillée Résumé Dans les entreprises, les environnements virtuels sont de plus en plus déployés dans le cloud. La

Plus en détail

Rapport d activité. Mathieu Souchaud Juin 2007

Rapport d activité. Mathieu Souchaud Juin 2007 Rapport d activité Mathieu Souchaud Juin 2007 Ce document fait la synthèse des réalisations accomplies durant les sept premiers mois de ma mission (de novembre 2006 à juin 2007) au sein de l équipe ScAlApplix

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Cloud Computing : Généralités & Concepts de base

Cloud Computing : Généralités & Concepts de base Cloud Computing : Généralités & Concepts de base Les 24èmes journées de l UR-SETIT 22 Février 2015 Cette oeuvre, création, site ou texte est sous licence Creative Commons Attribution - Pas d Utilisation

Plus en détail

Certificat Big Data - Master MAthématiques

Certificat Big Data - Master MAthématiques 1 / 1 Certificat Big Data - Master MAthématiques Master 2 Auteur : Sylvain Lamprier UPMC Fouille de données et Medias Sociaux 2 / 1 Rich and big data: Millions d utilisateurs Millions de contenus Multimedia

Plus en détail

Entrez dans l ère du Numérique Très Haut Débit

Entrez dans l ère du Numérique Très Haut Débit MIPE Juin 2012 - Nantes http://www.network-th.fr - 0811 560 947 1. Le Très Haut Débit sur Fibre Optique au prix d une SDSL : Mythe ou Réalité? 2. Sauvegarder, Sécuriser, Protéger, Superviser : Délégueznous

Plus en détail

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement Ne laissez pas le stockage cloud pénaliser votre retour sur investissement Préparé par : George Crump, analyste senior Préparé le : 03/10/2012 L investissement qu une entreprise fait dans le domaine de

Plus en détail

Change the game with smart innovation

Change the game with smart innovation Change the game with smart innovation Master Thesis 2013 2014 Faculty of Science engineering 12/08/2012 Master Thesis proposal for the academic year 2013. TABLE OF CONTENTS Section Un Introduction... 3

Plus en détail

ARCHITECTURE ET SYSTÈMES D'EXPLOITATIONS

ARCHITECTURE ET SYSTÈMES D'EXPLOITATIONS ARCHITECTURE ET SYSTÈMES D'EXPLOITATIONS Axel François bureau C19 (2eme étage) cours disponibles en pdf sur : www.iut-arles.up.univ-mrs.fr/francois 1 PLAN En Cours : qu'est-ce qu'un ordinateur? à quoi

Plus en détail

CTE Éditeur de classification arborescente pour spécifications du cas de test

CTE Éditeur de classification arborescente pour spécifications du cas de test Tessy Test d intégration et unitaire dynamique automatisé pour des applications embarquées CTE Éditeur de classification arborescente pour spécifications du cas de test Le meilleur outil de test unitaire

Plus en détail

Qu est-ce que le «cloud computing»?

Qu est-ce que le «cloud computing»? Qu est-ce que le «cloud computing»? Par Morand Studer eleven Octobre 2011 Qu est-ce que le «cloud computing»? - Morand Studer eleven Octobre 2011 www.eleven.fr 1 Aujourd hui, la démocratisation de l informatique

Plus en détail

Tables Rondes Le «Big Data»

Tables Rondes Le «Big Data» Tables Rondes Le «Big Data» 2012-2013 1 Plan Introduc9on 1 - Présenta9on Ingensi 2 - Le Big Data c est quoi? 3 - L histoire 4 - Le monde du libre : Hadoop 5 - Le système HDFS 6 - Les algorithmes distribués

Plus en détail

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain? DOSSIER SOLUTION Solution CA Virtual Placement and Balancing Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain? agility made possible La solution automatisée

Plus en détail

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014 Introduction aux algorithmes MapReduce Mathieu Dumoulin (GRAAL), 14 Février 2014 Plan Introduction de la problématique Tutoriel MapReduce Design d algorithmes MapReduce Tri, somme et calcul de moyenne

Plus en détail

Le cloud computing au service des applications cartographiques à haute disponibilité

Le cloud computing au service des applications cartographiques à haute disponibilité Le cloud computing au service des applications cartographiques à haute disponibilité Claude Philipona Les Rencontres de SIG-la-Lettre, Mai 2010 camptocamp SA / www.camptocamp.com / info@camptocamp.com

Plus en détail

Les conteneurs : une approche générique pour la conception d un système à image unique

Les conteneurs : une approche générique pour la conception d un système à image unique RENPAR 14 / ASF / SYMPA Hamamet, Tunisie, 10 13 avril 2002 Les conteneurs : une approche générique pour la conception d un système à image unique Renaud Lottiaux, projet PARIS IRISA/INRIA, Campus universitaire

Plus en détail

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE Sylvain SIOU VMware Laurent DELAISSE Hitachi Data Systems 1 Hitachi Data Systems Corporation 2012. All Rights Reserved

Plus en détail

Optimisation des performances du programme mpiblast pour la parallélisation sur grille de calcul

Optimisation des performances du programme mpiblast pour la parallélisation sur grille de calcul Optimisation des performances du programme mpiblast pour la parallélisation sur grille de calcul Mohieddine MISSAOUI * Rapport de Recherche LIMOS/RR-06-10 20 novembre 2006 * Contact : missaoui@isima.fr

Plus en détail

Les environnements de calcul distribué

Les environnements de calcul distribué 2 e Atelier CRAG, 3 au 8 Décembre 2012 Par Blaise Omer YENKE IUT, Université de Ngaoundéré, Cameroun. 4 décembre 2012 1 / 32 Calcul haute performance (HPC) High-performance computing (HPC) : utilisation

Plus en détail

ENVIRONNEMENTS ORACLE CRITIQUES AVEC VMAX 3

ENVIRONNEMENTS ORACLE CRITIQUES AVEC VMAX 3 ENVIRONNEMENTS ORACLE CRITIQUES AVEC VMAX 3 AVANTAGES CLES CRITIQUES Puissance Stockage hybride avec des niveaux de service performants optimisés pour le Flash à grande échelle, pour les charges applicatives

Plus en détail

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris ArcGIS et le Cloud Gaëtan LAVENU Agenda Qu'attendent nos clients du Cloud Computing? Les solutions de Cloud ArcGIS dans le Cloud Quelles attendent

Plus en détail

IFT630 Processus concurrents et parallélisme. Projet final Rapport. Présenté à Gabriel Girard

IFT630 Processus concurrents et parallélisme. Projet final Rapport. Présenté à Gabriel Girard IFT630 Processus concurrents et parallélisme Projet final Rapport Présenté à Gabriel Girard par Alexandre Tremblay (06 805 200) Pierre-François Laquerre (05 729 544) 15 avril 2008 Introduction Après plusieurs

Plus en détail

«Scale-to-fit» Storage

«Scale-to-fit» Storage LIVRE BLANC «Scale-to-fit» Storage Faites évoluer votre stockage de façon totalement transparente grâce au «Scale-to-Fit» de Nimble Storage. Ce livre blanc explique comment les solutions Nimble Storage

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

Equilibrage de charge pour les grilles de calcul : classe des tâches dépendantes et indépendantes.

Equilibrage de charge pour les grilles de calcul : classe des tâches dépendantes et indépendantes. Equilibrage de charge pour les grilles de calcul : classe des tâches dépendantes et indépendantes. Meriem Meddeber 1 et Belabbas Yagoubi 2 1 Université de Mascara, Faculté des sciences, Département des

Plus en détail

10 raisons expliquant pourquoi les mises à niveau vers Windows Server 2012 R2 sont essentielles et pourquoi le choix du serveur est crucial

10 raisons expliquant pourquoi les mises à niveau vers Windows Server 2012 R2 sont essentielles et pourquoi le choix du serveur est crucial Liste de vérification pour l ENTREPRISE 10 raisons expliquant pourquoi les mises à niveau vers Windows Server 2012 R2 sont essentielles et pourquoi le choix du serveur est crucial Comment tirer parti aujourd

Plus en détail

Service combinators for farming virtual machines

Service combinators for farming virtual machines Master d Informatique Fondamentale École Normale Supérieure de Lyon Sémantique du parallélisme Chantal Keller Service combinators for farming virtual machines K. Bhargavan, A. D. Gordon, I. Narasamdya

Plus en détail

agility made possible

agility made possible DOSSIER SOLUTION Amélioration de la planification de la capacité à l aide de la gestion des performances applicatives Comment assurer une expérience utilisateur exceptionnelle pour les applications métier

Plus en détail

Cisco Unified Computing Migration and Transition Service (Migration et transition)

Cisco Unified Computing Migration and Transition Service (Migration et transition) Cisco Unified Computing Migration and Transition Service (Migration et transition) Le service Cisco Unified Computing Migration and Transition Service (Migration et transition) vous aide à migrer vos applications

Plus en détail

Du Datacenter au Cloud Quels challenges? Quelles solutions? Christophe Dubos Architecte Microsoft

Du Datacenter au Cloud Quels challenges? Quelles solutions? Christophe Dubos Architecte Microsoft Du Datacenter au Cloud Quels challenges? Quelles solutions? Christophe Dubos Architecte Microsoft Microsoft et le Cloud Computing Quelle approche? Le Cloud, un accélérateur de la transformation Un modèle

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Suite VMware vcenter. VMware vsphere 4. vshield Zones VMsafe. VMotion Storage VMotion HA Fault Tolerance Data Recovery. VMware ESX VMware ESXi

Suite VMware vcenter. VMware vsphere 4. vshield Zones VMsafe. VMotion Storage VMotion HA Fault Tolerance Data Recovery. VMware ESX VMware ESXi CS VMware vsphere 4 AIDE-MÉMOIRE Qu est-ce que VMware vsphere 4? Premier système d exploitation pour le Cloud Computing, VMware vsphere 4 utilise la puissance de la virtualisation pour transformer les

Plus en détail