Lʼavenir des grilles Des grilles aux Clouds avec quelques «petits problèmes» de recherche. F. Desprez INRIA

Documents pareils

Cloud Computing. Introduction. ! Explosion du nombre et du volume de données

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Les environnements de calcul distribué

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Bonjour. Yohan PARENT, Cyprien FORTINA, Maxime LEMAUX, Hyacinthe CARTIAUX

Evolution des technologies et émergence du cloud computing Drissa HOUATRA, Orange Labs Issy

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Chapitre 4: Introduction au Cloud computing

La tête dans les nuages

Cloud et SOA La présence du Cloud révolutionne-t-elle l approche SOA?

Les clouds, du buzz à la vraie science

Hébergement MMI SEMESTRE 4

Cartographie des solutions BigData

Infrastructures Parallèles de Calcul

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

Communications performantes par passage de message entre machines virtuelles co-hébergées

Système d administration autonome adaptable: application au Cloud

Architectures informatiques dans les nuages

Portage d applications sur le Cloud IaaS Portage d application

Cloud Computing et Calcul Haute Performance (HPC High Performance C

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Introduction à MapReduce/Hadoop et Spark

Programmation parallèle et distribuée (Master 1 Info )

Ordonnancement sous contraintes de Qualité de Service dans les Clouds

ViSaGe. Virtualisation du Stockage dans les Grilles. Informatiques. RenPar 16, 6-8 Avril 2005 Thiebolt François

Introduction. Gestion de la consommation énergétique. Contexte du cloud computing Instrumentation et contrôle

Cloud Computing : Généralités & Concepts de base

Cycle Innovation & Connaissance 12 petit déjeuner Mardi 15 mai Cloud Computing & Green IT : nuages ou éclaircies?

Présentation de la Grille EGEE

Ricco Rakotomalala R.R. Université Lyon 2

Le Cloud Computing L informatique de demain?

Contributions à l expérimentation sur les systèmes distribués de grande taille

Fouillez facilement dans votre système Big Data. Olivier TAVARD

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

VMware vsphere 5 Préparation à la certification VMware Certified Professional 5 Data Center Virtualization (VCP5-DCV) - Examen VCP510

+ = OpenStack Presentation. Raphaël Ferreira - enovance. Credits : Thanks to the OpenStack Guys 1

Introduction aux applications réparties

Business & High Technology

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Le Cloud Open-Mind! Emilien Macchi

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Cloud Computing. Groupe : Vincent, Mohammed, Yannick, Allan Tuteur : Mr. NUSSBAUM Lucas Année : 2009/2010

Optimisation des niveaux de service dans le cadre de déploiements de Clouds publics

Le cloud computing au service des applications cartographiques à haute disponibilité

Informatique en nuage Cloud Computing. G. Urvoy-Keller

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

L'automatisation open source pour SI complexes

PHP et le Cloud. All rights reserved. Zend Technologies, Inc.

Fiche Technique Windows Azure

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

Cloud Computing - présentation d un outil complet

agile Datacenter vert Le monde naissant des datacenters de nouvelle génération ICAR-2013

Séminaire Partenaires Esri France 7-8 juin Paris Cloud Computing Stratégie Esri

Section I: Le Contexte du DATA CENTER Pourquoi l AGILITE est Nécessaire dans le DataCenter

Cloud Computing Stratégie IBM France

VMware : De la Virtualisation. au Cloud Computing

Programmation parallèle et distribuée

Un exemple de cloud au LUPM : Stratuslab

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Architecture de la grille

Vers l'orchestration de grilles de PC par les mécanismes de publicationsouscription

CE QU IL FAUT SAVOIR SUR LE CLOUD COMPUTING

Le Cloud au LIG? Pierre Neyron PimLIG

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Le Cloud Computing et le SI : Offre et différentiateurs Microsoft

SysFera. Benjamin Depardon

Breizhcamp - Cloud - Ruby

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

Programmation parallèle et distribuée

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

Cycle de conférences sur Cloud Computinget Virtualisation. Cloud Computing et Sécurité Pascal Sauliere, Architecte, Microsoft France

StratusLab : Le projet et sa distribution cloud

Cloud Computing - L environnement concurrentiel. Points forts reformulés, issus d un récent article du Taneja Group, publié en septembre 2012.

Du Datacenter au Cloud Quels challenges? Quelles solutions? Christophe Dubos Architecte Microsoft

Containers : Outils magiques pour les Devops? OpenNebula et son écosystème pour une infrastructure cloud agile

QU EST CE QUE LE CLOUD COMPUTING?

Logiciel HP StorageWorks Enterprise Virtual Array (EVA) Fiche technique

Hétérogénéité pour atteindre une consommation énergétique proportionnelle dans les clouds

EMC AVAMAR. Logiciel et système de sauvegarde avec déduplication

Anatomie d'un cloud IaaS Représentation simplifiée

Mathieu Rivoalen. Etude d'approfondissement des réseaux RICM 5 Option Réseaux

votre partenaire informatique pour un développement durable Les réalités de la virtualisation des postes de travail

Visualization sur Ubuntu: Quels Choix? Nicolas Barcet

Jean-Daniel Cryans École de technologie supérieure, Montréal septembre 2009

La fédération des infrastructures cloud

La Continuité d Activité

Hands on Openstack : Introduction

Virtualisation sous Linux L'age de raison. Daniel Veillard

Clouds/Big Inria. Frédéric Desprez Frederic.Desprez@inria.fr

Vision Infonuagique VMware

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Transcription:

Lʼavenir des grilles Des grilles aux Clouds avec quelques «petits problèmes» de recherche F. Desprez INRIA

Introduction Les grilles font-elles déjà parties du passé? Des plates-formes de recherche et de production disponibles Des technologies logicielles (relativement) matures Grand nombre d applications portées Attractivité des Clouds côté recherche et industrie Le calcul comme un service (utility computing), suggéré par McCarthy en 1961! Il est moins coûteux de louer ou d acheter de l électricité que de construire, gérer et maintenir une station de production!

Les grilles Qu est-ce qu une grille? «A fully distributed, dynamically reconfigurable, scalable and autonomous infrastructure to provide location independent, pervasive, reliable, secure and efficient access to a coordinated set of services encapsulating and virtualizing resources (computing power, storage, instruments, data, etc.) in order to generate knowledge...» d après le CoreGRID NoE

Les Clouds Qu est-ce que le Cloud? Un paradigme de calcul distribué émergeant dans lequel les données et les services sont disponibles dans des datacenters extensibles et peuvent être accédés de manière transparente depuis des appareils (ordinateurs, téléphones, grappes, ) connectés par Internet. 5 ème généra+on d architectures 1970: Mainframes, 1980: Client serveurs, 1990: Web, grilles, 2000: SOA, 2010: Clouds

Les raisons de lʼévolution Il est moins coûteux de louer de la capacité de calcul et de stockage que de monter un centre de calcul La transparence d utilisation des grandes plates-formes distribuées est primordiale Pouvoir gérer ces ressources de manière dynamique et élastique! Un long historique du calcul distribué à plus ou moins grande échelle Des supercalculateurs et grappes aux Clouds en passant par les grilles Des besoins applicatifs de plus en plus importants et variés Explosion du nombre et du volume de données

Les Clouds Nés de La profusion de ressources (datacenters) Une technologie de virtualisation mature et des communications à haut débit IaaS, PaaS, SaaS, privés, publiques, hybrides Quelques caractéristiques Libre service à la demande Le consommateur récupère des ressources de calcul et de stockage à la demande (machines virtuelles) Accès réseau Ressources, briques logicielles et applications disponibles à travers le réseau pour des clients de tailles différentes Mise en commun de ressources Datacenters fournissant les ressources (machines, stockage, mémoire, BP réseau) pour différents clients en mode partagé «Elasticité» réactive et rapide Croissance ou décroissance dynamique du nombre de ressources en fonction de la demande et des besoins Service mesuré et facturation à l usage Reporting de l utilisation des ressources

Un historique de lʼutility Computing OpenNebula IaaS Open Source Nimbus IaaS Open Source Grid 5000 Infrastructure IaaS Eucalyptus IaaS Open Source FutureGrid 1998 1999 2003 2005 2006 2007 2008 2009 2010 Grid Computing Cloud Computing Salesforces.com HP Flexible Computing" Services Cloud Computing Amazon EC2/S3 IBM Blue Cloud FP7 Reservoir Sun Open Cloud Microsoft Azure Crédits: T. Priol, INRIA

Clouds et HPC

Grilles vs Clouds Une vision partagée simplifier l accès aux ressources distantes de la manière la plus transparente possible Technologie différente Grappes et batchs vs datacenters et virtualisation Gestion de ressources Statique vs dynamique Modèle de programmation/d accès Batch/MPI/GridRPC vs MapReduce/scripts/workflows Modèle de sécurité Certificats vs Web + SSL Des domaines applicatifs différents (pour l instant!) HPC/HTC vs Business

Gridʼ5000 Une vision originale Pouvoir effectuer des expérimentations à tous les niveaux de la pile logicielle d une grille (ou d un Cloud) avec o La possibilité de reproduire les conditions d expérimentation o Isoler les expériences entre elles o Avoir une grande flexibilité o Comprendre ce qu il se passe sur la plate-forme o Injections de conditions expérimentales (fautes, charge) Un instrument pour l informatique distribuée 9 sites en France connectés par Renater pour un total de 5600 cœurs Un exemple (FutureGrid aux USA) Un des premiers Clouds de type IaaS Grid Application Grid Middleware OS ( ) Grid BIOS

Gridʼ5000 vu comme un Cloud Quelques caractéristiques de Cloud Possibilité de gérer vos propres images disques (installées via kdeploy) Réservation de ressources transparente (via OAR) Plateforme complètement contrôlée Images de machines virtuelles (Xen, kvm, Vmware) Isolement d applications (KaVLAN) Grid 5000 pourrait devenir Cloud 5000? Plateforme parfaite pour la validation de résultats de recherche sur les Clouds Instances de machines virtuelles connectées via un WAN dédié Plusieurs projets autour de Clouds open source, MapReduce et de la virtualisation

Quelques pistes de recherche autour de Gridʼ5000 Applications Simulations stochastiques multi-paramétriques intensives pour l hydrogéologie Simulation électromagnétique Calcul à grande échelle pour les problèmes d optimisation combinatoire Métaheuristiques hybrides parallèles sur grilles de calcul. Application au Q3AP et au problème des règles de Golomb Cryptanalyse de primitives fondamentales en cryptologie asymétrique, et étude de l'apport de Grid'5000 pour les calculs d'algèbre linéaire induits par ces algorithmes Grilles/Desktop CP Expérimentation du système XtreemOS à très large échelle Robustness of large systems in presence of high churn (P2P-ch) Profiling énergétique pour les applications à grande échelle Gestion de la sécurité dans les grilles de calcul Application Autonome sur Grille Réseau Analyser et comprendre le traffic Clouds Traitement distribué extensible utilisant le paradigme MapReduce Gestion de données partagées sur des infrastructures de type cloud Virtualisation et cloud computing dans les infrastructures distribuées à grand échelle

«Nouveaux» paradigmes de programmation? Les applications de grandes tailles utilisent encore les paradigmes de programmation des grappes et des supercalculateurs (MPI, OpenMP) Nouvelles applications avec nouveaux besoins Manipulation de données, Workflows (dynamiques), composants logiciels, Prise en compte de l architecture Maîtrise de la grande échelle et de hétérogénéité, élasticité, Tolérance aux pannes, Nouvelles architectures fortement hiérarchiques, Input SPMDs

MapReduce Modèle (ré)-introduit par Google MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, and a reduce function that merges all intermediate values associated with the same intermediate key. MapReduce: Simplified Data Processing on Large Clusters Jeffrey Dean and Sanjay Ghemawat Version open-source: Hadoop Nombreux travaux de recherche Extensions du langage Systèmes de fichiers distribués Réplication des données Gestion des ressources Nouvelles applications Nouvelles plates-formes (multicores, GPU) Tolérance aux pannes

MapReduce Data is split into m parts 1 Data D1 D2 Dm map map map reduce reduce data split map reduce 2 map funckon is performed 4 on each of these data parts concurrently 3 A hash funckon maps the results of the map tasks to r reduce tasks O1 O2 5 A combine task may be necessary to combine all the outputs of the reduce funckons together Once all the results for a parkcular reduce task is available, the framework executes the reduce task

OS Grid/Cloud-aware Des systèmes et des plates-formes hétérogènes Grappes, grilles, clouds Une utilisation compliquée intergiciels multiples, OS différents, gestion de ressources, de données, fichiers, tolérance aux pannes, sécurité, Vers des OS pour les grilles et les clouds? Des challenges! Maîtrise de la grande échelle o o Nombre de ressources Sites et domaines multiples Dynamicité o Charge, pannes, ajouts de ressources Difficulté à prédire le comportement des plates-formes et de leurs utilisateurs

XtreemOS Un système d exploitation distribué pour les grilles Support des VOs multiples Ensemble de services coopérants Interface Posix/Unix Basé sur Linux API SAGA (OGF) pour les applications Extensibilité Gestion de la grande échelle et des domaines administratifs différents Distribution, réplication et migration des services XtreemOS Quelques fonctionnalités Gestion de VOs extensible, système de fichier grille (XtreemFS), monitoring, single-sign-on, checkpointing générique, outils pour l autoconfiguration et le déploiement automatique, découverte de ressources décentralisée, support pour les travaux interactifs, Ouverture vers les Clouds (IaaS) Crédits: ChrisKne Morin (INRIA/IRISA) htp://www.xtreemos.eu

Architecture XtreemOS htp://www.xtreemos.eu

Gestion optimisée de lʼénergie Les grilles et les Clouds participent au changement climatique! Approches «vertes» pour les grilles Optimisation : améliorer la conception des matériels et logiciels pour réduire leur consommation d énergie Eteindre / Shutdown : réduire le nombres de ressources et d équipements alimentés et inutiles : nœuds de calculs, de stockage, de communication, périphériques, Adaptation / Slowdown : adapter la vitesse des ressources à l usage réel : DVFS, ALR, Coordination : proposer des solutions à grande échelle afin de bénéficier de leviers de réduction énergétique plus importants Crédits: Laurent Lefèvre (INRIA/LIP)

GreenIT logiciel Etapes Mesurer / collecter des informations sur la consommation électrique Injecter dans les systèmes d information et composants Définir des environnements logiciels sensibles à la consommation électrique (protocoles, services, applications) Sensibiliser les utilisateurs et fournir des stratégies d usage raisonnées / plus vertes Exemple sur Grid 5000 Observation et contrôle de 160 nœuds Déploiement de wattmètre pour chaque équipement Crédits: Laurent Lefèvre (INRIA/LIP)

Vers des grilles «vertes» L énergie est un paramètre incontournable des infrastructures distribuées à grande échelle Mesurer/collecter/exposer la consommation énergétique des systèmes, des services et des applications est le premier pas indispensable Donner la possibilité aux utilisateurs/administrateurs des Grilles d exprimer des compromis Energie/performance/réactivité Ajouter le contexte énergie dans le composants logiciels des grilles (ordonnanceurs, gestionnaire de ressources ) Proposer des leviers de réduction énergétique aux utilisateurs Crédits: Laurent Lefèvre (INRIA/LIP)

Gestion de la virtualisation à grande échelle Concept de virtualisation Le système d exploitation n est plus central et est un logiciel comme un autre! Le concept de machines virtuelles consiste à recevoir des instances de systèmes. Les ressources physiques sont partagées par plusieurs machines virtuelles Propriétés Isolement Portabilité Suspend/restart Composant essentiel des Clouds

Gestion de la virtualisation à grande échelle Quelques problématiques liées à l utilisation de machines virtuelles à grande échelle Gérer les tâches dynamiquement (SALINE) o o Utiliser les capacités des machines virtuelles pour suspendre une tâche et l exécuter (potentiellement) ailleurs Sauver des snapshots et gérer leur sauvegarde de manière extensible Combiner la virtualisation des ressources et du réseau (HiperNet) o Donner à l utilisateur l illusion qu il utilise un système privé Un langage de reconfiguration pour les infrastructures virtualisées (VMScript) o pour décrire les jobs, les VOs, les architectures physiques Migrer une image virtuelle ou un cluster entier entre des datacenters (Shrinker) o Réduire le coût de déplacement (ne transférer que le strict minimum) o Tirer partie de la bande-passante d un réseau WAN Crédits: Adrien Lèbre (LINA, EMN)

Gestion de ressources à grande échelle Comment ordonnancer les tâches à grande échelle Workflows, tâches hétérogènes, liens avec la gestion de données, la réplication, modèles énergétiques, Comment gérer l allocation de machines virtuelles Modéliser les plates-formes, prédire? Gestion élastique des ressources Maîtriser les pics de charge Déplacer les VMs, les tâches Modèles économiques, énergétiques, Méta-schedulers Ordonnancer et gérer les ressources dans un monde multi-batch et multigestionnaires Pilot jobs o DIRAC, Condor

Sky computing Permettre l exécution d applications à grande échelle sur des platesformes multi-cloud Expérience entre les USA et la France Nimbus (gestion de ressources, contextualisation)/vine (connectivité)/ Hadoop (distribution des tâches, tolérance aux pannes, dynamicité) Plates-formes FutureGrid (3 sites) et Grid 5000 (3 sites) Optimisation de la création et de la propagation de machines virtuelles SD Grid 5000 firewall Rennes ApplicaKon Distribuée ApplicaKon MapReduce Hadoop UF Lille ViNe Whitelisted Logiciel IaaS Logiciel IaaS UC Queue VR Sophia All to all conneckvity! Crédits: Pierre Riteau (IRISA)

Combiner grilles et Clouds Inside the Cloud + DIET placorm is virtualized inside the cloud. (as Xen image for example) + Very flexible and scalable as DIET nodes can be launched + Dynamic adaptakon % charge Cloud manager + EC2 interface + EC2 is treated as a new Batch System + AutomaKc deployment of VMs with associated services htp://www.sysfera.fr/ Crédits: Eddy Caron (ENS Lyon/SysFera)

Conclusion Relations fortes entre les grilles, les clouds et les supercalculateurs Etudier précisément les besoins des applications Choix d une technologie ou d un assemblage de technologies Des problèmes de recherche nombreux gestion des ressources, tolérance aux pannes, extensibilité, paradigmes de programmation, garantie de service et de performances, protocoles réseaux, OS, sécurité, Applicabilité des résultats à de nombreuses plates-formes Validation des algorithmes, des heuristiques, des protocoles sur des instruments expérimentaux pour la recherche avant de passer en production Obtention de traces réelles d utilisation des grilles et des Clouds Création d images de piles logicielles complètes pour les grilles de recherche Nécessité de faire des ponts entre la recherche et la production!

Conclusion, suite Bien identifier ce qui est technologique Les effets de mode... De ce qui est plus fondamental Les nouveaux concepts... Encourager toutes les recherches visant à utiliser des réseaux à grande échelle pour des applications innovantes Ne pas se concentrer sur une seule approche Convergence des différents paradigmes

Journée Clouds à Lyon 13 Décembre 2010 ENS Lyon, site Jacques Monod (science) Grand amphithéatre 10h-17h Thèmes Plates-formes Virtualisation VO Gestion de ressources Gestion de données Programmation