Plan du cours. Incarnations/applications du Grid Computing. Super-calcul virtuel



Documents pareils
3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Architecture de la grille

Les environnements de calcul distribué

Architecture d un service de partage de données modifiables sur une infrastructure pair-à-pair

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Docteur de l Université de Reims Champagne-Ardenne

Grid5000 aujourd'hui : Architecture & utilisation

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Vers l'orchestration de grilles de PC par les mécanismes de publicationsouscription

TAI049 Utiliser la virtualisation en assistance et en dépannage informatique TABLE DES MATIERES

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

VMWare Infrastructure 3

Introduction aux applications réparties

HPC by OVH.COM. Le bon calcul pour l innovation OVH.COM

Introduction au Grid computing. Introduction au Grid computing. Grid-Computing. 1-Introduction Motivations Différents objectifs Leçons du passé

1. Introduction à la distribution des traitements et des données

Le passage à l échelle de serveur J2EE : le cas des EJB

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

Les protocoles Peer-to-Peer GERET. Gabrielle Feltin LORIA

Présentation de la Grille EGEE

Contributions à l expérimentation sur les systèmes distribués de grande taille

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

en version SAN ou NAS

Architectures informatiques dans les nuages

Leçon 1 : Les principaux composants d un ordinateur

Robin Favre Fabien Touvat. Polytech Grenoble RICM 3 ème Année Vendredi 21 Novembre 2008 Etude d Approfondissement Réseau

DEPARTEMENT D'INFORMATIQUE MEMOIRE. Présenté par. K AR A M O S TE F A M o ha mme d Ilye s. Pour obtenir LE DIPLOME DE MAGISTER

PRODIGUER un noeud français de distribution de données GIEC/IPCC

Grid Technology. ActiveMQ pour le grand collisionneur de hadrons (LHC) Lionel Cons Grid Technology Group Information Technology Department

CORBA haute performance

vbladecenter S! tout-en-un en version SAN ou NAS

Contribution à la mise en service d une ferme de serveurs connectée à une grille de calcul pour la Physique des Hautes Energies

Conception des systèmes répartis

Dossier : Le Grid Computing

La sécurité dans les grilles

3A-IIC - Parallélisme & Grid GRID : Middleware

La gestion du poste de travail en 2011 : Panorama des technologies

Rapport d activité. Mathieu Souchaud Juin 2007

Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24

Fiche de l'awt Le modèle peer to peer

THÈSE. Présentée devant. l Université de Rennes 1. pour obtenir. par. Emmanuel JEANVOINE

Cycle de conférences sur Cloud Computinget Virtualisation. Le Cloud et la sécurité Stéphane Duproz Directeur Général, TelecityGroup

DIRAC : cadre et composants pour créer des systèmes de calcul distribués

Evolution des technologies et émergence du cloud computing Drissa HOUATRA, Orange Labs Issy

Architectures et Protocoles des Réseaux

Gestion répartie de données - 1

Présentation du module Base de données spatio-temporelles

Le groupe CSS. La société CEGI intervient depuis la Martinique au cœur des systèmes de gestion de nos clients. La société existe depuis 1973!

La tête dans les nuages

Limitations of the Playstation 3 for High Performance Cluster Computing

Gestion de données dans les NES

Tivoli Endpoint Manager Introduction IBM Corporation

10. Base de données et Web. OlivierCuré

ERP Service Negoce. Pré-requis CEGID Business version sur Plate-forme Windows. Mise à jour Novembre 2009

Sauvegarde collaborative en pair-à-pair

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Application de K-means à la définition du nombre de VM optimal dans un cloud

L UNIVERSITÉ DE RENNES 1 DOCTEUR DE L UNIVERSITÉ DE RENNES 1. Mathieu Jan

Algorithmique et systèmes répartis

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

Prise en compte des ressources dans les composants logiciels parallèles

Fig. 1 Le détecteur de LHCb. En bas à gauche : schématiquement ; En bas à droite: «Event Display» développé au LAL.

Entreprises Solutions

Disponibilité et fiabilité des services et des systèmes

Outil d aide au choix Serveurs Lot 4 Marché Groupement de Recherche

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Faculté des Sciences Département d Informatique. Déploiement et configuration des intergiciels européens de grilles de calcul

Eric Bertrand 08/11/06 Maître de conférence 1

Tolérance aux Fautes des Grappes d Applications J2EE. Applications Internet dynamiques

et les Systèmes Multidimensionnels

Cours Bases de données

Le Network File System de Sun (NFS)

MapCenter : un modèle ouvert pour la découverte, la supervision et la visualisation des environnements distribués à large échelle

URL analysées. Informations générales. Nb. de liens sponsorisés Google

Cours Master 2, 2011

Grid Computing. Plan du cours. Plan. Composants d une Grille. Nouredine.Melab@lifl.fr. Besoin d intergiciels robustes

Point sur la virtualisation

Livre blanc Haute disponibilité sous Linux

Sauvegarde en ligne sécurisée SRXBackup 100 % Automatique. Disponible 24/7. Cryptage 256 bits.

Je dédie ce travail à tous ceux qui m ont encouragé et soutenu A Mon mari qui a partagé toutes mes douleurs A mes parents et mes sœurs Wassila et

Pré-requis installation

Plan du cours. Autres modèles pour les applications réparties Introduction. Mode de travail. Introduction

Moteur d idées pour véhicules spécifiques. Le Pôle de compétitivité Véhicules et Mobilités du grand Ouest

Projet ViSaGe : implémentation de l administration et du monitoring de ViSaGe (Virtualisation du Stockage appliquée aux Grilles informatiques)

Efficacité énergétique pour les particuliers : une solution pour le monitoring énergétique

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing

BIG DATA en Sciences et Industries de l Environnement

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Module BDR Master d Informatique (SAR)

Virtualisation & Sécurité

Proposition d une grille d analyse pour la composition de systèmes P2P adaptés aux contextes applicatifs

Transcription:

Plan du cours Les grilles informatiques : concepts et infrastructures La grille nationale Grid5000 Modèles de programmation et intergiciels pour le grilles Etude de cas : Globus, MPICH-G2 et GridRPC Taxinomie et applications des grilles Super-calcul virtuel ou virtual supercomputing Super-calcul virtuel Grille de super-calculateurs et/ou grappes de processeurs Objectif : résolution parallèle efficace d un problème de calcul intensif Exemples d applications Modélisation et simulation distribuée de systèmes complexes en cosmologie, prédiction du climat, Résolution de problèmes d optimisation de grande taille Partitionnement en tâches, Allocation/co-allocation de ressources, Déploiement, sécurité, régulation de charge, ordonnancement, Fork LSF EASYLL Condor etc. Courtier de ressources Intergiciels Globus, Condor-G Légion Unicore Service d information : localisation + sélection Metacomputing Directory Service N travaux à ordonnancer sur M machines Une machine ne peut être affectée à 2 travaux simultanément Les travaux doivent être exécutés dans le même ordre sur toutes les machines Objectif à minimiser Cmax : Makespan (Temps total d exécution) M 1 M 2 Résolution du problème du Flow-Shop 4 travaux sur 3 machines Une grille de plus de 2000 processeurs Noeud Grid5000 NR à Lille RENATER NR... 1718 123 Grid5000 IUT A 118 Réseau du campus de l Université de Lille1 FIL (Lille1) 170 M 3 Other sites of GRID 5000 1

Résultats expérimentaux Benchmark standard de Taillard : Ta056-50 travaux sur 20 machines Meilleure solution connue : 3681, Ruiz & Stutzle, 2004 Solution exacte : 3679, Mezmaz, Melab & Talbi, 2006 Temps d exécution : 25 jours 46 min Nb. moy. de proc. utilisés : 328 Efficacité parallèle : 97 % Temps CPU sur 1 processeur : 22 ans 185 jours 16 h Nb. max. de proc. exploités : 1 195 Bordeaux (88), Orsay (360), Sophia (190), Lille (98), Toulouse (112), Rennes (456), Univ. Lille1 (304) M. Mezmaz, N. Melab and E-G. Talbi. A Grid-enabled Branch and Bound Algorithm for Solving Challenging Combinatorial Optimization Problems. In Proc. of 21th IEEE Intl. Parallel and Distributed Processing Symposium, Long Beach, California, March 26th-30th, 2007. Calcul haut débit : Grilles de ressources sous-utilisées (1) Typiquement des grilles de PC d Internet Desktop Grids - Internet Principe et objectif Des milliers (voire millions) de PC en attente Récupération des cycles processeurs inutilisés (environ 47% en moyenne dans une entreprise*) via un économiseur d écran Exécution d un grand nombre de calculs indépendants Larry Ellison (CEO d Oracle) : «toute seconde non utilisée est perdue à jamais» Calcul haut débit : Grilles de ressources sous-utilisées (2) multi-paramètres Conception dirigée par la simulation (exploration de scénarios) : Simulation de crashs automobile, conception de médicaments, simulation de réseaux, Cryptoanalyse (RSA155, ), Analyse de données (parallélisme de données) SETI@Home, Gestion de la volatilité des ressources, sécurité (certification des résultats), passage à l échelle, * d après une enquête d Omni Consulting Group Exemple de SETI@Home (1) Exemple de SETI@Home (2) Telescope Arecibo Statistiques Utilisateurs Résultats reçus Temps CPU agrégé Total 5.054.812 1.459.999.962 1.988.719 années Autres projets @Home 10 à 50h de calcul/pc Recherche de signaux extra-terrestres 33,79 Teraflop/s (à comparer aux 12,3 Teraflop/s de l ordinateur le plus puissant au monde au LLNL!) Santé (Genome@Home, Folding@Home, Docking@GRID, FightAids@Home, xpulsar@home, evolution@home, Compute-against-cancer, D2OL), Cryptoanalyse (Distributed.net) Climat (Casino 21) 2

Traitement à la demande : Grilles de serveurs Client Grille de serveurs accessible à un grand nombre d utilisateurs Objectif Accès à une ressource/un service cher(e) pour un temps court Ressources : logiciel, BD, capteur spécialisé, instrument scientifique, etc. S1 Réponse (C) A, B, C Requête S2! Op(C, A, B) S2 S3 AGENT(S) Serveur Serveur Serveur Serveur Accès aux solveurs numériques, instrumentation médicale, Intergiciels Netsolve, NINF-G, DIET (implémentations de GridRPC) Passage à l échelle, ordonnancement de requêtes, découverte de ressources, S4 DIET à grande échelle sur Grid5000 Distributed Interactive Engineering Toolbox 7 sites : Lyon, Orsay, Rennes, Lille, Sophia-Antipolis, Toulouse, Bordeaux 8 grappes - 585 machines - 1170 CPUs Objectif Tester les fonctionnalités de DIET à une grande échelle Plus de 45.000 requêtes (de type multi. de matrices dgemm) soumises par 1120 clients à des serveurs distants La charge de l ordonnancement des requêtes est distribuée sur l ensemble des agents DIET Raphaël Bolze Traitement de données intensives : Grilles de données (1) Traitement de données intensives : Grilles de données (2) Grilles de stockage de gros volumes de données (plusieurs Tera voire Petaoctets) Bases de données, librairies numériques, Objectif Stockage et traitement (accès à et exploitation) efficaces de masses de données Analyse et extraction de connaissances à partir de gros volumes de données Données expérimentales : physique des hautes énergies, génomique, etc. Données collectées/historisées : données bancaires/financières/commerciales, données satellitaires, etc. Stockage et accès à de gros volumes de données de manière efficace Gestion efficace et cohérente de réplicas et catalogues 3

Application en physique des particules Centre d Etudes et de Recherche Nucléaire Point de collision Construire le plus puissant accélérateur de particules Données générées par le LHC en 1 an 40 millions de collisions/sec Plus d 1Mo de données par collision 10 10 collisions enregistrées/an > 10 Po (10 milliards de Mo) /an de données ~ 20 millions de CD!!! Concorde (15 Km) Ballon (30 Km) Pile de CD avec 1 an de données du LHC (~ 20 Km) Injection de hadrons (protons) Mont-Blanc (4.8 Km) Prouver l existence de particules sous-jacentes (bosons de Higgs) Où les expériences vont-elles stocker ces données? Traitement des données requiert une puissance de calcul équivalente à 100 000 processeurs les plus récents Puissance de calcul et capacité de stockage disponibles au CERN Réseau haut débit, plus de 1000 PCs bi-processeurs, plus d 1 Petaoctets de données sur disques et bandes Où les expériences vont-elles trouver la puissance de calcul nécessaire? Loin d être suffisant! Solution au manque de ressources : la Grille En Europe: 267 instituts 4603 utilisateurs Ailleurs dans le monde: 208 instituts 1632 utilisateurs 4

Grille collaborative Objectif Permettre des interactions humain-humain performantes structurées autour d un espace virtuel partagé Conception (design) collaborative, réalité virtuelle et réalité augmentée, éducation, Communication et visualisation en temps réel, Partage de contenu : Systèmes -to- (P2P) Très grand nombre de pairs volatiles (à la fois clients et serveurs) Intergiciels Napster, Gnutella, KaZaA, emule, Freenet, Pastry, etc. Découverte dynamique de ressources Tolérance aux pannes Sécurité (virus, certification des résultats) Mesure de performances dans un contexte hétérogène et volatile Stockage et partage P2P hybride Entre le client/serveur et le P2P Accès à des données via un site unique contenant un index Stockage de données Partage des données Données «inaltérables» Copies multiples sans aucun contrôle Limites de l approche Plutôt du client/serveur que réellement du P2P Serveur «vulnérable» par les tribunaux ou par d autres Utilisateur A Napster (Client + Serveur) Serveur Napster Association musique-@ip,n port Utilisateur B Napster (Client + Serveur) Stockage et partage P2P pur Architecture purement décentralisée Utilisée par Gnutella, les réseaux FastTracks, Plus difficile à réaliser mais plus intéressante car plus robuste et plus distribuée Beaucoup moins vulnérable B A C D A envoie une requête vers B, C et D B,C et D envoient la requête vers la couche suivante d ordinateurs connectés Introduction au Grid Evolution des systèmes distribués vers les grilles Tentative de définition Différentes incarnations/applications du Grid Le Grid en entreprise Une fois le fichier localisé, une réponse est envoyée à A, qui ensuite initie le téléchargement 5

Quelques besoins (1) Quelques besoins (2) Mutualisation et partage de ressources au sein d une même filiale d entreprise entre filiales d une même entreprise, avec d autres partenaires, sous-traitants et clients pour améliorer la productivité, contrôler les coûts et offrir une qualité de service optimale Conception et développement coopératifs impliquant des équipes géographiquement réparties Exemple : EADS (conception d un air bus) Calcul intensif Simulation très fine de réseau électrique (EDF), d un crash de voiture (Peugeot) ou d un avion en plein vol (EADS), Stockage et traitement intensifs de données Données météo (Meteo France), collisions de protons (CERN, DataGrid), banques, centres commerciaux, Etc. Composants d une grille Entreprises intéressées (1) Applications Fournisseurs de ressources (et réseaux) entreprises (ex : CGG) possédant un grand nombre de ressources peu utilisées souci de rentabilité Intergiciels Ressources Fournisseurs de services «permanents» : éditeurs de logiciels (ex : SUN Sun Grid Engine) «ponctuels» en utilisant les technologies ASP (service à la demande) de conseil, développement, maintenance, migration, etc. (ex : ATOS) Réseaux CGG : Compagnie Générale de Géophysique (appli. sismologiques, ) Entreprises intéressées (2) Profils/débouchés en Grid Demandeurs d applications pour les grilles entreprises ayant besoin d un grand nombre de ressources (ex : EDF, EADS, ) amélioration de la performance des applications pour rester compétitif besoin de migration des applications («gridification») pour les adapter aux grilles besoin de mise en grille de ressources Conception, déploiement et administration d infrastructure de grille Exploitation (gestion et évolution) de grilles Adaptation, développement et installation de middlewares Conception, développement et «gridification» d applications Conseil - Etude d opportunité, expression des besoins, cahier des charges Maîtrise d œuvre et assistance à la maîtrise d œuvre 6