Projet EPINES: production, distribution et analyse des résultats de simulations climatiques

Documents pareils
PRODIGUER un noeud français de distribution de données GIEC/IPCC

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Prospective du Pôle de Modélisation de l'ipsl Outils de distribution des données, diagnostic, évaluation, visualisation.

Présentation de la Grille EGEE

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Développement logiciel pour le Cloud (TLC)

Cloud Computing. Introduction. ! Explosion du nombre et du volume de données

Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Forthcoming Database

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

Editing and managing Systems engineering processes at Snecma

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

Architecture de la grille

3 ème journée des utilisateurs de l archivage

accompagner votre transformation IT vers le Cloud de confiance

NIMBUS TRAINING. Administration de Citrix NetScaler 10. Déscription : Objectifs. Publics. Durée. Pré-requis. Programme de cette formation

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

EXALOGIC ELASTIC CLOUD MANAGEMENT

FOURNIR UN SERVICE DE BASE DE DONNÉES FLEXIBLE. Database as a Service (DBaaS)

CONTEC CO., LTD. Novembre 2010

ORACLE PAAS CLOUD MANAGEMENT

La Forge INRIA : bilan et perspectives. Hervé MATHIEU - 11 mai 2010

AGROBASE : un système de gestion de données expérimentales

Séminaire Partenaires Esri France 7-8 juin Paris Cloud Computing Stratégie Esri

Le Cloud: Mythe ou Réalité?

Extension fonctionnelle d un CRM. CRM étendu >> Conférence-débat 15 April Club Management des Systèmes d Information de l'iae de Paris Alumni

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

VERS L EXCELLENCE DANS LA FORMATION PROGRAMME D APPUI A LA QUALITE AMELIORATION SUPERIEUR DE LA QUALITE DE L ENSEIGNEMENT TITRE DU PROJET

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

CEPF FINAL PROJECT COMPLETION REPORT

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Cedric Dumoulin (C) The Java EE 7 Tutorial

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

L offre Stockage et serveurs System x / BladeCenter F.Libier, Business Partner Technical Manager

+ = OpenStack Presentation. Raphaël Ferreira - enovance. Credits : Thanks to the OpenStack Guys 1

Containers : Outils magiques pour les Devops? OpenNebula et son écosystème pour une infrastructure cloud agile

Gouvernance IT : par où commencer? Hubert Lalanne DE, Chief Architect for Industries IBM Software France

NBS System et Zend Technologies Découvrez la scalabilité sans limite pour vos applications PHP grâce au Zend Cloud

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

NOM ENTREPRISE. Document : Plan Qualité Spécifique du Projet / Project Specific Quality Plan

SOA Open Source Intégration des services et business process dans une architecture SOA Open Source. Bruno Georges JBoss, a Division of Red Hat

La stratégie Cloud de Microsoft

La rencontre du Big Data et du Cloud

StratusLab : Le projet et sa distribution cloud

Une solution de stockage VDI unifiée, flexible et disponible pour vos utilisateurs

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Estimated SMB instances PC (Physical and Virtual) 125,000 Total instances: SMB 1-24 PC. 392,000 Total instances: SMB PC

Impacts de la numérisation. 20 ans INRIA Grenoble 20 Novembre 2012

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

PLM 2.0 : Mise à niveau et introduction à l'offre version 6 de Dassault systèmes

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

EMC Forum EMC ViPR et ECS : présentation des services software-defined

Consolidation. Grid Infrastructure avec la 11gR2

Conserver les Big Data, source de valeur pour demain

Architecture client riche Evolution ou révolution? Thomas Coustenoble IBM Lotus Market Manager

Du Datacenter au Cloud Quels challenges? Quelles solutions? Christophe Dubos Architecte Microsoft

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

1 ère Partie Stratégie et Directions Stockage IBM

Plan. Department of Informatics

HSCS 6.4 : mieux appréhender la gestion du stockage en environnement VMware et service de fichiers HNAS Laurent Bartoletti Product Marketing Manager

Orchestrer son cloud OpenStack avec Heat

GESTION DU CYCLE DE VIE. Albert Amar Avant-vente Middleware

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Le Cloud Computing et le SI : Offre et différentiateurs Microsoft

ISTIA INNOVATION. 62, Ave ND du Lac F Angers

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

BIG Data et R: opportunités et perspectives

Population responses to environmental forcing : approaches to model and monitor habitat characteristics

Fusion : l interopérabilité chez Oracle

ADMINISTRATION EXADATA

Le cloud computing au service des applications cartographiques à haute disponibilité

Cloud computing Architectures, services et risques

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

Génération de code binaire pour application multimedia : une approche au vol

Les journées SQL Server 2013

SensOrLabs. a protocol validation platform for the IoT. Dominique Barthel, Quentin Lampin IMT/OLPS/BIZZ/MIS Apr 7th 2014, ST, CEA, LIG

Les tendances, la sécurité, le BYOD et le ROI de la mobilité. July 12

LADIES IN MOBILITY. LIVE TWEET Innovative City

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

APX et VCE, Modèle d industrialisation de l intégration et du déploiement. Olivier BERNARD, VCE

Détection d'intrusions en environnement haute performance

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Monitoring des classes de neige des calottes polaires par Envisat

Revision of hen1317-5: Technical improvements

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

IPv6: from experimentation to services

Système de Stockage Sécurisé et Distribué

SHAREPOINT PORTAL SERVER 2013

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

POSITION DESCRIPTION DESCRIPTION DE TRAVAIL

CONSTRUISEZ VOTRE INFRASTRUCTURE BIG DATA

Java et les bases de données

Supervision et infrastructure - Accès aux applications JAVA. Document FAQ. Page: 1 / 9 Dernière mise à jour: 15/04/12 16:14

ez Publish Cloud Edition Présentation

La Poste choisit l'erp Open Source Compiere

Transcription:

Projet EPINES: production, distribution et analyse des résultats de simulations climatiques Projet IPSL-LMD-LSCE-INRIA Jean-Louis Dufresne LMD/IPSL, Sébastien Denvil IPSL, Gabriel Antoniu INRIA/IRISA, Yann Meurdesoif LSCE/IPSL, Thomas Dubos LMD/IPSL Colloque MASTODONS, 23 janvier 2014, IPGP, Paris

Le modèle couplé "Système Terre" de l'ipsl

Les simulations CMIP5 (Coupled Model Intercomparison Projet phase 5), préparation du IPCC AR5 (Intergovernmental Panel Climate Change, Assesment Report 5) Long terme (centennal) Évaluation Obs. Scénarios futurs Compréhension Analyse des forçages et des réponses Une soixantaine de type d'expériences, d une durée de qqs dizaines au millier d années Réalisation d ensembles de simulations Pour chaque modèle, plusieurs configurations Pour un institut, plusieurs modèles (3 pour l IPSL) Environ 900 variables de sorties, avec des fréquences de sorties de tri-horaires, quotidiens, mensuelles

A climate simulation http://earthsystemcog.org/projects/es-doc-models/ Why What How Experiment Simulation Model Input: Coupling Output: Data 1..* Requirement 0..* Conformance Software Component Name Properties Description Coupling Framework 0..1 Parent 0..* Child

Le contexte : le compte à rebours du rapport du GIECC/IPCC Fin 2009 : Automne 2010 : Simulations climatiques Fin 2010 : Distribution des résultats de simulations Fin 2010 --> Début 2012 : Publications scientifiques Septembre 2013 : Publication du rapport GIECC/IPCC AR5 (Assessment Report #5) Octobre 2013 : Préparation CMIP6!

Produire les données Écrire et stocker Archiver et distribuer Accéder aux données et suivre l évolution d une «archive mouvante» Analyser les données

Écriture parallèle, performante XIOS (XML-IO-SERVER) : deux objectifs principaux Performance L écriture des données ne doit pas impacter l exécution des modèles Utilisation d un ou plusieurs serveurs exclusivement dédiés au I/O. Transfert asynchrone des données des clients vers les serveurs. Écriture indépendante et asynchrone des données par chaque serveur. Utilisation des systèmes de fichiers parallèles via netcdf4/hdf5 Écritures simultanées de plusieurs processus dans un même fichier Flexibilité et souplesse Externalisation de la description des I/O dans un fichier XML Simplification de la gestion des I/O au niveau du code Modification de la définition des I/O sans recompiler

Écriture parallèle: XIOS Modèles: Longue phase de calcul Écriture d un gros volume le plus rapidement possible Serveurs d IO: Écriture en // Assurer le tampon pour ne pas ralentir le calcul Écritures avec des outils et des formats «standards» (performances non optimales)

Écriture parallèle: XIOS Distribution des données Coté serveur Les clients {0, 1, 2} envoient leur part de domaine aux serveurs {0, 1, 2}. Les clients {3, 4, 5} envoient leur part de domaine au serveur 2. La distribution des données coté serveur est équi-répartie suivant la seconde dimension. Un client peut communiquer avec plusieurs serveurs. Un serveur peut recevoir des données de plusieurs clients.

Écriture parallèle: XIOS Protocole de communication Coté serveur : buffer circulaire Arrivé d'un message => MPI_Iprobe. Réception : MPI_Irecv / MPI_Test. On reçoit en priorité les messages afin de libérer les buffers coté client. On traite les messages et effectue les écritures lorsque qu'il n'y a plus de requête en attente de réception. Lorsque les buffers sont pleins, on passe en mode bloquant : Traitement des messages pour libérer les buffers Ajout de serveur XIOS pour alléger la charge.

Cas test XIOS/NEMO 32 Serveurs XIOS (3%) Configuration GYRE 144 (4322x2882) pdt=180s, 720 pdt (36 h) NEMO : 1024 proc. MPI Temps par itération 64 Serveurs XIOS (6%) Sortie horaire Sans IO 246 Go écrit en 4 fichiers 62G Feb 25 04:36 BIG1h_st32_1h_grid_T.nc 28G Feb 25 04:37 BIG1h_st32_1h_grid_U.nc 26G Feb 25 04:31 BIG1h_st32_1h_grid_V.nc 130G Feb 25 04:35 BIG1h_st32_1h_grid_W.nc 128 Serveurs XIOS (12%)

Développement d'outil IO parallèle, performant, flexible Outil XIOS: 2012 Important travail de finalisation d une première version opérationnelle Implémentation dans le modèle océanique NEMO Tests et optimisations des performances «grandeur nature» Réalisation de simulations 8000 cœurs sans perte de performance due aux IO 2013 Implémentation dans les différentes composantes du modèle de l IPSL Post-traitement entre champs (opérations spatiales ou temporelles) Optimisation quand écriture dans un seul fichier Compression (i)de base ; [(ii) avec développement de plug-in] Interpolation spatiale des champs

Produire les données Écrire et stocker Archiver et distribuer Accéder aux données et suivre l évolution d une «archive mouvante» Analyser les données

Mise à disposition distribué des données The Earth System Grid Federation (ESGF) is a multi-agency, international collaboration of people and institutions working together to build an open source software infrastructure for the management and analysis of Earth Science data on a global scale Software development and project management: ANL, ANU, BADC, CMCC, DKRZ, ESRL, GFDL, GSFC, JPL, IPSL, ORNL, LLNL (lead), PMEL, Operations: tens of data centers across Asia, Australia, Europe and North America

System Architecture ESGF is a system of distributed and federated Nodes that interact dynamically through a Peer-To-Peer (P2P) paradigm Distributed: data and metadata are published, stored and served from multiple centers ( Nodes ) Federated: Nodes interoperate because of the adoption of common services, protocols and APIs, and establishment of mutual trust relationships Dynamic: Nodes can join/leave the federation dynamically - global data and services will change accordingly A client (browser or program) can start from any Node in the federation and discover, download and analyze data from multiple locations as if they were stored in a single central archive.

Software Stack Internally, each ESGF Node is composed of services and applications that collectively enable metadata discovery, data access, and user management. Software components are grouped into 4 areas of functionality (aka flavors ): Data Node : secure data publication and access Index Node : metadata indexing and searching (w/ Solr) web portal UI to drive human interaction Identity Provider : user authentication and group membership Compute Node : analysis and visualization Nodes flavors can be installed in various combinations depending on site needs, or to achieve higher performance and scalability Open Source with BSD License Source code: http://esgf.org/gitweb https://github.com/esgf Documentation: https://esgf.org/wiki

Mise à disposition distribuée des données Intégration au réseau ESGF, mise à disposition et utilisation des données: 2012 Déploiement de la version «peer-to-peer» de ESGF Gros travail pour la mise en œuvre opérationnelle de la grille ESGF (la plus grande ressource distribué en étude du climat) Développement d outil pour la synchronisation de données (maintenant à la disposition des utilisateurs) Accueil de nouveaux projets (modélisation et observations) Renforcement de l infrastructure (espace disque, virtualisation des serveurs) 2013 Accompagner l évolution de l ESGF: communauté très active de développeurs et utilisateurs Déploiement dans les centres de calcul nationaux (TGCC, IDRIS, CINES) Maintenir et suivre l évolution d une «archive évolutive» Renforcement de l infrastructure (espace disque, virtualisation des serveurs)

Produire les données Écrire et stocker Archiver et distribuer Accéder aux données et suivre l évolution d une «archive mouvante» Analyser les données

Mise à disposition et analyse des données Accès noeud IPSL (moyenne sur 3 ans) 30 To/mois 30 000 fichiers/mois centaines «d utilisateurs» CICLAD PRODIGUER Cluster calcul Interface ESGF disques disques Plusieurs dizaines d utilisateurs IPSL analysent les données CMIP5 450 To de résultats IPSL-CM5 et autres modèles CMIP5 à l'ipsl Distribution de la contribution IPSL Réplication des résultats des autres modèles Analyse multi modèle Documentation des modèles

BlobSeer: A Software Platform for Scalable, Distributed BLOB Management Designed and implemented by the KerData Team INRIA Rennes Bretagne Atlantique Started in 2008, 6 PhD theses (Gilles Kahn/SPECIF PhD Thesis Award in 2011) Main goal: optimized for concurrent accesses under heavy concurrency Three key ideas Decentralized metadata management Lock-free concurrent writes (enabled by versioning) - Write = create new version of the data Data and metadata patching rather than updating A back-end for higher-level data management systems Short term: highly scalable distributed file systems Middle term: storage for cloud services Our approach Design and implementation of distributed algorithms Experiments on the Grid 5000 grid/cloud testbed Validation with real apps on real platforms: Nimbus, Azure, OpenNebula clouds http://blobseer.gforge.inria.fr/ 21

Replication in BlobSeer Instrumentation with a monitoring system (MonALISA): track general information, individual BLOB related data Compute global state of the system Fine tune the replication level according to the detected patterns: Increase the replication factor of hot data Decrease Fine it for cold data grain: chunk or BLOB level Active Nodes Backup Nodes

Analyse et distribution des données Évolution du stockage en 6 ans (de CMIP3 à CMIP5) : en moyenne x30 Opérationnel depuis 2011 Des centaines d'utilisateurs chaque mois Des dizaines de To distribué chaque mois Un cumul de plus de 3000 utilisateurs et de 1 PétaOctet distribué depuis 2011 CMIP3 : 35 To IPSL CMIP3: distribution des données via 1 serveur (PCMDI) CMIP5: distribution répartie des données 60 modèles du système climatique 2 Po de données actuellement 3 Po envisagés d'ici 1 an

Perspectives : sur le fil!

ANR MN2013 CONVERGENCE T0 : management T1 : platform ensemble of tools different configurations different resolution set of simulations set of diagnostics assessment T2 : towards a high-resolution coupled model Improving coupled model parallelism in terms of computing and memory Managing efficiently input and restart files Integrating parallel interpolation mechanisms in XIOS Parallel component coupling T3 : runtime environments Process assignment Optimization, Load balancing Climate Simulations Supervision IPSL implementation T4 : Big Data management and analytics XIOS implemented within project models XIOS a bridge towards standardisation Data and metadata services Big Data Analytics GAME-CERFACS implementation T5 : CliMAF: a framework for climate models evaluation General driver and upstream user interface Services layer Visualization tools Evaluation and monitoring diagnostics

nb cœurs année/j Mh/siècle 3 320 110 0,0077 1 1280 20 0,15 1 5120 55 0,22 ½ 5120 10 1,2 ½ 11520 18 1,5 ½ 20480 28 1,8 ¼ 20480 5 10 ¼ 46080 8 14 Extrapolated Courtesy Thomas Dubos LMD/IPSL and Yann Meurdesoif LSCE/IPSL degrés Measured Performance de la prochaine génération de modèle

«Hype.vs. Reality» Adoption d'une technologie Semantic Web OpenSearch Web Map Service OPeNDAP NetCDF CF1 GCMD DIF ESGF Web HDF-EOS Coverage ECHO Services Catalog Services for the Web Technology Peak of Inflated Trough of Slope of Plateau of Trigger Expectations Disillusionment Enlightenment Productivity

Perspectives à 2 ans du projet Nouveaux partenaires (centre de calcul?) Évaluer l'opportunité de fusionner avec un autre projet MASTODONS I/O parallèle, flexible, performant (voulant dire ici : ne ralentit pas le calcul) : approches IPSL et INRIA différentes. Un workshop pour faire émerger un terrain collaboratif fort. Versionnement grain fin d'une archive tel que CMIP5 (complexe: millions de fichiers et volumineuse : ~2 Po répartie) stratégie de réplication. ESGF étant l'infrastructure de distribution de notre communauté collaboration IPSL-INRIA clair sur les aspects de réplication. Question sur modularité de la replication dans Blobseer. Ressource disponible pour évaluer BlobSeer sur CMIP5

Objectifs scientifiques pour 2014 Persistent IDentifier (PID) pour suivre l'archive CMIP5. Définir, spécifier. Faisabilité. Module de réplication BlobSeer appliquée à ESGF. Définir, spécifier. Faisabilité. Workshop autour des I/O HPC. Identifier une communauté? Utilisation du budget alloué au projet en 2012/2013 Renforcement de l infrastructure en début de projet: achat stockage + virtualisation Missions workshops spécialisés: RDA (Research Data Alliance) et ESGF (Earth System Grid Federation).

Merci de votre attention