Le projet Prodiguer. (IPSL Climate Modeling Center) S.Denvil, F.Corsini, JL.Dufresne, M.Morgan, G.Levavasseur, J.Raciazek, K.Ramage, P.Weill (IPSL) S.Sénési, J.Richon, E.Gerbier (CNRM/Météo-France) G.Wiber, F.Valley (TGCC) A.Ansari (IDRIS) ESGF et al.
PRODIGUER Prodiguer s'inspire du verbe français signifiant donner généreusement, avec profusion (Synonymes: dispenser, distribuer, donner, regorger, répandre). Conçu peu après la sortie du 4ème rapport du GIEC en 2007. Financé sur projets depuis 2009 (GIS, FP7, ANR G8).
PRODIGUER Relever le défi de masse de données imposé par CMIP5, et préparer l'avenir. Ces 2 axes stratégiques ont été définis en 2008 : «L'exercice imposé par CMIP5 donne l occasion à l IPSL d intégrer une infrastructure mondiale de gestion de données climatique et de se préparer à l avenir en acquérant la maîtrise des technologies de grilles de données qui seront nécessaires lors du passage à l échelle du calcul pétaflopique.» «En interne, l'ipsl via une structure informatique multi-site reliant le serveur ClimServ (site IPSL de Palaiseau) au serveur Ciclad (site IPSL de l'upmc) pourra épauler cette plateforme dédiée à la recherche climatique en explorant les possibilités offertes par les méso-centres de calcul dans le contexte de déploiement d un portail d accès et d analyse de données climatiques de toute nature.»
PRODIGUER Relever le défi de masse de données imposé par CMIP5, et préparer l'avenir. Ces 2 axes stratégiques ont été définis en 2008 : «L'exercice imposé par CMIP5 donne l occasion à l IPSL d intégrer une infrastructure mondiale de gestion de données climatique et de se préparer à l avenir en acquérant la maîtrise des technologies de grilles de données qui seront nécessaires lors du passage à l échelle du calcul pétaflopique.» «En interne, l'ipsl via une structure informatique multi-site reliant le serveur ClimServ (site IPSL de Palaiseau) au serveur Ciclad (site IPSL de l'upmc) pourra épauler cette plateforme dédiée à la recherche climatique en explorant les possibilités offertes par les méso-centres de calcul dans le contexte de déploiement d un portail d accès et d analyse de données climatiques de toute nature.»
Le modèle couplé "Système Terre" de l'ipsl
Évolution CMIP3 CMIP5 Évolution du stockage en 6 ans (de CMIP3 à CMIP5) : en moyenne x30 Plus de variables, fréquence plus élevée Plus de type d expériences Simulations d ensemble Plusieurs versions de modèle CMIP3 : 35 To CNRM-CERFACS IPSL CMIP3: distribution des données via 1 serveur (PCMDI) CMIP5: distribution répartie des données 45 modèles du système climatique 1.5 Po de données actuellement 3 Po envisagés d'ici 2 ans
Perspectives CMIP à 10 ans Year Power factor Npp Resolution [km] Number of mesh points [millions] Ensemble size Number of variables Interval of 3-dimensional output (hours) Years simulated Storage density Distributed Archive Size (Pb) CMIP5 2012 1 200 100 3,2 120 800 6 90000 0,00002 3,19 CMIP6 2017 30 357 56 18,1 214 1068 4 120170 0,00002 86,05 CMIP7 2022 1000 647 31 108,4 388 1439 3 161898 0,00002 2260,20
Mise à disposition distribué des données The Earth System Grid Federation (ESGF) is a multi-agency, international collaboration of people and institutions working together to build an open source software infrastructure for the management and analysis of Earth Science data on a global scale Software development and project management: ANL, ANU, BADC, CMCC, DKRZ, ESRL, GFDL, GSFC, JPL, IPSL, ORNL, LLNL (lead), PMEL, Operations: tens of data centers across Asia, Australia, Europe and North America
Intégration au réseau ESGF PRODIGUER, le niveau national. Coordination au niveau national IPSL, CNRM-CERFACS, TGCC, IDRIS Accompagner la communauté IS-ENES, le niveau Européen Coordination au niveau Européen Gros travail pour la mise en œuvre opérationnelle de la grille ESGF (la plus grande ressource distribué en étude du climat) Renforcement de l infrastructure ESGF, le niveau international. Coordination au niveau international. Lien avec une communauté active de développeurs 12
Mise à disposition distribuée des données
System Architecture ESGF is a system of distributed and federated Nodes that interact dynamically through a Peer-To-Peer (P2P) paradigm Distributed: data and metadata are published, stored and served from multiple centers ( Nodes ) Federated: Nodes interoperate because of the adoption of common services, protocols and APIs, and establishment of mutual trust relationships Dynamic: Nodes can join/leave the federation dynamically - global data and services will change accordingly A client (browser or program) can start from any Node in the federation and discover, download and analyze data from multiple locations as if they were stored in a single central archive.
Software Stack Internally, each ESGF Node is composed of services and applications that collectively enable metadata discovery, data access, and user management. Software components are grouped into 4 areas of functionality (aka flavors ): Data Node : secure data publication and access Index Node : metadata indexing and searching (w/ Solr) web portal UI to drive human interaction Identity Provider : user authentication and group membership Compute Node : analysis and visualization Nodes flavors can be installed in various combinations depending on site needs, or to achieve higher performance and scalability Open Source with BSD License Source code: http://esgf.org/gitweb https://github.com/esgf Documentation: https://esgf.org/wiki
Search Service Purpose: to make data holdings discoverable and accessible by clients by indexing & searching the associated metadata Highlights: Real-time global distributed search Simple RESTful API Implementation: Apache Solr Popular open source search engine Powerful text search based on Lucene Facets (a.k.a. categories) search High performance, proven scalability Flat (key, values) pair model ESGF Search Architecture Metadata harvested into master Solr Metadata replicated to slave Solr Search clients use REST API to query slave Solr Slave Solr distributes query to other slave Solrs to return federation-wide results
Security Infrastructure Purpose: enable access to distributed data resources by implementing local authentication and authorization policies Federated security services: Single-sign-on: users register at a site, authenticate at any other site OpenID for browsers X509 certificates for desktop clients Distributed access control Resources are controlled by local policies XML registry tracks security services ESGF Security Highlights Based on standards: OpenID, SAML, SSL, X509 endpoints User attributes are propagated as Language neutral (Java, Python implementations) digital SAML statements Non-intrusive: filters and libraries Requires digital trust relationships among Nodes
PRODIGUER Relever le défi de masse de données imposé par CMIP5, et préparer l'avenir. Ces 2 axes stratégiques ont été définis en 2008 : «L'exercice imposé par CMIP5 donne l occasion à l IPSL d intégrer une infrastructure mondiale de gestion de données climatique et de se préparer à l avenir en acquérant la maîtrise des technologies de grilles de données qui seront nécessaires lors du passage à l échelle du calcul pétaflopique.» «En interne, l'ipsl via une structure informatique multi-site reliant le serveur ClimServ (site IPSL de Palaiseau) au serveur Ciclad (site IPSL de l'upmc) pourra épauler cette plateforme dédiée à la recherche climatique en explorant les possibilités offertes par les méso-centres de calcul dans le contexte de déploiement d un portail d accès et d analyse de données climatiques de toute nature.»
J'ai une idée d'analyse... Long is the road... J'ai mon analyse
Mise à disposition et analyse des données Accès (moyenne sur 1 an) 30 To/mois 30 000 fichiers/mois centaines «d utilisateurs» CICLAD PRODIGUER Cluster calcul Interface ESGF disques disques Plusieurs dizaines d utilisateurs IPSL analysent les données CMIP5 250 To IPSL-CM5 150 To autres modèles Réalisation actuelle Distribution de l ensemble des données modèles IPSL-CM5 Téléchargement de résultats CMIP5 des autres modèles Analyse multi modèle CMIP5 Documentation des modèles CMIP5 Comment «suivre» une archive complexe (millions de fichiers) et volumineuse (~2 Po répartie) telle que CMIP5?
IPSL NOAA - ESGF M.Morgan, S.Denvil, E.Guilyardy
Une simulation climatique http://earthsystemcog.org/projects/es-doc-models/ Why What How Experiment Simulation Model Input: Coupling Output: Data 1..* Requirement 0..* Conformance Software Component Name Properties Description Coupling Framework 0..1 Parent 0..* Child
PRODIGUER ES-Doc est un projet international développant des applications basées sur le Common Information Model (CIM) définit au cours du projet FP7 METAFOR. CIM : modèle conceptuel qui utilise des métadonnées pour décrire les modèles du système terrestre et leurs simulations, utilisé lors de CMIP5 et est actuellement exploité par une variété de projets internationaux. Prodiguer est leader dans ES-Doc et a pris en charge le développement de l'écosystème logicielle permettant d'offrir à la communauté la documentation détaillée des modèles et des simulations présents dans l'archive CMIP5.
ES-DOC Earth Science Documentation OBJECTIVE Creation, exploitation & dissemination of standards (e.g. CIM) based earth system modelling metadata FUNDING G8 EX-ARCH, FP7 IS-ENES, NOAA HISTORY 04 / 2012 Metafor WP4 evolution WHO EU - IPSL, BADC, DKRZ US - NOAA, NCAR, PCMDI HOW Development of standards based open source tools and web services LICENSING GPL / CeCILL
ES-DOC Target User Community Modellers Scientists Students CIM Impacts Community Politicians Media Public
ES-DOC Target Documentation Types Models Experiments Simulations CIM Grids Data Ensembles Quality
ES-DOC Target Technical Challenges Versions Encodings Languages (human) CIM Languages (programming) Representations Formats Devices
ES-DOC Meta-Programming Framework (esdoc-py-mp) Problem 1 CIM Schema Problem 2 CIM XML Encoding Solution Meta-Programming Framework Result Decoupled and agile in relation to CIM schemas, encodings and language bindings.
ES-DOC API - Web Service Create PUBLISH Retrieve Update Delete ID / version Type / name SEARCH Dataset id File id DRS COMPARE C1 = Model component properties
ES-DOC Tools - Document Viewer Integration @ 01/02/2013 Metafor CMIP5 Questionnaire ESGF-P2P Node Front End DyCore 2012 Portal IPSL Prodiguer Portal Technology Javascript / HTML AJAX (API) JSON
ES-DOC Tools - Comparator C1 - Model Component Properties Step 1 Select Models Step 2 Select Components Step 3 Selection Properties Step 4 View Report Step 5 Export to CSV
ES-DOC Futures Controlled Vocabularies Comparators Automated Documentation EXA-Scale
Prodiguer portal CMIP5 subset query/access tools IPSL - METAFOR IS-ENES - ESGF M.Morgan, S.Denvil Contact Momipsl (AT) ipsl.jussieu.fr
https://prodiguer.ipsl.fr/
Dashboard and data access
Start
Wait...
Search
Select
Tick it
Choose
copy/paste
Single Data Set on the URL http://cirrus.handwx.com:8080/las/getui.do?catid=cmip5.output1.noaa-gfdl.gfdl-cm3.amip.mon.atmos.amon.r3i1p1.clt.20110601.aggregation.1&au
Single Data Set on the URL
Search for new data sets
Search for new data sets
New data set has been added to the LAS session
Change to the observational data set
Change to 2-plot mode
Choose the GFDL model output and set the date
Difference mode shows a direct comparison of the model data to observations
Synchro-Data ESGF data access tools IPSL - ESGF - EGI J.Raciazek, S.Denvil Contact Jripsl (AT) ipsl.jussieu.fr
Overview Search for data in ESGF File selection using DRS facets (realm, freq, experiment, ensemble, variable). So called template. Incremental and fast/parallel search (keep track of what have already been downloaded) Metadata analysis Compute total files size Check if all variables get a match in ESGF Transfer files from ESGF to local filesystem Transparent handling of x509 Certificate based security HTTP Parallel download
Template example experiments="historical amip decadal2000" ensembles="r1i1p1" #ensembles="all" variables[atmos][mon]="tas" variables[land][fx]="sftgif" variables[seaice][mon]="sic evap nshrice" variables[ocnbgchem][mon]="dissic fbddtalk" variables[atmos][mon]="ta hur clcalipso parasolrefl"
Aggregation node CMIP5 subset aggregated files IPSL GIS Climat - IS-ENES S.Denvil Contact sdipsl (AT) ipsl.jussieu.fr
Thredds
Dataset
Real file
Virtual File Aggregation
All in one
Aggrégation temporelle : préparatif sur CICLAD #-----------------------------------------------------# NETCDF4 #-----------------------------------------------------export PATH=/opt/netcdf4/gfortran/bin:${PATH} export LD_LIBRARY_PATH=/opt/netcdf4/gfortran/lib:${LD_LIBRARY_PATH} export NETCDF_INC_DIR=/opt/netcdf4/gfortran/include export NETCDF_LIB_DIR=/opt/netcdf4/gfortran/lib #-----------------------------------------------------# CDO with opendap #-----------------------------------------------------export PATH=/home/laliberte/local/cdo/bin:${PATH}
#!/bin/ksh Moyenne d'ensemble: #set -vx experiment=historical which cdo set -A liste_file for EnsembleMember in 1 2 3 4 5 6 7 8 9 10 ; do # test d'existence de l'aggregation wget --spider http://vesg3.ipsl.fr/thredds/dodsc/cmip5.merge.cnrm-cerfacs.cnrm-cm5.${experiment}.mon.atmos.amon.r$ {EnsembleMember}i1p1.tas.1.aggregation.html > /dev/null 2>&1 rc=$? if [ ${rc} -eq 0 ] ; then # aggregation présente echo success liste_file[${#liste_file[*]}]=http://vesg3.ipsl.fr/thredds/dodsc/cmip5.merge.cnrm-cerfacs.cnrm-cm5.$ {experiment}.mon.atmos.amon.r${ensemblemember}i1p1.tas.1.aggregation else # aggregation absente echo failure fi done echo cdo ensmean "${liste_file[*]}" ensmean_cnrm-cerfacs.cnrm-cm5.${experiment}.tas.nc cdo ensmean "${liste_file[*]}" ensmean_cnrm-cerfacs.cnrm-cm5.${experiment}.tas.nc
Satellite observations for climate model evaluation - Obs4MIPs H. Chepfer (IPSL/LMD) Contributors: P. Glecker (PCMDI), D. Waliser (NASA/JPL) S. Bony, JL. Dufresne, G. Cesana, M. Reverdy (LMD/IPSL) S. Denvil, K. Ramage (IPSL) S. Planton (MeteoFrance), T. Phulpin (CNES)
Many Acknowledgements JPL/NASA, PCMDI, IPSL, CNES CFMIP-Obs Working group: S. Bony (IPSL/LMD), G. Cesana (IPSL/LMD), H. Chepfer (IPSL/LMD), M. Chiriaco (IPSL/LATMOS), J-L. Dufresne (IPSL/LMD), S. Klein (LLNL), N. Loeb (NASA/LarC), R. Marchand (Univ. Seattle), R. Pincus (University of Colorado), K. Ramage (IPSL), M. Reverdy (IPSL/LMD), D. Tanré (LOA), M. Webb (UKMO), D. Winker (NASA/LarC), S. Xie (LLNL), Y. Zhang (LLNL) NASA obs4mips Working Group: J. Bates (NOAA), K. Bowman, A. da Silva, P. Gleckler (PCMDI), FJLanderer, C. Peters-Lidard, N. Loeb, R. Nemani, S. Platnick, D. Waliser (chair), T. Lee, Robert Ferraro WCRP encouragement/support via WGCM/CFMIP, Significant IT support via ESGF developments and IS-ENES, Climserv/IPSL Many data providers CNES, NASA, NOAA, ESA
Model and Observation Overlap For what quantities are these comparisons viable? Observations Models Taylor et al. 2008 ~120 ocean ~60 land ~260 atmos ~60 cryosphere Exemple: Current NASA Missions ~14 Total Missions Flown ~ 60 Many with multiple instruments Most with multiple products (e.g. 10-100s) Many cases with the same products Over 500 Variables in (monthly) CMIP Database Over 1000 satellitederived quantities
Three independent initiatives 1) a US effort initiated and supported by NASA/JPL since about 2008 : Obs4MIPs_historical 2) a EU effort initiated by ESA since about 2010: Climate Change initiative (CMUG-CCI) 3) a joint EU & US effort initiated and supported by IPSL since about 2008: CFMIP-Obs (focus on Clouds) Pursuing a similar objective: Facilitate the use of satellite data for climate model evaluation Using a similar approach: Identify target quantities and make them available and easy to use by non remote sensing experts To be merged together: since 2012, Obs4MIPs_historical and CFMIP-Obs are available on the ESG under the name «Obs4MIPs» => Today EU contributes to Obs4MIPs with CFMIP-Obs through the IPSL node
1) NASA-related Datasets included in Obs4MIPs Datasets are Gridded Monthly Averages Unless otherwise noted Separate files containing Nobs & StdErr for each grid cell are available CMIP Protocol Variables ta - Atm Temp Data Source AIRS ( 300 hpa) MLS ( < 300 hpa) AIRS ( 300 hpa) MLS ( < 300 hpa) TES AMSR-E Time Period 9/02 8/04 9/02 8/04 2004 6/02 - Comments AIRS +MLS needed to cover all pressure levels rlut, rlutcs, rsdt, rsut, rsutcs TOA outgoing LW & SW Radiation, Incident SW Radiation CERES 3/00 - clt Total Cloud Fraction zos - Sea Surface Height Above Geoid MODIS TOPEX/JASON series 2/00 10/92 - AVISO Product pr - Total precipitation TRMM 1997 - hus - Specific Humidity tro3 Mole Fraction of Ozone tos - Sea Surface Temperature sfcwind, uas, vas - Surface (10m) zonal QuikSCAT wind Land Surface products (TBD) MODIS Undergoing QC checks SST science team recommends multiple products Monthly Ave + 3 hourly products 1999 2009 Oceans only. No land products. 2/00 Perhaps 2 CMIP variables, TBD Orange datasets are still in process
2a) ESA-related Datasets that could be included in Obs4MIPs in the future ESA Climate Change Initiative (CCI) has selected 13 Essential Climate Variables (ECV)
2b) ESA-related Datasets that could be included in Obs4MIPs in the future Proposed time line for ESA Essential Climate Variables (ECV) ESA Climate Change Initiative (CCI))
3a) CFMIP-Obs Datasets included in Obs4MIPs On the ESGF and also on http://climserv.ipsl.polytechnique.fr/cfmip-obs/
Satellite Observations for CMIP5 Simulations Data Available Now on Earth System Grid Federation obs4mips Project NASA and IPSL Portal
Some Basic Tenets of the Obs4MIPs Activity Use the CMIP5 simulation protocol as guideline for deciding which observations to select. Initial Target was monthly averaged (ocean, atmosphere) products on 1 x 1 degree grid Convert Observations to CMIP5 model output format Standardised CMOR output, NetCDF files, CF Convention Metadata, CMIP standard pressure levels, etc. Not a new product. Independent QC check before release. Includes a 6-8 page Technical Note describing strengths/weaknesses, uncertainties, caveats regarding comparisons with models. (at graduate student level) Observers Modelers Available via ESGF (analogous to CMIP5) Analysis Community Obs4MIPs to report annually to WDAC/WCRP and WMAC/WCRP
Merci de votre attention 26/02/13 73