PRODIGUER un noeud français de distribution de données GIEC/IPCC Sébastien Denvil et Olivier Marti Pôle de Modélisation, IPSL Prodiguer - Mercredi 18 juin 2008 1
Le contexte : le compte à rebours du rapport GIECC/IPCC Fin 2009 Automne 2010 : Simulations climatiques Fin 2010? Distribution des résultats de simulations Fin 2010 Début 2012 : Publications scientifiques Début 2013 : Publication du rapport GIECC/IPCC AR5 (Assessment Report #5) Octobre 2013 : Prix Nobel Prodiguer - Mercredi 18 juin 2008 2
Plan de l exposé Pourquoi Prodiguer : PROjet de Diffusion Internationale des données du GIEC AR5, Une plateforme pour la Recherche Les grilles de données orientées «Climat» La voie Européenne du CMCC (Centre Euro Méditerranéen pour le Changement Climatique, Italie) La voie Américaine ESG (Earth System grid) La voie Européenne C3 Grid (Communauty Climat Collaborative Grid, Allemagne) Prodiguer - Mercredi 18 juin 2008 3
Ordres de grandeurs Modèles climatiques. Résolutions couramment utilisées actuellement : Atmosphère 2.5 (280 Km) : 144 x 96 x 19 Océan 2 (220 Km) : 180 x 149 x 31 Atm 2.5 - Océan 2 : 7.5 GB/an, 300 ans 2,5 TB Atm 1.0 - Océan 2 : 25 GB/an, 300 ans 7,5 TB Atm 0.5 - Océan 0,5 : 150 GB/an, 30 ans 5 TB Prodiguer - Mercredi 18 juin 2008 4
Impact d une hausse de capacité Augmentation du nombre de simulations, développements du modèle, simulations d ensemble, régionalisation Augmentation d un facteur 10 Atm 2.5 - Océan 2 : 2,5 TB 25 TB Atm 1.0 - Océan 2 : 7,5 TB 75 TB Atm 0.5 - Océan 0.5 : 5 TB 50 TB Prodiguer - Mercredi 18 juin 2008 5
Impact d une hausse de capacité Résolution spatiale: 280 Km -> 110 Km -> 50 Km Augmentation d un facteur ~ 10-20 Résolution temporelle: cycle diurne, «sortie 3 heures» Augmentation d un facteur ~ 4 LMDz 0.5 (50 Km) Prodiguer - Mercredi 18 juin 2008 6
Impact des avancées majeures Qualité: Amélioration de la couche limite atmosphérique, nuages, convection, physique océanique, nouveau modèle de glace, amélioration du modèle de surface, hydrologie Augmentation d un facteur 2-3 Complexité: Chimie atmosphérique (sulfates, ozone ), Biogéochimie (cycle du carbone, dynamique des écosystèmes) Augmentation d un facteur 10+ Prodiguer - Mercredi 18 juin 2008 7
L exercice GIECC : quelques chiffres AR 4 (Assessment Report #4), 2007 35 Terabytes 77,000 fichiers Quantité de données distribuée : 303 Terabytes 1 098 000 fichiers. Les groupes ont généré et exploités probablement 10x plus de données AR 5 (Assessment Report #4), ~ 2013 Un facteur 10 à 20 Une volonté de distribué une plus grande proportion des données La base de données doit être distribuée Prodiguer - Mercredi 18 juin 2008 8
Gestion actuelle des données Principalement centralisée, stocké sur un san Accès Dods pour les centres de calcul (http) Système basique de récupération de données Accès à des données brutes Sécurité/Authentification/Restriction d accès aux données : pas un problème Pas de post-processing à la demande Pas d intégration des metadata Ne supporte pas les requêtes d interrogation de haut niveau Prodiguer - Mercredi 18 juin 2008 9
Gestion des données par Prodiguer Bouger les données un minimum, les garder proche des centres de calcul d origine quand c est possible Protocole d accès aux données, liens forts avec les centres de calcul Quand on doit bouger les données, le faire vite et avec un minimum d intervention humaine Management des ressources de stockage, réseaux rapides Garder une trace de ce que l on a, particulièrement de ce qui est sur deep storage Metadata et Catalogues de données Exploiter une fédération de sites Intergiciel de grille Grille de données Prodiguer - Mercredi 18 juin 2008 10
Cas simple d intercomparison Scénario Courant Parcourir la base de données PCMDI centralisée Télécharger les données Organiser les données en local Regriller les données en local Faire les diagnostics Produire les résultats Scénario Futur Rechercher, Interroger, Parcourir des données distribuées Site distant Demande de données Regrillages Diagnostics Le portail renvoie le résultat Prodiguer - Mercredi 18 juin 2008 11
CMCC : l exemple venu d Italie Le Paradigme de la grille : Grille de Données & Calculs Centres associés Partenaires Environnement du CMCC : un incubateur de la technologie proposée Interdisciplinaire : Climatologue et Computer Scientists FEEM INGV CVR Points Clés : Transparence et Interopérabilité Expertise et savoir faire : Grille & Computing Science (Unile) Middleware : Globus, Unicore, glite, etc. Gestion des Metadata : Grid Metadata Handling System (GMHS) UNISS UNITUS CIRA SANNIO CRMPA IAMB UNILE SPACI Prodiguer - Mercredi 18 juin 2008 12
Le Earth System Grid Objectif ESG Supporter l infrastructure nécessaire aux communautés climats nationales et internationales. ESG procure une technologie cruciale pour accéder de manière sécurisé, monitorer, cataloguer, transporter, distribuer les données dans la grille d aujourd hui. Worldwide ESG user base Portail CMIP3 IPCC AR4 ESG 28 TB de données au PCMDI 68,400 fichiers Expériences coordonnée par l IPCC Données de modèles provenant de 11 pays. 818 utilisateurs enregistrés Downloads 123 TB 543,500 fichiers 300 GB/jour (moyenne) GB/day 600 500 400 300 200 100 Daily IPCC Downloads (10/12/06) 7-Day Averag 0 11/1/04 12/1/04 1/1/05 2/1/05 3/1/05 4/1/05 5/1/05 6/1/05 7/1/05 8/1/05 9/1/05 10/1/05 11/1/05 12/1/05 1/1/06 2/1/06 Nov 2004 Oct 2006 3/1/06 4/1/06 5/1/06 6/1/06 7/1/06 8/1/06 9/1/06 10/1/06 200 publications scientifiques basées sur l analyse des données CMIP3 IPCC AR4 Prodiguer - Mercredi 18 juin 2008 13
Le plan de route ESG vers l AR5 Evolution d ESG 2006 Base de données centrales Archive centralisée de données traitées Agrégation temporelle Distribution par transfert de fichiers Pas d implication dans l analyse Portail orienté caddy de supermarché Connexion d ESG au poste de travail orienté analyse (i.e., CDAT and CDAT-LAS) Début 2009 Test grandeur nature Metadata fédérées Portails fédérés Interface utilisateur unifiée Quick look server-side analyse avec CDAT Indépendant de la localisation Partage de données manuel Publication manuel 2011 Partage de données complet Fédération synchronisée metadata, données Suite complète d analyse server-side avec CDAT Intégration Modèles/Données ESG intégrée dans les postes de travail orientés analyse avec CDAT Intégration GIS Métrique d intercomparison de modèle Support, maintenance AR4 Terabytes Archive de Données ESG Petabytes AR5, satellite, In situ biogéochimie, écosystèmes Prodiguer - Mercredi 18 juin 2008 14
Le produit européen : C3Grid C3 Portal Des interfaces bien définies : MDS DMS / Scheduler C3Grid storage compute Data Discovery Web Service C3Grid Workflow Submission Web Service Interface GT 4 Job Submission WSRF Interface OAI-PMH server Data Request WS GridFTP server ISO grid 19139 workspace Adapter to propriatary (meta -)data access solutions OAI-PMH Interface Data Request (Staging) Web Service Interface data providers Metadata compute WN Data repository GridFTP Data Access Interface Prodiguer - Mercredi 18 juin 2008 15
Interopérabilité : Etendre C3 Grid (1) Faire d un environnement externe un pourvoyeur de données C3Grid a) Fournir un serveur OAI-PMH / avec des metadatas ISO disponibles b) Implémenter un Web Service prenant en charge des requêtes de données c) Fournir un accès par GridFTP OAI-PMH server ISO 19139 C3Grid Data Request WS GridFTP server grid workspace Job Interface (2) Fournir une interface de soumission a) Implémenter un Data Request Web Service déclenchant du processing b) Wrapper les jobs C3Grid en utilisant une interface de soumission de job générale (glite, GT4, ) Adapter to propriatary (meta-)data access solutions compute WN Metadata Data repository Prototype suivant cette approche pour interfacer l infrastructure EGEE EGEE Conf. `06 demo: pas d intégration à un portail, fonctionnalités basique EGEE User Forum `07 manchester EGEE rehearsal demo `07 Geneva Prodiguer - Mercredi 18 juin 2008 16
Conclusions PRODIGUER : projet déposé en septembre 2008 au GIS climat Dans le sillon IS-ENES (FP7), METAFOR (FP7) : standard de métadonnées, outils associés Mise en œuvre de ces outils au plan national et intégration à une grille européenne Doit se faire en étroite collaboration avec les centres de calcul nationaux Prodiguer - Mercredi 18 juin 2008 17
Permettre une proximité virtuelle entre les résultats des grandes simulations et les scientifiques But de ESG Très grande base de données distribuées Fédération simple de sites A travers les US et autour du monde Jeux de données Virtuels à travers sous ensemble et agrégation Recherche / exploration basé sur les Metadata Accès à des outils d analyse, orienté Web Flexible et robuste Server-side analyse http://www-pcmdi.llnl.gov pcmdi.llnl.gov Sites ESG actuels Prodiguer - Mercredi 18 juin 2008 18