PRODIGUER un noeud français de distribution de données GIEC/IPCC



Documents pareils
Projets en cours sur l archivage et la diffusion des simulations climatiques et de leurs produits, en liaison avec le projet DRIAS

Cycle de vie, processus de gestion

Architecture de la grille

Middleware et services de la grille

Interoperabilité entre Observatoire Virtuel et Grilles de calcul

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Kick Off SCC 2015 Stockage Objet. Vers de nouveaux horizons

Présentation de la Grille EGEE

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

DIRAC : cadre et composants pour créer des systèmes de calcul distribués

OpenStack Le cloud libre. Thierry Carrez Release Manager, OpenStack

+ = OpenStack Presentation. Raphaël Ferreira - enovance. Credits : Thanks to the OpenStack Guys 1

Introduction aux applications réparties

Rapport d activité. Mathieu Souchaud Juin 2007

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Les classes de service pour les projets scientifiques

Installation du service glite SE/DPM

Développement et Evaluation PHYsiques des modèles atmosphériques

LSCE Laboratoire des sciences du climat et de l environnement

La directive INSPIRE en Wallonie: le géoportail et l infrastructure de diffusion des géodonnées en Région wallonne (InfraSIG(

3 ème journée des utilisateurs de l archivage

RESIF Une infrastructure de recherche pour l'observation des déformations de la terre site web :

Vers l'orchestration de grilles de PC par les mécanismes de publicationsouscription

NOVA BPM. «Première solution BPM intégr. Pierre Vignéras Bull R&D

ArcGIS. for Server. Sénégal. Comprendre notre monde

3A-IIC - Parallélisme & Grid GRID : Middleware

Pourquoi utiliser SharePoint?

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

EGEE vers EGI - situation actuelle et interrogations

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

AA-SO5 KIDA/GSOV/VAMDC

Architecture distribuée

Développer une stratégie SIG Entreprise efficace avec ESRI et ArcGIS

Evolution des technologies et émergence du cloud computing Drissa HOUATRA, Orange Labs Issy

Iyad Alshabani SysCom - CReSTIC Université de Reims 17/02/2011 1

Mise en place d'un gestionnaire de données léger, pluridisciplinaire et national pour les données scientifiques

BIG DATA en Sciences et Industries de l Environnement

Ministère de la Culture et de la Communication

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM

Optimisation des niveaux de service dans le cadre de déploiements de Clouds publics

Cloud et SOA La présence du Cloud révolutionne-t-elle l approche SOA?

Qu est-ce que ArcGIS?

Dynamic Computing Services solution de backup. White Paper Stefan Ruckstuhl

Le projet DRIAS : premières études et documents

Le Cloud Computing et le SI : Offre et différentiateurs Microsoft

Cloud Computing Maîtrisez la plate-forme AWS - Amazon Web Services

Le cloud computing au service des applications cartographiques à haute disponibilité

SAP Extended ECM. Application Governance & Archiving for SharePoint. Marc WOLFF Associé fondateur Certified CDIA+

SWISS ORACLE US ER GRO UP. Newsletter 5/2014 Sonderausgabe. OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features

WEA Un Gérant d'objets Persistants pour des environnements distribués

FORMATION TALEND. Page 1 sur 9

Systèmes d'informations historique et mutations

ArcGIS. for Server. Comprendre notre monde

1 Introduction à l infrastructure Active Directory et réseau

MapCenter : un modèle ouvert pour la découverte, la supervision et la visualisation des environnements distribués à large échelle

Fonctions. Solution professionnelle pour le stockage de données, la synchronisation multi- plateformes et la collaboration

Catalogue Formation «Vanilla»

ES Enterprise Solutions

Les datas = le fuel du 21ième sicècle

Architecture N-Tier. Ces données peuvent être saisies interactivement via l interface ou lues depuis un disque. Application

CORBA haute performance

25 septembre Migration des accès au Registre national en protocole X.25 vers le protocole TCP/IP, pour les utilisateurs du Registre national

fourniture de ressources à tous les terminaux en tant que services

Portail collaboratif Intranet documentaire Dématérialisation de processus

La modélisation, un outil pour reconstituer (et prédire) climat et végétation

Objectif. Participant. Prérequis. Pédagogie. Oracle Enterprise Manager 10g Grid Control Rel 2. 5 Jours [35 Heures]

La sécurité dans les grilles

Suite Jedox La Business-Driven Intelligence avec Jedox

HYPERSUITE/5. La solution de GED et d Archivage Légal intégrée à Delta-Bank

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Les Architectures Orientées Services (SOA)

Dossier de Presse Freeplanning

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

Anatomie d'un cloud IaaS Représentation simplifiée

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

CliniPACS : distribution sécurisée d'images DICOM en réseau local hospitalier

Projet ViSaGe : implémentation de l administration et du monitoring de ViSaGe (Virtualisation du Stockage appliquée aux Grilles informatiques)

CS REMOTE CARE - WEBDAV

Pourquoi choisir ESET Business Solutions?

La plate forme VMware vsphere 4 utilise la puissance de la virtualisation pour transformer les infrastructures de Datacenters en Cloud Computing.

Architectures informatiques dans les nuages

Mise en œuvre de les capteurs dans la gestion de l eau

DEMARREZ RAPIDEMENT VOTRE EVALUATION

Joint AAL Information and Networking Day. 21 mars 2012

Les Entrepôts de Données

La solution pour gérer vos connaissances techniques et scientifiques

Présentation de l Université Numérique de Paris Île-de-France

Communiqué de lancement. Sage 100 Entreprise Edition Etendue Module CRM inclus

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus

eps Network Services Alarmes IHM

FILIÈRE TRAVAIL COLLABORATIF

Les stratégies de groupe (GPO) sous Windows Server 2008 et 2008 R2 Implémentation, fonctionnalités, dépannage [2ième édition]

L Observatoire Virtuel HELIO (HELiophyisics Integrated Observatory)

L Orchestration de Services Web avec Orchestra. Goulven Le Jeune Orchestra Project Manager

WORKSHOP OBIEE 11g (version ) PRE-REQUIS:

Microsoft Office system Février 2006

Transcription:

PRODIGUER un noeud français de distribution de données GIEC/IPCC Sébastien Denvil et Olivier Marti Pôle de Modélisation, IPSL Prodiguer - Mercredi 18 juin 2008 1

Le contexte : le compte à rebours du rapport GIECC/IPCC Fin 2009 Automne 2010 : Simulations climatiques Fin 2010? Distribution des résultats de simulations Fin 2010 Début 2012 : Publications scientifiques Début 2013 : Publication du rapport GIECC/IPCC AR5 (Assessment Report #5) Octobre 2013 : Prix Nobel Prodiguer - Mercredi 18 juin 2008 2

Plan de l exposé Pourquoi Prodiguer : PROjet de Diffusion Internationale des données du GIEC AR5, Une plateforme pour la Recherche Les grilles de données orientées «Climat» La voie Européenne du CMCC (Centre Euro Méditerranéen pour le Changement Climatique, Italie) La voie Américaine ESG (Earth System grid) La voie Européenne C3 Grid (Communauty Climat Collaborative Grid, Allemagne) Prodiguer - Mercredi 18 juin 2008 3

Ordres de grandeurs Modèles climatiques. Résolutions couramment utilisées actuellement : Atmosphère 2.5 (280 Km) : 144 x 96 x 19 Océan 2 (220 Km) : 180 x 149 x 31 Atm 2.5 - Océan 2 : 7.5 GB/an, 300 ans 2,5 TB Atm 1.0 - Océan 2 : 25 GB/an, 300 ans 7,5 TB Atm 0.5 - Océan 0,5 : 150 GB/an, 30 ans 5 TB Prodiguer - Mercredi 18 juin 2008 4

Impact d une hausse de capacité Augmentation du nombre de simulations, développements du modèle, simulations d ensemble, régionalisation Augmentation d un facteur 10 Atm 2.5 - Océan 2 : 2,5 TB 25 TB Atm 1.0 - Océan 2 : 7,5 TB 75 TB Atm 0.5 - Océan 0.5 : 5 TB 50 TB Prodiguer - Mercredi 18 juin 2008 5

Impact d une hausse de capacité Résolution spatiale: 280 Km -> 110 Km -> 50 Km Augmentation d un facteur ~ 10-20 Résolution temporelle: cycle diurne, «sortie 3 heures» Augmentation d un facteur ~ 4 LMDz 0.5 (50 Km) Prodiguer - Mercredi 18 juin 2008 6

Impact des avancées majeures Qualité: Amélioration de la couche limite atmosphérique, nuages, convection, physique océanique, nouveau modèle de glace, amélioration du modèle de surface, hydrologie Augmentation d un facteur 2-3 Complexité: Chimie atmosphérique (sulfates, ozone ), Biogéochimie (cycle du carbone, dynamique des écosystèmes) Augmentation d un facteur 10+ Prodiguer - Mercredi 18 juin 2008 7

L exercice GIECC : quelques chiffres AR 4 (Assessment Report #4), 2007 35 Terabytes 77,000 fichiers Quantité de données distribuée : 303 Terabytes 1 098 000 fichiers. Les groupes ont généré et exploités probablement 10x plus de données AR 5 (Assessment Report #4), ~ 2013 Un facteur 10 à 20 Une volonté de distribué une plus grande proportion des données La base de données doit être distribuée Prodiguer - Mercredi 18 juin 2008 8

Gestion actuelle des données Principalement centralisée, stocké sur un san Accès Dods pour les centres de calcul (http) Système basique de récupération de données Accès à des données brutes Sécurité/Authentification/Restriction d accès aux données : pas un problème Pas de post-processing à la demande Pas d intégration des metadata Ne supporte pas les requêtes d interrogation de haut niveau Prodiguer - Mercredi 18 juin 2008 9

Gestion des données par Prodiguer Bouger les données un minimum, les garder proche des centres de calcul d origine quand c est possible Protocole d accès aux données, liens forts avec les centres de calcul Quand on doit bouger les données, le faire vite et avec un minimum d intervention humaine Management des ressources de stockage, réseaux rapides Garder une trace de ce que l on a, particulièrement de ce qui est sur deep storage Metadata et Catalogues de données Exploiter une fédération de sites Intergiciel de grille Grille de données Prodiguer - Mercredi 18 juin 2008 10

Cas simple d intercomparison Scénario Courant Parcourir la base de données PCMDI centralisée Télécharger les données Organiser les données en local Regriller les données en local Faire les diagnostics Produire les résultats Scénario Futur Rechercher, Interroger, Parcourir des données distribuées Site distant Demande de données Regrillages Diagnostics Le portail renvoie le résultat Prodiguer - Mercredi 18 juin 2008 11

CMCC : l exemple venu d Italie Le Paradigme de la grille : Grille de Données & Calculs Centres associés Partenaires Environnement du CMCC : un incubateur de la technologie proposée Interdisciplinaire : Climatologue et Computer Scientists FEEM INGV CVR Points Clés : Transparence et Interopérabilité Expertise et savoir faire : Grille & Computing Science (Unile) Middleware : Globus, Unicore, glite, etc. Gestion des Metadata : Grid Metadata Handling System (GMHS) UNISS UNITUS CIRA SANNIO CRMPA IAMB UNILE SPACI Prodiguer - Mercredi 18 juin 2008 12

Le Earth System Grid Objectif ESG Supporter l infrastructure nécessaire aux communautés climats nationales et internationales. ESG procure une technologie cruciale pour accéder de manière sécurisé, monitorer, cataloguer, transporter, distribuer les données dans la grille d aujourd hui. Worldwide ESG user base Portail CMIP3 IPCC AR4 ESG 28 TB de données au PCMDI 68,400 fichiers Expériences coordonnée par l IPCC Données de modèles provenant de 11 pays. 818 utilisateurs enregistrés Downloads 123 TB 543,500 fichiers 300 GB/jour (moyenne) GB/day 600 500 400 300 200 100 Daily IPCC Downloads (10/12/06) 7-Day Averag 0 11/1/04 12/1/04 1/1/05 2/1/05 3/1/05 4/1/05 5/1/05 6/1/05 7/1/05 8/1/05 9/1/05 10/1/05 11/1/05 12/1/05 1/1/06 2/1/06 Nov 2004 Oct 2006 3/1/06 4/1/06 5/1/06 6/1/06 7/1/06 8/1/06 9/1/06 10/1/06 200 publications scientifiques basées sur l analyse des données CMIP3 IPCC AR4 Prodiguer - Mercredi 18 juin 2008 13

Le plan de route ESG vers l AR5 Evolution d ESG 2006 Base de données centrales Archive centralisée de données traitées Agrégation temporelle Distribution par transfert de fichiers Pas d implication dans l analyse Portail orienté caddy de supermarché Connexion d ESG au poste de travail orienté analyse (i.e., CDAT and CDAT-LAS) Début 2009 Test grandeur nature Metadata fédérées Portails fédérés Interface utilisateur unifiée Quick look server-side analyse avec CDAT Indépendant de la localisation Partage de données manuel Publication manuel 2011 Partage de données complet Fédération synchronisée metadata, données Suite complète d analyse server-side avec CDAT Intégration Modèles/Données ESG intégrée dans les postes de travail orientés analyse avec CDAT Intégration GIS Métrique d intercomparison de modèle Support, maintenance AR4 Terabytes Archive de Données ESG Petabytes AR5, satellite, In situ biogéochimie, écosystèmes Prodiguer - Mercredi 18 juin 2008 14

Le produit européen : C3Grid C3 Portal Des interfaces bien définies : MDS DMS / Scheduler C3Grid storage compute Data Discovery Web Service C3Grid Workflow Submission Web Service Interface GT 4 Job Submission WSRF Interface OAI-PMH server Data Request WS GridFTP server ISO grid 19139 workspace Adapter to propriatary (meta -)data access solutions OAI-PMH Interface Data Request (Staging) Web Service Interface data providers Metadata compute WN Data repository GridFTP Data Access Interface Prodiguer - Mercredi 18 juin 2008 15

Interopérabilité : Etendre C3 Grid (1) Faire d un environnement externe un pourvoyeur de données C3Grid a) Fournir un serveur OAI-PMH / avec des metadatas ISO disponibles b) Implémenter un Web Service prenant en charge des requêtes de données c) Fournir un accès par GridFTP OAI-PMH server ISO 19139 C3Grid Data Request WS GridFTP server grid workspace Job Interface (2) Fournir une interface de soumission a) Implémenter un Data Request Web Service déclenchant du processing b) Wrapper les jobs C3Grid en utilisant une interface de soumission de job générale (glite, GT4, ) Adapter to propriatary (meta-)data access solutions compute WN Metadata Data repository Prototype suivant cette approche pour interfacer l infrastructure EGEE EGEE Conf. `06 demo: pas d intégration à un portail, fonctionnalités basique EGEE User Forum `07 manchester EGEE rehearsal demo `07 Geneva Prodiguer - Mercredi 18 juin 2008 16

Conclusions PRODIGUER : projet déposé en septembre 2008 au GIS climat Dans le sillon IS-ENES (FP7), METAFOR (FP7) : standard de métadonnées, outils associés Mise en œuvre de ces outils au plan national et intégration à une grille européenne Doit se faire en étroite collaboration avec les centres de calcul nationaux Prodiguer - Mercredi 18 juin 2008 17

Permettre une proximité virtuelle entre les résultats des grandes simulations et les scientifiques But de ESG Très grande base de données distribuées Fédération simple de sites A travers les US et autour du monde Jeux de données Virtuels à travers sous ensemble et agrégation Recherche / exploration basé sur les Metadata Accès à des outils d analyse, orienté Web Flexible et robuste Server-side analyse http://www-pcmdi.llnl.gov pcmdi.llnl.gov Sites ESG actuels Prodiguer - Mercredi 18 juin 2008 18