Astroparticules. (prospectives en informatique) Giovanni Lamanna. Université de Savoie, CNRS/IN2P3, Annecy-le-Vieux, France

Documents pareils

Colloque Calcul IN2P3

L informatique à l IN2P3 et le rôle du Chargé de Mission

PROSPECTIVES IN2P3-IRFU

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

PRODIGUER un noeud français de distribution de données GIEC/IPCC

Middleware et services de la grille

Jean-François Boulicaut & Mohand-Saïd Hacid

Portage d applications sur le Cloud IaaS Portage d application

Tout ce que vous avez toujours voulu savoir sur SAP HANA. Sans avoir jamais osé le demander

Présentation de la Grille EGEE

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Architecture de la grille

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Utilisation du Cloud StratusLab dans le cadre d application astroparticule à l APC

DIRAC : cadre et composants pour créer des systèmes de calcul distribués

IT SERVICES BUSINESS STORAGE DATA AUDIT PARTNERSHIP INTEGRATOR SECURITY PLANNING PRIVATE AGILITY DYNAMIC PUBLIC TECHNOLOGY SOLUTIONS MANAGEMENT

L INFORMATIQUE SOUS FORME DE SERVICE POUR VOTRE ENTREPRISE. Farid BENREJDAL Senior Systems Engineer VMware

Infrastructure de calcul du CRRI

Hitachi Storage Viewer v Hitachi Data Systems

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

FOURNIR UN SERVICE DE BASE DE DONNÉES FLEXIBLE. Database as a Service (DBaaS)

Services à la recherche: Data Management et HPC *

Environnement logiciel LHCb

vworkspace VDI : La virtualisation des postes de travail enfin possible, quelque soit l HyperViseur

Xavier Masse PDG IDEP France

Face Recognition Performance: Man vs. Machine

Grid Technology. ActiveMQ pour le grand collisionneur de hadrons (LHC) Lionel Cons Grid Technology Group Information Technology Department

3 ème journée des utilisateurs de l archivage

Cloud Computing. Introduction. ! Explosion du nombre et du volume de données

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Une solution de stockage VDI unifiée, flexible et disponible pour vos utilisateurs

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

Les mésocentres HPC àportée de clic des utilisateurs industriels

.Réinventons l innovation.

Cloud et Informatique Scientifique

APX et VCE, Modèle d industrialisation de l intégration et du déploiement. Olivier BERNARD, VCE

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Le Cloud Computing L informatique de demain?

vmware au CC-IN2P3 Déploiement rapide d une infrastructure destinée à de la formation et réflexions sur vsphere.

Messagerie vocale dans votre BAL. sur un téléphone. Grandes BAL à bas coût. dans un navigateur. Le cloud comme vous le souhaitez

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Interoperabilité entre Observatoire Virtuel et Grilles de calcul

Infrastructures Parallèles de Calcul

Services de la grille

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

<Insert Picture Here> Exadata Storage Server et DB Machine V2

Qu est ce qu une offre de Cloud?

NEC Virtual PC Center

VOTRE POLITIQUE D'ARCHIVAGE EST-ELLE ADAPTÉE? Démarche projet. Alain Le Corre, Responsable de Marché, Gestion de l information

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

L'agilité appliquée à nous-mêmes. Philippe Krief, PhD Development Manager IBM France Lab

1 ère Partie Stratégie et Directions Stockage IBM

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

SCC / QUANTUM Kickoff 2015 Data Protection Best Practices

mieux développer votre activité

VMware : De la Virtualisation. au Cloud Computing

WORKSHOP OBIEE 11g (version ) PRE-REQUIS:

Consolidation. Grid Infrastructure avec la 11gR2

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Le Cloud: Mythe ou Réalité?

Objectif. Participant. Prérequis. Pédagogie. Oracle Enterprise Manager 10g Grid Control Rel 2. 5 Jours [35 Heures]

Security Procedure Book DISASTER RECOVERY BUSINESS CONTINUITY CRISIS MANAGEMENT PANDEMIE GRIPPALE / FLU PANDEMICS

StratusLab : Le projet et sa distribution cloud

StruxureWare Power Monitoring v7.0. La nouvelle génération en matière de logiciel de gestion complète d énergie

Demande d'ap informatique 2012

Vers une fédération de Cloud Académique dans France Grilles J. Pansanel pour le groupe FG-Cloud (M. Airaj, C. Cavet, V. Hamar, M. Jouvin, C.

Projet d infrastructure régionale pour le traitement des grands volumes de données scientifiques en Auvergne

The space to start! Managed by

Mise en oeuvre TSM 6.1

Le Cloud Open-Mind! Emilien Macchi

VIRTUALISATION : MYTHES & RÉALITÉS

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Chapitre 4: Introduction au Cloud computing

WORKSHOP NOUVELLES TECHNOLOGIES ET PATRIMOINES CULTURELS, ENTRE PROJETS REVÉS ET RÉALITÉS DU TERRAIN

Un exemple de cloud au LUPM : Stratuslab

Architectures informatiques dans les nuages

Comment valoriser votre patrimoine de données?

Le data center moderne virtualisé

Dynamic Computing Services solution de backup. White Paper Stefan Ruckstuhl

Séminaire Partenaires Esri France 7-8 juin Paris Cloud Computing Stratégie Esri

BIG DATA en Sciences et Industries de l Environnement

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

ORACLE PAAS CLOUD MANAGEMENT

Kick Off SCC EMC l offre EXTREMIO. fmarti@fr.scc.com Philippe.rolland@emc.com. Vers de nouveaux horizons

Anticiper et prédire les sinistres avec une approche Big Data

Qu est ce qu une offre de Cloud?

ViSaGe. Virtualisation du Stockage dans les Grilles. Informatiques. RenPar 16, 6-8 Avril 2005 Thiebolt François

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

PREDON. A project on Scientific Data Preservation in France. 13/10/2013 PREDONx Workshop C.Diaconu 1

Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24

Containers : Outils magiques pour les Devops? OpenNebula et son écosystème pour une infrastructure cloud agile

Change the game with smart innovation

Cloud Computing Stratégie IBM France

Cours 13. RAID et SAN. 2004, Marc-André Léger

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

Vers le Big Data? Exemple de la gestion des données astronomiques au Centre de Données astronomiques de Strasbourg

Transcription:

Astroparticules (prospectives en informatique) Giovanni Lamanna LAPP - Laboratoire d'annecy-le-vieux de Physique des Particules, Université de Savoie, CNRS/IN2P3, Annecy-le-Vieux, France Journées de prospective IN2P3-IRFU Presqu'île de Giens, 2-5 avril 2012

Plan Les expériences actuelles et leur modèles de calcul Les projets futurs - de nouveaux modèles de calcul - Besoins et défis Conclusions

Modèle de calcul en Astroparticules Choix du modèle de calcul plus adapté Principaux sous-systèmes pour la gestion de données - Le système de calcul sur site (proche des antennes) - Le transfert et l archivage des données - Modèle de traitement offline des données (data-centric and/or user-centric) - L'accès aux données réduits et la préservation des données Principales spécifications du modèle de calcul - Flux de données et typologie des produits scientifiques - Mode de fonctionnement: Expérience ou Observatoire (# et type d utilisateurs/observateurs) - Temps de vie (e.g. satellites) et/ou financement (e.g. ESO/NASA/ESA vs agences ASPERA) Le produit final : Scientific Analysis System SAS Les choix technologiques: - HW: Computing Elements (CE), Storage Elements (SE) - Service: Archive, Base de données et systèmes de Métadonnées - SW: Calibration/Reconstruction/Simulation; - Middleware: Sécurité, hétérogénéité, accessibilité

Modèle de calcul en Astroparticules Les expériences d Astroparticules adoptent en majorité un modèle: «Mainframe - T0», «DB-centric» et «User-centric» Les raisons: 1) Flux de données limité à quelques GB/jour (background dominated) 2) Nombre limité d utilisateurs (et/ou prévalence de la participation IN2P3/IRFU) 3) Ressources CCIN2P3 pour le stockage et les services 4) Mode «Expérience» et forte implication IN2P3/IRFU 5) Absence d agences internationales 6) SAS classique (user login ccali/ccage) e.g. AUGER, ANTARES, HESS, Mais le scenario futur change avec CTA, EUCLID, LSST,

AUGER CCIN2P3 comme «mainframe»: - stockage ~ 10 TB dont ~10% de données reconstruites ( 850 MB/day) - accès aux données pour les utilisateurs grâce à un «account» à Lyon. - GRILLE EGI pour le Monte Carlo Cdas Builder Files Restricted Access Daily Event Building and Export 1 3.5 GB/day (no calibration) (poor Pampa BW ~ 50KB/s) Every Night Batch Calibrations envoyées sur tape tous les deux mois Oracle Database SRB Large Files (> 100 MB) HPSS Data Server Access reserved to the data transfer Malargüe GPFS Disk (20TB) CCIN2P3 - Lyon External Users

ANTARES CCIN2P3 comme «mainframe»: - Le débit de données ~1GB/sec (50 GB de données par jour, 20 GB après filtrage). - ~5 TB de données bruts par an - Données et métadonnées organisées en DB Oracle à Lyon (aussi pour la configuration des acquisitions) -> CCIN2P3 un centre critique pour l exploitation d ANTARES External Users Remote Access for online DAQ/Trigger Shore station Root Files (limited) Buffer disk Reliable connection for detector operations, DB and remote GUI TMPBATCH and Recon. Oracle Database SRB HPSS Weekly buffering and nightly raw data asynchr. transfer GRB alert buffer Disk (10 TB) La Seyne bbftp External Users CCIN2P3 - Lyon

H.E.S.S. CCIN2P3 «mainframe» + - des interfaces «client/serveur» pour le «data processing»; la sélection des données et métadonnées; la gestion des «workflows d analyse». - 10 TB données bruts par an au CCIN2P3 (~ 500 TB dont > 200 TB MC) - Données reconstruites (DST) = facteur 10 de réduction - MC: debut de simulation sur Grille pour HESS2. Digitized Camera DAQ On site Root Files NO DATA TRANSFER MySQL Database HPSS Root Files Buffer disk On site reco quality check Calibrations, Reco, DSTs. SPS HD Lyon Namibie External Users CCIN2P3 - Lyon

Les grands projets futurs: CTA Cherenkov Telescope Array: le premier observatoire gamma pour la prochaine décennie Worldwide consortium: more than 800 scientists in 25 countries Low-energy section energy threshold of some 10 GeV Core array: mcrab sensitivity in the 100 GeV 10 TeV domain High-energy section 10 km 2 area at multi-tev energies Cameras avec 2000 pixels Taux de trigger 10kHz (array 3 khz). Main data stream :1-10 GB/s. Total data volume : 1-10 PBs per year Comput. Calib.+Reco: 1h raw data= ~700 CPU days

CTA Computing Grid EGI virtual organization: vo.cta.in2p3.fr VOMS and LFC server hosted at CCIN2P3, dedicated WMS at LAPP 14 sites in 6 countries: 1000 2000 CPUs used by CTA ~500 TB of storage

Preliminary (work in progress) CTA User Web Client and/or VM for data searching Client application for analysis job submission and results info./ file downloading Example: a possible Grid-SAS model based on the MC CTACG model Web Server and Grid jobs broker Grid jobs management High-level data request FITS and VObs data access FITS and VO compliant results VObs tools (VOSpec, Aladin) Interface layer with archive DB Science Archive, DB and MetaDB systems, notification and results uploading

Les grands projets futurs: CTA Le «data management» de CTA est une priorité de CTA-France. Défis et/ou pistes ouvertes: Modèle de calcul distribué (de taille limitée) à l étude et rôles «data operation centre» et «science data center» dans nos Instituts Modèle «data-centric» et des développements pour le: - «Data mining» (ECD) - Archive, systèmes de DB et MetaDB - DCI/Cloud pour le traitement distribuées des masses de données scientifiques - Gateway scientifique - SAS configurable et globale en lien avec le Vobs (avec les nouveaux HE Vobs standards). GPUs pour les analyses en temps réel (suivi d alertes astrophysiques) (à explorer)

Les grands projets futurs: Advanced Virgo Advanced Virgo, prise des données à partir de 2015. Environ 150 jours de données scientifiques par an (avec 20 khz de taux d'échantillonnage) = data stream de 10 Mo / sec et 160 To par an. Le défis majeur est la «densité arithmétique» des algorithmes d'analyse

Les grands projets futurs: Virgo Les données doivent être traitées et analysées (plusieurs fois). Certaines analyses (couteuses en CPU, e.g. Continuous Wave (CW) ) se déroulent sans problème dans la grille EGI. - VO Virgo : 34 sites avec ~ 9000 CPU et plusieurs To de stockage et compte environ 50 utilisateurs. - Une analyse typique se compose de plusieurs dizaines de milliers de jobs soumis dans plusieurs sites de calcul. - GPUs parallèles dans la grille EGI sont une alternative développée et testée dans Virgo

Les grands projets futurs: ET ET (Einstein Telescope) est un projet d'étude de conception soutenue par la Commission européenne sous le 7em programmecadre: émergence de l'astronomie des ondes gravitationnelles. Projet «Le MaCGO» (Manycore Computing for future Gravitational Observatories) étudie la solution «multi-cores» pour la cartographie du ciel. - développement d algorithmes dédiés à des systèmes GPU; - exploration de standard de programmation «multi-core» ;

Les grands projets futurs: Virgo et ET Défis et/ou pistes ouvertes: La recherche des OG: différentes architectures optimales pour différents algorithmes adoptés. Les architectures GPUs et «multi-cores» répondent aux demandes de parallélisassions Les analyses OG demandent des pics dynamiques de calcul: approches CLOUD pertinente. L approche Grid est optimale pour: - des workflows d analyses non-relationnels - les services offerts (data transfer, security, middleware) Pour le futur il est importante d envisager un SAS plus tournée vers l utilisateur (Gateway). (gestion des archives et distribution des produits scientifiques à étudier)

Les grands projets futurs: EUCLID La puissance de calcul nécessaire remarquable: dizaines de milliers des corês et approche distribué Un modèle de calcul «data centric» et distribué: 8 centres des données scientifiques SDC ( France, Italie, Allemagne, Royaume-Uni, Espagne, Hollande, Suisse, Finlande) : une «cloud» privée. L archive (EMA = Euclide Mission Archive) est distribuée. Les métadonnées seront concentrées à l'esa et les fichiers de données seront distribués dans les différents SDC., Une fois décompressées, calibrées et caractérisées les données ont une taille d'environ 3 PB.

Les grands projets futurs: LSST Les principaux défis : - Les produits Level One (images, catalogues, et alertes) chaque nuit d'observation. (haut niveau d automatisation): 30 To de données chaque soir - Conception des bases de données et de l archivage à l'échelle du Pétaoctet.. - Les catalogues accessibles à la communauté via des interfaces ouvertes dans un modèle de l'observatoire Virtuel. - Evolutivité et fiabilité dans le calcul de LSST, le stockage et les ressources du réseau.

«Data centres» et développement informatique François Arago Centre (FACe) space data center à l APC répondrait à la nécessité d une l interface entre les grands infrastructures de calcul et le monde scientifique. FACe est dotée de ressources de calcul (600 CPU et 100 To) et de salles de conférence et visioconférence. Ex.: Espace de travail EU+US pour le contrôle et l analyse scientifique en temps réel de LISA-PF. FACe a vocation à évoluer pour servir d autres expériences (EUCLID, etc..) Les laboratoires Tier2 WLCG en combinaison avec le CCIN2P3 ont l expertise pour la gestion de grands projets de «data management» de future expériences d astroparticules et vocation au rôle de Tier0/1 (e.g. LAPP-MUST dans le projet CTACG). Collaboration des équipes de recherche (IN2P3/IRFU/INSU) autour des développements informatiques et en «e-science». Conséquence: évolution du profil des services informatiques au sein de nos laboratoires. High Performance Computing à l IRFU pour les simulations complexes en Astrophysique Longue experience CEA dans le «parallel supercomputing» 1 des PRACE European center (Très Grand Centre de Calculs) (Tiers 0) 1 des GENCI (National) co-founders (Tiers 1)

Conclusion Les nouveaux défis (scientifiques) en e-science pour l Astropartricules (IN2P3+IRFU): Des nouveaux «computing model» Flux de données de l ordre des Peta Octets Calcul distribué et mode-observatoire: - GRID-DCI et Clouds pour le calcul et pour les masses des données - Gateways et SAS - Data Bases - Les Data Centers et le rôle du CCIN2P3, des Tier2 et High Performance Computing - Le développement informatique dans les laboratoires -> évolution des service inf.. - «Data access» et «data preservation» - GPUs Rôle d ASPERA, le «computing» et les «Virtual Research Communities» Après le troisième workshop http://indico.cern.ch/conferencedisplay.py?confid=159120 un «White Paper».