Les leçons de Babar. Stéphane Plaszczynski LAL CNRS/IN2P3. Inspiré par: A.M Lutz, J.N Albert, D. Boutigny



Documents pareils
Environnement logiciel LHCb

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Clusters de PCs Linux

Astroparticules. (prospectives en informatique) Giovanni Lamanna. Université de Savoie, CNRS/IN2P3, Annecy-le-Vieux, France

«autres» missions du CC

Le monitoring de flux réseaux à l'in2p3 avec EXTRA

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Module BDR Master d Informatique (SAR)

vmware au CC-IN2P3 Déploiement rapide d une infrastructure destinée à de la formation et réflexions sur vsphere.

Portage d applications sur le Cloud IaaS Portage d application

Demande d'ap informatique 2012

Java et les bases de données

DOSSIER DE PARTENARIAT

Java et les bases de données: JDBC: Java DataBase Connectivity SQLJ: Embedded SQL in Java. Michel Bonjour

Competence Management System (Système de Gestion de Compétences)

Gestion de clusters de calcul avec Rocks

DSI - Pôle Infrastructures

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

Colloque Calcul IN2P3

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Gestion répartie de données - 1

Présentation du module Base de données spatio-temporelles

Le serveur HTTPd WASD. Jean-François Piéronne

TP : Introduction à TCP/IP sous UNIX

Présentation de la Grille EGEE

Architecture de serveurs virtualisés pour la communauté mathématique

PORTAIL DE GESTION DES SERVICES INFORMATIQUES

JRES 2007 Solution de stockage répartie sur les centres de recherche INRIA, à base de serveurs de fichiers de type «NAS»

Hudson Serveur d Intégration Continue. Adrien Lecharpentier IR3 Ingénieurs2000, Université de Marne la Vallée

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Cours 13. RAID et SAN. 2004, Marc-André Léger

Le e s tocka k ge g DAS,NAS,SAN

Retour d expérience Sénalia. Comment migrer progressivement vers Microsoft Office 365?

WORKSHOP OBIEE 11g (version ) PRE-REQUIS:

Détection d'intrusions en environnement haute performance

INTRODUCTION AUX BASES de DONNEES

Solution de stockage et archivage de grands volumes de données fichiers.

Fig. 1 Le détecteur de LHCb. En bas à gauche : schématiquement ; En bas à droite: «Event Display» développé au LAL.

Simple Database Monitoring - SDBM Guide de l'usager

ANNEXE 2 DESCRIPTION DU CONTENU DE L OFFRE BUSINESS INFORMATION AND ANALYSIS PACKAGE

IBM Tivoli Compliance Insight Manager

Didier RIGOLI. Freelance, services IT: Architecture et design, Gestion de projets, Management Opérationnel.

Vers une fédération de Cloud Académique dans France Grilles J. Pansanel pour le groupe FG-Cloud (M. Airaj, C. Cavet, V. Hamar, M. Jouvin, C.

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

Les offres exclusives Belgacom ICT Agent

UC4 effectue tout l ordonnancement batch pour Allianz en Allemagne

Antoine Morel Ingénieur Commercial DVI

L utilisation du réseau ISTIC / ESIR

PHP et le Cloud. All rights reserved. Zend Technologies, Inc.

Bases de données Cours 1 : Généralités sur les bases de données

Projet Sécurité des SI

Systèmes de gestion de code source

MYSQLDUMP & ZRM COMMUNITY

Systèmes d informations nouvelles générations. Répartition, Parallèlisation, hétérogénéité dans les SGBD. Exemple d application d un futur proche

C-JDBC. Emmanuel Cecchet INRIA, Projet Sardes.

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1

Tout ce que vous avez toujours voulu savoir sur SAP HANA. Sans avoir jamais osé le demander

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Système de Stockage Sécurisé et Distribué

Étendez les capacités de vos points de vente & sécurisez vos transactions.

Catalogue Formation «Vanilla»

Cours Bases de données

LA PROTECTION DES DONNÉES

Tendances Techniques et compétences des laboratoires

Introduction. René J. Chevance

RFID: Middleware et intégration avec le système d'information Olivier Liechti

L architecture de Citrix XenApp

CA ARCserve D2D pour Linux

Livre Blanc Oracle Novembre Le Bureau des Projets (PMO) : un levier stratégique de création de valeur pour l industrie

vworkspace VDI : La virtualisation des postes de travail enfin possible, quelque soit l HyperViseur

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

«clustering» et «load balancing» avec Zope et ZEO

Bases de données cours 1

HISTOIRE D UNE DIGITAL FACTORY

REX gros projets Drupal. Drupal Camp Toulouse Novembre - +qdelance

HÉBERGEMENT CLOUD & SERVICES MANAGÉS

Prise en main d un poste de travail sous Windows sur le réseau du département MMI de l'upemlv. d après M. Berthet et G.Charpentier

Le modèle client-serveur

Un exemple de cloud au LUPM : Stratuslab

Augmenter la disponibilité des applications JEE grâce au clustering : Le projet open source JShaft

Windows Server Chapitre 1: Découvrir Windows Server 2008

Webinar ORACLE LE LICENSING ORACLE Quel type de licensing choisir?

24/11/2011. Cours EJB/J2EE Copyright Michel Buffa. Plan du cours. EJB : les fondamentaux. Enterprise Java Bean. Enterprise Java Bean.

MODULE I1. Plan. Introduction. Introduction. Historique. Historique avant R&T 1ère année. Sylvain MERCHEZ

Microsoft Virtual Server, trucs et astuces avancés

Mise en place d'un gestionnaire de données léger, pluridisciplinaire et national pour les données scientifiques

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Chapitre IX : Virtualisation

Tendances de la sécurité informatique à l IN2P3. Actions pour renforcer la sécurité. Sécurité Cargèse 2001 Bernard Boutherin 1

FORMATION TALEND. Page 1 sur 9

PASS_Compagnia. Dommages et Vie LE CHOIX DE L INNOVATION. Étude de cas HDI Assicurazioni

CHAPITRE 1 ARCHITECTURE

Solutions de stockage réseau

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

IFT3030 Base de données. Chapitre 1 Introduction

ViSaGe. Virtualisation du Stockage dans les Grilles. Informatiques. RenPar 16, 6-8 Avril 2005 Thiebolt François

INDUSTRIALISATION ET RATIONALISATION

EMC DATA DOMAIN OPERATING SYSTEM

ITIL et SLAs La qualité de service nous concerne tous!

Transcription:

Les leçons de Babar Stéphane Plaszczynski LAL CNRS/IN2P3 Inspiré par: A.M Lutz, J.N Albert, D. Boutigny Journées Informatiques In2p3/Dapnia - Cargèse 23-28 Juillet 2001

Les leçons de Babar BaBar: contraintes et choix Objectivity CC-in2p3 TIER A 2

1.Babar: les contraintes Volume des données Babar = «usine à B» à SLAC 100 Hz(L3) X30 semaines 2 10 8 evts physique/an L = 3 10 33 cm -2 s -1 atteinte très rapidement (fin 2000) (4 mois BaBar» 5 ans LEP) doublement attendu tous les ans 2001 : >3 10 33 cm -2 s -1 2002 : 6 10 33 2004 : 1.5 10 34 Données réelles 2000 : 138 Tb (307 kb/evt) à SLAC Simulation: 55 Tb (592 kb/evt) en principe 3-5 fois les données 3

Babar: les contraintes Collaboration très large et dispersée USA-Canada-Europe 100 instituts 500 physiciens 6 pays européens (France, Italie, GB, Allemagne, Russie, Norvège) 4

Les choix Tout C++ (possibilité de wrapping F77) Outils commerciaux: Objectivity Rogue-Wave (STL) 1 ère exp HEP de grande envergure: peu/pas d expérience + planning serré (pas vraiment de comparaisons) 5

C++ Passage difficile des physiciens («pourquoi?») Peu/pas de design OO Pas d outil de conception (Rose ) Manque de formation Utilisation de «gadgets» C++ Peu/pas de documentation Peu/pas optimisation CPU Problèmes de portabilité : compilateurs natifs (abandon HP,AIX: Sun+Linux(+OSF) dichotomie physiciens/ experts soft JAVA? 6

Les choix de BaBar (1) Production des données données réelles : tout à slac «prompt reconstruction» (~) en ligne (OPR) actualisation en ligne des calibrations filtrage en ligne données simulées : production répartie sur collaboration puis centralisées à slac uniformisation? contrôle de qualité? 7

Les choix de BaBar (2) Stockage des données Tout dans Objectivity (Objy) structuration/éclatement des données («clustering») accès hiérarchisé aux données par degré de détail «Raw,Reco,(Mini),Micro,Tag» 8

Les choix de BaBar (4) distribution des données Transferts minimaux ( GB, Italie, Univ. US...): micro-dst ROOT seulement exception : cc-in2p3 «site miroir» de slac copie des micros (données+sim) sous Objy. 2000:18 Tb Les REC non disponibles à Lyon! Transferts massifs TIER A 9

Les choix de BaBar (5) Distribution du code CVS (packages/versions, package coordinators, commits publics) SoftRelTools (notion de releases et de «builds», outils et makefiles standard) «releases» fréquentes (1/quinzaine). ensemble complet des packages (sources+lib+dependances) +bin 2.5 GB/release (Sun) Compilation automatisée (+mails) mises à jour bases de données «condition database» (calibrations, alignements) très important en 1999 (démarrage de l expérience) 10

Les choix de BaBar (6) stratégies de communications hypernews (centralisées à slac) www (centralisé à slac) audio-meetings importance cruciale des réseaux 11

Du stockage a l analyse des données Donnees (xtc) OPR Données calibrations Objy ROOT utilisateur Beta Analyse ntuples Skims (collections) 12

Simulation Donnees (xtc) OPR Donnees calibrations Skims (collections) Objy ROOT utilisateur Beta Analyse ntuples Geant 4 Geant 3 (xdr) Mix r Objy 13

Online Prompt Reco Datamover Datamover Datamover 0.5Tb 0.5Tb 0.5Tb 0.5Tb Input 0.5Tb Locks 0.5Tb RAW Journal 0.5Tb Metadata CPU Pilot Objectivity HPSS 14

Online Prompt Reconstruction 15

2.Ojectivity Technologie nouvelle dans la communauté Démarrage tardif Pas de réelles comparaisons Produit commercial: impossibilité de toucher au code source! Produit inadapté a l environnement (JNA) Pas d accord (DB) beaucoup d énergie investie pour plier le produit aux besoins de l expérience 16

Accès aux données AMS Objy server (2Tb) AMS Objy server (2Tb) Lock server Mon job Objy server (2Tb) AMS Objy server (2Tb) AMS federation journal Socket Objy HPSS 17

Problèmes occasionnels Crash d un AMS Crash lock server Locks mal «enlevés» La plupart de ces problèmes résolus (?) Gestion HPSS pour plusieurs utilisateurs accédants au même AMS Fuites de mémoire Objy Crashs imprédictibles des jobs 18

Désillusions Abandon de plate-formes (Objy= compilateurs natifs) Abandon de l unicité de la BD Fédérations de reconstruction, analyse, simulation Pas de connexions entre fédérations (super-fédérations?) Lourdeur des transferts de données (en amélioration) Abandon de la connexion entre sites Pas de stockage de données utilisateurs 19

Base de données vs. Deux concepts distincts Base de données Persistance Persistance Base de données= cohérence clustering Protections Sécurité Récupération d erreurs Besoin de tout ça pour lire des données? 20

Conduit a. Taille des evts (optimisation possible) Lenteur lors de l analyse Instabilités Imports/exports massifs Pas d accès au code source: couches Babar (gros investissement) Quand même: ~100 Millions evts analyses en ~30h (avec filtrage utilisateur et peu d autres utilisateurs) Mais ~10% crashs (chiffre officieux: varie entre 0 et 40% selon utilisateurs) 21

Un monde idéal? Stockage persistent des données: ROOT(?) Book-keeeping : Oracle(?) Calibrations en ligne (?) Collections Tags Objectivity 22

CC-In2p3: Tier A Structure d analyse complète Objy + spécificités régionales: Utilisation plus systématique de HPSS (tests en cours) RFIO plutôt que NFS BQS 130 CPU disponibles pour Babar (Linux+SUN) TierA: ouverture a toute la collaboration Hébergement d une partie complète (ie. une partie des RAW) des données 23

Network Connection between SLAC and IN2P3 (*) SNV ESnet CHI Micro Data PHYnet (Renater) SLAC Stanford Star Tap IN2P3 Internet 2 Bulk Data CERN 30-40 Mbps * From SCS Network Team 155 Mbps 622 Mbps 24

Exports/imports de donnees Export base sur BdbDistTools and + perl Import base Java: Jimport Outil efficace de transfert parallèle: bbftp (G. Farrache). Ligne 34 Mb/s Ligne 155 Mb/s 25

Monitoring des ressources 1 normalized CPU hour = 1 hour on an IBM 3090S processor ~ 10' on a PIII 750 MHz 26

Hébergement des données Actuellement: duplication x3 (22 streams) 27

Conclusions Babar peut (actuellement) reconstruire+analyser une grande masse de données. Mais extrapolations: volume énorme a attendre (Pbytes) C ++ OK (surtout pour la reconstruction): mais + formation design + documentation: l architecture doit être laissée aux experts! Utilisation d Objectivity a coûté énormément d efforts (de dernière minute) et causé plus de difficultés qu elle n en a résolues. Néanmoins satisfaisant pour les utilisateurs (actuellement) malgré des pbs de robustesse. Problème persistance à découpler de B.D: comparaisons! Cc-in2p3 en bonne forme pour suivre les flots de données et d utilisateurs 28