Mise en place d'un gestionnaire de données léger, pluridisciplinaire et national pour les données scientifiques



Documents pareils
Vers une fédération de Cloud Académique dans France Grilles J. Pansanel pour le groupe FG-Cloud (M. Airaj, C. Cavet, V. Hamar, M. Jouvin, C.

DIRAC : cadre et composants pour créer des systèmes de calcul distribués

Colloque Calcul IN2P3

Le Cloud France Grilles : Accès et utilisation. Jérôme PANSANEL <jerome.pansanel@iphc.cnrs.fr> Directeur technique France Grilles

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Un exemple de cloud au LUPM : Stratuslab

Gestion des Appliances. M. AIRAJ Ecole Informatique IN2P

La fédération des infrastructures cloud

Questions fréquentes sur les tarifs et les licences Windows Server 2012

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

Prestataire Informatique

SQL Server 2008 solutions de sauvegarde et de continuité

SQL Server Administration d'une base de données transactionnelle avec SQL Server Management Studio (édition enrichie de vidéos)

Le monitoring de flux réseaux à l'in2p3 avec EXTRA

Installation du service glite SE/DPM

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Chapitre 2 Rôles et fonctionnalités

ViSaGe. Virtualisation du Stockage dans les Grilles. Informatiques. RenPar 16, 6-8 Avril 2005 Thiebolt François

Les Jeudis du numérique

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Projet d'infrastructure Cloud

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau


SQL Server 2014 Administration d'une base de données transactionnelle avec SQL Server Management Studio

Veeam Backup and Replication

Une solution stockage sécurisée et distribuée au Synchrotron Soleil

PRODIGUER un noeud français de distribution de données GIEC/IPCC

Le Network File System de Sun (NFS)

Infrastructures Parallèles de Calcul

Séminaire EOLE Dijon 23/24 novembre Architecture Envole/EoleSSO

Sujet Solution de sauvegarde de serveurs et postes de travail avec BackupPC et Bacula. par ALIXEN

La sécurité dans les grilles

Architectures informatiques dans les nuages

Tâches planifiées. Chapitre Introduction

Windows Azure Platform Développez, déployez et administrez pour le Cloud Microsoft

Présentation SafeNet Authentication Service (SAS) Octobre 2013

Fabriquant de Fabuleux logiciels

Solutions Microsoft Identity and Access

Service d'installation et de démarrage de la solution de stockage réseau HP StoreEasy 1000/3000

ARCHEOVISION. Centre de Ressources Numériques 3D. UMR 5607 du CNRS. R. Vergnieux IR-CNRS

Fiche technique. NCP Secure Enterprise Management, SEM. Technologie d'accès à distance au réseau nouvelle génération

La tête dans les nuages

Interoperabilité entre Observatoire Virtuel et Grilles de calcul

FORMATION WS0801. Centre de formation agréé

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

THE FLASH REVOLUTION IS RIGHT NOW. Pure Storage France Contact : france@purestorage.com Pure Storage, Inc. 1

Réplication de données de classe entreprise pour environnements distribués et reprise sur sinistre

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

Services de la grille

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Kick Off SCC 2015 Stockage Objet. Vers de nouveaux horizons

ArcGIS. for Server. Comprendre notre monde

Une solution de stockage VDI unifiée, flexible et disponible pour vos utilisateurs

Cloud Computing Maîtrisez la plate-forme AWS - Amazon Web Services

ENGEES 1 quai Koch _ BP Strasbourg Cedex. Appel d offre Pour l acquisition d un logiciel de scolarité

Projet IGGI. Infrastructure pour Grappe, Grille et Intranet. Fabrice Dupros. CASCIMODOT - Novembre Systèmes et Technologies de l Information

Table des matières. Chapitre 1 Les architectures TSE en entreprise

LE SAN ET LE NAS : LE RESEAU AU SERVICE DES DONNEES

Système de Stockage Sécurisé et Distribué

KASPERSKY SECURITY FOR BUSINESS

Forum Poitou-Charentes du Logiciel Libre

StratusLab : Le projet et sa distribution cloud

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Technologie SDS (Software-Defined Storage) de DataCore

IT SERVICES BUSINESS STORAGE DATA AUDIT PARTNERSHIP INTEGRATOR SECURITY PLANNING PRIVATE AGILITY DYNAMIC PUBLIC TECHNOLOGY SOLUTIONS MANAGEMENT

SQL Server 2012 Administration d une base de données transactionnelle

Le stockage. 1. Architecture de stockage disponible. a. Stockage local ou centralisé. b. Différences entre les architectures

Portage d applications sur le Cloud IaaS Portage d application

Les modules SI5 et PPE2

Les Content Delivery Network (CDN)

Guillaume PHILIPPON. Mise en place d un cloud privé et publique

Préconisations Techniques & Installation de Gestimum ERP

UNIFIED D TA. architecture nouvelle génération pour une restauration garantie (assured recovery ) que les données soient sur site ou dans le cloud

Refonte front-office / back-office - Architecture & Conception -

Séminaire Partenaires Esri France 7-8 juin Paris Cloud Computing Stratégie Esri

Eliminer les zones d ombre et fournir une identité utilisateur sur le pare-feu dans un environnement client léger

Conserver les Big Data, source de valeur pour demain

Dossier Solution - Virtualisation CA arcserve Unified Data Protection

PTV MAP&GUIDE INTRANET QUELLES SONT LES NOUVEAUTÉS?

Les journées SQL Server 2013

Sophos SafeGuard Disk Encryption, Sophos SafeGuard Easy Aide administrateur. Version du produit : 5.60

Installation du point d'accès Wi-Fi au réseau

vmware au CC-IN2P3 Déploiement rapide d une infrastructure destinée à de la formation et réflexions sur vsphere.

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

EGEE vers EGI - situation actuelle et interrogations

Exchange Server 2013 Préparation à la certification MCSE Messaging - Examen

Infrastructure de calcul du CRRI

Tendances Techniques et compétences des laboratoires

Livre blanc. La sécurité de nouvelle génération pour les datacenters virtualisés

Plan du cours. Autres modèles pour les applications réparties Introduction. Mode de travail. Introduction

Cours: Administration d'une Base de Données

Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines

stockage, pour des économies en termes de temps et de coûts. Avantages principaux

Cloud Computing : quels intérêts et quelles solutions pour les développeurs?

CLOUD CP3S SOLUTION D INFRASTRUCTURE SOUMIS À LA LÉGISLATION FRANÇAISE. La virtualisation au service de l entreprise. Évolutivité. Puissance.

Exchange Server 2010 Exploitation d'une plateforme de messagerie

Le cloud-computing : une réponse aux problématique de gestion de la qualité des projets pour des équipes géographiquement dispersées

Orchestrer son cloud OpenStack avec Heat

Infrastructure RDS 2012

Transcription:

Mise en place d'un gestionnaire de données léger, pluridisciplinaire et national pour les données scientifiques Catherine Biscarat pour le groupe irods de France Grilles D. Benaben,, Y. Cardenas, P. Gay, B. Hiroux, J.-Y. Nief, J. Pansanel et H. Cordier, G. Mathieu Journées SUCCES, 13-14 novembre 2013, IPGP Paris 1

Paysage scientifique actuel Les communautés scientifiques Production de grandes quantités de données Des collaborateurs souvent dispersés en France/Europe/Monde Deux exemples concrets Prise de données sur lignes de faisceaux distribution des données aux instituts collaborateurs définition des droits d'accès par expérience Institut Laue-Langevin Sciences de la vie des millions de séquences à comparer besoin de traiter les données sur une grille de calcul avec un accès souple aux données Comparaison de génomes 2

De nouveaux défis Traitement d'un grand volume de données, distribuées sur plusieurs sites, Collaboration de sites équipés d'infrastructures et de matériels hétérogènes, Organisation physique des fichiers transparente pour les utilisateurs, Recherche de lot de données par métadonnées, Création de listes de contrôle d'accès, Accès à distance aux données. un système de fichiers classique ne suffit pas 3

Un outil adapté : irods irule Oriented Data Systems Projet né en 2006, successeur de SRB Open Source, licence BSD Développé par le groupe DICE et quelques collaborateurs (dont le CC-IN2P3) Data Intensive Cyber Environments Group Gestionnaire de données de type «grille» Mécanisme uniforme pour accéder aux données Système de métadonnées pour manipuler les données Plus en détails irods disk disk MS Gestion de collections de données distribuées sur des sites lointains sites équipés d'infrastructures (disque, bande) hétérogènes Organisation logique des fichiers indépendante de leur organisation physique Cohérence et homogénéité dans la gestion des données renforcées intègre la politique de gestion des données (décidée par leur propriétaire) irods ne remplace pas une solution locale pour des accès parallèles massifs 4

irods à ce jour Ordres de grandeur Projets internationaux (des centaines de collaborateurs) Centaines de millions de fichiers dans le monde Plusieurs Po de données Exemples d'utilisateurs 5

Techniquement Trois éléments principaux définissent un système irods Base de données + «moteur de règles» + ressource Plusieurs ressources distantes peuvent co-exister Plusieurs systèmes peuvent être fédérés Interfaces utilisateurs : APIs, GUIs, CLIs (shell) Authentification : mot de passe, kerberos, certificat Desktop Grid Cloud file Gestion des données Flot des données prédéfini et transparent pour l'utilisateur A la demande 6

Fichiers logiques Vue utilisateur [user ~]$ ils /frgrid/home/unecollab/rawdata: C- /frgrid/home/unecollab/rawdata/calibration C- /frgrid/home/unecollab/rawdata/be C- /frgrid/home/unecollab/rawdata/zr [user ~]$ ils -l BE/ /frgrid/home/unecollab/rawdata/be: owner 0 ps-lpsc-lpscdata7-fr 80072192 2013-11-11.16:21 owner 0 ps-lpsc-lpscdata7-fr 1748189011 2013-11-11.15:48 owner 1 iphccache1 1748189011 2013-11-11.16:42 owner 0 ps-lpsc-lpscdata7-fr 80072192 2013-11-11.16:21... & & & & run0977156_123.dst run0977156_123.raw run0977156_123.raw run0977234_673.dst 7

Métadonnées Vue utilisateur Attachées à : une collection, un fichier, un utilisateur Triplet : nom attribut unité [user ~]$ imeta add -d run0977156_123.raw length 10 cm [user ~]$ imeta add -d run0977156_123.raw hall east [user ~]$ imeta ls -d run0977156_123.raw AVUs defined for dataobj run0977156_123.raw: attribute: length value: 10 units: cm ---attribute: hall value: east units: [user ~]$ imeta -d qu hall east collection: /frgrid/home/unecollab/rawdata/zr dataobj: run0977156_123.raw ---collection: /frgrid/home/unecollab/rawdata/zr dataobj: run0817773_556.raw 8

Gestion implicite Vue administrateur Par la définition de règles (actions) Basées sur d'autres règles et les (~250) micro-services proposés par irods Interprétées automatiquement par le moteur de règles unique Transparent pour les utilisateurs AcPostProcForPut { # executed with each new file loaded in irods on ($objpath like "/tempzone/home/cines-test/archivage/*.tar") { acadonis1($objpath,"test"); # untar the file and register all the created files in irods } msisysrepldataobj("sitearesc1","null"); # replication on an other disk space called SiteAResc1 msisysrepldataobj("diskcache,"null"); # replication on an other disk space called diskcache msisysmetamodify("comment++++numrepl=0", Original file"); # modify the file metadata called comment for replica number 0 } 9

Reprenons nos exemples Données d'expériences à l'institut Laue-Langevin Les données de EXOGAM ~ 60 To de données produites en quelques semaines Les données reviennent aux participants de l'expérience (pour la plupart européens ; en France : ILL, GANIL, IN2P3 et CEA) Pour leur distribution Infrastructure irods du CC-IN2P3 En collaboration avec le LPSC Injection des données dans irods (irsync) Contrôle d'accès défini par sous-expérience Accès par mot de passe Utilisation légère des métadonnées Détecteur EXOGAM installé à l'ill cache icat MS (30 TB) disk (30 TB) 10

Reprenons nos exemples Création d'une base de données de similarité entre les espèces (S. Penel, Rencontres Scientifiques FG 2011) Les données à traiter Cinq millions de nouvelles séquences de génomes Calculs de similarité entre génomes (BLAST) Des milliers de tâches sur cinq sites grille Accès aux données sur la grille Commandes glite Rapatriement fichier par fichier long Infrastructure irods du CC-IN2P3 Accès facile à des lots de données Installation de clients irods sur la grille Post traitement des fichiers via API C irods disk MS icat (extraction sélective de données) 11

Mise en place d'un système national 20 TB répliqués Instance irods France Grilles Coordonnée par France Grilles Faciliter l'accès aux ressources à ses communautés d'utilisateurs Une instance de production unique Mutualisation des efforts Mutualisation des ressources Aide aux petites communautés 20 TB 40 TB icat Accueil de nouveaux partenaires 12

L'instance Nationale CC-IN2P3 (Lyon) Service Administration IPHC (Strasbourg) LPSC (Grenoble) Monitoring France Grilles Coordination MCIA (Bordeaux) Infrastructure Providers User Support Service Customisation 13

Accueil des utilisateurs Profil info@france-grilles.fr Données scientifiques Tout domaine Utilisateur seul ou un groupe Linux/Windows/Internet Expression des besoins Etude du cas Stockage et distribution de données Gestion de flots de données plus complexes avec des actions implicites (réplication, création de métadonnées, déclenchement de traitement,... ) Ou test du produit irods (plateforme de test) Acceptation conditions d'utilisation Allocation de ressources Mise en place des règles (administrateurs) Aide à la prise en main Utilisation Copie, réplication, création de métadonnées Contrôle des accès Accès depuis les nœuds de calcul FR-Grilles Chaque année Besoins Utilisation (certificat) Suivi des utilisateurs 14

Avancement du projet Identification des partenaires Réelle synergie Volumétrie disponible 80 To nets Ajout de ressources distantes aisé (nouveaux partenariats) icat en production Mise en place des serveurs Finalisation des conditions d'accès Déploiement de clients sur les sites FR-Grilles Etude des interfaces internet Accueil des premiers utilisateurs Définition des principes de bonne conduite Préparation de formations... 15

En guise de conclusion Gestionnaire de données commun Mutualiser l'administration Solution fiable pour la gestion des données Soutien des petites communautés Dans le cadre de Coordonner le support et la formation En cours de mise en place Accueil des premiers utilisateurs cet automne Formation : 1 journée à Clermont-Fd 11-13 février (couplée avec DIRAC) Toute information : http://www.france-grilles.fr/ Si vous avez des besoins qui correspondent, nous contacter! info@france-grilles.fr 16