ARCHIVAGE INTERMÉDIAIRE DE DONNÉES SCIENTIFIQUES ISAAC INFORMATION SCIENTIFIQUE ARCHIVÉE AU CINES. PIN- Pérennisation de l Information Numérique



Documents pareils
Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) JRES Novembre 2007

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007

Pérennisation des Informations Numériques

Sujet Solution de sauvegarde de serveurs et postes de travail avec BackupPC et Bacula. par ALIXEN

Présentation aux entreprises du numérique

Cloud Computing, Informatique en nuage, UnivCloud, Datacenters, SI, Iaas, Paas, Saas, fonction support, technologies, Innovations.

La présentation qui suit respecte la charte graphique de l entreprise GMF

Glossaire. Arborescence : structure hiérarchisée et logique qui permet d organiser les données dans un système informatique.

Plan. Un modèle d organisation. Pour les Archives numériques. Présentation Groupe PIN. Claude HUC (CNES)

Cycle de vie, processus de gestion

3 ème journée des utilisateurs de l archivage

Présentation du cadre technique de mise en œuvre d un Service d Archivage Electronique

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

Kick Off SCC 2015 Stockage Objet. Vers de nouveaux horizons

DEMANDE D INFORMATION RFI (Request for information)

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

Retour d expérience RATP. Intégrer le test de performance au cœur du processus de développement agile. Challenges, techniques, résultats.

Ministère de la Culture et de la Communication

Jean-François Boulicaut & Mohand-Saïd Hacid

Prestations de conseil en SRM (Storage Ressource Management)

Introduction Big Data

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data

Table des matières détaillée

Les archives de l entreprise à l ère du numérique. Présentée par: HAMMA Mustapha

APX Solution de Consolidation de Sauvegarde, restauration et Archivage

J'ai un patrimoine électronique à protéger

Fouillez facilement dans votre système Big Data. Olivier TAVARD

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

Technologie SDS (Software-Defined Storage) de DataCore

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

FILIÈRE TRAVAIL COLLABORATIF

Hébergement MMI SEMESTRE 4

Présentation du module Base de données spatio-temporelles

Le fonctionnement d un service d archives en entreprise. Le Service national des archives

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.


Archivage numérique de documents SAP grâce à DocuWare

En savoir plus pour bâtir le Système d'information de votre Entreprise

Outils d archivage de l UNIL: du papier à l électronique

Le stockage. 1. Architecture de stockage disponible. a. Stockage local ou centralisé. b. Différences entre les architectures

Architectures d implémentation de Click&DECiDE NSI

PROGRAMME DE FORMATION

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Master Informatique et Systèmes. Architecture des Systèmes d Information. 03 Architecture Logicielle et Technique

Windows Azure Platform Développez, déployez et administrez pour le Cloud Microsoft

La conservation à long terme de contenus numériques

P2A POLITIQUE ET PRATIQUES D'ARCHIVAGE (SPHÈRE PUBLIQUE)

ISTEX, vers des services innovants d accès à la connaissance

L. Granjon, E. Le Goff, A. Millereux, L. Saligny MSH Dijon

Université de Lausanne

Conservation des documents numériques

PHP. Performances. Audit et optimisation LAMP. Julien Pauli. Cyril Pierre de Geyer. Guillaume Plessis. Préface d Armel Fauveau

Pourquoi OneSolutions a choisi SyselCloud

Les enjeux du stockage de masse sur bande vidéo

Mercredi 15 Janvier 2014

Table des matières Chapitre 1 Virtualisation, enjeux et concepts Chapitre 2 Ligne de produit XEN

Solution de stockage et archivage de grands volumes de données fichiers.

Architecte Logiciel. Unité de formation 1 : Développer en s appuyant sur les modèles et les frameworks 7 semaines

CQP ADMINISTRATEUR DE BASES DE DONNÉES (ABD)

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Des systèmes d information partagés pour des parcours de santé performants en Ile-de-France.

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

CLOUD PRIVÉ GENERALI - ACCOMPAGNEMENT AU CHANGEMENT - DU «POC» À LA RÉALITÉ. Alain ROY Generali Logo Société

OFFRES DE SERVICES SDS CONSULTING

2 disques en Raid 0,5 ou 10 SAS

Conserver les Big Data, source de valeur pour demain

Déterminer les enjeux du Datacenter

Cloud Computing : Comment est-il appréhendé par l'entreprise Marocaine?

Déjeuner EIM Enterprise Information Management. Mardi 16 novembre 2010 Restaurant l Amourette Montreuil Thomas Dechilly CTO Sollan

Les ressources numériques

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

ARCHEOVISION. Centre de Ressources Numériques 3D. UMR 5607 du CNRS. R. Vergnieux IR-CNRS

Infrastructure / réseau / sécurité /support utilisateur

Comité sectoriel de la sécurité sociale et de la santé Section «Sécurité sociale»

Prestataire Informatique

Technologies du Web. Créer et héberger un site Web. Pierre Senellart. Page 1 / 26 Licence de droits d usage

Archivage pérenne : les formats conformes Version :

Les données massives de Copernicus : vers un nouveau paradigme. Hervé Jeanjean Cnes

TMS THE MUSEUM SYSTEM

Sauvegarde et Restauration d un environnement SAS

La gestion des documents administratifs à la Bibliothèque nationale de France

1 ère Partie Stratégie et Directions Stockage IBM

Résumé CONCEPTEUR, INTEGRATEUR, OPERATEUR DE SYSTEMES CRITIQUES

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Fabriquant de Fabuleux logiciels

Procédure Création : 04/05/2009 ARCHIVAGE DE LA MESSAGERIE

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

[ACTION COLLECTIVE] «Modélisation et intégration des technologies d identification et de traçabilité dans la supply chain»

Problématiques de stockage d un Data Center

Marché Public. Serveurs et Sauvegarde 2015

Zimbra Collaboration 8.X

GLOSSAIRE. On premise (sur site)

LE RESEAU Ce réseau est issu de l'identification et de la formation de personnes et d'équipes ressources en numérisation.

Cisco Unified Computing Migration and Transition Service (Migration et transition)

Assemblée générale Aristote

Table des matières 1. Avant-propos. Chapitre 1 Virtualisation du poste de travail

Vers une fédération de Cloud Académique dans France Grilles J. Pansanel pour le groupe FG-Cloud (M. Airaj, C. Cavet, V. Hamar, M. Jouvin, C.

Qu est-ce que le «cloud computing»?

Transcription:

Le 04 janvier 2013 ARCHIVAGE INTERMÉDIAIRE DE DONNÉES SCIENTIFIQUES ISAAC INFORMATION SCIENTIFIQUE ARCHIVÉE AU CINES PIN- Pérennisation de l Information Numérique PIN - Pérennisation et communication de l'information Numérique

Centre Informatique National de l Enseignement Supérieur 2/25 Basé à Montpellier (Hérault, France) EPA créé en 1999, succédant au CNUSC (Centre National Universitaire Sud de Calcul) créé en 1980 Sous tutelle du Ministère de l Enseignement Supérieur et de la Recherche DGRI (Direction Générale de la Recherche et de l Innovation) DGESIP (Direction Générale pour l Enseignement Supérieur et l Insertion Professionnelle) Missions Calcul numérique intensif (30 ème machine mondiale) Archivage pérenne de documents électroniques Activité transversale : hébergement d'environnements informatiques plus d info sur : http://www.cines.fr

Les données calcul (projet d un an renouvelable) 3/25 Étape 1 : Dépôt Codes, Données calcul 700 To d espace de travail optimisé pour le calcul Lancement de job, Ecriture des fichiers de sorties, Compilation, dépôt de librairies Étape 2 : transfert des données pertinentes (Valeur ajoutée 237 TéraFlops) 600 To de stockage sauvegardé sur la durée du projet+6mois 600To Robothèque

Panorama de la donnée Scientifique 4/25 Démocratisation de la donnée (opendata) Explosion du volume des données : Nouveaux capteurs (plus précis) LSST : Large Synoptic Survey Telescope (15 à 30 Térabytes par nuit). LHC : Le Grand collisionneur de hadron (15 petabytes par an) Augmentation des capacités de calcul Champs de recherches de plus en plus larges Exploitation Interdisciplinarité : interdépendance des thématiques scientifiques. Data Mining : recherche d information cachée. Outils de visualisation et Web 2.0

BIG DATA 5/25 BIG DATA n est pas à priori un phénomène de mode mais une évolution de l organisation des Systèmes d information qui nécessite une architecture en dehors des outils conventionnels de gestion. Stocker : Pérenniser: Traiter, Analyser : Exploiter, Visualiser : Donner un sens : Protéger : supprimer : niveau de sécurité, délais d accès, autorisation, authentification garantir l exploitabilité d une donnée dans le futur. traiter de grande quantités de données hétérogène web 2.0 pour exploiter la donnée là ou elle est savoir distinguer la donnée de l information donnée (partiellement) publique, privée, répartie, niveau de confiance supprimer une donnée qui à de multiples copies, supprimer le train de bit. Politique : financement, privé, publique Organisationnel : communautés scientifiques, laboratoire, chercheur isolé Méthodologique : protocoles d accès, d intérogation, représenter l information Algorithmique : mapreduce, indexation, Interopérabilité : standard de formats, de description, d accès Applicatifs : outils sur poste client, sur serveur, Web 2.0 Infrastructure : gestion du risque cout/sécurité délais de réponse

CLOUD 6/25 Client Saas Paas IaaS Software as a Service le matériel, l'hébergement, le framework d'application et le logiciel sont dématérialisés. Plateforme as a Service le matériel, l'hébergement, l e framework d'application et le logiciel sont dématérialisés. Infrastructure as a Service seul le matériel (serveurs) est dématérialisé

Les risques lié à l information 7/25 Risque sur : Information Compréhension Intégrité Exploitation Valorisation Mise en œuvre trop précieux pour être détruit (au grenier). référentiel (dossier rangé des l armoire). affaires courantes (papier sur le bureau). Réunion C4 CINES 16 mai 2011 7 Métadonnées Contrôle des formats Communauté structurée Contrôle d intégrité Veilles

Donnée et Information 8/25 interprétation traitement Information de représentation Objet /donnée (numérique ou physique) Information de représentation Information de représentation

L archivage au CINES 9/25 Archivage à long terme de données scientifiques, patrimoniales, PAC administratives. ISAAC Assurance qualité OAIS Compétences archivistiques Expertise format Processus métier Gestion des risques EUDAT Archivage intermédiaire de données scientifiques. Archivage de données scientifiques pour des communautés européennes structurées.

Les systèmes d archivages du CINES 10/25 archivage intermédiaire et à long terme de données administratives, patrimoniales et scientifiques Mandat pour l archivage des thèses électroniques soutenues en France (arrêté du 7 août 2006) Agréé pour l archivage intermédiaire par le SIAF Périmètre opérationnel : données de l enseignement supérieur et de la recherche Partenariat avec le TGE Adonis : archivage et diffusion des données numériques en SHS archivage intermédiaire de données scientifiques Dimensionné pour des petites structures ayant de grands volumes de données Une donnée organisée et validée par des communautés d experts Un travail scientifique valorisé par le partage et la diffusion

Organigramme «Fonctionnel» 11/25 Département Archivage et Diffusion Département Calcul Intensif 6 Ans d experience Compétences Archivistique, Normes et standard Processus métier, Droit informatique Connaissance des institutions, veille technologique Expertise en format de fichier et métadonnées Étude, optimisation des codes de calcul scientifique gestion de grand volume de stockage formats de données scientifiques Support utilisateur Expertise sur les dossiers de demande de ressources Des Outils applicatifs : contrôleur de format conceptuels : modèle OAIS.. méthodologiques : processus métiers Département Services Informatiques et Infrastructures serveurs, HSM, robothèque, réplication distante, réseau Renater

Opportunité 12/25 Expertise Archivage pérenne calcul, visualisation scientifique Format Stockage Atouts Relation avec un grand nombre de laboratoires Implication dans les projets Nationaux et européens (Eudat / Prace) Capacité d organiser et de fédérer des communautés scientifiques Des challenges Sensibiliser et impliquer les utilisateurs des communautés scientifiques Proposer des services proches des besoins des utilisateurs pour susciter l adhésion Mettre en œuvre des moyens mutualisés répondant aux normes et standards aux besoins des utilisateurs

Le projet ISAAC 13/25 Objectif Mettre en place un service d'archive intermédiaire de données scientifiques pour une communauté d'utilisateurs structurée partageant les même formats de données et désireuse de mettre en œuvre une démarche combinant diffusion et conservation à long terme. Démarré en juin 2010. RH : globalement 2ETP responsable projet mi temps développeur plein temps expert calcul scientifique infrastructure, administration, web

ENQUETE auprès de laboratoires calculant au CINES (155) 14/25 Sensible à l'archivage Solutions mises en œuvre? Besoin d'informations? Durée de stockage souhaitée 17 27 18 OUI NON NSPP 16 27 19 OUI NON NSPP 2 19 41 OUI NON NSPP 16 11 3 14 18 1,5 an 3 ans 5 ans Illimitée NSPP Besoins selon le types de données à archiver 80% 70% 60% 50% 40% 30% 20% 10% 0% 8% résultats d'observation 73% 45% 11% résultats de calcul codes sources Autres 35 30 25 20 15 10 5 0 Binaire maison Formats utilisés HDF5 NETCDF AUTRE Nombre de réponses

Constat 15/25 Le stockage dans les laboratoires se fait sur des systèmes locaux Importance de la sécurisation des données Besoins d accès le temps de l analyse et de la publication des résultats (de 3 à 5 ans ) Intérêt de l archivage pour la reprise de travaux comparaison de résultats post processing partage de données entre scientifiques beaucoup de formats binaires «maison» accompagné d une description «maison» La notion même de métadonnée est rarement connue Partage de la donnée en cours de travaux dans un cercle restreint de collaborateurs connus Volonté de partage à un communauté plus large (après publication). Volumes de données par projet de 1 à 10 To globalement.

Bilan 16/25 Besoin d information sur les enjeux de l'archivage et de la diffusion Une solution par laboratoire -> besoin de fédération Conserver l information n est pas le métier des laboratoires Exploiter et publier les résultats : 3 à 5 ans Principalement des résultats de calcul post-processing et comparer des résultats, ne pas refaire des calculs couteux Partager et sécuriser la donnée dans un cercle restreint Cerner l importance d une donnée est une démarche à part entière. Il est nécessaire de mettre en œuvre les processus permettant Son partage, sa valorisation, sa conservation et son intégrité.

Une organisation 17/25 Le CINES identifie des Comités Thématiques Archivage (idem DARI) Président Groupe d expert de la discipline Référent CINES Le CTA propose des critères pour les projets qu il contiendra Le projet Communautés Jeux de métadonnées Liste de formats Autorise les projets en accord avec le CINES Transmet les données à conserver Remplit les conditions du CTA (format et métadonnées) Récupère les données, ou migre vers un archivage pérenne Accèdent aux informations selon leurs autorisations

Les étapes de la vie d un projet d archivage dans ISAAC 18/25 J ai des données scientifiques à archiver Je remplis le formulaire Web de demande d ouverture d un projet d archivage de données scientifiques dans ISAAC Le Comité Thématique d Archivage de mon domaine scientifique étudie et valide mon projet Au terme de la durée de conservation Je récupère mes données OU je lance un processus d archivage sur le long terme dans PAC (si données éligibles) Je travaille avec le CINES à la mise en œuvre des éléments spécifiques de mon projet. Mon projet entre en production, je réalise l archivage de mes données sur l interface ISAAC Moi-même, les membres de mon équipe ou d autres utilisateurs autorisés pouvons consulter et partager les données du projet sur le site d ISAAC

Les fonctionnalités de l interface WEB 19/25 Identification de l utilisateur Dépôt des fichiers à archiver METADONNEES DEPOT Saisie des métadonnées de description via un formulaire Web Analyse du dépôt Contrôle des objets constitutifs des SIP Ajout automatique d informations de pérennisation ANALYSE ARCHIVAGE Déclenchement de l archivage des SIP Accès aux données Partage avec les utilisateurs autorisés ACCES / PARTAGE

Représentation fonctionnelle 20/25 IRODS - WEB - FORMULAIRE XSD/XML Producteur de données INGEST Audit Validation des formats Saisie des métadonnées Identification des fichiers Contrôle du profil Gestion des autorisations ACCESS Recherche Inventaire des fichiers Récupération via WEB/IRODS Consommateur des données - Producteur - Personne autorisée - Tout le monde STORAGE Contrôle d empreintes Copies multiples Traçage des événements Comité d expert de la thématique : définissent le contexte d archivage : - Métadonnées; - Formats acceptables; - Base de connaissance - Fonctionnalité supplémentaire Management Décideur OAIS (direction CINES)

Les Technologies utilisées 21/25 basée sur des technologies libres de droits : Irods, XML, XSD, SGBD Postgres, AJAX. Irods Interfaces : Données réparties Gestion souple de grands volumes Règles permettant des traitements spécifiques (calcul de checksum, migration) web 2.0 (ajax), client irods Implémentations Validateur de format (hdf5) Validateur XML/XSD. XHF : génération dynamique de formulaire web à partir de schéma XML XSD Formulair e WEB XML SGBD

Isaac, prise en compte des préoccupations du Big Data 22/25 Données irods locales ou réparties, disques, de bandes sur site local ou distant. Volume Transfert de données via irods, classes de services. Vélocité variété respect des normes : OAIS, NFZ-42-013, métadonnées Irods et métadonnée (XML) à plusieurs niveaux. Contrôle des formats

Infrastructure matériel 23/25 Environnement PROD : 2 serveurs virtuels hypervisé par XEN sur un DELL POWEREDGE R310, 4 Go RAM, 133 go Disque. Newton : 6 UC virtuelles, 1Go mémoire,47 Go, 100 Go sur SAM. (test pre-archivage client (PRECCINSTA+XHF) newton.cines.fr) Isaac : 6 UC virtuelles, 2Go mémoire,47 Go, 3To sur sam. (ISAAC, pilote) Sauvegarde TSM prévue dans l attente d une configuration irods.

Projet Pilote PRECCINSTA 24/25 Partenariat avec le CORIA COmplexe de Recherche Interprofessionnel en Aérothermochimie (l UMR 6614 ) PRECCINSTA : Prediction and control of combustion instabilities for industrial gas turbines Volumetrie de 1 à 10 To. Exemple : Un jeu de de données contient : 4096 fichiers maillage au format HDF5 4096 fichiers solution au format HDF5 4096 fichiers de méta-données associés à chaque morceau du maillage + 1 fichier de méta-données "maitre", le tout au format XDMF afin de pouvoir importer les solutions dans paraview.

Merci pour votre attention 25/25? prat@cines.fr