La préservation des données scientifiques

Documents pareils
PREDON. A project on Scientific Data Preservation in France. 13/10/2013 PREDONx Workshop C.Diaconu 1

La préservation des données scientifiques: une mine d or pour la science de demain

Application Form/ Formulaire de demande

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

Contrôle d'accès Access control. Notice technique / Technical Manual

Instructions Mozilla Thunderbird Page 1

WEB page builder and server for SCADA applications usable from a WEB navigator

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

Préserva(on des données scien(fiques. C. Diaconu Centre de Physique des Par(cules de Marseille CPPM/IN2P3/CNRS

Editing and managing Systems engineering processes at Snecma

Nouveautés printemps 2013

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

RAPID Prenez le contrôle sur vos données

Township of Russell: Recreation Master Plan Canton de Russell: Plan directeur de loisirs

Notice Technique / Technical Manual

CEPF FINAL PROJECT COMPLETION REPORT

EU- Luxemburg- WHO Universal Health Coverage Partnership:

Services à la recherche: Data Management et HPC *

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

How to Login to Career Page

Agile&:&de&quoi&s agit0il&?&

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

VMware : De la Virtualisation. au Cloud Computing

Archived Content. Contenu archivé

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

POSITION DESCRIPTION DESCRIPTION DE TRAVAIL

Le projet WIKIWATER The WIKIWATER project

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

We Generate. You Lead.

ICA Congress, Brisbane 2012 Thème général : Les temps qui changent. La confiance et les archives*

Préconisations pour une gouvernance efficace de la Manche. Pathways for effective governance of the English Channel

Frequently Asked Questions

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

1.The pronouns me, te, nous, and vous are object pronouns.

Exemple PLS avec SAS

Plateforme Technologique Innovante. Innovation Center for equipment& materials

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

XtremWeb-HEP Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

MANAGEMENT SOFTWARE FOR STEEL CONSTRUCTION

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

MANUEL MARKETING ET SURVIE PDF

Présentation de la Grille EGEE

APPENDIX 2. Provisions to be included in the contract between the Provider and the. Holder

Institut français des sciences et technologies des transports, de l aménagement

Must Today s Risk Be Tomorrow s Disaster? The Use of Knowledge in Disaster Risk Reduction

CEST POUR MIEUX PLACER MES PDF

GEIDE MSS /IGSS. The electronic document management system shared by the Luxembourg

SMALL CITY COMMERCE (EL PEQUEÑO COMERCIO DE LAS PEQUEÑAS CIUDADES)

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

Language requirement: Bilingual non-mandatory - Level 222/222. Chosen candidate will be required to undertake second language training.

APPENDIX 6 BONUS RING FORMAT

LE FORMAT DES RAPPORTS DU PERSONNEL DES COMMISSIONS DE DISTRICT D AMENAGEMENT FORMAT OF DISTRICT PLANNING COMMISSION STAFF REPORTS

Paxton. ins Net2 desktop reader USB

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

ERA-Net Call Smart Cities. CREM, Martigny, 4 décembre 2014 Andreas Eckmanns, Responsable de la recherche, Office Fédéral de l énergie OFEN

Marie Curie Individual Fellowships. Jean Provost Marie Curie Postdoctoral Fellow, Institut Langevin, ESCPI, INSERM, France

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

AUDIT COMMITTEE: TERMS OF REFERENCE

Guide d'installation rapide TFM-560X YO.13

THE OUAGADOUGOU RECOMMENDATIONS INTERNET INFRASTRUCTURE FOR AN AFRICAN DIGITAL ECONOMY 5-7 MARCH 2012

SCC / QUANTUM Kickoff 2015 Data Protection Best Practices

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

L informatique à l IN2P3 et le rôle du Chargé de Mission

AGROBASE : un système de gestion de données expérimentales

An EU COFUND project

Eléments de statistique

Les marchés Security La méthode The markets The approach

Francoise Lee.

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

Gouvernance européenne sur les technologies énergétiques

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

Les normes de certification des archives numériques En préparation. C. Huc. La Pérennisation des Informations numériques

3 rd ORGANIC PROCESSING CONFERENCE

MEMORANDUM POUR UNE DEMANDE DE BOURSE DE RECHERCHE DOCTORALE DE LA FONDATION MARTINE AUBLET

Tier 1 / Tier 2 relations: Are the roles changing?

Règlement sur le télémarketing et les centres d'appel. Call Centres Telemarketing Sales Regulation

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

Contents Windows

ADHEFILM : tronçonnage. ADHEFILM : cutting off. ADHECAL : fabrication. ADHECAL : manufacturing.

PLAN DIRECTEUR DES PARCS, MILIEUX NATURELS ET ESPACES VERTS PARKS, NATURAL HABITATS AND GREEN SPACES MASTER PLAN

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

Disclosure on Account Opening by Telephone Request (Trust and Loan Companies) Regulations

DOCUMENTATION - FRANCAIS... 2

Faits saillants et survol des résultats du sondage

ONTARIO Court File Number. Form 17E: Trial Management Conference Brief. Date of trial management conference. Name of party filing this brief

NOM ENTREPRISE. Document : Plan Qualité Spécifique du Projet / Project Specific Quality Plan

CETTE FOIS CEST DIFFERENT PDF

Bourses d excellence pour les masters orientés vers la recherche

Transcription:

La préservation des données scientifiques C. Diaconu CPPM Cristinel Diaconu CPP Marseille Study Group for Data Preservation and! Long Term Analysis in High Energy Physics

Data Big Bang C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 2

Big Scientific Data > Scientific research observes a dramatic increase in data and are questioning the long term future of this data Telescope Collecting Area C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 3

Big data: explosion des données digitales Tweeter Stock database Library of Congres Digital collection Climatic Data Center database Credit: P. Buncic, ECFA Workshop, 4 Oct. 2013 LHC raw data per year YouTube videos per year Digital Health records Google index Facebook new content per year 0 20 40 60 80 100 120 140 160 180 200 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 4 PB

Les données digitales sont fragiles > La capacité de stockage est physiquement dépassée depuis longtemps C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 5

Generic arguments > Task forces already in place to address this issue in a generic way (standards) e.g. Blue Ribbon, APA, DPC, escidir, http://www.alliancepermanentaccess.eu http://brtf.sdsc.edu > Scientific Data is a major component of the ongoing efforts (complexity) > Some scientific fields are well advanced : astrophysics C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 6

Est-ce que les données scientifiques sont spéciales? > Riches en information car structurées suivant un plan de recherche et une démarche scientifiques > De plus en plus diverses, la plus part des disciplines se sont mis a produire massivement des données > Souvent produites avec des efforts financiers et humains significatifs (voir gigantesques) Plus ca coute cher, moins c est reproductible > Englobent des connaissances uniques «Time stamped» > De plus en plus dans une logique «observatoire»: Les données contiennent plus que ce qu on voulait au départ > Il est évident qu on doit réfléchir (à deux fois) sur le sort de ces données PRESERVATION! C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 7

Big and complex > Exemple: Physique des Hautes énergies > Large Hadron Collider (27 Km, 13 TeV, 40MHz) C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 8

Exemple: Programme experimental de la physique des hautes énergies HEP ± 10 ans LHC LEP HERA Tevatron pp / ions ee ep pp fb -1 ++ 0.9 fb -1 0.5 fb -1 10 fb -1 today 2000 2010 2020 Les données sont uniques! BaBar Belle CLEO C BES III KLOE ee ee ee ee ee 600 fb -1 1 ab -1 ++ 0.9 fb -1 fb -1 ++ 1 fb -1 ++ RHIC SPS pp / ions Fixed target Multi-exp Multi-exp [not all programmes, dates are approximate, just to give the picture] C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 9

Des instruments gigantesques > ATLAS: L équivalent d une camera avec 25Gpixels (avec une cinquantaine de technologies différentes) et 40 000 000 000 «photos» par seconde (100Pb) > manips LHC: 1000 articles scientifiques en 2 ans découverte du boson de Higgs C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 10 Collaboration Internationale ~3000 chercheurs

LHC computing C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 11

Quantité de données: 1PB -> 100PB->1EB 2012 LHC Pre-LHC C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 12

L opinion de la communauté scientifique arxiv:0906.0485 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 13

Est-il difficile de préserver les données? > Les programmes accumulent la plupart des données vers la fin du programme > Les ressources (financières et humaines) décroissent rapidement après la fin des manips > En absence d une planification rigoureuse les conditions pour des nouveau projets ne sont pas idéales Data 1981 1984 1992 2007 Funding People end of data taking C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 14

The email you may receive one day (I did) Dear Dr. Diaconu, In the tape storage area we still have 4132 tapes of type 3840 containing HERA data. We do not have a functioning reading device anymore and the storage area was polluted recently, so it is likely that the tapes are damaged. Would you like us to send you these tapes or should we destroy them directly? Yours Sincerely, Tape admin. service [a large computing centre] C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 15

What is HEP data? Digital information The data themselves, volume estimates for preservation data of the order of a few to 10 PB Other digital sources such as databases to also be considered Software Simulation, reconstruction, analysis, user, in addition to any external dependencies Meta information Hyper-news, messages, wikis, user forums.. Publications Documentation Internal publications, notes, manuals, slides Expertise and people C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 16

Préserver les données: pourquoi faire? Preserving HEP data is important for: Compilations New models Understanding discrepancies Combinations C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 17

Un exemple typique > Experience JADE Données sauvées par hasard Nom de code: la valise Ré-anlayse après 20 ans 10 publications 2011 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 18

Publications à long terme > LEP: 1989-2000 mais 300 publications produites apres 2000 et une centaine après 2005 > C est systématique: les publications continuent long temps après la fin de l experience Nouvelles idées, théories etc. C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 19

Est-ce que la réutilisation des données est risquée? "Errors using inadequate data are much less than those using no data at all. Charles Babbage Parse.insight Governance issues are very important to support data usage C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 20

Long term organisation Preservation project make sense if the scientific supervision is ensured C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 21

Modèles de données > Réduction et abstraction RAW ( POT ) DST ntuple article 1.5Mb->15Mb ------------à 30 Kb (par événement ) Pas de format standardisé C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 22

DPHEP : définition des niveaux de préservation > En progression de la complexité et les couts Preservation Model Use Case 1 Provide additional documentation Publication related info search Documentation 2 Preserve the data in a simplified format Outreach, simple training analyses Outreach 3 4 Preserve the analysis level software and data format Preserve the reconstruction and simulation software as well as the basic level data Full scientific analysis, based on the existing reconstruction Retain the full potential of the experimental data Technical Preservation Projects C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 23

! Earliest theses, meetings, papers Level 1:! Documentation Logbooks to come, as done for JADE > Une tache considérable: des groupes de travail dédiées > Non-digital: Cataloguing, organisation, scanning or photographing of appropriate of papers, notes, drawings, talks from pre-web days, detector schematics, blueprints, logbooks,... Virtual Archives established by the experiments > Digital: Old online shift tools, detector configuration files, electronic logbooks, detailed run information, web content from out-dated servers with dead links, various wikis, meetings, talks,... David South H1 Data Preservation Projects 21.04.2011 Page 9 Replacement of old web servers by VMs, hosted by the computer centres Replacement of old pages to newer technologies such as wikis (use of (T)wikis much more prevalent in the LHC era) Use of external services for hosting collaboration material C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 24

Documentation projects with INSPIRE > Internal notes now available on INSPIRE Password protected now, simple to make publicly available in the future > The ingestion of other documents is under discussion, including theses, preliminary results, conference talks and proceedings, paper drafts,... > More on InSpire: reduced data? C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 25

HEP outreach initiatives > Many initiatives promoting outreach efforts and to improve the public understanding of science in general C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 26

Outreach > Use real and preserved data to enhance scientific education worldwide > Simple data format: input using text file of kinematics of HEP events Viewpoints (NASA) BaBar data > Discussions about common formats ongoing B-lab (KEK) example considered Experience at LHC Connect to existing projects (master classes etc.) H1 data C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 27

Summary of information from the (pre-lhc) experiments Longévité recherchée: > 10 ans C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 28

Exemples projets Préservation d un système d accès et calcul à des données complexes (SLAC/Stanford USA) Système de préservation et migration Virtualisation, validation intensive (DESY, Hambourg, Allemagne) C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 29

Plan de sauvetage, vers un modèle économique Data Archiviste Estimation du cout du projet: >1% du cout total pour une production scientifique augmentée de 10% Des réflexions en cours sur: Systèmes de stockage robustes, basse consomation etc. Couts de la préservation de données à long terme C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 30

Data Preservation and Open Access at the LHC > Reflection just started in ATLAS, ALICE, CMS, LHCb Common understanding that starting earlier will consolidate the long term future Strong wish to develop a common policy at CERN and within DPHEP C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 31

DPHEP: Groupe d études et organisation internationale > Study Group DPHEP: > Participation des grands laboratoires (CERN, DESY, FERMILAB, SLAC, KEK,IHEP et experiences > Organisation internationale en cours de mise en place > 100 contact personnes de contact > Chair: D. Diaconu Project Manager: Jamie Shiers (CERN) C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 32

DPHEP Visibility CERN Courier, May 2009 February 2011 May 2011 Symmetry, December 2009 Berliner Zeitung and Frankfurter Rundschau, February 2010 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 33

DPHEP Intermediate Recommendations (end 2009) > arxiv:0912.0255 > An urgent and vigorous action is needed to ensure data preservation in HEP Many examples for the physics case explored Data is rich and can be further exploited in most cases beyond the collaboration lifetime > The preservation of the full analysis capability of experiments is recommended, including the preservation of reconstruction and simulation software > An interface to the experiment know-how should be introduced: data archivist position in the computing centres > The preservation of HEP data requires a synergic action: collaborations, laboratories and funding agencies > An International Data Preservation Forum is proposed as a reference organisation. The Forum should represent experimental collaborations, laboratories and computing centres C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 34

DPHEP publication 2012 > Full status report of the activities of the DPHEP study group, including: Tour of data preservation activities in other fields An expanded description of the physics case Defining and establishing data preservation principles Updates from the experiments and joint projects FTE estimates for these and future projects Next steps to establish fully DPHEP in the field arxiv:1205.4667 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 35

Virtual Observatories in Astrophysics F.Pasian C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 36 > Data Archives Inter-operable > Work on standards and access to Data, simulation, mining techniques > International, multi-experiment > Agregated Person-power: about 100FTE

Initiatives in other fields > Data preservation and in particular open access and data sharing are present in other fields such as: Astrophysics, molecular biology, earth sciences, humanities and social science C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 37

PREDON/Mastodons > Mastodons: La Mission Interdisciplinarité (MI) un défi sur la gestion, l analyse et l exploitation des très grandes masses de données scientifiques > Projet: PREDON le projet PREDON propose une approche nouvelle qui mélange les capacités scientifique, technique et organisationnelle des grandes collaborations en physique des particules et astrophysique pour définir et construire un system robuste de stockage et analyse des donnés à long terme. But: montrer qu il existe un interêt a travers les disciplines et les instituts du CNRS, Initiatives similaires MPI (Allemagne), INFN(Italie), STFC(UK) Workshop, Marseille November, 19-21, 2012 http://indico.cern.ch/conferencedisplay.py?confid=209688 Workshop en préparation, Marseille 14/15 Novembre, 2013 https://indico.cern.ch/conferencedisplay.py?confid=277002 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 38

PREDON: Challenges scientifiques Challenges scientifiques du projet à 4 ou 5 ans et affinage éventuel de ces challenges depuis la soumission des projets > Identification des demandes et des possibilités techniques pour une approche unifiée de la préservation des données dans un contexte multidisciplinaire > Renforcement du degré de cohérence et de standardisation dans plusieurs domaines scientifiques avec des besoin complémentaires > Définition et mise en place d un suivi (voir pilotage) des lots de données scientifiques afin d assurer la continuité de la chaine productionexploitation-préservation-accès. > Renforcement de la participation française dans les projets européens et internationaux dédiés à la mise en place des infrastructure de données pour la science C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 39

PREDON: Plan multi-annuel Animation Partenariat Harmonisation R&D Architecture Pilotage > Court terme (2012/2013): Animation et partenariat Elargir le champ de réflexion, constituter un consortium multi-disciplinaire > Medium terme (2013/2014) : Harmonisation et projets R&D Communication: exchanges and workshops Livre blanc sur la préservation et la mise à disposition des donées scientifiques dans un contexte multi-disciplinaire Demonstrateur accès et préservation de données scientifiques complexes > Long term (2015/2016) Architecture et pilotage Observatoire National des Données Scientifiques Coalition de grands centres de données et projets multi-disciplinaires Support et suivi des lots de données scientifiques: accès et préservation C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 40

Consortium PREDON > Formation d un consortium avec des compétences complémentaires > Physique des particules, astroparticules et théorie CPPM IN2P3 PP LAPP (IN2P3) astro-particules LPSC (IN2P3) physique theorique PREDON Avril 2012 > Astrophysique APC/FACe (IN2P3) astroparticules, astrophysique OAMP/LAM (INSU) astrophysique > Recherche informatique: exploitation des grandes masses de données complèxes LIRMM (INS2I) Univ. Montpellier Univ. Paris 5 Univ. Paris 13 Espace DEV (UM2 +IRD UAG ULR ) > Grands centres de calcul CC-IN2P3 Centre de calcul IN2P3 CINES Centre Informatique National de l Enseignement Supérieur > Contacts en cours: CNES, ExaBuilder C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 41 PREDON Décembre 2012

Compétences et challenges dans la préservation des données scientifiques Volume données Complexité Diversification des sources Structuration au niveau international IN2P3 +++ +++ + ++ + Algorithmes et methodologies pour la preservation INSU ++ ++ ++ +++ ++ CINES INS2I IRD + ++ +++ + +++ Ensemble cohérent et complémentaire de compétences Plus de contributions sont possibles C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 42

Methodologie de l archivage Les services d archivage au CINES PAC à Archivage à long terme de données scientifiques, patrimoniales, administratives ISAAC Assurance qualité OAIS Compétences archivistiques Expertise formats Processus métier Gestion des risques EUDAT à Archivage intermédiaire de données scientifiques à Archivage de données scientifiques pour des communautés européennes structurées C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 43

Groupes de Travail > WP0: Coordination générale, Animation CPPM > WP1: Systèmes et technologies pour la préservation de données Infrastructures/technologies: clouds, access, fouille de données massives WP3 Coordonnateur: CC-IN2P3 > WP2: Methodes dans la preservations de données: Workflows, specs., organisation, indexation, meta-données, technologies mining Coordonnateur: CINES WP2 Préservation WP1 > WP3: Modèles et formats des données scientifique pour l accès et la preservation HEP+Astro+theory; outreach, projet ISAAC Coordonnateur: CeSAM C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 44

Demonstrateur OAIS Experien ce Astro-VO WP2 Experien ce HEP Experien ce Environe ment WP3 WP3 Protocole ingest Data storage Data WP1 storage Protocole publication WP3 Publishing Interface C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 45

Conclusions > Les données scientifiques ont un potentiel qui dépasse le cadre de recherche initial et qui doit être exploité à long terme > La préservation de données scientifique est économiquement avantageuse: Recherche à bas cout > La collaboration internationale est essentielle > Une technologies de frontière est nécessaire Virtualisation, cloud computing, workflows. Expertise IST essentielle > Projet PREDON Animation autour du sujet, plus de collaboration souhaité Workshop Marseille 14/15 Novembre https://indico.cern.ch/conferencedisplay.py?confid=277002 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 46

C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 47

A word on access and data preservation Example: NSF Policy Investigators are expected to share with other researchers, at no more than incremental cost and within a reasonable time, the primary data, samples, physical collections and other supporting materials created or gathered in the course of work under NSF grants. Grantees are expected to encourage and facilitate such sharing. Proposals [ ] must include a supplementary [ ] "Data Management Plan" (DMP) [ ] describ[ing] how the proposal will conform to NSF policy on the dissemination and sharing of research results. http://www.nsf.gov/bfa/dias/policy/dmp.jsp Very similar policies in other funding agencies (and growing interest for these aspects in the context of big data strategies) C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 48

EU Visions A myriad of projects/coalitions on data infrastructures either funded or in preparation for FP8 -APA, EUDAT, DPM, RDA C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 49

Data Preservation in a multidisciplinary context > More Coordination: The organisation should be brought to a long-term perspective by solid, commensurate and courageous decisions of the funding and coordination bodies responsible for the wealth of HEP experimental data produced so far. > More Standards An increased standardisation will increase the overall efficiency of HEP computing systems and it will also be beneficial in securing long-term data preservation. > More Technology: These new techniques (virtualisation etc.) seem to fit well within the context of large scale and long-term data preservation and access. > More Experiments: The expansion of the DPHEP organisation to include more experiments is one of the goals of the next period. > More Cooperation: Cooperation with other fields in data management: access, mining, analysis and preservation; appears to be unavoidable and will also dramatically change the management of HEP data in the future. C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 50

Exemple projet astrophysique: Virtual Observatories http://www.ivoa.org C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 51

Exemple projet: Data processing & storage in the cloud LabEx UnivEarths project at APC / François Arago Centre: - potential of the cloud versus classical data processing and storage opportunities - test processing on Francois Arago Centre cluster, compared with Cloud StratusLab - questions: accessibility, data security, short-term and long-term cost Schematic description of the cloud StratusLab, which is a European public cloud project IaaS which started in 2010. Processing speed does accelerate much faster on a classical computing cluster compared to cloud computing (Cavet et al. 2012) C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 52