La préservation des données scientifiques C. Diaconu CPPM Cristinel Diaconu CPP Marseille Study Group for Data Preservation and! Long Term Analysis in High Energy Physics
Data Big Bang C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 2
Big Scientific Data > Scientific research observes a dramatic increase in data and are questioning the long term future of this data Telescope Collecting Area C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 3
Big data: explosion des données digitales Tweeter Stock database Library of Congres Digital collection Climatic Data Center database Credit: P. Buncic, ECFA Workshop, 4 Oct. 2013 LHC raw data per year YouTube videos per year Digital Health records Google index Facebook new content per year 0 20 40 60 80 100 120 140 160 180 200 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 4 PB
Les données digitales sont fragiles > La capacité de stockage est physiquement dépassée depuis longtemps C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 5
Generic arguments > Task forces already in place to address this issue in a generic way (standards) e.g. Blue Ribbon, APA, DPC, escidir, http://www.alliancepermanentaccess.eu http://brtf.sdsc.edu > Scientific Data is a major component of the ongoing efforts (complexity) > Some scientific fields are well advanced : astrophysics C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 6
Est-ce que les données scientifiques sont spéciales? > Riches en information car structurées suivant un plan de recherche et une démarche scientifiques > De plus en plus diverses, la plus part des disciplines se sont mis a produire massivement des données > Souvent produites avec des efforts financiers et humains significatifs (voir gigantesques) Plus ca coute cher, moins c est reproductible > Englobent des connaissances uniques «Time stamped» > De plus en plus dans une logique «observatoire»: Les données contiennent plus que ce qu on voulait au départ > Il est évident qu on doit réfléchir (à deux fois) sur le sort de ces données PRESERVATION! C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 7
Big and complex > Exemple: Physique des Hautes énergies > Large Hadron Collider (27 Km, 13 TeV, 40MHz) C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 8
Exemple: Programme experimental de la physique des hautes énergies HEP ± 10 ans LHC LEP HERA Tevatron pp / ions ee ep pp fb -1 ++ 0.9 fb -1 0.5 fb -1 10 fb -1 today 2000 2010 2020 Les données sont uniques! BaBar Belle CLEO C BES III KLOE ee ee ee ee ee 600 fb -1 1 ab -1 ++ 0.9 fb -1 fb -1 ++ 1 fb -1 ++ RHIC SPS pp / ions Fixed target Multi-exp Multi-exp [not all programmes, dates are approximate, just to give the picture] C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 9
Des instruments gigantesques > ATLAS: L équivalent d une camera avec 25Gpixels (avec une cinquantaine de technologies différentes) et 40 000 000 000 «photos» par seconde (100Pb) > manips LHC: 1000 articles scientifiques en 2 ans découverte du boson de Higgs C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 10 Collaboration Internationale ~3000 chercheurs
LHC computing C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 11
Quantité de données: 1PB -> 100PB->1EB 2012 LHC Pre-LHC C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 12
L opinion de la communauté scientifique arxiv:0906.0485 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 13
Est-il difficile de préserver les données? > Les programmes accumulent la plupart des données vers la fin du programme > Les ressources (financières et humaines) décroissent rapidement après la fin des manips > En absence d une planification rigoureuse les conditions pour des nouveau projets ne sont pas idéales Data 1981 1984 1992 2007 Funding People end of data taking C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 14
The email you may receive one day (I did) Dear Dr. Diaconu, In the tape storage area we still have 4132 tapes of type 3840 containing HERA data. We do not have a functioning reading device anymore and the storage area was polluted recently, so it is likely that the tapes are damaged. Would you like us to send you these tapes or should we destroy them directly? Yours Sincerely, Tape admin. service [a large computing centre] C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 15
What is HEP data? Digital information The data themselves, volume estimates for preservation data of the order of a few to 10 PB Other digital sources such as databases to also be considered Software Simulation, reconstruction, analysis, user, in addition to any external dependencies Meta information Hyper-news, messages, wikis, user forums.. Publications Documentation Internal publications, notes, manuals, slides Expertise and people C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 16
Préserver les données: pourquoi faire? Preserving HEP data is important for: Compilations New models Understanding discrepancies Combinations C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 17
Un exemple typique > Experience JADE Données sauvées par hasard Nom de code: la valise Ré-anlayse après 20 ans 10 publications 2011 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 18
Publications à long terme > LEP: 1989-2000 mais 300 publications produites apres 2000 et une centaine après 2005 > C est systématique: les publications continuent long temps après la fin de l experience Nouvelles idées, théories etc. C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 19
Est-ce que la réutilisation des données est risquée? "Errors using inadequate data are much less than those using no data at all. Charles Babbage Parse.insight Governance issues are very important to support data usage C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 20
Long term organisation Preservation project make sense if the scientific supervision is ensured C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 21
Modèles de données > Réduction et abstraction RAW ( POT ) DST ntuple article 1.5Mb->15Mb ------------à 30 Kb (par événement ) Pas de format standardisé C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 22
DPHEP : définition des niveaux de préservation > En progression de la complexité et les couts Preservation Model Use Case 1 Provide additional documentation Publication related info search Documentation 2 Preserve the data in a simplified format Outreach, simple training analyses Outreach 3 4 Preserve the analysis level software and data format Preserve the reconstruction and simulation software as well as the basic level data Full scientific analysis, based on the existing reconstruction Retain the full potential of the experimental data Technical Preservation Projects C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 23
! Earliest theses, meetings, papers Level 1:! Documentation Logbooks to come, as done for JADE > Une tache considérable: des groupes de travail dédiées > Non-digital: Cataloguing, organisation, scanning or photographing of appropriate of papers, notes, drawings, talks from pre-web days, detector schematics, blueprints, logbooks,... Virtual Archives established by the experiments > Digital: Old online shift tools, detector configuration files, electronic logbooks, detailed run information, web content from out-dated servers with dead links, various wikis, meetings, talks,... David South H1 Data Preservation Projects 21.04.2011 Page 9 Replacement of old web servers by VMs, hosted by the computer centres Replacement of old pages to newer technologies such as wikis (use of (T)wikis much more prevalent in the LHC era) Use of external services for hosting collaboration material C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 24
Documentation projects with INSPIRE > Internal notes now available on INSPIRE Password protected now, simple to make publicly available in the future > The ingestion of other documents is under discussion, including theses, preliminary results, conference talks and proceedings, paper drafts,... > More on InSpire: reduced data? C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 25
HEP outreach initiatives > Many initiatives promoting outreach efforts and to improve the public understanding of science in general C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 26
Outreach > Use real and preserved data to enhance scientific education worldwide > Simple data format: input using text file of kinematics of HEP events Viewpoints (NASA) BaBar data > Discussions about common formats ongoing B-lab (KEK) example considered Experience at LHC Connect to existing projects (master classes etc.) H1 data C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 27
Summary of information from the (pre-lhc) experiments Longévité recherchée: > 10 ans C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 28
Exemples projets Préservation d un système d accès et calcul à des données complexes (SLAC/Stanford USA) Système de préservation et migration Virtualisation, validation intensive (DESY, Hambourg, Allemagne) C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 29
Plan de sauvetage, vers un modèle économique Data Archiviste Estimation du cout du projet: >1% du cout total pour une production scientifique augmentée de 10% Des réflexions en cours sur: Systèmes de stockage robustes, basse consomation etc. Couts de la préservation de données à long terme C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 30
Data Preservation and Open Access at the LHC > Reflection just started in ATLAS, ALICE, CMS, LHCb Common understanding that starting earlier will consolidate the long term future Strong wish to develop a common policy at CERN and within DPHEP C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 31
DPHEP: Groupe d études et organisation internationale > Study Group DPHEP: > Participation des grands laboratoires (CERN, DESY, FERMILAB, SLAC, KEK,IHEP et experiences > Organisation internationale en cours de mise en place > 100 contact personnes de contact > Chair: D. Diaconu Project Manager: Jamie Shiers (CERN) C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 32
DPHEP Visibility CERN Courier, May 2009 February 2011 May 2011 Symmetry, December 2009 Berliner Zeitung and Frankfurter Rundschau, February 2010 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 33
DPHEP Intermediate Recommendations (end 2009) > arxiv:0912.0255 > An urgent and vigorous action is needed to ensure data preservation in HEP Many examples for the physics case explored Data is rich and can be further exploited in most cases beyond the collaboration lifetime > The preservation of the full analysis capability of experiments is recommended, including the preservation of reconstruction and simulation software > An interface to the experiment know-how should be introduced: data archivist position in the computing centres > The preservation of HEP data requires a synergic action: collaborations, laboratories and funding agencies > An International Data Preservation Forum is proposed as a reference organisation. The Forum should represent experimental collaborations, laboratories and computing centres C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 34
DPHEP publication 2012 > Full status report of the activities of the DPHEP study group, including: Tour of data preservation activities in other fields An expanded description of the physics case Defining and establishing data preservation principles Updates from the experiments and joint projects FTE estimates for these and future projects Next steps to establish fully DPHEP in the field arxiv:1205.4667 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 35
Virtual Observatories in Astrophysics F.Pasian C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 36 > Data Archives Inter-operable > Work on standards and access to Data, simulation, mining techniques > International, multi-experiment > Agregated Person-power: about 100FTE
Initiatives in other fields > Data preservation and in particular open access and data sharing are present in other fields such as: Astrophysics, molecular biology, earth sciences, humanities and social science C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 37
PREDON/Mastodons > Mastodons: La Mission Interdisciplinarité (MI) un défi sur la gestion, l analyse et l exploitation des très grandes masses de données scientifiques > Projet: PREDON le projet PREDON propose une approche nouvelle qui mélange les capacités scientifique, technique et organisationnelle des grandes collaborations en physique des particules et astrophysique pour définir et construire un system robuste de stockage et analyse des donnés à long terme. But: montrer qu il existe un interêt a travers les disciplines et les instituts du CNRS, Initiatives similaires MPI (Allemagne), INFN(Italie), STFC(UK) Workshop, Marseille November, 19-21, 2012 http://indico.cern.ch/conferencedisplay.py?confid=209688 Workshop en préparation, Marseille 14/15 Novembre, 2013 https://indico.cern.ch/conferencedisplay.py?confid=277002 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 38
PREDON: Challenges scientifiques Challenges scientifiques du projet à 4 ou 5 ans et affinage éventuel de ces challenges depuis la soumission des projets > Identification des demandes et des possibilités techniques pour une approche unifiée de la préservation des données dans un contexte multidisciplinaire > Renforcement du degré de cohérence et de standardisation dans plusieurs domaines scientifiques avec des besoin complémentaires > Définition et mise en place d un suivi (voir pilotage) des lots de données scientifiques afin d assurer la continuité de la chaine productionexploitation-préservation-accès. > Renforcement de la participation française dans les projets européens et internationaux dédiés à la mise en place des infrastructure de données pour la science C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 39
PREDON: Plan multi-annuel Animation Partenariat Harmonisation R&D Architecture Pilotage > Court terme (2012/2013): Animation et partenariat Elargir le champ de réflexion, constituter un consortium multi-disciplinaire > Medium terme (2013/2014) : Harmonisation et projets R&D Communication: exchanges and workshops Livre blanc sur la préservation et la mise à disposition des donées scientifiques dans un contexte multi-disciplinaire Demonstrateur accès et préservation de données scientifiques complexes > Long term (2015/2016) Architecture et pilotage Observatoire National des Données Scientifiques Coalition de grands centres de données et projets multi-disciplinaires Support et suivi des lots de données scientifiques: accès et préservation C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 40
Consortium PREDON > Formation d un consortium avec des compétences complémentaires > Physique des particules, astroparticules et théorie CPPM IN2P3 PP LAPP (IN2P3) astro-particules LPSC (IN2P3) physique theorique PREDON Avril 2012 > Astrophysique APC/FACe (IN2P3) astroparticules, astrophysique OAMP/LAM (INSU) astrophysique > Recherche informatique: exploitation des grandes masses de données complèxes LIRMM (INS2I) Univ. Montpellier Univ. Paris 5 Univ. Paris 13 Espace DEV (UM2 +IRD UAG ULR ) > Grands centres de calcul CC-IN2P3 Centre de calcul IN2P3 CINES Centre Informatique National de l Enseignement Supérieur > Contacts en cours: CNES, ExaBuilder C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 41 PREDON Décembre 2012
Compétences et challenges dans la préservation des données scientifiques Volume données Complexité Diversification des sources Structuration au niveau international IN2P3 +++ +++ + ++ + Algorithmes et methodologies pour la preservation INSU ++ ++ ++ +++ ++ CINES INS2I IRD + ++ +++ + +++ Ensemble cohérent et complémentaire de compétences Plus de contributions sont possibles C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 42
Methodologie de l archivage Les services d archivage au CINES PAC à Archivage à long terme de données scientifiques, patrimoniales, administratives ISAAC Assurance qualité OAIS Compétences archivistiques Expertise formats Processus métier Gestion des risques EUDAT à Archivage intermédiaire de données scientifiques à Archivage de données scientifiques pour des communautés européennes structurées C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 43
Groupes de Travail > WP0: Coordination générale, Animation CPPM > WP1: Systèmes et technologies pour la préservation de données Infrastructures/technologies: clouds, access, fouille de données massives WP3 Coordonnateur: CC-IN2P3 > WP2: Methodes dans la preservations de données: Workflows, specs., organisation, indexation, meta-données, technologies mining Coordonnateur: CINES WP2 Préservation WP1 > WP3: Modèles et formats des données scientifique pour l accès et la preservation HEP+Astro+theory; outreach, projet ISAAC Coordonnateur: CeSAM C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 44
Demonstrateur OAIS Experien ce Astro-VO WP2 Experien ce HEP Experien ce Environe ment WP3 WP3 Protocole ingest Data storage Data WP1 storage Protocole publication WP3 Publishing Interface C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 45
Conclusions > Les données scientifiques ont un potentiel qui dépasse le cadre de recherche initial et qui doit être exploité à long terme > La préservation de données scientifique est économiquement avantageuse: Recherche à bas cout > La collaboration internationale est essentielle > Une technologies de frontière est nécessaire Virtualisation, cloud computing, workflows. Expertise IST essentielle > Projet PREDON Animation autour du sujet, plus de collaboration souhaité Workshop Marseille 14/15 Novembre https://indico.cern.ch/conferencedisplay.py?confid=277002 C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 46
C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 47
A word on access and data preservation Example: NSF Policy Investigators are expected to share with other researchers, at no more than incremental cost and within a reasonable time, the primary data, samples, physical collections and other supporting materials created or gathered in the course of work under NSF grants. Grantees are expected to encourage and facilitate such sharing. Proposals [ ] must include a supplementary [ ] "Data Management Plan" (DMP) [ ] describ[ing] how the proposal will conform to NSF policy on the dissemination and sharing of research results. http://www.nsf.gov/bfa/dias/policy/dmp.jsp Very similar policies in other funding agencies (and growing interest for these aspects in the context of big data strategies) C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 48
EU Visions A myriad of projects/coalitions on data infrastructures either funded or in preparation for FP8 -APA, EUDAT, DPM, RDA C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 49
Data Preservation in a multidisciplinary context > More Coordination: The organisation should be brought to a long-term perspective by solid, commensurate and courageous decisions of the funding and coordination bodies responsible for the wealth of HEP experimental data produced so far. > More Standards An increased standardisation will increase the overall efficiency of HEP computing systems and it will also be beneficial in securing long-term data preservation. > More Technology: These new techniques (virtualisation etc.) seem to fit well within the context of large scale and long-term data preservation and access. > More Experiments: The expansion of the DPHEP organisation to include more experiments is one of the goals of the next period. > More Cooperation: Cooperation with other fields in data management: access, mining, analysis and preservation; appears to be unavoidable and will also dramatically change the management of HEP data in the future. C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 50
Exemple projet astrophysique: Virtual Observatories http://www.ivoa.org C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 51
Exemple projet: Data processing & storage in the cloud LabEx UnivEarths project at APC / François Arago Centre: - potential of the cloud versus classical data processing and storage opportunities - test processing on Francois Arago Centre cluster, compared with Cloud StratusLab - questions: accessibility, data security, short-term and long-term cost Schematic description of the cloud StratusLab, which is a European public cloud project IaaS which started in 2010. Processing speed does accelerate much faster on a classical computing cluster compared to cloud computing (Cavet et al. 2012) C. Diaconu Préservation des données svcientifiques Fredocs, Aussois, 8 Novembre, 2013 Page 52