Préserva(on des données scien(fiques C. Diaconu Centre de Physique des Par(cules de Marseille CPPM/IN2P3/CNRS
«Big Scien(fic Data» La recherche est «digitale» Augmenta(on drama(que de la quan(té/complexité des données 1E+10 HEP Data Mb LHC Phase 2 1E+09 LHC Phase 1 100000000 ATLAS/CMS LHC 2012 10000000 1000000 100000 E791 NA48 E831 Babar BELLE D0 JLAB CDF H1 RHIC 10000 1000 E665 E691 ALEPH Telescope Collec(ng Area 100 BC72 10 Travail au sein de PREDON 1980 1990 2000 2010 2020 2030 2
Est- ce que les données scien(fiques sont spéciales? Riches en informa(on structurées suivant un plan de recherche et une démarche scien(fique De plus en plus diverses la plupart des disciplines produisent massivement des données Souvent produites avec des efforts financiers et humains significa(fs (voir gigantesques) Plus ça coute cher, moins c est reproduc(ble Englobent des connaissances uniques «Time stamped» De plus en plus dans une logique «observatoire»: Les données con(ennent plus que ce qu on voulait au départ Seulement l informa(on décantée est publiée de suite (1/10) PRESERVATION! 3
Est- ce que ça vaut le coup de garder des données «anciennes»? «Scien(fic case» Fin collabora(on Fin acquisi(on Es(ma(on: gain scien(fique de 10% pour un cout bien inférieur à 1% 4
Study over 516 ecology papers published between 1991 and 2011. 5
Données Scien(fiques Publica(ons Documenta(on Raw Donées Processées Meta- données Workflows Solware Diffuse knowledge.more Complexité, couts U(lité Technologie, méthodologie Organisa(on Quel modèle de préserva(on pour les données scien(fiques? 6
Préserva(on, réu(lisa(on, libre- accès Préserva(on à La préserva(on suppose la mise à disposi(on en accès libre à Maximiser le bénéfice ß Le libre- accès facilite la préserva(on à long terme ß Elargir la communauté, mul(plier les connaissances 7
PREDON h?p://predon.org Projet dans le cadre «Mastodons/Big Data» de la MI/CNRS IN2P3 HEP Volume données Complexité Diversifica(on des sources Structura(on au niveau interna(onal +++ +++ + ++ + Algorithmes et methodologies pour la preserva(on INSU, IRD Astrophysics Earth Sciences CINES INS2I IT, Algorithms, workflows ++ ++ ++ +++ ++ + ++ +++ + +++ Animation Partenariat Harmonisation R&D Architecture, Pilotage 8
Livre blanc sur la préserva(on de données («facts finding») 9
Conclusions Les données scien(fiques ont un poten(el qui dépasse le cadre de recherche ini(al et qui doit être exploité à long terme Preserva(on <=> Accés ouvert La préserva(on de données scien(fique est économiquement avantageuse: Recherche à bas cout Une technologies de fron(ère est nécessaire Préserva(on de toute la chaine «grise» Virtualisa(on, cloud compu(ng, workflows. La collabora(on mul(- disciplinaire est essen(elle au niveaux na(onal et interna(onal Projet PREDON: anima(on, R&D, architecture Exper(se IST très u(le pour la réflexion et la mise en place de systèmes de préserva(on à long terme
BACKUP 11
Préserva(on des connaissances Le stockage des données à long terme demande une organisa(on rigoureuse Le vrai challenge technique est la préserva(on des connaissances «meta- digitales» 12
Preservation Model DPHEP : défini(on des niveaux de préserva(on > En progression de la complexité et les couts Use Case 1 Provide additional documentation Publication related info search Documentation 2 Preserve the data in a simplified format Outreach, simple training analyses Outreach 3 4 Preserve the analysis level software and data format Preserve the reconstruction and simulation software as well as the basic level data Full scientific analysis, based on the existing reconstruction Retain the full potential of the experimental data Technical Preservation Projects
! Earliest theses, meetings, papers! Logbooks to come, as done for JADE Level 1: Documenta(on Une tache considérable: des groupes de travail dédiées > Non- digital: Cataloguing, organisa(on, scanning or photographing of appropriate of papers, notes, drawings, talks from pre- web days, detector schema(cs, blueprints, logbooks,... Virtual Archives established by the experiments > Digital: Old online shil tools, detector configura(on files, electronic logbooks, detailed run informa(on, web content from out- dated servers with dead links, various wikis, mee(ngs, talks,... David South H1 Data Preserv ation Projects 21.04.2011 Page 9 Replacement of old web servers by VMs, hosted by the computer centres Replacement of old pages to newer technologies such as wikis (use of (T)wikis much more prevalent in the LHC era) Use of external services for hos(ng collabora(on material
Documenta(on projects with INSPIRE The inges(on of other documents is under discussion, including theses, preliminary results, conference talks and proceedings, paper drals,... More on InSpire: reduced data?
MASTODONS Stockage et ges(on de données (par exemple, dans le Cloud), sécurité, confiden(alité. Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données. Visualisa(on de grandes masses de données. Extrac(on de connaissances, datamining et appren(ssage. Qualité des données, confiden(alité et sécurité des données. Problèmes de propriété, de droit d usage, droit à l oubli. Préserva(on/archivage des données pour les généra(ons futures. PREDON (PREserva(on des DONnees) 16
Big data: explosion des données digitales Tweeter Stock database Library of Congres Digital collec(on Clima(c Data Center database Credit: P. Buncic, ECFA Workshop, 4 Oct. 2013 LHC raw data per year YouTube videos per year Digital Health records Google index Facebook new content per year 0 20 40 60 80 100 120 140 160 180 200 PB PB 17
PREDON Animation Partenariat Harmonisation R&D Architecture Pilotage Observatoire Na(onal des Données Scien(fiques Court terme (2012/2013 et après): Anima(on et partenariat Elargir le champ de réflexion, cons(tuer un consor(um mul(- disciplinaire Medium terme (2013/2014) : Harmonisa(on et projets R&D Communica(on: exchanges and workshops Livre blanc sur la préserva(on et la mise à disposi(on des données scien(fiques dans un contexte mul(- disciplinaire Démonstrateur accès et préserva(on de données scien(fiques complexes Long term (2015/2016) Architecture et pilotage Observatoire Na(onal des Données Scien(fiques Coali(on de grands centres de données et projets mul(- disciplinaires Support et suivi des lots de données scien(fiques : accès et préserva(on 18
2013 2012 Prop. > IN2P3 Groupe d études PREDON Cristinel Diaconu, Dirk Hofmann, Angélique Pèpe, Magali Damoiseaux, D. Christofol (CPPM, Marseille) Sabine Kraml (LPSC, Grenoble) Giovanni Lamanna (LAPP, Annecy) Volker Beckmann (APC, Centre Francois Arago, Paris 7) > CCIN2P3 Ghita Rahal, Jean-Yves Nief (CC-IN2P3) > INSU Christian Surace (LAM/OAMP Cesam, Marseille) > INS2I Mustapha Lebbah (LIPN, Paris 13) Salima Benbernou (LIPADE, Paris 5) Anne Laurent, Sophie Nicoud (LIRMM, Montpellier) > CINES Stéphane Coutin, Marion Massol (CINES, Montpellier) > IRD Thérèse Libourel, Yuan Lin (Espace DEV) Nouveau contacts en 2013 suite aux workshops: Daniel Chateigner, CRISMAT/ENSICAEN, données cristallographie Marc Schaming, Ins(tut de Physique du Globe (CNRS/UNISTRA), IPG Strasbourg Catherine Boisson de l'observatoire de Meudon / LUTH/INSU CTA Danièle Boucon, expert en préserva(on de données CNES 19
Physique des Par(cules dphep.org Préserva(on d un système d accès et calcul à des données complexes (SLAC/Stanford USA) Système de préserva(on et migra(on Virtualisa(on, valida(on intensive (DESY, Hambourg, Allemagne) DPHEP: «Project Manager» nommé au CERN en Octobre 2012 (Scien(fic chair: CD) Collabora(on Interna(onale en cours d installa(on( MoU signé par CERN, DESY, ) 20
Exemple projet astrophysique: Virtual Observatories h}p://www.ivoa.org 21
Archival exper(se CINES Les services d archivage au CINES PAC à Archivage à long terme de données scien(fiques, patrimoniales, administra(ves ISAAC Assurance qualité OAIS Compétences archivis(ques Exper(se formats Processus mé(er Ges(on des risques EUDAT à Archivage intermédiaire de données scien(fiques à Archivage de données scien(fiques pour des communautés européennes structurées 22
Workflows et préserva(on Similarité entre les disciplines Besoin d une approche théorique rigoureuse 23
Nouveau Contact 2013 Long Term Archiving and CCSDS standards Danièle Boucon, CNES The primary objec(ve of the Producer- Archive Interface Specifica(on (PAIS) standard is to provide concrete XML files suppor(ng the descrip(on and the control of transfers from a Producer to an Archive. 24
Nouveau Contact 2013 Nb entries 300000 Crystallography Open Databases and Preserva(on: a World- Wide Ini(a(ve Daniel Chateigner (for the COD Advisory Board) 250000 200000 150000 siste rs PCOD 100000 50000 0 mars-03 mars-05 mars-07 mars-09 mars-11 mars-13 there is not yet sufficient coherence of experimental metadata standards or na(onal policy to rely on instrumental facili(es to act as permanent archives; - there is not sufficient funding for exis(ng crystallographic database organisa(ons (which maintain curated archives of processed experimental data and derived structural data sets) to act as centralised stores of raw data, although they could effec(vely act as centralised metadata catalogues; - few ins(tu(onal data repositories yet have the exper(se or resources to store the large quan((es of data involved with the appropriate level of discoverability and linking to derived publica(ons. 25
Nouveau Contact 2013 Seismic Data Preserva(on Marc SCHAMING, Ins(tut de Physique du Globe (CNRS/UNISTRA), Strasbourg Conclusion Preserva(on of seismic data is essen(al, but usually not considered by scien(sts, because it takes resources to document metadata, to read and copy tapes, to convert formats, etc. These tasks should be addressed at na(onal and/or European level. Some European projects (Seiscan/Seiscanex, Geo- Seas) demonstrated that it is possible and useful. Repositories at na(onal level should pursue this task with geophysical skills. 26
Nouveau Contact 2013 Scien(fic Data Preserva(on, Copyright and Open Science Philippe Mouron, Aix- Marseille University, Faculté de droit et de science poli(que The best guarantee for ensuring the integrity of a resource is based on property. However, isn t there a public ownership of scien(fic research? In truth, even if the public authori(es may fundamentally par(cipate in the scien(fic research, this does not mean, ipso facto, that they own its results. any paper, ar(cle, report, record, thesis, book, graphic, map,... conduc(ng personal choices of a researcher, or expressing his own personality, will be considered as a work of mind [ ] are copyrightable The goal of digital preserva(on of scien(fic data must therefore be reconciled with intellectual property rights. Open model of management of intellectual property rights. Tools: open access licensis (e.g. Crea(ve Commons) 27
PREDON: Concept demonstrator But : «forcer» les fron(ères entre les disciplines, par exemple: essayer des formats astrophysique (VOT) et des ou(ls de visualisa(on (Tulip) sur des données HEP Stocker des données complexes et très «custom» dans un projet de sauvegarde de données généraliste (ISAAC)! 28
Interface données HEP ISAAC (CINES) 29
Workshop on Data Preserva(on at ICDE 2014 Coordonnateurs workshop: S.Benbernou, C. Diaconu h}p://lipade.math- info.univ- paris5.fr/lops/ LOPS will be held in conjunc(on with the 30th IEEE Interna(onal Conference on Data Engineering. Chicago, IL, USA. March 31- April 4, 2014. 30
PREDON 2014 Organisa(on Workshop LOPS@ ICDE2014 Con(nua(on et ini(a(on de nouveaux mini- projets et démonstrateurs pour des cas spécifiques de préserva(on de données (stages) HEP- Data @ ISAAC Formats de données transdisciplinaires Réunions du groupe de travail : nouveau contacts, séminaires Extensions possibles à d autres domaines (bio, IST, économie) Aborder des ques(ons communes (cout, persistence, open access, éduca(on, outreach etc.) Organisa(on d un Atelier sur la préserva(on des données scien(fiques et en rela(on avec la théma(que «Big Data» Publica(on PREDON: 2015 Par(cipa(on aux groupes de travail au niveau interna(onal et aux projets et consor(a en cours de cons(tu(on pour des programmes de financement H2020. 31
Site web PREDON h?p://predon.org 32
Summary of informa(on from the (pre- LHC) experiments Longévité recherchée: > 10 ans
Opportunités H2020 34
Generic arguments Task forces already in place to address this issue in a generic way (standards) e.g. Blue Ribbon, APA, DPC, escidir, h}p://www.alliancepermanentaccess.eu h}p://br.sdsc.edu Scien(fic Data is a major component of the ongoing efforts (complexity) 35
Exemple projet: Data processing & storage in the cloud LabEx UnivEarths project at APC / François Arago Centre: - poten(al of the cloud versus classical data processing and storage opportuni(es - test processing on Francois Arago Centre cluster, compared with Cloud StratusLab Schema(c descrip(on of the cloud StratusLab, which is a European public cloud project IaaS which started in 2010. 36
PREDON: Challenges Scien(fic Poten(al Challenge: these data sets contain unexploited informa(on, which may give rise to highly useful for joint, mul(- disciplinary project. Complexity Challenge: the data collected by the experimental devices considered in the project is unique and encodes a large typology, well beyond the regular, well- structured data produced in large quan((es in the industrial world. Technological et methodological challenge. The installa(on of procedures, workflows, algorithms for long term data preserva(on, as well as the defini(on of suitable technological frameworks cons(tute novel inves(ga(on domains. 37
Les données digitales sont fragiles La capacité de stockage est physiquement dépassée depuis longtemps 38