Préserva(on des données scien(fiques. C. Diaconu Centre de Physique des Par(cules de Marseille CPPM/IN2P3/CNRS



Documents pareils
La préservation des données scientifiques: une mine d or pour la science de demain

PREDON. A project on Scientific Data Preservation in France. 13/10/2013 PREDONx Workshop C.Diaconu 1

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Eléments de statistique

Application Form/ Formulaire de demande

ONTARIO Court File Number. Form 17E: Trial Management Conference Brief. Date of trial management conference. Name of party filing this brief

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

Plateforme Technologique Innovante. Innovation Center for equipment& materials

How to Login to Career Page

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Emergence du Big Data Exemple : Linked Open Data

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

ICA Congress, Brisbane 2012 Thème général : Les temps qui changent. La confiance et les archives*

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

SCC / QUANTUM Kickoff 2015 Data Protection Best Practices

DOCUMENTATION - FRANCAIS... 2

Editing and managing Systems engineering processes at Snecma

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

MEMORANDUM POUR UNE DEMANDE DE BOURSE DE RECHERCHE DOCTORALE DE LA FONDATION MARTINE AUBLET

Exemple PLS avec SAS

AUDIT COMMITTEE: TERMS OF REFERENCE

L informatique à l IN2P3 et le rôle du Chargé de Mission

ETABLISSEMENT D ENSEIGNEMENT OU ORGANISME DE FORMATION / UNIVERSITY OR COLLEGE:

Emergence du Big Data Exemple : Linked Open Data

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

RAPID Prenez le contrôle sur vos données

SERVEUR DÉDIÉ DOCUMENTATION

APPENDIX 2. Provisions to be included in the contract between the Provider and the. Holder

OPEN SCIENCE CATI CODEX MONTPELLIER 14 FÉVRIER 2013

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

MEMORANDUM POUR UNE DEMANDE DE BOURSE DE RECHERCHE DOCTORALE DE LA FONDATION MARTINE AUBLET

Instructions Mozilla Thunderbird Page 1

Appointment or Deployment of Alternates Regulations. Règlement sur la nomination ou la mutation de remplaçants CONSOLIDATION CODIFICATION

XtremWeb-HEP Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

Contents Windows

Accès aux données Sentinelles

Must Today s Risk Be Tomorrow s Disaster? The Use of Knowledge in Disaster Risk Reduction

en SCÈNE RATIONAL Rational Démonstration SDP : automatisation de la chaîne de développement Samira BATAOUCHE sbataouche@fr.ibm.com

Mon Service Public - Case study and Mapping to SAML/Liberty specifications. Gaël Gourmelen - France Telecom 23/04/2007

Support Orders and Support Provisions (Banks and Authorized Foreign Banks) Regulations

Qualité et ERP CLOUD & SECURITY (HACKING) Alireza MOKHTARI. 9/12/2014 Cloud & Security

Credit Note and Debit Note Information (GST/ HST) Regulations

Language requirement: Bilingual non-mandatory - Level 222/222. Chosen candidate will be required to undertake second language training.

DOCUMENTATION - FRANCAIS... 2

AGROBASE : un système de gestion de données expérimentales

GEIDE MSS /IGSS. The electronic document management system shared by the Luxembourg

Règlement sur le télémarketing et les centres d'appel. Call Centres Telemarketing Sales Regulation

Le risque humain en entreprise Le cadre du renseignement

Material Banking Group Percentage Regulations. Règlement fixant le pourcentage (groupe bancaire important) CONSOLIDATION CODIFICATION

General Import Permit No. 13 Beef and Veal for Personal Use. Licence générale d importation n O 13 bœuf et veau pour usage personnel CONSOLIDATION

CEPF FINAL PROJECT COMPLETION REPORT

Services à la recherche: Data Management et HPC *

Colloque Calcul IN2P3

VMware : De la Virtualisation. au Cloud Computing

Package Contents. System Requirements. Before You Begin

INDIVIDUALS AND LEGAL ENTITIES: If the dividends have not been paid yet, you may be eligible for the simplified procedure.

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications

Notice Technique / Technical Manual

Tier 1 / Tier 2 relations: Are the roles changing?

Railway Operating Certificate Regulations. Règlement sur les certificats d exploitation de chemin de fer CODIFICATION CONSOLIDATION

Name Use (Affiliates of Banks or Bank Holding Companies) Regulations

LE FORMAT DES RAPPORTS DU PERSONNEL DES COMMISSIONS DE DISTRICT D AMENAGEMENT FORMAT OF DISTRICT PLANNING COMMISSION STAFF REPORTS

VERS L EXCELLENCE DANS LA FORMATION PROGRAMME D APPUI A LA QUALITE AMELIORATION SUPERIEUR DE LA QUALITE DE L ENSEIGNEMENT TITRE DU PROJET

CEST POUR MIEUX PLACER MES PDF

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

RETHINKING JACQUES ELLUL AND THE TECHNOLOGICAL SOCIETY IN THE 21ST CENTURY REPENSER JACQUES ELLUL ET LA SOCIETE TECHNICIENNE AU 21EME SIECLE

«Rénovation des curricula de l enseignement supérieur - Kazakhstan»

F1 Security Requirement Check List (SRCL)

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

Les normes de certification des archives numériques En préparation. C. Huc. La Pérennisation des Informations numériques

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Resident Canadian (Insurance Companies) Regulations. Règlement sur les résidents canadiens (sociétés d assurances) CONSOLIDATION CODIFICATION

VOTRE POLITIQUE D'ARCHIVAGE EST-ELLE ADAPTÉE? Démarche projet. Alain Le Corre, Responsable de Marché, Gestion de l information

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

If the corporation is or intends to become a registered charity as defined in the Income Tax Act, a copy of these documents must be sent to:

Grandes tendances et leurs impacts sur l acquisition de produits et services TI.

Paxton. ins Net2 desktop reader USB

Disclosure on Account Opening by Telephone Request (Trust and Loan Companies) Regulations

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

TRAVAUX DE RECHERCHE DANS LE

Borrowing (Property and Casualty Companies and Marine Companies) Regulations

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

26th of March 2014, Paris

Marie Curie Individual Fellowships. Jean Provost Marie Curie Postdoctoral Fellow, Institut Langevin, ESCPI, INSERM, France

THE LAW SOCIETY OF UPPER CANADA BY-LAW 19 [HANDLING OF MONEY AND OTHER PROPERTY] MOTION TO BE MOVED AT THE MEETING OF CONVOCATION ON JANUARY 24, 2002

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale

Mise en place d un système de cabotage maritime au sud ouest de l Ocean Indien. 10 Septembre 2012

CETTE FOIS CEST DIFFERENT PDF

: Machines Production a créé dès 1995, le site internet

Short-term Pooled Investment Fund Regulations. Règlement sur le fonds commun de placement à court terme CONSOLIDATION CODIFICATION

La solution idéale de personnalisation interactive sur internet

Nouveautés printemps 2013

Sub-Saharan African G-WADI

INVESTMENT REGULATIONS R In force October 1, RÈGLEMENT SUR LES INVESTISSEMENTS R En vigueur le 1 er octobre 2001

Transcription:

Préserva(on des données scien(fiques C. Diaconu Centre de Physique des Par(cules de Marseille CPPM/IN2P3/CNRS

«Big Scien(fic Data» La recherche est «digitale» Augmenta(on drama(que de la quan(té/complexité des données 1E+10 HEP Data Mb LHC Phase 2 1E+09 LHC Phase 1 100000000 ATLAS/CMS LHC 2012 10000000 1000000 100000 E791 NA48 E831 Babar BELLE D0 JLAB CDF H1 RHIC 10000 1000 E665 E691 ALEPH Telescope Collec(ng Area 100 BC72 10 Travail au sein de PREDON 1980 1990 2000 2010 2020 2030 2

Est- ce que les données scien(fiques sont spéciales? Riches en informa(on structurées suivant un plan de recherche et une démarche scien(fique De plus en plus diverses la plupart des disciplines produisent massivement des données Souvent produites avec des efforts financiers et humains significa(fs (voir gigantesques) Plus ça coute cher, moins c est reproduc(ble Englobent des connaissances uniques «Time stamped» De plus en plus dans une logique «observatoire»: Les données con(ennent plus que ce qu on voulait au départ Seulement l informa(on décantée est publiée de suite (1/10) PRESERVATION! 3

Est- ce que ça vaut le coup de garder des données «anciennes»? «Scien(fic case» Fin collabora(on Fin acquisi(on Es(ma(on: gain scien(fique de 10% pour un cout bien inférieur à 1% 4

Study over 516 ecology papers published between 1991 and 2011. 5

Données Scien(fiques Publica(ons Documenta(on Raw Donées Processées Meta- données Workflows Solware Diffuse knowledge.more Complexité, couts U(lité Technologie, méthodologie Organisa(on Quel modèle de préserva(on pour les données scien(fiques? 6

Préserva(on, réu(lisa(on, libre- accès Préserva(on à La préserva(on suppose la mise à disposi(on en accès libre à Maximiser le bénéfice ß Le libre- accès facilite la préserva(on à long terme ß Elargir la communauté, mul(plier les connaissances 7

PREDON h?p://predon.org Projet dans le cadre «Mastodons/Big Data» de la MI/CNRS IN2P3 HEP Volume données Complexité Diversifica(on des sources Structura(on au niveau interna(onal +++ +++ + ++ + Algorithmes et methodologies pour la preserva(on INSU, IRD Astrophysics Earth Sciences CINES INS2I IT, Algorithms, workflows ++ ++ ++ +++ ++ + ++ +++ + +++ Animation Partenariat Harmonisation R&D Architecture, Pilotage 8

Livre blanc sur la préserva(on de données («facts finding») 9

Conclusions Les données scien(fiques ont un poten(el qui dépasse le cadre de recherche ini(al et qui doit être exploité à long terme Preserva(on <=> Accés ouvert La préserva(on de données scien(fique est économiquement avantageuse: Recherche à bas cout Une technologies de fron(ère est nécessaire Préserva(on de toute la chaine «grise» Virtualisa(on, cloud compu(ng, workflows. La collabora(on mul(- disciplinaire est essen(elle au niveaux na(onal et interna(onal Projet PREDON: anima(on, R&D, architecture Exper(se IST très u(le pour la réflexion et la mise en place de systèmes de préserva(on à long terme

BACKUP 11

Préserva(on des connaissances Le stockage des données à long terme demande une organisa(on rigoureuse Le vrai challenge technique est la préserva(on des connaissances «meta- digitales» 12

Preservation Model DPHEP : défini(on des niveaux de préserva(on > En progression de la complexité et les couts Use Case 1 Provide additional documentation Publication related info search Documentation 2 Preserve the data in a simplified format Outreach, simple training analyses Outreach 3 4 Preserve the analysis level software and data format Preserve the reconstruction and simulation software as well as the basic level data Full scientific analysis, based on the existing reconstruction Retain the full potential of the experimental data Technical Preservation Projects

! Earliest theses, meetings, papers! Logbooks to come, as done for JADE Level 1: Documenta(on Une tache considérable: des groupes de travail dédiées > Non- digital: Cataloguing, organisa(on, scanning or photographing of appropriate of papers, notes, drawings, talks from pre- web days, detector schema(cs, blueprints, logbooks,... Virtual Archives established by the experiments > Digital: Old online shil tools, detector configura(on files, electronic logbooks, detailed run informa(on, web content from out- dated servers with dead links, various wikis, mee(ngs, talks,... David South H1 Data Preserv ation Projects 21.04.2011 Page 9 Replacement of old web servers by VMs, hosted by the computer centres Replacement of old pages to newer technologies such as wikis (use of (T)wikis much more prevalent in the LHC era) Use of external services for hos(ng collabora(on material

Documenta(on projects with INSPIRE The inges(on of other documents is under discussion, including theses, preliminary results, conference talks and proceedings, paper drals,... More on InSpire: reduced data?

MASTODONS Stockage et ges(on de données (par exemple, dans le Cloud), sécurité, confiden(alité. Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données. Visualisa(on de grandes masses de données. Extrac(on de connaissances, datamining et appren(ssage. Qualité des données, confiden(alité et sécurité des données. Problèmes de propriété, de droit d usage, droit à l oubli. Préserva(on/archivage des données pour les généra(ons futures. PREDON (PREserva(on des DONnees) 16

Big data: explosion des données digitales Tweeter Stock database Library of Congres Digital collec(on Clima(c Data Center database Credit: P. Buncic, ECFA Workshop, 4 Oct. 2013 LHC raw data per year YouTube videos per year Digital Health records Google index Facebook new content per year 0 20 40 60 80 100 120 140 160 180 200 PB PB 17

PREDON Animation Partenariat Harmonisation R&D Architecture Pilotage Observatoire Na(onal des Données Scien(fiques Court terme (2012/2013 et après): Anima(on et partenariat Elargir le champ de réflexion, cons(tuer un consor(um mul(- disciplinaire Medium terme (2013/2014) : Harmonisa(on et projets R&D Communica(on: exchanges and workshops Livre blanc sur la préserva(on et la mise à disposi(on des données scien(fiques dans un contexte mul(- disciplinaire Démonstrateur accès et préserva(on de données scien(fiques complexes Long term (2015/2016) Architecture et pilotage Observatoire Na(onal des Données Scien(fiques Coali(on de grands centres de données et projets mul(- disciplinaires Support et suivi des lots de données scien(fiques : accès et préserva(on 18

2013 2012 Prop. > IN2P3 Groupe d études PREDON Cristinel Diaconu, Dirk Hofmann, Angélique Pèpe, Magali Damoiseaux, D. Christofol (CPPM, Marseille) Sabine Kraml (LPSC, Grenoble) Giovanni Lamanna (LAPP, Annecy) Volker Beckmann (APC, Centre Francois Arago, Paris 7) > CCIN2P3 Ghita Rahal, Jean-Yves Nief (CC-IN2P3) > INSU Christian Surace (LAM/OAMP Cesam, Marseille) > INS2I Mustapha Lebbah (LIPN, Paris 13) Salima Benbernou (LIPADE, Paris 5) Anne Laurent, Sophie Nicoud (LIRMM, Montpellier) > CINES Stéphane Coutin, Marion Massol (CINES, Montpellier) > IRD Thérèse Libourel, Yuan Lin (Espace DEV) Nouveau contacts en 2013 suite aux workshops: Daniel Chateigner, CRISMAT/ENSICAEN, données cristallographie Marc Schaming, Ins(tut de Physique du Globe (CNRS/UNISTRA), IPG Strasbourg Catherine Boisson de l'observatoire de Meudon / LUTH/INSU CTA Danièle Boucon, expert en préserva(on de données CNES 19

Physique des Par(cules dphep.org Préserva(on d un système d accès et calcul à des données complexes (SLAC/Stanford USA) Système de préserva(on et migra(on Virtualisa(on, valida(on intensive (DESY, Hambourg, Allemagne) DPHEP: «Project Manager» nommé au CERN en Octobre 2012 (Scien(fic chair: CD) Collabora(on Interna(onale en cours d installa(on( MoU signé par CERN, DESY, ) 20

Exemple projet astrophysique: Virtual Observatories h}p://www.ivoa.org 21

Archival exper(se CINES Les services d archivage au CINES PAC à Archivage à long terme de données scien(fiques, patrimoniales, administra(ves ISAAC Assurance qualité OAIS Compétences archivis(ques Exper(se formats Processus mé(er Ges(on des risques EUDAT à Archivage intermédiaire de données scien(fiques à Archivage de données scien(fiques pour des communautés européennes structurées 22

Workflows et préserva(on Similarité entre les disciplines Besoin d une approche théorique rigoureuse 23

Nouveau Contact 2013 Long Term Archiving and CCSDS standards Danièle Boucon, CNES The primary objec(ve of the Producer- Archive Interface Specifica(on (PAIS) standard is to provide concrete XML files suppor(ng the descrip(on and the control of transfers from a Producer to an Archive. 24

Nouveau Contact 2013 Nb entries 300000 Crystallography Open Databases and Preserva(on: a World- Wide Ini(a(ve Daniel Chateigner (for the COD Advisory Board) 250000 200000 150000 siste rs PCOD 100000 50000 0 mars-03 mars-05 mars-07 mars-09 mars-11 mars-13 there is not yet sufficient coherence of experimental metadata standards or na(onal policy to rely on instrumental facili(es to act as permanent archives; - there is not sufficient funding for exis(ng crystallographic database organisa(ons (which maintain curated archives of processed experimental data and derived structural data sets) to act as centralised stores of raw data, although they could effec(vely act as centralised metadata catalogues; - few ins(tu(onal data repositories yet have the exper(se or resources to store the large quan((es of data involved with the appropriate level of discoverability and linking to derived publica(ons. 25

Nouveau Contact 2013 Seismic Data Preserva(on Marc SCHAMING, Ins(tut de Physique du Globe (CNRS/UNISTRA), Strasbourg Conclusion Preserva(on of seismic data is essen(al, but usually not considered by scien(sts, because it takes resources to document metadata, to read and copy tapes, to convert formats, etc. These tasks should be addressed at na(onal and/or European level. Some European projects (Seiscan/Seiscanex, Geo- Seas) demonstrated that it is possible and useful. Repositories at na(onal level should pursue this task with geophysical skills. 26

Nouveau Contact 2013 Scien(fic Data Preserva(on, Copyright and Open Science Philippe Mouron, Aix- Marseille University, Faculté de droit et de science poli(que The best guarantee for ensuring the integrity of a resource is based on property. However, isn t there a public ownership of scien(fic research? In truth, even if the public authori(es may fundamentally par(cipate in the scien(fic research, this does not mean, ipso facto, that they own its results. any paper, ar(cle, report, record, thesis, book, graphic, map,... conduc(ng personal choices of a researcher, or expressing his own personality, will be considered as a work of mind [ ] are copyrightable The goal of digital preserva(on of scien(fic data must therefore be reconciled with intellectual property rights. Open model of management of intellectual property rights. Tools: open access licensis (e.g. Crea(ve Commons) 27

PREDON: Concept demonstrator But : «forcer» les fron(ères entre les disciplines, par exemple: essayer des formats astrophysique (VOT) et des ou(ls de visualisa(on (Tulip) sur des données HEP Stocker des données complexes et très «custom» dans un projet de sauvegarde de données généraliste (ISAAC)! 28

Interface données HEP ISAAC (CINES) 29

Workshop on Data Preserva(on at ICDE 2014 Coordonnateurs workshop: S.Benbernou, C. Diaconu h}p://lipade.math- info.univ- paris5.fr/lops/ LOPS will be held in conjunc(on with the 30th IEEE Interna(onal Conference on Data Engineering. Chicago, IL, USA. March 31- April 4, 2014. 30

PREDON 2014 Organisa(on Workshop LOPS@ ICDE2014 Con(nua(on et ini(a(on de nouveaux mini- projets et démonstrateurs pour des cas spécifiques de préserva(on de données (stages) HEP- Data @ ISAAC Formats de données transdisciplinaires Réunions du groupe de travail : nouveau contacts, séminaires Extensions possibles à d autres domaines (bio, IST, économie) Aborder des ques(ons communes (cout, persistence, open access, éduca(on, outreach etc.) Organisa(on d un Atelier sur la préserva(on des données scien(fiques et en rela(on avec la théma(que «Big Data» Publica(on PREDON: 2015 Par(cipa(on aux groupes de travail au niveau interna(onal et aux projets et consor(a en cours de cons(tu(on pour des programmes de financement H2020. 31

Site web PREDON h?p://predon.org 32

Summary of informa(on from the (pre- LHC) experiments Longévité recherchée: > 10 ans

Opportunités H2020 34

Generic arguments Task forces already in place to address this issue in a generic way (standards) e.g. Blue Ribbon, APA, DPC, escidir, h}p://www.alliancepermanentaccess.eu h}p://br.sdsc.edu Scien(fic Data is a major component of the ongoing efforts (complexity) 35

Exemple projet: Data processing & storage in the cloud LabEx UnivEarths project at APC / François Arago Centre: - poten(al of the cloud versus classical data processing and storage opportuni(es - test processing on Francois Arago Centre cluster, compared with Cloud StratusLab Schema(c descrip(on of the cloud StratusLab, which is a European public cloud project IaaS which started in 2010. 36

PREDON: Challenges Scien(fic Poten(al Challenge: these data sets contain unexploited informa(on, which may give rise to highly useful for joint, mul(- disciplinary project. Complexity Challenge: the data collected by the experimental devices considered in the project is unique and encodes a large typology, well beyond the regular, well- structured data produced in large quan((es in the industrial world. Technological et methodological challenge. The installa(on of procedures, workflows, algorithms for long term data preserva(on, as well as the defini(on of suitable technological frameworks cons(tute novel inves(ga(on domains. 37

Les données digitales sont fragiles La capacité de stockage est physiquement dépassée depuis longtemps 38