Cycle de vie, processus de gestion



Documents pareils
Plan. Un modèle d organisation. Pour les Archives numériques. Présentation Groupe PIN. Claude HUC (CNES)

PRODIGUER un noeud français de distribution de données GIEC/IPCC

- Le LPC2E et les Bases de Données Spatiales - Valorisation des bases de données ondes

Université de Lausanne

Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines

Kick Off SCC 2015 Stockage Objet. Vers de nouveaux horizons

Présentation du cadre technique de mise en œuvre d un Service d Archivage Electronique

Groupe de travail «TECHNOLOGIES DE L INFORMATION ET DE LA COMMUNICATION» Réunion du 26 janvier L archivage électronique

SPOT4 (Take 5) : Sentinel-2 avec deux ans d avance

Les données massives de Copernicus : vers un nouveau paradigme. Hervé Jeanjean Cnes

AA-SO5 KIDA/GSOV/VAMDC

Mise en œuvre d un Serveur d Archivage Electronique pour les factures client. 28/01/2015 Sébastien Dufrene

EP LOIRE Plateau collaboratif d échange. Intranet / Internet. du plan Loire grandeur nature Note de cadrage

La gestion des documents administratifs à la Bibliothèque nationale de France

ISTEX, vers des services innovants d accès à la connaissance

Ministère de la Culture et de la Communication

L accès aux données spatiales au profit des applications satellitaires

L ILM, revue de presse 2006 Cycle de vie de l information et ILM Atouts et faiblesse de l ILM aujourd hui L ILM et la diplomatique numérique

Pérennisation des Informations Numériques

L'ILM pour donner une valeur «temps» à la donnée

Les archives... c est quoi?

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) JRES Novembre 2007

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007

NOTE DE POSITIONNEMENT EGF.BTP SUR LA NUMERISATION DE LA FILIERE BATIMENT

Les archives de l entreprise à l ère du numérique. Présentée par: HAMMA Mustapha

Prospective: Champ de gravité, méthodes spatiales

Université de Lausanne

Outils d archivage de l UNIL: du papier à l électronique

Archivage à long terme des données de la recherche scientifique

Dossier de presse L'archivage électronique

La documentation, l archivage et la dissémination des micros-données au Sénégal NIANG Mamadou OBJECTIFS

Stages en archives pendant l apprentissage d agent-e en information documentaire liste de contrôle

La gestion opérationnelle de la météosensibilité. La prévision météorologique et hydrologique au cœur de l Économie et de la Société

Une Etoile au cœur des révolutions satellitaires

Pôle Référentiels Métier (Master Data Management)

Solution documentaire globale. Présentation du 14 janvier 2010

Les ressources numériques

Accélérer les projets de géoservices des PME. Réunion d information Paris, le 17 juillet 2014

UN RETOUR D EXPERIENCE SUR LA STRATEGIE D EVOLUTION DU SYSTEME D ARCHIVAGE STAF (Service d Archivage et de Transfert de Fichiers).

Présentation du projet SMOS et du CATDS

Dématique et archivage

La gestion documentaire les bases d'un système de management de la qualité

La fonction de «Records manager» -

Intégration du référentiel hydrographique Bd Carthage dans le Système d Information de l agence de l eau Adour Garonne

Vers le Big Data? Exemple de la gestion des données astronomiques au Centre de Données astronomiques de Strasbourg

Présentation aux entreprises du numérique

25 % EXPERTS PAR AN. + de de 35. près de 50 DE CROISSANCE DE L OPEN SOURCE ANNÉES D EXPERIENCE AU SERVICE DE L OPEN SOURCE

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Démarche de traçabilité globale

janv-10 janv-11 oct-10 juil-11 juil-10 avr-11 avr-10

Gestion d événements et modulation dynamique de choix sous Sphinx par calcul de contraintes en temps réel.

L énergie, des enjeux pour tous

Zéro papier dès le premier jour

Mise en place d'un serveur d'application SIG au Conseil général de Seine-et-Marne

Rédiger : le numérique dans la préparation de la thèse

Position de l ASTEE sur l innovation en matière de services d eau et de déchets

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

Conservation des données à long terme

CIMAIL SOLUTION: EASYFOLDER SAE

LES PROCEDURES DE LA POLITIQUE D ARCHIVAGE

DEMANDE D INFORMATION RFI (Request for information)

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

De la captation de données à la Datavisualisation

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Dématérialisation du courrier: à éviter

LE SAN ET LE NAS : LE RESEAU AU SERVICE DES DONNEES

Comment rénover efficacement son parc immobilier?

UNE PALETTE D OUTILS D AIDE A LA DECISION

À TOI DE JOUER! VIVRE EN FRANCE L EXPLORATION DE L ESPACE. 1. Observez ces documents et cochez la bonne réponse.

Formation «Système de gestion des documents d activité (SGDA)»

achat shopping fidèlisation animation magnétic communication magnétic communication magnéti CENTRES COMMERCIAUX VILLAGES trafic DE MARQUES

Quelles pistes pour rendre vos réseaux plus intelligents?

Présentation générale du projet data.bnf.fr

«Gestion de l information et de la documentation»

L. Granjon, E. Le Goff, A. Millereux, L. Saligny MSH Dijon

COMMUNIQUE DE LANCEMENT

3 - Description et orbite d'un satellite d'observation

Domaine D1 : Travailler dans un environnement numérique évolutif

L archivage pérenne des documents numériques

Recommandation pour la gestion des archives

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Examen de la saisine Définition de l'architecture du SINP. Contributeurs : Frédéric Gosselin, Pascal Dupont

Les Entrepôts de Données

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

GESTION DES ARCHIVES

Sujet Solution de sauvegarde de serveurs et postes de travail avec BackupPC et Bacula. par ALIXEN

Manuel Management Qualité ISO 9001 V2000. Réf Indice 13 Pages : 13

Synthèse du questionnaire en ligne

Sécurisation de l hébergement et de la maintenance du plateau collaboratif d échange (PCE) du plan Loire III

possibilités et limites des logiciels existants

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

Le satellite Gaia en mission d exploration

Assemblée générale Aristote

SITools2, un système d'accès aux données scientifiques web 2.0

Capture et stockage du CO2 (CCS)

Transcription:

Les données scientifiques au CNES Cycle de vie, processus de gestion Danièle BOUCON Réunion PIN du 4 janvier 2013 Réunion PIN du 22 mars 2012 Outils CNES

Contexte des données scientifiques au CNES SOMMAIRE Production d une base de données et cycle de vie Processus d archivage Quelques exemples de modélisation de cycle de vie La vision ESA/LTDP Conclusion 2 Réunion PIN du 22 mars 2012 Outils CNES

Les données scientifiques au CNES Patrimoine important de données issues de missions spatiales Le CNES a plus de 50 ans d existence Fort investissement scientifique (le CNES a pour missions «de développer et d orienter les recherches scientifiques et techniques poursuivies dans le domaine des recherches spatiales», loi 61-1382 du 19/12/1961) : participation au développement d instruments scientifiques en partenariat avec les laboratoires, missions dans un cadre multilatéral sur des objectifs scientifiques (et technologiques), pôles thématiques pour le traitement et l archivage de données spatiales A conduit ou participé à plus de 100 missions spatiales Certaines données ont plus de 30 ans 4 grands domaines scientifiques «observation de la terre», «sciences de l univers», «sciences de la vie», «sciences de la matière» Des caractéristiques propres aux données scientifiques 3

Quelques caractéristiques des données scientifiques spatiales Données uniques et difficilement reproductibles (événements exceptionnels, séries temporelles ) Collecte et gestion = entreprises lourdes nécessitant des moyens importants Masse élevée d informations (sur la planète) -> des volumes de données importants (et en forte croissance) Données hétérogènes -> forte diversité de formats Diversité des producteurs : thématiques, localisation Cycle de vie étendu dans le temps : Durée de vie d un projet spatial (initialisation jusqu à phase de retrait) : variable (environ 10 à 20 ans), Développement d un projet spatial entre 5 et 12 ans, Durée d exploitation d un instrument : besoin initial de 1 (mission Picard) à 5 ans, mais peut aller bien au-delà (presque 18 ans pour mission Wind), Durée de conservation des données : a priori illimitée 4

Evolution de la quantité de données stockées Accroissement de la volumétrie au CNES (STAF) 2008 > 300 TB de données stockées» 7 500 000 fichiers» 1,5 TB/ semaine 2010 > 650 TB de données stockées» 11 000 000 fichiers» 3 TB /semaine V o lu m e (T B) 1400 1200 1000 800 600 400 200 Quantité de données stockées volume (TB) 2011 : > 900 TB de données stockées > 5 TB /semaine 0 2007 2008 2009 2010 2011 2012 2013 Année 2012 : ~ 1,3 PB de données stockées, > 7 TB /semaine 5

Cycle de vie des données spatiales Les données spatiales, quelques exemples SPOT (début 2010, 5 satellites, depuis 1986 pour SPOT 1) 300 TB archivés au Cnes Pléiades (2 satellites, depuis déc 2011 pour PLEIADES 1A) > 5000 TB sur la durée de la mission SWOT (Haute résolution Hydrologie) > 6000 TB à échanger entre NASA et CNES GAIA (le Data Processing Center du Cnes) 6 1000 TB de données 1 Milliard d étoiles cataloguées 80 Milliards d objets gérés Techniques de réduction de données massivement collaboratives

Travaux en cours Axes stratégiques Réflexion pour améliorer la maitrise du patrimoine informationnel (données et documents) Données spatiales Données technologiques Données techniques Données administratives Compléter politiques, directives et procédures pour la gestion des bases de données Cycle de vie Processus de gestion et pérennisation Intégrer dans les projets, dès les phases amont En concertation avec les travaux européens Recenser les bases, évaluer les données à pérenniser, établir un plan d actions 7 Maîtriser la gestion du cycle de vie de l information et des données, Maitriser l'augmentation des volumétries des données et les coûts de transport/stockage/archivage/traitement/accès.

Définitions Base de données recueil d oeuvres, de données ou d autres éléments indépendants, disposés de manière systématique ou méthodique, et individuellement accessibles par des moyens électroniques ou par tout autre moyen. Une base de données peut être constituées de différents jeux de données. Elle intègre également l ensemble des informations nécessaires à la compréhension et à l utilisation de ces jeux de données. Jeu de données Un jeu de données désigne un groupe d objets «données» ayant des caractéristiques communes motivant leur regroupement. Dans la plupart des cas, un jeu de données correspond à un ensemble homogène d objets «données» (par exemple, les données de niveau 1 d un instrument). Dans ce cas, les fichiers du jeu ont la même structure et contiennent les mêmes paramètres. Mais un jeu de données peut aussi correspondre à un ensemble d objets «données» d origines diverses (par exemple, l ensemble des observations disponibles sur une zone géographique, quelle que soit la provenance des observations). Niveaux de données Résultats de différentes transformations opérées sur les mesures effectuées par des instruments en orbite afin d obtenir des paramètres physiques (ou combinaisons). En général :» Données brutes, N0, N1 (données étalonnées en grandeurs physiques) -> compétence organismes spatiaux» Données N2 et supérieurs -> compétence laboratoire de recherche scientifiques 8

Production de la base des données Données scientifiques Jeux de données brutes produites par les instruments embarqués ou de niveau supérieur Données complémentaires Données auxiliaires scientifiques et/ou techniques Paramètres de calibration Quick look Métadonnées Logiciels Documentation 9

Phases du cycle de vie et activités transverses Protection juridique Sécurité Identité visuelle et communication Gestion des processus Stockage Recueil Traitement Mise à disposition Publication et diffusion Instrumentation Préparation 10 10

Production de la base des données préparation diffusion recueil traitement Données N0 11 stockage archives courantes

Production de la base des données préparation diffusion préparation recueil traitement Données N0 recueil traitement Données N1 12 stockage archives courantes

Production de la base des données Nombreuses années etc Données N0 Données N1 Données Ni archives courantes 13

Processus de gestion des données Préparation de la pérennisation Production Pérennisation Préparation de la production archive courante archive pérenne 3 grandes étapes : préparation, production, pérennisation 14 14

Espaces de gestion des données au cours de leur cycle de vie Pérennisation Production Publication et diffusion Catalogue Catalogue Archives Archives pérennes pérennes Archives Archives courantes courantes Recueil Recueil des des données données Catalogue centralisé Données stabilisées patrimoniales et validées Données utilisées dans le cadre d un projet spatial Données collectées ou saisies (peuvent provenir de calcul) Préparation de la pérennisation et de la production 15 15

Processus de gestion des données spatiales Intégrer la pérennisation tôt dans le projet spatial (avant la production des données) Le cycle de vie des données est conçu pour fournir un cadre de gestion des données (indépendant des applications/systèmes dans lesquels résident les données) Ce cycle de vie est non linéaire Les données sont gérées dans le cadre d un projet spatial, ou par une autre structure au retrait de celui-ci (par exemple SERAD Service de Référencement et d Archivage de Données pour les données orphelines) La pérennisation des données doit s appuyer sur un plan d archivage, elle respecte les normes OAIS et PAIMAS, et PAIS (à venir). La préparation de la pérennisation doit démarrer en parallèle de la préparation de la production, et doit se phaser avec les grandes étapes d un projet spatial 16

Production des données MOU, convention CNES/CNRS accords inter organismes, politique de données Projet spatial OAIS PAIMAS PAIS Responsabilité du CNES/archivage long terme Pérennisation des données Spécification Phase A (Faisabilité) Désignation archive pérenne Données, volumétrie Définition préliminaire Préparation de la production 17 Production Définition Création Simulation archives courantes Approbation Transfert Validation Evaluation Phase B (Déf prélim) Phase C (Déf détaillée) Phase D (dev) Phase E (exploitation) Phase F (retrait) Budget archivage pérenne Données à archiver, doc, identifiant, formats Dictionnaire de données Description formelle de données Préparation de métadonnées Inventaire Inventaire complété Préparation et ingestion de métadonnées Exploitation du système d archivage, mise à disposition des données archive pérenne Données à pérenniser, stabilisées, validées Dossier de faisabilité Plan de développement projet d archivage Plan d archivage préliminaire Accord préliminaire Définition Formelle Plan d archivage complet Spécification logiciels Accord formel Développement Logiciels validés Plan d archivage définitif Système d archivage validé Transfert Validation Préparation de la pérenisation Pérenisation

Cycle de vie des données, exemples Nombreux travaux dans la littérature concernant la modélisation du cycle de vie des données Différents points de vue (scientifique/utilisateur, gestionnaire archive courante, gestionnaire archive pérenne) Représentations complexes 18

USGS Data Management Plan Framework (DMPf) Smith, Tessler, and McHale, 2010 [Climate Effects Network (CEN) and Alaska Science Center (ASC)] 19

THE ELLYN MONTGOMERY, USGS, DATA LIFECYCLE DIAGRAM 20

USGS Data Lifecycle Model John Faundeen & Ellyn Montgomery Spins 21

BLM Data Management Handbook 22

Digital Curation Centre Lifecycle Model 23

Conclusion Axes stratégiques Maîtriser la gestion du cycle de vie de l information et des données -> directives, procédures Maitriser l'augmentation des volumétries des données et les coûts de transport/stockage/archivage/traitement/accès.» Concentrer données et traitements» Limiter les déplacements de données» Favoriser l accès à l information «déspatialisée» Enjeux Pérennisation et valorisation des données spatiales Interopérabilité des centres 24