Rencontres ACADM 26 juin 2014 Conservation des données à long terme Sandrine DANIEL, data manager Sandrine VINAULT, data manager Isabelle FOURNEL, médecin épidémiologiste CIC 1432 Module Epidémiologie clinique 1
Définitions Article 1 er loi du 3 janvier 1979 : «Ensemble des actions, outils et méthodes mises en œuvre pour conserver à moyen ou à long terme des informations dans le but de les exploiter éventuellement ultérieurement» conserver un document dont on n a plus l utilité immédiate mais qui peut encore servir 2
Durée de conservation des documents issus d une recherche clinique DM avec substance considérée comme médicament dérivé du sang : 40 ans PSL, organes, tissus d origine humaine ou animale, préparations de thérapie cellulaire : 30 ans 15 ans après la fin de la recherche ou son arrêt anticipé 3
OAIS (norme ISO-14721) - Open Archival Information System - Modèle abstrait - Définit une terminologie et des concepts communs à l ensemble des acteurs de la préservation 4
OAIS : 4 acteurs de l archivage SIP DIP Producteur Archive Utilisateur AIP Management Submission information package (SIP) Archival information package (AIP) Dissemination information package (DIP) 5
6 fonctions du modèle OAIS
OAIS Guide Mais pas recueil de spécifications techniques destinées à être directement implémentées
Pérennité Accessibilité Objectifs Conserver le document Le rendre accessible Problèmes rencontrés Obsolescence technologique Papier Impossibilité de lire le format des fichiers Organisation archivage papier Intelligibilité En préserver l intelligibilité Mauvaise description Perte de la connaissance du contenu des objets numériques 8
Quel support? Informatique 9
Sur quel(s) support(s)? 1,44 Mo 650 à 800 Mo 4,7 à 17 Go 25 à 128 Go 32 Mo à 256 Go 10 Go à 6 To 10
Durée de vie (ans) des différents supports Disque zip 2 Disquette 2 CD-RW 3 Clé USB 10 Disque dur 30 DVD-R 30 Disque dur mémoire flash 11 50
«Recommandations» - Copies multiples des documents archivés - Sur différents supports - Placés en des endroits différents - Renouvellement régulier des supports A quelle fréquence? GIS-don (Groupe d intérêt scientifique sur les disques optiques numériques) : Recopie à l identique tous les 5 ans Idéalement tous les 3 ans * Si support = disque optique enregistrable : ne pas graver la fin du disque (les derniers 10%) plus sensible au vieillissement que le reste du disque 12
Exigence vis-à-vis des supports Stabilité intrinsèque et robustesse Large diffusion de la technologie et offre multi-constructeurs ou reposant sur normes publiques Existence d outils de contrôle des supports Accès sécurisé Pérennité Accessibilité Intelligibilité Simplicité des opérations de recopie Protection contre l effacement accidentel 13
Où stocker les supports informatiques Dans quel environnement? Coffre fort (meilleure condition de stockage) Autres? 14
Quel support? Papier 15
Support papier + Consultable sans support intermédiaire - - Sensible aux conditions de conservation - Dégradation dans le temps - Encombrement - Risque de perte 16
Où stocker les supports papiers? En interne : Sécurisation des locaux : lieu de stockage sécurisé et accès restreint Externalisation? Gain de place Sécurise les documents : les documents sont conservés dans des infrastructures adaptées et dédiées qui assurent un niveau de sécurité optimum pour nos archives, sur des sites certifiés 17
Accessibilité des documents numériques 18
Format de fichier Format ouvert Reposant sur des normes et standards Avec spécifications publiques 19
Texte non structuré : txt - Stabilité +++ En pratique - Pour données textes simples non structurées - Ex : brève description, programme stat Texte (document office) : pdf/a (correspond à pdf 1.4 avec restrictions) - Conçu pour l archivage à long terme - Avec restrictions mais permet tous les éléments nécessaires à restitution des documents - Exemple : CRF Pérennité Accessibilité Intelligibilité Bases de données : csv, txt 20
Compatibilité entre les différentes versions de logiciel Problème format date Autres problèmes? 21
Accessibilité des documents papiers 22
Accessibilité des documents papier pour un accès facile et rapide Etudes en cours : Archivage dans des classeurs Etudes terminées Archivage dans des cartons/boites à archives 23
Causes de la perte d intelligibilité Mauvaise description : Nom de fichier explicite Perte de la connaissance du contenu des objets numériques : Traçabilité des archives 24
Les méta-données Ensemble de données caractérisant d autres données pour en permettre la recherche, la gestion et la conservation Type de métadonnées : Descriptives : sujet, date, lieu, auteur de l information Techniques : format de fichier, mode de numérisation Administratives : droits d utilisation 25
Enregistrement des méta-données + - Intérieur fichier maintien d informations associées au fichier même lorsque le fichier est extrait de son contexte ordinaire d utilisation - Souvent nombre limité - Mise à jour difficile - Altération potentielle quand le fichier est converti dans un autre format Extérieur fichier - jeux de métadonnées plus riche - mise à jour aisée - lien entre métadonnées et image plus fragile - image manipulée isolément non documentée 26
Les méta-données Recommandation : associer les deux méthodes : Enregistrement dans le fichier lui-même de certaines métadonnées fondamentales (identifiant, titre du document ) Enregistrement dans une ou plusieurs bases de données extérieures aux fichiers images 27
Veille permanente Surveillance des supports Surveillance des formats Surveillance des procédures de gestion Quelle fréquence : tous les ans? Comment? 28
A vous Format de conservation des bases de données statistiques? Et des imageries? Problème de compatibilité de version entre logiciels? Lesquels / Solutions? Quels supports? Fréquence de renouvellement? Veille : comment / à quelle fréquence? Autre expérience?