légal de l Internet à la BnF Clément Oury Service du dépôt légal numérique Bibliothèque nationale de France clement.oury@bnf.fr



Documents pareils
WebSSO, synchronisation et contrôle des accès via LDAP

ISTEX, vers des services innovants d accès à la connaissance

Protocoles Applicatifs

RFC 7230 : Hypertext Transfer Protocol (HTTP/1.1): Message Syntax and Routing

RAPPORT AUDIT SEO. Élaboré à l'attention de : Monsieur Greber Élaboré par : Cédric Peinado

L3 informatique TP n o 2 : Les applications réseau

Logiciels de référencement

Programmation Internet Cours 4

Présentation aux entreprises du numérique

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Ministère de la Culture et de la Communication

INTERNET est un RESEAU D ORDINATEURS RELIES ENTRE EUX A L ECHELLE PLANETAIRE. Internet : interconnexion de réseaux (anglais : net = réseau)

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1

Prestations de conseil en SRM (Storage Ressource Management)

Présentation générale du projet data.bnf.fr

I. Descriptif de l offre. L offre Sage 100 Entreprise Edition Entreprise

DataStudio. Solution d intégration des données et de diffusion de l information

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) JRES Novembre 2007

Acquisition Indexation Classement & Recherche & Stockage Consultation. Solution d archivage sur mesure

Numérisation et valorisation des fonds patrimoniaux dans les collectivités

Gilles.Roussel univ-mlv.fr HTTP/1.1 RFC 2068

Les enjeux du stockage de masse sur bande vidéo

Un serveur d'archivage

Gestion collaborative de documents

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007

I) - DEFINITIONS I-A) TERMINOLOGIE

LES GRANDES ETAPES DE CREATION D UN WEB DESIGN

Communiqué de lancement. Sage 100 Entreprise Edition Etendue Module CRM inclus

Dématérialisation et travail collaboratif

Messagerie & Groupeware. augmentez l expertise de votre capital humain

Conservation des données à long terme

Logiciel photothèque professionnel GUIDE D UTILISATION - 1 -

Proxies,, Caches & CDNs

Formats 3D Critères d utilisation dans les échanges Frédéric CHAMBOLLE PSA Peugeot Citroën Direction des Systèmes d Information

Architecture Multi-Niveaux

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Intégration de Données et Systèmes Décisionnels. Au cœur de la performance

Glassfish dans le milieu médical. Sun Aquarium Paris 26 Juin 2009 Jacky Renno


Université de Lausanne

Livret de Stages 2014 / 2015

Comment booster vos applications SAP Hana avec SQLSCRIPT

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

Activité sur Meteor. Annexe 1 : notion de client-serveur et notion de base de données

Plan. Un modèle d organisation. Pour les Archives numériques. Présentation Groupe PIN. Claude HUC (CNES)

Hébergement de sites Web

Méthodologie de mise en place de

En date du 11 décembre 2008

--- SIDOMTECH (Auto-Entreprise) ---

Magento. Magento. Réussir son site e-commerce. Réussir son site e-commerce BLANCHARD. Préface de Sébastien L e p e r s

Panorama des solutions analytiques existantes

Pérennisation des Informations Numériques

Serveurs de noms Protocoles HTTP et FTP

Kick Off SCC 2015 Stockage Objet. Vers de nouveaux horizons

M2 SIAW - Exemples de stages réalisés. Gabriella Salzano - Document de travail - 28/1/2015

HTTP HTTP. IUT1 dpt SRC L Isle d Abeau Jean-françois Berdjugin. Introduction et architecture Messages Authentification Conclusion

«clustering» et «load balancing» avec Zope et ZEO

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

(structure des entêtes)

Cursus Sage ERP X3 Outils & Développement. CURSUS Sage ERP X3 Outils & Développement ADVANCED. Outils avancés. 2 jours X3A-ADM. Développement 1 &2

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

DEMANDE D INFORMATION RFI (Request for information)

Dématique et archivage

Mise en œuvre d un Serveur d Archivage Electronique pour les factures client. 28/01/2015 Sébastien Dufrene

L. Granjon, E. Le Goff, A. Millereux, L. Saligny MSH Dijon

répondre aux défis de l ingénierie logicielle déploiement et mise en œuvre opérationnelle : l'industrialisation au service de la compétitivité

Evolution des catalogues et des métiers: comment se préparer aux changements? Quelques échos de la BnF. CRFCB Université de Toulouse 29 mars 2013

«Les documents référencés ci-dessus étant protégés par les droits d auteur et soumis à la déclaration au Centre Français d exploitation du droit de

Documentation CAS à destination des éditeurs

Architecture de serveurs virtualisés pour la communauté mathématique

Démonstration de la mise en cache via HTML 5 sur iphone

La présentation qui suit respecte la charte graphique de l entreprise GMF

Les archives de l entreprise à l ère du numérique. Présentée par: HAMMA Mustapha

La gestion des documents administratifs à la Bibliothèque nationale de France

La reconquête de vos marges de manœuvre

OFFRE MDB Service & Architecture Technique. MyDataBall Saas (Software as a Service) MyDataBall On Premise

Compte-rendu re union Campus AAR 3 mars 2015

Offres de stages 2011/2012

Logiciel de Gestion Electronique de Dossiers

LA BASE DE DONNÉES PATRIMOINE IMMOBILIER, MOBILIER ET

LIVRE BLANC «LA GESTION, CONVERSION, IMPRESSION, PUBLICATION ET DISTRIBUTION DOCUMENTAIRE SAP» SAP DMS SAP PLM

mieux développer votre activité

Déjeuner EIM Enterprise Information Management. Mardi 16 novembre 2010 Restaurant l Amourette Montreuil Thomas Dechilly CTO Sollan

1 Introduction Propos du document Introduction De HTTP 1.0 à HTTP

Introduction à. Oracle Application Express

Découverte et investigation des menaces avancées PRÉSENTATION

Solution de stockage et archivage de grands volumes de données fichiers.

FILIÈRE TRAVAIL COLLABORATIF

HTTP. Technologies du Web. Programmation Web côté serveur. Mastère spécialisé Management et nouvelles technologies, 16 novembre 2009

Catalogue Formations Jalios

ENVOI EN NOMBRE DE Mails PERSONNALISES

WORKSHOP NOUVELLES TECHNOLOGIES ET PATRIMOINES CULTURELS, ENTRE PROJETS REVÉS ET RÉALITÉS DU TERRAIN

Conférence de presse

Vérifier la qualité de vos applications logicielle de manière continue

Installation d un serveur HTTP (Hypertext Transfer Protocol) sous Débian 6

Protection des protocoles

MYXTRACTION La Business Intelligence en temps réel

Table des matières détaillée

Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines

Transcription:

La migration des fichiers du dépôt légal de l Internet à la BnF Clément Oury Service du dépôt légal numérique Bibliothèque nationale de France clement.oury@bnf.fr 1

Plan de l intervention Contexte et enjeux de la migration Les outils de migration Approche et méthodologie 2

Contexte et enjeux 3

Quelques mots de contexte Un objectif : l archivage de contenus Internet à des fins patrimoniales Un cadre juridique et scientifique : le dépôt légal Une mission inscrite dans le code du Patrimoine, partagée avec l INA lina Deux modifications fondamentales mais un objectif scientifique similaire : ne pas juger de la qualité Une voie privilégiée: les outils de collecte automatique, les «crawlers» Un projet qui repose largement sur la coopération internationale et sur le consortium IIPC 4

Au cœur de tout le dispositif : les robots de collecte Logiciel appelé robot de collecte, «aspirateur», «araignée» ou «moissonneur» de sites Part d'une liste d'adresses URL «graines» Extrait les liens dans le code des pages, les suit comme un internaute automatique Copie les éléments qu il trouve et qui font partie du périmètre de la collecte 5

Le circuit du document Collecte Préservation Accès Indexation 6

Les données produites Les données collectées sont regroupées au sein de fichier container ARC Un fichier ARC regroupe de multiples enregistrements ARC Un enregistrement ARC est le fichier collecté sur le Web, accompagné de métadonnées Caractéristiques du format ARC (1996) format auto descriptible format extensible format compressé taille limitée arbitrairement à 100 Mo organisation des données délibérément aléatoire Il y a d autres types de fichiers Documentation de la collecte : fichiers de configuration, logs et rapports d activité Fichiers d index 7

Anatomie d un fichier (W)ARC Fichier (W)ARC Enregistrement (W)ARC En-tête Contenu... Ajout à volonté 8

Un enregistrement ARC URL IP-address Archive-date Content-type Archive-length Métadonnées: http://desirsdavenir-mosaique.over-blog.com/ 195.20.15.131 20070416172243 text/html 132721 Objet numérique HTTP/1.1 200 OK collecté : Date: Tue, 16 Apr 2007 17:22:56 GMT Server: Apache/2.0.58 (Unix) mod_ssl/2.0.58 OpenSSL/0.9.7e PHP/4.4.2 X-Powered-By: PHP/4.4.2 Last-Modified: Tue, 16 Apr 2007 17:22:56 GMT Content-Type: text/html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/tr/xhtml1/dtd/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml" lang="fr" xml:lang="fr"> <head> <meta http-equiv="content-type" content="text/html; charset=iso-8859-1" /> <title>comité Mosaïque</title> <meta name="description" content="desirsdavenir-mosaique.over-blog.com hébergé par over-blog.com Le comité de la diversité riche de ses différences qui soutient Ségolène Royal à la présidence de la République." /> 9

Le format WARC Héritier du format ARC Normalisé au sein d IIPC et de l ISO : ISO 28500:2009 Ce qui correspond à une attente forte des institutions Un format ARC étendu : Ajout d un identifiant t unique pour chaque enregistrement t Gestion des doublons Gestion d un nombre supplémentaire d informations (informations sur la collecte, archivage des requêtes du robot, possibilité d ajouter des métadonnées) Gestion des migrations de format des fichiers contenus Taille cible : 1 Go Aucune régression par rapport au format ARC. Des enrichissements qui justifient une migration 10

Les enjeux d une migration Comment appréhender la masse de données à traiter? Les collections de la BnF : 150 To, 13 milliards de fichiers contenus Relative hétérogénéité : différents outils de collecte au fil du temps Quelles mesures de validation adopter? Doit-on conserver les données originales? Peut-on enrichir les données? Quelles ressources sont nécessaires? Temps, machines, hommes 11

Des outils pour un format 12

Une suite complète d outils Tous les outils développés au sein d IIPC sont capables de traiter des fichiers WARC Pour la production : le robot de collecte Heritrix Pour l indexation plein-texte : le logiciel NutchWAX Pour la visualisation : la Wayback Machine Outils de traitement et de manipulation : les WARC tools 13

Les «WARC tools» Outils libres développés par la société Hanzo Archives, membre d IIPC et avec des fonds d IIPC Objectif O f : promouvoir l adoption du format WARC Ne pas dépendre d une seule implémentation logicielle 14

Deux séries d outils Première série (phases I & II) : une bibliothèque d outils destinés à accomplir des actions unitaires outils d écriture / de harvesting outils de lecture outils d identification / de validation outils de migration Deuxième série (phase III) : intégrer les outils des phases précédentes dans des applications professionnelles Analyse et extraction des données: «reporting», «repackaging» Migration de grande échelle Livraison octobre 2010, validation février 2011 15

L application de migration Une application de workflow intégrant : Une interface graphique pour définir la «stratégie de migration» Un outil de migration Capable d appeler des outils extérieurs Un outil de validation Une console pour piloter le processus (choix des fichiers à traiter, pause, restaurations ) Spécifications non fonctionnelles Scalabilité (!) Distribution de la charge sur plusieurs machines Compatibilité avec un environnement Java 16

Vue générale du système 17

Enrichir les données lors de la migration? Le recours à des outils extérieurs Choix du système d identifiants uniques Outils d identification ou de caractérisation Outils antivirus Dédupliquer les données? 18

Approche et méthodologie 19

WARC : un format plus complexe Spécifications du format ARC 4 pages 2 types d enregistrement 9 champs d en den-tête Norme WARC 8 types d enregistrement 17 champs d en-tête le tout sur 28 pages La norme WARC explique comment créer un fichier WARC valide mais elle laisse de nombreux choix ouverts Des enjeux critiques d interopérabilité 20

Les «WARC implementation guidelines» Juin-septembre 2009 : élaboration d un guide d application de la norme Groupe de travail international (IIPC) regroupant des utilisateurs (bibliothécaires et ingénieurs) et les développeurs des outils Une grande partie concerne la migration : Règles de «mapping» ARC / WARC Choix des identifiants uniques, nommage des fichiers migrés Génération et enregistrement de métadonnées http://www.netpreserve.org/publications/warc_guidelines_v1.pdf 21

Gros ou petit bout? Commencer par le courant ou le rétrospectif? La production de WARC «natifs» semble aujourd hui prématurée Les outils ne correspondent pas nécessairement à nos besoins Il serait difficile de gérer en même temps deux générations de format Il faut s appuyer sur nos partenaires internationaux Robots de collecte, outils d accès : Internet Archive Outil de gestion côté bibliothécaire : netarchive.dk 22

La migration rétrospective Migrer les données historiques et faire de la migration une étape provisoire du circuit de production Impact moindre sur le circuit actuel mais coût de stockage plus important Un banc de test pour préparer la conversion de l ensemble du workflow Pourrait être considéré comme une étape de l entrée dans SPAR 23

La migration ARC/WARC dans SPAR Preservation Administration Rights management Pre Ingest Ingest Data management Access Storage Storage Abstraction Service (SAS) 24

La migration ARC/WARC dans SPAR Preservation Administration Rights management Pre Ingest Ingest Data management Access Storage Storage Abstraction Service (SAS) 25

En conclusion La migration ARC / WARC est avant tout un enjeu de préservation Les objectifs et les enjeux sont définis La similitude des deux formats facilite la migration Le guide d application précise les contours de la migration Mais des difficultés demeurent La masse, encore et toujours Une forte dépendance vis-à-vis des outils actuellement disponibles La concertation internationale représente à la fois une chance et une nécessité 26

Merci de votre attention! 27

Crédits photographiques http://www.r-geek.com/2007/08/28/i-robot/ http://www.avl-importexport.com/location.html http://www.flickr.com/photos/villeneuve53/1808995620/ http://www.preparationmariage.com/img/jpg/fotolia_120123_s.jpg http://www.niffylux.com/components/com_virtuemart/shop_image/p roduct/oeuf 1_4b21145d94340.jpg http://www.flickr.com/photos/papalars/2197212826/ com/photos/papalars/2197212826/ 28