Numérisation et constitution d une bibliothèque numérique 28 janvier 2013 Yohann Le Tallec yohann.le-tallec@bnf.fr Service numérisation
Introduction Brève présentation des projets de numérisation en cours dans l établissement Un marché imprimé image/ocr/tdm/epub Volumétrie importante 26 millions de pages numérisés en trois ans 5 000 pages livrées en moyenne par jour Un marché presse image/ OCR Des supports fragiles liés à l acidité du papier Complexité du traitement de la reconnaissance optique de caractère Liés aux difficultés de segmentation Liés aux défauts d encrage Un marché de traitement rétrospectif de documents numérisés TDM/OCR/Epub Non maîtrise de la qualité des images mises à disposition du prestataire de numérisation
Introduction Deux marchés images Concernent les collections spécialisées de la BnF Attention particulière portée aux règles de manipulation Deux projets de numérisation européens Devenir un partenaire parmi d autres Quatre projets de recherche Portent sur la maîtrise de la qualité de l OCR
Introduction Un projet de numérisation Point de convergence entre Des aspects techniques Cf. le cahier des charges Des aspects administratifs et juridiques Cf. le CCAP La question de la gouvernance Gestion de projet
Introduction La méthodologie proposée Aborder quelques points importants rencontrés dans la création de contenus numériques Décliner les conséquences de chacun des choix opérés à la lumière d exemples précis
Introduction Il n existe pas d appel d offres type La rédaction d un appel d offres est étroitement conditionnée par le périmètre du projet Impose de ne jamais dissocier la question du fonds à traiter des solutions techniques Le chef de projet doit impérativement être partie prenante de la sélection documentaire
L appel d offres Une définition: C est un document contractuel permettant d évaluer différents paramètres dans un cadre concurrentiel Compétences Organisation Ressources humaines Prix L appel d offres est donc un référent pour l évaluation technique et financière des offres À ce titre, il est un outil essentiel de gestion de la qualité
L appel d offres (2) Méthodologie 1. Déterminer le type et l étendue des prestations souhaitées Définir les caractéristiques principales des documents à traiter Impose une connaissance fine du fonds mis à disposition (cf marché image/ocr/tdm/epub) Déterminer la volumétrie en pages Permet aux prestataires de définir une offre financière pertinente Définir le type de traitement souhaité Pose la question des possibilités de contrôle mais aussi des possibilités de stockage» Question de la résolution des images/ poids des fichiers
L appel d offres (3) Méthodologie (2) 2. Déterminer les contraintes du projet: Ressources humaines affectées au projet (instruction, pilotage, suivi logistique, contrôle des documents numériques, suivi financier, support informatique) Contraintes juridiques Contraintes administratives liées aux subvention (Europeana 14-18) Prise en compte des partenariats Contraintes de planning Contraintes techniques (outils, chaînes de traitement) Permet d évaluer la façon de conduire le projet, d évaluer ce que la bibliothèque peut prendre en charge ou doit externaliser
Pièces et rédaction Rédaction la plus précise et la plus complète des prestations demandées? Impossibilité d embrasser l ensemble des problématiques liées à la diversité typologique des documents Attention, avoir un niveau de détail pertinent Permettre aux candidats de définir leur offre et leur prix Ne pas préciser à la fois les volumes précis et un montant financier mini/maxi du marché cela empêche toute mise en concurrence Ne pas dédouaner l entreprise de ses responsabilités et s appuyer sur ses compétences
Le CCAP 1/ Détermine les délais d exécution du marché : - découpage en tranches fermes et conditionnelles - donne de la souplesse à l établissement et accroît la pression sur le prestataire - en revanche diminue la surface d amortissement dans le calcul effectué par le prestataire
Le CCAP 2/ Détermine les délais de production: - délais de livraison - délais des contrôles effectués par l établissement (délais de validation) - délais de réfection accordés au prestataire - délais de paiement 3/ Détermine les modalités de fixation des pénalités de retard
Le CCAP 4/ Détermine une phase de test - Permet de valider l exécution de chaque prestation (test unitaire) et les protocoles d échange. - Impose la rédaction de documents écrits, les chartes, qui deviennent les documents de référence tout au long du marché. - Détermine le planning de la production
Le CCAP Les aspect financiers - Définir la forme du marché, les montants ou les volumes ; l unité de comptage (la page) et les caractéristiques permettant de définir le BPU Les pénalités : - sur le retard, la perte, la dégradation des objets - Nécessite la formalisation d outils précis (fiches d état physique permettant de tracer les éventuelles dégradations; modalités de déclaration des dégradations)
Le CCAP Le paiement - cette question recouvre plusieurs problématiques: - quelles modalités de contrôle de la qualité des prestations? - renvoie à la définition de critère de rejets - quels outils administratifs définir? - renvoie aux notions d admission partielle et d admission totale - permet de ne pas étouffer économiquement le prestataire en se préservant une marge de manœuvre vis-à-vis de lui.
Analyse des offres et choix Uniquement à partir des offres Les critères de notation et leur pondération doivent être définis et communiqués (RPC) Ne pas évaluer des points non prévus aux cahiers des charges Poser des questions si besoin Lever les ambiguïtés Attirer l attention d un candidat sur un point important Les questions ne doivent pas conduire à ajouter des éléments nouveaux : seulement des précisions
Le pilotage d un projet Les structures de pilotage : Le comité de projet - Sa composition : des compétences techniques, administratives et des personnes ayant compétences pour décider au nom des deux contractants. - Ses fonctions : suit des plannings, validation techniques des étapes du projet (test, production etc.), suit la qualité, rappelle au besoin les consignes et procédures en cas de dérives. Le comité de pilotage - Sa composition : définie au lancement du marché et pour la durée du projet, elle rassemble les chefs de projet des deux contractants, et les personnes ayant autorité pour le suivi stratégique du projet. - Ses fonctions : suit le projet au niveau stratégique et décisionnel, rend des arbitrages soumis par le comité de projet, valide formellement les étapes du projet.
Les indicateurs : Le suivi d un marché suivi de l avancement du marché : volumes produit, livrés, validés, corrigés etc. délais de production, délais d immobilisation des documents etc. suivi de la qualité nombres de documents rejetés, répartition par motif etc. suivi financier permet de décider quand une commande est remplie, facturable...
Le suivi d un marché Rédaction des procédures: Décrire des opérations liées à la mise en œuvre de la prestation Lever les ambiguïtés d une organisation informelle s inscrire dans une démarche de management de la qualité Procédures bipartites : livraison, départ et retour des documents, validation des livraisons, facturation etc. Procédures chez le prestataire : des opérations clés dans la bonne réalisation de la prestation peuvent être décrites pour comprendre les méthodes du prestataire et s assurer qu elles garantissent la qualité de la prestation. Procédures internes : Si certaines opérations lourdes impliquent plusieurs acteurs, sur des actions stratégiques (facturation par exemple) il peut être utile de formaliser la façon de procéder, et les intervenants.
Les défauts des documents numériques Les erreurs dans les fichiers ALTO se décomposent en : défauts de segmentation (éléments oubliés ou rejetés, fusion des éléments ), défauts de reconnaissance de caractères. 22
Les défauts des documents numériques Les défauts de segmentation 23
Vérification des résultats de l OCR: Vérification de la présence des mots manqués 24
Les défauts des documents numériques Ces défauts peuvent être liés : Problèmes de contraste, Bruit de numérisation, Problèmes de courbure, Binarisation rigide Fusion, division ou mauvaise classification des éléments de la page Utilisation d un moteur de reconnaissance inadapté à la typographie du document, configuration rigide de l OCR Usage forcé d un dictionnaire 25