LR2L. Rapport sur les tests v2



Documents pareils
La Jubilothèque Du magasin à la Jubilothèque documents en ligne soit + de pages budget /an 0.7 ETP Pôle associé BnF

Edito Les nouveautés: e-scan le premier scanner libre service ; Suprascan A00 pour le grand format ; Scan2Page ; Logiciels et accessoires

Cours de numérisation sur Epson Perfection

Création de maquette web

OCR & 300 DPI AGATE TM. e-scan. Smart, intuitive lovely!

JPEG, PNG, PDF, CMJN, HTML, Préparez-vous à communiquer!

1. Avoir un fichier InDesign correct :

Usage des photos pour Internet et pour la presse

Livre blanc Compta La dématérialisation en comptabilité

Les images numériques. 1. Le dessin vectoriel

Utiliser le logiciel Photofiltre Sommaire

Documalis. Denis SCHIRRA GSM : Plus d information sur notre site Internet

EPSON Scan Server & EPSON TWAIN Pro Network

A R C H I VA G E / A B A S C A N

Chapitre 3 : outil «Documents»

Logiciel de Gestion Electronique de Dossiers

Optimiser les s marketing Les points essentiels

RAPPEL : La Dématérialisation n est pas à ce jour obligatoire

PageScope Suite L accélérateur de workflow * L essentiel de l image

Création d un fichier de découpe

WinBooks Logistics 5.0

Logiciel de capture et de gestion des flux de documents MOINS DE PAPIER, PLUS D EFFICACITÉ.

Adobe Photoshop. Bonnes pratiques pour une utilisation professionelle CHAPITRE 7

Introduction à la GED La Gestion Electronique des Documents

Logiciel de capture et de gestion des flux de documents MOINS DE PAPIER, PLUS D EFFICACITÉ. VOUS POUVEZ COMPTER SUR NOUS

Fête de la science Initiation au traitement des images

WORDPRESS : réaliser un site web

ACQUISITION. Traitement de l image. Classement. Préparation. Ouverture. Performance

SPÉCIFICATIONS TECHNIQUES Impression Télécharger

Scanner de microfilms i7300. Des archives de

Button Manager V2 Guide de l utilisateur

Livre blanc. Le 3 Heights Scan to PDF Server : bases et utilisation

Logiciel de capture et de gestion des flux de documents MOINS DE PAPIER, PLUS D EFFICACITÉ.

Arxis Solutions Belgium 26, Rue de la loi 1040 Bruxelles. Tel : 02/ Fax : 02/

Spécifications techniques

GLOSSAIRE DU SOUTIEN EN CAS DE RECOURS EN JUSTICE

Transfert des factures sans interruption la Comptabilité des créanciers sans papier apporte de nombreux avantages

Logiciel (Système d impression directe)

Un logiciel pour aller plus loin dans la gestion de vos espaces. Mémo technique

Les images et les animations sur le web. Guérineau Chloé BTS2 Année 2001/2012

Communiqué de lancement

Comment optimiser dans ImageReady?

Services internet gratuits. La PICASA Google avec son espace client. Cliquez ici

solutions Enfin des S ORGANISER

WORKSHOP NOUVELLES TECHNOLOGIES ET PATRIMOINES CULTURELS, ENTRE PROJETS REVÉS ET RÉALITÉS DU TERRAIN

BRZ GED : Il n'y a pas que sur vos chantiers que nous vous ferons gagner en productivité!

Facturation électronique et dématérialisation fiscale

Guide Numériser vers FTP

I.R.I.S. lance IRISPdf 4.0, la nouvelle version de sa solution d'ocr de production

Installation et utilisation du client FirstClass 11

Modules Multimédia PAO (Adobe)

Guide de démarrage rapide

LES EDITIONS CoMPAGNoNS

REGLEMENT DE LA CONSULTATION (R.C.)

2013 Pearson France Adobe Illustrator CC Adobe Press

imprimante multifonction

DÉCOUVERTE DE CAPTURE ONE

Créer un document composite avec NéoOffice J et le partager

Digital Media. process. Relax, une belle impression quand vous voulez! avec notre Web-To-Print :

Tux Paint. 1. Informations générales sur le logiciel. Auteur : Bill Kendrick et l équipe de développement de New Breed Software

LECTURE DES FICHIERS DE FACTURES

Système d'impression multifonction numérique couleur grand format RICOH. Copieur Imprimante Scanner RICOH MP CW2200SP. N&B 3,4 ppm Couleur 1,1 ppm

Chapitre 22 Optimisation pour diffusion à l'écran, pour le web

Manuel d utilisation du logiciel Signexpert Paraph

C2i Niveau 1 Enoncé Activité 1 UPJV

Nouveau multifonction Canon PIXMA MP540 : résolution, qualité d impression et innovation.

MIGRATION DE THUNDERBIRD VERS OUTLOOK mardi 16 octobre 2012

Les Ateliers Info Tonic

Directeur Secteur Applicatif : Philippe ARNAULT Chef de Projet : Ceydrick GENDRE

Colitrack.com : transporteur

Dématérialisation du courrier

ScanFile V8 D O C U M E N T M A N A G E M E N T S Y S T E M

Créative Cloud - Perfectionnement

d-copia 3500MF plus 4500MF plus 5500MF plus SYSTEMES NUMERIQUES NOIR ET BLANC MULTIFONCTIONS

Button Manager V2 Guide de l utilisateur

PRESENTATION DE LA PLATEFORME NUMERIQUE AGORASSAS Préparation en ligne au concours d accès à l ENM. IEJ «Pierre RAYNAUD» Université Panthéon-Assas

SilverFast SE Plus 8 - Le meilleur logiciel de scanner... beaucoup plus qu un simple logiciel pour des scanners.

KM-2560 TRAITER CHAQUE PROJET COMME UNE PRIORITÉ MULTIFONCTION MONOCHROME A3. KM2560_BROFR.indd 2 1/03/10 9:11:48

ELOECM Conference2015

L interface Outils, palettes, règles, repères, grille Paramétrer les préférences

«REMPLACEMENT MOYENS D IMPRESSION : PHOTOCOPIEURS / MFP IMPRIMANTES / PRINTERS - LOGICIEL GESTION DE FLUX»

1 La visualisation des logs au CNES

Formulaire de demande de certification d une Extension d une installation photovoltaïque.

Cahier des charges pour la fourniture d éléments numériques. version 2014

Maîtriser VINCENT LUC PASCALE BRITES. le Canon EOS 600. Groupe Eyrolles, 2011, ISBN :

GAMME PRODUITS KYOCERA IMPRIMANTES ET MULTIFONCTIONS

Une gestion optimisée de l ensemble de vos flux documentaires

MANUEL DE L'UTILISATEUR

Les Editions CoMPAGNoNS Une gamme d outils malicieux pour les utilisateurs Sage

Cyber-base du Pays Martégal. Atelier «Découverte de l ordinateur»

Communiquez avec vos clients. Créez vos Newsletter et -mailings en version html. Vérifiez l impact de vos messages avec le "Mailing Report"

PRIX PRIX

Écriture de journal. (Virement de dépense)

Informations relatives à la sécurité

2 e partie de la composante majeure (8 points) Les questions prennent appui sur six documents A, B, C, D, E, F (voir pages suivantes).

Support Web Administration et gestion des portails web des facultés - Université A.Mira Béjaia -

Les différentes étapes à suivre pour la création d un feuillet

MEGA ITSM Accelerator. Guide de démarrage

PROGRAMME DES NATIONS UNIES POUR LE DEVELOPPEMENT

Transcription:

LR2L Rapport sur les tests v2 Sommaire 1 INTRODUCTION... 1 2 LOT DE TEST... 2 2.1 DOCUMENTS TRAITES... 2 2.2 SCANNERS... 2 2.3 LIVRABLES... 3 3 CADRAGE... 5 4 CAS PARTICULIERS RENCONTRES... 7 4.1 REDRESSEMENT... 7 4.2 PLIURES... 8 4.3 COURBURES... 9 4.4 TRANSPARENCE... 9 4.5 PAGES EN MAUVAIS ETAT...10 1 Introduction Ce document accompagne la livraison du second lot de test du projet de numérisation LR2L. Il a notamment pour objectif de présenter la typologie des cas particuliers rencontrés et les résultats associés. Cette livraison fait suite à un rejet du premier lot test de livré, notamment à cause de nombreux fichiers corrompus lors du transfert des images par FTP. rapport_testsv2_diadeis.doc 1

2 Lot de test 2.1 Documents traités Dans le but d accélérer la phase de test, ce second lot traité ne reprend qu un échantillon du lot de test complet. Les titres traités sont toujours les mêmes mais au sein de chaque titre seul un nombre réduit de numéros (1 à 3 par titre) ont été repris. Cependant, même si les volumes de tests sont réduits, leur qualité engage toujours Diadeis sur la qualité qui sera fournie en production. Les titres concernés sont : - Dominique - Lou Camel - Journal de Cette (1886, 1912) - La Cèze - La Commune - La Volonté Nationale - Passe Partout - La Chronique Bagnolaise - Lou Caleu - Lou Gaveu - L Album du Gard - La Cigalo d Or - La Cigalo Narbouneso (1913, 1923, 1928) - Le Moniteur Judiciaire (1893, 1907) - Le Journal de Nismes (1786) - La Campana de Magalouna - La Liberté - Le Furet Nimois - Le Nimois - L Hirondelle - Le Messager du Midi - Midi Taurin - Le Publicateur de Beziers (PB06, PB16) 2.2 Scanners Différentes filières de scan sont utilisées en fonction des documents. Elles sont réparties entre Diadeis et le Centre des Archives Du Nord. - >A3 : Zeutschel OS14000 A1 ou Digibook (CADN) - <A3 non-relié : Copibook (DIADEIS) - <A3 relié : Zeutschel OS 14000 A2 ou A1 (DIADEIS/CADN) - Microfiches : Zeutschel OM 1600 (CADN) Les images sont scannées en 300 DPI Niveau de Gris (exceptionnellement en couleur comme dans Lou Caleu). rapport_testsv2_diadeis.doc 2

L utilisation du Zeutschel pour les ouvrages reliés permet de ne plus avoir de problème d ombre centrale : Copibook Zeutschel 2.3 Livrables Comme convenu avec LR2L, le lot de test livré vise à la validation des images (cadrage ) et de l OCR, et ne contient donc pas les livrables liés aux métadonnées (METS, fichiers de récolement ). L organisation et le nommage des fichiers n avaient pas encore été définis pour la première livraison des tests. Nous reprenons ici la version «provisoire» du nommage, où seule une décomposition par année a été ajoutée. On a donc : - un dossier par titre, éventuellement par année - 5 sous-dossiers correspondants aux différents livrables : o Conservation : images TIF o Consultation : images JPEG o OCR : fichiers ALTO o OCR_PDF : fichiers PDF avec texte caché o OCR_texte : fichiers texte HTML - Au sein de chacun de ces sous-dossiers, on a une décomposition en numéros (un dossier par numéro) Les images sont en 300 DPI Niveau de Gris (exceptionnellement en couleur comme dans Lou Caleu). rapport_testsv2_diadeis.doc 3

Les JPEG sont compressés à 70% de qualité. Remarques sur l OCR : Livrable OCR texte : L «OCR texte» est livré sous forme de HTML qui tente de reproduire la mise en page d origine. Cependant, la sortie de l OCR ne permet pas d obtenir directement la mise en page exacte au format HTML. Nous avons modifié le programme de génération de ce livrable pour corriger au mieux les problèmes de paragraphes qui se superposent, chaque début de ligne est maintenant positionnée selon ses coordonnées repérées sur la page. Mais les caractères ne peuvent être reproduits que dans une police existante, ce qui pose encore de problèmes sur les titres : il arrive que le titre «déborde» sur 2 lignes. Reconnaissance des titres : Les titres, le plus souvent en très gros caractères, sont assez mal reconnus par l OCR, et sont même souvent pris automatiquement comme une illustration. rapport_testsv2_diadeis.doc 4

LR2L Rapport sur les tests v2 3 Cadrage La règle de cadrage est de détourer à l intérieur des bords de page, au plus proche des bords. La priorité reste bien entendu de conserver l intégralité du texte, ce qui peut amener dans certains cas à rendre visible le bord de page. Un tel cadrage présente l avantage de favoriser le confort visuel de l utilisateur final, car il permet notamment de masquer : - l épaisseur de l ouvrage dans le cas des documents reliés : - les déchirures dans le cas de bords de pages abimés : rapport_testsv2_diadeis.doc 5

LR2L Rapport sur les tests v2 - les bords de page de travers suite au redressement sur le texte* *Les pages sont redressées automatiquement sur le texte par un programme qui évalue l orientation moyenne des lignes de texte. Cela permet d avoir le texte le plus droit possible pour la lecture mais aussi pour optimiser l OCR. Dans les cas où le texte est de travers par rapport au bord de page, c est le bord qui se retrouve de travers après redressement sur le texte. Exemple de cas où on voit la pliure car le texte est proche du bord : rapport_testsv2_diadeis.doc 6

4 Cas particuliers rencontrés 4.1 Redressement Les pages sont redressées automatiquement sur le texte par un programme qui évalue l orientation moyenne des lignes de texte. Cela permet d avoir le texte le plus droit possible pour la lecture mais aussi pour optimiser l OCR. Cependant, nous avons rencontré de nombreux cas où les colonnes de texte n était pas droites les unes par rapport aux autres, ou bien le texte est bien horizontal mais la colonne n est pas droite : Dans ces cas, le redressement est fait «au mieux» pour optimiser l orientation moyenne des lignes de texte. rapport_testsv2_diadeis.doc 7

4.2 Pliures Certaines pliures ne peuvent pas être compensées par l application de la vitre du scanner et resteront visibles sur l image finale, notamment : - les grosses pliures très marquées (pages pliées en 2 ou en 4) : - les micro-pliures : C est également le cas des pages gondolées qui ne pourront pas être totalement aplaties. rapport_testsv2_diadeis.doc 8

4.3 Courbures Quand la reliure est trop serrée pour être bien aplatie, cela crée une courbure du côté intérieur de la page : Pour les ouvrages où le texte se retrouve pris dans la reliure (cas du Journal de Nismes), Diadeis est en train de faire des tests sur ATIZ et Zeutschel en angle réduit pour proposer les différents résultats à LR2L. 4.4 Transparence Certaines pages présentent des phénomènes de transparence (verso visible par transparence). rapport_testsv2_diadeis.doc 9

4.5 Pages en mauvais état Certaines pages sont tachées, abîmées, etc. rapport_testsv2_diadeis.doc 10