Stage Maroc Méta données et OCR. Dominique Maillet Bibliothèque nationale de France. 21 au 25 mai 2012

Documents pareils
Documalis. Denis SCHIRRA GSM : Plus d information sur notre site Internet

Créer un fichier PDF/A DÉPÔT ÉLECTRONIQUE

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

Français MANUEL UTILISATEUR

Rédigez efficacement vos rapports et thèses avec Word (2ième édition)

WORKSHOP NOUVELLES TECHNOLOGIES ET PATRIMOINES CULTURELS, ENTRE PROJETS REVÉS ET RÉALITÉS DU TERRAIN

Envoyez un ou plusieurs s

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

Acrobat XI pour PC/Mac (version Pro) Pour qui, pourquoi et comment fabriquer un PDF?

Comment échanger des données (fichiers) en format «STANDARD» lisibles par tous, quelque soit le programme et la version utilisés

La Jubilothèque Du magasin à la Jubilothèque documents en ligne soit + de pages budget /an 0.7 ETP Pôle associé BnF

KIELA CONSULTING. Microsoft Office Open Office Windows - Internet. Formation sur mesure

Support de formation Notebook

Générer un PDF avec polices incorporées

PageScope Suite L accélérateur de workflow * L essentiel de l image

JPEG, PNG, PDF, CMJN, HTML, Préparez-vous à communiquer!

Les logiciels gratuits en ligne

Guide d usage pour Word 2007

Formation Tutorée A Distance (FTAD) en BUREAUTIQUE

Manuel de mise en page de l intérieur de votre ouvrage

ELO Office / Pro Les avantages : Archivage et gestion documentaire

Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte»

NOTICE TELESERVICES : Demander un état hypothécaire

SOLUTION INFORMATIQUE INTÉGRÉE POUR BIBLIOTHÈQUES MÉDIATHÈQUES CENTRES DE DOCUMENTATION ARCHIVES

Gestion collaborative de documents

ACQUISITION. Traitement de l image. Classement. Préparation. Ouverture. Performance

Présentation des licences exclusives

PRESENTATION 2009 L'ingénierie Documentaire

SYSTRAN 7 Guide de démarrage

Mode d Emploi. Résult Arc Logiciel de Gestion de Compétitions. Droits d utilisation Informations Générales. 1/. Présentation de Résult Arc

INDICATIONS POUR LA CONVERSION DE DOCUMENTS AU FORMAT PDF

Sommaire. Introduction. Nouveautés d Adobe InDesign CS3. Visite guidée d Adobe InDesign

EXEMPLE DE PAGE : FORMAT A4 (210X297)

Les Ateliers Info Tonic

Utilisation de l'outil «Open Office TEXTE»

BUREAUTIQUE. 1 Journée. Maîtriser les fonctions de base du logiciel

Aide Webmail. L environnement de RoundCube est très intuitif et fonctionne comme la plupart des logiciels de messagerie traditionnels.

Créative Cloud - Perfectionnement

L externalisation de vos logiciels entreprises : une solution aux problèmes de coûts, de sécurités et de réactivités

Utilisation d ADOBE ACROBAT X STANDARD

ZOTERO Un outil gratuit de gestion de bibliographies

2 LES BASES DU HTML 19 Qu est-ce que le HTML? 20 De quand date le HTML? 20 Écrire son propre code HTML 22

Catalogue Formations informatiques

4. Personnalisation du site web de la conférence

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA

Formats de fichiers adaptés à l'archivage électronique à moyen et long terme

Catalogue des formations pour vos collaborateurs, pour vos clients,

Mon aide mémoire traitement de texte (Microsoft Word)

AVANT-PROPOS INTRODUCTION INSTALLATION INSTALLER LE PLUGIN ZOTERO INSTALLER LE MODULE DE CITATION...

5. Excel 2010, le tableur collaboratif. a. Concevez des tableaux lisibles

Modules Multimédia PAO (Adobe)

Plan. Traitement de texte et PAO 4/10/06. Initiation à Word

Initiation à la bureautique

Button Manager V2 Guide de l utilisateur

Numérisation Traitement Distribution. Intégration de la numérisation sécurisée à l infrastructure d impression existante

Formation Word/Excel. Présentateur: Christian Desrochers Baccalauréat en informatique Clé Informatique, 15 février 2007

Utiliser Access ou Excel pour gérer vos données

Explications des items d'obii pour la validation du B2I

Adobe Acrobat & le format PDF

Optimiser les s marketing Les points essentiels

Comment mettre en page votre livre

Licence de Biologie, 1ère année. Aide. [Aide 1] Comment utiliser l'explorateur Windows? Comment créer des dossiers?

FORMATS DE FICHIERS. Quels sont les différents types d informations numériques dans un document multimédia?

LECTURE DES FICHIERS DE FACTURES

F0RMAT I0N BUREAUTIQUE

Win UR Archive. Manuel de l utilisateur. Version 3.0, mars 2009

TA/UTAX Mobile Print L impression mobile TA Triumph Adler pour Androïd et ios

Comment utiliser RoundCube?

données en connaissance et en actions?

Saisie et d analyse des questionnaires de sortie

GESTION DE L'ORDINATEUR

CATALOGUE Parcours de Formations E-Learning BILAN FORMATION STAGE. e-learning

Outils gratuits de présentation de documents «animés» Issuu - Slideshare

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR

Notes de mise à jour Fiery S450 65C-KM Color Server, version 1.0 pour le copieur 65C-KM

Ces logiciels sont essentiels pour vous

P2WW FRZ0. Utilisation de ScandAll PRO

TP SIN Traitement d image

Guide Utilisateur.

Procédure pour passer une commande de travaux d impression depuis le site Ce document est la propriété de Diazo Service Poitiers.

Méthode A à Z pour créer un ebook

Concepteur réalisateur graphique

Bureautique Initiation Excel-Powerpoint

Introduction à Microsoft InfoPath 2010

Notes de mise à jour Fiery Print Controller AR-PE3, version 1.01 pour AR-C330

Comment générer un fichier PDF de qualité et certifié imprimable?

Une ergonomie intuitive

STAGES DE FORMATION INTER-ENTREPRISES PÔLE 45 BUREAUTIQUE

Avertissement. La Gestion Electronique de Documents

Base de Connaissances SiteAudit. Utiliser les Rapports Planifiés. Sommaire des Fonctionnalités. Les Nouveautés

I) - DEFINITIONS I-A) TERMINOLOGIE

Charte éditoriale 1- Comment préparer un contenu écrit pour le Web?

iil est désormais courant de trouver sur Internet un document

Service d information pour remise de paiement de factures Scotia

Note de cours. Introduction à Excel 2007

Les outils actuels permettent-ils d automatiser la production de cartes? De quels outils dispose-t-on?

Gérer les droits d accès 27 Créer et gérer des utilisateurs en tant qu administrateur 27 FAQ 29. Annexe Lexique 31

Transcription:

Stage Maroc Méta données et OCR Dominique Maillet Bibliothèque nationale de France 21 au 25 mai 2012

LA CHAINE DE NUMERISATION : LES 11 ETAPES 1) La sélection des fonds : QUOI 2) Définition les modalités de mise à disposition de ces fonds: POURQUOI COMMENT : 3) La gestion des droits d auteur 4) Catalogage des documents à numériser 5) La préparation des documents à numériser 6) La numérisation des documents 7) La post-production (création des métadonnées) 8) Le passage en OCR pour les documents imprimés 9) Le contrôle qualité des documents numérisés. 10) La sauvegarde des documents numérisés sur les serveurs informatiques 11) La mise en consultation des documents numérisés.

Les Meta données Ce sont des informations qui sont produites à l occasion de la prise de vues et qui vont permettre de compléter l image numériques Meta données techniques Meta données descriptives Meta données informatives

Les meta données techniques Elles permettent d identifier et de gérer le fichier numérique. Qui a fait la numérisation, sur quel appareil, à quelle date, quelle résolution a été utilisée, quel espace couleurs, etc

Les Méta données descriptives Saisie d informations descriptives (pagination, légendes) qui seront liées au catalogue et qui vont faciliter la navigation dans le document sur ordinateur

Métadonnées descriptives - Eléments de pagination/ Foliotation: inclut les éléments de couverture et les types de pages (index, tdm, dessins, etc) Type page, n page

Métadonnées descriptives - Instructions de numérisation paperolle dépliée, collette levée, verso, marionnette face, profil, maquette plan large, etc - Légende: texte inscrit sur le document à numériser qui sera saisie pendant l étape de numérisation et qui permettra de compléter le catalogue.

Métadonnées informatives - Commentaire à destination de l usager Permet d informer le lecteur d une particularité du document traité (page manquante, ouvrage maculé, etc) - Commentaire de production Permet à l opérateur d indiquer une difficulté de numérisation (reliure très serrée: caractères tronqués, feuillet fragile: mise à plat impossible, etc)

La reconnaissance optique de caractères (ROC) Le passage en OCR (OCR: Optical character Recognition.) pour les documents imprimés S étend si possible à tout document susceptible d être océrisé.

Le passage en OCR pour les documents imprimés Procédé informatique qui exploite un fichier numérisé en TIFF compressé noir et blanc ou un PDF pour en faire une page comme si elle avait été écrite avec un logiciel de traitement de texte ou dactylographié. Ce fichier texte est ensuite exploitable par des outils de manipulation de texte Ce qui permet ensuite de faire une indexation de la page avec tous les mots du texte et donc de trouver plus facilement un document qu avec sa notice et de faire des recherches plus poussées.

OCR les logiciels Parmi les meilleurs et les plus performants on citera: Fine reader d Abby (150 270 ) OMNIPAGE Readiris Tesseract Acrobat professionnel d Adobe (285 )

Processus OCR La numérisation et la reconnaissance optique peuvent faire l objet de 2 étapes consécutives ou séparées. 1) Numérisation 2) Application du logiciel OCR

Numérisation et OCR OC R ALTO Format de sortie de la reconnaissance de texte Codage Texte Position des éléments dans la page

OCR Le fonctionnement des systèmes d OCR performants est peu connu, car protégé par le secret industriel. Hormis les techniques qui peuvent varier, tous les logiciels analysent et traitent les documents dans cet ordre : 1. Pré-analyse de l image Améliorer la qualité de l'image 2. Analyse de page Identifier les zones de texte, les tableaux et les images 3. Reconnaissance des caractères Comparer avec des formes connues en fonction de différentes techniques 4. Post-traitement Utiliser des méthodes linguistiques et contextuelles pour réduire le nombre d erreurs 5. Génération du format de sortie

OCR Les logiciels effectuent une segmentation informatique de la page afin d identifier les parties comportant des illustrations, des tableaux et du texte. Ensuite chaque zone est elle-même segmentée par ligne mots et caractères pour le texte et par ligne colonne pour les tableaux. Les résultats de la reconnaissance peuvent ensuite être corrigés améliorés modifiés avant d être exportés dans un format texte brut, un fichier bureautique, un PDF ou un format xml qui permet de préserver l ensemble de l information reconnue dans un format standard (Alto)

Les algorithmes de reconnaissance associent la position de l image par rapport au caractère reconnu, sa police, sa taille, sa casse, le mot auquel il appartient le taux de confiance de la reconnaissance, etc Ce qui permet : Soit d afficher l image d origine, le contenu reconnu étant caché à l utilisateur mais permettant des recherches Soit d afficher le fichier reconnu et restructuré dans une présentation identique à l original Le fichier PDF est plus un fichier de publication et de diffusion. Le fichier XML est plus complet

Attributs ID Niveau mot Hauteur, largeur, position x et y Fiabilité (WC = word confidence) : [0;1] Présence dans le dictonnaire (WD = word dictionnary) {true, false} Style Hyphène

OCR Erreurs fréquentes Erreurs fréquentes de mauvaise qualité d un ocr : Erreur de segmentation : des zones contenant du texte sont ignorées, ou à l inverse l OCR invente des caractères à partir de taches. Erreur d ordre des blocs qui ne sont pas présentés dans l ordre naturel de lecture. Erreur de reconnaissance : un e est lu c, un B est lu 8, etc

OCR Causes courantes d erreur Qualité Numérisation insuffisante : les moteurs OCR préconisent une numérisation à 300 dpi pour les polices supérieures à 10 et à, 400 ou 600 dpi pour les polices inférieures. Polices fantaisistes Orthographe non standard, écritures à ligatures, noms propres, etc texte proche d éléments non textuels (lignes ou des graphiques) texte dans des tableurs, des tableaux ou des formulaires lettres espacées ou lettres qui «bavent» ou touchent d autres lettres texte souligné texte sur papier de couleur

OCR L OCR doit être paramétré avec soin : langue, police, jeux de caractères accentués, avec ligature, etc) Fonction d apprentissage Utilisation des dictionnaires

Qualité : objectifs Niveau de qualité dépend de l usage OCR masqué pour indexation à usage grand public :80% OCR masqué pour indexation à usage recherche : 95% OCR pour faire des ebook : minimum 98% le mieux étant pour de l éditorial 99,98%

Qualité: Contrôle 1.Vérification orthographique (logiciel d OCR) Tous les logiciels d OCR disposent d un vérificateur orthographique intégré qui mettent en valeur les lettres suspectes. 2.Vérification globale À la fin du processus, vérifier les pages et les parties du documents (titres de chapitres, paragraphes) pour détecter d éventuels oublis. 3.Vérification orthographique (logiciel de traitement de textes) Utiliser des dictionnaires plus sophistiqués (ex. Word) pour trouver et corriger des erreurs supplémentaires. 4.Vérification par un relecteur Relire le document au complet.

OCR Formats de fichiers (disponibles avec FineReader) Document Microsoft Word (.doc et.docx) Format de texte enrichi (.rtf) Texte OpenDocument (.odt) Document Adobe Acrobat et PDF/A (.pdf) Document HTML (.htm) Microsoft Office Excel (.csv,.xls et.xlsx) Document texte (*.txt)

Numériser au mieux pour que l OCR soit de la meilleure qualité possible Pas de pages bombées. Pas de pages trapézoïdales Pas de texte du feuillet opposé Limiter la transparence de la page Pas de travers de l écrit supérieur à 1,3 Un bon contraste Une bonne netteté Pas de bruit (Une résolution trop importante peut générer du bruit)

MERCI POUR VOTRE ATTENTION