La reconnaissance optique de caractère : «Océriser» un document avec Abbyy FineReader



Documents pareils
Chapitre 22 Optimisation pour diffusion à l'écran, pour le web

ESPACE MULTIMEDIA DU CANTON DE ROCHESERVIERE

Formation Informatique. Utiliser les périphériques informatiques

ESPACE MULTIMEDIA DU CANTON DE ROCHESERVIERE


Adobe Photoshop. Bonnes pratiques pour une utilisation professionelle CHAPITRE 7

Comment mettre en page votre livre

Dans la série. présentés par le site FRAMASOFT

Sommaire. Images Actives Logiciel libre développé par le CRDP de l académie de Versailles 2 Rue Pierre Bourdan Marly le Roi

Création de maquette web

Créer un panorama animé à 360

Windows Live Movie Maker

Les différentes étapes à suivre pour la création d un feuillet

Prendre en main le logiciel ActivInspire 1.4

Importer une bibliographie au format «texte» dans Zotero

Préparation d un post (article) pour idweblogs

Assistant d e tablissement de Tableaux

Leçon N 5 PICASA Généralités

Guide d installation UNIVERSALIS 2014

Gérer, stocker et partager vos photos grâce à Picasa. Janvier 2015

PARAMETRAGE D INTERNET EXPLORER POUR L UTILISATION DE GRIOTTE

Guide d utilisation 2012

RECUPEREZ DES FICHIERS SUPPRIMES AVEC RECUVA

GUIDE D UTILISATION DU LOGICIEL DE TELE-MAINTENANCE. TEAM VIEWER Version 7.

Réalisez votre propre carte de vœux Éléctronique

AVEC LIVE TRADER, VISEZ PLUS HAUT POUR VOS INVESTISSEMENTS

Comment insérer une image de fond?

Créez et envoyez une invitation et le mini-site de votre événement

TUTORIEL IMPRESS. Ouvrir Impress cocher «présentation vierge», «suivant» cocher «écran», «suivant» cocher «standard», «créer»

Introduction à Eclipse

Cré ér un panorama animé a 360

FORMATION MULTIMÉDIA LVE

Instructions préliminaires P2WW FR Préface

Logiciel (Système d impression directe)

Tapez le titre de la page «BASTIA ville méditerranéenne», puis allez deux fois à la ligne à l aide de la touche Entrée.

Network Scanner Tool R2.7. Guide de l'utilisateur

ESPACE MULTIMEDIA DU CANTON DE ROCHESERVIERE

Guide de démarrage rapide. (pour la version 5.0.)

Français MANUEL UTILISATEUR

BR-Docs guide d applications mobile Android

Premiers Pas avec OneNote 2013

Plan. Traitement de texte et PAO 4/10/06. Initiation à Word

2013 Pearson France Photoshop Elements 12 pour les photographes du numérique Loïc Olive

VOCABULAIRE LIÉ AUX ORDINATEURS ET À INTERNET

Fiches d aide à l utilisation

Universalis Guide d installation. Sommaire

Merci de suivre les indications suivantes afin de créer votre compte membre :

Securexam Consignes pour l EFU Les 2, 3 et 4 juin 2015

Guide de l utilisateur Mikogo Version Windows

Utiliser le logiciel Photofiltre Sommaire

PROFIS Installation. Module 4: Module 3D Design

FICHIERS ET DOSSIERS

Création d un site Internet

Ouvrir le compte UQÀM

Le logiciel de création de site internet IZISPOT est un outil très puissant et qui est assez simple après quelques temps d utilisation.

Tutoriel BLOGGER. Pour vous donner une idée, voici un exemple de blog :

SOMMAIRE. Présentation assistée sur ordinateur. Collège F.Rabelais 1/10

Travaux pratiques Détermination de la capacité de stockage des données

GUIDE D UTILISATION DU TABLEAU NUMERIQUE INTERACTIF

Prise en main du logiciel Smart BOARD

Publier dans la Base Documentaire

Comment utiliser le logiciel Interwrite Workspace?

SpeechiTablet Notice d utilisation

EXTENSION WORDPRESS. Contact Form 7. Proposé par :

SOMMAIRE GUIDE D UTILISATION DU WEBMAIL. vous guide

Utilisation de l éditeur.

Utilisation de Sarbacane 3 Sarbacane Software

Manuel Utilisateur Version 1.6 Décembre 2001

KompoZer. Composition du site : _ une page d'accueil : index.html. _ une page pour la théorie : theorie.html. _ une page pour les photos : photos.

Utilisation du logiciel Epson Easy Interactive Tools

Création d articles sur le site web du GSP

Antidote et vos logiciels

TABLETTE GRAPHIQUE USB FUN

MODE D EMPLOI DU GESTIONNAIRE DE L ESPACE PERSO DES MEMBRES DE LA SLIAI

Créer un album photo

Table des matières. F. Saint-Germain / S. Carasco Document réalisé avec OpenOffice.org Page 1/13

Avenir Concept Monaco

Prise en main du logiciel. Smart BOARD Notebook 10

Création d un diaporama photo sur fond musical avec iphoto et itunes dans un contexte scolaire

Manuel de mise en page de l intérieur de votre ouvrage

Créer sa première base de données Access Partie 4/4 - Création d un état

Utiliser Freemind à l'école

Installer Joomla Pearson France Joomla! Le guide officiel Jennifer Marriott, Elin Waring

Numérisation. Copieur-imprimante WorkCentre C2424

Indiquer l'espace libre sur le disque dur

1. CRÉER UNE LISTE DE CONTACTS

Création et utilisation de formulaire pdf

Cours de numérisation sur Epson Perfection

Interface PC Vivago Ultra. Pro. Guide d'utilisation

GUIDE DE DÉMARRAGE. SitagriPro Infinite FINANCEAGRI. Un service. c o r p o r a t e

Réalisation d un diaporama en haute définition avec. Adobe Premiere Elements 3.0 ou Adobe Premiere Pro 2.0. Encodage pour Internet

LECTURE DES FICHIERS DE FACTURES

Installation du logiciel Windows Suivant Démarrer Tous les programmes Démarrer Tous les programmes Marketing Manager Marketing Manager Linux ici Mac

Groupe Eyrolles, 2003, ISBN : X

E-Remises Paramétrage des navigateurs

DATALOGGERS SEFRAM LOG1601 et LOG1620

Mon Guide illustré Mon : Créer mon compte Remplir mon Formulaire

Guide de l utilisateur. Faites connaissance avec la nouvelle plateforme interactive de

Des outils numériques simples et conviviaux!

Transcription:

La reconnaissance optique de caractère : «Océriser» un document avec Abbyy FineReader FineReader est une marque déposée propriété de la société ABBYY Le contenu de ce tutoriel est placé sous copyright de ses auteurs et sous contrat Creative Commons : Photo : Letitia Street, Philadelphie. 2009 (TL)

L OCR (Optical Character Recognition), ou reconnaissance optique de caractère, est un procédé informatique qui permet de reconnaître, dans une image, les lettres composant un texte. Ceci permet donc de transformer un fichier image en fichier texte. Le principal intérêt de cette technique est de pouvoir ensuite effectuer une recherche dans un texte, ainsi que de sélectionner des mots ou des phrases de ce même texte. L océrisation peut s avérer utile, par exemple, après avoir numérisé un texte disponible uniquement en version papier. L océrisation permet de profiter pleinement de la version électronique du document. Ce tutoriel propose de montrer comment «océriser» un texte en utilisant le logiciel Abbyy FineReader. Il existe plusieurs versions d Abbyy FineReader. Celle utilisée dans ce tutoriel est la version 10 complète, qui n existe à l heure actuelle que pour Windows (les utilisateurs Mac peuvent utiliser la version Express.) Préparer son fichier Le fichier contenant le texte à océriser peut être de différents formats : pdf, jpeg, gif, png, tiff, etc... Afin que le logiciel Abbyy FineReader puisse traiter le texte le mieux possible, il est préférable que ce dernier soit clairement lisible. Si le fichier numérisé est légèrement effacé ou si le contraste est faible, il peut être nécessaire de préalablement le traiter à l aide d un logiciel de traitement d image (augmenter le contraste, resserrer les niveaux...) Le logiciel permet de créer un fichier texte brut, d exporter en différents formats, de garder l image d origine dans le fichier, etc. Dans l exemple qui va suivre, nous avons choisi le cas le plus courant : nous allons créer un fichier au format pdf dont la forme sera identique au fichier numérisé d origine mais qui contiendra, caché derrière l image, le texte «océrisé». Ouverture du fichier Le logiciel FineReader travaille en deux temps : dans un premier temps, il analyse le document, c est à dire qu il répère le type de données contenues dans une page (texte, image, tableaux, etc..), dans un second temps, il lit la page et crée un fichier texte correspondant. Une boite de dialogue vous permet de choisir les actions à effectuer à l ouverture du fichier (Menu Outils / options, onglet «Numériser/ouvrir»). Il existe trois possibilités : - Analyser et lire les données («Lire automatiquement les images de la page acquise») - Analyser les données mais ne pas les lire («analyser automatiquement les images de la page acquise») - Ouvrir le document sans l analyser ni le lire («ne pas lire et analyser automatiquement les images de la page acquise»)

Chacune de ces possibilités dépend de votre fichier d origine : -Si votre fichier n est qu un simple texte, vous pouvez choisir d analyser et lire directement sans risque d erreur. -Si votre fichier contient des images, des textes, des légendes insérées dans des images, etc., il peut être préférable de seulement analyser le document à l ouverture, la lecture se fera plus tard, une fois que vous serez sûr que l analyse ne contient pas d erreur. - Si le fichier doit être nettoyé avant océrisation (traces de massicot sur le côté des pages, annotations dans la marges, taches de photocopies, etc.), il faut alors simplement ouvrir le fichier et ne pas lancer d analyse, les corrections apportées pour nettoyer le fichier annulant toutes les analyses précédentes. L analyse et la lecture prennent du temps, et si vous êtes amené, par la suite, à modifier ces données (corriger une analyse qui n a pas pris en compte une légende dans une image, par exemple), le processus devra être recommencé. Dans l exemple ci-après, nous allons nous contenter d analyser le document, afin de détailler la procédure. Nous avons donc sélectionné «analyser automatiquement les images de la page acquise» dans la boite de dialogue précédente, puis nous avons ouvert notre document :

Une fois le document ouvert et analysé par le logiciel, trois fenêtres sont disponibles. - La première contient les vignettes des pages formant le document 1 - La seconde présente la page en cours du document et les différentes zones qui ont été repérées lors de l analyse (vert : zones de texte, rouge : images, bleu : tableaux) 2 - La troisième affiche le résultat de l océrisation (fichier texte créé à partir des images) 3 Dans notre exemple, nous avons choisi de ne pas lire le document pour l instant, la troisième fenêtre est donc vide. Il existe trois grandes catégories de données reconnues par Abbyy Fine Reader : le texte, les images, et les tableaux. Les parties de la page sélectionnées comme texte vont être lues. Les parties «images» ne vont pas être lues et reproduites telles quelles. Les parties tableaux vont être lues et mises en forme. Nettoyage Il est possible que le document ait besoin d être nettoyé avant d être analysé. S il contient des traces ou des annotations par exemple. Dans l exemple ci-dessous, la page doit être nettoyée à deux endroits : les annotations dans la marge à droite, et la trace de massicot à gauche.

Cliquer sur «Modifier l image» : La page apparait à présent dans une nouvelle fenêtre : Depuis cette fenêtre, vous pouvez apporter des modifications à votre document : recadrer les pages, les redresser, gommer certaines parties, pivoter, etc. Attention : une fois vos pages ouvertes à l intérieur de la fenêtre «modifier», l analyse et la lecture du document sont effacées, et il vous faudra recommencer ces processus.

Les annotaions manuscrites dans la marge droite étant ponctuelles et uniquement présentes sur la première page, nous allons utiliser la gomme. Il suffit de cliquer sur «gomme» dans le menu de droite, et ensuite de sélectionner la partie de l image à effacer : La trace de massicot, quant à elle, est présente sur toutes les pages du document, au même endroit. Pour l effacer, nous allons donc détourer les pages. Pour cela, cliquer sur «détourer», et appliquer le cadre de sélection à la partie de l image que vous souhaitez garder. Vous pouvez choisir d appliquer cette action à toutes les pages du document :

Une fois les pages nettoyées, le logiciel pourra lire le document sans risque d erreur, et le fichier océrisé final ne contiendra plus de trace. Si vous préférez, vous pouvez nettoyer les documents préalablement à leur import dans Abbyy Fine Reader en utilisant un logiciel de traitement d image (en utilisant des scripts par exemple). Analyse et zones de données. Il existe trois types de données reconnues puis analysées par Abbyy Fine Reader : le texte, les images, et les tableaux. Afin que ces derniers soient reconnus il vous faut, si cela n a pas été fait automatiquement à l ouverture ou si vous avez entre temps modifié les pages, cliquer sur le bouton «Analyser». Une fois l analyse terminée, les différentes types de données ont été reconnues : zone de texte en vert, zone d image en rouge, zone de tableau en bleu :

Vous pouvez modifier ces zones si elles ne correspondent pas à votre document : - soit agrandir ou rétrécir une zone - soit tracer une nouvelle zone (texte, image, tableau) en plus ou en remplacement d une existante, en utilisant les outils de la barre «Image» : Océrisation du texte Une fois votre document prêt, vous pouvez lancer l océrisation. Le logiciel va alors lire les données contenues dans les zones «textes» et «tableaux» et les interpréter afin de les transformer en fichier texte. Pour lancer la procédure, cliquez sur «Lire» :

L océrisation peut prendre du temps en fonction de la taille de votre document. Une fois votre document océrisé, le fichier texte issu de la procédure apparait dans la fenêtre de droite : Vous pouvez modifier ce texte à votre guise : corriger des fautes, changer la police, la taille, etc. Ce texte est celui qui servira à effectuer des recherches et à sélectionner des parties du document. Ensuite, il ne vous reste plus qu à exporter le résultat final.

Exporter le document Il existe plusieurs possibilités d export : Différents formats sont disponibles (.pdf,.doc,.rtf,.htm,.xls,.pptx, etc...). Différentes options sont disponibles pour chacun de ces formats. Dans notre exemple, le but est de ne pas toucher à la mise en page du document : ce dernier doit être identique à l original. Pour cela, nous allons l exporter en.pdf, et nous allons insérer le fichier OCR créé sous l image du document d origine. Ainsi, la partie «visible» du document sera l image d origine, mais le fichier texte océrisé sera bel et bien présent, invisible mais tout à fait opérationnel. Pour choisir le format d export, cliquez sur «enregistrer» : Puis, dans la fenêtre d enregistrement, choisissez le format souhaité (ici pdf) :

Une fois le format pdf sélectionné, allez dans «options» : Dans les options vous pouvez choisir : - Le format du document (A3, A4, etc...) - Le mode d enregistrement (texte océrisé seul, sous l image, etc...). Dans notre exemple, nous choisissons de «cacher» le texte sous l image du document. - Option «Utiliser le contenu tramé mixte» : cette option permet de réduire la taille du document sans altérer sa qualité. Attention, certains lecteurs Pdf n arrivent pas à lire le document exporté si cette option est cochée («Aperçu» sous Mac, «Sumatra» sous Windows par exemple). - Paramètres de l image : Vous pouvez choisir les paramètres. Plus la qualité sera élevée, plus la taille du document sera grande (un document de 250 pages contenant plusieurs illustrations peut rapidement, en fonction des paramètres, atteindre 100 Mo). Vous pouvez choisir Basse qualité, qualité moyenne ou haute qualité, ou bien définir vous-même les paramètres (ppp et compression jpeg).

Une fois tous ces réglages effectués, vous n avez plus qu à enregistrer votre fichier. Résultat : le fichier créé est donc visuellement identique au fichier original, mais le texte placé sous l image permet les sélections et les recherches : Bon courage, N hésitez pas à nous faire part de vos remarques : contact@crevilles.org