OCR : Extraire le texte d'une image



Documents pareils
Partager rapidement un fichier volumineux

Partager son lecteur optique

Supprimer définitivement un fichier

Sauvegarder automatiquement sa clé USB

Effacer le contenu d'un disque dur de manière sécurisée

Contro ler plusieurs ordinateurs avec un clavier et une souris

Cré ér un panorama animé a 360

Protéger ses données dans le cloud

Sauvegarder automatiquement ses documents

Sauvegarder sa messagerie Gmail sur son ordinateur

Créer un sondage en ligne

Tester la se curite de son re seau WiFi

Mettre Linux sur une clé USB bootable et virtualisable

Changer la batterie de son ordinateur portable

Partager la connexion Internet de son te le phone portable

Partager sa connexion Internet via le WiFi avec Windows 8

Contrôler plusieurs ordinateurs avec un clavier et une souris

PRISE EN MAIN D UN TABLEUR. Version OPEN OFFICE

Emporter Windows XP sur une clé USB

LECTURE DES FICHIERS DE FACTURES

Connaître la durée de vie d'un SSD

Rechercher et supprimer les doublons!

Le service de création de site Internet : Mode d emploi. La Création de Site Internet

Guide d'installation sous Windows

Exposer ses photos sur Internet

SimpleOCR, un logiciel gratuit de reconnaissance de caractères

Bien travailler sur plusieurs écrans

Gérer, stocker et partager vos photos grâce à Picasa. Janvier 2015

Utilisation du logiciel Epson Easy Interactive Tools

Comment formater votre ebook avec Open Office

Utilisation de l'outil «Open Office TEXTE»

Cloner son système avec True Image

Retrouver un mot de passe perdu de Windows

FICHIERS ET DOSSIERS

Automatisation d'une Facture 4. Liste Déroulante Remises Case à cocher Calculs

Installation d'une galerie photos Piwigo sous Microsoft Windows.

Débuter avec OOo Base

Gérer ses fichiers et ses dossiers avec l'explorateur Windows. Février 2013

Installation et paramétrage. Accès aux modèles, autotextes et clip- art partagés

Table des matières. F. Saint-Germain / S. Carasco Document réalisé avec OpenOffice.org Page 1/13

Licence de Biologie, 1ère année. Aide. [Aide 1] Comment utiliser l'explorateur Windows? Comment créer des dossiers?

LECON 2 : PROPRIETES DE L'AFFICHAGE Version aout 2011

Découvrir OpenOffice Comment optimiser et formater votre ebook avec OpenOffice

Créer un panorama animé à 360

Table des matières. 1 À propos de ce manuel Icônes utilisées dans ce manuel Public visé Commentaires...

La technologie au collège

Qlik Sense Desktop. Qlik Sense Copyright QlikTech International AB. Tous droits réservés.

Utiliser des logiciels Windows sous Linux Ubuntu

COMMENT INSTALLER LE SERVEUR QIPAIE

RANGER ET NETTOYER SON ORDINATEUR Mise à jour : Septembre 2013

LA SAUVEGARDE DES DONNEES SUR LES ORDINATEURS PERSONNELS

Guide d'utilisation. OpenOffice Calc. AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons

Cours Excel : les bases (bases, texte)

DOCUMENTATION VISUALISATION UNIT

DECOUVERTE DE LA MESSAGERIE GMAIL

ESPACE MULTIMEDIA DU CANTON DE ROCHESERVIERE

Guide d installation du logiciel Proteus V.8 Sous Windows Vista, 7, 8

Je sais utiliser. Logiciel gratuit de gestion des photos. Étude en 5 parties

Cyberclasse L'interface web pas à pas

Créer une clé USB de secours

L'explorateur de fichier de Windows 8.1

Publipostage avec Calc

CREER UN PETIT SITE WEB EN COMPOSANT DES PAGES HTML

GESTION DE L'ORDINATEUR

KIELA CONSULTING. Microsoft Office Open Office Windows - Internet. Formation sur mesure

P3PC FRZ0. ScanSnap N1800 Scanner pour réseau Guide d utilisation de l'addiciel pour Google Documents

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

SOS Info: Traitement de textes. 1. Structurer un document. 2. Enregistrer un document

Pop-Art façon Roy Liechtenstein

TRUCS & ASTUCES SYSTEME. 1-Raccourcis Programme sur le Bureau (7)

Utilisez Toucan portable pour vos sauvegardes

Déclaration d'accidents online Manuel d utilisation

Importation des données dans Open Office Base

Les dossiers, sous-dossiers, fichiers

1. Installation du Module

Prendre en main le logiciel ActivInspire 1.4

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

LibreOffice Calc : introduction aux tableaux croisés dynamiques

1) Installation de Dev-C++ Téléchargez le fichier devcpp4990setup.exe dans un répertoire de votre PC, puis double-cliquez dessus :

Seniors/Niveau 2. Connaissances préalables requises. Pour accéder au niveau 2, il faut être capable de:

iil est désormais courant de trouver sur Internet un document

Créer une trace, obtenir son fichier gpx et sa carte Ou Afficher un fichier trace GPX

Décompresser, créer une archive au format «ZIP»

COPIER, COUPER, COLLER, SELECTIONNER, ENREGISTRER.

Traitement de texte : Quelques rappels de quelques notions de base

1 Comment faire un document Open Office /writer de façon intelligente?

Comment récupérer toutes vos données perdues ou effacées gratuitement!

GUIDE DE DEMARRAGE RAPIDE:

Google Documents permet d élaborer un questionnaire, de le diffuser sur le net pour ensuite le dépouiller.

Utiliser WebCamFirst

Formation Informatique. Utiliser les périphériques informatiques

POUR ALLER UN PEU PLUS LOIN SUR UN TABLEUR. Version EXCEL

Silhouette Studio Leçon N 2

Editer un catalogue avec OpenOffice

Administration du site (Back Office)

Vous pourrez ainsi : Accéder rapidement à la boutique Kindle d'amazon pour ajouter des livres (gratuits ou payants).

Transcription:

OCR : Extraire le texte d'une image Par Clément JOATHON Dernière mise à jour : 09/11/2015 Vous avez numérisé un journal ou récupéré l'image d'un article et vous souhaitez pouvoir exploiter le texte que contiennent ces documents. Vous pouvez bien sûr, prendre votre courage à deux mains et recopier tout le texte dans votre traitement de texte habituel. Un travail long et fastidieux. Pour vous simplifier la tâche, vous pouvez vous tourner vers l'ocr, un procédé informatique de reconnaissance optique des caractères. Le logiciel gratuit FreeOCR peut ainsi récupérer du texte dans l'image d'un texte imprimé, mais également d'une feuille scannée et même d'un document PDF. Si le résultat nécessite quelques retouches suivant la qualité de votre document original, la plupart des caractères et des mots sont reconnus et vous pouvez récupérer votre texte dans votre traitement de texte, Word ou OpenOffice par exemple. Vous aurez ainsi un document texte que vous pourrez manipuler, retravailler et utiliser à loisir. Après avoir corrigé les éventuelles erreurs, il ne vous restera plus qu'à remettre en forme le texte, ce qui est tout de même moins contraignant que d'avoir à taper le texte en entier. Télécharger et installer FreeOCR Vous pouvez télécharger FreeOCR gratuitement depuis la logithèque PC Astuces. 1. Rendez-vous sur la fiche de FreeOCR 1 dans la logithèque PC Astuces. 2. Cliquez sur le lien Télécharger gratuitement. 1 http://www.pcastuces.com/logitheque/freeocr.htm Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 1 sur 21

3. Cliquez sur le bouton Enregistrer. Choisissez un dossier où sauvegarder le fichier et cliquez une nouvelle fois sur le bouton Enregistrer. 4. Une fois le téléchargement terminé, exécutez le fichier téléchargé. 5. Cliquez sur Exécuter. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 2 sur 21

6. Dans l'assistant qui s'ouvre, cliquez sur le bouton Next. OCR : Extraire le texte d'une image 7. Sélectionnez l'option I accept the terms of the license agreement. 8. Cliquez sur Next puis sur le bouton Install. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 3 sur 21

9. Cliquez enfin sur le bouton Finish. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 4 sur 21

Ajouter le dictionnaire français OCR : Extraire le texte d'une image Reconnaissant par défaut les textes en anglais, vous pouvez facilement ajouter le dictionnaire pour reconnaître les textes en français. 1. Dans votre navigateur Web, rendez-vous à cette adresse : http://code.google.com/p/tesseract-ocr/downloads/list. 2. Téléchargez French language data for Tesseract. 3. Lancez le téléchargement du fichier. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 5 sur 21

4. Enregistrez le fichier sur votre disque dur. 5. Ouvrez le fichier avec WinRAR 2 ou un logiciel équivalent 3 supportant les archives au format TAR.GZ. Naviguez dans le dossier tesseract-ocr. 2 http://www.pcastuces.com/logitheque/winrar.htm 3 http://www.pcastuces.com/logitheque/7zip.htm Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 6 sur 21

6. Ouvrez le dossier tessdata. 7. Sélectionnez tous les fichiers de l'archive. 8. Dans l'explorateur Windows, ouvrez le dossier C:\FreeOCR\tessdata. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 7 sur 21

9. Faites alors glisser les fichiers de WinRAR dans le dossier que vous venez d'ouvrir. Le logiciel reconnait alors le texte des documents en français. Extraire le texte d'une image Que cela soit à partir d'un document scanné ou d'une brochure, FreeOCR peut reconnaitre le texte présent dans une image. 1. Lancez FreeOCR en double cliquant sur son icône sur le Bureau. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 8 sur 21

2. Cliquez sur le bouton Open. 3. Sélectionnez sur votre disque dur l'image dont vous souhaitez extraire le texte. Cliquez sur le bouton Ouvrir. 4. Cliquez sur la croix rouge pour effacer le texte précédemment reconnu. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 9 sur 21

5. Déroulez la liste OCR language et sélectionnez l'option fra afin de reconnaître le texte en français. 6. Cliquez sur le bouton OCR. Le logiciel analyse alors votre image. 7. Le résultat est affiché dans le cadre droit de la fenêtre. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 10 sur 21

8. Vous pouvez alors copier le texte reconnu dans le logiciel (Word par exemple) de votre choix ou l'enregistrer dans un fichier texte en utilisant les contrôles au centre de la fenêtre. 9. Vous pouvez ensuite corriger les éventuelles erreurs dans votre traitement de texte. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 11 sur 21

Extraire un paragraphe Pour n'extraire le texte que d'une partie de l'image, sélectionnezla dans le cadre gauche de la fenêtre, à partir de l'aperçu de l'image originale. Vous pourrez ainsi délimiter précisément le texte à extraire et exclure les éléments perturbateurs (bordures, images, ). Extraire le texte d'un PDF Vous avez récupéré un document PDF. FreeOCR peut vous aider à extraire le texte de ce document pour pouvoir le retravailler dans votre traitement de texte habituel. 1. Lancez FreeOCR en double cliquant sur son icône sur le Bureau. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 12 sur 21

2. Cliquez sur le bouton Open PDF. OCR : Extraire le texte d'une image 3. Sélectionnez sur votre disque dur le document PDF dont vous souhaitez extraire le texte. Cliquez sur le bouton Ouvrir. 4. Cliquez sur la croix rouge pour effacer le texte précédemment reconnu. 5. Vérifiez que la langue française est bien sélectionnée. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 13 sur 21

6. Sélectionnez le passage à examiner. Vous pouvez utiliser les flèches pour passer d'une page à une autre du document PDF. 7. Cliquez sur le bouton OCR. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 14 sur 21

8. Le résultat est affiché dans le cadre droit de la fenêtre. Vous pouvez alors copier le texte reconnu dans le logiciel (Word par exemple) de votre choix ou l'enregistrer dans un fichier texte en utilisant les contrôles au centre de la fenêtre. 9. Vous pouvez ensuite corriger les éventuelles erreurs dans votre traitement de texte. Extraire le texte d'un document à scanner Pour reconnaitre le texte d'un document papier, vous pouvez le scanner sous la forme d'une image puis l'importer ensuite dans FreeOCR. Vous pouvez également laisser FreeOCR le numériser pour vous. 1. Lancez FreeOCR en double cliquant sur son icône sur le Bureau. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 15 sur 21

2. Cliquez sur le bouton Scan. 3. Sélectionnez votre scanner dans la liste et cliquez sur le bouton Sélectionner. 4. Numérisez, comme vous le faite habituellement votre document. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 16 sur 21

5. Une fois scanné, le document est importé dans FreeOCR. 6. Cliquez sur la croix rouge pour effacer le texte précédemment reconnu. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 17 sur 21

7. Vérifiez que la langue française est bien sélectionnée. 8. Sélectionnez le passage à examiner puis cliquez sur le bouton OCR pour lancer la reconnaissance. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 18 sur 21

9. Le résultat est affiché dans le cadre droit de la fenêtre. Vous pouvez alors copier le texte reconnu dans le logiciel (Word par exemple) de votre choix ou l'enregistrer dans un fichier texte en utilisant les contrôles au centre de la fenêtre. 10. Vous pouvez ensuite corriger les éventuelles erreurs dans votre traitement de texte. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 19 sur 21

Améliorer la pertinence de la reconnaissance OCR : Extraire le texte d'une image Vous avez sans doute remarqué que des erreurs viennent souvent se glisser dans les reconnaissances de FreeOCR. Suivez ces conseils pour limiter les erreurs et améliorer la reconnaissance des caractères. Numérisez vos documents en noir et blanc, dans une précision entre 200 et 300 dpi. Faites pivoter vos images afin que le texte soit horizontal. Sélectionnez la partie à extraire en excluant tout ce qui n'a aucun rapport avec du texte : les bordures, les images,... N'hésitez pas à travailler sur plusieurs petites parties : d'abord le titre, un paragraphe, un second, etc. Si un texte se trouve sur plusieurs colonnes, travailler sur chaque colonne, en les sélectionnant les unes après les autres. La commande Adjust image constrast du menu OCR vous permet d'augmenter le contraste afin de faire ressortir le texte. N'hésitez pas à l'utiliser sur les images au texte clair. Récupérer une image Notez que vous pouvez récupérer une image dans un article en la sélectionnant dans le cadre gauche de la fenêtre et en cliquant dessus avec le bouton droit de la souris. Sélectionnez alors la commande Copy selection to clipboard puis collez l'image dans votre traitement de texte. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 20 sur 21

Pour aller plus loin OCR : Extraire le texte d'une image Des remarques, des questions? Fiche mise à jour et commentaires disponibles en ligne sur PC Astuces à l'adresse suivante : http://www.pcastuces.com/pratique/bureautique/ocr/page1.htm Conditions d'utilisation Ce document peut librement être utilisé à but informatif dans un cadre personnel, scolaire ou associatif. Toute autre utilisation, notamment commerciale est interdite. Il ne peut pas être modifié, vendu, ni distribué ailleurs que sur PC Astuces. À propos PC Astuces est un site d'entraide informatique entièrement gratuit. - Des milliers d'astuces et de guides pratiques détaillés pas à pas. - Téléchargez gratuitement des logiciels et des applications testées par nos soins. - Personnalisez votre Bureau avec des milliers de fonds d'écran. - Tous les jours, une newsletter par email avec du contenu inédit. - Un problème? Posez vos questions sur notre Forum et obtenez rapidement des solutions efficaces. http://www.pcastuces.com Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 21 sur 21