OCR : Extraire le texte d'une image Par Clément JOATHON Dernière mise à jour : 09/11/2015 Vous avez numérisé un journal ou récupéré l'image d'un article et vous souhaitez pouvoir exploiter le texte que contiennent ces documents. Vous pouvez bien sûr, prendre votre courage à deux mains et recopier tout le texte dans votre traitement de texte habituel. Un travail long et fastidieux. Pour vous simplifier la tâche, vous pouvez vous tourner vers l'ocr, un procédé informatique de reconnaissance optique des caractères. Le logiciel gratuit FreeOCR peut ainsi récupérer du texte dans l'image d'un texte imprimé, mais également d'une feuille scannée et même d'un document PDF. Si le résultat nécessite quelques retouches suivant la qualité de votre document original, la plupart des caractères et des mots sont reconnus et vous pouvez récupérer votre texte dans votre traitement de texte, Word ou OpenOffice par exemple. Vous aurez ainsi un document texte que vous pourrez manipuler, retravailler et utiliser à loisir. Après avoir corrigé les éventuelles erreurs, il ne vous restera plus qu'à remettre en forme le texte, ce qui est tout de même moins contraignant que d'avoir à taper le texte en entier. Télécharger et installer FreeOCR Vous pouvez télécharger FreeOCR gratuitement depuis la logithèque PC Astuces. 1. Rendez-vous sur la fiche de FreeOCR 1 dans la logithèque PC Astuces. 2. Cliquez sur le lien Télécharger gratuitement. 1 http://www.pcastuces.com/logitheque/freeocr.htm Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 1 sur 21
3. Cliquez sur le bouton Enregistrer. Choisissez un dossier où sauvegarder le fichier et cliquez une nouvelle fois sur le bouton Enregistrer. 4. Une fois le téléchargement terminé, exécutez le fichier téléchargé. 5. Cliquez sur Exécuter. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 2 sur 21
6. Dans l'assistant qui s'ouvre, cliquez sur le bouton Next. OCR : Extraire le texte d'une image 7. Sélectionnez l'option I accept the terms of the license agreement. 8. Cliquez sur Next puis sur le bouton Install. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 3 sur 21
9. Cliquez enfin sur le bouton Finish. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 4 sur 21
Ajouter le dictionnaire français OCR : Extraire le texte d'une image Reconnaissant par défaut les textes en anglais, vous pouvez facilement ajouter le dictionnaire pour reconnaître les textes en français. 1. Dans votre navigateur Web, rendez-vous à cette adresse : http://code.google.com/p/tesseract-ocr/downloads/list. 2. Téléchargez French language data for Tesseract. 3. Lancez le téléchargement du fichier. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 5 sur 21
4. Enregistrez le fichier sur votre disque dur. 5. Ouvrez le fichier avec WinRAR 2 ou un logiciel équivalent 3 supportant les archives au format TAR.GZ. Naviguez dans le dossier tesseract-ocr. 2 http://www.pcastuces.com/logitheque/winrar.htm 3 http://www.pcastuces.com/logitheque/7zip.htm Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 6 sur 21
6. Ouvrez le dossier tessdata. 7. Sélectionnez tous les fichiers de l'archive. 8. Dans l'explorateur Windows, ouvrez le dossier C:\FreeOCR\tessdata. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 7 sur 21
9. Faites alors glisser les fichiers de WinRAR dans le dossier que vous venez d'ouvrir. Le logiciel reconnait alors le texte des documents en français. Extraire le texte d'une image Que cela soit à partir d'un document scanné ou d'une brochure, FreeOCR peut reconnaitre le texte présent dans une image. 1. Lancez FreeOCR en double cliquant sur son icône sur le Bureau. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 8 sur 21
2. Cliquez sur le bouton Open. 3. Sélectionnez sur votre disque dur l'image dont vous souhaitez extraire le texte. Cliquez sur le bouton Ouvrir. 4. Cliquez sur la croix rouge pour effacer le texte précédemment reconnu. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 9 sur 21
5. Déroulez la liste OCR language et sélectionnez l'option fra afin de reconnaître le texte en français. 6. Cliquez sur le bouton OCR. Le logiciel analyse alors votre image. 7. Le résultat est affiché dans le cadre droit de la fenêtre. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 10 sur 21
8. Vous pouvez alors copier le texte reconnu dans le logiciel (Word par exemple) de votre choix ou l'enregistrer dans un fichier texte en utilisant les contrôles au centre de la fenêtre. 9. Vous pouvez ensuite corriger les éventuelles erreurs dans votre traitement de texte. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 11 sur 21
Extraire un paragraphe Pour n'extraire le texte que d'une partie de l'image, sélectionnezla dans le cadre gauche de la fenêtre, à partir de l'aperçu de l'image originale. Vous pourrez ainsi délimiter précisément le texte à extraire et exclure les éléments perturbateurs (bordures, images, ). Extraire le texte d'un PDF Vous avez récupéré un document PDF. FreeOCR peut vous aider à extraire le texte de ce document pour pouvoir le retravailler dans votre traitement de texte habituel. 1. Lancez FreeOCR en double cliquant sur son icône sur le Bureau. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 12 sur 21
2. Cliquez sur le bouton Open PDF. OCR : Extraire le texte d'une image 3. Sélectionnez sur votre disque dur le document PDF dont vous souhaitez extraire le texte. Cliquez sur le bouton Ouvrir. 4. Cliquez sur la croix rouge pour effacer le texte précédemment reconnu. 5. Vérifiez que la langue française est bien sélectionnée. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 13 sur 21
6. Sélectionnez le passage à examiner. Vous pouvez utiliser les flèches pour passer d'une page à une autre du document PDF. 7. Cliquez sur le bouton OCR. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 14 sur 21
8. Le résultat est affiché dans le cadre droit de la fenêtre. Vous pouvez alors copier le texte reconnu dans le logiciel (Word par exemple) de votre choix ou l'enregistrer dans un fichier texte en utilisant les contrôles au centre de la fenêtre. 9. Vous pouvez ensuite corriger les éventuelles erreurs dans votre traitement de texte. Extraire le texte d'un document à scanner Pour reconnaitre le texte d'un document papier, vous pouvez le scanner sous la forme d'une image puis l'importer ensuite dans FreeOCR. Vous pouvez également laisser FreeOCR le numériser pour vous. 1. Lancez FreeOCR en double cliquant sur son icône sur le Bureau. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 15 sur 21
2. Cliquez sur le bouton Scan. 3. Sélectionnez votre scanner dans la liste et cliquez sur le bouton Sélectionner. 4. Numérisez, comme vous le faite habituellement votre document. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 16 sur 21
5. Une fois scanné, le document est importé dans FreeOCR. 6. Cliquez sur la croix rouge pour effacer le texte précédemment reconnu. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 17 sur 21
7. Vérifiez que la langue française est bien sélectionnée. 8. Sélectionnez le passage à examiner puis cliquez sur le bouton OCR pour lancer la reconnaissance. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 18 sur 21
9. Le résultat est affiché dans le cadre droit de la fenêtre. Vous pouvez alors copier le texte reconnu dans le logiciel (Word par exemple) de votre choix ou l'enregistrer dans un fichier texte en utilisant les contrôles au centre de la fenêtre. 10. Vous pouvez ensuite corriger les éventuelles erreurs dans votre traitement de texte. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 19 sur 21
Améliorer la pertinence de la reconnaissance OCR : Extraire le texte d'une image Vous avez sans doute remarqué que des erreurs viennent souvent se glisser dans les reconnaissances de FreeOCR. Suivez ces conseils pour limiter les erreurs et améliorer la reconnaissance des caractères. Numérisez vos documents en noir et blanc, dans une précision entre 200 et 300 dpi. Faites pivoter vos images afin que le texte soit horizontal. Sélectionnez la partie à extraire en excluant tout ce qui n'a aucun rapport avec du texte : les bordures, les images,... N'hésitez pas à travailler sur plusieurs petites parties : d'abord le titre, un paragraphe, un second, etc. Si un texte se trouve sur plusieurs colonnes, travailler sur chaque colonne, en les sélectionnant les unes après les autres. La commande Adjust image constrast du menu OCR vous permet d'augmenter le contraste afin de faire ressortir le texte. N'hésitez pas à l'utiliser sur les images au texte clair. Récupérer une image Notez que vous pouvez récupérer une image dans un article en la sélectionnant dans le cadre gauche de la fenêtre et en cliquant dessus avec le bouton droit de la souris. Sélectionnez alors la commande Copy selection to clipboard puis collez l'image dans votre traitement de texte. Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 20 sur 21
Pour aller plus loin OCR : Extraire le texte d'une image Des remarques, des questions? Fiche mise à jour et commentaires disponibles en ligne sur PC Astuces à l'adresse suivante : http://www.pcastuces.com/pratique/bureautique/ocr/page1.htm Conditions d'utilisation Ce document peut librement être utilisé à but informatif dans un cadre personnel, scolaire ou associatif. Toute autre utilisation, notamment commerciale est interdite. Il ne peut pas être modifié, vendu, ni distribué ailleurs que sur PC Astuces. À propos PC Astuces est un site d'entraide informatique entièrement gratuit. - Des milliers d'astuces et de guides pratiques détaillés pas à pas. - Téléchargez gratuitement des logiciels et des applications testées par nos soins. - Personnalisez votre Bureau avec des milliers de fonds d'écran. - Tous les jours, une newsletter par email avec du contenu inédit. - Un problème? Posez vos questions sur notre Forum et obtenez rapidement des solutions efficaces. http://www.pcastuces.com Reproduction interdite @ PC Astuces - http://www.pcastuces.com Page 21 sur 21