Extraction du texte enfoui dans les images de scènes naturelles. Projet ANR itowns CMM LIP6 J.Fabrizio, B. Marcotegui, M. Cord

Documents pareils
N. Paparoditis, Laboratoire MATIS

Analyse Sémantique de Nuages de Points 3D et d Images dans les Milieux Urbains

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Traitement bas-niveau

Géométrie discrète Chapitre V

Utilisation du logiciel Gwyddion

SimpleOCR, un logiciel gratuit de reconnaissance de caractères

Nouveau Web Client marquant, Cumulus Video Cloud, optimisations de la base de données, et plus..

Cours (ex 250) Bootcamp pour consultant

INTÉGRABLES. GAMME e10. e10-i61s e10-i113s. Têtes de marquage par rayage

Guide d utilisation P2WW FRZ0

Formations 2015 Bureautique

Sommaire. Introduction Définition Historique Domaine d application.2. 4.Les Travaux réalisés sur les domaines d application.

CREATION INNOVATION EDUCATION

pcon.planner 6 Préparer et présenter une implantation en toute simplicité

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Français MANUEL UTILISATEUR

Utilisation du logiciel ImageJ gratuit

Connaissez-vous Google? Le 2 avril 2015

Détection des points d intérêt et Segmentation des images RGB-D. Présentée par : Bilal Tawbe. Semaine de la recherche de l UQO

Business Intelligence simple et efficace avec Excel et PowerPivot

12 Tableaux croisés dynamiques

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

P2WW FRZ0. ScanSnap Organizer. Guide d utilisation

Détection des deux roues motorisés par télémétrie laser à balayage

CHAPITRE 3 : INTERNET

Vue Générale et Cas d Usage

Programme de Formation Office 2010 Word, Excel, Powerpoint et Outlook 2010 pour Windows

FICHE METIER. «Opérateur de prises de vue» Opérateur de prises de vue vidéo. Cadreur. Pointeur vidéo APPELLATION(S) DU METIER DEFINITION DU METIER

Axe " Génie des Procédés", centre SPIN, Ecole des Mines de Saint-Etienne ECOLE DES MINES SAINT-ETIENNE ANALYSE D IMAGE

imovie 11 Créer un projet Menu / Fichier / Nouveau projet... Choisir le format : Standard (16/9). Importer des «!plans!» 1.

Gérer son Google Drive pour gérer ses informations : le tutoriel

Business Intelligence

INSTALLATION ET LANCEMENT DU CONNECTEUR E-SIDOC


Captation automatique. Mode d'emploi

Partager en ligne 2.0 Nokia N76-1

Pourquoi? Caroline Baillat CPC EPS Céret / Elisabeth Maroselli CPC EPS P3 Page 1

Business Intelligence avec Excel, Power BI et Office 365

Getting started with Logitech HD Pro Webcam C910

Gestion collaborative de documents

La téléphonie via Internet..(VoIP) Une solution économique et versatile

Instructions préliminaires P2WW FR Préface

CREER UN PETIT SITE WEB EN COMPOSANT DES PAGES HTML

TRAFFIC EXPERT. LA SOLUTION INTELLIGENTE POUR LES SYSTEMES DE GESTION DE TRAFFIC L expérience de STERIA à SINGAPOUR. Nabil DJEMAME (Steria)

Modules Multimédia PAO (Adobe)

Apprentissage Automatique

Mode d'emploi du plugin Grayscale_Granulometry

Animation Shop PREAMBULE... 2 CONTRAINTE... 2 CREER UNE ANIMATION... 2 AJOUTER DES IMAGES... 3 ENREGISTRER UNE ANIMATION... 3

2 LES BASES DU HTML 19 Qu est-ce que le HTML? 20 De quand date le HTML? 20 Écrire son propre code HTML 22

Programme de formation Photoshop : Initiation 24 heures de formation (3 jours) 1/2

La facture externe SERVICE DES FINANCES

INTRODUCTION à Microsoft Dynamics CRM 2013 FR80501

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

P2WW FRZ0. Utilisation de ScandAll PRO

Mai Médiathèque «Les Trésors de Tolente»

Outils de traitements de logs Apache

Introduction à Expression Web 2

Pratiques et usages du web, la «culture internet» moderne

P2WW FRZ0. CardMinder. Guide d utilisation

MODE D EMPLOI. Plateforme de réflexion et de recherche de la CIDEGEF pour un modèle de management francophone

Content Management System V.3.0. BlackOffice CMS V3.0 by ultranoir 1

La Jubilothèque Du magasin à la Jubilothèque documents en ligne soit + de pages budget /an 0.7 ETP Pôle associé BnF

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Manuel d'utilisation de l'administration du site Japo.ch - 1

Canon Mobile Printing Premiers pas

I.R.I.S. annonce la disponibilité d'iriscapture Pro 7 for Invoices, la nouvelle version de son logiciel de reconnaissance de factures.

IBM Workplace : Live!

PROJET BIGDATART DOSSIER DE PRESENTATION

PHOTOSHOP - L'AFFICHAGE

Compte-rendu re union Campus AAR 3 mars 2015

IFT3030 Base de données. Chapitre 2 Architecture d une base de données

ANNEXE. PROGRAMME DES FORMATIONS DISPENSÉES AU CLUB MONTALEAU (ANNÉE 2014/2015)

Traitement par lot conversion de plusieurs images en JPEG

I. QU'EST-CE QU'UN ORDINATEUR? Un ordinateur est relié à plein de périphériques

Segmentation d'images à l'aide d'agents sociaux : applications GPU

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

TP SIN Traitement d image

VRM Monitor. Aide en ligne

Faire de la déformation interactive avec GIMP

Architectures d'intégration de données

RESPONSIVE WEB DESIGN

Conception d'applications de base de données ios plus rapides Guide Pratique FileMaker

Manuel d utilisation du site web de l ONRN

Calcul intégral élémentaire en plusieurs variables

Formation Optimiser ses campagnes ing

Comparatif entre Matrox RT.X2 et Adobe Premiere Pro CS3 (logiciel seul)

Septembre Décembre 2015

Partage en ligne 3.1. Édition 1

13) Calibrage du tableau Interwrite Dualboard

Table des matières ENVIRONNEMENT

Cartographie Mobile à MINES ParisTech

Chapitre 1. Prise en main

Les formats de la publicité en ligne

Systèmes en réseau : Linux 1ère partie : Introduction


MANUEL TBI - STARBOARD

Les Utilisateurs dans SharePoint

Guide pour la réalisation d'un document avec Open Office Writer 2.2

Transcription:

Extraction du texte enfoui dans les images de scènes naturelles Projet ANR itowns CMM LIP6 J.Fabrizio, B. Marcotegui, M. Cord Precioso R. Minetto, J. Guyomard, F. 1

I - CONTEXTE a Texte enfoui 2

I - CONTEXTE b Pourquoi détecter le texte? Quelles applications de la détection automatique du texte : Annotation automatique de grandes bases de données d'images, vidéo, multi-média Aide aux personnes malvoyantes Navigation enrichie en ville Contexte itowns : 1. Enrichissement de la navigation dans le viewer 2. Enrichissement des index textuel pour la recherche de lieux par mots-clés 3

I - CONTEXTE b Difficultés rencontrées Problèmes rencontrés par rapport à un OCR (Optical Character Recognition) classique : Grande variété des polices de caractères 4

I - CONTEXTE b Difficultés rencontrées Problèmes rencontrés par rapport à un OCR : Grande variété des polices de caractères Variations de luminosité 5

I - CONTEXTE b Difficultés rencontrées Problèmes rencontrés par rapport à un OCR : Grande variété des polices de caractères Variations de luminosité Images bruitées Images floues 6

I - CONTEXTE b Difficultés rencontrées Problèmes rencontrés par rapport à un OCR : Grande variété des polices de caractères Variations de luminosité Images bruitées Images floues Pas de mise en page définie Fond non uniforme 7

II - ÉTAT DE L'ART 2 grandes familles de méthodes APPROCHES BASÉES TEXTURE : 1/ Apprentissage d 1 fonction de classification Texte/ Non_Texte (à partir de vignettes exemples) 2/ Détection par Fenêtres glissantes à plusieurs échelles 3/ Fusion des boîtes et validation APPROCHES BASÉES RÉGIONS 1/ Segmentation de l image (au niveau des caractères) 2/ Détection des régions de caractères 3/ Groupement des caractères pour former le mot/ligne/texte 8

III - MÉTHODE PROPOSÉE J. Fabrizio (post-doc commun LIP6 et CMM) Chaîne globale : 9

III - MÉTHODE PROPOSÉE IMAGE J. Fabrizio (post-doc commun LIP6 et CMM) ) Segmentation Basée Morphomat. Filtrage et classification Regroupement Validation globale Inspiré du Toogle Mapping [Serra] f(x) : image h1(x) : érosion morphologique de l'image h2(x) : dilatation morphologique de l'image s(x) : binarisation de l'image 10

III - MÉTHODE PROPOSÉE J. Fabrizio (post-doc commun LIP6 et CMM) ) IMAGE Segmentation Filtrage et classification Regroupement Validation globale Cas des zones homogènes: s(x) : binarisation de l'image Oscillations dues à l'homogénéité de la zone. Ajout d'une contrainte. 11

III - MÉTHODE PROPOSÉE J. Fabrizio (post-doc commun LIP6 et CMM) ) IMAGE Segmentation Filtrage et classification Regroupement Validation globale Image segmentée Filtrage rapide des zones segmentées, basé sur des heuristiques géométriques Classification des régions segmentées à l'aide de SVM (Support Machine Vector) 12

III - MÉTHODE PROPOSÉE J. Fabrizio (post-doc commun LIP6 et CMM) ) IMAGE Segmentation Filtrage et classification Regroupement Validation globale Entraînement de classifieur de type SVM (Support Vector Machine) sur: - une base de données de 32400 exemples - une base de test de 3600 exemples Moments pseudo-zernike SVM 76% Descripteurs de Fourier Descripteurs polaires SVM SVM 83% 81% SVM 88% 13

III - MÉTHODE PROPOSÉE J. Fabrizio (post-doc commun LIP6 et CMM) ) IMAGE Segmentation Filtrage et classification Regroupement Validation globale Le regroupement s'effectue selon plusieurs heuristiques simples [Retornaz et al] : H1 d y H2 B1 d x B2 14

III - MÉTHODE PROPOSÉE J. Fabrizio (post-doc commun LIP6 et CMM) ) IMAGE Segmentation Filtrage et classification Regroupement Validation globale 15

III - MÉTHODE PROPOSÉE J. Fabrizio (post-doc commun LIP6 et CMM) 16

III - MÉTHODE PROPOSÉE J. Fabrizio (post-doc commun LIP6 et CMM) ) IMAGE Segmentation Filtrage et classification Regroupement Validation globale Exemples de fausses détections rejetées par le processus de validation basé sur l'apprentissage d ' h i s t o g r a m m e s d e gradients orientés 17

18

IV SnooperText ( LIP6-Brésil ) Thèse R. Minetto IMAGE Pyramide d'images Multi résolution Segmentation Filtrage et classification Regroupement Validation globale Détection mono-résolution Détection multi-résolution texte détecté sur 3 niveaux de la pyramide 19

V RECONNAISSANCE ( LIP6 ) J. Guyomard & F. Precioso Coupler la détection avec un OCR en sortie Tesseract: Développé par Hewlett Packard de 1985 à 1995 Open source depuis 2006 Actuellement développé par Google http://code.google.com/p/tesseract-ocr/ Abbyy FineReader: Logiciel fermé Meilleur OCR du marché actuellement Développés initialement pour reconnaître du texte dans des cas simples, en particulier de numérisation de livres et de documents papiers 20

V RECONNAISSANCE OCR Sortie Tesseract: Intérêt de la détection de texte avant traitement par l'ocr `«\` HH -,.V- Y lx Âhs. -.N «~* ~ -.--«*-.A vw-«l-x. A _ mum. au Çz«vI'-fr ' M ng' I Q I Il / BAR TABAC E RAU_YE IVÎ! A._Ö/*e aÿåe Tvi3- P --A ' 9 ' A Q A- - A, * '/<f**** *~v'\;. _. A- _; _ /I,., * / * / L.V Î " _ ` _ 4' P '-`.-JA» ' Y4' N ', ", ' * ;-.- î 1 -I //' _*', 'f;~; _` \Y,Y * _v., _ _, '* _ 1 /r ' 2 ' ; ' ' ** a_~..=* " 1.J 1 _fî` @L ` ' fl F " '. ain.5ä?` flflfliflfl 21

V RECONNAISSANCE SnooperText + OCR LE RALLYE SALLE ÿ.um--r Il M 1 ' 'L._ xs: BAR TABAC LE RALLYE un * :Kltnum; 22

CONCLUSION Méthode actuellement intégrée dans le viewer d itowns Moteur de recherche par mots clés enrichis par la reconnaissance automatique Ex : Requête : Sushi 23

PERSPECTIVES Passage à l échelle : actuellement 2min/image Il reste des faux positifs et faux négatifs! Améliorer le filtrage en sortie Améliorer l étape de classification des régions 24

PERSPECTIVES Classification par Boosting Le facteur limitant en temps actuellement : classif SVM régions Snoopertext - Temps de calcul: ~2min Snoopertext avec Boosting - Temps de calcul: ~10sec 25

Extraction du texte enfoui dans les images de scènes naturelles Projet ANR itowns CMM LIP6 J.Fabrizio, B. Marcotegui, M. Cord Precioso R. Minetto, J. Guyomard, F. 26