Reconnaissance des Mots Manuscrits Arabes par Combinaison d une Approche Globale et une Approche Analytique



Documents pareils
MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Stéganographie Adaptative par Oracle (ASO)

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

hal , version 1-14 Aug 2009

TD 1. Statistiques à une variable.

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Montage émetteur commun

Mesure avec une règle

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Remboursement d un emprunt par annuités constantes

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Les jeunes économistes

Dirigeant de SAS : Laisser le choix du statut social

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Editions ENI. Project Collection Référence Bureautique. Extrait

METHODE AUTOMATIQUE POUR CORRIGER LA VARIATION LINGUISTIQUE LORS DE L INTERROGATION DE DOCUMENTS XML DE STRUCTURES HETEROGENES

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

Le Prêt Efficience Fioul

STATISTIQUE AVEC EXCEL

Interface OneNote 2013

INTERNET. Initiation à

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

Comparative performance for isolated points detection operators: application on surface defects extraction

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

Exercices d Électrocinétique

Système solaire combiné Estimation des besoins énergétiques

Terminal numérique TM 13 raccordé aux installations Integral 33

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

Prise en compte des politiques de transport dans le choix des fournisseurs

Paquets. Paquets nationaux 1. Paquets internationaux 11

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Séparation de Sources par lissage cepstral des masques binaires

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

La Quantification du Risque Opérationnel des Institutions Bancaires

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

Analyse des Performances et Modélisation d un Serveur Web

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

Généralités sur les fonctions 1ES

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Grandeur physique, chiffres significatifs

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Prêt de groupe et sanction sociale Group lending and social fine

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

Pro2030 GUIDE D UTILISATION. Français

1. Les enjeux de la prévision du risque de défaut de paiement

Professionnel de santé équipé de Médiclick!

Performances de la classification par les Séparateurs à Vaste Marge (SVM): application au diagnostic vibratoire automatisé

Surveillance temps-réel des systèmes Homme-Machine. Application à l assistance à la conduite automobile

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

THESE. Khalid LEKOUCH

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

Evaluation de performances d'ethernet commuté pour des applications temps réel

P R I S E E N M A I N R A P I D E O L I V E 4 H D

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

Pour plus d'informations, veuillez nous contacter au ou à

santé Les arrêts de travail des séniors en emploi

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

APPROXIMATION PAR RÉSEAUX À FONCTIONS RADIALES DE BASE APPLICATION À LA DÉTERMINATION DU PRIX D ACHAT D UNE

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

Parlons. retraite. au service du «bien vieillir» L Assurance retraite. en chiffres* retraités payés pour un montant de 4,2 milliards d euros

Projet de fin d études

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

GUIDE D ÉLABORATION D UN PLAN D INTERVENTION POUR LE RENOUVELLEMENT DES CONDUITES D EAU POTABLE, D ÉGOUTS ET DES CHAUSSÉES

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

Des solutions globales fi ables et innovantes.

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

MEMOIRE. Présenté au département des sciences de la matière Faculté des sciences

ACTE DE PRÊT HYPOTHÉCAIRE

Mots-clés : Système multicapteurs, Réseau local, Réseaux de neurones, Supervision, Domotique. xigences système d'une nouvelle

Faire des régimes TNS les laboratoires de la protection sociale de demain appelle des évolutions à deux niveaux :

Ecole Polytechnique de Montréal C.P. 6079, succ. Centre-ville Montréal (QC), Canada H3C3A7

Driss HARRIZI. MOTS CLES : contrôle de gestion - système d'éducation et de formation système d information - établissement public.

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

RÉSUMÉ ANALYTIQUE... 1

Table des Matières RÉSUMÉ ANALYTIQUE... 1 I. CONTEXTE La dette publique du Gouvernement Contexte institutionnel de gestion de la

Page 5 TABLE DES MATIÈRES

AVERTISSEMENT. Contact SCD INPL: LIENS

Calcul de tableaux d amortissement

Transcription:

Reconnassance des Mots Manuscrts Arabes par Combnason d une Approche Globale et une Approche Analytque Abdallah Benouareth, Abdellatf Ennaj, Mokhtar Sellam o cte ths verson: Abdallah Benouareth, Abdellatf Ennaj, Mokhtar Sellam. Reconnassance des Mots Manuscrts Arabes par Combnason d une Approche Globale et une Approche Analytque. Laurence Lkforman-Sulem. Sep 2006, SDN06, pp.265-270, 2006. <hal-00112053> HAL Id: hal-00112053 https://hal.archves-ouvertes.fr/hal-00112053 Submtted on 7 Nov 2006 HAL s a mult-dscplnary open access archve for the depost and dssemnaton of scentfc research documents, whether they are publshed or not. he documents may come from teachng and research nsttutons n France or abroad, or from publc or prvate research centers. L archve ouverte plurdscplnare HAL, est destnée au dépôt et à la dffuson de documents scentfques de nveau recherche, publés ou non, émanant des établssements d ensegnement et de recherche franças ou étrangers, des laboratores publcs ou prvés.

Reconnassance des Mots Manuscrts Arabes par Combnason d une Approche Globale et une Approche Analytque Abdallah BENOUAREH 1 Abdellatf ENNAJI 2 Mokhtar SELLAMI 1 1 Laboratore de Recherche en Informatque Insttut d Informatque- Unversté Badj Mokhtar - Annaba- BP, 12-23000 Sd Amar Algére el & Fax (213) 38 87 29 04 2 Laboratore PSI -FRE 2645 Unversté de Rouen, INSA de ROUEN Emal : benouareth@lr-annaba.net, abdel.annaj@unv-rouen.fr, sellam@lr-annaba.net Résumé : Dans cet artcle nous proposons une approche combnée pour la reconnassance hors-lgne des mots manuscrts arabes dans un vocabulare lmté. Cette approche est basée sur une combnason séquentelle d une approche globale avec une approche analytque. L approche globale (utlsée afn de fltrer les entrées du lexque) modélse chaque mot par un HMM (Hdden Markov Model) dscret de durée d état explcte en utlsant des prmtves globales telles que les jambages, les hampes, etc. L approche locale (utlsée pour sélectonner le bon mot parm ceux générés par l approche globale) consste à segmenter le mot en graphèmes, modélse à son tour chaque forme de caractère arabe par un HMM dscret dans lequel les observatons sont assocées aux transtons, et assoce à chaque mot du lexque un HMM par concaténaton des modèles élémentares de ses lettres. Les résultats expérmentaux obtenus ont montré que l approche proposée présente des apttudes ntéressantes permettant ans sa portablté à la reconnassance des mots arabes manuscrts dans un vocabulare de talle mportante. Mots clés : Approche globale, lexque, lste des melleurs mots canddats, segmentaton, graphèmes, HMM, HMM de durée d état explcte, algorthme de Vterb. 1 Introducton Les applcatons qu peuvent trer proft des progrès réalsés dans le domane de la reconnassance automatque de l écrture manuscrte (RAEM) sont nombreuses, telles que la lecture des chèques postaux ou bancares, la lecture des adresses postales, la bureautque, etc. Ben que les nvestgatons effectuées dans ce domane soent nombreuses [PLA 00] et les derners résultats obtenus du pont de vue méthodologque et théorque très encourageants [KOE 05], les performances des systèmes prototypes développés en mleu académque sont lon d égaler les performances exgées par la qualté de servce des systèmes opératonnels. Selon la manère de percevor un mot, nous dstnguons deux approches communément utlsées pour la reconnassance des mots manuscrts : une approche locale ou analytque qu consdère le mot comme une sute d untés mons complexes que ce derner (caractères ou graphèmes) et une approche globale ou holstque qu consdère le mot comme une entté unque et ndvsble. L approche locale permet théorquement de reconnaître n mporte quel mot, pusque l unté basque de la modélsaton est le caractère ou sous-caractère (graphème). outefos, elle est handcapée par le problème de segmentaton qu n est pas toujours évdent, et par la grande varablté nhérente à la forme des segments. Quant à l'approche globale, ben que recommandée pour la reconnassance de l écrture manuscrte plus ou mons dégradée dans un vocabulare lmté, souffre généralement d'un problème de manque d'nformatons suffsamment dscrmnantes pour les mots, ce qu peut accentuer le rsque de confuson lorsque la talle du lexque devent mportante. Une coopératon entre les deux approches préctées semble offrr des perspectves ntéressantes que nous nous proposons d exploter dans ce traval. D une part, nous utlsons en amont l'approche globale pour fltrer les mots du lexque par génératon de la lste des N melleurs mots canddats, et d'autre part nous explotons une approche locale pour segmenter les mots en enttés élémentares (graphèmes) apportant ans un maxmum d'nformatons dscrmnantes. Ans l'approche globale permettra de retenr que les mots fournssant les N melleurs scores sur l mage en entrée en explotant celle-c à travers une séquence dscrète de caractérstques globales (jambages, hampes, boucles, ponts dacrtques, etc.) et en modélsant chaque mot du lexque par un HMM dscret d'ordre 1 et de durée d'état explcte. Quant à l'approche locale, elle nous servra pour modélser chaque forme de caractère arabe (en foncton de sa poston dans le mot, un caractère arabe peut avor jusqu à 4 formes dfférentes) par un HMM dscret à 4 états où les observatons sont assocées aux transtons. Le modèle de chaque mot du lexque de reconnassance est construt par concaténaton des HMMs de ses caractères.

Le reste de cet artcle est artculé comme sut : la deuxème secton décrt schématquement l archtecture du système développé pour la reconnassance des mots manuscrts arabes dans un vocabulare lmté. Les prétratements applqués en vue de smplfer les étapes ultéreures du processus de reconnassance sont énumérés dans la trosème secton. La secton 4 est dédée à l extracton des caractérstques globales et à la descrpton du mot. Les processus d apprentssage et de classfcaton de l approche globale sont détallés dans la cnquème secton. La méthode de segmentaton utlsée en aval de l approche globale est abordée dans la secton 6. La secton 7 esqusse la procédure d extracton des caractérstques décrvant les segments générés par le processus de segmentaton et leur transformaton en séquence de codes. L apprentssage des HMMs des dfférentes formes de caractères, ans que la détermnaton du bon mot parm la lste des melleurs mots canddats générée par approche globale sont décrts dans la secton 8. Dans la secton 9 les résultats obtenus sute aux expérmentatons effectuées sur deux bases de données de mots manuscrts arabes sont présentés et commentés. Enfn dans la secton 10 nous trerons notre concluson et tracerons quelques perspectves pour la poursute de ce traval. 2 Archtecture du système La fgure 1 llustre le dagramme fonctonnel du système développé pour la reconnassance des mots manuscrts arabes dans un vocabulare lmté. Lexque Prétratements Classfcaton globale Segmentaton PSPDs Extracton des caractérstques globales HMMs-DEE Lste des Mots Canddats Extracton des prmtves locales et Codage de segments Séquence de codes Classfcaton analytque Mot le plus vrasemblable Fg. 1 Méthodologe adoptée pour la reconnassance des mots arabes manuscrts. *HMMs-DEE : HMMs de durée d état explcte. *PSPDs : ponts de segmentaton potentels. 3 Prétratements Avant de procéder à la reconnassance de mot, l est nécessare d effectuer une sére de prétratements sur l mage de celu-c en vue d élmner (ou du mons rédure) le brut qu l encrasse, et smplfer la procédure d extracton de caractérstques et le processus de segmentaton. Les prétratements qu ont été applqués sur les données brutes sont : 1) Bnarsaton [SA 85]; 2) Lssage [AMI 96]; 3) raçage et étquetage de contours [BOZ 89]; 4) Localsaton de la lgne de base [PEC 03]; 6) Extracton de la zone médane [BOZ 89]. 4 Extracton des caractérstques globales et descrpton du mot Afn de meux décrre l allure globale du mot, nous avons utlsé deux types de caractérstques qu sont ben décrtes dans [AME 94, MIL 99]. Le premer type correspond à toutes les caractérstques extrates à partr des composantes connexes prncpales appelées tracés dans [MIL 99] (entté connexe regroupant un ou pluseurs caractères sous forme d une séquence), alors que le deuxème type est assocé aux dacrtques (pont, doubles ponts, etc.). Le tableau 1 regroupe toutes les caractérstques extrates du mot avec une notaton assocée à chacune d elles. Prmtve Hampe Jambage Alf Occluson Poche Vallée Espace Ouverture Est Ouverture West Notaton Ha Ja Al Oc Po Va # Oe Ow Prmtve Ouverture Ouverture Pont Pont Pont double haut Pont double bas Pont trple Hamza Haut Nord Sud Haut Bas Notaton On Os Ph Pb Pdh Pdb Pt Hh Prmtve Hamza bas Notaton Hb AB.1 Notaton adoptée pour les caractérstques globales. Base de données : HMMs mots construts par concaténaton des HMMs caractères

L extracton des caractérstques décrtes c-dessus est effectuée par balayage de l mage du mot de drote à gauche (c est le sens de l écrture arabe) et de haut en bas. Par conséquent, le mot est représenté par une séquence chronologque de caractérstques. Le prncpe de descrpton est : le premer arrvé est le premer serv (vor fgure 2) [MIL 99]. Les caractérstques, provenant des deux zones dfférentes d nformatons (la zone des tracés et zone des dacrtques), sont ordonnées chronologquement suvant l axe des abscsses. L ordre chronologque d apparton des caractérstques de la zone des tracés ne pose aucun problème. Mas la dffculté résde dans l nserton des caractérstques extrates des dacrtques dans la séquence d observatons. Cette dffculté d hétérogénété de l nformaton est surmontée par la comparason des postons des centres de gravté des plus petts rectangles englobants les caractérstques dans l mage du mot. Lgne de base supéreure Sens de la descrpton Lgne de base nféreure Ow/Va/Ow/#/Al/#/Ow/Ja/Oc Début O = O, O,..., O ) avec =9 Observatons 1 ( 1 2 FIG. 2 Exemple de représentaton du mot sous forme d une séquence de caractérstques globales. 5 Apprentssage des modèles de mots et classfcaton Nous avons montré expérmentalement dans [BEN 06], que d une part, la modélsaton explcte de la durée d état dans les HMMs peut amélorer substantellement le pouvor dscrmnant de ces modèles, et d autre part, une dstrbuton de type Gamma pour la durée d état a donné le melleur taux de reconnassance sur la base de données de référence IFN/ENI [PEC 02]. Par conséquent, nous avons modélsé chaque mot du lexque par un HMM dscret de durée d état explcte avec une dstrbuton de type Gamma, en utlsant un codebook dont les entrées correspondent aux dfférentes caractérstques globales possbles, vor tableau 1 (18 au total). Dans notre modélsaton, la noton d état est assocée à une noton logque qu est le caractère. Ans, le nombre d états par HMM est varable d un mot à un واحد autre. Par exemple le modèle assocé au mot content 4 états, alors que le nombre d états dans le modèle أم البواقي est 9. La topologe adoptée pour la modélsaton globale des mots arabes manuscrts est de type drote-gauche avec saut seulement nter-états. Les sauts ntra-états sont mplctement modélsés par la prse en compte de la durée d observatons par état dans le HMM. L apprentssage des paramètres des modèles HMMs (A, B,Π) correspondant aux dfférentes classes de mots est réalsé par l algorthme de Baum-Welch [RAB 89] en applquant les formules de Levnson [LEV 86] pour estmer les paramètres de dstrbuton de probablté de durée d état (.e., p (d)). Le classfeur utlsé pour sélectonner la lste des melleurs mots canddats correspondant aux N melleurs scores sur la séquence d observatons est basé sur un crtère de maxmum de vrasemblance (ML : Maxmum Lkelhood). La vrasemblance de la séquence d observatons assocée au mot en entrée est évaluée par rapport à tous les mots du lexque en utlsant une verson logarthmque de l algorthme de Vterb [LEV 86]. A l ssue de cette étape, nous retenons seulement la lste des mots du lexque correspondant aux N melleurs valeurs de vrasemblance. La valeur de N permet de défnr le taux de réducton du lexque. 6 Segmentaton 6.1 Processus de segmentaton Le but de cette étape est la partton de l mage d un mot en une sute de segments (graphèmes) par l dentfcaton des postons de ponts de segmentaton. Ce processus procède en vérfant les crtères suvants : 1) le nombre maxmum de segments par caractère est 3 (ex., ; (س 2) chaque segment content au plus 2 caractères enters (ex.,.(لا A cet effet, nous avons modfé l algorthme de segmentaton de Olver et al. [OLI 96], pour qu l s accorde avec les deux crtères de segmentaton préctés. Cet algorthme peut se résumer en deux étapes prncpales : A) extracton du sgnal utle (spato-temporel) pour la segmentaton par analyse du contour haut de chaque composante connexe ; B) détecton des ponts de segmentaton potentels (PSPs) par localsaton des mnma locaux du contour haut de chaque composante connexe représentant un sous mots. Pus, sélecton des ponts de segmentaton potentels décsfs PSPDs parm les PSPs canddats. Ce chox est réalsé à base des crtères suvants : 1) s une boucle est détectée au-dessous d un PSP, ce canddat est élmné ; 2) l épasseur de la composante connexe (CC) en ce pont dot être nféreure à un seul α (l épasseur de cette composante). L épasseur d une CC est le maxmum de son hstogramme d occurrence des projectons partelles vertcales des pxels nors sur une lgne. α : étant un coeffcent de proportonnalté fxé emprquement par les auteurs de cet algorthme à 1,5 ; 3) s l y a pluseurs PSPs dans la même zone de segmentaton, on retent seulement le canddat le plus proche de la lgne de base. Les modfcatons apportées à cet algorthme sont au nveau de : 1) lssage de la chaîne de codes de la composante connexe, dans le but d élmner les mnma locaux artfcels apparassant dans le contour haut, par applcaton de la méthode de lssage de la chaîne de codes décrte dans [KIM 97]; 2) ajout d un quatrème crtère pour le chox des PSPDs. Ce crtère est relatf à la poston de PSP canddat qu dot être à l ntéreur de la zone médane du mot ; 3) le derner PSPD dans chaque composante connexe est exclu, s l n est pas suv par un ascendant ou un descendant. Le quatrème crtère ajouté permet de mantenr le premer crtère du processus de segmentaton en

graphèmes toujours vérfé, s on ne le consdère pas, certans caractères (ex., (س seraent segmentés en plus de 3 graphèmes. En revanche, l excluson du derner PSPD garantt que certans caractères à la fn d une.(ب (ex. composante connexe restent non segmentés PSPDs Cec a pour effet de rédure le nombre des graphèmes générés par la procédure de segmentaton. Un exemple de la segmentaton du mot manuscrt,(تسعة) est llustré par la fgure 3.b. Graphèmes (a) (b) FIG. 3 (a) Sgnal utle lssé de l'mage du mot (تسعة) avec tous les PSPDs possbles; (b) résultat de la segmentaton. 6.2 Extracton des graphèmes Après localsaton de tous les PSPDs à l'ntéreure de chaque composante connexe, nous procédons à l'extracton de la séquence de tous les graphèmes. Nous dstnguons deux types de graphèmes : 1) Les graphèmes prncpaux produts par la procédure de segmentaton décrte c-dessus. 2) Les graphèmes secondares correspondant aux tracés secondares. L extracton de chaque graphème prncpal se fat par la technque de suv de contour. Les graphèmes secondares ont été déjà extrats et dentfés lors de l étape d analyse globale et génératon de la lste des mots canddats. Chaque graphème secondare est assocé à un graphème prncpal (son père). Cette assocaton est détermnée à partr de la dstance et de l ordre d occurrence du graphème secondare par rapport à son père (avant ou après) qu est calculé en foncton de son centre de gravté. 7 Extracton des caractérstques locales et codage de graphèmes Les caractérstques décrvant chaque graphème sont calculées à partr des chaînes codes de Freeman du graphème (de son contour externe et éventuellement de son/ses contour(s) nterne(s)) [KIM 97]. Elles consttuent un vecteur de talle 76. Les quatre premères décrvant globalement le graphème sont le rato d aspect et le rato du trat du graphème, en plus du nombre de contours nternes et externes dans le graphème. Les 72 autres caractérstques décrvant localement le graphème, sont collectées en dvsant le plus pett rectangle englobant le graphème en 9(3 3) régons et en calculant la dstrbuton de chaque code de Freeman (8 drectons) à l ntéreur de chaque régon, ensute nous applquons la formule suvante : S j Cl = pour =1, 9 et j = 0, 7. (1) N S j Où S j = le nombre de composantes des chaînes de codes ayant la drecton j dans la régon. N = le nombre de composantes des chaînes de codes S j dans la régon et S = max( ). j N Le codage d un graphème sgnfe l affectaton d un code à ce derner. Autrement dt, c est la dscrétsaton de son vecteur de caractérstques. Cette dscrétsaton est effectuée par quantfcaton vectorelle avec une talle de codebook fxée emprquement à 160, en utlsant la varante LBG [LIN 80] de l algorthme de K-means. 8 Apprentssage des modèles de lettres et reconnassance Les mots du lexque ont en commun les lettres de l alphabet ou plutôt leurs dfférentes réalsatons manuscrtes (nous avons dstngué la forme des caractères suvant leur poston dans le mot). Les lettres sont auss des canddates rasonnables pour partager des éléments entre les modèles de Markov des mots. Le concept d état lé consttue une soluton pour le partage des modèles lettres. Le modèle de chaque mot est construt (mplctement) en concaténant les modèles élémentares de ses lettres. En d autres termes, les états des dfférentes copes des modèles de lettres mplqués dans la concaténaton sont lés. Les varantes des formes des graphèmes et les mperfectons de la méthode de segmentaton et d extracton des prmtves ont pour conséquence l absence, l nserton ou la substtuton des graphèmes. La représentaton de ces phénomènes est fate en assocant un modèle de Markov caché (HMM) de topologe drote-gauche de quatre états smlare à celu décrt dans [ELY 99], dans lequel les observatons sont assocées aux transtons, à chaque forme possble de chaque lettre de l alphabet arabe. Dans ce modèle de lettre les transtons ntra-états représentent le phénomène d assocaton éventuelle d un graphème secondare à un graphème prncpal. Le nombre d HMMs par lettre est varable d une lettre à une autre. Par exemple, certanes lettres (.e., (ع غ sont modélsées par 4 HMMs, chacun d eux modélse une forme partculère de la lettre en foncton de sa poston dans le mot (au début, solée, au mleu, ou à la fn). D autres ne nécesstent qu un seul HMM (ex., ١). La concaténaton des modèles de lettres formant le modèle de mot se fat en consdérant le derner état du caractère courant comme étant le premer état du caractère suvant. Les paramètres de HMM de lettre sont détermnés à partr des échantllons des mots (.e., apprentssage embarqué) en utlsant l algorthme de Baum-Welch [RAB 89]. Le classfeur utlsé pour sélectonner le melleur

canddat (le bon mot) parm la lste des N melleurs mots canddats (L) générée par le nveau global d analyse est un module de maxmum de vrasemblance (ML : Maxmum Lkelhood). Ce classfeur prend le mot à reconnaître comme étant une séquence d observatons (codes) O = ( O, O... O ) produte par 1 1 2 analyse locale de son mage, pour chaque modèle de mot dans la lste des melleurs mots canddats L, ce classfeur premèrement calcule la probablté P( O / λ ) qu correspond à la probablté d obtenr la 1 séquence O 1 par le modèle λ. Ces probabltés sont évaluées par l algorthme de Vterb [FOR 73]. Ensute, le mot entrant est désgné par le mot K du lexque pour lequel le modèle λ maxmse la probablté d émsson k de O 1. 9 Résultats et dscussons Pour valder l approche proposée, nous avons effectué des expérmentatons sur deux bases de données de mots manuscrts, l une relatve à un lexque (BDL 1 ) de talle 48 formé par les noms des wlayas algérennes, l autre (BDL 2 ) est auss de talle 48 mas concerne les montants lttéraux de chèques postaux. Chaque base content 14400 échantllons de mots manuscrts qu sont écrts par 100 scrpteurs (étudants unverstares et personnels admnstratfs). Ces bases de données ont été élaborées par notre équpe de recherche. L apprentssage des modèles de mots pour l approche globale a été effectué séparément sur la moté des échantllons de chaque base. Alors que l apprentssage des modèles de lettres pour l approche locale a été réalsé sur l ensemble des échantllons formé de 50% de BDL 1 et 50% de BDL 2. Les résultats obtenus avec l approche globale sont ndqués dans le tableau 2, en foncton de la talle N de la lste des melleurs mots canddats. Ces résultats montrent ben que l approche globale peut rédure le lexque de reconnassance d un facteur de 52,08%. Ce facteur (Fr) est défn par (2) : N Fr = ( 1 ) 100, (2) L où L : est la talle du lexque. L approche locale a été premèrement évaluée ndépendamment du résultat de l approche globale pour montrer l apport de la combnason utlsée, en utlsant tous les modèles de mots du lexque pendant la phase de reconnassance. Les résultats obtenus sute à cette évaluaton sont donnés dans le tableau 3. Le deuxème test de l approche locale a été effectué en foncton de la talle de la lste des melleurs mots canddats générée par l approche globale. Les scores en rang 1 de reconnassance de ce test sont montrés dans le tableau 4. Ces résultats montrent que l approche combnée peut amélorer le taux de reconnassance en rang 1 de l approche globale d un facteur de 8,49%, et d un facteur de 13,69% pour l approche locale. Notons que le taux de reconnassance de l approche combnée en rang 10 avec N=23 est 100%. Nous sgnalons c que la majorté des erreurs de reconnassance est attrbuée prncpalement à une mauvase détecton des caractérstques pour l approche globale, et aux erreurs de segmentaton pour l approche locale. A ttre ndcatf, l extracton des hampes et des jambages est fortement condtonnée par la détermnaton fable des zones d écrture du mot. Or, la méthode utlsée pour la détermnaton de ces zones échoue s le mot est trop nclné, par conséquent, nous rsquons d obtenr un (des) hampe(s) (jambage(s)) en plus ou en mons dans la séquence d observatons. Une méthode plus robuste pour l extracton des prmtves utlsées pourrat encore amélorer le taux de reconnassance. Base de données N= 1 N= 2 N= 5 N= 10 N= 23 BDL 1 88,36% 92,77% 95,45% 98,78% 100% BDL 2 89,65% 93,01% 96,23% 99,05% 100% AB. 2 aux de reconnassance de l approche globale obtenus sur la moté des deux bases BDL 1 et BDL 2, en foncton de la talle de lste à générer des melleurs mots canddats. Base de données Rang 1 Rang 2 Rang 5 Rang 10 Rang 25 BDL 1 84,45% 89,77% 93,05% 97,60% 100% BDL 2 85,13% 90,47% 94,56% 98,16% 100% AB. 3 aux de reconnassance de l approche locale obtenus sur la moté des deux bases BDL 1 et BDL 2, ndépendamment de l approche globale. Base de données N=2 N=5 N= 10 N=23 BDL 1 90,50% 91,67 % 92,73% 95,87% BDL 2 91,33% 92,07 % 93,11% 96,79% AB. 4 aux de reconnassance en rang 1 de l approche combnée obtenus sur la moté des deux bases BDL 1 et BDL 2, en foncton de la talle de la lste des melleurs mots canddats. 10 Concluson et perspectves Dans cet artcle, nous avons proposé une soluton au problème de la reconnassance automatque de l écrture arabe manuscrte dans un vocabulare lmté. La soluton apportée est basée sur une combnason séquentelle d une approche globale avec une approche locale. L approche globale est utlsée en amont afn d élaguer le lexque de reconnassance en générant la lste des N melleurs mots canddats qu s apparent au meux avec l mage du mot en entrée. ands que l approche locale est utlsée en aval pour sélectonner le bon mot parm la lste des melleurs mots canddats

générée par l approche globale. Les deux approches utlsent respectvement des HMMs avec et sans durée d état explcte pour la modélsaton des mots arabes manuscrts. Les résultas expérmentaux obtenus ont montré que l approche combnée a nettement améloré le taux de reconnassance de chacune des deux approches (globale et locale). La premère perspectve que nous envsageons pour la poursute de ce traval est la portablté de l approche proposée à d autres bases de données concernant des lexques de talle plus mportante, et plus spécfquement à la base de données de référence IFN/ENI [PEC 02]. Vue que, le bon mot est toujours dans les 10 premères réponses données par l approche combnée, l utlsaton des classfeurs dscrmnatfs de type SVMs (Support Vector Machnes) pour trancher entre ces réponses semble auss une voe prometteuse à explorer. 11 Références [AME 94] AMEUR A., ROMEO-PAKKER K., MILED H., CHERIE M., Approche Globale pour la Reconnassance de Mots Manuscrts Arabes, Actes CNED 94, 3ème colloque Natonal sur l Ecrt et le Document,, Jullet, 1994, pp : 151-156. [AMI 96] AMIN A., AL-SADOUN H., FISCHER S., Hand-Prnted Arabc Character Recognton System Usng an Artfcal Network, Pattern Recognton, Vol 29, N 4, 1996, pp: 663-675. [BEN 06] BENOUAREH A., ENNAJI A., SELLAMI M., Utlsaton des HMMs de Durée d'etat Explcte pour la Reconnassance des Mots Arabes Manuscrts, Actes RFIA 2006 ours, France, 25-27 Janver, 2006, p 37. [BOZ 89] BOZINOVIC R. M., SRIHARI S. N., Offlne Cursve Scrpt Word Recognton, IEEE ransactons on PAMI, Vol 11, N 1, January, 1989, pp: 68-83. [ELY 99] EL-YACOUBI M.A., GILLOUX M., SABOURIN R., SUEN C.Y., An HMM-Based Approach for Off-lne Unconstraned Handwrtten Word Modelng and Recognton. IEEE ransacton on PAMI, Vol 21, N 8, August, 1999, pp:752-760. [FOR 73] FORNEY G. D., he Vterb Algorthm, Proceedng of the IEEE, Vol. 61, N 3, March, 1973, pp 268-278. [KIM 97] KIM G., GOVINDARAJU V., A Lexcon Drven Approach to Handwrtten Word Recognton for Real-me Applcatons, IEEE ransactons on PAMI, Vol 19, N 4, Aprl, 1997, pp: 366-379. [KOE 05] KOERICH A. L., SABOURIN R., SUEN C. Y., Recognton and Verfcaton of Unconstraned Handwrtten Words, IEEE ransactons on PAMI, Vol 27, N 10, October, 2005, pp: 1509-1522. [LEV 86] LEVINSON S.E, Contnuously Varable Duraton Hdden Markov Models for Automatc Speech Recognton. Computer, Speech & Language, Vol 1, N 1, 1986, pp: 29-45. [LIN 80] LINDE Y., BUZO A., GRAY R. M., An Algorthm for Vector Quantzer Desgn, IEEE ransacton on Computer, N 36, 1980, pp : 85-95. [MIL 99] MILED H., Stratéges de Résoluton en Reconnassance de l Ecrture Sem-cursve : Applcaton aux Mots Manuscrts Arabes, hèse de doctorat, Unversté de Rouen, 1999. [OLI 96] OLIVIER C., MILED H., ROMEO K., Lecourter Y., Segmentaton and Codng of Arabc Handwrtten Words, ICPR 96, Venne, Autrche, 1996, pp: 264-268. [PEC 02] PECHWIZ M., MADDOURI S., MAERGNER V., ELLOUZE N., AMIRI H., IFN/ENI -Database for Handwrtten Arabc Words, Actes CIFED'02 Hammamet, unsa, October 21-23, 2002, pp : 129 136. [PEC 03] PECHWIZ M., MAERGNER V., HMM Based Approach for Handwrtten Arabc Word Recognton Usng the IFN/ENI- Database, ICDAR (Proceedngs of the Seventh Internatonal Conference on Document Analyss and Recognton), 2003, pp : 890-894. [PLA 00] PLAMONDON R., SRIHARI S. N., On- Lne and Off-Lne Handwrtng Recognton: A Comprehensve Survey, IEEE ransactons on PAMI, Vol 22, N 1, January, 2000, pp: 63-84. [RAB 89] RABINER L. R., A utoral on Hdden Markov Models and Select Applcatons n Speech Recognton, Proceedng of IEEE, Vol 77, N 2, February 1989, pp: 257-286. [SA 85] SAI W. H., Moment Preservng hresholdng: a New Approach, Computer. Vson Graphcs Image Processng, Vol 29, 1985, pp: 377-393.