Système de reconnaissance de chiffres manuscrits hors lignes

Transcription

1 Système de reconnaissance de chiffres manuscrits hors lignes Recognition System of Unconstrained Handwritten Numeral s par Nicolas FERAY et Denis DE BRUC Q PSI - La31 Itepea, UFR des Sciences et des Techniques BP Mont Saint Aignan Cedex Téléphone : FAX : Feray la3i.univ-rouen.fr Gdr_Tdsi 134 CNRS résumé et mots clés Nous présentons dans cet article un système de reconnaissance de chiffres manuscrits hors lignes, en décrivant toutes les étape s essentielles à son élaboration. Nous abordons d'abord la première phase de tout système de reconnaissance : l'extractio n de primitives. Une représentation structurée construite à partir du squelette du chiffre est utilisée pour extraire rapidemen t un jeu de 55 primitives binaires. Nous précisons ensuite une méthode qui permet de déterminer l'information transmise pa r une primitive sur le problème de la reconnaissance des chiffres manuscrits hors lignes. L'information transmise par chaqu e primitive fournit un critère permettant de générer un arbre de décision binaire de manière complètement automatique. C e critère est utilisé pour sélectionner au niveau de chaque noeud de l'arbre la primitive la plus informative sur le problème d e reconnaissance associé au noeud en cours de traitement. Le classifieur obtenu n'utilise pas la totalité des 55 primitives binaires mais uniquement celles qui ont été retenues durant la phase d'identification de l'arbre de décision. Nous présentons ensuite un critère de rejet original qui permet d'augmenter les performances du système de reconnaissance de manière significative. Nous décrivons finalement la base de données de chiffres manuscrits américains qui sert à tester le classifieur. Nous donnons les résultats obtenus. Squelettisation, Primitive, Théorie de l'information, Critère de rejet, Reconnaissance de chiffres. abstract and key words In this paper, we present a recognition system of unconstrained handwritten numerals. We describe all essential stages to it s elaboration. We approach the first phase of all recognition system : the extraction of the primitives. A structure that use th e skeleton of the numeral is used to extract rapidly 55 binary primitives. We specify a method that allows to determine the transmitte d information about the primitives on the problem of the recognition of unconstrained handwritten numerals. Information transmitted by each primitive providing a criterion allowing to generate a binary decision tree. This criterion is used to select in each nod e the best primitive. The obtained classifier does not use the totality of 55 binary primitives but solely those that have been retaine d during the phase of identification of the decision tree. We present an original reject criterion that allows to increase performances of the recognition system. Finally, We describe the database of American handwritting numerals that serves to test the classifier. We demonstrate the performance of our system with this database. Skeleton, Primitive, Information theory, Reject criterion, Handwritten numeral recognition. les applications bancaires ou postales, qualifiés de hors lignes o u 1 introduction statiques et les systèmes destinés à la bureautique, qualifiés de e n lignes ou dynamiques ou temps réel (voir [1] et respectivemen t Depuis plusieurs années, de nombreux travaux de recherche ont porté sur la reconnaissance des chiffres manuscrits. Deux grandes classes de systèmes sont aujourd'hui à l'étude : les systèmes pour [2] pour des exemples). Les travaux que nous présentons portent sur le premier problèm e qui reste aujourd'hui un thème de recherche ouvert. En effet, bien que le nombre de classes naturelles soit très réduit (chiffres '0'

2 à '9'), on trouve à l'intérieur de chacune d'entre elles, une trè s grande variabilité de l'écriture, [3]. De plus, les conditions souven t relativement précaires dans lesquelles sont écrits les chiffre s (chèques écrits rapidement sur un coin de table) et la variabilité d u matériel utilisé (utilisation de divers stylos, de différentes qualité s de papier) tendent à complexifier la reconnaissance. Dans ces conditions, l'extraction de caractéristiques est un e étape essentielle et délicate dans la construction d'un système d e reconnaissance. Cette phase est donc présente dans de nombreu x systèmes de reconnaissance présentés dans la littérature. O n trouve principalement deux catégories d'approche : l'analyse globale et l'analyse structurelle. La première approche s'attache à décrire les formes de manière globale, [4], [5], et elle est e n général utilisée avec des méthodes statistiques de classification, [6]. Notre approche se situe dans la deuxième catégorie qui capture des primitives décrivant les principaux aspects géométriques de la forme. Ces primitives sont usuellement extraites du squelett e ou du contour des formes, [7]. Nous présentons une décomposition simple du chiffre manuscrit sur plusieurs plans informatifs structurés, chargés de représente r complètement le squelette du chiffre manuscrit. Le squelette est donc l'élément déterminant en terme de robustesse de la représen - tation structurelle du chiffre. Notre algorithme de squelettisation et ses propriétés sont présentés. Les différents plans informatifs de la structure précédente facili - tent l'accès à l'information contenue dans le squelette. Ils sont donc utilisés par les extracteurs de primitives pour générer un e description des chiffres manuscrits. Cette description est formée de 55 primitives binaires rapides à extraire. Les primitives retenue s et le nombre de ces dernières ont été choisis de manière à ce qu e l'information transmise par le mot constitué à partir de la concaténation des 55 primitives binaires soit maximale, [9]. Le fai t que l'information transmise, calculée sur un échantillon que l'o n espère le plus représentatif du problème, soit maximale, est un e condition nécessaire pour résoudre le problème. Le classifieur, qui est un arbre de décision binaire, est ensuit e présenté. Une telle démarche permet une phase de reconnaissance, réalisée à l'aide de questions sur des caractéristiques locales d e l'image, très rapide. Cette approche est délicate en reconnaissance de chiffres manuscrits hors lignes à cause de la difficulté à construire un arbre, tâche qui ne peut être effectuée manuellement, étant donnée la multiplicité des règles attachées à chacune de s classes. L' information transmise par une primitive fournit un critère de choix efficace [8], [9], qui est utilisé pour automatise r la fabrication de l'arbre de décision binaire lors de la phas e d ' apprentissage. Les noeuds de l'arbre sont identifiés de manièr e récursive. A chaque noeud, est associée la primitive qui maximise la quantité d'information transmise sur la sous-partie de la base d 'apprentissage relative au noeud. D'autres méthodes utilisen t un critère de type entropie pour construire un arbre de décisio n binaire. Dans [10], l'objectif est de construire un arbre de décisio n en réduisant l'entropie de Shannon H à tous les niveaux de l'arbr e (ensemble des nceuds situés à la même profondeur dans l'arbre). La technique développée dans [11] est très proche de la notr e puisque les primitives, au niveau de chaque noeud, sont choisie s pour réduire le plus possible, l'incertitude (mesurée par l'entropie ) sur l'hypothèse vraie. L' approche de CART, [12], utilise un groupe relativement réduit de primitives à chaque noeud et chaque test es t optimisé en fonction d'un seuil. Notre approche s'appuie sur la proposition du paragraphe qui formalise, d'un point de vue mathématique, l'intuition physique. Les distributions conditionnelles des caractéristique s binaires et la distribution marginale sur les chiffres sont estimée s au niveau de chaque noeud sur une sous-partie de la base d' appren - tissage pour calculer l'information transmise par chaque primitive. Le processus est adaptatif car la sous-partie de la base d'apprentissage et les informations transmises par les primitives a u niveau d'un nceud dépendent des valeurs des primitives observée s au niveau de tous les noeuds précédents. Ce système conduit à éclater chaque classe en sous-classes, correspondant à des variabilités de l'écriture spécifiques, représentatives des différentes manières de tracer le chiffre (variabilité d'écriture d'un scripteur à un autre) et aussi des différents outils ayant servi à trace r le chiffre (fermeture des boucles lors de l'utilisation de stylos à mine épaisse). Nous précisons la capacité de cette méthode à réduire l'ensembl e des caractéristiques à observer, pour ne retenir que les plu s informatives, ce qui permet d'arriver à un arbre de décision d e taille raisonnable. Nous présentons ensuite un critère de rejet, simple à implémenter, qui permet d'améliorer de manière significative les performance s du classifieur en terme de fiabilité. Le classifieur sera testé, dans la dernière partie, sur la bas e de données de chiffres manuscrits américains NIST (Nationa l Institute and Standards of Technology). 2. représentation de hau t niveau d'un chiffre manuscrit Nous avons dû mettre en ceuvre un certain nombre de pré - traitements, ayant pour objectif de passer d'une représentatio n du chiffre sous forme d'image (difficile à exploiter) à une représentation de haut niveau du chiffre. Cette représentation devra permettre d'accéder facilement et rapidement aux caractéristique s informatives du chiffre en vue d'effectuer son identification squelettisatio n Cette première étape est souvent utilisée pour simplifier les formes à reconnaître, [13]. Elle permet notamment de s'affranchir d u 86 Traitement du Signal 1996 Volume 13 - n 1

3 problème de l'épaisseur du trait qui est extrêmement variabl e au niveau de l'écriture manuscrite hors ligne. En amont de cette étape, nous effectuons un lissage de l'image brute opérant sur u n voisinage de 8 points. Cette étape permet de limiter l'apparition d e trous à l'intérieur des chiffres et de lisser leurs contours extérieurs. L'algorithme de squelettisation présenté est une amélioration de l'algorithme de Marthon, [14], [15]. Contrairement à ce dernier, il permet d 'obtenir un squelette d'épaisseur 1 pixel. Il est fond é sur le calcul, en chaque point p(i, j) de l'image, d'une fonction simple F(i, j) opérant sur un voisinage de 8 points. F(i, j) est la longueur de la somme des vecteurs joignant le point p(i, j) à tous ses voisins. ( Y )_\ 11/+\1/+\0/+C F ( i,j ) = IX I + IY I = 3 y A il /\ / pour lequel F(i, j) = 3 est enlevé ou non. si nvois = 2 ou (nvois = 3 etsup(ixi, IYI) = 3 ) alors le point doit être éliminé. (1) Une dernière règle doit être ajoutée pour les cas où F(i, j) = 3. C'est le cas des configurations doubles suivantes. Ces cas correspondent à nvois = 5 et sup(ix,iyi) = 3 Ces configurations sont détectées et, en phase de suppression, l'élimination de ces points est faite uniquement si l'on est dan s un cas de configuration ligne double. L'intérêt de cette démarche est illustré par l'exemple suivant : (-1,1) (1,1) P 0 ( 1,0) ~ x Pl P2 Observons que 0 < F(i, j) < 4. Intuitivement, les points intérieurs à la forme sont associés à une valeur de F(i, j) petite et seront conservés. Les points extérieurs sont associés à une valeu r de F (i, j) grande et seront supprimés. La valeur de F (i, j) est liée au degré d'intériorité dans la forme du pixel de coordonnées (i, j). L'algorithme proposé est itératif et il supprime, à chaque étape, des points inessentiels (points n' appartenant pas au squelette). Le s points supprimés sont les points de coordonnées (i, j) tels que F(i, j) = 4 et certains points tels que F(i, j) = 3. L'élimination de tous les points tels que F(i, j) = 3 entraîne en général une déconnexion du squelette, ce qu'il faut éviter. Aussi les cas F(i, j) = 3 sont analysés cas par cas. Donnons des exemples : IYI IY I = 0, =, F(i, j) = 3 : le point est gardé. F(i, j) = 3 : le point est enlevé. Les points p l et p2 ont tous les deux une configuration lign e double, mais un seul des deux doit être éliminé pour qu'il n'y ait pas de disconnexion de la forme. En phase de suppression, le poin t pl sera supprimé car c'est un cas de configuration ligne doubl e (calculé au moment de la suppression) et le point p2 sera conservé car la suppression du point p l aura entraîné la disparition de la configuration ligne double pour le point p 2. L'algorithme procède de façon itérative par paire d'étapes : la première calcule, en chaque point p(i, j) de la forme, la fonction F(i, j). La deuxième étape supprime les points inessentiels tel s que F(i, j) = 4 et procède à l'élimination des points associé s à F(i, j) = 3 lorsque la condition (1) est remplie ou s'il y a détection d'une ligne double. Ces deux étapes sont réitérée s jusqu'à ce qu'il n'y ait plus de point inessentiel. Finalement, afin que l'épaisseur du squelette soit strictemen t d'épaisseur 1, l'algorithme se termine par un traitement itératif, [15], qui élimine les points ayant la configuration suivante : (IXI = 1 et IYI = l et nvois = 2) ou ((XI = 0 et IYI = 2 et nvois = 3) ou (IXI = 2 et IYI Oet nvois = 3 ) IY I = 2 ' F (z, d) = 3 : le point est enlevé. o o o C'est la connaissance de IXI, IYI et de nvois (nombre de voisin s du point sur un 8-voisinage) qui permet de déterminer si le point Exemples de configurations typique s o : points éliminés en fin de squelettisation Traitement du Signal 1996 Volume 13 - n 1 87

4 Cette méthode permet d'obtenir une représentation structurelle robuste des chiffres manuscrits. Ainsi : L'algorithme a été appliqué sur des chiffres manuscrits d e la base NIST (figure 1). Le bruit de contour n'introduit pas d'artefact dans le squelette, les extrémités des branches ne sont pas raccourcies, les courbures des formes sont bien représentées. Ces points sont indispensables pour l'extraction de primitive s structurelles robustes. Chiffres bruts SQUELETTE PLAN INFORMATIF 3 Informations sur les points du squelette PLAN INFORMATIF 2 Structure des éléments (listes chaînées) PLAN INFORMATIF 1 Eléments de haut niveau Figure 2. Structuration du squelette. Figure 1. Squelettisation. Squelette s j) / L'épaisseur du squelette est toujours de 1. La méthode offre une faible sensibilité au bruit o o o o 0 o o o o o o 0 0 o points du squelette Le squelette conserve les propriétés métriques de la forme comme le nombre de parties, le nombres de trous et la connexité. L'algorithme utilise un critère simple d'élimination des points. Ceci permettra une implémentation câblée aisée. Ce point est intéressant car l'algorithme est itératif. Le temps moyen de squelettisation estimé sur 200 chiffres de la base NIST (imagette s de 128 x 128 pixels) est de 8 centièmes de seconde sur u n compatible PC DX2 66 MHz description du chiffre à partir du squelette Nous sommes passés d'une représentation du chiffre sous form e d'image à une représentation de ce dernier par son squelette. L'objectif est d'obtenir maintenant, [16], une représentation structuré e de plus haut niveau en utilisant son squelette (figure 2). L'objectif est de structurer l'information afin de rendre l'utilisation du squelette et donc la phase d'extraction des primitives, plus aisée et plus rapide. D'autre part, la totalité des plans informatifs n'engendrant pas de perte d'information par rapport au squelette initial, cette représentation laisse une grande liberté à de futur s traitements. Une chaîne de reconnaissance est souvent amenée à évoluer par ajout ou modification d'extracteurs de primitives. Le premier plan informatif est constitué à partir de la décomposition du squelette du chiffre en éléments de haut niveau facilemen t manipulables (trait, liaison inter-carrefour, boucle). Ce plan donne accès à un deuxième plan informatif où l'on trouv e la description de chaque élément de haut niveau sous la form e d'une liste des points le constituant. L'ordre des points dans la liste chaînée est donné par un suivi de trait et n'est donc pa s aléatoire. Ce plan permet notamment l'extraction de primitive s décrivant les ouvertures présentes au niveau du chiffre. Le deuxième plan permet l'accès au troisième et dernier plan informatif, où l'on trouve la description des points du squelette (coordonnées, type du point, nombre de voisins sur un 8-voisinage). Ce plan permet l'extraction de primitives représentatives de point s caractéristiques du squelette (points extrémités, points de jonction) ainsi que toutes les opérations de localisation d'un élémen t (élément dans la partie basse, haute, etc du chiffre). Il permet aussi une opération de projection du squelette qui a pour but l a détection de traits horizontaux significatifs au niveau du chiffre. Identification des points du squelette. Les points du squelette sont classés en trois catégories suivant l e nombre de voisins sur un 8-voisinage : les points tels que nvois = 1, ce sont des extrémités. les points tels que nvois = 2, ce sont des points situés sur un élément de haut niveau. les points tels que nvois > 3, ce sont des points de jonction. Ce paramètre sera disponible dans le troisième plan informatif au niveau de la description de chaque point. Identification des carrefours. Cette étape est essentielle pour l'extraction d'éléments de plu s haut niveau. Un carrefour est défini comme un ensemble connex e de points de jonction. Nous effectuons donc une extraction des 88 Traitement du Signal 1996 Volume 13 - n 1

5 points de jonction connexes, [17]. o o o o o o o o o o Exemples de carrefours : point de jonction, nvois > 3 o :nvois < 3 Chaque carrefour (masse connexe) est défini par un identificateu r ID carrefour : 0 < ID carrefour < nombre total de carrefours Chaque point du troisième plan informatif dispose dans sa description d'un paramètre ID carrefour. Celui-ci permet de savoir à quel carrefour le point appartient. Si le point n'appartient pas à un carrefour, le paramètre ID carrefour est égal à zéro. Extraction des traits du squelette Un trait du squelette est un élément qui a pour origine un point extrémité et pour fin un point extrémité ou un point de jonction. Pour extraire les traits du squelette, nous partons des points extrémités pour effectuer un suivi de trait jusqu'à ce que l'o n arrive sur un point extrémité ou un point de jonction. Extraction des liaisons inter-carrefour. Une liaison inter-carrefour est un élément qui a pour origine u n point de jonction et pour fin un point de jonction. Pour extraire le s liaisons inter-carrefour, nous partons des points de jonction pour effectuer un suivi de trait jusqu'à ce que l'on arrive sur un autre point de jonction. Extraction des boucles. L'algorithme d'extraction des boucles consiste à assembler les liaisons inter-carrefour entre elles pour former des parcours fermé s (recherche de cycles dans un graphe non orienté où les carrefours sont les sommets des liaisons inter-carrefour). L'assemblage s e fait uniquement grâce à la connaissance, pour chaque liaison inter - carrefour, du premier point et du dernier point de la liste chaîné e ainsi que du paramètre ID carrefour associé à ces points dan s le troisième plan informatif. Bien que l'algorithme utilisé soi t combinatoire, l'extraction est très rapide car elle travaille sur de s éléments de haut niveau, les liaisons inter-carrefour, faciles à ma - nipuler et en nombre très réduit (en règle générale, le nombre de liaisons inter-carrefour n'est jamais supérieur à quatre). Nous avons, par ces différentes opérations, décomposé le squelette en différents éléments de haut niveau. Chaque élément est décri t par une liste chaînée des points le constituant. Il n'y a e u aucune perte d'information, mais uniquement une structuratio n du squelette. Chaque élément de haut niveau est : Facile à manipuler grâce à la structure qui le représente (list e chaînée des points le constituant). Structuré : l'ordre des points de la liste chaînée est représentatif du suivi de trait. Riche en information : connaissance de la nature des points l e constituant, de leurs coordonnées dans l'image initiale. Facilement interrogeable par des dispositifs situés en aval pou r des traitements spécifiques. 3. extraction de caracté - ristiques en vue de l a reconnaissance Les primitives que nous présentons exploitent pleinement l a structure présentée précédemment pour arriver à une extractio n rapide. Le choix des primitives s' est fait après une étude bibliographique, [18], [19], [20], qui nous a permis de détermine r celles qui semblaient à la fois les plus informatives et les plu s simples. Pour chaque famille de primitives, nous précisons les plans informatifs du squelette structuré utilisés. Localisation des extrémités (plans informatifs 1 et 3 utilisés) Les extrémités et les carrefours constituent des informations trè s utiles pour la reconnaissance, car elles permettent de décrire localement la structure d'une forme, [21]. Les extrémités se trouvent à la fin des éléments de haut niveau appelés traits. I l est courant, en reconnaissance de chiffre manuscrit, de considére r le nombre d'extrémités. Expérimentalement, nous avons pu constater que cette primitive n'est pas robuste lorsque les chiffres son t très bruités à cause de l'apparition de barbules. Nous préférons donc utiliser les positions approchées de ces dernières. Nous introduisons des primitives binaires Eí, i E {1, 2,..., 9} indiquant la présence ou l'absence d'extrémité dans des zones du rectangle englobant le chiffre (figure 3). Figure 3. Primitives extrémités. Traitement du Signal 1996 Volume 13 - n 1 89

6 Localisation et dénombrement des carrefours (plans informa - tifs 1 et 3 utilisés) Comme pour les extrémités, nous localisons les carrefours. Nou s obtenons ainsi neuf primitives binaires (Ecl, Ec2, Ec3, Ec4, Ec5, Ec6, Ec7, Ec8, Ec9). Nous ajoutons quatre autres primitive s binaires, voir tableau 1, chargées de spécifier le nombre d e carrefours (certains chiffres comme le 8 peuvent avoir dans un e même zone deux carrefours). Tableau 1. Primitives nombre de carrefour s 0 carrefour CaO 1 carrefou r Cal 2 carrefours Ca2 3 carrefour s Ca3 plus de 3 carrefours Ca>3 Détection et localisation des boucles (plans informatifs 1, 2 et 3 utilisés) Les boucles et les ouvertures mettent en évidence les propriété s topologiques et géométriques des chiffres tout en présentant une grande tolérance aux distorsions et aux variations de style. Nous avons facilement accès aux boucles grâce au premier pla n informatif. L'étape suivante consiste à caractériser le type des boucles (voir tableau 2) grâce à la description de ces dernière s dans les plans 2 et 3. Tableau 2. Primitives boucles présence boucle boucle total e boucle basse boucle haute boucle double Nous approchons l'aire d'une boucle par l'aire Ao du rectangl e dans lequel elle est inscrite. Soit I (Ix, Iy) le «centre» de l a boucle (figure 4). Soit Ac, l'aire du rectangle dans lequel le chiffre est inscrit et Y = (yl y2) l'équation de la droite horizontale qui coupe l e chiffre dans 2 sa moitié. Y Figure 4. Primitives boucles. O Ot O b O h Od (x3,y3) > X (x4,y4) 1)Si Ao < Smin x Ac, la boucle est considérée comme trop petit e et est ignorée. 2) Sinon, si Ao > Smax x Ac, l' aire de la boucle est très important e vis-à-vis de Ac : elle est considérée comme totale (cas du chiffre zéro). 3) Sinon, si ly > (0+92 y2) ), la boucle est basse (exemple du chiffre 6). 4) Sinon, si ly < (y1 2), la boucle est haute (exemple du chiffre 9). 5) S'il y a une boucle haute et une boucle basse alors la boucle est double (exemple du chiffre 8). Les seuils sont obtenus en faisant varier la valeur de Smin et Sma x par pas de 0,1 (0< Sm i n <1 et 0< Smax <1) et en retenant le couple qui maximise la quantité d'information transmise (définie au paragraphe 4.1.1) par le mot constitué de la concaténation de s cinq primitives binaires décrivant les boucles présentes au nivea u d'un chiffre. Ce procédé est décrit en détail dans [9]. Détection de primitives décrivant le tracé du chiffre (plan s informatifs 1,2 et 3 utilisés). La première phase consiste en une polygonalisation rapide, [22], des différents éléments du premier plan informatif. Ainsi, à chaque trait du squelette structuré, est associée une suite d e segments caractérisés par leur direction de Freeman. Cette suite de directions de Freeman donne une description approchée de la nature du tracé d'un élément trait. Seuls les éléments traits sont polygonalysés car l'objectif est de détecter des arcs concave s ou convexes qui n'apparaissent pas de manière significative su r les liaisons inter-carrefour. Les suites de directions de Freeman associées aux traits sont ensuite analysées par des automate s finis pour détecter toutes les ouvertures présentes au niveau du chiffre. L'automate non déterministe présenté figure 5 détecte le s ouvertures 07, 08, 09. Pour l'implémentation informatique, nous nous ramenons à u n automate déterministe, [23]. Les ouvertures sont ensuite localisées avec le procédé utilisé pour les boucles. Détection des traits horizontaux (plan informatif 3 utilisé) Un histogramme de projection du squelette est construit de la façon suivante. L'axe des abscisses représente les lignes de l'image et l'axe des ordonnées représente le nombre de pixel s noirs rencontrés sur chaque ligne. Tous les endroits où le nombr e de pixels noirs est supérieur à la plus grande largeur du chiffre multipliée par un seuil Si, (0 < Sp < 1), sont détectés pou r déterminer trois types de traits horizontaux, voir tableau 3. Nous projetons le squelette plutôt que le chiffre brut pour évite r les problèmes liés aux sur-épaisseurs locales du tracé du chiffre (fréquentes sur le manuscrit) qui perturbent l'extraction des trait s horizontaux. De plus, la projection qui est obtenue en un seul balayage du troisième plan informatif, manipule un minimu m de points par rapport aux projections classiques qui utilisent l'image brute. L'utilisation du squelette conduit à détecter de s 90 Traitement du Signal 1996 Volume 13 - n 1

7 S v i ' 5 description du tracé départs prioritaires sur les extrémités ~ los plus haute s 4.1. construction de l'arbre binaire â partir des quantités d'informatio n transmise par les caractéristiques extraites des chiffre s ol od ~ 07 os ol o ol i ~ n (--e ~ W Old 017 O Figure 5. Primitives ouvertures. Tableau 3. Primitives projections Type du trait Trait horizontal dans la partie haute du chiffre Trait horizontal dans la partie médiane du chiffre Trait horizontal dans la partie basse du chiffre ouvertures 08 et 03 détectées Configuration Th Tm traits horizontaux plus ou moins marqués suivant la valeur de Sp. Le choix de la valeur du seuil Sp est fait sur le même principe qu e celui employé pour déterminer les seuils associés aux boucles. 4. construction d'u n classifieu r La phase de reconnaissance consiste à interpréter les donnée s obtenues dans l'étape précédente et à décider à quelle class e appartient le chiffre analysé. Cette décision d'appartenance d u chiffre à une classe va être effectuée par un arbre binaire chargé d e faire la mise en adéquation des propriétés de l'objet aux propriété s de la classe. Ce classifieur sera obtenu à la suite d'une phas e d'apprentissage entièrement automatique. Tb Un arbre binaire est composé d'un ensemble de noeuds, chaqu e noeud pouvant activer l'un de ses deux noeuds fils. Un noeud de l'arbre est chargé, pour identifier le chiffre, de poser un e question. Suivant la réponse (oui ou non), le parcours dans l'arbr e se poursuit vers l'un des noeuds fils où une nouvelle question es t posée. Le processus démarre au niveau de la racine de l'arbre et s e réitère jusqu'à l'arrivée sur un noeud terminal (noeud n'ayant pa s de fils) qui va permettre l'identification du chiffre. L' apprentissage consiste donc à découvrir, en partant de la racine, la questio n qu'il faut poser puis à créer deux noeuds fils et enfin à réitére r le processus au niveau de ces derniers. Ce processus appliqu é à un problème complexe comme la reconnaissance de chiffr e manuscrit hors ligne, doit être automatisé et sous-entend donc d e disposer d'un critère qui va permettre de poser la bonne question au niveau d'un noeud. Nous avons choisi un critère qui va permettre de calculer, a u niveau d'un noeud, la quantité d'information transmise [8], [9] par les primitives sur le problème d'identification. L'information transmise, comme nous allons l'utiliser, sera donc une fonction d'évaluation des primitives présentées précédemment sur un problème de reconnaissance défini dans un contexte très précis et de plus en plus spécifique (noeud de l'arbre). L'utilisation d'une information transmise est intuitive. Roche, [8], a montré que dans tous les problèmes d'applications où l'homme a une certaine idée des informations utiles transmises, la quantité d'information transmise, I (Z ; Yn) dans notre cas, correspond à l'intuition calcul de la quantité d'information transmise pa r les primitives. Soit une base de données de chiffres étiquetés, chaque chiffre pouvant être identifié grâce à son étiquette. Les chiffres à lire étan t aléatoires, nous introduisons une variable aléatoire Z d'un espac e de probabilité (Q, A, P) dans Z= {0, 1,..., 9}. Pour chaque épreuve w, le chiffre Z(w) = i représente le chiffre aléatoire inconnu que le scripteur a voulu écrire. Ce dernier a tracé une forme notée X (w). Nous supposons que le problème de classification est bien posé. De façon plus précise, nous supposons qu'il est possible d e retrouver le chiffre à partir de la forme observée ; les images sont suffisamment fines pour que toute forme X (w) corresponde à un seul chiffre i ; deux chiffres appartenant à des classes différente s ne peuvent avoir la même forme. Ainsi, au chiffre i est associé un ensemble F2, comprenant toutes les formes possibles de trac é Traitement du Signal 1996 Volume 13 - n 1 9 1

8 de i. Nous admettons ainsi que : Ai = {w E Sl ; Z(w) = i} {wesl;x(w)efi } Nous avons introduit 55 variables aléatoires Yn, n E {1,.., 55} ; Yn (w) = yn où yn e {0, 1} représente la valeur de la primitive Yn extraite pour l'épreuve w c'est-à-dire à partir de la form e X(w). Ainsi, connaissant les valeurs d'une séquence de primitives obtenues à partir d'une forme donnée, il s'agit de retrouver le chiffre. Usuellement, la reconnaissance s'appuie sur la distribution a posteriori, conditionnellement aux valeurs des primitive s observées. Nous n'allons pas calculer l'ensemble de toutes les primitives. Nous allons en choisir un nombre, le plus restreint possible. Le choix des primitives est effectué sur la base de l'information qu e donne une primitive Yn sur la variable aléatoire Z. Un rappel rapide des notions d'information et d'information conditionnelle est donné afin que le texte soit immédiatement compréhensible par tous les lecteurs. Nous allons maintenant évaluer numériquement l'incertitude su r l'expérience de reconnaissance pour chacune des 55 primitives. La mesure d'incertitude, a priori, est égale à, [24] : H(Z) = P(Ao) log 2 P(Ao).... P(Ar) log2 P(Ap) Cette quantité est l'entropie de la variable aléatoire Z et son unité est le bit. Pour le cas de la reconnaissance de chiffres manuscrit s hors lignes et pour des événements équiprobables, nous avon s p = 9 et H(Z) = 3, 321 bits. Les probabilités a posteriori vérifient la formule de Bayes : P(Ailyn) = P (Ai) P ( ynlai ) E P (Aj)P(ynlAj ) je Z Lors de la reconnaissance, chaque variable aléatoire Yn réalise une valeur y n qui conditionne la variable aléatoire Z, d'où le s incertitudes a posteriori : H(Z/yn) P (Ao/yn) log2 P (Ao/yn ).... P (A9/yn) log2 P(A9/yn ) En faisant les sommations sur les valeurs possibles des primitives, on obtient : H(Z/Yn) _ ~ P(Y = yn-o, i ) P (Ai/ y n) loge P (Ai/yrr ) i Ez Il est à espérer que l'observation Yn est utile et que l'incertitude a posteriori est plus petite que l'incertitude cc priori. Nous introduisons la quantité d'information transmise par chacune des 5 5 primitives : I(Z ;Yn ) = H(Z) H(Z/Yn) A la suite de ces résultats classiques, nous fournissons quelque s propriétés originales et utiles quant au choix d'une séquence de primitives. Observons que l'ensemble d'apprentissage est la base B de données fournie. Cet ensemble peut être considéré comme u n échantillon aléatoire, extrait de la population totale ft La reconnaissance doit être effectuée sur cette population totale. Le problème se pose de savoir si cet échantillon B est représentatif des propriétés statistiques de la population totale ft Par ailleurs, considérons un procédé de découpage de B en deu x classes Co et Ci telles que Co U Ci = B. C'est la situatio n après l'observation de la première primitive et successivemen t ensuite lorsque chaque séquence de primitives est augmentée d'une unité. Chacune des deux classes peut être considérée comme un échantillon de la base. Ainsi, le problème se pose d'évaluer la quantité d'informatio n transmise sur Z par une primitive Y quand on l'utilise dans un e population Il ou dans une partie B de cette population. Des exemples simples de construction d'espaces de probabilité (Il, A, P), construction laissée aux lecteurs, montrent que diverses situation s contradictoires sont possibles. Si la variable Y est indépendante de la variable Z dans chacun e des deux classes Co et Cl, alors l'information fournie par Y sur Z est nulle dans chacune des deux classes bien que l'informatio n fournie par Y sur Z dans la population Co U C i n'ait aucune raison d'être nulle. Ainsi, dans ce cas particulier, le découpag e en sous-classes éliminerait des primitives utiles sur la populatio n totale. Tout au contraire, il est aisé de construire un exemple où, dan s chacune des deux classes Co et Cl, la variable Y détermine la variable Z. Dans ce cas, l'information calculée dans chacun e des deux classes Co et C i est maximum et il faut procéder au découpage. Pour faire un parallèle, prenons la couleur rouge. Prise seule, la couleur rouge serait notre primitive de base. Elle ne semble pas contenir énormément d'information si l'on veu t reconnaître des fleurs (globalement elle est peu informative). S i l'on se ramène maintenant à un contexte particulier (une partie de la population totale) la couleur rouge permet de différencier une marguerite d'une rose ou une tulipe d'une jonquille,etc.... Il suffit pour se ramener à ces contextes bien spécifiques de dispose r de primitives aptes à les décrire. Certains lecteurs aimeront mieux une formulation mathématique de ces résultats. Proposition : Soit (Sl, A, P) un espace de probabilité, soit Z et Y deux variable s binaires et {Co, Cl } une partition de a a) Si Z ~L Y/ alors I(Z,Y/) = O. b) Si Z = f (y ; Ci) Vi E {0, 11, avec f fonction à valeurs binaires, alors H(Z/ Y, = O. Il existe des exemples pour la propriété a) ave c 0 = I(Z ; Y/) < I(Z; Y) 92 Traitement du Signal 1996 Volume 13 - n 1

9 et des exemples pour la propriété b) ave c H(Z/) = I(Z;Y/) > I(Z ;Y). En conclusion de ces propriétés, nous avons déduit que le choi x de la meilleure primitive est un problème local à l'ensemble su r lequel se pose la classification. Etant donnée une séquence de primitives, dans chacune des sous-populations définies par le s valeurs prises par les primitives de la séquence, le problème de classification se pose à l'identique et il faut prendre la primitiv e Y fournissant l'information la plus grande sur Z. Notre mécanisme de classification va s'attacher à dégager des contextes de plus en plus précis, jusqu' à ce que les contextes soient si précis (regroupement d'une variabilité de l'écriture spécifique ) qu'ils permettent de formuler une hypothèse de reconnaissance. Il est essentiel que la base d'apprentissage B et que la population totale 52 (ou la population test) aient, à chaque niveau de découpage, les mêmes répartitions statistiques. Intuitivement, en cas de différences notables, il faut espérer une robustesse de l'utilité des primitives vis-à-vis des fluctuations statistiques entre l'échantillon B et la population S2. Une condition nécessaire pou r que B soit représentative de SZ est que, quel que soit la primitiv e Y considérée, nous ayons : I(Z ; Y/B) = I(Z; Y/Sl ) algorithme d'identification de l'arbre binaire. Soit une base de données d'apprentissage qui va permettre d' iden - tifier l'arbre de décision binaire. L'identification va commencer en partant de la racine (noeud numéro 0, noté No) de l'arbre en considérant l'ensemble de la base d'apprentissage notée Bo. Nous allons donc calculer pour chacune des 55 primitives la quantité I(Z;Yn/Bo). Une correspondance entre n et les primitives binaires présentées précédemment est donnée en annexe. L'information transmise par chacune des primitives au niveau de la racin e de l'arbre est aussi donnée. 0,6,, 0, 5 aa 0, 4 0,3 0,2 0,1 0 N, N, m, o ~ r r- co c+`m v ~ cm r- c*m co a~{~ ~ c~ m - n : numéro de la primitive o~ aí ra - ~. Figure 6. - Classement des 16 primitives les plus informatives. La primitive numéro m = 31 telle que : I(Z ; Ym=31/Bo) = max(i(z ; Yn/Bo), n E {1, 2,..., 55}) est retenue pour poser la première question qui est donc «l a primitive m = 31 est-elle présente?» et qui a pour réponse 0 ou 1 (respectivement oui ou non). Cette observation est réalisée sur tous les chiffres de la base de données d'apprentissage associé e au noeud. Ceci permet de générer deux bases de données B l et B 2. B l = {w ; Ym (w) = 1 } B2 = {w ; Y,,, (w) = 0 } Bo = B l U B2 Deux noeuds fils, Ni et N2, sont alors créés et à chaque noeud fil s sont attachées respectivement la base B l et la base B2. Le processus est réitéré sur chacun des noeuds nouvellement créé s en considérant, pour le calcul des informations transmises par le s primitives, la sous-base attachée au noeud en cours de traitement, soit B1, soit B2. Un noeud Ni de base Bi ne crée plus de fils et devient terminal lorsque : Vn E {1, 2,..., 55}, I (Z ; Yn/Bi) = 0 La base Bi attachée à ce noeud permet alors de définir à quel chiffre le noeud Ni doit être associé. Le meilleur cas de figure arrive lorsque tous les chiffres de la base de données attachée au noeud terminal ont la même valeur (le noeud est pur). Dans le ca s où la base Bi contient des représentants de plusieurs chiffres, la reconnaissance n'est pas complète et il faut introduire de nouvelle s primitives spécifiques à la levée d'ambiguités persistantes, [25]. Remarquons que ce dernier point peut être prévu avant de construire l'arbre de décision. En effet, dans ces conditions, l'information transmise par le code constitué à partir de la concaténatio n de toutes les primitives binaires (calculée sur la base d'apprentis - sage) ne peut être maximum. I(Z ; Yi Y2...Yn/Bo) < H(Z) avec n = 55 dans notre cas. Malgré tout, il est tout de même intéressant de construire l'arbre de décision binaire lorsque l'information transmise est proche de H(Z) car l'analyse des bases de données attachées aux noeud s impurs permet de découvrir les primitives spécifiques qu'il faut rajouter. En phase d'apprentissage, le problème de reconnaissance es t donc, dans un premier temps (racine de l'arbre), considéré dans s a globalité (informations transmises calculées sur une variabilité de l'écriture extrême, donc sur la totalité de la base d'apprentissage ) et au fur et à mesure que nous allons descendre dans l'arbre de décision binaire, les bases de données attachées aux noeuds de l'arbre vont être réduites et homogénéisées. Les variabilités d e l'écriture à l'intérieur de ces bases de données vont devenir plu s réduites et aussi plus spécifiques. C'est l'utilisation en priorité des primitives les plus informatives (les plus robustes aux variations d e style) qui diminue la complexité du problème de reconnaissance, lors de la descente dans l'arbre, en partitionnant la base de donnée s initiale. Il sera alors possible, sur ces différentes parties, d'obtenir des primitives ayant une quantité d'information non négligeable, alors que, sur le problème global, elles étaient peu informatives. Traitement du Signal 1996 Volume 13 - n 1 93

10 4.2. mécanisme de rejet L'arbre de décision observe un certain nombre de primitives dan s un ordre bien spécifique afin de déterminer le chiffre inconnu, décision qui se fait au niveau des noeuds terminaux. Le problèm e de l'arbre de décision binaire est qu'il est susceptible de faire un e erreur au niveau de chaque noeud (primitive observée provenan t d'un bruit, exemple d ' une barbule entraînant l'apparition d'une primitive extrémité non significative). Ceci se traduit alors par l'arrivée sur un noeud terminal qui attribue une mauvaise valeur au chiffre inconnu et donc provoque une erreur. Au niveau des noeuds terminaux, nous avons inclus un mécanisme capable d'entraîner l e rejet du chiffre s'il existe des primitives ayant une valeur aberrant e au vue du chiffre proposé. Par exemple, il serait aberrant de conclure à la reconnaissance du chiffre 3 si le chiffre analys é possède une boucle totale (Ot = 1). Nous avons donc associé à chaque noeud terminal des primitives binaires qui ne doivent pa s être observées (primitives binaires égales à 0) ou bien qui doiven t être observées (primitives binaires égales à 1) pour conclure à la reconnaissance. Soit T l'ensemble des noeuds terminaux. A chaque noeud termina l Nq E T sont associés une base de données B q et un ensemble Oq contenant la liste des primitives à observer pour passer du noeu d racine No au noeud terminal Nq. Bq et Oq permettent de définir deux ensembles : nous serons exigeants en phase de reconnaissance pour valider l'hypothèse de reconnaissance. J. résultats Nous travaillons sur des chiffres stockés sur disque sous la form e d'imagettes binaires de 128 x 128 pixels. Ces chiffres sont extrait s de la base de données américaine NIST. Il faut noter que le s chiffres à notre disposition n'ont subi aucun pré-traitement avant d'être mis sous forme d'imagettes. Par conséquent, ces dernière s peuvent présenter les défauts suivants, (figure 7) : Images contenant du brui t Présence de chiffres fragmenté s Formes provenant des cas de chevauchement de caractères : certaines images contiennent un chiffre et une partie d'un autr e Taille des chiffres variable. Ri (q) {Yn O q, n E {1, 2,.., 55} ; V w E Bq, Yn (w) = 1 } Ro(q) 4 {Yn O q, n E {1, 2,.., 55} ; V w E B q, Yn (w) = 0 } Les ensembles R I (q) et Ro (q) constituent la liste des primitive s qui doivent (ensemble RI (q)) ou qui ne doivent pas (ensemble Ro(q)) être observées au niveau du chiffre inconnu pour valider l'hypothèse de reconnaissance au niveau du noeud Nq. Quel que soit q tel que Nq E T, les ensembles R I (q) et Ro (q) sont généré s automatiquement lors de la phase d'identification de l'arbre d e décision binaire à partir des bases de données associées aux noeud s terminaux. Le critère de rejet proposé est original car il n'introduit pa s de calcul de seuil. Il travaille uniquement sur des observation s simples «le chiffre doit être rejeté car j'observe ou je n'observ e pas telles et telles primitives». L'arbre de décision binaire observe donc un certain nombr e de primitives au niveau d'un chiffre inconnu qui l'amène à formuler une hypothèse sur l'identité du chiffre inconnu. A chaqu e hypothèse prise conditionellement à un noeud terminal, nous lui associons une partie déterministe sous la forme de primitive s devant avoir des valeurs bien spécifiques pour que l'hypothès e de reconnaissance soit validée. L'intérêt du critère est que, plus la taille de la base de données au niveau d'un noeud terminal sera faible (variabilité de l'écriture très spécifique, chiffre très bruité), plus la liste de primitives constituant la partie déterministe de l'hypothèse de reconnaissance sera importante et donc plus Figure 7. Exemples de chiffres de la base NIST. Nous avons constitué trois bases d'apprentissage : une de 1000 chiffres, une de 3500 chiffres et une de 6000 chiffres. D'autre part, une base de test de 6300 chiffres a été constituée. La bas e de test et les bases d'apprentissage sont sans recouvrement. D e plus, il faut noter que les bases d'apprentissage et de test n'ont pas été modifiées pour éliminer certains chiffres non significatifs. Le processus d'apprentissage est donc entièrement automatique e t n'introduit à aucun moment des facteurs humains qui sont souvent subjectifs. Les résultats de reconnaissance sont présentés dans les tableau x 4et5. 94 Traitement du Signal 1996 Volume n 1

11 Effectif de la base d'apprentissage Tableau 4. Reconnaissance sans critère de rejet. Reconnaissance sur 6300 chiffres. Base d'apprentissage et de test sans recouvrement Reconnaissance Erreur Nombre de noeuds de l'arbre T = , 98% 13, 02% 140 T = , 44% 10, 56% 59 8 T = , 32% 9, 68% Tableau 5. Reconnaissance avec critère de rejet. Reconnaissance sur 6300 chiffres. Base d'apprentissage et de test sans recouvremen t Effectif de la base Reconnaissance Rejet Erreu r d'apprentissage T = , 1% 20, 36% 3, 54 % T = , 8% 15,3% 2,9 % T = , 21% 14, 19% 2, 6 % Le tableau 5 montre l'intérêt du critère de rejet. En effet, sans ce dernier, nous constatons un bon taux de reconnaissance mais un e erreur trop importante. L'utilisation du critère de rejet permet de diminuer l'erreur dans des proportions très importantes tout e n gardant un taux de reconnaissance correct. Le rejet permet donc d'augmenter l'efficacité e du classifieur, voir tableau 6. Tableau 6. Influence du rejet sur l'efficacité T 6000 e = Bonne reconnaissance x Bonne reconnaissance + erreur 10 0 Sans rejet 90,4 1 Avec rejet 96,97 L'influence de la taille de la base d'apprentissage sur le classifieu r permet de formuler deux idées : *L'augmentation de la taille de la base d'apprentissage permet d e diminuer l'erreur tout en augmentant le taux de reconnaissance. Le processus d'apprentissage est donc efficace. Avec un jeu de primitives binaires relativement simple et e n nombre réduit et une base d'apprentissage de taille modeste (T = 1000), il a été possible d'obtenir de bons résultats sur un e base de test de taille beaucoup plus importante (ces conditions son t rarement prises dans le domaine de la reconnaissance de chiffre s manuscrits hors lignes). Ce système se caractérise par une erreu r de reconnaissance faible due à une capacité de rejet importante. Un tel classifieur pourrait donc être utile dans des domaines o ù la banque de données des observations du phénomène à classifie r est pauvre. Le tableau 4 montre que l'augmentation de la base de données n e provoque pas une augmentation critique du nombre de noeuds d e l'arbre. L'arbre de décision obtenu est constitué au maximum de 1036 noeuds (apprentissage sur 6000 chiffres) ce qui est relativement raisonnable si on compare ceci à l'analyse d'un vecteur de 55 primitives binaires (2 55 mots possibles). Au niveau implémentation informatique et surtout en terme d' encombremen t mémoire, le stockage de 1000 noeuds en mémoire RAM est bien en dessous des capacités des ordinateurs disponibles aujourd'hui. Finalement, il est important de noter que sur les 55 primitive s qui ont été fournies au système de reconnaissance, la totalité d e ces dernières n'a pas été retenue pour la construction de l'arbre de décision binaire. La figure 8 montre le nombre de primitive s retenues et le nombre de fois où elles ont été utilisées en fonctio n de la taille de la base d'apprentissage. Dans tous les cas, la totalité des primitives n'a pas été retenue. Par exemple, pour un apprentissage sur 1000 chiffres, seulemen t 32 primitives ont été utilisées pour la construction de l'arbre d e décision binaire. Le vecteur de primitives a donc été diminu é dans des proportions importantes. De plus, l'analyse complèt e d'un vecteur de 55 primitives implique l'extraction de toute s les primitives ce qui est coûteux en temps de calcul. Dan s notre approche, le nombre de questions posées par l'arbre d e décision binaire pour effectuer la reconnaissance varie entre 4 et 1 ; (apprentissage sur 1000 chiffres). Une primitive étant extraite uniquement lorsqu'un noeud demande la valeur booléenn e associée à cette dernière, le temps machine alloué à l'extractio n des primitives est optimisé Finalement, il est intéressant de constater qu' une même primitiv e peut être utilisée très souvent (apprentissage sur 6000 chiffres : primitive numéro 15 (projection) utilisée 34 fois). En fait, à partir d'une primitive de base, l'arbre de décision binaire construit plusieurs primitives qui seront utilisées dans des contextes bie n spécifiques de manière à produire une hypothèse de reconnaissance. 6. conclusion L'apprentissage sur 6000 chiffres a montré qu'il y a création d e noeuds impurs. L'analyse des bases de données associées à ce s noeuds a mis en évidence des variabilités de l'écriture extrêmes qui produisent des confusions, ou bien des classes qui ont tendanc e à se ressembler (exemple des chiffres 4-9 ou 0-8 ou 7-1). La baisse du pourcentage de confusion sera possible grâce à l'ajou t de nouvelles primitives très spécifiques qui permettront de leve r les ambiguïtés restantes. La structure utilisée pour modéliser l'objet graphique facilit e l'extraction de ces primitives. Elle est ouverte et peut donc êtr e utilisée dans d'autres domaines que la reconnaissance de chiffre s manuscrits. Il suffit, dans certaines applications, de rajouter au x extracteurs de primitives d'autres plus spécifiques aux forme s à reconnaître. La phase d'identification de l'arbre binaire se chargera de retenir les extracteurs les plus pertinents. Notre critère de rejet, très simple à implémenter, permet d'augmenter de manière significative l'efficacité du système de reconnaissance. Traitement du Signal 1996 Volume n 1 95

12 a> 33 f 3 1 0' c d _ Utilisation des 55 primitive s T~000 chiffres : 43 prinitives utilisée s T'3500 chiffres : 39 primitives utilisée s T 000 chiffres : 32 primitives utilisée s Nombre d'utilisatio n mal segmentés dans de nombreux cas. Nous avons donc traité un problème proche de la réalité en assumant d'une part l'extrêm e variabilité de l'écriture d'un scripteur à un autre et d'autre part le fait que l'étape de segmentation dans une chaîne de reconnaissance n'est jamais fiable à 100%. Le procédé de sélection des primitives à retenir au niveau de s noeuds de l'arbre considère, pour le calcul de l'informatio n transmise, une sous-population de la population totale de chiffres. Nous ne faisons aucune hypothèse d'indépendance des variable s aléatoires associées aux primitives (hypothèse très restrictive et souvent peu réaliste). Nous avons montré qu'il est possible à partir d'un jeu suffisant d e primitives de retenir une sous-population permettant de donner de bons résultats sur le problème de reconnaissance. De plus, les primitives sont calculées au fur et à mesure de la phas e de reconnaissance. Ceci conduit à utiliser quelques primitive s de l'ensemble potentiellement utilisables par le classifieur, pou r reconnaître une forme. Nos travaux futurs s'orientent dans deux directions ayant le mêm e objectif : baisser le taux de rejet sans augmenter les confusions. La première option est de commander des opérations de nettoyage du chiffre manuscrit lorsqu'il y a rejet pour procéder à une deuxième reconnaissance de la forme, par le classifieur. La deuxième approche vise à exploiter le mécanisme de classification qui permet d'arriver à un nceud terminal. Il serait intéressan t d'utiliser le fait qu'un nceud terminal est le siège d'un contexte de reconnaissance bien spécifique avec des représentants de ce contexte pour développer des opérations visant à valider une hypothèse de reconnaissance lorsqu'il y a rejet. L'arbre de décisio n binaire serait alors un pré-classifieur très évolué fournissant à u n autre classifieur ou «vérificateur», une hypothèse de reconnaissance avec le contexte (représentants du contexte sous la forme d'un groupe de chiffres issus de la base d'apprentissage) qui a permis de formuler cette dernière. Nous travaillons actuellement sur la construction de ce vérificateur. Figure 8. Fréquence d'utilisation des primitives. Remerciemen t L'augmentation de la base d'apprentissage permet d'améliorer le s résultats de reconnaissance et il faudra voir les limites del' appren - tissage en continuant à l'augmenter. Toutefois, il est intéressan t de constater qu'il est possible, grâce au critère de rejet introduit, d'obtenir de bons résultats, en utilisant des bases d'apprentissag e de tailles réduites. Ce point peut être déterminant dans l'étape d e choix d'un classifieur dans une chaîne de reconnaissance où l'o n sait que l'on dispose de peu de données pour effectuer la phas e d'apprentissage. L'apprentissage est entièrement automatique et a pu s'accommoder d'une base d'apprentissage très compliquée avec de s chiffres parfois difficilement lisibles par un être humain et surtout Nous remercions Monsieur Yves Lecourtier pour ses remarque s constructives qui ont permis d'améliorer cet article. Ce travail est réalisé grâce à des subventions d'un contrat état - région et de crédits Gdr CNRS. ANNEXE Nous donnons dans le tableau suivant la correspondance entr e les numéros utilisés dans cet article pour désigner les primitive s binaires et leurs significations. 96 Traitement du Signal 1996 Volume 13 - n 1

13 Numéro n Abrévation Signification I(Z ;Yn/Bo ) 1 El Présence/absence extrémité 0,3 6 2 E2 Présence/absence extrémité 0,1 1 3 E3 Présence/absence extrémité 0,4 5 4 E4 Présence/absence extrémité 0,14 5 E5 Présence/absence extrémité 0,14 6 E6 Présence/absence extrémité 0,0 7 7 E7 Présence/absence extrémité 0,4 3 8 E8 Présence/absence extrémité 0,1 2 9 E9 Présence/absence extrémité 0, Oh Présence/absence boucle haute 0, Ob Présence/absence boucle basse 0, Od Présence/absence boucle double 0, Ot Présence/absence boucle totale 0, Th Présence/absence trait horizontal haut 0, Tm Présence/absence trait horizontal milieu 0, Tb Présence/absence trait horizontal bas 0, 3 17 Ecl Présence/absence carrefour 0, Ec2 Présence/absence carrefour 0, Ec3 Présence/absence carrefour 0,06 20 Ec4 Présence/absence carrefour 0, Ec5 Présence/absence carrefour 0,26 22 Ec6 Présence/absence carrefour 0, Ec7 Présence/absence carrefour 0, Ec8 Présence/absence carrefour 0, Ec9 Présence/absence carrefour 0,06 26 CaO Présence/absence de 0 carrefour 0, 5 27 Cal Présence/absence de 1 carrefour 0, Ca2 Présence/absence de 2 carrefours 0, Ca3 Présence/absence de 3 carrefours 0,04 30 Ça>3 Présence/absence de plus de 3 carrefours 0, O Présence/absence boucle 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0,11 Traitement du Signal Volume 13 - n 1 97

14 BIBLIOGRAPHI E [1] F. Ali et Th. Pavlidis, Syntactic Recognition of handwritten Numerals. IEEE Transaction on Systems, Man and Cybernetics, vol. n 7, pp , [2] C. Tappert, C. Y. Suen, T. Wakahana, The state of the art in on-line handwrittin g recognition. IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. PAMI-12, pp , [3] M. Wing, Variability in Handwritten Characters. Visible Language, XIII 3, pp , [4] M. Shridar and A. Badreldin, Recognition of isolated and simply connecte d handwritten numerals. Pattern Recognition, vol. 19, N 1, pp. 1-12, [5] P. Gader, B. Forester, M. Ganzberger, A. Gillies, B. Mitchell, M. Whalen and T. Yocum, Recognition of handwritten digits using template and mode l matching. Pattern Recognition, Vol. 24, N 5, pp , [6] L. Heutte, Reconnaissance de caractères manuscrits : application à la lecture des chèques et des enveloppes postales. Thèse de doctorat, Université de Rouen, [7] C. Y. Suen, C. Nadal, R. Legault, T. A. Mai and L. Lam, Computer Recognitio n of Unconstrained Handwritten Numerals. Proceedings of the IEEE, Vol. 80, n 7, pp , [8] C. Roche, Information utile en reconnaissance des formes et en compressio n de données. Application à la génération automatique de système de reconnaissance optique et accoustique. Thèse d'état ES Sciences Mathématiques, Paris VI, [9] D. de Brucq, K. Romeo, M. Lachkar, N. Feray, F. Bagui, Une méthode d'évaluation du codage en reconnaissance de chiffres manuscrits. 3ème Colloque National sur l'écrit et le document, CNED'94, pp , [10] Q. R. Wang and C. Y. Suen, Analysis and Design of a Decision Tree Based on Entropy Reduction and Its Application to Large Character Set Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI - 6, n 4, pp , [11] D. Geman, B. Jedynak, Shape Recognition and Twenty Questions. Rapport de recherche INRIA, No. 255, [12] L. Breiman, J. Freidman, R. Olsen and C. Stone, Classification and Regression Trees. Wadsworth, Belmont, CA, [13] S. W. Lee, L. Lam and C. Y. Suen, A systematic evaluation of skeletonization algorithms. International Journal of Pattern Recognition and Artificia l Intelligence, Vol. 7, n 5, pp , [14] A. Belaid et Y. Belaid, Reconnaissance des formes. Méthodes et applications. InterEdition, [15] P. Marthon, A. Bruel et G. Biguet, Squelettisation par calcul d'une fonction discriminante sur un voisinage de 8 points. Actes du 2e congrès AFCET RFIA, pp , toulouse, [16] L. Lam and C. Y. Suen, Structural classification and relaxation matchin g of totally unconstrained handwritten zip-code numbers. Pattern Recognition, Vol. 21, n 1, pages 19-31, [17] T. Pavlidis, Algorithms for graphics and image processing. Computer Scienc e Press, [18] G. Gaillat et M. Berthod, Panorama des techniques d'extraction de traits caractéristiques en lecture optique des caractères. Revue Technique THOMSON- CSF, Vol. 11, n 4, pp , [19] C. Y. Suen, M. Berthod and S. Mori, Automatic Recognition of Handprinte d Characters - The State of the Art. Proceeding IEEE, Vol. 68, n 4, pp , [20] C. Y. Suen, Distinctive features in automatic recognition of handprinte d characters. Signal processing, Vol. 4, pp , [21] M. Beun, A flexible method for automatic reading of handwritten numérals. Philips Technical Rewiew, Vol. 33, pp and , [22] B. Cherabo, L. Massip-Pailhes, S. Castan. Description polygonale basée sur l'extraction d'ilots de confiance. Actes du 8 e congrès AFCET RFIA, pp , Lyon-Villeurbanne, [23] L. Miclet, Méthodes structurelles pour la reconnaissance des formes. Edition EYROLLES, [24] A. M. Yaglom, I M. Yaglom, Probabilité et information. Dunod, pp , [25] C. Nadal and C. Y. Suen, Applying human knowledge to improve machin e recognition of confusing handwritten numerals. Pattern Recognition, vol 26, n 3, pp , Manuscrit reçu le 1 er février LES AUTEURS Nicolas FERAY Denis de BRUCA Nicolas Feray a soutenu une thèse de doctorat e n septembre 1995, en traitement de l'image, à l'université de Rouen. Depuis, il exerce des activités d'enseignement et de recherche au laboratoire PSI-La3l de l'université de Rouen. Ses travaux portent essentielle - ment sur la reconnaissance de formes et plus particulièrement sur l'intégration de plusieurs classifieurs dans une même chaîne de reconnaissance. Denis de Brucq est professeur à l'université de Rouen. Ses travaux sur le filtrage non-linéaire permettent la détection de changements de modèle. Les technique s inventées s'appliquent en reconnaissance de l' écrit. Pa r ailleurs, en traitement numérique de l'image pour l a dermatologie, des méthodes permettant la détection de s mélanomes sont mises en oeuvre. 98 Traitement du Signal 1996 Volume 13 - n 1

Montrer encore