Système de reconnaissance de chiffres manuscrits hors lignes
|
|
- Gisèle Truchon
- il y a 9 ans
- Total affichages :
Transcription
1 Système de reconnaissance de chiffres manuscrits hors lignes Recognition System of Unconstrained Handwritten Numeral s par Nicolas FERAY et Denis DE BRUC Q PSI - La31 Itepea, UFR des Sciences et des Techniques BP Mont Saint Aignan Cedex Téléphone : FAX : Feray la3i.univ-rouen.fr Gdr_Tdsi 134 CNRS résumé et mots clés Nous présentons dans cet article un système de reconnaissance de chiffres manuscrits hors lignes, en décrivant toutes les étape s essentielles à son élaboration. Nous abordons d'abord la première phase de tout système de reconnaissance : l'extractio n de primitives. Une représentation structurée construite à partir du squelette du chiffre est utilisée pour extraire rapidemen t un jeu de 55 primitives binaires. Nous précisons ensuite une méthode qui permet de déterminer l'information transmise pa r une primitive sur le problème de la reconnaissance des chiffres manuscrits hors lignes. L'information transmise par chaqu e primitive fournit un critère permettant de générer un arbre de décision binaire de manière complètement automatique. C e critère est utilisé pour sélectionner au niveau de chaque noeud de l'arbre la primitive la plus informative sur le problème d e reconnaissance associé au noeud en cours de traitement. Le classifieur obtenu n'utilise pas la totalité des 55 primitives binaires mais uniquement celles qui ont été retenues durant la phase d'identification de l'arbre de décision. Nous présentons ensuite un critère de rejet original qui permet d'augmenter les performances du système de reconnaissance de manière significative. Nous décrivons finalement la base de données de chiffres manuscrits américains qui sert à tester le classifieur. Nous donnons les résultats obtenus. Squelettisation, Primitive, Théorie de l'information, Critère de rejet, Reconnaissance de chiffres. abstract and key words In this paper, we present a recognition system of unconstrained handwritten numerals. We describe all essential stages to it s elaboration. We approach the first phase of all recognition system : the extraction of the primitives. A structure that use th e skeleton of the numeral is used to extract rapidly 55 binary primitives. We specify a method that allows to determine the transmitte d information about the primitives on the problem of the recognition of unconstrained handwritten numerals. Information transmitted by each primitive providing a criterion allowing to generate a binary decision tree. This criterion is used to select in each nod e the best primitive. The obtained classifier does not use the totality of 55 binary primitives but solely those that have been retaine d during the phase of identification of the decision tree. We present an original reject criterion that allows to increase performances of the recognition system. Finally, We describe the database of American handwritting numerals that serves to test the classifier. We demonstrate the performance of our system with this database. Skeleton, Primitive, Information theory, Reject criterion, Handwritten numeral recognition. les applications bancaires ou postales, qualifiés de hors lignes o u 1 introduction statiques et les systèmes destinés à la bureautique, qualifiés de e n lignes ou dynamiques ou temps réel (voir [1] et respectivemen t Depuis plusieurs années, de nombreux travaux de recherche ont porté sur la reconnaissance des chiffres manuscrits. Deux grandes classes de systèmes sont aujourd'hui à l'étude : les systèmes pour [2] pour des exemples). Les travaux que nous présentons portent sur le premier problèm e qui reste aujourd'hui un thème de recherche ouvert. En effet, bien que le nombre de classes naturelles soit très réduit (chiffres '0'
2 à '9'), on trouve à l'intérieur de chacune d'entre elles, une trè s grande variabilité de l'écriture, [3]. De plus, les conditions souven t relativement précaires dans lesquelles sont écrits les chiffre s (chèques écrits rapidement sur un coin de table) et la variabilité d u matériel utilisé (utilisation de divers stylos, de différentes qualité s de papier) tendent à complexifier la reconnaissance. Dans ces conditions, l'extraction de caractéristiques est un e étape essentielle et délicate dans la construction d'un système d e reconnaissance. Cette phase est donc présente dans de nombreu x systèmes de reconnaissance présentés dans la littérature. O n trouve principalement deux catégories d'approche : l'analyse globale et l'analyse structurelle. La première approche s'attache à décrire les formes de manière globale, [4], [5], et elle est e n général utilisée avec des méthodes statistiques de classification, [6]. Notre approche se situe dans la deuxième catégorie qui capture des primitives décrivant les principaux aspects géométriques de la forme. Ces primitives sont usuellement extraites du squelett e ou du contour des formes, [7]. Nous présentons une décomposition simple du chiffre manuscrit sur plusieurs plans informatifs structurés, chargés de représente r complètement le squelette du chiffre manuscrit. Le squelette est donc l'élément déterminant en terme de robustesse de la représen - tation structurelle du chiffre. Notre algorithme de squelettisation et ses propriétés sont présentés. Les différents plans informatifs de la structure précédente facili - tent l'accès à l'information contenue dans le squelette. Ils sont donc utilisés par les extracteurs de primitives pour générer un e description des chiffres manuscrits. Cette description est formée de 55 primitives binaires rapides à extraire. Les primitives retenue s et le nombre de ces dernières ont été choisis de manière à ce qu e l'information transmise par le mot constitué à partir de la concaténation des 55 primitives binaires soit maximale, [9]. Le fai t que l'information transmise, calculée sur un échantillon que l'o n espère le plus représentatif du problème, soit maximale, est un e condition nécessaire pour résoudre le problème. Le classifieur, qui est un arbre de décision binaire, est ensuit e présenté. Une telle démarche permet une phase de reconnaissance, réalisée à l'aide de questions sur des caractéristiques locales d e l'image, très rapide. Cette approche est délicate en reconnaissance de chiffres manuscrits hors lignes à cause de la difficulté à construire un arbre, tâche qui ne peut être effectuée manuellement, étant donnée la multiplicité des règles attachées à chacune de s classes. L' information transmise par une primitive fournit un critère de choix efficace [8], [9], qui est utilisé pour automatise r la fabrication de l'arbre de décision binaire lors de la phas e d ' apprentissage. Les noeuds de l'arbre sont identifiés de manièr e récursive. A chaque noeud, est associée la primitive qui maximise la quantité d'information transmise sur la sous-partie de la base d 'apprentissage relative au noeud. D'autres méthodes utilisen t un critère de type entropie pour construire un arbre de décisio n binaire. Dans [10], l'objectif est de construire un arbre de décisio n en réduisant l'entropie de Shannon H à tous les niveaux de l'arbr e (ensemble des nceuds situés à la même profondeur dans l'arbre). La technique développée dans [11] est très proche de la notr e puisque les primitives, au niveau de chaque noeud, sont choisie s pour réduire le plus possible, l'incertitude (mesurée par l'entropie ) sur l'hypothèse vraie. L' approche de CART, [12], utilise un groupe relativement réduit de primitives à chaque noeud et chaque test es t optimisé en fonction d'un seuil. Notre approche s'appuie sur la proposition du paragraphe qui formalise, d'un point de vue mathématique, l'intuition physique. Les distributions conditionnelles des caractéristique s binaires et la distribution marginale sur les chiffres sont estimée s au niveau de chaque noeud sur une sous-partie de la base d' appren - tissage pour calculer l'information transmise par chaque primitive. Le processus est adaptatif car la sous-partie de la base d'apprentissage et les informations transmises par les primitives a u niveau d'un nceud dépendent des valeurs des primitives observée s au niveau de tous les noeuds précédents. Ce système conduit à éclater chaque classe en sous-classes, correspondant à des variabilités de l'écriture spécifiques, représentatives des différentes manières de tracer le chiffre (variabilité d'écriture d'un scripteur à un autre) et aussi des différents outils ayant servi à trace r le chiffre (fermeture des boucles lors de l'utilisation de stylos à mine épaisse). Nous précisons la capacité de cette méthode à réduire l'ensembl e des caractéristiques à observer, pour ne retenir que les plu s informatives, ce qui permet d'arriver à un arbre de décision d e taille raisonnable. Nous présentons ensuite un critère de rejet, simple à implémenter, qui permet d'améliorer de manière significative les performance s du classifieur en terme de fiabilité. Le classifieur sera testé, dans la dernière partie, sur la bas e de données de chiffres manuscrits américains NIST (Nationa l Institute and Standards of Technology). 2. représentation de hau t niveau d'un chiffre manuscrit Nous avons dû mettre en ceuvre un certain nombre de pré - traitements, ayant pour objectif de passer d'une représentatio n du chiffre sous forme d'image (difficile à exploiter) à une représentation de haut niveau du chiffre. Cette représentation devra permettre d'accéder facilement et rapidement aux caractéristique s informatives du chiffre en vue d'effectuer son identification squelettisatio n Cette première étape est souvent utilisée pour simplifier les formes à reconnaître, [13]. Elle permet notamment de s'affranchir d u 86 Traitement du Signal 1996 Volume 13 - n 1
3 problème de l'épaisseur du trait qui est extrêmement variabl e au niveau de l'écriture manuscrite hors ligne. En amont de cette étape, nous effectuons un lissage de l'image brute opérant sur u n voisinage de 8 points. Cette étape permet de limiter l'apparition d e trous à l'intérieur des chiffres et de lisser leurs contours extérieurs. L'algorithme de squelettisation présenté est une amélioration de l'algorithme de Marthon, [14], [15]. Contrairement à ce dernier, il permet d 'obtenir un squelette d'épaisseur 1 pixel. Il est fond é sur le calcul, en chaque point p(i, j) de l'image, d'une fonction simple F(i, j) opérant sur un voisinage de 8 points. F(i, j) est la longueur de la somme des vecteurs joignant le point p(i, j) à tous ses voisins. ( Y )_\ 11/+\1/+\0/+C F ( i,j ) = IX I + IY I = 3 y A il /\ / pour lequel F(i, j) = 3 est enlevé ou non. si nvois = 2 ou (nvois = 3 etsup(ixi, IYI) = 3 ) alors le point doit être éliminé. (1) Une dernière règle doit être ajoutée pour les cas où F(i, j) = 3. C'est le cas des configurations doubles suivantes. Ces cas correspondent à nvois = 5 et sup(ix,iyi) = 3 Ces configurations sont détectées et, en phase de suppression, l'élimination de ces points est faite uniquement si l'on est dan s un cas de configuration ligne double. L'intérêt de cette démarche est illustré par l'exemple suivant : (-1,1) (1,1) P 0 ( 1,0) ~ x Pl P2 Observons que 0 < F(i, j) < 4. Intuitivement, les points intérieurs à la forme sont associés à une valeur de F(i, j) petite et seront conservés. Les points extérieurs sont associés à une valeu r de F (i, j) grande et seront supprimés. La valeur de F (i, j) est liée au degré d'intériorité dans la forme du pixel de coordonnées (i, j). L'algorithme proposé est itératif et il supprime, à chaque étape, des points inessentiels (points n' appartenant pas au squelette). Le s points supprimés sont les points de coordonnées (i, j) tels que F(i, j) = 4 et certains points tels que F(i, j) = 3. L'élimination de tous les points tels que F(i, j) = 3 entraîne en général une déconnexion du squelette, ce qu'il faut éviter. Aussi les cas F(i, j) = 3 sont analysés cas par cas. Donnons des exemples : IYI IY I = 0, =, F(i, j) = 3 : le point est gardé. F(i, j) = 3 : le point est enlevé. Les points p l et p2 ont tous les deux une configuration lign e double, mais un seul des deux doit être éliminé pour qu'il n'y ait pas de disconnexion de la forme. En phase de suppression, le poin t pl sera supprimé car c'est un cas de configuration ligne doubl e (calculé au moment de la suppression) et le point p2 sera conservé car la suppression du point p l aura entraîné la disparition de la configuration ligne double pour le point p 2. L'algorithme procède de façon itérative par paire d'étapes : la première calcule, en chaque point p(i, j) de la forme, la fonction F(i, j). La deuxième étape supprime les points inessentiels tel s que F(i, j) = 4 et procède à l'élimination des points associé s à F(i, j) = 3 lorsque la condition (1) est remplie ou s'il y a détection d'une ligne double. Ces deux étapes sont réitérée s jusqu'à ce qu'il n'y ait plus de point inessentiel. Finalement, afin que l'épaisseur du squelette soit strictemen t d'épaisseur 1, l'algorithme se termine par un traitement itératif, [15], qui élimine les points ayant la configuration suivante : (IXI = 1 et IYI = l et nvois = 2) ou ((XI = 0 et IYI = 2 et nvois = 3) ou (IXI = 2 et IYI Oet nvois = 3 ) IY I = 2 ' F (z, d) = 3 : le point est enlevé. o o o C'est la connaissance de IXI, IYI et de nvois (nombre de voisin s du point sur un 8-voisinage) qui permet de déterminer si le point Exemples de configurations typique s o : points éliminés en fin de squelettisation Traitement du Signal 1996 Volume 13 - n 1 87
4 Cette méthode permet d'obtenir une représentation structurelle robuste des chiffres manuscrits. Ainsi : L'algorithme a été appliqué sur des chiffres manuscrits d e la base NIST (figure 1). Le bruit de contour n'introduit pas d'artefact dans le squelette, les extrémités des branches ne sont pas raccourcies, les courbures des formes sont bien représentées. Ces points sont indispensables pour l'extraction de primitive s structurelles robustes. Chiffres bruts SQUELETTE PLAN INFORMATIF 3 Informations sur les points du squelette PLAN INFORMATIF 2 Structure des éléments (listes chaînées) PLAN INFORMATIF 1 Eléments de haut niveau Figure 2. Structuration du squelette. Figure 1. Squelettisation. Squelette s j) / L'épaisseur du squelette est toujours de 1. La méthode offre une faible sensibilité au bruit o o o o 0 o o o o o o 0 0 o points du squelette Le squelette conserve les propriétés métriques de la forme comme le nombre de parties, le nombres de trous et la connexité. L'algorithme utilise un critère simple d'élimination des points. Ceci permettra une implémentation câblée aisée. Ce point est intéressant car l'algorithme est itératif. Le temps moyen de squelettisation estimé sur 200 chiffres de la base NIST (imagette s de 128 x 128 pixels) est de 8 centièmes de seconde sur u n compatible PC DX2 66 MHz description du chiffre à partir du squelette Nous sommes passés d'une représentation du chiffre sous form e d'image à une représentation de ce dernier par son squelette. L'objectif est d'obtenir maintenant, [16], une représentation structuré e de plus haut niveau en utilisant son squelette (figure 2). L'objectif est de structurer l'information afin de rendre l'utilisation du squelette et donc la phase d'extraction des primitives, plus aisée et plus rapide. D'autre part, la totalité des plans informatifs n'engendrant pas de perte d'information par rapport au squelette initial, cette représentation laisse une grande liberté à de futur s traitements. Une chaîne de reconnaissance est souvent amenée à évoluer par ajout ou modification d'extracteurs de primitives. Le premier plan informatif est constitué à partir de la décomposition du squelette du chiffre en éléments de haut niveau facilemen t manipulables (trait, liaison inter-carrefour, boucle). Ce plan donne accès à un deuxième plan informatif où l'on trouv e la description de chaque élément de haut niveau sous la form e d'une liste des points le constituant. L'ordre des points dans la liste chaînée est donné par un suivi de trait et n'est donc pa s aléatoire. Ce plan permet notamment l'extraction de primitive s décrivant les ouvertures présentes au niveau du chiffre. Le deuxième plan permet l'accès au troisième et dernier plan informatif, où l'on trouve la description des points du squelette (coordonnées, type du point, nombre de voisins sur un 8-voisinage). Ce plan permet l'extraction de primitives représentatives de point s caractéristiques du squelette (points extrémités, points de jonction) ainsi que toutes les opérations de localisation d'un élémen t (élément dans la partie basse, haute, etc du chiffre). Il permet aussi une opération de projection du squelette qui a pour but l a détection de traits horizontaux significatifs au niveau du chiffre. Identification des points du squelette. Les points du squelette sont classés en trois catégories suivant l e nombre de voisins sur un 8-voisinage : les points tels que nvois = 1, ce sont des extrémités. les points tels que nvois = 2, ce sont des points situés sur un élément de haut niveau. les points tels que nvois > 3, ce sont des points de jonction. Ce paramètre sera disponible dans le troisième plan informatif au niveau de la description de chaque point. Identification des carrefours. Cette étape est essentielle pour l'extraction d'éléments de plu s haut niveau. Un carrefour est défini comme un ensemble connex e de points de jonction. Nous effectuons donc une extraction des 88 Traitement du Signal 1996 Volume 13 - n 1
5 points de jonction connexes, [17]. o o o o o o o o o o Exemples de carrefours : point de jonction, nvois > 3 o :nvois < 3 Chaque carrefour (masse connexe) est défini par un identificateu r ID carrefour : 0 < ID carrefour < nombre total de carrefours Chaque point du troisième plan informatif dispose dans sa description d'un paramètre ID carrefour. Celui-ci permet de savoir à quel carrefour le point appartient. Si le point n'appartient pas à un carrefour, le paramètre ID carrefour est égal à zéro. Extraction des traits du squelette Un trait du squelette est un élément qui a pour origine un point extrémité et pour fin un point extrémité ou un point de jonction. Pour extraire les traits du squelette, nous partons des points extrémités pour effectuer un suivi de trait jusqu'à ce que l'o n arrive sur un point extrémité ou un point de jonction. Extraction des liaisons inter-carrefour. Une liaison inter-carrefour est un élément qui a pour origine u n point de jonction et pour fin un point de jonction. Pour extraire le s liaisons inter-carrefour, nous partons des points de jonction pour effectuer un suivi de trait jusqu'à ce que l'on arrive sur un autre point de jonction. Extraction des boucles. L'algorithme d'extraction des boucles consiste à assembler les liaisons inter-carrefour entre elles pour former des parcours fermé s (recherche de cycles dans un graphe non orienté où les carrefours sont les sommets des liaisons inter-carrefour). L'assemblage s e fait uniquement grâce à la connaissance, pour chaque liaison inter - carrefour, du premier point et du dernier point de la liste chaîné e ainsi que du paramètre ID carrefour associé à ces points dan s le troisième plan informatif. Bien que l'algorithme utilisé soi t combinatoire, l'extraction est très rapide car elle travaille sur de s éléments de haut niveau, les liaisons inter-carrefour, faciles à ma - nipuler et en nombre très réduit (en règle générale, le nombre de liaisons inter-carrefour n'est jamais supérieur à quatre). Nous avons, par ces différentes opérations, décomposé le squelette en différents éléments de haut niveau. Chaque élément est décri t par une liste chaînée des points le constituant. Il n'y a e u aucune perte d'information, mais uniquement une structuratio n du squelette. Chaque élément de haut niveau est : Facile à manipuler grâce à la structure qui le représente (list e chaînée des points le constituant). Structuré : l'ordre des points de la liste chaînée est représentatif du suivi de trait. Riche en information : connaissance de la nature des points l e constituant, de leurs coordonnées dans l'image initiale. Facilement interrogeable par des dispositifs situés en aval pou r des traitements spécifiques. 3. extraction de caracté - ristiques en vue de l a reconnaissance Les primitives que nous présentons exploitent pleinement l a structure présentée précédemment pour arriver à une extractio n rapide. Le choix des primitives s' est fait après une étude bibliographique, [18], [19], [20], qui nous a permis de détermine r celles qui semblaient à la fois les plus informatives et les plu s simples. Pour chaque famille de primitives, nous précisons les plans informatifs du squelette structuré utilisés. Localisation des extrémités (plans informatifs 1 et 3 utilisés) Les extrémités et les carrefours constituent des informations trè s utiles pour la reconnaissance, car elles permettent de décrire localement la structure d'une forme, [21]. Les extrémités se trouvent à la fin des éléments de haut niveau appelés traits. I l est courant, en reconnaissance de chiffre manuscrit, de considére r le nombre d'extrémités. Expérimentalement, nous avons pu constater que cette primitive n'est pas robuste lorsque les chiffres son t très bruités à cause de l'apparition de barbules. Nous préférons donc utiliser les positions approchées de ces dernières. Nous introduisons des primitives binaires Eí, i E {1, 2,..., 9} indiquant la présence ou l'absence d'extrémité dans des zones du rectangle englobant le chiffre (figure 3). Figure 3. Primitives extrémités. Traitement du Signal 1996 Volume 13 - n 1 89
6 Localisation et dénombrement des carrefours (plans informa - tifs 1 et 3 utilisés) Comme pour les extrémités, nous localisons les carrefours. Nou s obtenons ainsi neuf primitives binaires (Ecl, Ec2, Ec3, Ec4, Ec5, Ec6, Ec7, Ec8, Ec9). Nous ajoutons quatre autres primitive s binaires, voir tableau 1, chargées de spécifier le nombre d e carrefours (certains chiffres comme le 8 peuvent avoir dans un e même zone deux carrefours). Tableau 1. Primitives nombre de carrefour s 0 carrefour CaO 1 carrefou r Cal 2 carrefours Ca2 3 carrefour s Ca3 plus de 3 carrefours Ca>3 Détection et localisation des boucles (plans informatifs 1, 2 et 3 utilisés) Les boucles et les ouvertures mettent en évidence les propriété s topologiques et géométriques des chiffres tout en présentant une grande tolérance aux distorsions et aux variations de style. Nous avons facilement accès aux boucles grâce au premier pla n informatif. L'étape suivante consiste à caractériser le type des boucles (voir tableau 2) grâce à la description de ces dernière s dans les plans 2 et 3. Tableau 2. Primitives boucles présence boucle boucle total e boucle basse boucle haute boucle double Nous approchons l'aire d'une boucle par l'aire Ao du rectangl e dans lequel elle est inscrite. Soit I (Ix, Iy) le «centre» de l a boucle (figure 4). Soit Ac, l'aire du rectangle dans lequel le chiffre est inscrit et Y = (yl y2) l'équation de la droite horizontale qui coupe l e chiffre dans 2 sa moitié. Y Figure 4. Primitives boucles. O Ot O b O h Od (x3,y3) > X (x4,y4) 1)Si Ao < Smin x Ac, la boucle est considérée comme trop petit e et est ignorée. 2) Sinon, si Ao > Smax x Ac, l' aire de la boucle est très important e vis-à-vis de Ac : elle est considérée comme totale (cas du chiffre zéro). 3) Sinon, si ly > (0+92 y2) ), la boucle est basse (exemple du chiffre 6). 4) Sinon, si ly < (y1 2), la boucle est haute (exemple du chiffre 9). 5) S'il y a une boucle haute et une boucle basse alors la boucle est double (exemple du chiffre 8). Les seuils sont obtenus en faisant varier la valeur de Smin et Sma x par pas de 0,1 (0< Sm i n <1 et 0< Smax <1) et en retenant le couple qui maximise la quantité d'information transmise (définie au paragraphe 4.1.1) par le mot constitué de la concaténation de s cinq primitives binaires décrivant les boucles présentes au nivea u d'un chiffre. Ce procédé est décrit en détail dans [9]. Détection de primitives décrivant le tracé du chiffre (plan s informatifs 1,2 et 3 utilisés). La première phase consiste en une polygonalisation rapide, [22], des différents éléments du premier plan informatif. Ainsi, à chaque trait du squelette structuré, est associée une suite d e segments caractérisés par leur direction de Freeman. Cette suite de directions de Freeman donne une description approchée de la nature du tracé d'un élément trait. Seuls les éléments traits sont polygonalysés car l'objectif est de détecter des arcs concave s ou convexes qui n'apparaissent pas de manière significative su r les liaisons inter-carrefour. Les suites de directions de Freeman associées aux traits sont ensuite analysées par des automate s finis pour détecter toutes les ouvertures présentes au niveau du chiffre. L'automate non déterministe présenté figure 5 détecte le s ouvertures 07, 08, 09. Pour l'implémentation informatique, nous nous ramenons à u n automate déterministe, [23]. Les ouvertures sont ensuite localisées avec le procédé utilisé pour les boucles. Détection des traits horizontaux (plan informatif 3 utilisé) Un histogramme de projection du squelette est construit de la façon suivante. L'axe des abscisses représente les lignes de l'image et l'axe des ordonnées représente le nombre de pixel s noirs rencontrés sur chaque ligne. Tous les endroits où le nombr e de pixels noirs est supérieur à la plus grande largeur du chiffre multipliée par un seuil Si, (0 < Sp < 1), sont détectés pou r déterminer trois types de traits horizontaux, voir tableau 3. Nous projetons le squelette plutôt que le chiffre brut pour évite r les problèmes liés aux sur-épaisseurs locales du tracé du chiffre (fréquentes sur le manuscrit) qui perturbent l'extraction des trait s horizontaux. De plus, la projection qui est obtenue en un seul balayage du troisième plan informatif, manipule un minimu m de points par rapport aux projections classiques qui utilisent l'image brute. L'utilisation du squelette conduit à détecter de s 90 Traitement du Signal 1996 Volume 13 - n 1
7 S v i ' 5 description du tracé départs prioritaires sur les extrémités ~ los plus haute s 4.1. construction de l'arbre binaire â partir des quantités d'informatio n transmise par les caractéristiques extraites des chiffre s ol od ~ 07 os ol o ol i ~ n (--e ~ W Old 017 O Figure 5. Primitives ouvertures. Tableau 3. Primitives projections Type du trait Trait horizontal dans la partie haute du chiffre Trait horizontal dans la partie médiane du chiffre Trait horizontal dans la partie basse du chiffre ouvertures 08 et 03 détectées Configuration Th Tm traits horizontaux plus ou moins marqués suivant la valeur de Sp. Le choix de la valeur du seuil Sp est fait sur le même principe qu e celui employé pour déterminer les seuils associés aux boucles. 4. construction d'u n classifieu r La phase de reconnaissance consiste à interpréter les donnée s obtenues dans l'étape précédente et à décider à quelle class e appartient le chiffre analysé. Cette décision d'appartenance d u chiffre à une classe va être effectuée par un arbre binaire chargé d e faire la mise en adéquation des propriétés de l'objet aux propriété s de la classe. Ce classifieur sera obtenu à la suite d'une phas e d'apprentissage entièrement automatique. Tb Un arbre binaire est composé d'un ensemble de noeuds, chaqu e noeud pouvant activer l'un de ses deux noeuds fils. Un noeud de l'arbre est chargé, pour identifier le chiffre, de poser un e question. Suivant la réponse (oui ou non), le parcours dans l'arbr e se poursuit vers l'un des noeuds fils où une nouvelle question es t posée. Le processus démarre au niveau de la racine de l'arbre et s e réitère jusqu'à l'arrivée sur un noeud terminal (noeud n'ayant pa s de fils) qui va permettre l'identification du chiffre. L' apprentissage consiste donc à découvrir, en partant de la racine, la questio n qu'il faut poser puis à créer deux noeuds fils et enfin à réitére r le processus au niveau de ces derniers. Ce processus appliqu é à un problème complexe comme la reconnaissance de chiffr e manuscrit hors ligne, doit être automatisé et sous-entend donc d e disposer d'un critère qui va permettre de poser la bonne question au niveau d'un noeud. Nous avons choisi un critère qui va permettre de calculer, a u niveau d'un noeud, la quantité d'information transmise [8], [9] par les primitives sur le problème d'identification. L'information transmise, comme nous allons l'utiliser, sera donc une fonction d'évaluation des primitives présentées précédemment sur un problème de reconnaissance défini dans un contexte très précis et de plus en plus spécifique (noeud de l'arbre). L'utilisation d'une information transmise est intuitive. Roche, [8], a montré que dans tous les problèmes d'applications où l'homme a une certaine idée des informations utiles transmises, la quantité d'information transmise, I (Z ; Yn) dans notre cas, correspond à l'intuition calcul de la quantité d'information transmise pa r les primitives. Soit une base de données de chiffres étiquetés, chaque chiffre pouvant être identifié grâce à son étiquette. Les chiffres à lire étan t aléatoires, nous introduisons une variable aléatoire Z d'un espac e de probabilité (Q, A, P) dans Z= {0, 1,..., 9}. Pour chaque épreuve w, le chiffre Z(w) = i représente le chiffre aléatoire inconnu que le scripteur a voulu écrire. Ce dernier a tracé une forme notée X (w). Nous supposons que le problème de classification est bien posé. De façon plus précise, nous supposons qu'il est possible d e retrouver le chiffre à partir de la forme observée ; les images sont suffisamment fines pour que toute forme X (w) corresponde à un seul chiffre i ; deux chiffres appartenant à des classes différente s ne peuvent avoir la même forme. Ainsi, au chiffre i est associé un ensemble F2, comprenant toutes les formes possibles de trac é Traitement du Signal 1996 Volume 13 - n 1 9 1
8 de i. Nous admettons ainsi que : Ai = {w E Sl ; Z(w) = i} {wesl;x(w)efi } Nous avons introduit 55 variables aléatoires Yn, n E {1,.., 55} ; Yn (w) = yn où yn e {0, 1} représente la valeur de la primitive Yn extraite pour l'épreuve w c'est-à-dire à partir de la form e X(w). Ainsi, connaissant les valeurs d'une séquence de primitives obtenues à partir d'une forme donnée, il s'agit de retrouver le chiffre. Usuellement, la reconnaissance s'appuie sur la distribution a posteriori, conditionnellement aux valeurs des primitive s observées. Nous n'allons pas calculer l'ensemble de toutes les primitives. Nous allons en choisir un nombre, le plus restreint possible. Le choix des primitives est effectué sur la base de l'information qu e donne une primitive Yn sur la variable aléatoire Z. Un rappel rapide des notions d'information et d'information conditionnelle est donné afin que le texte soit immédiatement compréhensible par tous les lecteurs. Nous allons maintenant évaluer numériquement l'incertitude su r l'expérience de reconnaissance pour chacune des 55 primitives. La mesure d'incertitude, a priori, est égale à, [24] : H(Z) = P(Ao) log 2 P(Ao).... P(Ar) log2 P(Ap) Cette quantité est l'entropie de la variable aléatoire Z et son unité est le bit. Pour le cas de la reconnaissance de chiffres manuscrit s hors lignes et pour des événements équiprobables, nous avon s p = 9 et H(Z) = 3, 321 bits. Les probabilités a posteriori vérifient la formule de Bayes : P(Ailyn) = P (Ai) P ( ynlai ) E P (Aj)P(ynlAj ) je Z Lors de la reconnaissance, chaque variable aléatoire Yn réalise une valeur y n qui conditionne la variable aléatoire Z, d'où le s incertitudes a posteriori : H(Z/yn) P (Ao/yn) log2 P (Ao/yn ).... P (A9/yn) log2 P(A9/yn ) En faisant les sommations sur les valeurs possibles des primitives, on obtient : H(Z/Yn) _ ~ P(Y = yn-o, i ) P (Ai/ y n) loge P (Ai/yrr ) i Ez Il est à espérer que l'observation Yn est utile et que l'incertitude a posteriori est plus petite que l'incertitude cc priori. Nous introduisons la quantité d'information transmise par chacune des 5 5 primitives : I(Z ;Yn ) = H(Z) H(Z/Yn) A la suite de ces résultats classiques, nous fournissons quelque s propriétés originales et utiles quant au choix d'une séquence de primitives. Observons que l'ensemble d'apprentissage est la base B de données fournie. Cet ensemble peut être considéré comme u n échantillon aléatoire, extrait de la population totale ft La reconnaissance doit être effectuée sur cette population totale. Le problème se pose de savoir si cet échantillon B est représentatif des propriétés statistiques de la population totale ft Par ailleurs, considérons un procédé de découpage de B en deu x classes Co et Ci telles que Co U Ci = B. C'est la situatio n après l'observation de la première primitive et successivemen t ensuite lorsque chaque séquence de primitives est augmentée d'une unité. Chacune des deux classes peut être considérée comme un échantillon de la base. Ainsi, le problème se pose d'évaluer la quantité d'informatio n transmise sur Z par une primitive Y quand on l'utilise dans un e population Il ou dans une partie B de cette population. Des exemples simples de construction d'espaces de probabilité (Il, A, P), construction laissée aux lecteurs, montrent que diverses situation s contradictoires sont possibles. Si la variable Y est indépendante de la variable Z dans chacun e des deux classes Co et Cl, alors l'information fournie par Y sur Z est nulle dans chacune des deux classes bien que l'informatio n fournie par Y sur Z dans la population Co U C i n'ait aucune raison d'être nulle. Ainsi, dans ce cas particulier, le découpag e en sous-classes éliminerait des primitives utiles sur la populatio n totale. Tout au contraire, il est aisé de construire un exemple où, dan s chacune des deux classes Co et Cl, la variable Y détermine la variable Z. Dans ce cas, l'information calculée dans chacun e des deux classes Co et C i est maximum et il faut procéder au découpage. Pour faire un parallèle, prenons la couleur rouge. Prise seule, la couleur rouge serait notre primitive de base. Elle ne semble pas contenir énormément d'information si l'on veu t reconnaître des fleurs (globalement elle est peu informative). S i l'on se ramène maintenant à un contexte particulier (une partie de la population totale) la couleur rouge permet de différencier une marguerite d'une rose ou une tulipe d'une jonquille,etc.... Il suffit pour se ramener à ces contextes bien spécifiques de dispose r de primitives aptes à les décrire. Certains lecteurs aimeront mieux une formulation mathématique de ces résultats. Proposition : Soit (Sl, A, P) un espace de probabilité, soit Z et Y deux variable s binaires et {Co, Cl } une partition de a a) Si Z ~L Y/ alors I(Z,Y/) = O. b) Si Z = f (y ; Ci) Vi E {0, 11, avec f fonction à valeurs binaires, alors H(Z/ Y, = O. Il existe des exemples pour la propriété a) ave c 0 = I(Z ; Y/) < I(Z; Y) 92 Traitement du Signal 1996 Volume 13 - n 1
9 et des exemples pour la propriété b) ave c H(Z/) = I(Z;Y/) > I(Z ;Y). En conclusion de ces propriétés, nous avons déduit que le choi x de la meilleure primitive est un problème local à l'ensemble su r lequel se pose la classification. Etant donnée une séquence de primitives, dans chacune des sous-populations définies par le s valeurs prises par les primitives de la séquence, le problème de classification se pose à l'identique et il faut prendre la primitiv e Y fournissant l'information la plus grande sur Z. Notre mécanisme de classification va s'attacher à dégager des contextes de plus en plus précis, jusqu' à ce que les contextes soient si précis (regroupement d'une variabilité de l'écriture spécifique ) qu'ils permettent de formuler une hypothèse de reconnaissance. Il est essentiel que la base d'apprentissage B et que la population totale 52 (ou la population test) aient, à chaque niveau de découpage, les mêmes répartitions statistiques. Intuitivement, en cas de différences notables, il faut espérer une robustesse de l'utilité des primitives vis-à-vis des fluctuations statistiques entre l'échantillon B et la population S2. Une condition nécessaire pou r que B soit représentative de SZ est que, quel que soit la primitiv e Y considérée, nous ayons : I(Z ; Y/B) = I(Z; Y/Sl ) algorithme d'identification de l'arbre binaire. Soit une base de données d'apprentissage qui va permettre d' iden - tifier l'arbre de décision binaire. L'identification va commencer en partant de la racine (noeud numéro 0, noté No) de l'arbre en considérant l'ensemble de la base d'apprentissage notée Bo. Nous allons donc calculer pour chacune des 55 primitives la quantité I(Z;Yn/Bo). Une correspondance entre n et les primitives binaires présentées précédemment est donnée en annexe. L'information transmise par chacune des primitives au niveau de la racin e de l'arbre est aussi donnée. 0,6,, 0, 5 aa 0, 4 0,3 0,2 0,1 0 N, N, m, o ~ r r- co c+`m v ~ cm r- c*m co a~{~ ~ c~ m - n : numéro de la primitive o~ aí ra - ~. Figure 6. - Classement des 16 primitives les plus informatives. La primitive numéro m = 31 telle que : I(Z ; Ym=31/Bo) = max(i(z ; Yn/Bo), n E {1, 2,..., 55}) est retenue pour poser la première question qui est donc «l a primitive m = 31 est-elle présente?» et qui a pour réponse 0 ou 1 (respectivement oui ou non). Cette observation est réalisée sur tous les chiffres de la base de données d'apprentissage associé e au noeud. Ceci permet de générer deux bases de données B l et B 2. B l = {w ; Ym (w) = 1 } B2 = {w ; Y,,, (w) = 0 } Bo = B l U B2 Deux noeuds fils, Ni et N2, sont alors créés et à chaque noeud fil s sont attachées respectivement la base B l et la base B2. Le processus est réitéré sur chacun des noeuds nouvellement créé s en considérant, pour le calcul des informations transmises par le s primitives, la sous-base attachée au noeud en cours de traitement, soit B1, soit B2. Un noeud Ni de base Bi ne crée plus de fils et devient terminal lorsque : Vn E {1, 2,..., 55}, I (Z ; Yn/Bi) = 0 La base Bi attachée à ce noeud permet alors de définir à quel chiffre le noeud Ni doit être associé. Le meilleur cas de figure arrive lorsque tous les chiffres de la base de données attachée au noeud terminal ont la même valeur (le noeud est pur). Dans le ca s où la base Bi contient des représentants de plusieurs chiffres, la reconnaissance n'est pas complète et il faut introduire de nouvelle s primitives spécifiques à la levée d'ambiguités persistantes, [25]. Remarquons que ce dernier point peut être prévu avant de construire l'arbre de décision. En effet, dans ces conditions, l'information transmise par le code constitué à partir de la concaténatio n de toutes les primitives binaires (calculée sur la base d'apprentis - sage) ne peut être maximum. I(Z ; Yi Y2...Yn/Bo) < H(Z) avec n = 55 dans notre cas. Malgré tout, il est tout de même intéressant de construire l'arbre de décision binaire lorsque l'information transmise est proche de H(Z) car l'analyse des bases de données attachées aux noeud s impurs permet de découvrir les primitives spécifiques qu'il faut rajouter. En phase d'apprentissage, le problème de reconnaissance es t donc, dans un premier temps (racine de l'arbre), considéré dans s a globalité (informations transmises calculées sur une variabilité de l'écriture extrême, donc sur la totalité de la base d'apprentissage ) et au fur et à mesure que nous allons descendre dans l'arbre de décision binaire, les bases de données attachées aux noeuds de l'arbre vont être réduites et homogénéisées. Les variabilités d e l'écriture à l'intérieur de ces bases de données vont devenir plu s réduites et aussi plus spécifiques. C'est l'utilisation en priorité des primitives les plus informatives (les plus robustes aux variations d e style) qui diminue la complexité du problème de reconnaissance, lors de la descente dans l'arbre, en partitionnant la base de donnée s initiale. Il sera alors possible, sur ces différentes parties, d'obtenir des primitives ayant une quantité d'information non négligeable, alors que, sur le problème global, elles étaient peu informatives. Traitement du Signal 1996 Volume 13 - n 1 93
10 4.2. mécanisme de rejet L'arbre de décision observe un certain nombre de primitives dan s un ordre bien spécifique afin de déterminer le chiffre inconnu, décision qui se fait au niveau des noeuds terminaux. Le problèm e de l'arbre de décision binaire est qu'il est susceptible de faire un e erreur au niveau de chaque noeud (primitive observée provenan t d'un bruit, exemple d ' une barbule entraînant l'apparition d'une primitive extrémité non significative). Ceci se traduit alors par l'arrivée sur un noeud terminal qui attribue une mauvaise valeur au chiffre inconnu et donc provoque une erreur. Au niveau des noeuds terminaux, nous avons inclus un mécanisme capable d'entraîner l e rejet du chiffre s'il existe des primitives ayant une valeur aberrant e au vue du chiffre proposé. Par exemple, il serait aberrant de conclure à la reconnaissance du chiffre 3 si le chiffre analys é possède une boucle totale (Ot = 1). Nous avons donc associé à chaque noeud terminal des primitives binaires qui ne doivent pa s être observées (primitives binaires égales à 0) ou bien qui doiven t être observées (primitives binaires égales à 1) pour conclure à la reconnaissance. Soit T l'ensemble des noeuds terminaux. A chaque noeud termina l Nq E T sont associés une base de données B q et un ensemble Oq contenant la liste des primitives à observer pour passer du noeu d racine No au noeud terminal Nq. Bq et Oq permettent de définir deux ensembles : nous serons exigeants en phase de reconnaissance pour valider l'hypothèse de reconnaissance. J. résultats Nous travaillons sur des chiffres stockés sur disque sous la form e d'imagettes binaires de 128 x 128 pixels. Ces chiffres sont extrait s de la base de données américaine NIST. Il faut noter que le s chiffres à notre disposition n'ont subi aucun pré-traitement avant d'être mis sous forme d'imagettes. Par conséquent, ces dernière s peuvent présenter les défauts suivants, (figure 7) : Images contenant du brui t Présence de chiffres fragmenté s Formes provenant des cas de chevauchement de caractères : certaines images contiennent un chiffre et une partie d'un autr e Taille des chiffres variable. Ri (q) {Yn O q, n E {1, 2,.., 55} ; V w E Bq, Yn (w) = 1 } Ro(q) 4 {Yn O q, n E {1, 2,.., 55} ; V w E B q, Yn (w) = 0 } Les ensembles R I (q) et Ro (q) constituent la liste des primitive s qui doivent (ensemble RI (q)) ou qui ne doivent pas (ensemble Ro(q)) être observées au niveau du chiffre inconnu pour valider l'hypothèse de reconnaissance au niveau du noeud Nq. Quel que soit q tel que Nq E T, les ensembles R I (q) et Ro (q) sont généré s automatiquement lors de la phase d'identification de l'arbre d e décision binaire à partir des bases de données associées aux noeud s terminaux. Le critère de rejet proposé est original car il n'introduit pa s de calcul de seuil. Il travaille uniquement sur des observation s simples «le chiffre doit être rejeté car j'observe ou je n'observ e pas telles et telles primitives». L'arbre de décision binaire observe donc un certain nombr e de primitives au niveau d'un chiffre inconnu qui l'amène à formuler une hypothèse sur l'identité du chiffre inconnu. A chaqu e hypothèse prise conditionellement à un noeud terminal, nous lui associons une partie déterministe sous la forme de primitive s devant avoir des valeurs bien spécifiques pour que l'hypothès e de reconnaissance soit validée. L'intérêt du critère est que, plus la taille de la base de données au niveau d'un noeud terminal sera faible (variabilité de l'écriture très spécifique, chiffre très bruité), plus la liste de primitives constituant la partie déterministe de l'hypothèse de reconnaissance sera importante et donc plus Figure 7. Exemples de chiffres de la base NIST. Nous avons constitué trois bases d'apprentissage : une de 1000 chiffres, une de 3500 chiffres et une de 6000 chiffres. D'autre part, une base de test de 6300 chiffres a été constituée. La bas e de test et les bases d'apprentissage sont sans recouvrement. D e plus, il faut noter que les bases d'apprentissage et de test n'ont pas été modifiées pour éliminer certains chiffres non significatifs. Le processus d'apprentissage est donc entièrement automatique e t n'introduit à aucun moment des facteurs humains qui sont souvent subjectifs. Les résultats de reconnaissance sont présentés dans les tableau x 4et5. 94 Traitement du Signal 1996 Volume n 1
11 Effectif de la base d'apprentissage Tableau 4. Reconnaissance sans critère de rejet. Reconnaissance sur 6300 chiffres. Base d'apprentissage et de test sans recouvrement Reconnaissance Erreur Nombre de noeuds de l'arbre T = , 98% 13, 02% 140 T = , 44% 10, 56% 59 8 T = , 32% 9, 68% Tableau 5. Reconnaissance avec critère de rejet. Reconnaissance sur 6300 chiffres. Base d'apprentissage et de test sans recouvremen t Effectif de la base Reconnaissance Rejet Erreu r d'apprentissage T = , 1% 20, 36% 3, 54 % T = , 8% 15,3% 2,9 % T = , 21% 14, 19% 2, 6 % Le tableau 5 montre l'intérêt du critère de rejet. En effet, sans ce dernier, nous constatons un bon taux de reconnaissance mais un e erreur trop importante. L'utilisation du critère de rejet permet de diminuer l'erreur dans des proportions très importantes tout e n gardant un taux de reconnaissance correct. Le rejet permet donc d'augmenter l'efficacité e du classifieur, voir tableau 6. Tableau 6. Influence du rejet sur l'efficacité T 6000 e = Bonne reconnaissance x Bonne reconnaissance + erreur 10 0 Sans rejet 90,4 1 Avec rejet 96,97 L'influence de la taille de la base d'apprentissage sur le classifieu r permet de formuler deux idées : *L'augmentation de la taille de la base d'apprentissage permet d e diminuer l'erreur tout en augmentant le taux de reconnaissance. Le processus d'apprentissage est donc efficace. Avec un jeu de primitives binaires relativement simple et e n nombre réduit et une base d'apprentissage de taille modeste (T = 1000), il a été possible d'obtenir de bons résultats sur un e base de test de taille beaucoup plus importante (ces conditions son t rarement prises dans le domaine de la reconnaissance de chiffre s manuscrits hors lignes). Ce système se caractérise par une erreu r de reconnaissance faible due à une capacité de rejet importante. Un tel classifieur pourrait donc être utile dans des domaines o ù la banque de données des observations du phénomène à classifie r est pauvre. Le tableau 4 montre que l'augmentation de la base de données n e provoque pas une augmentation critique du nombre de noeuds d e l'arbre. L'arbre de décision obtenu est constitué au maximum de 1036 noeuds (apprentissage sur 6000 chiffres) ce qui est relativement raisonnable si on compare ceci à l'analyse d'un vecteur de 55 primitives binaires (2 55 mots possibles). Au niveau implémentation informatique et surtout en terme d' encombremen t mémoire, le stockage de 1000 noeuds en mémoire RAM est bien en dessous des capacités des ordinateurs disponibles aujourd'hui. Finalement, il est important de noter que sur les 55 primitive s qui ont été fournies au système de reconnaissance, la totalité d e ces dernières n'a pas été retenue pour la construction de l'arbre de décision binaire. La figure 8 montre le nombre de primitive s retenues et le nombre de fois où elles ont été utilisées en fonctio n de la taille de la base d'apprentissage. Dans tous les cas, la totalité des primitives n'a pas été retenue. Par exemple, pour un apprentissage sur 1000 chiffres, seulemen t 32 primitives ont été utilisées pour la construction de l'arbre d e décision binaire. Le vecteur de primitives a donc été diminu é dans des proportions importantes. De plus, l'analyse complèt e d'un vecteur de 55 primitives implique l'extraction de toute s les primitives ce qui est coûteux en temps de calcul. Dan s notre approche, le nombre de questions posées par l'arbre d e décision binaire pour effectuer la reconnaissance varie entre 4 et 1 ; (apprentissage sur 1000 chiffres). Une primitive étant extraite uniquement lorsqu'un noeud demande la valeur booléenn e associée à cette dernière, le temps machine alloué à l'extractio n des primitives est optimisé Finalement, il est intéressant de constater qu' une même primitiv e peut être utilisée très souvent (apprentissage sur 6000 chiffres : primitive numéro 15 (projection) utilisée 34 fois). En fait, à partir d'une primitive de base, l'arbre de décision binaire construit plusieurs primitives qui seront utilisées dans des contextes bie n spécifiques de manière à produire une hypothèse de reconnaissance. 6. conclusion L'apprentissage sur 6000 chiffres a montré qu'il y a création d e noeuds impurs. L'analyse des bases de données associées à ce s noeuds a mis en évidence des variabilités de l'écriture extrêmes qui produisent des confusions, ou bien des classes qui ont tendanc e à se ressembler (exemple des chiffres 4-9 ou 0-8 ou 7-1). La baisse du pourcentage de confusion sera possible grâce à l'ajou t de nouvelles primitives très spécifiques qui permettront de leve r les ambiguïtés restantes. La structure utilisée pour modéliser l'objet graphique facilit e l'extraction de ces primitives. Elle est ouverte et peut donc êtr e utilisée dans d'autres domaines que la reconnaissance de chiffre s manuscrits. Il suffit, dans certaines applications, de rajouter au x extracteurs de primitives d'autres plus spécifiques aux forme s à reconnaître. La phase d'identification de l'arbre binaire se chargera de retenir les extracteurs les plus pertinents. Notre critère de rejet, très simple à implémenter, permet d'augmenter de manière significative l'efficacité du système de reconnaissance. Traitement du Signal 1996 Volume n 1 95
12 a> 33 f 3 1 0' c d _ Utilisation des 55 primitive s T~000 chiffres : 43 prinitives utilisée s T'3500 chiffres : 39 primitives utilisée s T 000 chiffres : 32 primitives utilisée s Nombre d'utilisatio n mal segmentés dans de nombreux cas. Nous avons donc traité un problème proche de la réalité en assumant d'une part l'extrêm e variabilité de l'écriture d'un scripteur à un autre et d'autre part le fait que l'étape de segmentation dans une chaîne de reconnaissance n'est jamais fiable à 100%. Le procédé de sélection des primitives à retenir au niveau de s noeuds de l'arbre considère, pour le calcul de l'informatio n transmise, une sous-population de la population totale de chiffres. Nous ne faisons aucune hypothèse d'indépendance des variable s aléatoires associées aux primitives (hypothèse très restrictive et souvent peu réaliste). Nous avons montré qu'il est possible à partir d'un jeu suffisant d e primitives de retenir une sous-population permettant de donner de bons résultats sur le problème de reconnaissance. De plus, les primitives sont calculées au fur et à mesure de la phas e de reconnaissance. Ceci conduit à utiliser quelques primitive s de l'ensemble potentiellement utilisables par le classifieur, pou r reconnaître une forme. Nos travaux futurs s'orientent dans deux directions ayant le mêm e objectif : baisser le taux de rejet sans augmenter les confusions. La première option est de commander des opérations de nettoyage du chiffre manuscrit lorsqu'il y a rejet pour procéder à une deuxième reconnaissance de la forme, par le classifieur. La deuxième approche vise à exploiter le mécanisme de classification qui permet d'arriver à un nceud terminal. Il serait intéressan t d'utiliser le fait qu'un nceud terminal est le siège d'un contexte de reconnaissance bien spécifique avec des représentants de ce contexte pour développer des opérations visant à valider une hypothèse de reconnaissance lorsqu'il y a rejet. L'arbre de décisio n binaire serait alors un pré-classifieur très évolué fournissant à u n autre classifieur ou «vérificateur», une hypothèse de reconnaissance avec le contexte (représentants du contexte sous la forme d'un groupe de chiffres issus de la base d'apprentissage) qui a permis de formuler cette dernière. Nous travaillons actuellement sur la construction de ce vérificateur. Figure 8. Fréquence d'utilisation des primitives. Remerciemen t L'augmentation de la base d'apprentissage permet d'améliorer le s résultats de reconnaissance et il faudra voir les limites del' appren - tissage en continuant à l'augmenter. Toutefois, il est intéressan t de constater qu'il est possible, grâce au critère de rejet introduit, d'obtenir de bons résultats, en utilisant des bases d'apprentissag e de tailles réduites. Ce point peut être déterminant dans l'étape d e choix d'un classifieur dans une chaîne de reconnaissance où l'o n sait que l'on dispose de peu de données pour effectuer la phas e d'apprentissage. L'apprentissage est entièrement automatique et a pu s'accommoder d'une base d'apprentissage très compliquée avec de s chiffres parfois difficilement lisibles par un être humain et surtout Nous remercions Monsieur Yves Lecourtier pour ses remarque s constructives qui ont permis d'améliorer cet article. Ce travail est réalisé grâce à des subventions d'un contrat état - région et de crédits Gdr CNRS. ANNEXE Nous donnons dans le tableau suivant la correspondance entr e les numéros utilisés dans cet article pour désigner les primitive s binaires et leurs significations. 96 Traitement du Signal 1996 Volume 13 - n 1
13 Numéro n Abrévation Signification I(Z ;Yn/Bo ) 1 El Présence/absence extrémité 0,3 6 2 E2 Présence/absence extrémité 0,1 1 3 E3 Présence/absence extrémité 0,4 5 4 E4 Présence/absence extrémité 0,14 5 E5 Présence/absence extrémité 0,14 6 E6 Présence/absence extrémité 0,0 7 7 E7 Présence/absence extrémité 0,4 3 8 E8 Présence/absence extrémité 0,1 2 9 E9 Présence/absence extrémité 0, Oh Présence/absence boucle haute 0, Ob Présence/absence boucle basse 0, Od Présence/absence boucle double 0, Ot Présence/absence boucle totale 0, Th Présence/absence trait horizontal haut 0, Tm Présence/absence trait horizontal milieu 0, Tb Présence/absence trait horizontal bas 0, 3 17 Ecl Présence/absence carrefour 0, Ec2 Présence/absence carrefour 0, Ec3 Présence/absence carrefour 0,06 20 Ec4 Présence/absence carrefour 0, Ec5 Présence/absence carrefour 0,26 22 Ec6 Présence/absence carrefour 0, Ec7 Présence/absence carrefour 0, Ec8 Présence/absence carrefour 0, Ec9 Présence/absence carrefour 0,06 26 CaO Présence/absence de 0 carrefour 0, 5 27 Cal Présence/absence de 1 carrefour 0, Ca2 Présence/absence de 2 carrefours 0, Ca3 Présence/absence de 3 carrefours 0,04 30 Ça>3 Présence/absence de plus de 3 carrefours 0, O Présence/absence boucle 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0, Présence/absence ouverture 0,11 Traitement du Signal Volume 13 - n 1 97
14 BIBLIOGRAPHI E [1] F. Ali et Th. Pavlidis, Syntactic Recognition of handwritten Numerals. IEEE Transaction on Systems, Man and Cybernetics, vol. n 7, pp , [2] C. Tappert, C. Y. Suen, T. Wakahana, The state of the art in on-line handwrittin g recognition. IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. PAMI-12, pp , [3] M. Wing, Variability in Handwritten Characters. Visible Language, XIII 3, pp , [4] M. Shridar and A. Badreldin, Recognition of isolated and simply connecte d handwritten numerals. Pattern Recognition, vol. 19, N 1, pp. 1-12, [5] P. Gader, B. Forester, M. Ganzberger, A. Gillies, B. Mitchell, M. Whalen and T. Yocum, Recognition of handwritten digits using template and mode l matching. Pattern Recognition, Vol. 24, N 5, pp , [6] L. Heutte, Reconnaissance de caractères manuscrits : application à la lecture des chèques et des enveloppes postales. Thèse de doctorat, Université de Rouen, [7] C. Y. Suen, C. Nadal, R. Legault, T. A. Mai and L. Lam, Computer Recognitio n of Unconstrained Handwritten Numerals. Proceedings of the IEEE, Vol. 80, n 7, pp , [8] C. Roche, Information utile en reconnaissance des formes et en compressio n de données. Application à la génération automatique de système de reconnaissance optique et accoustique. Thèse d'état ES Sciences Mathématiques, Paris VI, [9] D. de Brucq, K. Romeo, M. Lachkar, N. Feray, F. Bagui, Une méthode d'évaluation du codage en reconnaissance de chiffres manuscrits. 3ème Colloque National sur l'écrit et le document, CNED'94, pp , [10] Q. R. Wang and C. Y. Suen, Analysis and Design of a Decision Tree Based on Entropy Reduction and Its Application to Large Character Set Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI - 6, n 4, pp , [11] D. Geman, B. Jedynak, Shape Recognition and Twenty Questions. Rapport de recherche INRIA, No. 255, [12] L. Breiman, J. Freidman, R. Olsen and C. Stone, Classification and Regression Trees. Wadsworth, Belmont, CA, [13] S. W. Lee, L. Lam and C. Y. Suen, A systematic evaluation of skeletonization algorithms. International Journal of Pattern Recognition and Artificia l Intelligence, Vol. 7, n 5, pp , [14] A. Belaid et Y. Belaid, Reconnaissance des formes. Méthodes et applications. InterEdition, [15] P. Marthon, A. Bruel et G. Biguet, Squelettisation par calcul d'une fonction discriminante sur un voisinage de 8 points. Actes du 2e congrès AFCET RFIA, pp , toulouse, [16] L. Lam and C. Y. Suen, Structural classification and relaxation matchin g of totally unconstrained handwritten zip-code numbers. Pattern Recognition, Vol. 21, n 1, pages 19-31, [17] T. Pavlidis, Algorithms for graphics and image processing. Computer Scienc e Press, [18] G. Gaillat et M. Berthod, Panorama des techniques d'extraction de traits caractéristiques en lecture optique des caractères. Revue Technique THOMSON- CSF, Vol. 11, n 4, pp , [19] C. Y. Suen, M. Berthod and S. Mori, Automatic Recognition of Handprinte d Characters - The State of the Art. Proceeding IEEE, Vol. 68, n 4, pp , [20] C. Y. Suen, Distinctive features in automatic recognition of handprinte d characters. Signal processing, Vol. 4, pp , [21] M. Beun, A flexible method for automatic reading of handwritten numérals. Philips Technical Rewiew, Vol. 33, pp and , [22] B. Cherabo, L. Massip-Pailhes, S. Castan. Description polygonale basée sur l'extraction d'ilots de confiance. Actes du 8 e congrès AFCET RFIA, pp , Lyon-Villeurbanne, [23] L. Miclet, Méthodes structurelles pour la reconnaissance des formes. Edition EYROLLES, [24] A. M. Yaglom, I M. Yaglom, Probabilité et information. Dunod, pp , [25] C. Nadal and C. Y. Suen, Applying human knowledge to improve machin e recognition of confusing handwritten numerals. Pattern Recognition, vol 26, n 3, pp , Manuscrit reçu le 1 er février LES AUTEURS Nicolas FERAY Denis de BRUCA Nicolas Feray a soutenu une thèse de doctorat e n septembre 1995, en traitement de l'image, à l'université de Rouen. Depuis, il exerce des activités d'enseignement et de recherche au laboratoire PSI-La3l de l'université de Rouen. Ses travaux portent essentielle - ment sur la reconnaissance de formes et plus particulièrement sur l'intégration de plusieurs classifieurs dans une même chaîne de reconnaissance. Denis de Brucq est professeur à l'université de Rouen. Ses travaux sur le filtrage non-linéaire permettent la détection de changements de modèle. Les technique s inventées s'appliquent en reconnaissance de l' écrit. Pa r ailleurs, en traitement numérique de l'image pour l a dermatologie, des méthodes permettant la détection de s mélanomes sont mises en oeuvre. 98 Traitement du Signal 1996 Volume 13 - n 1
Pourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Plus en détailTraitement bas-niveau
Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.
Plus en détailProjet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies
Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure
Plus en détailVision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007
Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................
Plus en détailchapitre 4 Nombres de Catalan
chapitre 4 Nombres de Catalan I Dénitions Dénition 1 La suite de Catalan (C n ) n est la suite dénie par C 0 = 1 et, pour tout n N, C n+1 = C k C n k. Exemple 2 On trouve rapidement C 0 = 1, C 1 = 1, C
Plus en détailCOMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL
COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication
Plus en détailLE PROBLEME DU PLUS COURT CHEMIN
LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailIntroduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.
Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis
Plus en détailt 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :
Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant
Plus en détailmodélisation solide et dessin technique
CHAPITRE 1 modélisation solide et dessin technique Les sciences graphiques regroupent un ensemble de techniques graphiques utilisées quotidiennement par les ingénieurs pour exprimer des idées, concevoir
Plus en détailAlgorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Plus en détailNOTIONS DE PROBABILITÉS
NOTIONS DE PROBABILITÉS Sommaire 1. Expérience aléatoire... 1 2. Espace échantillonnal... 2 3. Événement... 2 4. Calcul des probabilités... 3 4.1. Ensemble fondamental... 3 4.2. Calcul de la probabilité...
Plus en détailPROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES
Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.
Plus en détailEbauche Rapport finale
Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide
Plus en détailChapitre 1 : Introduction aux bases de données
Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailArithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot
Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,
Plus en détailUEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.
UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailFête de la science Initiation au traitement des images
Fête de la science Initiation au traitement des images Détection automatique de plaques minéralogiques à partir d'un téléphone portable et atelier propose de créer un programme informatique pour un téléphone
Plus en détailTravaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation
Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des
Plus en détailClassification Automatique de messages : une approche hybride
RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,
Plus en détailSoit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.
ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailL analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :
La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailPerrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6
Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6 1 1.But et théorie: Le but de cette expérience est de comprendre l'intérêt de la spectrophotométrie d'absorption moléculaire
Plus en détailAlgorithmes de recherche
Algorithmes de recherche 1 Résolution de problèmes par recherche On représente un problème par un espace d'états (arbre/graphe). Chaque état est une conguration possible du problème. Résoudre le problème
Plus en détail1.5 0.5 -0.5 -1.5 0 20 40 60 80 100 120. (VM(t i ),Q(t i+j ),VM(t i+j ))
La logique oue dans les PME/PMI Application au dosage de l'eau dans les bétons P.Y. Glorennec INSA de Rennes/IRISA glorenne@irisa.fr C. Hérault Hydrostop christophe@hydrostop.fr V. Hulin Hydrostop vincent@hydrostop.fr
Plus en détailPRINCIPE MICROSCOPIE CONFOCALE
PRINCIPE MICROSCOPIE CONFOCALE Un microscope confocal est un système pour lequel l'illumination et la détection sont limités à un même volume de taille réduite (1). L'image confocale (ou coupe optique)
Plus en détailCours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES
LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,
Plus en détailFormateurs : Jackie DAÖN Franck DUBOIS Médiapôle de Guyancourt
Client sur un domaine stage personnes ressources réseau en établissement janvier 2004 Formateurs : Jackie DAÖN Franck DUBOIS Médiapôle de Guyancourt Lycée de Villaroy 2 rue Eugène Viollet Le Duc BP31 78041
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Plus en détailComme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:
Travaux Pratiques 3. IFT 1002/IFT 1005. Structure Interne des Ordinateurs. Département d'informatique et de génie logiciel. Université Laval. Hiver 2012. Prof : Bui Minh Duc. Tous les exercices sont indépendants.
Plus en détailTP 2 Réseaux. Adresses IP, routage et sous-réseaux
TP 2 Réseaux Adresses IP, routage et sous-réseaux C. Pain-Barre INFO - IUT Aix-en-Provence version du 24/2/2 Adressage IP. Limites du nombre d adresses IP.. Adresses de réseaux valides Les adresses IP
Plus en détailPrincipe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Plus en détailComplément d information concernant la fiche de concordance
Sommaire SAMEDI 0 DÉCEMBRE 20 Vous trouverez dans ce dossier les documents correspondants à ce que nous allons travailler aujourd hui : La fiche de concordance pour le DAEU ; Page 2 Un rappel de cours
Plus en détaila) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :
a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN
Plus en détailTraitement numérique de l'image. Raphaël Isdant - 2009
Traitement numérique de l'image 1/ L'IMAGE NUMÉRIQUE : COMPOSITION ET CARACTÉRISTIQUES 1.1 - Le pixel: Une image numérique est constituée d'un ensemble de points appelés pixels (abréviation de PICture
Plus en détail2. RAPPEL DES TECHNIQUES DE CALCUL DANS R
2. RAPPEL DES TECHNIQUES DE CALCUL DANS R Dans la mesure où les résultats de ce chapitre devraient normalement être bien connus, il n'est rappelé que les formules les plus intéressantes; les justications
Plus en détail2. Activités et Modèles de développement en Génie Logiciel
2. Activités et Modèles de développement en Génie Logiciel Bernard ESPINASSE Professeur à l'université d'aix-marseille Plan Les Activités du GL Analyse des besoins Spécification globale Conceptions architecturale
Plus en détailLaboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Plus en détailLES NOMBRES DECIMAUX. I. Les programmes
LES NOMBRES DECIMAUX I. Les programmes Au cycle des approfondissements (Cours Moyen), une toute première approche des fractions est entreprise, dans le but d aider à la compréhension des nombres décimaux.
Plus en détailExercices de dénombrement
Exercices de dénombrement Exercice En turbo Pascal, un entier relatif (type integer) est codé sur 6 bits. Cela signifie que l'on réserve 6 cases mémoires contenant des "0" ou des "" pour écrire un entier.
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailTHE SEPARATION OF A TRACER FOR THE RADIOCHEM1CAL ANALYSIS OF RADIUM 226.
CEA-R 2419 - BUTAYE Michel ISOLEMENT D'UN TRACEUR POUR L'ANALYSE RAJDIOCHIMIQUE DU RADIUM 226. 223 Sommaire.- Ce rapport décrit une méthode d'isolement du Ra à partir d'un minerai d'uranium et son utilisation
Plus en détailReconstruction de bâtiments en 3D à partir de nuages de points LIDAR
Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains
Plus en détailCorrigé du baccalauréat S Asie 21 juin 2010
Corrigé du baccalauréat S Asie juin 00 EXERCICE Commun à tous les candidats 4 points. Question : Le triangle GBI est : Réponse a : isocèle. Réponse b : équilatéral. Réponse c : rectangle. On a GB = + =
Plus en détailLes algorithmes de base du graphisme
Les algorithmes de base du graphisme Table des matières 1 Traçage 2 1.1 Segments de droites......................... 2 1.1.1 Algorithmes simples.................... 3 1.1.2 Algorithmes de Bresenham (1965).............
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailChapitre 1 I:\ Soyez courageux!
Chapitre 1 I:\ Soyez courageux! Pour ne rien vous cacher, le langage d'assembleur (souvent désigné sous le terme "Assembleur", bien que ce soit un abus de langage, puisque "Assembleur" désigne le logiciel
Plus en détailRésolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailRecherche dans un tableau
Chapitre 3 Recherche dans un tableau 3.1 Introduction 3.1.1 Tranche On appelle tranche de tableau, la donnée d'un tableau t et de deux indices a et b. On note cette tranche t.(a..b). Exemple 3.1 : 3 6
Plus en détailDate : 18.11.2013 Tangram en carré page
Date : 18.11.2013 Tangram en carré page Titre : Tangram en carré Numéro de la dernière page : 14 Degrés : 1 e 4 e du Collège Durée : 90 minutes Résumé : Le jeu de Tangram (appelé en chinois les sept planches
Plus en détail1. Vocabulaire : Introduction au tableau élémentaire
L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie
Plus en détailBaccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.
Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé. L usage d une calculatrice est autorisé Durée : 3heures Deux annexes sont à rendre avec la copie. Exercice 1 5 points 1_ Soit f la
Plus en détailBrique BDL Gestion de Projet Logiciel
Brique BDL Gestion de Projet Logiciel Processus de développement pratiqué à l'enst Sylvie.Vignes@enst.fr url:http://www.infres.enst.fr/~vignes/bdl Poly: Computer elective project F.Gasperoni Brique BDL
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailI - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES
I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES Théorème - Définition Soit un cercle (O,R) et un point. Une droite passant par coupe le cercle en deux points A et
Plus en détailFormula Negator, Outil de négation de formule.
Formula Negator, Outil de négation de formule. Aymerick Savary 1,2, Mathieu Lassale 1,2, Jean-Louis Lanet 1 et Marc Frappier 2 1 Université de Limoges 2 Université de Sherbrooke Résumé. Cet article présente
Plus en détailIntroduction aux SGBDR
1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailÉPREUVE COMMUNE DE TIPE 2008 - Partie D
ÉPREUVE COMMUNE DE TIPE 2008 - Partie D TITRE : Les Fonctions de Hachage Temps de préparation :.. 2 h 15 minutes Temps de présentation devant le jury :.10 minutes Entretien avec le jury :..10 minutes GUIDE
Plus en détailLogiciel SCRATCH FICHE 02
1. Reprise de la fiche 1: 1.1. Programme Figure : Logiciel SCRATCH FICHE 02 SANS ORDINATEUR : Dessiner à droite le dessin que donnera l'exécution de ce programme : Unité : 50 pas : Remarque : vous devez
Plus en détailLes indices à surplus constant
Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailNC 06 Norme comptable relative aux Immobilisations incorporelles
NC 06 Norme comptable relative aux Immobilisations incorporelles Objectif 01. Une entreprise peut acquérir des éléments incorporels ou peut elle-même les développer. Ces éléments peuvent constituer des
Plus en détailBaccalauréat technologique
Baccalauréat technologique Épreuve relative aux enseignements technologiques transversaux, épreuve de projet en enseignement spécifique à la spécialité et épreuve d'enseignement technologique en langue
Plus en détailREMARQUES SUR LE PETIT FRAGMENT DE TABLETTE CHYPRO MINOENNE TROUVÉ A ENKOMI EN 1952. par EMILIA MAS SON
REMARQUES SUR LE PETIT FRAGMENT DE TABLETTE CHYPRO MINOENNE TROUVÉ A ENKOMI EN 952 par EMILIA MAS SON. C'est pendant sa campagne de 952 à Enkomi que M. Porphyrios Dikaios a trouvé un petit fragment de
Plus en détailThéorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France
Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes
Plus en détailCHAPITRE IX : Les appareils de mesures électriques
CHAPITRE IX : Les appareils de mesures électriques IX. 1 L'appareil de mesure qui permet de mesurer la différence de potentiel entre deux points d'un circuit est un voltmètre, celui qui mesure le courant
Plus en détailI- Définitions des signaux.
101011011100 010110101010 101110101101 100101010101 Du compact-disc, au DVD, en passant par l appareil photo numérique, le scanner, et télévision numérique, le numérique a fait une entrée progressive mais
Plus en détailUE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd
UE 503 L3 MIAGE Initiation Réseau et Programmation Web La couche physique A. Belaïd abelaid@loria.fr http://www.loria.fr/~abelaid/ Année Universitaire 2011/2012 2 Le Modèle OSI La couche physique ou le
Plus en détailThéories de la Business Intelligence
25 Chapitre 2 Théories de la Business Intelligence 1. Architectures des systèmes décisionnels Théories de la Business Intelligence Depuis les premières requêtes sur les sources de données OLTP consolidées
Plus en détailAnnexe : La Programmation Informatique
GLOSSAIRE Table des matières La Programmation...2 Les langages de programmation...2 Java...2 La programmation orientée objet...2 Classe et Objet...3 API et Bibliothèque Logicielle...3 Environnement de
Plus en détailINTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE
INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE BUSINESS INTELLIGENCE : GOALS AND RESULTS OF A PILOT EXPERIMENT INVOLVING SEVEN SMEs FROM BOURGOGNE Ludovic DENOYELLE,
Plus en détailSOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des
Plus en détailUtilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition
09-0749 1 WHO/EMP/MAR/2009.3 Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition Synthèse des résultats des études publiées entre 1990 et 2006 Organisation
Plus en détailLa conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)
La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA) I. L'intérêt de la conversion de données, problèmes et définitions associés. I.1. Définitions:
Plus en détailChapitre 18 : Transmettre et stocker de l information
Chapitre 18 : Transmettre et stocker de l information Connaissances et compétences : - Identifier les éléments d une chaîne de transmission d informations. - Recueillir et exploiter des informations concernant
Plus en détailCAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailRapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
Plus en détailFctsAffines.nb 1. Mathématiques, 1-ère année Edition 2007-2008. Fonctions affines
FctsAffines.nb 1 Mathématiques, 1-ère année Edition 2007-2008 Fonctions affines Supports de cours de mathématiques de degré secondaire II, lien hpertete vers la page mère http://www.deleze.name/marcel/sec2/inde.html
Plus en détail1. Introduction...2. 2. Création d'une requête...2
1. Introduction...2 2. Création d'une requête...2 3. Définition des critères de sélection...5 3.1 Opérateurs...5 3.2 Les Fonctions...6 3.3 Plusieurs critères portant sur des champs différents...7 3.4 Requête
Plus en détailTune Sweeper Manuel de l'utilisateur
Tune Sweeper Manuel de l'utilisateur www.wideanglesoftware.com Table des matières Introduction 2 Démarrage rapide 5 Recherche de doublons 9 Sélection des pistes à conserver 12 Éliminer les doublons 15
Plus en détailCH.6 Propriétés des langages non contextuels
CH.6 Propriétés des langages non contetuels 6.1 Le lemme de pompage 6.2 Les propriétés de fermeture 6.3 Les problèmes de décidabilité 6.4 Les langages non contetuels déterministes utomates ch6 1 6.1 Le
Plus en détailDétection et suivi d'objets dans une séquence d'images par contours actifs
Détection et suivi d'objets dans une séquence d'images par contours actifs A. Fekir (1), N. Benamrane (2) et A. Taleb-Ahmed (3) (1) Département d informatique, Université de Mustapha Stambouli, BP 763,
Plus en détailProjet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo
Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo Dans ce projet, nous allons réaliser le code qui permet d'insérer sur une image, un logo sur un
Plus en détailLes diagrammes de modélisation
L approche Orientée Objet et UML 1 Plan du cours Introduction au Génie Logiciel L approche Orientée Objet et Notation UML Les diagrammes de modélisation Relations entre les différents diagrammes De l analyse
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailLogique binaire. Aujourd'hui, l'algèbre de Boole trouve de nombreuses applications en informatique et dans la conception des circuits électroniques.
Logique binaire I. L'algèbre de Boole L'algèbre de Boole est la partie des mathématiques, de la logique et de l'électronique qui s'intéresse aux opérations et aux fonctions sur les variables logiques.
Plus en détailTP SIN Traitement d image
TP SIN Traitement d image Pré requis (l élève doit savoir): - Utiliser un ordinateur Objectif terminale : L élève doit être capable de reconnaître un format d image et d expliquer les différents types
Plus en détailPC Check & Tuning 2010 Optimisez et accélérez rapidement et simplement les performances de votre PC!
PC Check & Tuning 2010 Optimisez et accélérez rapidement et simplement les performances de votre PC! MAGIX PC Check & Tuning 2010 est la solution logicielle complète pour l'analyse, la maintenance et l'accélération
Plus en détailCHAPITRE VI ALEAS. 6.1.Généralités.
CHAPITRE VI ALEAS 6.1.Généralités. Lors de la synthèse des systèmes logique (combinatoires ou séquentiels), nous avons supposé, implicitement, qu une même variable secondaire avait toujours la même valeur
Plus en détailInterface PC Vivago Ultra. Pro. Guide d'utilisation
Interface PC Vivago Ultra Pro Guide d'utilisation Version 1.03 Configuration de l'interface PC Vivago Ultra Configuration requise Avant d'installer Vivago Ultra sur votre ordinateur assurez-vous que celui-ci
Plus en détailService de réplication des données HP pour la gamme de disques Continuous Access P9000 XP
Service de réplication des données HP pour la gamme de disques Continuous Access P9000 XP Services HP Care Pack Données techniques Le service de réplication des données HP pour Continuous Access offre
Plus en détail