Combinaison de classifieurs pour la reconnaissance de mots arabes manuscrits

Transcription

1 République algérienne démocratique et populaire Ministère de l enseignement supérieur et de la recherche scientifique Université Mentouri Constantine Faculté des Sciences de l Ingénieur Département d Informatique Thèse Présentée pour obtenir le diplôme de Docteur en sciences Délivré par l Université de Mentouri Spécialité : Informatique Par : Leila CHERGUI Combinaison de classifieurs pour la reconnaissance de mots arabes manuscrits Mr Mohamed-Khireddine Kholladi Président Professeur, Université Mentouri de Constantine Mr Salim Chikhi Rapporteur Professeur, Université Mentouri de Constantine Mme Sihem Mostefai Examinateur M.C.A, Université Mentouri de Constantine Mr Abdelmadjid Zidani Examinateur Professeur, Université Hadj Lakhdar de Batna Mr Smaine Mazouzi Examinateur M.C.A, Université 20 aout 1955 de Skikda Année universitaire :

2

3 RÉSUMÉ Le travail présenté dans cette thèse est consacré à la conception d une nouvelle base de mots arabes manuscrits représentant des noms des communes algériennes, et au développement et l évaluation d un nouveau système de reconnaissance hors-ligne de mots arabes manuscrits basé sur une combinaison de trois classifieurs neuronaux qui sont : un Perceptron Multi-Couches (PMC), un réseau à base de fonctions radiales (RBF) et un réseau Fuzzy ART. Le système proposé utilise une méthode de reconnaissance globale, c'est-à-dire sans segmentation des mots en caractères. Pour cela, une série d opérations de prétraitement est appliquée aux images de mots, incluant : un lissage, une normalisation, une squelettisation, un redressement et une extraction de contour. Afin d extraire les primitives qui caractérisent les mots à classer, trois types de moments géométriques qui sont : les moments de Hu, les moments de Tchebichef et les moments de Zernike ont été utilisés ; chacun d eux a été exploité par un classifieur neuronal différent. L évaluation du système de reconnaissance proposé est menée sur les deux bases de mots : IFN/ENIT et la nouvelle base que nous avons conçue. Les résultats montrent que le système proposé donne de très bons résultats qui sont comparables à ceux des meilleurs systèmes de reconnaissance de mots arabes manuscrits présents dans la littérature. Mots-clés : Reconnaissance de l écriture arabe manuscrite, combinaison de classifieurs, Réseaux de neurones, Moments géométriques, Base de mots arabes. I

4 ABSTRACT This thesis is mainly dedicated to the design of a new database of Arabic handwritten words which represents names of Algerian villages and towns, and to the development of a new powerful offline recognition system of Arabic handwritten words based on a combination of three neuronal classifieurs which are: a Multi-Layer Perceptron (MLP), a Radial Basic Function network (RBF) and a Fuzzy ART network. The proposed system uses a global recognition method without a segmentation process of words to characters. For that purpose, some preprocessing operations are applied to images words, including: smoothing, normalization, thinning, and contour detection. To extract primitives used to classify words, three kindes of geometrical moments are used: Hu moments, Tchebichef moments and Zernike moments; each one of them was exploited by a distinct neuronal classifier. The evaluation of the proposed recognition system is done on both Arabic words databases: IFN/ENIT and our new database. The proposed system reports very good results which are comparable to the best systems of Arabic handwriting recognition presents in the literature. Keywords: Arabic handwriting recognition, combined classifiers, neural networks, geometrical moments, handwritten Arabic words databases. II

5 ملخص تعالج ھذه الرسالة عملية إنجاز بنك جديد من الكلمات العربية المكتوبة والتي تمثل أسماء بلديات الجزائر, وكذا إنشاء نظام جديد للتعرف على الكلمات العربية المكتوبة والذي يتمحور حول دمج ثالثة مصنفات. الھدف ھو اقتراح نظام فعال يستعمل الشبكات العصبية االصطناعية كمصنفات. نبدأ أوال بتطبيق مجموعة من العمليات المخصصة للمعالجة األولية و التي تتضمن توحيد الحجم,تقليص سمك الخط, و إزالة ميالن الكلمات. باإلضافة إلى ھذا سنستخلص مجموعة سمات من الكلمات المستعملة بإتباع ثالثة طرق مختلفة و المتمثلة في أعداد,Hu أعداد, Zernike و أعداد.Tchebichef الطريقة المقترحة ذات تصنيف شامل للكلمات و ال تتطرق إلى تقسيم أولي للكلمات إلى حروف. النتائج المتحصل عليھا باستخدام بنك الكلمات العربية, IFN/ENIT و كذا البنك الجديد المنجز في ھذه الرسالة تبين أن النظام المقترح فعال مقارنة بنتائج أنظمة أشھر الباحثين في ھذا الميدان. المفاتيح : التعرف على الخط المكتوب, الشبكات العصبية االصطناعية, األعداد دمج الھندسية, المصنفات, بنك الكلمات. III

6 REMERCIMENTS Avant toute chose, je remercie dieu tout puissant de m avoir aidé et éclairé le chemin pour la réalisation de cette thèse. Je tiens à exprimer mes remerciements et ma vive gratitude : A mon mari qui m a beaucoup aidé. A Monsieur Chikhi Salim qui m a permis, grâce à sa confiance et son soutien précieux, de réaliser et surtout de mener à terme ce travail. A Monsieur Mohamed-Khireddine Kholladi qui me fait l'honneur de présider le jury de ma thèse. A Madame Sihem Mostefai, à Monsieur Abdelmadjid Zidani et à Monsieur Smaine Mazouzi qui ont accepté d'être les rapporteurs de ce travail, je les remercie tout particulièrement pour l'attention et le temps qu'ils y ont consacrés. A tous ceux qui ont contribué au remplissage des formulaires ayant permis la conception de la base de noms des communes algériennes. Enfin, je voudrais remercier ma famille et en particulier ma mère et mon père qui m'ont donné l'éducation sans laquelle je n'en serais pas là aujourd'hui. IV

7 DÉDICACES Je dédie ce mémoire à mon mari qui m a beaucoup soutenu et encouragé. Aux deux personnes que je chérisse le plus au monde : Mon père et Ma mère. A la mémoire de mes deux grands-mères. A mes trois frères : Moustafa, Omar et Fouad. A mes quatre sœurs : Samra, Rima, Imen et Maroi. V

8 LISTE DES FIGURES Figure 1.1 Figure 1.2 Figure 1.3 Figure 1.4 Figure 1.5 Cursivité de l écriture arabe.13 Exemple de pseudo-mots constituant des mots arabes Deux types de textes arabes avec et sans signes de voyelles Mots arabes incluant la Hamza, la Chadda et la Madda "ئ" et "ج" Elongations horizontales des lettres " أوالدحملة " mot Figure 1.6 Présence des chevauchements verticaux dans le Figure 1.7 Figure 1.8 Figure 2.1 L article défini ال" " dans deux mots arabes Exemples de caractères arabes écrits suivant différentes fontes Le Perceptron simple Figure 2.2 Frontière de décision engendrée par un Perceptron simple dans 2 l espace IR Figure 2.3 Architecture d un Perceptron Multi-Couches à une seule couche cachée Figure 2.4 Figure 2.5 Figure 2.6 Figure 2.7 Figure 2.8 Exemples de fonctions de transfert d un PMC Principe de la validation croisée Réseau de neurones à fonction radiale de base Gaussiennes avec trois différentes déviations standards Exemple du problème de l augmentation du nombre de neurones dans un réseau RBF Figure 2.9 Représentation schématique du principe du modèle ART VI

9 Liste des figures Figure 2.10 Architecture du réseau Fuzzy ART...60 Figure 2.11 Frontière autour d un point quand β= Figure 2.12 Frontière autour d un point quand β=0.5, après une seconde présentation du point...64 Figure 3.1 Figure 3.2 Figure 3.3 Figure 3.4 Figure 3.5 Figure 3.6 Figure 3.7 Figure 4.1 Figure 4.2 Figure 4.3 Figure 4.4 Figure 4.5 Figure 4.6 Figure 4.7 Figure 4.8 Schéma de combinaison séquentielle de classifieurs Système de reconnaissance de sous-mots d Al-Ohali Schéma de combinaison séquentielle utilisé par Al-Maadeed Méthode de combinaison adoptée par Benouereth Principe de la combinaison parallèle Combinaison hybride de classifieurs Méthodes de combinaison parallèle Exemplaire N 15 du formulaire N Exemplaire N 12 du formulaire N Exemple d un formulaire scanné avant filtrage..101 Application du filtre médian Exemple d un formulaire binarisé Exemples de nom d images de deux mots de notre base 106 Nombre de communes par wilaya Nombre de caractères, de sous-mots et de mots dans les ensembles de notre base..115 Figure 4.9 Nombre de noms de communes selon le nombre de mots les constituant..116 Figure 4.10 Statistiques des mots selon le nombre de sous-mots les composant Figure 4.11 Répartition des mots selon leur nombre de lettres dans notre base Figure 4.12 Nombre de scripteurs par wilaya VII

10 Liste des figures Figure 5.1 Architecture générale de notre système de reconnaissance de mots arabes manuscrits Figure 5.2 Figure 5.3 Figure 5.4 Figure 5.5 Figure 5.6 Figure 5.7 Figure "أكودة" Lissage du mot "تنس" Lissage du mot "سيدي مطير" Normalisation du mot 127 "أوالد حملة" Normalisation du mot Redressement du mot "الناضور" de la base IFN/ENIT.128 Redressement du mot "سالي" extrait de notre base "سيدي الظاھر" Squelettisation du mot "أوالد عباس " mot Figure 5.9 Squelettisation du "المرسى" Figure 5.10 Application de l opération d érosion sur le mot "المرسى" Figure 5.11 Application de l opération de dilatation sur le mot "المرسى " mot Figure 5.12 Étapes de calcul du contour final du 132. "كسرى" Figure 5.13 Extraction du contour du mot "برج باجي مختار" Figure 5.14 Extraction du contour du mot Figure 5.15 Principe général de l algorithme de rétropropagation du gradient Figure 5.16 Changement du taux de reconnaissance du PMC selon le nombre de neurones cachés Figure 5.17 Evolution du taux de reconnaissance selon le nombre d itérations d apprentissage du PMC.150 Figure 5.18 Changement du taux de reconnaissance du réseau RBF selon le nombre de neurones cachés Figure 5.19 Evolution du taux de reconnaissance du réseau RBF selon le nombre de passes d apprentissage Figure 5.20 Principe d algorithme d apprentissage de Fuzzy ART VIII

11 Liste des figures Figure 5.21 Nombre de classes détectées suivant les valeurs du paramètre de vigilance Figure 5.22 Evolution du taux de reconnaissance selon le nombre d itérations d apprentissage de Fuzzy ART Figure 5.23 Temps d apprentissage des trois classifieurs sur la base IFN/ENIT Figure 5.24 Temps d apprentissage des trois classifieurs sur notre base Figure 5.25 Evolution du taux de reconnaissance selon la taille du lexique (la base IFN/ENIT) Figure 5.26 Evolution du taux de reconnaissance selon la taille du lexique (la base de noms de communes algériennes) Figure 5.27 Exemples de mots mal-écrits Figure 5.28 Performances du PMC selon la taille des mots (base IFN/ENIT)..157 Figure 5.29 Performances du réseau RBF selon la taille des mots (base IFN/ENIT) Figure 5.30 Performances de Fuzzy ART selon la taille des mots (base IFN/ENIT) 157 Figure 5.31 Performances du PMC selon la taille des mots (notre base) Figure 5.32 Performances du réseau RBF selon la taille des mots (notre base) 158 Figure 5.33 Performances de Fuzzy ART selon la taille des mots (notre base). 158 Figure 5.34 Changement du taux de reconnaissance des règles de combinaison selon le nombre de classes reconnues dans la base IFN/ENIT.159 Figure 5.35 Changement du taux de reconnaissance des règles de combinaison selon le nombre de classes reconnues pour notre base. 159 IX

12 LISTE DES TABLEAUX Tableau 1.1 Tableau 1.2 Tableau 1.3 Tableau 1.4 Tableau 1.5 Tableau 1.6 L alphabet arabe Lettres arabes ayant des points diacritiques Différents hampes et jambages dans les lettres arabes Différentes positions du Hamza sur les trois voyelles Lettres arabes ayant des corps identiques Primitives utilisées dans les systèmes de reconnaissance de mots arabes manuscrits hors-lignes Tableau 1.7 Classifieurs utilisés dans les systèmes de reconnaissance de mots arabes manuscrits hors-lignes...36 Tableau 3.1 Tableau 3.2 Tableau 3.3 Tableau 4.1 Tableau 4.2 Tableau 4.3 Tableau 4.4 Tableau 4.5 Tableau 4.6 Tableau 4.7 Tableau 4.8 Les différents systèmes participant à la compétition ICDAR Résultats obtenus par Ebrahinpour [91] Résultats des deux approches de combinaison hybride [227] Exemples de mots inclinés 105 Nombre de mots dans les sous-ensembles d apprentissage et de test Noms communs de communes répétées dans les wilayas algériennes.112 Statistiques du premier ensemble (wilayas N 1 N 12) Statistiques du deuxième ensemble (wilayas N 13 N 24)..113 Statistiques du troisième ensemble (wilayas N 25 N 36) Statistiques du quatrième ensemble (wilayas N 37 N 48). 115 Statistiques des mots commençant par le même sous-mot X

13 Liste des tableaux Tableau 4.9 Mots ayant autant de caractères que de sous-mots 117 Tableau 4.10 Nombre de scripteurs partitionné selon leur âge Tableau 4.11 Nombre de scripteurs selon leur profession Tableau 5.1 Les 10 premiers moments de Tchebichef calculés à partir des échantillons "نقة" du mot Tableau 5.2 Les 10 premiers moments de Tchebichef calculés à partir des contours du 134. "نقة" mot Tableau 5.3 Les 10 premiers moments de Tchebichef calculés à partir des squelettes du " نقة mot" Tableau 5.4 Les 10 premiers moments de Tchebichef calculés à partir des échantillons " سيدي عبد الرحمان" du mot Tableau 5.5 Les 10 premiers moments de Tchebichef calculés à partir des contours du "سيدي عبد الرحمان" mot Tableau 5.6 Les 10 premiers moments de Tchebichef calculés à partir des squelettes du 136. "سيدي عبد الرحمان" mot Tableau 5.7 Les 10 premiers moments de Zernike calculés à partir des échantillons du 139. "سبعة آبار " mot Tableau 5.8 Les 10 premiers moments de Zernike calculés à partir des squelettes des "سبعة آبار " mot échantillons du Tableau 5.9 Les 10 premiers moments de Zernike calculés à partir des contours des "سبعة آبار " mot échantillons du Tableau 5.10 Les 10 premiers moments de Zernike calculés à partir des échantillons du "بوقادير" mot Tableau 5.11 Les 10 premiers moments de Zernike calculés à partir des squelettes des "بوقادير" échantillons du mot XI

14 Liste des tableaux Tableau 5.12 Les 10 premiers moments de Zernike calculés à partir des contours des "بوقادير" échantillons du mot.144 "ربايع سيدي الظاھر " mot Tableau 5.13 Les sept moments de Hu de trois échantillons du "ربايع سيدي الظاھر " mot Tableau 5.14 Les sept moments de Hu des squelettes du.145 "ربايع سيدي الظاھر " mot Tableau 5.15 Les sept moments de Hu des contours du..146 "عين سيدي علي " mot Tableau 5.16 Les sept moments de Hu de trois échantillons du "عين سيدي علي " mot Tableau 5.17 Les sept moments de Hu des squelettes du. 146 "عين سيدي علي " mot Tableau 5.18 Les sept moments de Hu des contours du Tableau 5.19 Architecture et performances des trois PMCs testés 150 Tableau 5.20 Taux de reconnaissance des trois classifieurs utilisés séparément 155 Tableau 5.21 Taux de reconnaissance des trois règles de combinaison..160 Tableau 5.22 Performances des systèmes de reconnaissance de mots arabes manuscrits sur la base IFN/ENIT 161 XII

15 LISTE DES ABRÉVIATIONS ART BMP HMM JPEG K-ppv MCS NSHMM OCR PHMM PMC RBF RF SVM TH THG TIFF : Théorie de la Résonance Adaptative (Adaptative Resonance Theory). : Bit MaP : Chaîne de Markov Cachées (Hidden Markov Models). : Joint Photographic Expert Group : K-plus proches voisins. : Système basé sur la combinaison des classifieurs (Multi Classifier System) : Chaîne de Markov Cachées Non Stationnaire (No-Stationary Hidden Markov Models). : Système de Reconnaissance d Ecriture (Optical Character Recognition). : Chaîne de Markov Cachées Planaires (Planar Hidden Markov Models). : Perceptron Multi Couches. : Réseau à Base de Fonction radiale : Reconnaissance de Formes. : Machine à Vecteur du Support (Separator Vaste Marge). : Transformée de Hough. : Transformée de Hough généralisée. : Tagged Image File Format XIII

16 TABLE DES MATIÈRES RÉSUMÉ I ABSTRACT..II III..... ملخص REMERCIEMENTS IV DÉDICACES.....V LISTE DES FIGURES.....VI LISTE DES TABLEAUX...X LISTE DES ABRÉVIATIONS. XIII TABLE DES MATIÈRES.1 INTRODUCTION GÉNÉRALE 5 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite Introduction Caractéristiques de l écriture arabe Processus de reconnaissance de mots arabes manuscrits Prétraitement Segmentation Extraction de caractéristiques Reconnaissance Post-traitement Conclusion

17 Table des matières Chapitre 2 : Les réseaux de neurones Introduction Le Perceptron Multi-Couches Le Perceptron simple Structure du Perceptron Multi-Couches Apprentissage d un PMC Avantages et inconvénients d un PMC Les réseaux à Fonction Radiale de Base Architecture d un réseau RBF Entrainement d un RBF Différence entre un RBF et un PMC Difficultés et avantages Les réseaux Fuzzy ART Algorithme d apprentissage Paramètres du réseau Fuzzy ART Avantages et limites du réseau Fuzzy ART Conclusion 65 Chapitre 3 : Combinaison des classifieurs Introduction Méthodes de combinaison de classifieurs Combinaison séquentielle Combinaison parallèle Combinaison hybride Approches de combinaison parallèle sans apprentissage Approches de type classe

18 Table des matières Approches de type rang Approches de type mesure Approches de combinaison parallèle avec apprentissage Approches de type classe Approches de type rang Approches de type mesure Conclusion...94 Chapitre 4 : La base de noms de communes algériennes Introduction Acquisition Prétraitements appliqués à la base Filtrage Binarisation Stockage des mots de la base Statistiques Conclusion Chapitre 5 : Implémentation du système proposé Introduction Prétraitement Lissage Normalisation Redressement Squelettisation Extraction du contour Extraction de caractéristiques

19 Table des matières Les moments de Tchebichef Les moments de Zernike Les moments de Hu Classification Entrainement des classifieurs Comparaison des résultats de reconnaissance des classifieurs Combinaison des classifieurs Comparaison de nos résultats avec d autres systèmes Conclusion CONCLUSION GÉNÉRALE 163 PUBLICATIONS PERSONNELLES 165 GLOSSAIRE..167 ANNEXE 1 : Moments de Tchebichef ANNEXE 2 : Moments de Zernike 175 ANNEXE 3 : Moments de Hu 178 BIBLIOGRAPHIE.179 4

20 INTRODUCTION GNÉRALE L écriture manuscrite demeure aujourd'hui l'un des moyens de communication les plus simples et les plus expressifs, permettant d'exprimer l'identité et la culture d'un individu. L'écriture manuscrite a ainsi su s'imposer comme un fondement de nombreuses civilisations. Aujourd'hui, malgré l'avènement des nouvelles technologies, elle reste un moyen de communication incontournable. La reconnaissance de l'écriture manuscrite demeure un sujet de recherche vivace et vaste. Elle a connu ces dernières années de grands progrès, et les succès des travaux de recherches ont donné lieu à de nombreuses applications industrielles, notamment dans le domaine de la lecture automatique de formulaires, de chèques ou d'adresses postales. La reconnaissance de l écriture manuscrite regroupe deux types de systèmes qui se distinguent par la nature du support d écriture qu ils ont à traiter : - Les systèmes de reconnaissance d écriture les plus utilisés et qui constituent l objet principal de notre étude, sont qualifiés de systèmes hors-lignes ou statiques s attachent à la reconnaissance de l écriture présente sur un support classique (ex : papier). Après numérisation, le support informatique des données écrites, est une image. L objectif n est pas d établir une interaction directe entre un scripteur et la machine, mais de traiter des documents classiques de manière automatique. Les domaines d applications les plus typiques sont principalement associés au traitement automatique des adresses postales, des montants des chèques ou encore des bordereaux de livraisons. - Le deuxième mode d acquisition concerne les systèmes de reconnaissance d écriture qualifiés de systèmes en-lignes ou dynamiques. La reconnaissance de l écriture s effectue pour ces systèmes, le plus souvent, au moment où le scripteur écrit ; l acquisition est alors réalisée au moyen d un stylet et d une tablette électronique, qui peut être assimilée directement à un écran (ex : papier électronique). 5

21 Introduction générale L information récupérée par le biais de ce moyen d acquisition correspond au suivi de la trajectoire de la pointe du stylet sur la tablette, qui est mémorisée sous la forme de signaux dépendants du temps, c est-à-dire d une séquence de coordonnées de points ordonnées dans le temps (x(t), y(t)). Les applications concernées par ces systèmes de reconnaissance sont principalement les interfaces orientées stylo qui cherchent à intégrer l écriture manuscrite comme une nouvelle modalité d interaction entre l homme et la machine. On distingue généralement deux grands types d approches permettent de faire face au problème de l interdépendance de la reconnaissance et de la segmentation du tracé manuscrit, à savoir l approche analytique et l approche globale. - L approche analytique cherche à isoler puis à identifier les unités significatives du tracé d un mot correspondant a priori aux lettres qui le composent. Cette approche se heurte, par conséquent, directement au problème de l interdépendance des opérations de segmentation (pour isoler les lettres) et de reconnaissance (pour identifier les lettres). La stratégie classiquement utilisée pour faire face à ce problème consiste à émettre un ensemble d hypothèses de segmentation qui sont ensuite vérifiées pendant la phase de reconnaissance. La difficulté majeure rencontrée par une approche de type analytique est alors d obtenir de manière robuste les bonnes hypothèses de segmentation. Cette approche a l avantage de pouvoir gérer des vocabulaires ouverts, puisqu elle utilise une analyse du tracé des mots à partir des unités élémentaires qui les composent (nombre limité de représentants) - Pour éviter le problème de la segmentation du tracé d un mot en lettres, l approche globale considère le tracé du mot dans sa globalité comme étant la forme à reconnaître. Cette approche ne peut alors être envisagée que pour des vocabulaires de petites tailles (quelques centaines de mots), puisque chacun des mots du vocabulaire doit faire l objet d une modélisation. Dans le cadre d applications de reconnaissance ne nécessitant qu un vocabulaire restreint, une approche globale qui est beaucoup plus simple qu une approche analytique, permettra de concevoir des systèmes de reconnaissance aux performances très intéressantes ; et ceci en s appuyant sur une caractérisation relativement simple de la forme globale du mot. Souvent, les systèmes de reconnaissance en-lignes soient-ils ou hors-lignes ont exploité les puissances prouvées au fil des années des classifieurs neuronaux. Les réseaux de neurones 6

22 Introduction générale sont une alternative permettant de traiter différents signaux issus d un système de mesure. En effet, ces architectures, composées de plusieurs modules interconnectés appelés neurones, peuvent être entraînés à partir d un nombre limité de données expérimentales, de manière à approcher une fonction ou effectuer des opérations de classification sur un intervalle bien défini. De plus, leur caractère paramétrable les rendent aisément reconfigurables en fonction des conditions d expérimentation. Aussi, ils offrent la possibilité d être implantés directement au sein d une application. Le schéma principal des systèmes de reconnaissance de mots cursifs s'articule généralement autour de cinq étapes : un prétraitement, une segmentation, une extraction de caractéristiques, une reconnaissance et un post-traitement. L étape de segmentation est liée à l approche de reconnaissance utilisée, si elle est globale cette étape est à exclure. L étape de post-traitement est généralement ajoutée à la fin du processus de reconnaissance, elle procède par intégration d informations supplémentaires et/ou complémentaires. Dans notre travail, on a combiné trois types de réseaux de neurones. Cette initiative est adoptée afin de tirer partie des avantages de tous les classifieurs simultanément, ce qui aura un effet de recouvrement et de complétude du système résultant. Plusieurs travaux dans la littérature ont prouvé la supériorité des systèmes utilisant des classifieurs combinés par rapport à ceux basés sur un seul classifieur. La combinaison des classifieurs peut être également employée pour minimiser le temps requis pour atteindre une performance déterminée. L'optimisation des classifieurs peut prendre beaucoup de temps. Une pertinence élevée d un système de reconnaissance peut être réalisée par un processus de fusion même si les différents classifieurs ne sont pas entièrement optimisés. Un autre avantage de la combinaison de classifieurs est de pouvoir employer différents types de caractéristiques. Un classifieur simple repose en général sur seulement un type de vecteur de caractéristiques utilisé comme donnée. Tandis qu'avec une méthodologie de combinaison, différents types de caractéristiques distribuées dans plusieurs classifieurs peuvent être combinés pour bénéficier des avantages de chacun collectivement. Les travaux effectués dans le cadre de cette thèse portent sur la reconnaissance de mots arabes manuscrits hors-lignes omni-scripteurs. L objectif est de présenter une nouvelle architecture d OCR (Optical Character Recognition System) arabe basée sur trois types différents de réseaux de neurones ; un Perceptron Multi-Couches (PMC), un réseau à base de fonctions radiales (RBF) et un réseau Fuzzy ART ; et de l évaluer pour la première fois 7

23 Introduction générale sur une nouvelle base de mots arabes que nous avons créée et qui est aussi présentée dans cette thèse. Cette thèse est subdivisée en cinq chapitres : - Le premier chapitre sera consacré essentiellement à la description de la problématique associée à la reconnaissance de l écriture arabe manuscrite. Premièrement, nous mettrons l accent sur les caractéristiques de l écriture arabe. Nous présenterons par la suite l architecture générale d un système de reconnaissance d écriture manuscrite et nous proposerons un panorama des différentes stratégies et techniques proposées dans le cadre de la reconnaissance de mots isolés. Nous tenterons d en tirer partie pour envisager leur application à l écriture arabe en décrivant les différents systèmes de reconnaissances de l écriture arabe présentés dans la littérature. - Le deuxième chapitre présentera une revue de littérature complète et détaillée portant sur les trois familles de réseaux de neurones utilisés dans notre travail. L'objectif visé par ce chapitre est de mettre la lumière sur les avantages et les faiblesses liés à l utilisation de ces réseaux. Les types de réseaux décrits dans ce chapitre sont : le Perceptron-Multi-Couches, le réseau à base de fonctions radiales et le réseau Fuzzy ART. Pour chaque type nous présenterons son principe de fonctionnement, son éventuel algorithme d apprentissage, ses avantages et ses inconvénients. - Le troisième chapitre introduira les trois principales approches de combinaison de classifieurs ; l approche en série, l approche parallèle et l approche hybride. Pour chaque approche, nous analyserons les travaux réalisés dans le cadre de la reconnaissance de mots arabes manuscrits hors-lignes. Nous nous attarderons également sur les méthodes et les règles de l approche de combinaison parallèle. - Le quatrième chapitre montrera d une manière succincte les différentes étapes suivies pour concevoir notre nouvelle base de mots arabes représentant les noms de communes algériennes. Ici, nous indiquerons le format général du formulaire utilisé, ainsi que les différents prétraitements qui lui sont appliqués après sa numérisation. Nous donnerons aussi les différents formats utilisés pour le stockage des images et les différentes statistiques caractérisant la base créée. - Le cinquième chapitre présentera notre contribution à la reconnaissance hors-ligne de l écriture arabe manuscrite. Il regroupe la description des différentes expériences réalisées et l analyse des résultats obtenus. Nous présentons dans un premier temps l architecture de notre système de reconnaissance d écriture arabe manuscrite à 8

24 Introduction générale travers ses différentes étapes de prétraitement, d extraction de caractéristiques et de classification. Les performances du système proposé seront évaluées sur deux bases de mots arabes manuscrits; la base IFN/ENIT et notre base nouvellement créée. Les résultats montrent que le système proposé offre des performances comparables aux meilleurs systèmes présentés dans la littérature. Une conclusion portant sur nos apports au domaine de la reconnaissance de l écriture manuscrite, et sur nos perspectives de recherche clora la thèse. 9

25 Chapitre 1: Reconnaissance de l écriture arabe manuscrite

26 CHAPITRE 1 RECONNAISSANCE DE L ÉCRITURE ARABE MANUSCRITE Sommaire 1.1 Introduction Caractéristiques de l écriture arabe Processus de reconnaissance de mots arabes manuscrits Prétraitement Segmentation Extraction de caractéristiques Reconnaissance Post-traitement Conclusion...39

27 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite 1.1. Introduction Contrairement au Latin, la reconnaissance de l écriture arabe manuscrite reste encore aujourd hui au niveau de la recherche et de l expérimentation. Cependant et depuis quelques années elle a pris un nouvel essor et fait l objet d applications de plus en plus nombreuses. Parmi ces applications, nous citons le traitement automatique des dossiers administratifs, des formulaires d enquêtes, des chèques bancaires, numérisation et sauvegarde du patrimoine culturel manuscrit, etc. Dans ce chapitre nous présenterons dans un premier temps les caractéristiques de l écriture arabe. Nous décrirons ensuite les différentes étapes constituant un système de reconnaissance d écriture manuscrite hors-ligne. Pour chaque étape nous examinerons les différents travaux réalisés dans le cadre de la reconnaissance de mots arabes manuscrits. Nous terminons le chapitre par une conclusion portant sur les domaines d application de la reconnaissance d écriture Caractéristiques de l écriture arabe L écriture arabe est descendue de l écriture nabatéenne, l ascendante directe de l écriture araméenne ancienne qui est un rejeton de l alphabet phénicien. De là, par dérivations et altérations, allait naître l alphabet arabe qui restera longtemps, et définitivement jusqu à nos jours, proche de son ancêtre. L écriture arabe est donc née aux alentours du VI ème siècle de l écriture cursive nabatéenne. Elle possède plusieurs caractéristiques qui sont : 1. L alphabet arabe comporte 28 lettres fondamentales. Contrairement à l alphabet latin, chacune des lettres arabes se décline sous plusieurs formes suivant sa place dans le mot : début (D), milieu (M), fin (F), et isolée (I) [143] comme il est montré dans le tableau 1.1. On distingue 22 lettres de l'alphabet, ayant quatre formes d'écriture. Les six restantes ne peuvent être rattachées à leurs successeurs et donc elles n'ont que deux formes. Citons comme titre d exemple la lettre «د». 12

28 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite Nom de caractère I D M F Nom de caractère I D M F Tableau 1.1. L alphabet arabe. 2. Contrairement aux écritures occidentales qui s écrivent de gauche-à-droite, l arabe s écrit de droite-à-gauche. 3. Il n y a pas de différence entre les lettres manuscrites et les lettres imprimées. Les notions de lettre capitale et lettre minuscule n existent pas, l écriture est donc monocamérale. 4. La plupart des lettres s attachent entre elles, même en imprimé, ce qui offre à l écriture arabe la caractéristique de cursivité [217], la figure 1.1 illustre un exemple tiré du sacré Coron. Figure 1.1. Cursivité de l écriture arabe. 5. Un caractère arabe peut contenir un trait vertical (TAA( ط )), un trait oblique (KAF [35]. )) أ (ALIF( ou un zigzag ((كل) 13

29 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite 6. Les caractères arabes ne possédant pas une taille fixe (hauteur et largeur), leur taille varie d un caractère à un autre et d une forme à une autre à l intérieur d un même caractère. 7. Comme on a indiqué précédemment six lettres ne s attachent jamais à la lettre suivante :,"د","ر","ز","أ","ذ" et,"و" de ce fait, un mot unique peut être entrecoupé d un ou plusieurs espaces donnant plusieurs pseudo-mots ou composantes connexes ou également sous-mots [133], ce qui est le cas du mot représenté dans la figure 1.2. Un pseudo-mot est une unité connexe regroupant une ou plusieurs lettres sous forme d une séquence. En manuscrit, l espacement entre les différents pseudo-mots d un même mot n est pas forcément systématiquement supérieur à l espacement entre deux mots différents, ce qui pose parfois des problèmes de segmentation. 5 sous-mots 1 sous-mot Figure 1.2. Exemple de pseudo-mots constituant des mots arabes. 8. Les caractères arabes sont majoritairement des consonnes, on trouve seulement."ي" " et ا" ", و" ; voyelles trois caractères dans la langue arabe qui représentent les Une bonne partie de la vocalisation étant produite par les signes diacritiques [8]. 9. Certains mots se différencient seulement par des signes diacritiques d où leur importance pour la reconnaissance de mots. Ces signes peuvent se situer au-dessus ou au-dessous du caractère, mais jamais en haut et en bas simultanément [78]. Les signes diacritiques dans la langue arabe sont donc plus nombreux et variés que pour les caractères latins. On trouve quatre signes de voyellation qui peuvent se placer en dessous tels que Kasrah "- " et des signes de voyellation qui peuvent se situer au dessous tels que Fatha "- ", Dhamma "- ", et Soukoun "- ". De plus trois tanwin peuvent être formés à partir d'un double Fatha "- ", d'un double Dhamma "- " ou d'un double Kasrah "- ". 10. Selon la caractéristique précédente, on peut distinguer deux types de textes: les textes avec ou sans les signes de voyelles. Quelques textes arabes (le sacré Coran et 14

30 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite les livres d'apprentissage de la lecture et de l'écriture pour les enfants) contiennent des signes de voyelles tandis que les autres tels que les journaux et les publications sont des textes sans signes. Le même texte sans et avec voyelles est présenté dans la figure 1.3. إن الحمد نحمده و نستعينه و نستغفره و نعوذ با من شرور أنفسنا و سيئات أعمالنا من يھده الله فال مضل له ومن يضلل فال ھادي له و أشھد أن ال إله إال الله وحده ل Figure 1.3. Deux types de textes arabes avec et sans signes de voyelles. 11. Il existe aussi d autres types de signes diacritiques qui sont la Hamza "- ء ", la Chadda "- " et la Madda "-~". La Chadda est une accentuation de la lettre (c est l équivalent d une consonne doublée) qui doit être accompagnée de l'une des signes de voyellations; Fatha, Dhammah ou Kasrah. La Hamza quand à elle possède une orthographe spéciale qui dépend de règles grammaticales, ce qui multiplie les formes nécessaires à sa représentation. La Madda suit des contraintes morphosyntaxiques plus complexes où deux Alifs sont combinés. La figure 1.4 présente des exemples des mots contenant ces types de signes. La Madda La Chadda La Hamza Figure 1.4. Mots arabes incluant la Hamza, la Chadda et la Madda. 12. La plupart des caractères sont composés de boucles et de courbes, souvent tracées dans le sens horaire. 13. La bande centrale est généralement la plus chargée au point de vue densité d'informations en pixels [36]. Elle correspond à l emplacement des ligatures horizontales, aux caractères centrés et aux boucles, on l appelle ligne de base. 15

31 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite 14. Dans l alphabet arabe, 15 lettres parmi les 28 possèdent un ou plusieurs points. Ces points diacritiques sont situés soit au-dessus, soit en dessous de la forme à laquelle ils sont associés, mais jamais les deux à la fois. Le nombre maximal de points que peut avoir une lettre est de trois points au-dessus du caractère, ou deux points endessous. Ces points permettent de différencier la prononciation des lettres arabes. Le tableau 1.2 présente les lettres ayant des points diacritiques ainsi que leurs nombres et positions. Position Au dessous Au dessus Nombre de points Un point diacritique Deux points diacritiques ن ف غ ظ ض ز خ ج ب ق ت ي Trois points diacritiques ث ش Tableau 1.2. Lettres arabes ayant des points diacritiques. 15. En écriture arabe, il n y a pas de liaisons hautes comme le v ou le o en latin : les ligatures se situent au niveau de la ligne support de l écriture qui est la ligne de base. En revanche, les scripteurs sont libres de constituer certains groupes de deux ou trois lettres liées verticalement en début de pseudo-mot. Ce sont les ligatures verticales qui sont utilisées pour des raisons d esthétique. Ces symboles peuvent être reconnus tels quels sont. Les ligatures sont donc des combinaisons de deux lettres ou plus. L écriture arabe nécessite un grand nombre de ligatures pour être composée de façon satisfaisante. On peut classifier les ligatures typographiques en trois types qui sont : - Les ligatures linguistiques, ce sont celles qui sont obligatoires. Elles obéissent à des règles grammaticales. L exemple le plus pertinent est la ligature arabe Lam-Alif. - Les ligatures esthétiques, ce sont celles qui ne sont pas indispensables et que l on peut remplacer par leurs composantes non liées. - Les ligatures contextuelles, ce sont les variantes de position dans un processus de composition de texte. 16

32 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite 16. La présence des élongations horizontales qui correspondent à insérer entre les caractères d'une même chaîne une ou plusieurs élongations, ces élongations se situent toujours à gauche du caractère courant et des ligatures verticales. La figure 1.5 présente un mot arabe contenant deux ligatures horizontales des deux caractères."ء" et "ج"."ي " et "ج" Figure 1.5. Elongations horizontales des lettres 17. La présence de chevauchements verticaux qui peuvent se produire par l intersection des composantes connexes (pseudo-mots), ou des mots comme montre l exemple de la figure 1.6 où on trouve deux types de chevauchements le premier est entre le caractère و" "et le caractère ل" " tandis que le deuxième concerne les deux mots : ". حملة " "et أوالد" Chevauchement entre deux mots Chevauchement entre deux caractères ". أوالد حملة " mot Figure 1.6. Présence des chevauchements verticaux dans le 18. Comme dans l écriture latine, l écriture arabe contient des ascendants et des descendants. En arabe, les descendants ou les jambages peuvent se prolonger horizontalement sous la bande de base, ce qui introduit une superposition verticale entre la lettre qui comprend le descendant et la lettre suivante. Le tableau 1.3 donne les différentes lettres arabes possédant des hampes et des jambages. Tableau 1.3. Différents hampes et jambages dans les lettres arabes. 17

33 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite 19. Le signe diacritique Hamza (le zigzag), peut se comporter, soit comme une lettre à part entière, soit comme un diacritique, la hamza peut s écrire : ", الس ماء" : exemples - Seule au milieu ou bien à la fin du mot,."القراءة " - Sur le support de trois voyelles (alif, waw, ya) comme il est montré dans le tableau Avec le caractère " ك " dans sa forme séparée ou finale pour le ". ل " caractère différencier du Caractère ا ا و ى ٮ Caractère et hamza أ إ ؤ ئ ي Tableau 1.4. Différentes positions du Hamza sur les trois voyelles. 20. Contrairement à l écriture latine, les articles (le, la, les) font partie du mot auquel ils sont rattachés. La séquence ال" " (un pseudo mot qui contient la lettre ا" "isolée, suivi d un autre pseudo-mot qui commence par la lettre correspond ("ل " nécessairement au début d un mot [176]. La figure 1.7 indique le commencement des deux mots arabes "الرحمن" et "الرحيم" par cette séquence. Figure 1.7. L article défini ال" " dans deux mots arabes. 21. L écriture arabe est connue pour sa richesse en fontes et styles. Il existe environ 450 fontes d écritures différentes dont seulement quelques-unes sont couramment utilisées dans le monde arabo-musulman, nous citons à titre d exemple : le Neskhi, Thoulthi, Roqa, Diwani, Koufi, Farsi, etc. Le Neskhi demeure aujourd hui la fonte la plus utilisée pour l écriture imprimée. Chaque style arabe est régi par des lois particulières. D un style à un autre, les proportions d une même lettre et son dessin peuvent changer considérablement. Par exemple dans la fonte Roqa la lettre Alif est 18

34 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite plus petite que la lettre Ain, mais dans la fonte Koufi c est l inverse. La figure 1.8 présente la manière d écriture des caractères arabes,"أ" "ك" et "ي" dans différentes fontes. Figure 1.8. Exemples de caractères arabes écrits suivant différentes fontes. 22. Plusieurs groupes de caractères possèdent le même corps mais un nombre et/ou un emplacement de points diacritiques différents. Le tableau 1.5 affiche les caractères ayant le même corps. Comme il est indiqué dans le tableau 1.5, le caractère Alif- Maqsora ى" ", partage le même corps que le caractère "ي" mais sans points diacritiques, ce caractère apparait seulement à la fin du mot. Exemples: etc.,"مبتغى","ليلى" Tableau 1.5. Lettres arabes ayant des corps identiques Processus de reconnaissance de mots arabes manuscrits La reconnaissance de l'écriture arabe date des années 80. Depuis, les recherches se sont multipliées dans ce domaine. Certains chercheurs se sont intéressés à la reconnaissance enligne ou temps réel en utilisant des tablettes graphiques, ce qui simplifie en partie le problème en restituant le sens du tracé comme c était le cas pour Alimi [26], [128], Mezghani et al [177], [178], Saabni et El-Sana [209], Sternby et al [223], Daifalah et al [10], Elbaati et al [10], Hamdani et al [10], Graves [10], Halavati [10], Baghshah et al [10], El-Sheikh et al [128], El-Wakil [128], Al-Fakhri [128], Bin Omar [128], Al-Ammar et al [15], Omer et al [15], Saabni et al [15], Biadsy et al [15], Alsallakh et al [15], El-Emami et al [6], Rokbani et al [6], Beigi et al [6], Al-Habian et al [6], Tlemcani et Benyettou [226], Ahmed et Abdel Azeem [7], Elanwar et al [92], Nourzian et al [192] et Kherallah et al [141], [10]. D'autres se sont plus intéressés à l écriture imprimée, dont on cite à titre d exemple les travaux d Al-Muhtaseb [39], Al-Nassir et Suhail [40], Khorsheed [145], Ben Amara [57], Kammoun [130], Slimane et al [218], [219], Hassini et al [120], Mahmoud 19

35 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite [165], Pirsiavash et al [199], Hammami [118], Sarfraz [211], Ouis [218], Abuhaiba [159], Alkhoury [218], Parhami [159], Khemakhem et al [47], Fakir et al [24], Nouth et al [24], Alherbish et al [24], El-Gowely et al [74], Bushofa et Spann [74], Abdelazim et al [58], Al Badr et Haralick [18], Aissaoui et al [58], Bouhlila [58], Cheung et al [58], Goraine et Usher [58], Hassibi [58], El-Khay et Sid-Ahmed [58], Emam et al [58], Zidouri et al [58], Fehri [58], Haj-Hassen [58], Namazi et Faez [188] et Amin [47]. Certains ont préféré le travail sur le manuscrit en "Off-line" en utilisant un scanner ou une caméra pour la saisie des documents et qui est le cas pour notre recherche. Les travaux sur l écriture arabe manuscrite hors-ligne (Off-line) sont nombreux, ils se distinguent par l approche de reconnaissance utilisée, on trouve des systèmes basés sur l approche analytique effectuant la reconnaissance de caractères, dont les systèmes d Abuhaiba et al [4], Haraty et al [9], Rachidi et al [202], Romeo-Pakker et al [207], Dehghani [84], Amin [159], Ali [25], Mahmoud et Mahmoud [164], El-Sheikh [1], Aburas et al [5], Miled et al [180], El-Dabi [163], Jenabzade et al [127], Khedher et al [140], Al-Shaher [1], Obaid [36], Saleh [43], Al-Yousefi et Udpa [58], Sano et al [58], Touj et al [58], Khalil [138], Shanbehzadeh et al [215], Lawgali et al [155], Aljuaid et al [28], Khatatneh et al [139], Gheghout et Souici [106], Nibaran [187], Graves [187], Ben Halima et Alimi [187], Nahri et Kiani [187], Al- Jawfi [27], Hassini et al [119], Ziaratban et al [244] et Amrouch et al [49]. D autres chercheurs ont utilisé l approche globale, nous détaillerons les différentes phases constituant leurs systèmes ultérieurement. Un OCR (Optical Character Recognition) arabe englobe en général cinq étapes, ces étapes ne sont pas tous obligatoires, la première étape est le prétraitement où différentes opérations peuvent être effectuées, la deuxième est la segmentation, elle peut être explicite ou implicite suivie par l étape d extraction de caractéristiques, ensuite vient l étape de reconnaissance qui est l étape la plus importante où plusieurs classifieurs peuvent être utilisés, enfin l étape de post-traitement qui est une étape optionnelle servant à confirmer les résultats obtenus Prétraitement L étape de prétraitements qui est précédée par la phase d acquisition, typiquement au moyen d un scanner en noir et blanc ou en niveau de gris regroupe l ensemble des opérations visant au bon conditionnement du message écrit et qui sont indispensables à son identification. Elle inclut plusieurs opérations qui sont appliquées afin de réduire le volume 20

36 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite de données à traiter et à éliminer autant que possible les bruits et les variabilités [184]. Dans ce qui suit on va expliquer le principe de chaque opération en citant les travaux réalisés sur les mots arabes manuscrits. Binarisation : le principe de la binarisation est de transformer une image en niveau de gris en une image en noir et blanc, donc de séparer l information utile du fond de l image à l aide d une méthode de seuillage. Cette opération permet de réduire la qualité d informations à traiter, tout en conservant le signal à traiter dans sa quasi-intégralité. Dans une image en niveaux de gris, à chaque pixel est associée une luminosité allant de 0 à 255. Le seuil de binarisation correspond à la limite entre les contrastes forts et faibles de l'image. Plusieurs types de méthodes de binarisation existent. Les méthodes globales fixent un seuil de binarisation pour toute l'image telle que la méthode d Otsu [190], la méthode ISODATA [132], la méthode de Kapur [132], la méthode de Tsai [115], la méthode de Cheng-Chen et la méthode de Li-Lee [238]. Ces méthodes sont rapides mais peuvent donner des résultats non satisfaisants pour les images ayant une nuance non-uniforme. Pour ce type de binarisation la méthode la plus utilisée dans le domaine de la reconnaissance de l écriture arabe est celle d Otsu [132]. Dans les méthodes locales (ou adaptatives), le seuil dépend du voisinage de chaque pixel comme c est le cas pour la méthode de Bernsen [132], la méthode de Niblack [132], la méthode de Sauvola [132], la méthode de Wolf [132], la méthode de Nick [132], et la segmentation hiérarchique floue [132]. Fixer ce seuil est très difficile quand le contraste varie dans l'image [208]. Lissage : il permet de réduire au maximum les discontinuités introduites dans l image au cours des différentes transformations et ainsi de rétablir la régularité et la continuité du contour du mot. Le lissage consiste à examiner le voisinage d un pixel et de lui attribuer la valeur 1 si le nombre de pixel noir dans cette zone est supérieur à un seuil. Les différents types de filtres utilisés dans le lissage sont décrits dans [183]. Pour l écriture arabe le filtre médian est utilisé dans [146]. Normalisation des mots : elle permet de ramener les images de mots à des tailles standard. Cette opération peut être indispensable pour certains types de systèmes comme les réseaux de neurones. Il existe dans la littérature plusieurs méthodes et algorithmes de normalisation. La première méthode est basée sur le calcul de l'histogramme des transitions 21

37 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite horizontales. Après avoir détecté la position de la ligne de base, on doit centrer le mot par rapport au centre de la ligne de base. Puis, on met à l'échelle l'image résultante afin d'obtenir une image de hauteur constante. Azizi et al [53] ont utilisé l algorithme de Srihari [120]. Pechwitz et al [198] ont appliqué deux nouvelles méthodes de normalisation. Märgner et al [168] ont normalisé l angle d inclinaison et la hauteur des mots après la détection de la ligne de base. Enfin, Kessentini et al [135] ont appliqué une procédure de normalisation pour ramener l orientation du signal d écriture à l horizontale. Correction de l inclinaison des lignes : cette opération consiste à corriger la pente d un mot ou à redresser l inclinaison des lettres dans un mot afin de faciliter la segmentation. Plusieurs méthodes sont disponibles. Les deux plus populaires appliquées à l écriture arabe sont la transformée de Hough [73], [146] (appliquée sur les centre de gravité des composantes connexes), et les profils des histogrammes de projection [115], [23]. Estimation de la ligne de base : c est une ligne imaginaire sur laquelle s aligne l œil de toutes les lettres. Elle est définie comme la ligne sur laquelle reposent les lettres qui ne possédant pas de dépassement bas. On trouve dans la littérature plusieurs travaux de détection de ligne de base, les plus remarquables sont ceux : - D AL-Rashaideh [44] qui a proposé une méthode plus sophistiquée dépendante de l itération avec l angle. - Ziaratban [243] a proposé une nouvelle méthode d extraction de ligne de base basée sur la combinaison des zones clés avec des conditions spécifiques. - L approche appliquée par Kessentini [133] et Al-Hajj et al [23] quand à elle est basée sur le profil de projection vertical des densités des pixels le long de l axe horizontal. - Cette méthode a été appliquée aussi par Benouereth et al [62], en ajoutant l extraction des lignes de base inférieures et supérieures dans l'image du mot. - Alkhateeb et al [33], Nawaz et al [44], Sarfraz et al [44], Siyam et al [31], Farah et al [96], Dehghan et al [83], Cheriet et al [80], Nouar et al [191], Alkhateeb et al [31], et Pechwitz et al [196] ont utilisé l histogramme de projection horizontale. - Ding et al [87] et Bouafif et al [65] ont appliqué la transformé de Hough pour obtenir la ligne de base. 22

38 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite - Zaghdoudi et al [239] ont utilisé la méthode proposée par Blumenstein [239]. - Snoussi-Maddouri et al [220] ont appliqué six différentes méthodes à savoir ; la projection des histogrammes horizontales, la minimisation d entropie, la méthode basée sur le squelette, la transformée de Hough, la méthode Min-Max qui à partir du contour du mot calcule des points critiques, et enfin une combinaison de la méthode Min-Max et la position de quelques primitives structurelles comme les points diacritiques. Squelettisation : la procédure de squelettisation s effectue sur une image binaire, et a pour but de réduire l épaisseur du tracé d un mot à un pixel, tout en conservant la continuité de celui-ci. Le principe de cette procédure est d effectuer une succession d opérations d érosion conditionnelle, jusqu à ce que le but recherché soit atteint [68]. Dans le système de Menasri [176], le squelette est extrait à l aide d une version modifiée de l algorithme de Hilditch [122], utilisée pour la reconnaissance de l écriture latine. L algorithme de Zhang-Suen [79] était appliqué par Al-Ma adeed [36], Khorsheed [146] et Nouar et al [191]. Benouereth et al [62] ont appliqué d abord l algorithme de Pavlidis [194] pour préserver les points diacritiques, ensuite ils ont utilisé la méthode proposée par Al-Rashaideh [42]. Zahour et al [240] ont développé leur propre algorithme de squelettisation. Al-Shatnawi et al [45] ont appliqué deux algorithmes de squelettisation parallèle ; celui de Huang et celui de Zhang-Suen. Gagaoua et al [103] ont utilisé l algorithme de Nouh et al [103]. Cinq algorithmes de squelettisation ont été testés par Haji [115] à savoir l algorithme de SPTA (Safe-Point Thinning Algorithm), l algorithme de Zhang-Suen, l algorithme de DTSA (Decision Table Skeletonization Algorithm), et l algorithme de Hang. Enfin, Wshah et al [233] ont appliqué l algorithme de Chen et al [77]. Calcul du contour : le contour est utilisé comme étape préalable à un changement de représentation de l'information, en tant qu'empreinte des formes contenant une quantité réduite de données. Dans les images à niveaux de gris, il est intéressant d'extraire le contour à l'aide d'un calcul de gradient. Ce contour est alors d'autant plus marqué que le niveau des pixels résultant du gradient élevé. En revanche, dans les images binaires, il est plus avantageux d'utiliser un algorithme de suivi de contour car il fournit directement une liste ordonnée de points. 23

39 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite Une variante de l'algorithme de compensation de largeur de trait proposé par Hu et al [83] est appliquée par Dehghan. Miled et al [181] ont parcouru la forme à analyser du mot dans le sens contraire des aiguilles d'une montre en ne retenant que les codes "ouest", "nordouest" et "sud-ouest". Et enfin, Märgner et al [168] ont préféré d utiliser un algorithme séquentiel Segmentation En reconnaissance de l écriture manuscrite, les données à traiter sont des images. La mise en œuvre d une étape de segmentation permet de diviser l image en différentes imagettes de taille moins importantes qui peuvent être des graphèmes, des lettres ou bien des sousmots. Cependant une imagette reste une matrice de pixels. Il existe deux techniques permettant la mise en œuvre de la segmentation : Approches à segmentation explicite : les segmentations dites explicites ou discrètes effectuent une sélection des points de segmentation. Ces points peuvent être: 1. Des minima locaux du contour supérieur, ce type de point était utilisé par Sari et al [213], Olivier et al [193] et Ding et al [87]. 2. Des espaces entre les caractères ou bien les sous-mots, cette méthode était appliquée par Motawa et al [185], Lorigio et Govindaraju [160], Xiu [236], Kundu [154], Abdulkader [2] et Alkhateeb et al [33]. 3. Des points d intersection les plus probables par une analyse des composantes dans le mot. Le résultat de cette étape est la segmentation du mot en entités de base appelées graphèmes. On cite ici les travaux de Romeo-Pakker et al [206], Albaati [17], Wshah et al [233], Allmuallim et al [38], Charfi et al [75], Cheriet et al [80] et Zahour et al [240]. Une fois ces trois types de points de segmentation potentiels identifiés, il existe deux méthodes permettant de choisir la segmentation finale de la séquence de lettres: les méthodes dites de segmentation puis reconnaissance et les approches de segmentation/reconnaissance. Les approches de segmentation puis reconnaissance choisissent les meilleurs points de segmentation sans l'aide de la reconnaissance, alors que les méthodes de segmentationreconnaissance, beaucoup plus répandues, sont basées sur l'utilisation du moteur de reconnaissance de lettres pour valider et classer les hypothèses de segmentation. 24

40 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite Approches à segmentation implicite : pour contourner le difficile problème du choix des points de segmentation, les approches à segmentation implicite (ou continues) considèrent tous les points du tracé comme points de segmentation potentiels. La segmentation et la reconnaissance sont réalisées conjointement, d'où le nom parfois employé de segmentation-reconnaissance intégrée. Il s'agit de méthodes à fenêtres glissantes qui parcourent la séquence de lettres à l'aide d'une fenêtre de taille fixe, en extrayant des caractéristiques de bas niveau. L'analyse des fenêtres est effectuée soit par un classifieur classique, soit par des modèles dynamiques tels que les modèles de Markov cachés (HMM : Hidden Markov Model) [99] ou les réseaux de neurones à convolution [52], qui déterminent la classe d'appartenance de chaque fenêtre en fonction des fenêtres voisines. Les OCRs arabes basés sur une segmentation implicite par fenêtre glissante s appuient en général sur un reconnaisseur à base de HMM comme c est le cas pour les systèmes d Al Hajj et al [20], [21], [22] qui utilisent une fenêtre glissante de 4 ou 8 pixels de large; de Pechwitz et al [196] et de Märgner et al [168] qui utilisent une fenêtre glissante de 3 pixels de large. Xiang et al [234] ont choisi une fenêtre dont la hauteur égale à la hauteur du mot. Dans [62] et [60], Benouareth et al ont met en concurrence deux stratégies de segmentation en bandes verticales. La première méthode est uniforme et la deuxième stratégie de segmentation est non-uniforme. Le même principe était utilisé par Benzenache et al [63]. Graves et Schmidhuber [109] ont exploité une nouvelle méthode basée sur les réseaux de neurones récurrents multidimensionnels de type LSTM (Lonf Short-Term Memory) (MDLSTM) pour transformer le vecteur de primitives 2D vers un vecteur 1D Extraction de caractéristiques Une étape d extraction de caractéristiques est réalisée de manière à obtenir l information la plus discriminante pour la tâche de reconnaissance et également pour réduire le volume d informations qui sera fourni au système. C est une phase critique lors de la construction d un système de reconnaissance. L une des raisons pour laquelle cette étape pose un problème est qu une grande majorité des techniques d extraction s accompagne d une perte d information irrémédiable. De ce fait, il faut effectuer un compromis entre la quantité et la qualité de l information. L extraction de caractéristiques en reconnaissance de l écriture est confrontée au grand problème de la variabilité intra-classe. En effet, d un point de vue visuel, un mot peut prendre différentes formes, en fonction des scripteurs. L écriture étant propre à chaque 25

41 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite individu, le tracé résultant de l écriture d un même mot par deux personnes peut être bien différent. De plus, pour un même scripteur, un certain nombre de contraintes influencent la réalisation du tracé de son écriture. Nous pouvons citer entre autre l outil, le support et même l humeur de l individu. Dans la littérature, il existe un grand nombre de travaux concernant l extraction de caractéristiques pour la reconnaissance de l écriture arabe manuscrite. Afin de les présenter il est préférable d abord de les regrouper en catégories. Les différentes techniques d extraction sont classées en fonction des types de primitives : caractéristiques globales, caractéristiques structurelles, caractéristiques morphologiques, caractéristiques de contour, caractéristiques statiques, caractéristiques métriques et caractéristiques adaptatives [189]. - Caractéristiques globales : on parle de caractéristiques globales lorsque le codage ne fait pas intervenir la position spécifique d'éléments particuliers de l'image. L'image est considérée globalement sans chercher à distinguer les différentes zones. Parmi les méthodes faisant intervenir une transformation globale de l'image on trouve : l'analyse en Composantes Principales (ACP) [232] ou la transformée de Karhunen- Loève [225], la transformée de Gabor [238], la transformée de Hough [205], la transformée de Fourier [205], les moments [216], les ondelettes [70], la transformée de Walsh-Hadamard [174], etc. - Caractéristiques structurelles : elles ont pour but de capturer la structure ou la forme du mot. On cherche donc à détecter dans l'image des éléments tels que : des boucles, des ascendants, des descendants, des points de rebroussement ou les directions principales du tracé. La difficulté principale de ces approches est, le plus souvent, de rendre ces caractéristiques insensibles aux différentes variations que doivent subir les mots. Au contraire des caractéristiques globales, les caractéristiques structurelles ont la propriété de localité. C'est-à-dire, les caractéristiques s'attachent très spécifiquement aux différentes zones de l'image. - Caractéristiques morphologiques : l'extraction des caractéristiques morphologiques s'appuie sur une étude des positions relatives des différentes composantes noires et blanches de l'image. On décrit alors le mot en termes de composantes blanches et noires, de cavités (parties blanches partiellement entourées de noir) et de boucles (parties blanches entièrement entourées de noir). La détection des caractéristiques morphologiques peut être effectuée par des opérateurs morphologiques de dilatation selon les quatre directions, et d'intersection d'images. Une fois que toutes les régions 26

42 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite ont été détectées, on doit coder leur présence et leur taille dans les différentes régions de l'image. - Caractéristiques de contour : le contour du mot est défini par la séquence (ou les séquences dans le cas d'un mot composé de plusieurs tracés) des pixels entourant le tracé. Une fois le contour repéré, on peut soit garder sa description explicite (le codage de Freeman ou des représentations équivalentes [205]), soit l'utiliser pour en déduire des composantes particulières (les points de rebroussement, ou encore certaines des caractéristiques morphologiques présentées plus haut), soit encore l'utiliser sous forme de représentation codée (par des moments de Fourier, ou de Zernike [238]). La description par contour est proche d'une description en squelette. L'utilisation de ce type de caractéristiques présente cependant certains problèmes. D'une part, le codage du contour dépend fortement du point de départ de l'algorithme de suivi : le contour est en fait une chaîne bouclée de points. D'autre part, il faut savoir s'affranchir du bruit de l'image, par exemple en lissant le contour extrait. Enfin, pour certains mots, le suivi peut amener à la détection de plusieurs contours. Il faut alors distinguer les contours intérieurs et extérieurs du mot. Ce qui nous amène à la détection des boucles fermées. - Caractéristiques statistiques : on cherche ici à représenter le mot par des mesures statistiques de l'image. On peut par exemple utiliser la distribution des pixels dans différentes régions de l'image, ou bien des histogrammes (nombre de points noirs par colonne, par ligne, ou dans d'autres directions). Des méthodes plus complexes comme l'analyse en composantes principales peuvent également produire ce type de caractéristiques. De même, on peut calculer le nombre de pixels présentant une caractéristique particulière dans différentes régions de l'image. - Caractéristiques métriques : cette catégorie comprend des caractéristiques basées sur des mesures physiques de l'image. Outre des caractéristiques assez simples, comme la hauteur, la largeur et le rapport de ces deux grandeurs, on peut utiliser des caractéristiques plus complexes comme le codage des profils. On peut définir les profils par rapport aux quatre axes naturels (gauche, droit, haut et bas), mais aussi par rapport à d'autres directions (des profils à 0, 45, 90 et 135 ). - Caractéristiques adaptatives : l'inconvénient des approches précédentes réside sur le choix adéquat des caractéristiques à utiliser. En effet, il est possible que les caractéristiques utilisées ne soient pas suffisantes pour différencier certaines classes. Les caractéristiques adaptatives sont obtenues directement de l'image et requièrent 27

43 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite une phase d'apprentissage. Autrement dit, le système opère sur une représentation proche de l'image d'origine [183] et doit lui-même construire et optimiser l'extracteur de caractéristiques. Cette stratégie est utilisée notamment dans les systèmes à base de réseaux de Kohonen. Nous présentons dans le tableau 1.6 les principales caractéristiques extraites dans les systèmes de la reconnaissance de mots arabes manuscrits. Système Miled et al [181] en 1997 Miled [133] en 1998 Khorsheed et al [34] en 1999 Khorsheed [147] en 2000 Dehghan [82] en 2001 Azizi et al [55] en 2002 Caractéristiques utilisées Les Alifs qui sont comptabilisés en dehors des tracés. Les points et les signes diacritiques situés au-dessus du tracé. Les points et les signes diacritiques situés au dessous du tracé. Les points de segmentation décisifs et leurs positions. Le nombre de graphèmes dans chaque tracé. La longueur du mot en graphèmes. Le nombre de tracés sans compter les Alifs. Le nombre de hampes dans chaque tracé. Le nombre de jambages dans chaque tracé. Une séquence chronologique de droite à gauche d indices visuels codés. Des primitives structurelles; les boucles, les segments et la transformation de segments. La transformée de Fourier de deuxième dimension. Des caractéristiques basées sur le contour de l image du mot sont calculées par zonage en découpant de droite à gauche l image de mot en un ensemble de bandes verticales de largeur fixe, avec un chevauchement de 50% entre deux bandes consécutives. Chaque bande est ensuite divisée horizontalement en 5 zones de même hauteur. Ainsi, pour chaque bande, un vecteur de 20 caractéristiques est extrait. La densité de pixels noirs pour chaque zone de l image pour le premier classifieur. Les ascendants, les descendants, les boucles et les points 28

44 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite Pechwitz et Märgner [196] en 2003 Burrow [73] en 2004 Al-Maadeed [36] en 2004 Al-Maadeed et al [37] en 2004 Pechwitz et al [198] en 2005 Märgner et al [168] en 2005 Al-Hajj et al [20] en 2005 Bouriel et al [67] en 2005 Farah et al [94] en 2005 Haji [115] en 2005 diacritiques pour le deuxième classifieur. Les moments de Hu pour le troisième classifieur. Les valeurs de pixels calculées à partir des fenêtres glissantes. Application de la transformation de Loeve-Karhunen pour réduire le nombre de primitives. Les 121 premiers moments de Zernike. Les boucles et leurs positions d intersection (haut, bas, gauche droite), les points diacritiques et leur position, les points de fin, les points de jonction, les moments invariants, et la densité de l histogramme horizontal. Des primitives perceptuelles globales du mot, tels que le nombre de points hauts (un point, deux point et, trois points), de points bas (un point) et de segments. Des valeurs de pixels et des cadres calculées en utilisant des fenêtres rectangulaires décalées. Le niveau de gris des pixels à partir de fenêtres glissantes. Application de la transformation de Karhunen-Loève pour réduire la dimension du vecteur de primitives. La présence des ascendants, descendants et de points diacritiques ainsi que leur position exacte dans l'image de mot. Des primitives de concavité et des primitives de distribution en utilisant des fenêtres glissantes. Les hampes, les jambages, les boucles, les points diacritiques hauts, et les points diacritiques bas. Les descendants, les ascendants, les boucles. La densité de pixels calculée à partir des différentes zones composant le mot. Il a transformé une image 2D en un signal 1D. Allant de droite à gauche, il a premièrement extrait les segments et les boucles du mot, ensuite, il a calculé dix primitives pour chaque boucle et segments extraits. 29

45 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite Gasmi et al [104] en 2005 Farah et al [96] en 2006 Benouereth et al [60] en 2006 Al-Abed et Märgner [11] en 2007 Broumandnia et al [69] en 2008 Dreuw et al [89] en 2008 Gharbi et Farah [105] en 2008 Nouar et al [191] en 2008 Des primitives structurelles pour les deux premiers classifieurs tels que le nombre de sous-mots, le nombre d ascendants, le nombre de descendants, le nombre de boucles et le nombre de points diacritiques. Des primitives statistiques ; la densité de pixels dans chaque zone du mot pour le troisième classifieurs. La chaine de code de Freeman. Le nombre d ascendants, le nombre de descendants, le nombre de boucles et le nombre de points diacritiques. Des primitives calculées à partir des cadres. Des primitives statistiques calculées à partir de l histogramme de projection. Des primitives structurelles calculées à partir du squelette du mot à savoir les points de branchement et les boucles. Primitives de directions calculées à partir du squelette du mot. Les 96 paquets transformés de M-bande par ondelettes. 30 primitives calculées à partir d une fenêtre glissante basée sur l analyse des composantes principales (ACP). Des caractéristiques calculées à partir de la projection d histogramme verticale et horizontale. Des caractéristiques structurelles (le nombre de descendantes, le nombre d ascendantes, le nombre de boucles, un point au-dessus, deux points au-dessus, trois points au-dessus, un point endessous, deux points en-dessous et mots secondaires). Des caractéristiques calculées en appliquant l opération de suivi de contour. Caractéristiques structurelles (nombre de descendants, nombre d ascendants, nombre de boucles, etc.) et des caractéristiques statistiques correspondent aux densités de 40 zones dans l'image. 30

46 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite Benouareth, et al [62] en 2008 Kessentini [133] en 2009 Bougamouza et al [66] en 2009 Hamdani et al [116] en 2009 Alkhoury [35] En 2010 Kessentini et al [136] en 2010 Kessentini et al [135] en 2010 Eprahinpour et al [91] en 2011 AlKhateeb et al [34] en 2011 Khalifa et Ru [137] en 2011 Amrouch et al [48] en 2011 Le nombre de descendants et le nombre d ascendants. Des caractéristiques basées sur les points du contour du mot en utilisant des fenêtres glissantes. Des primitives statistiques. Les valeurs de pixels selon une fenêtre glissante pour le premier classifieur. Les moments de Hu et les densités de pixels pour le deuxième classifieur. Les concavités et la distribution de pixels pour le troisième classifieurs. Nombre de pixels noirs dans l image et le nombre de pixels dans chaque colonne et chaque ligne. Des caractéristiques calculées à partir du contour supérieur pour le premier classifieur. Des caractéristiques calculées à partir du contour inférieur pour le deuxième classifieur. Des densités de pixels pour le troisième classifieur. Des caractéristiques basées sur les directions et les densités des pixels. Les huit directions de chaine de code de Freeman, les densités de pixels et des primitives tirées des squelettes des mots. Une fenêtre glissante est appliquée à l image miroir du mot pour calculer le nombre de pixels du fond. Ils ont obtenu les coefficients de la transformation discrète des cosinus (DCT), ensuite ils ont calculé la distance euclidienne entre les points de la matrice des coefficients obtenue. Enfin, ils ont appliqué l Analyse des Composantes Principales (ACP) pour réduire la dimension de l espace de représentation des primitives. Le nombre de sous-mots, le nombre d ascendants, de descendants et de boucles, et enfin le nombre et le type de points diacritiques. 31

47 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite Gagaoua et al [103] en 2011 Wahbi et al [231] en 2011 Masmoudi [58] En 2011 Des primitives structurelles. Les meilleurs 100 primitives calculées par l ACP. Les occlusions, les traits saillants, les espaces vides et les points diacritiques. Tableau 1.6. Primitives utilisées dans les systèmes de reconnaissance de mots arabes manuscrits hors-lignes Reconnaissance Le processus de reconnaissance est réalisé en deux phases : la première phase correspond à la conception du classifieur, qui est achevée par un apprentissage automatique de ce dernier. Tandis que la deuxième phase consiste à évaluer les performances du système à partir d'un ensemble de données appelé base de teste. Apprentissage : le mécanisme d apprentissage a pour objectif d extraire d une base d apprentissage l ensemble des connaissances nécessaires à la modélisation du problème et à les structurer si besoin. À partir de critères spécifiques aux formes, l'apprentissage tente de définir des classes de décision ou d'appartenance. On peut distinguer deux types d apprentissage : 1. Apprentissage supervisé : l'apprentissage est dit supervisé si les différentes familles des formes sont connues a priori et si la tâche d'apprentissage est guidée par un superviseur ou professeur. L'apprentissage se déroule de la manière suivante : on choisit un sous-ensemble S de l'ensemble E des formes à reconnaître. Pour chacune des formes appartenant à ce sous-ensemble, le professeur indique dans quelle classe doit se trouver chacune des formes. Une fois complétée, on présente le reste de l ensemble E des formes au modèle pour qu il soit classifié. Il est entendu que le sous-ensemble se doit d'être représentatif de toutes les données et comporter au moins un représentant par classe. Le problème dans ce type d'apprentissage est qu'il faut un nombre élevé d'éléments dans le sous-ensemble S pour une séparation des classes. 32

48 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite 2. Apprentissage non-supervisé : à l inverse de l apprentissage supervisé, l apprentissage non-supervisé ne s appuie sur aucune cible prédéfinie de la sortie. Par conséquent, l ensemble d apprentissage ne contient que les entrées X. Classification : dans le processus complet d une application de reconnaissance d écriture, la classification joue un rôle important en se prononçant sur l appartenance d une forme à une classe. Son rôle est de classifier la forme ciblée à partir de l'apprentissage réalisé. Les critères utilisés pour la décision sont habituellement les mêmes que ceux utilisés pour l'apprentissage. On dispose aujourd hui, dans le domaine de la reconnaissance de formes, d un grand nombre de classifieurs qui sont plus ou moins bien adaptés à la reconnaissance de l écriture. Cependant, cela n a pas permis de mettre en évidence la supériorité incontestable d une méthode de classification par rapport à d autres. D après [158], il existe quatre grandes familles de classifieurs : le Pattern Matching (ou appariement de formes), les approches structurelles ou syntaxiques, la classification statistique, et les réseaux de neurones. - L'appariement de formes a été l'une des premières approches proposées pour la reconnaissance de mots : les formes sont comparées à un patron rigide via une mesure de similarité. Elle est peu adaptée à l'écriture du fait de sa grande variabilité qui impliquerait un grand nombre de représentants pour chaque classe. - L'appariement syntaxique repose sur une représentation hiérarchique de la forme qui est vue comme un ensemble de sous-formes (patterns) eux mêmes composées de patterns plus petits (primitives). Par exemple un segment de droite, une occlusion ou un arc pour les caractères manuscrits. - Les approches statistiques : ici les formes à identifier sont en général vues comme des points dans un espace à n dimensions, n étant le nombre de caractéristiques de l espace. Chaque forme x appartenant à la classe ui est vue comme une observation générée aléatoirement par la distribution de probabilité de la classe ui : p(x/ui). Ces techniques de classification sont dites statistiques car elles font intervenir des fonctions de décisions statistiques. Pour un ensemble d apprentissage donné, on peut construire les frontières de décision de deux manières différentes. La première solution consiste à générer les frontières implicitement à partir des distributions de probabilité de chaque classe (approches modélisantes : fenêtres de Parzen [90], mixture de gaussiennes [90], K-plus proches voisins [153]). Le deuxième type d approche consiste à estimer explicitement les frontières de décision entre les 33

49 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite classes appelées aussi approches discriminantes (réseau Bayésien [150] et SVM [3]). Les approches Markoviennes peuvent être considérées comme une sousfamille des approches statistiques. - Les réseaux de neurones qui ont connu un grand sucées à partir des années 90, notamment grâce à la mise au point d un algorithme d apprentissage efficace et facile à mettre en œuvre : la rétropropagation du gradient. Ce type de classifieur fera l objet de notre deuxième chapitre. Nous citons les principales classifieurs utilisés par les chercheurs pour reconnaître les mots arabes manuscrits dans le tableau 1.7. Système Classifieur utilisé Nombre de classes Miled et al [181] en 1997 Miled et al [180] en 1998 Khorsheed et al [34] en 1999 Dehghane [82] en 2001 Khorsheed [146] en 2003 Burrow [73] en 2004 Haji [115] en Bouriel et al [67] en 2005 SouicMeslati et al [221] en 2006 Alma adeed et al [58] en 2006 Taux de reconnaissance obtenu Classifieur bayésien % HMM de type gauche-droite ,8% HMM % HMM de type 1D ,1% HMM 97% K-plus proche voisin (K-ppv) 100 HMM de type continu 80% % PMC 71 96% Classifieur perceptuel 48 91,81% Réseaux de neurones 70 63% 34

50 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite Farah et al [96] en k-ppv 48 89,08% 2006 Farah et al [96] en k-ppv flou 48 92,16% 2006 Farah et al [96] en PMC 48 91% 2006 Touj et al [227] en HMM 30 74,51% 2007 Zaghdoudi et al PMC % [239] en 2008 ( ) Zaghdoudi et al PMC % [239] en 2008 ( ) Zaghdoudi et al PMC % [239] en 2008 ( ) Nouar et al [191] PMC 48 87,58% en 2008 Nouar et al [191] PMC % en 2008 Nouar et al [191] PMC % en 2008 Broumandnia et al Algorithm de % [69] en 2008 Mahalanobis Dreuw et al [89] HMM IFN/ENIT 92.86% en 2008 Bougamouza et al HMM gauche-droite 59 85,60% [66] en états Masmoudi [58] HMM 10 96% Alkhoury [35] en HMM conventionnel IFN/ENIT 82,7% 2010 de Bernouli. Kessentini et al HMM IFN/ENIT 79,77%% [136] en 2010 Kessentini et al [136] en 2010 HMM IFN/ENIT 74,03% 35

51 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite Kessentini et al [136] en 2010 Alkhateeb et al [32] en 2011 Alkhateeb et al [32] en 2011 AlKhateeb [29] en 2011 Eprahinpour et al [91] en 2011 Eprahinpour et al [91] en 2011 Eprahinpour et al [91] en 2011 Eprahinpour et al [91] en 2011 Amrouch et al [48] en 2011 Gagaoua et al [103] en 2011 Wahbi et al [231] en 2011 Khalifa et Ru [137] en 2011 AlKhateeb et al [34] en 2011 HMM IFN/ENIT 79,73% HMM 25 80% Réseau Bayésien 66% dynamique HMM 93,86% PMC de 45 neurones 30 73,87% cachés PMC de 47 neurones 30 73,12% cachés PMC de 50 neurones 30 73,9% cachés PMC de 40 neurones 30 72,6% cachés Les arbres de 48 90,5% décision Les systèmes 70% immunitaires artificiels HMM discret de % états 1540 SVMs 56 89% Réseaux bayésiens ,56% dynamiques Tableau 1.7. Classifieurs utilisés dans les systèmes de reconnaissance de mots arabes manuscrits hors-lignes. On a précisé le type et la structure des classifieurs utilisés, par exemple pour le PMC ( ), cela veut dire qu il s agit d un PMC à une couche cachée de 30 neurones, une couche d entrée de 72 neurones et d une couche de sortie de 48 neurones. 36

52 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite Post-traitement Face à la complexité de l analyse du tracé d un mot manuscrit, le développement d un système de reconnaissance de mot hors-contexte lexical semble être encore loin de la portée des méthodologies utilisées actuellement. C est la raison pour laquelle, aujourd hui, quasiment tous les systèmes de reconnaissance de mots manuscrits intègrent, dans leur stratégie d analyse, un contexte lexical. Selon leur type et leur organisation, les informations lexicales peuvent intervenir à différents niveaux de la stratégie d analyse développée par un système de reconnaissance, sur laquelle elles peuvent, par conséquent, avoir une influence plus ou moins déterminante. D une manière générale, il est intéressant de distinguer trois approches utilisées pour considérer les connaissances lexicales : 1. Pour faire de la vérification ou de la validation d hypothèses : cette approche consiste à vérifier si un mot ou, plus généralement, une séquence de lettres appartient à un contexte lexical prédéfini contenu dans un dictionnaire ou lexique. Dans cette approche, les connaissances lexicales sont donc intégrées au niveau d une phase de post-traitement pour vérifier la validité des hypothèses émises par l analyse du tracé d un mot. 2. Pour faire de la correction d hypothèses : cette approche consiste à rechercher les mots du dictionnaire qui sont les plus proches d une séquence de lettres comportant des erreurs. Les connaissances lexicales sont donc ici utilisées pour corriger les erreurs produites par l analyse du tracé d un mot. 3. Pour faire de la prédiction : contrairement aux deux approches précédentes, la stratégie d analyse du tracé d un mot s appuie directement, cette fois ci, sur les connaissances lexicales. Les connaissances lexicales vont guider l analyse en apportant une information prédictive au mécanisme de décision (par exemple : l information de cooccurrence déduite du contexte lexical). Nous allons évoquer maintenant quelques méthodes classiquement utilisées dans les systèmes de reconnaissance d écriture manuscrite : - Méthodes basées sur une organisation du dictionnaire sous la forme d arbre TRIE : une organisation typique des informations lexicales repose sur la structuration du dictionnaire sous la forme d un arbre n-aire appelé TRIE (TRee Information retrievail), proposée par Knuth [232]. Cette organisation du dictionnaire permet une recherche rapide en mode de vérification directe, c est-à-dire pour déterminer si un mot appartient ou non au dictionnaire. Les stratégies d analyse basées sur le parcours d un arbre TRIE se trouvent confrontées au problème d une 37

53 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite analyse linéaire gauche-droite de l arbre où la présence d une zone de tracé bruitée peut engendrer une explosion combinatoire des hypothèses à considérer. Aussi si une erreur se produit sur le parcours linéaire de l arbre, elle engendre alors un échec définitif de la reconnaissance. - Méthodes s appuyant sur des informations de type n-grammes : une approche, dérivée des considérations précédentes, consiste à modéliser la fréquence de la succession de n caractères vis à vis d un contexte lexical donné. Basée le plus souvent sur des connaissances lexicales de types bi-grammes ou tri-grammes [238], les méthodes déduites de cette approche s appuient, soit, sur une analyse prédictive du tracé du mot, soit, sur un post-traitement lexical pour vérifier et éventuellement corriger, les hypothèses de chaînes émises, au préalable, par l analyse du tracé du mot. Cette approche, bien que moins riche que l utilisation étendue des connaissances contenues dans un dictionnaire, offre l avantage de pouvoir gérer des contextes lexicaux de grandes tailles, en considérant des informations de cooccurrence de portée restreinte. Dans le cadre de cette approche, on remarquera notamment les systèmes développés récemment par Guyon et Pereira [232] qui utilisent des modèles de Markov à Mémoire de Longueur Variable (VLMM) pour représenter les lexiques de n-grammes. - Méthodes basées sur l utilisation d une distance d édition : ces méthodes sont généralement utilisées dans les stratégies de reconnaissance qui s appuient sur une phase de post-traitement lexical ayant pour objectif de vérifier et de corriger, a posteriori, les différentes propositions de chaînes émises par l analyse du tracé d un mot. La phase de post-traitement lexical est basée, le plus souvent, sur une recherche des mots du dictionnaire qui sont les plus proches, de la chaîne émise par l analyse du tracé du mot. Le problème réside alors dans la détermination d une mesure de proximité entre deux chaînes, c est-à-dire, dans la mise au point d une évaluation robuste de la similarité de deux chaînes. D une manière générale, la métrique la plus souvent utilisée pour comparer deux chaînes s appuie sur la distance d édition de Damerau-Levenshtein, mise en œuvre notamment par l algorithme de Wagner et Fischer [90]. Outre le problème de la mise au point d une distance d édition adaptée à la nature des erreurs engendrées par un système de reconnaissance d écriture, il est important de souligner que cette approche nécessite une organisation du dictionnaire, s il est de taille conséquente (à partir mots), ceci afin d éviter l évaluation de 38

54 Chapitre 1 : Reconnaissance de l écriture arabe manuscrite la distance d édition sur tous les mots du dictionnaire, ce qui serait trop coûteux en temps. Concernant la reconnaissance de mots arabes, on trouve peu de travaux qui ont intégré une phase de post-traitement, le premier est celui de Farah et al [94] qui ont proposé une grammaire pour les montants de chèques, le post-traitement prend une décision et génère le mot gagnant à partir d un ensemble de candidats. Le deuxième travail est celui de Sari et Sellami [212] qui ont proposé deux méthodes universelles de post-traitement pour la correction des mots arabes. Ces approches corrigent les erreurs de type rejet et substitution. L'une d'elles est étroitement liée au dictionnaire elle est dite : guidée par le lexique, l'autre, guidée par le contexte est plus générale puisqu elle est basée sur les informations contextuelles Conclusion La reconnaissance de l écriture arabe est rattachée au vaste domaine de la reconnaissance de formes. Son but est de prendre une décision quant au contenu sémantique du message transmis à partir de sa représentation physique. Les applications de systèmes capables de remplir cette tâche sont nombreuses ; nous pouvons citer entre autres la lecture automatique de bons de commande, le traitement automatique des chèques, la vérification de signatures ou encore le tri automatique du courrier. Nous venons de présenter les caractéristiques de l écriture arabe ainsi que les différentes étapes constituant un système de reconnaissance de mots manuscrits préalablement isolés à savoir le prétraitement, la segmentation, l extraction de primitives, la reconnaissance et le post-traitement. Pour chaque phase, on a décrit les différents techniques et algorithmes utilisés dans le cadre de l écriture arabe. 39

55 Chapitre 2: Les réseaux de neurones

56 CHAPITRE 2 LES RÉSEAUX DE NEURONES Sommaire 2.1 Introduction Le Perceptron Multi-Couches Le Perceptron simple Structure du Perceptron Multi-Couches Apprentissage d un PMC Avantages et inconvénients d un PMC Les réseaux à Fonction Radiale de Base Architecture d un réseau RBF Entrainement d un RBF Différence entre un RBF et un PMC Difficultés et avantages Le réseau Fuzzy ART Algorithme d apprentissage Paramètres du réseau Fuzzy ART Avantages et limites du réseau Fuzzy ART Conclusion...65

57 Chapitre 2 : Les réseaux de neurones 2.1. Introduction Ce chapitre présente une synthèse théorique et pratique des types de réseaux de neurones les plus utilisés dans le domaine de la reconnaissance d écriture manuscrite. Les réseaux de neurones artificiels ou RNA sont des assemblages fortement connectés d'unités de calcul. Chacune des unités de calcul est un neurone formel qui est, en soi, une formulation mathématique ou un modèle très simplifié d'un neurone biologique. Ils ont des capacités de mémorisation, de généralisation et une certaine forme d'apprentissage. On classe généralement les réseaux de neurones en deux catégories : 1. Les réseaux faiblement connectés à couches que l'on appelle des réseaux feedforward comme c est le cas pour le Perceptron Multi-Couches (PMC) et les réseaux à base de fonction radiale (RBF). 2. Les réseaux directs et les réseaux fortement connectés que l'on appelle des réseaux récurrents tels que les réseaux de Hopfield et les réseaux de Kohonen. La suite de ce chapitre est organisée comme suit. Dans un premier temps la section 2.2, présentera le Perceptron Multi-Couches (PMC) en mettant l accent sur le perceptron simple, l algorithme d apprentissage et les avantages et inconvénients des PMCs. Par la suite la section 2.3 décrira le réseau à base de fonction radiale (RBF). La structure, l algorithme d apprentissage, la différence entre un RBF et un PMC et les difficultés et les avantages seront présentés. Le fonctionnement d un réseau basé sur la théorie de la résonance adaptative; Fuzzy ART sera expliqué dans la section 2.4. Finalement, les différents intérêts des réseaux de neurones seront discutés dans la conclusion Le Perceptron Multi-Couches Le premier réseau de neurones que nous allons présenter s appelle le Perceptron Multi- Couches (PMC), en anglais Multi Layer Perceptron (MLP). Ce type de réseau se situe dans la famille générale des réseaux à propagation vers l avant, c est-à-dire qu en mode normal d utilisation, l information se propage dans un sens unique, des entrées vers les sorties sans aucune rétroaction. Son apprentissage est de type supervisé, par correction des erreurs [170]. Dans ce cas uniquement, le signal d erreur est rétropropagé vers les entrées pour mettre à jour les poids des neurones. Le Perceptron Multi-Couches est un des réseaux de neurones les plus utilisés pour des problèmes d approximation, de classification et de prédiction. 42

58 Chapitre 2 : Les réseaux de neurones Avant d en étudier le fonctionnement global, nous allons nous attarder sur divers cas particuliers plus simples. Nous allons commencer par aborder le cas du Perceptron simple, c est-à-dire le Perceptron à une seule couche de neurones dont les fonctions d activation sont de type seuils. Nous étendrons ce dernier concept en introduisant la structure complète d un PMC. Par la suite, nous traiterons l algorithme le plus connu d apprentissage d un PMC ; celui de rétropropagation (back propagation). On terminera par une énumération des avantages et des inconvénients de ce modèle Le Perceptron simple L'origine du réseau PMC remonte à la fin des années 1950 lorsque F. Rosenblatt [108] proposa un premier modèle de réseau de neurones artificiels. Extrêmement simple, ce modèle ne comportait alors qu'un seul neurone: le Perceptron simple. Il permet de classifier correctement des objets appartenant à deux classes linéairement séparables. Il consiste en un seul neurone qui possède un seuil ainsi qu un vecteur de poids synaptiques ajustables. La structure ainsi que les diverses composantes d'un Perceptron simple sont illustrées dans la figure θ x1 w1 xi wi wn ϕ (.) y xn Entrées Coefficients Synaptiques Seuil d activation Fonction d activation Sortie Figure 2.1. Le Perceptron simple. L'action d'un neurone de type Perceptron simple est d'intégrer toute l'information contenue T n dans un vecteur d'entrée x = [ x1, x 2,..., ] R afin de produire une valeur de sortie y. x n Cette fonction de transfert entre les entrées d'un neurone et sa sortie tient compte du fait que des connexions plus ou moins excitatrices relient le neurone à chacune des variables d'entrée xi, i =1,2,,n, tel qu'il est indiqué dans la figure 2.1. Le comportement d'une connexion est déterminé par son coefficient synaptique (son poids) wi, i = 1,2,,n. Un coefficient synaptique wi élevé tente d'activer le neurone pour l'entrée xi, tandis qu à l'inverse, un coefficient synaptique faible cherche plutôt à l'inhiber. Le neurone détermine son niveau d'activation total en réalisant une somme pondérée des 43

59 Chapitre 2 : Les réseaux de neurones entrées et des coefficients synaptiques. Lorsque son niveau d'activation est supérieur ou n égal à son seuil d'activation, (i.e. x w = θ ) le perceptron s'active et produit une sortie i 1 i i positive (y = 1). Dans le cas contraire, il s'inhibe et produit une sortie négative (y =-1). Mentionnons ici que couramment le seuil d'activation θ est appelé le biais du neurone. En résumé, nous pouvons écrire de manière plus formelle que le Perceptron simple cherche à réaliser une transformation φ : { 1, + 1} ( x R Où : + 1si ϕ( v) = 1si n n R n tel que : { 1, + 1} ) a y = ϕ( x w θ ) (2.1) i= 1 v 0 v < 0 i i (2.2) Selon l'équation 2.1, le comportement du Perceptron simple est entièrement dicté par l'équation de l hyperplan : n x w = θ = 0 (2.3) i 1 i i En effet, cet hyperplan permet de tracer une frontière de décision séparant l'espace d'entrée en deux sous-espaces. Le Perceptron simple peut donc discriminer des données appartenant à deux classes distinctes se situant de part et d'autre de cette frontière. Toutefois, un hyperplan ne pouvant avoir une forme concave ou convexe, les deux classes doivent nécessairement être linéairement séparables pour pouvoir être distinguées par un Perceptron simple [125]. La figure 2.2 montre un exemple de discrimination entre deux classes de données C1 et C2. Pour cet exemple, les entrées appartiennent à l'espace l'équation de l'hyperplan se résume à l'équation d'une droite. 2 IR et Frontière de décision : w1 θ x2 = x1 + w w 2 2 x2 Classe C1 x1 Classe C2 2 Figure 2.2. Frontière de décision engendrée par un Perceptron simple dans l espace IR. 44

60 Chapitre 2 : Les réseaux de neurones L'objectif visé par l'apprentissage supervisé d'un Perceptron simple consiste donc à déterminer l'équation de l'hyperplan qui permet de séparer correctement des données appartenant à l'une ou l'autre des deux classes. Autrement dit, il s'agit d'ajuster les différents coefficients synaptiques wi, i = 1,2,.,n et le biais θ du neurone de manière à minimiser l'erreur de classification. Pour ce faire, F. Rosenblatt [98] a proposé un algorithme qui permet de réaliser l'apprentissage d'un Perceptron simple à partir d'un ensemble de données d'entrainement. Nous présenterons la généralisation de cet algorithme à la section D'abord, nous décrivons à la prochaine section l'extension naturelle du Perceptron simple : le PMC Structure du Perceptron Multi-Couches Les Perceptrons Multi-Couches (PMC) sont les réseaux de neurones les plus courants et les plus simples. Ils sont très largement utilisés en classification et en reconnaissance de formes, notamment pour leurs bonnes performances et leur simplicité. Le PMC est une extension du précédent Perceptron, avec une ou plusieurs couches cachées entre l'entrée et la sortie, donc un PMC possède trois types de couches : une couche d entrée, une ou plusieurs couches cachées et une couche de sortie. Chaque neurone d une couche est connecté à tous les neurones de la couche qui le précède, ce qui donne un réseau complètement connecté. Le schéma donné dans la figure 2.3 représente un PMC à trois couches. La couche d entrée comporte quatre neurones. La couche cachée contient trois neurones et enfin la couche de sortie possède quatre neurones. Couche d entrée Couche cachée Couche de sortie Figure 2.3. Architecture d un Perceptron Multi-Couches à une seule couche cachée. 45

61 Chapitre 2 : Les réseaux de neurones Le choix de la fonction de transfert pour les couches cachées réside dans sa dérivabilité et sa simplicité de calcul pour l apprentissage comme par exemple la fonction sigmoïde ou la fonction tangente hyperbolique : Sigmoide ( v ) i vi 1 = 1 e entre3[0,1] (2.4) 2vi ( v ) i e 1 = 2vi ( v ) e + 1 sinh Tangantehyperbolique( v ) i = entre3[-1,+1] (2.5) cosh i Les représentations graphiques de ces deux fonctions sont indiquées dans la figure 2.4. Figure 2.4. Exemples de fonctions de transfert d un PMC. On utilise en général, dans la reconnaissance d écriture une fonction de transfert Softmax pour les neurones de la couche de sortie : vi e Soft max ( v ) = P( classe = C X = x ) = (2.6) i i i vk e Avec : i : est l indice du neurone correspondant à la classe Ci. k : est l indice balayant tous les neurones de la même couche. v : est le potentiel synaptique du neurone. x : est l entrée des neurones. k Apprentissage d un PMC L'apprentissage d'un réseau PMC est de type supervisé c'est-à-dire que l on présente au réseau, en même temps, une forme et son modèle, ce qui consiste à appliquer des couples (entrées, sorties désirées) à l entrée du réseau. L algorithme le plus utilisé est celui de 46

62 Chapitre 2 : Les réseaux de neurones rétropropagation des erreurs qui consiste à lui présenter un ensemble de N données d'entrainement : D = { x, s ), ( x, s ),...,( x, s )} N ( N, ceci dans le but d'ajuster itérativement ses différents paramètres de manière à minimiser une certaine fonction d'erreur. Une donnée d'entrainement ( x, s) D est en fait un couple de vecteurs x s n m (, ) R R tel que x est un vecteur d'entrée qui est propagé à travers toutes les couches du PMC, jusqu'à la couche de sortie, et s est le vecteur des sorties désirées [121]. Rappelons que le vecteur s joue en quelque sorte le rôle du professeur et sert à superviser l'entrainement. Le processus d'apprentissage par rétropropagation est dit itératif dans le sens où les paramètres du réseau sont ajustés pour une seule donnée d'entrainement à la fois, ceci tant que la fonction d'erreur n'a pas atteint un seuil acceptable. L algorithme d apprentissage comprend les étapes suivantes : Etape 1 : la première étape de l'algorithme consiste à initialiser aléatoirement les coefficients synaptiques d'un réseau initial. La structure du réseau initial (le nombre de couches et le nombre de neurones) est déterminée par l'utilisateur. Habituellement, les valeurs des coefficients synaptiques et des biais sont fixées à de petites valeurs aléatoires distribuées uniformément [208]. Bien que cette initialisation aléatoire puisse avoir en théorie un impact sur la convergence d'un réseau, en pratique, elle n'est absolument pas critique. Etape 2 : par la suite, un ordre aléatoire est construit pour la représentation des données. Cette permutation aléatoire vise à éviter que le réseau reste pris dans un minimum local durant la phase d'apprentissage. Etapes 3 et 4 : l'apprentissage proprement dit d'un couple (x, s) est réalisé aux étapes 3 et 4. D'abord, le vecteur d'entrée x est propagé à travers tout le réseau à l'étape 3. Á l'étape 4, l'erreur engendrée par x est mesurée en comparant les sorties observées du réseau au vecteur de sortie désirée. En pratique, l'erreur mesurée pour chaque neurone de sortie est la différence entre la valeur désirée sk et la valeur observée yk, k = 1, 2,,m. Cette erreur mesurée est alors rétropropagée à travers le réseau de manière récursive, couche par couche, en commençant par la couche de sortie. Lors de la rétropropagation, chaque paramètre du réseau est ajusté proportionnellement au taux de changement de la fonction d'erreur par rapport au changement du paramètre concerné, c'est-à-dire proportionnellement au gradient de l'erreur [131]. Ce gradient s'obtient en dérivant partiellement la fonction d'erreur par rapport au paramètre. Notons qu'une condition nécessaire pour que la fonction d'erreur soit dérivable partiellement est que la fonction 47

63 Chapitre 2 : Les réseaux de neurones d'activation soit différentiable. Par conséquent, contrairement au Perceptron simple qui fait usage d'une fonction de seuil pour activer un neurone, l'algorithme de rétropropagation requiert, comme il est cité précédemment l'utilisation d'une fonction continue différentiable. Généralement, la fonction sigmoïde est utilisée à titre de fonction d'activation, et l'équation 2.4 est alors remplacée par: ϕ ( v) = 1 (2.7) 1 v + e Mentionnons simplement qu à l'étape 4, un facteur de gain η permet de contrôler le taux d'apprentissage du réseau (le taux de changement des paramètres proportionnellement au gradient de l'erreur) et un facteur de momentum α assure une certaine stabilité au processus de convergence. Etapes 5 et 6 : à l'étape 5, le couple suivant qui apparait dans l'ordre créé aléatoirement est choisi pour l'entrainement. Lorsque tous les couples ont été entraînés, nous disons qu'une passe d'apprentissage est accomplie et nous vérifions, à l'étape 6, si le réseau a convergé, c'est-à-dire s'il a trouvé une transformation Φ : R n R m qui est optimale au sens d'un certain critère d'arrêt. Dans les faits, il n'existe pas de critère universel pour décider du moment opportun pour conclure un entrainement par rétropropagation des erreurs [174]. Des critères couramment employés consistent à terminer l'apprentissage lorsqu'un nombre maximal de passes est atteint, ou encore lorsque l'erreur mesurée est inférieure à un niveau jugé acceptable. Par contre, ces critères sont très subjectifs et requièrent de la part de l'utilisateur une bonne connaissance a priori des résultats escomptés Avantages et inconvénients d un PMC Lors de l implémentation d un PMC, on rencontre plusieurs difficultés que nous allons citer ainsi que les possibles solutions qui leurs sont associées : - Le gros problème des PMCs est qu'on ne peut pas connaitre à priori les dimensions du réseau pour un problème donné. L'expérience montre qu'il n'est pas nécessaire d'avoir plus d'une couche cachée. En revanche, on ne peut pas déterminer à priori le nombre de neurones de la couche cachée nécessaire à un problème donné [79]. - Le paramètre permettant d'ajuster les poids des connexions est également délicat à optimiser ; il est nécessaire de régler ce paramètre empiriquement, c'est-à-dire qu'on regarde le comportement du réseau sur la base d'apprentissage, et on choisit la meilleure configuration [90]. 48

64 Chapitre 2 : Les réseaux de neurones - Un autre paramètre doit être trouvé empiriquement : le nombre d'itérations lors de la phase d'apprentissage. Celui ci est primordial puisque il apparait au bout d'un certain nombre d'itération le phénomène bien connu du sur-apprentissage ou overfitting; durant lequel le PMC commence à apprendre par cœur les exemples de la base d'apprentissage et perd sa capacité à généraliser. En se servant du principe de la validation croisée utilisant une base de validation, on peut calculer l'erreur de généralisation du réseau en fonction du nombre d'itération. On choisira naturellement le nombre d'itération qui minimise l'erreur de généralisation. Ainsi une des limitations du PMC est qu'il nécessite des bases d'apprentissages conséquentes [68]. La figure 2.5 explique le principe de la validation croisée. Figure 2.5. Principe de la validation croisée. - Les PMCs sont complètement connectés et ont souvent beaucoup trop de connexions. Plusieurs méthodes ont été proposées pour réduire le nombre de poids après apprentissage du réseau, pour en augmenter la généralisation et réduire le nombre de calculs comme la méthode Optimal Brain Damage [102]. - En théorie, l'algorithme itératif de rétropropagation des erreurs utilisé pour entraîner un réseau PMC ne garantit pas l'obtention d'un minimum global de la fonction d'erreur [125], et donc le réseau entraîné finalement peut ne pas être le meilleur réseau. Néanmoins, nous devons insister sur le fait qu'en pratique, il n'est pas toujours pertinent ni souhaitable de chercher à tout prix le minimum absolu de la fonction d'erreur pour des problèmes réels. 49

65 Chapitre 2 : Les réseaux de neurones - Un autre défaut fréquemment associé au PMC est le temps d'apprentissage requis pour l'entraîner, spécialement dans le cas de réseaux comportant un nombre important de neurones [46]. Cette problématique est difficilement contournable puisque l'apprentissage d'un gros réseau exige beaucoup de données d'entraînement et, inévitablement, beaucoup de paramètres doivent être ajustés au sein du réseau de manière itérative. Plusieurs algorithmes ont néanmoins été proposés dans le but d'accélérer la convergence du PMC. Entre autres, l'algorithme Quickprop [46] est une variation de l'algorithme de rétropropagation où le calcul du gradient utilise une dérivée de deuxième ordre plutôt que de premier ordre. Cet algorithme est beaucoup plus rapide en termes de nombre de passes d'apprentissage que l'algorithme standard de rétropropagation. - Le PMC est inapte à réaliser un apprentissage incrémental des connaissances. En effet, un réseau PMC oublie très rapidement des connaissances préalablement acquises seulement si de nouvelles données, issues d'une région jusqu' alors inconnue de l'espace d'entrée lui sont présentées. Cette perte de mémoire est due en grande partie au problème de mouvement des cibles (moving-target) inhérent à la structure en couches du PMC [131]. Ce problème empêche le PMC d intégrer de nouveaux neurones au sein de sa structure dans le but d'apprendre une nouvelle classe. Clairement, le réseau PMC n'est donc pas un réseau constructif, c'est-à-dire que sa structure est fixe et peut difficilement être modifiée sans influencer le comportement global du réseau. La seule possibilité pouvant éventuellement permettre à un PMC d'acquérir de nouvelles connaissances, sans oublier ses connaissances acquises, est de recommencer l'entraînement à partir du tout début, en utilisant cette fois les anciennes et les nouvelles données d'entraînement. Dans les faits, cette stratégie n'est pas pratique puisqu'elle peut nécessiter un temps de réapprentissage très long, surtout lorsque le nombre de données d'entraînement est important. Il est important de spécifier que malgré ses défauts, le PMC possède tout de même certaines qualités indéniables. Entre autres, le PMC est capable en théorie d'approximer n'importe quelle fonction, et ce avec un degré de précision quelconque, si sa structure est adéquate, c'est-à-dire s'il est formé d'un nombre suffisant de neurones cachés [174]. Par ailleurs, le PMC est reconnu pour avoir un pouvoir d'extrapolation intéressant [121], c'està-dire qu'il ne se limite pas à mémoriser les données qui lui sont présentées, il apprend également les relations qui peuvent exister entre ces données. Les PMCs sont aussi rapides 50

66 Chapitre 2 : Les réseaux de neurones lors de la décision : exécution de fonctions non-linéaires de combinaisons linéaires. Cela autorise l'utilisation de vecteurs de caractéristiques assez importants, ce qui augmente le pouvoir discriminant du classifieur. De plus, ils permettent d'obtenir en sortie des probabilités, ce qui est précieux pour l'interprétation des résultats [67]. Enfin, une caractéristique intéressante du PMC pour un utilisateur est sa grande simplicité d'utilisation qui permet d'obtenir rapidement et sans grand effort une solution satisfaisante pour un problème posé. Ces nombreuses qualités en font donc un outil intéressant pour plusieurs applications, en particulier lorsque le problème posé requiert une très bonne solution, et non une solution optimale Les réseaux à Fonction Radiale de Base Ce sont les réseaux que l'on nomme aussi RBF ("Radial Basic Functions"). Les réseaux à fonctions de base radiales (RBF) sont des modèles connexionnistes simples à mettre en œuvre et assez intelligibles, et sont très utilisés pour la régression et la discrimination. L idée générale des réseaux RBF dérive de la théorie d approximation des fonctions, ces réseaux sont une architecture Feed-for-ward puissante. Ce type de réseaux a été introduit pour la première fois par Hardy, et la théorie correspondante a été développée par Powell, ensuite, ces réseaux ont pris le terme de réseaux de neurones grâce a Broomhead et Lowe [131]. La raison de leurs applications vient du fait que le réseau utilise des fonctions gaussiennes standard qui sont à symétrie radiale. L'architecture est la même que pour les PMCs cependant, les fonctions de base utilisées par les neurones de la couche cachée sont des fonctions gaussiennes qui possèdent en général une matrice de covariance diagonale dont toutes les valeurs sont identiques. Les fonctions de sortie sont linéaires ou toutes autres fonctions comme pour les PMCs. Les RBFs sont donc employés pour résoudre les mêmes types de problèmes que les PMCs (classification, approximation de fonctions, etc.). L'apprentissage le plus utilisé pour les RBFs est le mode hybride et les règles sont soit, la règle de correction de l'erreur soit, la règle d'apprentissage par compétition. On va d abord introduire l architecture d un réseau RBF, ensuite on détaillera son algorithme d apprentissage. Les différences majeures entre un PMC et un RBF, les avantages ainsi que les difficultés rencontrées lors de la conception d un RBF seront présentés dans les deux points ci-dessous. 51

67 Chapitre 2 : Les réseaux de neurones Architecture du réseau RBF Le réseau à Fonction Radiale de Base comme il est indiqué dans la figure 2.6, comporte deux couches de neurones. Les cellules de sortie effectuent une combinaison linéaire de fonctions de base non-linéaires, fournies par les neurones de la couche cachée. Couche d entrée Couche cachée Couche de sortie Figure 2.6. Réseau de neurones à fonction radiale de base. Les fonctions de base radiale produisent une réponse différente de zéro seulement lorsque l entrée se situe dans une petite région bien localisée de l espace des variables. Bien que plusieurs modèles de fonctions de base existent, le plus courant est de type gaussien: y 1, i Où : ( X ) ( X W exp T 1, i = 2 2σ i ) ( X W 1, j ) X : est le vecteur d entrée du réseau. y 1,i : est la sortie du neurone i de la première couche. (2.8) 2 W et σ : sont respectivement le vecteur de poids synaptiques et le paramètre i de normalisation de ce neurone (W correspond ici aux coordonnées du centre de la gaussienne). La sortie d un neurone de la seconde couche est simplement donnée par : y T W Y 2, 2, i 1 i = (2.9) Où Y1 est le vecteur des sorties des neurones de la première couche. Plus le vecteur d entrée est proche du centre d une gaussienne, plus la sortie du neurone de la première couche qui lui correspond est élevée. Le terme Fonction Radiale de Base vient du fait que la gaussienne est symétrique radialement, c est-à-dire que la valeur de sortie 52

68 Chapitre 2 : Les réseaux de neurones obtenue est la même pour toutes les entrées situées à une même distance du centre de la gaussienne [112]. La figure 2.7 indique la fonction gaussienne avec trois différentes déviations standards. Sortie Figure 2.7. Gaussiennes avec trois différentes déviations standards Entraînement d un RBF Pour entraîner le réseau RBF, on peut utiliser plusieurs stratégies. La première consiste à optimiser simultanément tous les paramètres du réseau, par exemple, en utilisant la rétropropagation des erreurs. Il s agit de la position des centres des fonctions radiales, de leur variance et, finalement, des poids de la couche linéaire de sortie. Malheureusement, cette approche comporte certaines difficultés liées à la nature très différente de ces deux couches et de leur dynamique de convergence. La première couche, constituée de neurones non-linéaires agissant localement dans l espace des entrées, a plutôt tendance à converger lentement, alors que la seconde, avec ses neurones linéaires, converge généralement très rapidement. Ces dynamiques très différentes provoquent souvent une stagnation de l apprentissage autour d un minimum local parfois très éloigné de l optimum global [125]. Ce qui importe de remarquer ici est que les deux couches du réseau RBF réalisent des fonctions distinctes. En ce sens, on peut très bien procéder à leur apprentissage en deux étapes également distinctes. La première consistant à estimer la position des centres des neurones radiaux puis à estimer leur variance, et la deuxième à estimer les poids de la couche linéaire. Une première alternative pour le positionnement des centres consiste simplement à les distribuer uniformément dans l espace des entrées. Cette solution comporte cependant des limitations évidentes, tout particulièrement lorsque cet espace d entrée est de grande dimension. 53

69 Chapitre 2 : Les réseaux de neurones Une seconde alternative est de fixer les centres sur certains stimuli pk choisis aléatoirement parmi l ensemble des données d apprentissage. Dans ce cas, on peut imposer comme fonction radiale une gaussienne isotrope normalisée et centrée sur w 1 S 1 2 φ Ρ = Ρ i ( ) exp w 2 i (2.10) δ max 1 2 Où S correspond au nombre total de neurones radiaux, δ au carré de la distance max 1 i = Ρ K : maximum entre leurs centres et 1 w à la position de ces derniers. Ce choix de fonction i radiale entraîne un écart type fixe de σ = δ / S max 2 1 pour tous les neurones. Il permet de garantir des fonctions radiales ni trop pointues ni trop aplaties, ces deux extrêmes étant à éviter autant que possible. Il ne reste plus qu à estimer les poids de la couche linéaire en utilisant, par exemple, la règle de la matrice pseudo-inverse: + W 2 = DP (2.11) Où D [ d d... d Q ] 1 2 = [ Φ Φ... ] = est la matrice des réponses désirées pour le réseau, P Φ 1 2 Q est la matrice des réponses de la couche radiale et pseudo-inverse de P. + Ρ la matrice Finalement, une troisième alternative consiste à positionner les centres des neurones radiaux à l aide de l une ou l autre des méthodes d apprentissage non-supervisé (nuées dynamiques [89], Kohonen [111] ou Fuzzy ART [170]). Une fois les centres positionnés, il ne reste plus qu à trouver σ en utilisant, par exemple, la partition floue ou non-floue [91] i des stimuli engendrée par le processus compétitif des neurones, puis à estimer les poids de la couche linéaire à l aide d une méthode supervisée comme la règle LMS [174] ou, celle de la matrice pseudo-inverse [121] Différence entre un RBF et un PMC Les deux réseaux de neurones ; RBF et PMC sont de type récurrents et sont tout les deux des approximateurs universels, mais ils se diffèrent l un de l autre par quelques points. Le premier point concerne le nombre de couches cachées où un PMC peut avoir une ou plusieurs couches cachées ce qui n est pas le cas pour un RBF qui doit être constitué seulement d une seule couche cachée. Contrairement aux Perceptron Multi-Couches, les fonctions de transfert de la couche cachée d un réseau RBF dépendent de la distance entre le vecteur d entrée et un vecteur centre où les arguments d activation des fonctions de 54

70 Chapitre 2 : Les réseaux de neurones chaque neurone de la couche cachée dans un réseau RBF calcule la norme euclidienne (distance) entre le vecteur d entrée et le centre de chaque neurone. Tandis que les fonctions d activations des neurones cachées dans un MLP calculent le produit interne de vecteur entrant et le vecteur de poids synaptiques des neurones [102]. En théorie, le réseau à fonctions radiales de base est capable, tout comme le Perceptron Multi-Couches, d effectuer une approximation arbitrairement proche de n importe quelle transformation non-linéaire [68]. Un réseau RBF est mieux adapté qu un PMC pour résoudre des problèmes requérants un critère de rejet de données efficace (comme c'est le cas souvent en reconnaissance des formes) puisqu'il peut engendrer des frontières de décision qui sont fermées [46]. La principale différence entre les deux est la nature de la fonction d activation des neurones de la couche cachée. La non-linéarité sigmoïdale utilisée dans les Perceptrons Multi-Couches fournit une sortie différente de zéro pour une région infiniment grande de l espace d entrée, ce qui lui confère un certain pouvoir de généralisation dans des régions où peu de données d apprentissage, voire aucune, ne sont disponibles. Au contraire, la non-linéarité radiale utilisée dans les RBFs, ne fournit une réponse différente de zéro que localement. Le nombre d unités cachées nécessaire pour permettre au réseau de recouvrir l ensemble de l espace d entrée peut dès lors s avérer parfois très élevé [156]. Donc les PMCs sont basés sur une généralisation globale où tous les neurones de la couche cachée agissent partout dans leur espace d entrée. Ils passent une frontière de décision linéaire qui traverse l espace de bord en bord. En ce sens, lorsqu un un stimulus est présenté à la couche cachée d un Perceptron Multi-Couche, tous les neurones de cette dernière peuvent contribuer à produire la réponse du réseau ; ils travaillent globalement. Ceci explique entre autres pourquoi on ne peut pas utiliser un Perceptron Multi-Couche pour faire de l apprentissage incrémental. Contrairement aux réseaux RBFs qui possèdent, de par leurs structures, des capacités innées pour l'apprentissage incrémental qui sont très intéressantes. En effet, la spécialisation locale des neurones radiaux permet de limiter grandement le problème du mouvement des cibles qui est généralement associé au PMC. Bien que les neurones radiaux d'un réseau RBF ne communiquent pas réellement entre eux (aucune connexion ne les relie), ils savent néanmoins qu'ils ont la quasi-exclusivité d'une région particulière de l'espace d'entrée qui se trouve précisément à la position de leur centre et dont la surface dépend de leur écart-type qui sert à délimiter leur sphère d'influence. Il a été également remarqué que l'algorithme d'apprentissage hybride d'un RBF demande pour un même niveau de performances, plus de paramètres que pour un PMC, et par conséquent plus de données. Le nombre d'unités cachées peut croître 55

71 Chapitre 2 : Les réseaux de neurones exponentiellement avec le nombre de dimensions. En effet, on peut remarquer qu'un réseau RBF modélise les distributions de probabilité des formes conditionnellement aux classes, ce qui représente plus d'informations que de modéliser le seul voisinage des frontières de décisions comme le fait un PMC [125]. Une autre différence entre ces deux modèles de réseau est que la non-linéarité, présente dans la couche de sortie du Perceptron Multi- Couches, est inexistante dans le réseau à fonction radiale de base, ce qui constitue un désavantage de ce dernier vis-à-vis du premier. La caractéristique linéaire de la couche de sortie d un réseau à fonction radiale de base rend ce dernier plus proche du Perceptron original de Rosenblatt [174] que ne l est le Perceptron Multi-Couches. Le réseau à fonction radiale de base diffère aussi du Perceptron, dans le sens où il est capable de réaliser des transformations non-linéaires de l espace d entrée ce qui est montré par le problème du XOR qui ne peut être résolu par aucun Perceptron linéaire. En effet, les réseaux de fonctions à base radiale n'ont pas toujours de bons comportements dans des espaces de hautes dimensions avec des dimensions redondantes et bruitées, problème qu'un PMC est supposé mieux résoudre [112]. Enfin, Un dernier avantage du réseau à fonction radiale de base est que sa phase d apprentissage est plus rapide que celle du Perceptron Multi- Couches [151] Difficultés et avantages La principale difficulté des réseaux RBFs concerne la question du nombre de neurones radiaux à utiliser pour une application donnée. Á priori, il n existe pas de méthode pour fixer leur nombre, et cette architecture souffre de façon particulièrement aiguë de ce qu on appelle la malédiction de la dimension, à savoir l augmentation exponentielle du nombre de neurones cachés requis en fonction de la dimension R de l espace d entrée. Lorsque R est grand, une façon d atténuer ce problème consiste à remplacer les hyper-sphères qui résultent de l imposition d une variance fixe par des hyper-ellipses où la matrice de covariance n est plus contrainte. On peut ainsi réduire le nombre de neurones à positionner au détriment du nombre de paramètres à estimer. En plus, on constate bien que pour ce type de réseaux de neurones le nombre de paramètres ajustables pour une précision donnée croît exponentiellement avec le nombre de variables [131]. Un RBF requiert souvent un nombre important de neurones pour achever sa tâche de classification. En effet, afin d'utiliser efficacement l'information locale contenue au niveau des neurones radiaux, ces derniers se doivent d'avoir une influence très restreinte sur l'espace d'entrée. Ainsi, l'écart- 56

72 Chapitre 2 : Les réseaux de neurones type de chaque neurone doit être suffisamment faible de manière à ce qu'un neurone ne puisse être fortement activé que par des vecteurs d'entrée qui se situent dans son voisinage immédiat. Un exemple montrant bien cette problématique est illustré à la figure 2.8 pour un problème 2 de classification à deux classes (les "0" et les "1") dans l espace IR. Pour cet exemple, trois neurones radiaux n1, n2 et n3 sont positionnés dans l'espace d'entrée et leur écart-type respectif est représenté par le rayon des cercles qui les entourent. Nous pouvons remarquer que le neurone n1 a une zone d'influence beaucoup plus importante que les autres neurones. Rappelons que d'après l'équation (2.8), toutes les données qui se situent à une même distance d'un neurone radial activent ce neurone avec le même niveau d'activation. Ainsi, pour l'exemple illustré, les deux points qui sont encadrés auront la même sortie en regard du neurone n1, soit approximativement e 0,5, puisque la distance qui les sépare du centre du neurone est approximativement égale à l'écart-type de ce dernier. De plus, puisque ces deux points sont situés à une distance de plusieurs écarts-types des autres neurones n2 et n3, nous pouvons considérer que ces deux neurones ne seront pas activés par ces deux points. Donc, pour cet exemple particulier, la transformation de l'espace d'entrée temporaire 2 IR vers l'espace 3 IR engendré par les neurones radiaux est inadéquate puisqu'elle rend semblable des données qui appartiennent pourtant à deux classes différentes. Par conséquent, pour la configuration des neurones radiaux qui est illustrée à la figure 2.8, les neurones de sortie ne pourront réussir à discriminer correctement les deux classes de données. Figure 2.8. Exemple du problème de l augmentation du nombre de neurones dans un réseau RBF. On peut affirmer que la construction d'un réseau RBF est rapide et facile, et c'est là le principal avantage de la technique. Mais cet avantage se paye par des performances qui ne peuvent être aussi bonnes que celles du réseau cité précédemment : le Perceptron Multi- Couches. 57

73 Chapitre 2 : Les réseaux de neurones En particulier, les réseaux RBFs sont peu performants : Sur les données dans des espaces de grande dimension (beaucoup de variables d'entrée). Cette faiblesse est propre à toutes les techniques locales [112]. Sur des données très bruitées. La reconstruction locale de la fonction empêche le réseau de moyenner le bruit sur tout l'espace (comparez avec la régression linéaire, dont l'objectif est justement de moyenner le bruit sur les données.) [173]. Malgré tous ces problèmes rencontrés lors de la conception d un réseau RBF on note les avantages suivants : - Une particularité intéressante du réseau RBF est sa rapidité et sa simplicité d apprentissage [131]. - Les réseaux RBF sont moins sensibles aux pertes de mémoire résultant de la destruction de leurs poids. - Il y a moins d interférence entre les neurones de la couche cachée lors de l apprentissage [100]. - Les centres des fonctions radiales et les paramètres σ peuvent être initialisés par j des méthodes de cleustring (groupement), manuellement ou par apprentissage nonsupervisé Le réseau Fuzzy ART La théorie de la résonance adaptative (Adaptative Resonance Theory : ART) est une famille de modèles de réseaux de neurones inspirés des observations effectuées en psychologie visuelle. Elle a été introduite dans les années 80 et elle est basée sur trois éléments : - La normalisation de l activité totale du réseau : les systèmes biologiques ont une large adaptabilité aux changements de leur environnement (l œil peut s adapter aux variations de lumière). - Le rehaussement de contraste entre les formes du système. - La mémorisation à court terme de la forme dont le contraste a été rehaussé : avant le traitement de l entrée, elle doit être mémorisée dans une mémoire à court terme (Short Term Memory : STM) [19]. Les réseaux ART (Adaptative Resonnance Theorie) sont des réseaux à apprentissage par compétition. En effet, dans un apprentissage par compétition, rien ne garantit que les catégories formées aillent rester stables. La seule possibilité, pour assurer la stabilité, serait 58

74 Chapitre 2 : Les réseaux de neurones que le coefficient d'apprentissage tende vers zéro, mais le réseau perdrait alors sa plasticité. Les réseaux ART ont été conçus pour harmoniser le dilemme entre l adaptation (plasticité synaptique) et la stabilité (rigidité synaptique) de l apprentissage. Dans un système trop plastique, les informations sont apprises même si elles ne sont pas pertinentes ; ou les informations apprises sont oubliées. Par contre, dans un système trop rigide, les informations pertinentes ne sont pas apprises. Dans le modèle ART, l introduction d un terme de vigilance permet de gérer de manière autonome le passage d un mode plastique à un mode rigide. Les vecteurs de poids ne seront adaptés que si l'entrée fournie est suffisamment proche, d'un prototype déjà connu par le réseau. On parlera alors de résonnance. Á l'inverse, si l'entrée s'éloigne trop des prototypes existants, une nouvelle catégorie va alors être créée, avec pour prototype, l'entrée qui a engendré sa création [131]. En général, Un réseau ART comporte deux couches, F1 et F2, ce qui est indiqué dans la figure 2.9, ces deux couches sont connectées avec des liaisons qui forment une mémoire à long terme (Long Term Memory : LTM). Représentation de classes Couche de classification F2 LTM LTM Représentation de caractéristiques Couche de comparaison F1 Entrées Figure 2.9. Représentation schématique du principe du modèle ART. Suivant une analyse ascendante du problème de reconnaissance, du niveau d entrée vers le niveau le plus abstrait (classification), la couche F1 reçoit la forme d entrée. Elle agit comme une mémoire à court terme. Par ailleurs, elle réalise une caractérisation de la forme par le biais d une normalisation de l activité par rapport à l activité totale. Ensuite, à travers les liaisons de F1 vers F2, la forme d entrée est codée dans une des catégories représentées par la couche F2. La couche F2 est un réseau compétitif du type Winner Take All où un seul neurone sera déclaré vainqueur et seuls les poids des connexions qui lui sont afférentes seront modifiés pour s adapter au mieux à la forme entrante, cette couche réalise 59

75 Chapitre 2 : Les réseaux de neurones la classification de l entrée en lui proposant une classe. Si la différence entre le prototype de la classe proposée et la forme d entrée est trop importante par rapport à la vigilance du réseau, alors la forme est apprise [126]. La famille ART englobe plusieurs variantes ; ART1, ART2, ART3, Fuzzy ART, ART MAP, Fuzzy ART MAP, etc. Dans ce qui suit on va introduire l architecture du réseau Fuzzy ART. On va expliquer d abord le principe de son algorithme d apprentissage qui est basé sur des opérateurs de la logique floue. Ensuite, on va montrer le rôle joué par les trois paramètres contrôlant le réseau. Enfin, on va donner ses différents avantages et inconvénients. Fuzzy ART est l un des plus récents et populaires membres de la famille de réseaux de neurones ART, il a été introduit par Carpenter, Grosberg et Rosen en 1991 [108]. C est un réseau de groupage de données qui est capable d apprendre à reconnaître des catégories stables, à partir des données analogiques (données réels comprises entre 0 et 1) ou binaires, ordonnées arbitrairement, pour se faire, Fuzzy ART utilise des opérateurs de la logique floue. Fuzzy ART (Figure 2.10) comporte deux couches complètement inter-reliées comme c est le cas pour tout réseau ART: une couche de comparaison F1 et une couche de compétition F2. Ces deux couches sont activées par une entrée a qui est préalablement codée en complément [64] N Couche F2 de compétition J=1,2,,N Poids Wij ρ M Couche F1 de comparaison i=1,2,,2m I = ( a; a c ) Codage en complément a=(a1,a2,am) Figure Architecture du réseau Fuzzy ART. 60

76 Chapitre 2 : Les réseaux de neurones Algorithme d apprentissage Cet algorithme propose une catégorisation originale avec des classes sous forme d'hyperrectangle et un codage en complément des entrées [64]. Chaque hyper-rectangle est représenté par un prototype. Un prototype, poids du neurone, est défini comme un vecteur à 2M dimensions : ( W j1, W j 2,..., W M ) W j 2 = (2.12) Où j est l'indice du neurone, 1 j N, et M est la dimension de l'entrée a. La dimension 2M du prototype provient du codage en complément de l'entrée qui fait en sorte que : ( a a) I =, 1 (2.13) L'algorithme est contrôlé par trois paramètres dont deux peuvent être modifiés pendant le traitement des signaux. Le paramètre de choix α, est utilisé lors de la compétition entre les neurones. Le second, ρ, est le paramètre de vigilance et il définit la taille de l'hyperrectangle. Le troisième, β, est le paramètre d'apprentissage, qui influence la vitesse d'apprentissage par les neurones. Première étape : initialisation du réseau. Initialement, tous les poids des neurones sont non-commis, soit Wij = 1, les paramètres ρ et β sont fixés à une valeur entre 0 et 1, et α à une valeur supérieure à 0. Les valeurs de ρ, β et α sont établies pour chaque application afin de maximiser la qualité de la catégorisation. Deuxième étape : codage en complément de la nouvelle entrée a. Chaque nouvelle entrée a présentée au réseau de neurones, contient M éléments avec une valeur entre 0 et 1 et subit un codage en complément préliminaire : I c = ( a;a ) (2.14) c où : a = 1 a ) (2.15) i ( i Ceci permet d'empêcher un problème de prolifération de catégories où les prototypes des classes créées dégénèrent vers 0, et l algorithme se voit obliger de créer de nouvelles catégories continuellement. Troisième étape : activation de la couche de neurones F2. Le Tj de chaque neurone Wj est calculé pour chaque nouvelle entrée présentée au réseau : T j I W = ( α + W j j ) (2.16) 61

77 Chapitre 2 : Les réseaux de neurones Où est l'opération ET en logique floue. L'opération est définie comme suit : I W j = (min( I, W ),..., min( I, W )) (2.17) 1 1 j 2M 2Mj Dans l'expression de Tj, x est la norme de x, définie par : x 2 = = x M (2.18) i 1 i Quatrième étape : compétition et désignation du neurone gagnant. Le neurone J offrant la plus grande valeur Tj, est sélectionné comme le neurone gagnant. Ceci est une caractéristique propre à l'algorithme Fuzzy ART où un seul neurone (ou catégorie) peut être altéré pour chaque entrée I. Cinquième étape : test de vigilance. Cette étape effectue la comparaison : I W I j ρ (2.19) Qui est fonction du vecteur d'entrée I et des poids du neurone gagnant J. Si le test de vigilance est respecté, alors le neurone J est mis à jour (étape 6). Sinon, le neurone J est désactivé en fixant Tj = -1 puis une autre compétition aura lieu jusqu'à ce qu'un neurone J respecte le test de vigilance ou qu'il n'y ait plus de neurones actifs (réseau saturé). Sixième étape : la mise à jour du neurone gagnant. Le neurone gagnant J est mis à jour par le calcul de son nouveau poids : ' j =.( j ) + (1 j (2.20) W β I W β ). W Septième étape : tous les neurones sont réactivés ( T j = 0, j = 1 à N) et prêts à recevoir une nouvelle entrée Paramètres du réseau Fuzzy ART Le réseau Fuzzy ART est contrôlé par trois paramètres : le paramètre de sélection, le paramètre d apprentissage et le paramètre de vigilance. Le paramètre de sélection α est utilisé dans le calcul des fonctions de sélection. Lorsque α tend vers 0, le recodage (neurone gagnant différent pour un même vecteur d entrée) est minimisé lors de l apprentissage. Aussi, quand α augmente, le réseau a tendance à créer plus de classes. Le phénomène constaté lorsqu on augmente la valeur du paramètre de choix α est l augmentation du nombre de classes créées par le réseau, plus le paramètre est grand, plus il y a prolifération du nombre de classes. Si le réseau crée plus de classes quand 62

78 Chapitre 2 : Les réseaux de neurones α est grand, c est que la région d attraction autour des frontières des classes diminue. Par ailleurs, quand le paramètre de sélection devient relativement grand, la vigilance perd de son effet. Il semble donc plus avantageux de garder la valeur du paramètre de choix α assez petit. Le paramètre d apprentissage β est utilisé lors de la mise à jour des poids de connexions. Il influence la vitesse à laquelle les poids du réseau sont modifiés lors de l apprentissage. Plus β est petit, plus les poids varient lentement. A la limite, si β=0, l équation devient wj=wj et les poids ne varieront jamais. Par contre, si β=1, le réseau va avoir un apprentissage rapide. Nous allons voir l influence de ce paramètre sur le réseau Fuzzy ART à travers un exemple. Lorsque β=0.5 et qu on présente un premier point à un réseau Fuzzy ART, la frontière de la première classe (0) sera à mi-chemin entre le point et le carré ayant comme coins opposés les points (0,0) et (1,1), étant donné que les poids du réseau sont initialisés à 1 (figure 2.11). Figure Frontière autour d un point quand β=0.5. Lorsqu on représente le même point au réseau, la frontière se rapproche encore de celui-ci (figure 2.12). A long terme, la frontière finira donc par coïncider avec le point, et ceci est toujours vrai, peu importe le paramètre d apprentissage. 63

79 Chapitre 2 : Les réseaux de neurones Figure Frontière autour d un point quand β=0.5, après une seconde présentation du point. Comme les frontières s ajustent plus lentement lorsque le taux d apprentissage est plus petit que 1, le classement effectué par le réseau en sera modifié. Il n est toutefois pas évident de dire qu il est amélioré ou non. Cela dépend des cas. Par contre, le réseau classerait probablement mieux des données bruitées lorsque β < 1. Il est aussi intéressant de présenter les données dans un ordre différent à chaque passe d entraînement en utilisant β < 1. Le paramètre de vigilance ρ sert de critère pour déterminer si la classe (le neurone gagnant) choisie par le réseau est acceptée ou non. Plus ρ est petit, plus les classes créées sont grossières, tandis que plus ρ est grand, plus les classes créées sont précises Avantages et limites du réseau Fuzzy ART Fuzzy ART a la capacité de gérer à la fois des vecteurs de valeurs binaires et analogiques. Cet algorithme propose également des calculs simplifiés pour la formation de classes sous forme d'hyper-boîte, contrairement à des classes circulaires telles que retrouvées dans la plupart des algorithmes de réseaux de neurones. Aussi, il s'exécute en deux étapes basées sur deux critères de distance, soit l'activation et le choix. Il se prête bien au traitement parallèle et offre de bons résultats de catégorisation avec une précision modérée sur les poids des neurones où la multiplication n'est pas requise dans les synapses [64]. Une autre caractéristique fondamentale permettant de distinguer les réseaux Fuzzy ART des autres 64

80 Chapitre 2 : Les réseaux de neurones réseaux de neurones est la capacité qu'ils ont de pouvoir apprendre de nouvelles informations de manière incrémental, si, lors du test de vigilance, aucun prototype de la couche de reconnaissance ne vérifie la contrainte de vigilance, le réseau Fuzzy ART crée une nouvelle catégorie (nouveau neurone de sortie au niveau de la couche F2), soulignons que cet apprentissage incrémental est réalisé de manière non-supervisée et se stabilise dans un nombre fini d itérations. Finalement, les réseaux Fuzzy ART ont aussi un coût minimal de mise en œuvre et un temps de traitement petit et possèdent une grande capacité à gérer les images en niveaux de gris. Malgré tous ces avantages, Fuzzy ART a été peu utilisé et incomplètement étudié en ce qui a trait à son application à la reconnaissance d écriture manuscrite. Le sujet de recherche que nous proposons vise à combler cette lacune. L inconvénient majeur de Fuzzy ART réside dans le paramètre de vigilance puisque qu'il force une dépendance d'un usager externe. Fuzzy ART n effectue pas de groupage optimal par lui-même, c'est-à-dire qu il ne découvre pas nécessairement la structure inhérente dans les données. Un usager doit à prime abord fournir la valeur du paramètre de vigilance qui indiquera au réseau, et ce indirectement, le nombre de groupes à créer. Un utilisateur doit donc a priori avoir une certaine connaissance de la structure des données pour donner une bonne valeur a ce paramètre, ce qui semble aller à l encontre de l'idée de découvrir cette structure avec une procédure de groupage. De plus, la valeur du paramètre ne se traduit pas directement en une valeur du nombre de groupes, comme c est le cas avec l algorithme des k-moyennes Conclusion Les grands avantages des réseaux de neurones artificiels (RNA) résident dans leur capacité d'apprentissage automatique (approximation universelle), ce qui permet de résoudre des problèmes sans nécessiter l'écriture de règles complexes, tout en étant tolérant aux erreurs. Ils résident aussi dans leur capacité à prendre une décision à partir de critères nonformalisables explicitement. Grâce à leur pouvoir discriminatif, les réseaux de neurones présentent un couplage intéressant dans le cadre de la reconnaissance des mots. Les RNAs ont aussi la capacité de stocker de la connaissance empirique et de la rendre disponible à l'usage. Les habiletés de traitement (et donc la connaissance) du réseau vont être stockées dans les poids synaptiques, obtenus par des processus d'adaptation ou d'apprentissage. En ce sens, les RNAs ressemblent donc au cerveau car non seulement, la connaissance est 65

81 Chapitre 2 : Les réseaux de neurones acquise au travers d'un apprentissage mais de plus, cette connaissance est stockée dans les connexions entre les entités, soit dans les poids synaptiques. Leur difficulté de mise en œuvre réside dans le choix du modèle (architecture) et le temps de traitement. On a présenté dans ce chapitre trois types de réseaux de neurones à savoir ; le PMC, l RBF, et le réseau Fuzzy ART. Ces trois types seront exploités lors du développement de notre OCR arabe. Pour chaque type on a introduit le principe de fonctionnement, l algorithme d apprentissage, les avantages et les inconvénients. 66

82 Chapitre 3: Combinaison des classifieurs

83 CHAPITRE 3 COMBAINAISON DES CLASSIFIEURS Sommaire 3.1 Introduction Méthodes de combinaison de classifieurs Combinaison séquentielle Combinaison parallèle Combinaison hybride Approches de combinaison parallèle sans apprentissage Approches de type classe Approches de type rang Approches de type mesure Approches de combinaison parallèle avec apprentissage Approches de type classe Approches de type rang Approches de type mesure Conclusion

84 Chapitre 3 : Combinaison des classifieurs 3.1. Introduction Une idée intéressante apparue dans les années 80 consiste à combiner les classifieurs afin de bénéficier de leur éventuelle complémentarité. La combinaison de classifieurs permet de faire cohabiter des classifieurs dont les principes de fonctionnement peuvent être très divers et ainsi tirer profit de propositions issues de systèmes approchant le même problème de façons différentes. L objectif principal de la combinaison de classifieurs est l amélioration de la qualité de reconnaissance du système par rapport à chacun des classifieurs isolés, c est-à-dire de collecter de l information de plusieurs sources. Ce chapitre parlera du domaine de combinaison de classifieur dont lequel on va détailler les différentes topologies de combinaison existantes à savoir ; la combinaison parallèle, série et hybride en introduisant les travaux de la reconnaissance de mots arabes manuscrits réalisés dans chaque méthode. On va également présenter les différentes techniques de combinaison de classifieurs en mettant le point sur celles de l approche parallèle, ces méthodes seront classées selon le type de la sortie du classifieur ; classe, rang ou bien mesures en prenant en considération qu elles nécessitent ou pas une phase d apprentissage. On finira le chapitre par une conclusion abordant l intérêt de la combinaison parallèle dans le domaine de la reconnaissance d écriture arabe manuscrite Méthodes de combinaison de classifieurs Les classifieurs se distinguent dans la manière dont ils proposent leur solution au problème présenté. Cette caractéristique est importante dans la réalisation d une combinaison de classifieurs. En effet, c est le type de sortie proposée par les différents classifieurs qui va influer en partie sur la manière de combiner les résultats des classifieurs. Un classifieur peut avoir l une des sorties suivantes : - Sortie de type classe qui est la sortie la plus simple et la plus rudimentaire qu un classifieur puisse proposer, elle correspond à ne donner que la proposition de la classe qu un classifieur attribue à l entrée à reconnaître, sans aucune autre information. Il s agit alors de l unique catégorie que le classifieur estime être la plus plausible pour l entrée proposée. Les classifieurs de ce type seront appelés classifieur de type classe. - Sortie de type rang où les classifieurs proposent une liste ordonnée de classes. De tels classifieurs expriment leurs préférences par le rang associé à chacune des classes. La 69

85 Chapitre 3 : Combinaison des classifieurs liste proposée en sortie pourra contenir l ensemble des classes possibles ou seulement un certain nombre contenant les meilleures propositions. - Sortie de type mesure qui concerne les classifieurs dont la sortie est la plus complète. Leur sortie est une liste ordonnée de classes, mais avec dans ce cas une mesure associée à chacune de ces classes. La mesure associée à chacune des classes représente la confiance que le classifieur accorde à la proposition. Cette mesure peut être obtenue par divers moyens. Selon les cas il peut s agir d une distance calculée dans l espace des caractéristiques entre l élément à identifier et le modèle associé à la classe, une probabilité ou autres. La combinaison de classifieurs a été utilisée avec succès en reconnaissance de formes et en particulier de caractères manuscrits [110], [111], [235], [149], [85], [51], [157], [71], [9], [152], [200] et [201]. Il existe trois schémas de combinaison de classifieurs que nous allons voir en détail dans les sous-sections suivantes : Combinaison séquentielle La combinaison séquentielle, appelée également combinaison série, consiste à positionner les classifieurs les uns à la suite des autres. Elle est donc organisée en niveaux successifs de décision qui permettent, soit de conforter la décision prise auparavant, soit de traiter les rejets ou les solutions jugées peu fiables obtenues aux niveaux précédents. Dans ce type de combinaison l'ordre d'exécution des classifieurs est primordial et influe sur le résultat final [110]. Cette méthode est surtout utilisée lorsqu'un classifieur fournit plusieurs solutions qu'on ne peut pas départager. Le classifieur intervenant en aval sert à lever les ambiguïtés. L'utilisation de la méthode de combinaison séquentielle ne fait intervenir les classifieurs avals que si les classifieurs utilisés en amont n'ont pas apporté une décision précise. Par exemple, dans le cas de la figure 3.1, si le classifieur 1 reçoit une liste de C classes possibles, il compare les résultats de ses extractions de caractéristiques aux C prototypes et génère une liste de candidats ordonnée de manière décroissante vis à vis des probabilités. Il propose au classifieur suivant une liste L1 contenant les p premières propositions de la liste avec p<c. Le classifieur suivant est donc chargé de déterminer la classe de l'élément à identifier parmi les p classes qui lui sont proposées. Il générera à son tour une liste plus réduite (L1>L2>L3>...). L'enchaînement des classifieurs continuera jusqu'à ce que le 70

86 Chapitre 3 : Combinaison des classifieurs dernier classifieur prenne la décision finale PN en proposant le meilleur candidat de la liste qu'il aura lui-même établi. Classe 1 Classe 1 Classe 1 Classe 2 Classe cc Classe 2 Class C Classe 2 Classe c La forme à identifier Classifieur 1 Classifieur 2 Classifieur N La forme identifiée Rejet Rejet Rejet Figure 3.1. Schéma de combinaison séquentielle de classifieurs. Cette configuration est simple à mettre en œuvre, cependant certains aspects doivent être pris en compte pour déterminer l ordre des classifieurs. En effet, même s ils ne nécessitent pas d être les plus performants, les premiers classifieurs invoqués doivent être robustes, c est-à-dire que la classe réelle de l élément qu on cherche à identifier doit apparaître dans les listes successives, même si ces listes contiennent un grand nombre d éléments [9]. En effet, si cette classe était évincée dès les premiers filtrages, la solution finale serait erronée. Les classifieurs doivent donc être ordonnés de telle sorte que les premiers classifieurs n éliminent pas la bonne solution. Ils ont en général un rôle de filtrage qui permet de réduire peu à peu la liste des classes possibles. En fin de chaîne doivent intervenir les classifieurs qui ont la faculté de discriminer un nombre restreint de classes. Les travaux rentrant dans le cadre de l écriture arabe manuscrite adoptant cette approche ne sont pas nombreux, les seuls trois systèmes qu on a trouvé dans la littérature sont ceux d Al Ohali et al [58] en 2002 qui ont proposé un système de reconnaissance des sous-mots en utilisant une combinaison séquentielle entre un classifieur global neuronal et un classifieur analytique markovien. Pour une image donnée d un sous-mot en entrée, le premier classifieur, basé sur des caractéristiques globales, permet de réduire le nombre de sous-mots candidats et le second, basé sur des caractéristiques locales, détermine l identité du sous-mot en question. La figure 3.2 présente le schéma général de ce système. 71

87 Chapitre 3 : Combinaison des classifieurs Normalisation Extraction de primitives globales Réseau de Kohonen Image de sous-mot Lexique réduit de sous-mots Squelettisation Extraction de primitives locales HMM Sous-mot reconnu Figure 3.2. Système de reconnaissance de sous-mots d Al-Ohali. Dans la modélisation basée sur des caractéristiques globales, l image d un sous-mot est d abord normalisée à une taille fixe, puis découpée en zones. Les vecteurs de caractéristiques globales sont présentés en entrée à un réseau de Kohonen à trois couches. La sortie obtenue est un nombre entre 1 et 20, correspondant au numéro du groupe gagnant de la compétition au niveau de la deuxième couche du réseau. Dans la modélisation basée sur des primitives locales, l image du mot est soumise à une squelettisation, ainsi, le squelette du sous-mot est transformé en une suite de segments rectilignes, représentés, chacun, par deux paramètres : sa longueur et sa direction. Testé sur un lexique de 67 sous-mots, le classifieur neuronal effectue une réduction lexicale avec un taux de réussite de 99,04%. Sa combinaison avec le classifieur markovien a augmenté le taux de reconnaissance de ce dernier de 3,68% puisqu il est passé de 69,85% à 73,53%. Le deuxième système est celui d Alma adeed et al [36] qui a été publié en Les auteurs ont proposé un système de reconnaissance de mots manuscrits en utilisant deux classifieurs combinés de manière séquentielle, comme il est montré dans la figure 3.3. Le premier étant basé sur des règles et le second sur des chaînes de Markov cachées (Hidden Markov Mode: HMM). Le premier classifieur sert à constituer des groupes de classes de mots en fonction de leurs caractéristiques perceptuelles globales, le nombre de groupes conçu était de 8. Le deuxième classifieur effectue la classification des mots au sein du groupe concerné. 72

88 Chapitre 3 : Combinaison des classifieurs Caractéristiques globales du mot Classifieur 1 basé règles Classifieur 2 basé HMM Groupe HMM Groupe 1 HMM Groupe 2 Résulta de la reconnaissance Caractéristiques locales du mot HMM Groupe 8 Figure 3.3. Schéma de combinaison séquentielle utilisé par Al-Maadeed. Sans utiliser une procédure de post-traitement le taux de reconnaissance avoisinait les 60%. Le premier groupe ayant un mot atteignait un taux de reconnaissance de 97%. Le dernier système est celui de Benouareth et al [61] publié en 2008 (figure 3.4). Prétraitement Segmentation Points de segmentation potentiels Extraction de primitives locales et codage des segments Extraction de caractéristiques globales Lexique Classification globale par HMM Liste des mots candidats Séquence de codes Classification analytique Mot le plus vraisemblable Base de données : HMMs mots construits par concaténation des HMMs caractères Figure 3.4. Méthode de combinaison adoptée par Benouereth. 73

89 Chapitre 3 : Combinaison des classifieurs Les chercheurs ont proposé une combinaison pour la reconnaissance hors-ligne des mots manuscrits arabes pour un vocabulaire limité. Leur approche est basée sur une combinaison séquentielle d une approche globale avec une approche analytique. L approche globale (utilisée afin de filtrer les entrées du lexique) modélise chaque mot par un HMM discret de durée d état explicite en utilisant des primitives globales comme les jambages, les hampes, etc. L approche locale (utilisée pour sélectionner le bon mot parmi ceux générés par l approche globale) consiste à segmenter le mot en graphèmes, modélisant à son tour chaque forme de caractère arabe par un HMM discret dans lequel les observations sont associées aux transitions, et associe à chaque mot du lexique un HMM par concaténation des modèles élémentaires de ses lettres Combinaison parallèle L'approche parallèle laisse les différents classificateurs opérer indépendamment les uns des autres puis fusionne leurs réponses respectives (figure 3.5). Modèle de classe pour le classifieur 1 Classe 1 Classe 2 Classe m Classifieur 1 Forme inconnue Classifieur 2 Module de combinaison Décision finale Classifieur N Figure 3.5. Principe de la combinaison parallèle. Cette combinaison est faite : - Soit de manière démocratique, dans le sens où elle ne favorise aucun classifieur par rapport à un autre [56]. - Soit, au contraire, de manière dirigée et, dans ce cas, on attribue à la réponse de chaque classifieur un poids en fonction de ses performances [56]. L'ordre d'exécution des classifieurs n'intervient pas dans cette approche. 74

90 Chapitre 3 : Combinaison des classifieurs Selon les deux manières précédemment décrites, il existe deux types de combinaison : combinaison sans apprentissage (non-paramétrique) et combinaison avec apprentissage (paramétrique). L inconvénient majeur de l approche parallèle est qu elle nécessite l activation de tous les classifieurs du système qui doivent participer de manière concurrente et indépendante. Par contre, la décision finale est prise avec le maximum de connaissances mises à disposition par chaque classifieur. Dés lors se posent les problèmes de précision des informations fournies par les classifieurs et de la confiance qu on peut accorder à chacun d eux [123]. Beaucoup de chercheurs ont appliqué ce type de combinaison pour reconnaître l écriture arabe manuscrite. On va introduire leurs travaux ordonnés chronologiquement selon leur année de publication. En 1998, Miled [80] a décrit une stratégie de reconnaissance de mots manuscrits qui peut être qualifiée d hybride car la modélisation est basée sur trois niveaux perspectives : global, pseudo-analytique et analytique, représentés respectivement par une modélisation markovienne des mots, des sous-mots et de caractères. Testés sur une base de 5900 mots pour un lexique de 232 villes tunisiennes, les taux de reconnaissance des classifieurs global, pseudo-analytique et analytique sont, respectivement de 67,8%, 72,5% et 81,8%. Une combinaison entre ces trois classifieurs est ensuite appliquée en se servant de plusieurs méthodes de combinaison en atteingnant un taux de reconnaissance de 89,4%. En 2002, Azizi et al [55] ont proposé un système multi-classifieurs pour la reconnaissance de mots arabes manuscrits en combinant trois classifieurs neuronaux de type Perceptron Multi-Couches basé chacun sur un type de caractéristiques différent : - Statistiques : l image du mot a été divisée en zones, et pour chaque zone un calcul de densité de pixels noirs est effectué. - Perceptuelles : qui sont les ascendants, les descendants, les boucles et les points diacritiques. - Géométriques : représentés par les moments invariants de Hu. La combinaison des trois classifieurs est réalisée avec des calculs flous. En 2002, Souici-Meslatie et Sellami [221] ont utilisé l approche KBANN (Knowledge Based Artificial Neural Networks) afin de concevoir un classifieur neuro-symbolique pour la reconnaissance de mots arabes de montants littéraux, une base de règles permet de modéliser (même de manière grossière) les connaissances théoriques d un sujet (novice ou expert) sur un domaine donné. Elle est ensuite compilée sous la forme d un réseau 75

91 Chapitre 3 : Combinaison des classifieurs neuronal multi-couches. Ce réseau est ensuite affiné par un apprentissage empirique sur une base d exemples. Pris individuellement, le classifieur symbolique basé règles donne un taux de reconnaissance de 83,55%, le PMC aboutit à 85,5% tandis que leur combinaison basée KBANN donne 93%. Cette combinaison utilise une base de règles symboliques reflétant la classification hiérarchique des mots selon leurs caractéristiques perceptuelles. Ces connaissances sont converties en un réseau neuronal initial par un algorithme de compilation qui définit l architecture (neurones et connexion) et fixe les poids initiaux avec trois couches cachées contenant respectivement 4, 9 et 4 neurones. En 2005, Farah et al [95] ont combiné trois Perceptron Multi-Couche de façon parallèle, la fonction d activation des PMCs est de type sigmoïde et l apprentissage est fait avec l algorithme de rétropropagation du gradient. Pour l apprentissage et le test ils ont utilisé 2400 mots de montants littéraux représentant 48 classes. La combinaison est faite selon plusieurs règles dont nous décrirons le principe dans les sections suivantes tels que ; le Borda Count, Dempster-Shafer, le produit, la somme, la moyenne, le min, le max et la règle de Bayes. Le meilleur taux de reconnaissance obtenu était de 94,93% en appliquant la règle de la somme. En 2005, Gasmi et al [104] ont réalisé une combinaison de classifieurs neuronaux pour la reconnaissance hors-ligne des montants littéraux arabes, omniscripteur à vocabulaire limité. L idée principale était d utiliser trois réseaux neuronaux dont deux sont des Perceptrons Multi-Couches, chacun étant responsable d apprendre les mots représentés par un ensemble de primitives de deux types différents (structurelles et statistiques), et le troisième est un réseau neuro-symbolique utilisant comme entrée des caractéristiques structurelles. Les méthodes de combinaison adoptées dans ce système sont : la méthode du vote à majorité simple et celle de la somme pondérée. Le test était fait sur une base de 1200 mots, et le taux de reconnaissance était de 95,41% en appliquant la règle du vote simple. En 2006, Farah et al [96] ont appliqué une combinaison parallèle utilisant trois architectures différentes de classifieurs à savoir ; un Perceptron Multi-Couches, un k-plus proche voisin (K-ppv) et un k-plus proche voisin flou (K-ppv flou). Les taux de reconnaissance de chaque classifieur pris individuellement étaient ; 89,08% pour le k-ppv, 91% pour le PMC et 92,16% pour le k-ppv flou. Le meilleur taux obtenu après la combinaison de classifieurs était de 94% en utilisant la règle du somme. 76

92 Chapitre 3 : Combinaison des classifieurs En 2007, Al-Hajj et al [22] ont combiné trois classifieurs HMMs niveau caractères de type gauche-droite. Les vecteurs de caractéristiques sont extraits de droite à gauche à partir des images binaires de mots par des fenêtres verticales glissantes et intercalées. La combinaison consiste à fusionner les sorties produites par les HMMs pour choisir le mot candidat le plus approprié en effectuant une somme des log-vraisemblances des solutions dans les trois listes. La combinaison a été examinée avec différentes valeurs d inclinaison des fenêtres, ainsi que des orientations symétriques et non-symétriques. Les auteurs ont exploité la base IFN/ENIT et ils ont obtenu un taux de reconnaissance de 95,87% au troisième top. En 2008, Menasri et al [176] ont présenté un système de reconnaissance hors-ligne de mots arabes manuscrits s appuyant sur un système hybride à base de modèles de Markov cachés et de Perceptron Multi-Couches développé pour reconnaitre les mots latins par Knerr [176]. Ce système utilise une segmentation en graphèmes et se diffère de celui de l écriture latine par la détection des signes diacritiques et la bande de base. Le système était évalué sur la base IFN/ENIT. L apprentissage était fait sur les sousensembles {a}, {b}, et {c} et le test sur le sous-ensemble {d}. Le taux de reconnaissance était de 89,98% sans reconnaitre les signes diacritiques. En 2008, Touj et al [227] ont utilisé les chaines de Markov cachées Planaires (PHMM) pour reconnaître les mots manuscrits arabes. L idée de base des PHMMs est de segmenter l image en zones homogènes (horizontales ou verticales) selon l orientation choisie et modéliser chaque zone par un deuxième modèle de Markove de type droite (1D-HMM). Dans ce sens, les auteurs ont pris en considération les deux variations de l écriture arabe : horizontale et verticale. La topologie finale contient cinq 1D-HMMs horizontaux représentant les bandes suivantes : les diacritiques situés en haut, les hautes extensions, la zone médiane, les basses extensions et enfin les diacritiques situés en bas. Suivant la complexité de reconnaissance de la zone médiane une combinaison est faite entre deux types d HMM, l une applique une reconnaissance globale et l autre utilise une reconnaissance analytique basée sur les pseudo-caractères. La décision est prise en combinant les deux HMMs selon trois schémas parallèles et deux méthodes hybrides, le meilleur taux de la combinaison parallèle était de 80,44% en appliquant la règle de somme. En 2008, Farou et al [97] ont conçu un système de reconnaissance d écriture manuscrite arabe basé sur les réseaux de neurones artificiels et les modèles de Markov cachés. Pour effectuer la combinaison des résultats, ils ont calculé un nouveau score des mots à partir 77

93 Chapitre 3 : Combinaison des classifieurs des probabilités à posteriori de chaque classifieur, la sortie du système est une liste des N meilleures hypothèses. Le taux de réussite enregistré était de 91,77%. En 2008, Al Abed et Margner [14] ont travaillé sur les systèmes qui sont présentés dans le tableau 3.1, participant à la compétition ICDAR 2007 (International Conference on Document Analysis and Recognition) [167], le but était d améliorer reconnaissance en utilisant deux techniques ; la combinaison et les règles de rejet. Identité Nom du système Classifieur Taux de reconnaissance 1 MITRE VDHMM 66,34% 2 CACI HMM 40,45% 3 CACI HMM 70,62% 4 CACI HMM 48,68% 5 CEDAR HMM 68,07% 6 Mie University 93,63% 7 Siemens HMM 91,23% 8 Siemens HMM 94,58% 9 UOB-ENST HMM 90,02% 10 UOB-ENST HMM 92,12% 11 UOB-ENST HMM 92,38% 12 UOB-ENST HMM 93,32% 13 ICRA Réseaux de 88,33% neurones 14 Paris V HMM/NN 89,80% Tableau 3.1. Les différents systèmes participant à la compétition ICDAR le taux de Pour effectuer la combinaison, une normalisation des sorties des classifieurs de chaque système est d abord faite afin de pouvoir combiner les résultats, la combinaison était faite selon cinq techniques ; les réseaux de neurones, le vote majoritaire, le vote majoritaire pondéré, le Borda Count et la somme des rangs. Les tests ont été effectués sur l ensemble {f} de la base IFN/ENIT où le meilleur taux de reconnaissance enregistré était de 94,71% sans appliquer aucune règle de rejet. Ces résultats donnent une amélioration de 6,5% comparés au résultat du meilleur système présenté dans la compétition ICDAR En 2009, Azizi et al [53] ont abordé le problème de sélection de primitives et de classifieurs dans un système Multi-Classifieurs (MCS). Trois groupes de primitives ont été utilisés : structurelles, statistiques et des primitives sélectionnées. Dans leur première approche basée sur la sélection de primitives, ils ont conçu deux systèmes de reconnaissance de mots arabes manuscrits ; le premier était composé de trois 78

94 Chapitre 3 : Combinaison des classifieurs HMMs ; un HMM discret basé sur des primitives structurelles, et deux HMMs de type continu basés sur des primitives statistiques et des primitives sélectionnées. Le deuxième système consiste à remplacer les HMMs par des réseaux de neurones de type PMC. Les expériences étaient faites sur les deux bases de mots LRI1 (Une base conçue au niveau du Laboratoire de Recherche en Informatique à Annaba) et IFN/ENIT. Les résultats obtenus montrent que le meilleur taux de reconnaissance était de 95,65% en appliquant la méthode de connaissance d espace de comportement (BKS). La deuxième approche concerne la sélection des classifieurs. Les auteurs ont impliqué huit classifieurs de différents types dans la combinaison. Le meilleur taux de reconnaissance est obtenu en combinant un SVM, un K-ppv, un PMC et un HMM par la règle BKS. En 2009, Al-Hajj et al [21] ont gardé la même structure du système conçu en 2007 [22] en ajoutant seulement une autre méthode de combinaison ; un réseau de neurones de type PMC. L apprentissage de la fonction de décision était fait à partir des scores des mots candidats résultant des trois HMMs. En plus de ça ils ont ajouté au vecteur de caractéristiques 11 primitives indépendantes de la ligne de base. Chaque HMM travaille sur un groupe de primitives correspondant à une orientation de fenêtre. Les expériences ont été effectuées sur la base IFN/ENIT incluant les 946 classes de mots. Les résultats indiquent que le meilleur taux de reconnaissance était de 95,87% en appliquant la règle de la somme sur les trois HMMs selon les angles d orientation 0, 20 et -20. En 2009, Hamdani et al [116] ont proposé une nouvelle technique de combinaison en utilisant des primitives hors-lignes et en-lignes avec des classifieurs de type HMM pour reconnaître des mots arabes manuscrits. La combinaison de ces classifieurs était faite selon plusieurs règles de combinaison à savoir : le vote majoritaire pondéré (VMP), le Borda Count, la somme des rangs et la somme des rangs modifiée. Les expérimentations ont été effectuées sur la base IFN/ENIT et le meilleur taux de reconnaissance obtenu était de 96,97% en appliquant la règle modifiée de somme des rangs. En 2010, Kessentini et al [136] ont proposé une comparaison entre les méthodes de combinaison évidentielles et probabilistes en utilisant les chaînes de Markov cachées comme classifieur ; chaque HMM travaille sur son propre vecteur de caractéristiques. Les trois HMMs donnent en sortie une liste des N meilleures hypothèses de mots ainsi que leurs vraisemblances. Afin de transformer ces sorties en fonction de croyance, trois méthodes ont été appliquées : la transformation consonante, la règle générale de Bayes et la règle d Appriou [133]. La combinaison est faite par la règle conjonctive [133]. 79

95 Chapitre 3 : Combinaison des classifieurs Trois méthodes probabilistes ont été également utilisées ; la somme des vraisemblances, le produit de vraisemblances et le vote. Le meilleur taux de reconnaissance obtenu était de 83,20% en combinant les trois HMMs avec la règle de vote. En 2011, Kessentini et al [134] ont remplacé dans leur système précédent la règle de combinaison de vote par celle de Borda Count. La règle de Dempster-Shafer donne toujours le meilleur taux de reconnaissance avec 84%. En 2011, Eprahinpour et al [91] ont présenté un système de reconnaissance de mots de villes iraniennes basé sur la combinaison des Perceptrons Multi-Couches. Les auteurs ont appliqué neuf méthodes de combinaison à savoir ; la règle Min (Min), la règle Max (Max), le produit (P), la somme (Sum), la moyenne (M), la moyenne pondérée (MP), les algorithmes génétiques (Alg), la méthode de Stack Generalization (SG), et la méthode modifiée de Stack Generalization (SGM) [91]. Les résultats sont présentés dans le tableau 3.2. Le taux de reconnaissance est exprimé en pourcentage (%) pour chaque règle de combinaison sur trois ensembles de test. On constate que le meilleur taux de reconnaissance était de 92,21% en utilisant la méthode modifiée de Stack Generalization sur le troisième ensemble. Approches statique Approche dynamique Min Max P Sum M MP Alg SG SGM Ens 1 81,67 77,9 85,12 84,56 84,5 86, ,89 88, 32 Ens ,12 87, ,12 88, ,24 91,9 Ens 3 85, ,32 88,9 89,45 89,87 91,10 91,32 92,21 Tableau 3.2. Résultats obtenus par Ebrahinpour [91] Combinaison hybride Comme son nom l indique, il s agit d utiliser un schéma qui reprend simultanément les principes de combinaison séquentielle et parallèle afin d'obtenir une décision finale plus sûre. Elle illustre les deux aspects de la combinaison qui sont d une part la réduction de l ensemble des classes possibles et d autres parts la recherche d un consensus entre les classifieurs afin d aboutir à une décision unique. Ce type de configuration nécessite une bonne connaissance de chacun des classifieurs utilisés de façon à choisir la topologie la plus adaptée. On peut trouver comme topologies : 80

96 Chapitre 3 : Combinaison des classifieurs - Les topologies avec bouclage : le résultat de la combinaison peut être renvoyé en entrée du système de classification afin d'en modifier la sortie. De ce fait, le système global devient dynamique et souvent plus performant qu'un système classique ; cependant, les systèmes de ce genre s'avèrent plus difficiles à paramétrer et à analyser [237]. - Les topologies avec interaction entre les différents classifieurs : il s'agit de classifieurs qui interagissent les uns sur les autres afin, éventuellement, de modifier leurs résultats avant que la fusion n'ait lieu [234]. - Les topologies avec utilisation du prototype : dans certains systèmes de combinaison, les données initiales sont utilisées en même temps que les réponses des classifieurs. La figure 3.6 présente un exemple de combinaison hybride dans laquelle on combine en série un classifieur avec deux classifieurs en parallèle. Classifieur 2 Forme inconnue Classifieur 1 Décision finale Classifieur 3 Figure 3.6. Combinaison hybride de classifieurs. D après nos recherches, le seul système qui a utilisé ce type de combinaison est celui de Touj et al [227] qui a été décrit dans la section précédente. Ici on va s intéresser aux méthodes de combinaison hybride utilisées et de leurs résultats. Les chercheurs ont choisi deux méthodes hybrides, la somme ascendante et la somme descendante [153]. Les résultats obtenus sont indiqués dans le tableau 3.3. Techniques de combinaison Taux de reconnaissance moyen (%) Taux de reconnaissance global (%) Somme ascendante 64,92 70,23 Somme descendante 62,24 76,33 Tableau 3.3. Résultats des deux approches de combinaison hybride [227]. 81

97 Chapitre 3 : Combinaison des classifieurs 3.3. Approches de combinaison parallèle sans apprentissage Parmi ces trois approches, la combinaison parallèle est la plus utilisée car contrairement aux deux autres approches, elle ne nécessite pas de connaitre précisément le comportement des classifieurs [52]. Les approches parallèles sont ainsi plus facilement généralisables et plus simples à mettre en œuvre puisqu'elles nécessitent simplement de développer une étape de combinaison des sorties. On peut distinguer plusieurs types de combinaisons des sorties suivant que l'on procède à une fusion ou à une sélection des sorties. Dans les méthodes de sélection, on cherche à sélectionner le meilleur sous-ensemble de classifieurs en fonction des résultats des classifieurs simples. La décision finale peut être prise soit par le meilleur classifieur uniquement, soit par plusieurs classifieurs [9], cette sélection peut être : - Statique si on prend en compte dans un schéma de combinaison fixé toutes les sorties des classifieurs. Ces dernières peuvent être séparées en deux niveaux suivant la nature des classifieurs combinés [9]. - Dynamique ou adaptatives dans la mesure où elle cherche à combiner le meilleur sous-ensemble de classifieurs en fonction des données présentées en entrée de la combinaison [54]. Dans les approches par fusion, un schéma de combinaison fixe prend en compte les décisions de tous les classifieurs. Ces approches se divisent en : - Combinaison de classifieurs faibles utilisant, le boosting [93], il s agit d entraîner séquentiellement plusieurs algorithmes en mettant de plus en plus d emphase sur les cas difficiles à classer. L apprentissage devient donc de plus en plus spécifique à chaque fois qu un nouvel algorithme est ajouté au comité [93]. Un méta-classifieur s occupe d apprendre les forces et les faiblesses des autres classifieurs selon les caractéristiques d apprentissage. Ce type de combinaison se fait aussi en se basant sur le bagging (Random Space) où un classifieur individuel utilise seulement un sous-ensemble de toutes les caractéristiques pour l apprentissage et la reconnaissance. La taille d un sous-ensemble est fixée et les caractéristiques sont choisies arbitrairement une fois de l ensemble global de primitives [153]. - Combinaison de classifieurs différents avec apprentissage ou sans apprentissage selon le type de sortie de classifieurs ; classe, rang ou mesure. Dans ce cas, le schéma de combinaison peut être déterminé avec ou sans apprentissage. 82

98 Chapitre 3 : Combinaison des classifieurs Le schéma présenté dans la figure 3.7 donne un aperçu sur les méthodes de la combinaison parallèle. Approche parallèle Fusion Sélection Combinaison de classifieurs faibles Combinaison de classifieurs différents Dynamique Statique Avec apprentissage Sans apprentissage Classe Rang Mesure Classe Rang Mesure Figure 3.7. Méthodes de combinaison parallèle. Les méthodes de combinaison sans apprentissage, bien que sous-optimales, ne nécessitent aucune donnée supplémentaire, et se révèlent très simple à mettre en œuvre [93]. Cette approche est la plus répandue, en particulier sur les problèmes de reconnaissance de l écriture manuscrite. Dans ce qui suit on va explique le principe de ces méthodes selon le type de sortie du classifieur Approches de type classe Dans cette catégorie on trouve les méthodes de vote qui sont les plus simples à mettre en œuvre où chaque classifieur émet une proposition de classe ou effectue un rejet exprimant qu il se trouve dans l incapacité de déterminer la classe de l élément. Chaque classifieur représente un certain nombre de voix à comptabiliser [123]. La décision finale est prise au regard d un critère plus ou moins strict. Pour la combinaison sans apprentissage les votes 83

99 Chapitre 3 : Combinaison des classifieurs des classifieurs ne sont pas pondérés et chaque classe reçoit autant de votes qu'il y a de classifieurs à combiner : Toutes les méthodes de votes peuvent être dérivées de la règle de majorité avec seuil exprimée par : ( x) ( i) Ci si e = rejet sinon = max { 1,...,M } i Ci j E e ( j) αk (3.1) Où K est le nombre de classifieurs à combiner et α est le seuil qui représente la proportion du nombre de classifieurs devant répondre la même classe pour que cette classe soit la classe finale sinon rejet. On peut distinguer différents type de vote : - La majorité unanime : si α=1, donc la classe finale est choisie si tous les classifieurs proposent cette réponse sinon la réponse finale est un rejet [93]. Elle est très restrictive même s il s agit d une méthode fiable, elle présente en conséquence l inconvénient majeur de produire un taux de reconnaissance assez faible, surtout lorsque le nombre de classifieurs augmente. - La majorité absolue : la classe finale est décidée si plus de la moitié des classifieurs l ont proposé, ici α=0,5. - La majorité simple : c est la fonction de fusion la plus simple à implémenter [56]. La sortie de chaque classifieur est considérée comme étant un vote pour une classe. Le nombre de votes pour chacune des classes est compté et l ensemble choisit la classe en ayant remporté le plus (α=0). Néanmoins, il y a un rejet si toutes les classes ont le même nombre de votes, dans ce cas, les risques de conflits sont particulièrement importants [203]. Les méthodes de vote qui ne sont pas dérivées de cette règle sont : - La majorité notoire : elle consiste à choisir une classe comme réponse finale si elle est majoritaire et se distingue de la deuxième classe par une différence supérieure à un certain seuil. En général, ce type de vote est meilleur que la majorité avec seuil. - La majorité sans conflit : c est une sorte de majorité unanime sur les classifieurs n ayant pas rejeté. Si tous les classifieurs rejettent la classe sauf un, la classe finale sera la classe proposée par ce classifieur, et la réponse finale sera un rejet si tous les classifieurs rejettent ou si il y un conflit entre les classes [182]. - Vote en plusieurs passes : dont on trouve : 84

100 Chapitre 3 : Combinaison des classifieurs 1. Procédure itérative : on élimine ici la classe ayant le plus faible nombre de votes, puis on recommence jusqu à l obtention d une seule classe. Ce type est difficilement applicable dans le cadre de la combinaison de classifieurs. 2. Run-off : si une classe se dégage par vote à la pluralité, on choisit cette classe; sinon, une seconde élection par vote à la majorité entre les deux premières classes sera effectuée; ici il n y a pas de rejet. 3. Méthode de Condorcet : les classes sont comparées deux à deux. Si une classe bat toutes les autres, elle est choisie; sinon (conflit), on applique un run-off pour choisir une classe unique [153] Approches de type rang Il existe plusieurs variantes : - La méthode d intersection : elle consiste à choisir pour chaque classifieur l ensemble des meilleurs candidats (les classes de meilleurs rangs) et à réaliser l intersection entre tous les ensembles obtenus pour la combinaison. Le nombre de classes choisies pour chaque classifieur doit être suffisamment grand pour avoir une probabilité forte de présence de la bonne classe dans l ensemble de résultat [153]. - La méthode d union : elle est réalisée par l union des meilleurs candidats des classifieurs [237]. - La méthode du meilleur rang : cette méthode consiste à ne retenir pour chacune des classes que le meilleur rang avec lequel elle apparaît dans l ensemble des classes. Contrairement à l intersection le nombre de candidat de chaque classifieur doit être suffisamment petit pour ne pas avoir un ensemble trop important de résultat. Chaque classe est ensuite repositionnée dans la liste finale en fonction de leur meilleur rang. La classe se trouvant finalement en haut de la liste est choisie comme étant la classe recherchée. Cette méthode est adaptée pour des problèmes à plusieurs classes et peu de classifieur. Elle présente l inconvénient d attribuer à une hypothèse en première position issue d une confusion autant de poids qu une bonne classification effectuée par un autre classifieur [203]. - La méthode de la somme des rangs : pour remédier à l inconvénient de la méthode du meilleur rang, à partir de l hypothèse que sur le nombre de classifieurs, le nombre de confusions est inférieur au nombre de bonnes classifications, on applique la méthode de la somme des rangs. Pour cette méthode, à chaque classe est attribuée la 85

101 Chapitre 3 : Combinaison des classifieurs somme des rangs avec lequel elle apparaît dans chacune des listes. Cette somme détermine le rang total. Dans un second temps, un nouveau classement est établi en fonction de ce rang total [93]. - La méthode de Borda Count : est à l'origine une méthode de vote dans laquelle chaque électeur donne un rang à toutes les alternatives possibles. Á l'alternative rangée la première (dans le cas de n alternatives) sont affectées n voix et chaque alternative suivante obtient une voix de moins. Puis, pour chaque alternative, toutes les voix sont additionnées et l'alternative qui a reçu le nombre le plus élevé de voix gagne l'élection. Lorsqu on utilise cette méthode, les classifieurs sont considérés comme des votants et les classes comme les alternatives [123]. Pour un problème à deux classes, le Borda Count est un vote à la majorité. Etant donnés L classifieurs, portant chacun sur M classes, on suppose connaître n prototypes pour les M classes. La distance de l élément inconnu à chacun des prototypes donne une indication sur la classe d appartenance de l élément à classer en fonction de la classe du prototype. On trie tout d abord les résultats de chaque classifieur par ordre de rang croissant. La classe, parmi M classes, correspondant au mieux aux données (la plus petite dans le cas de distances par exemple) reçoit alors n votes. L élément associé à la seconde de ces classes reçoit ensuite n-1 votes. On procède ainsi jusqu'à la dernière de ces données ce qui donnera alors un vote à l élément concerné. La somme de tous les votes des éléments concernant une même classe donne le nombre de votes pour cette classe. De cette façon, on obtient les nombres de votes pour toutes les classes. On exécute ces étapes pour chacun des L classifieurs et on additionne les votes obtenus pour les classifieurs précédents par les différentes classes. Au final, on obtient donc un tableau qui donne le nombre total de votes obtenus par chacune des classes dans les différents classifieurs. La classe correspondant à la forme reconnue est alors celle qui a obtenu le plus de votes. Cette méthode se caractérise par sa simplicité et son efficacité. La méthode de Borda a deux variantes : 1. La méthode de Borda Médiane est une variante très proche de la méthode de Borda originale. Au lieu de sommer les votes relatifs aux indices des différentes classes dans les classifieurs, on en extrait la médiane. 2. La méthode de Nanson [153] exécute M 1 fois la méthode de Borda originale sur les classifieurs. Á chaque itération, les occurrences de la classe qui a obtenu le moins de votes sont supprimées des données à traiter 86

102 Chapitre 3 : Combinaison des classifieurs à l itération suivante. Cette méthode s arrête lorsqu il n y a plus qu une seule classe à traiter [123] Approches de type mesure Les méthodes de type mesure combinent des mesures qui reflètent le degré de confiance des classifieurs sur l appartenance de la forme à reconnaître en chacune des classes. Elles se divisent en méthodes linéaires et méthodes fixes : - Les méthodes de combinaison linéaires : elles ont pour but d effectuer une somme pondérée des mesures issues de chaque classifieur. La pondération doit remplir deux objectifs, d une part elle doit agir de façon à favoriser les classifieurs les plus performants, d autre part, elle doit également agir de façon à corriger les différences de dynamiques entre les mesures (non-normalisées) fournies par les classifieurs [153]. C est une méthode de combinaison sans apprentissage où la règle de décision consiste tout simplement à appliquer aux sorties des classifieurs une combinaison linéaire : E( x) = K k = 1 β (3.2) k k m i Où β est le coefficient qui détermine l importance attribuée au k ième classifieur de la k combinaison et k mi est sa réponse pour la classe i. - Les méthodes fixes : où les classifieurs sont indépendants et estiment des probabilités a posteriori des classes. Plusieurs règles de combinaison peuvent être obtenues pour l estimation de la probabilité a posteriori en faisant appel à la formule de Bayes [56]. Ainsi, pour reconnaître une forme x en utilisant K classifieurs pour un problème à M classe, les probabilités a posteriori ( x) être calculées par la formule générale : q j ( x) = q' j j q' ( x) ( x) j La règle de combinaison dans ce cas est : E ( x) max j = rejet ( q ( x) ) j sin on { p ij, i 1, K; j = 1, M } = peuvent (3.3) (3.4) Cette règle de décision finale revient à choisir, parmi l ensemble des classes les plus 87

103 Chapitre 3 : Combinaison des classifieurs probables proposées par chacun des classifieurs, la classe pour laquelle la probabilité a posteriori ( x) q j ' est donnée par l une des règles suivantes : ( i ij ) ( pij x ) ( p x ) K Maximum : q ( x) max p ( x) ' j = 1 K Minimum : q ( x) min ( ) = (3.5) ' j i= 1 K Médiane : q ( x) med ( ) = (3.6) ' j i= 1 K Produit : q ( x) = p ( x) j ij = (3.7) i= 1 ij ( ) ' (3.8) ( ) ij Somme : q ( x) = K p ( x) ' (3.9) j i= Approches de combinaison parallèle avec apprentissage Les méthodes de combinaison avec apprentissage déterminent via une base d'apprentissage supplémentaire les paramètres de la combinaison. L apprentissage s effectue à partir d une base de validation permettant notamment de prendre en compte l efficacité de chacun des classifieurs de l ensemble. Ces méthodes donnent en général de bons résultats mais nécessitent que la base de validation soit différente des bases d apprentissage pour éviter le problème de sur-apprentissage et de taille suffisamment importante pour aboutir à de bonnes propriétés de généralisation Approches de type classe Les approches de type classe avec apprentissage se répartie en quatre catégories : - Le vote pondéré : dans ce type de vote la réponse de chaque classifieur est pondérée par un coefficient indiquant son importance dans la combinaison [182]. Contrairement aux règles de votes précédentes, celle-ci nécessite donc un apprentissage pour calculer les poids associés aux différents classifieurs participants. L'estimation des poids et donc de la fiabilité, peut se faire selon plusieurs critères, par exemple le taux de réussite d'un classifieur, les algorithmes génétiques, etc. - Méthode de Bayes : l'approche bayésienne et plus généralement les approches probabilistes reposent sur un cadre mathématique rigoureux : la théorie des probabilités. Dans le cadre probabiliste, les imperfections de l'information et les informations elles-mêmes sont modélisées à partir de distributions de probabilités ou de mesures statistiques à estimer. De ce fait, cette approche ne permet de modéliser 88

104 Chapitre 3 : Combinaison des classifieurs que l'incertitude de l'information [56]. Ces méthodes se basent sur la connaissance de matrice de confusion de chacun de ces classifieurs. La matrice de confusion peut être considérée comme une connaissance a priori du classifieur. Le classifieur estime sa croyance avec une incertitude sur chacune des N classes par un nombre réel appelé croyance (ou belief). La méthode de combinaison connaît bien le comportement de chacun des classifieurs, c est-à-dire qu'elle connaît la probabilité pour qu'une classe soit la vraie classe de x sachant que C a donné la réponse lk w [153]. La méthode jk Bayesienne repose sur la recherche de la classe w telle que la probabilité que x i appartienne réellement à w connaissant la sortie de chaque classifieur soit la plus i forte. L avantage majeur de ces probabilités est qu elles reposent sur de solides bases mathématiques, et qu il existe une grande variété de méthodes d apprentissage pour estimer les lois de probabilité [237]. Mais les probabilités sont définies dans un cadre rigide et ne permettent pas de rendre compte de tous les aspects du jugement humain. L un des autres inconvénients majeurs de cette technique réside dans l exigence de la connaissance parfaite des probabilités, et plus particulièrement de la probabilité a priori. Malheureusement, lorsque les connaissances sur le problème sont imparfaites, ces probabilités ne sont pas connues avec certitude [123]. - La théorie de Dempster Shafer : encore appelée théorie de l évidence, est une théorie mathématique qui permet de représenter à la fois l imprécision et l incertitude à l'aide de la fonction de masse, de la fonction de crédibilité et de la fonction de plausibilité qui seront décrites ci-dessous. Au contraire de la théorie des probabilités, l utilisation de la théorie de l évidence ne nécessite pas de connaissance a priori sur le problème à traiter [72]. Soit Ω = {H1, H2, H3,., HM} l ensemble des propositions possibles du problème posé, appelé cadre de discernement ou corps évidentiel. On suppose que le cadre de discernement est exhaustif et que les hypothèses sont exclusives. Á partir de cet ensemble Ω, on définit un ensemble noté { A / A Ω} = {,{ H },..., { H }, { H, },..., Ω} Ω 2, l ensemble des M 2 parties A de Ω. Ω 2 = φ 1 M 1 H 2 (3.10) Une décision traduisant une opinion sur l état d un système est caractérisée par des degrés de croyance dans les différentes hypothèses. Ces degrés de croyance peuvent être décrits par une fonction de croyance ou d allocation de masse notée m qui est définie par : : 2 Ω [ 0,1] m (3.11) 89

105 Chapitre 3 : Combinaison des classifieurs Cette fonction vérifie les propriétés suivantes : m ( φ) = 0, ( A) Ω m = A 1 (3.12) La quantité m(a) est la part de croyance placée strictement sur A. La fonction d allocation de masse m permet de construire la notion de crédibilité (croyance) et de plausibilité : ( φ) = 0 Bel (3.13) La fonction de crédibilité est définie par : j ( A) = m( B) B A A Ω, A φ, Bel (3.14) Où Bel(A) regroupe l ensemble des croyances apportées par les éléments qui composent A. Elle correspond à la quantité d information qui est tout entière contenue dans le sous-ensemble considéré. La fonction de plausibilité, notée Pl, exprime que plus un élément est vrai, moins son contraire l est. Si A est une proposition, Pl(A) mesure combien l information apportée par une source ne contredit pas A. Elle est définie par :h pl pl ( φ) = 0 ( A) = m( B) B A φ (3.15) A Ω, A φ La plausibilité de A est également reliée à la crédibilité du complémentaire de A. Elle correspond à toute l information ne créditant pas la véracité du complémentaire de A. pl ( A) Bel( A) = 1 (3.16) Dans la théorie de Dempster-Shafer, on peut interpréter l intervalle défini par [Bel(A), Pl(A)] comme un encadrement de la probabilité réelle de A ; Bel(A) est la probabilité basse et Pl(A) est la probabilité haute. La distribution de masse de croyance m et la fonction de crédibilité Bel sont deux représentations équivalentes d une même information [172]. Si on a deux classifieurs C1 et C2 produisant les masses m1 et m2, le vecteur de masse m par fusion ( m = m 1 m2 ), d après la règle orthogonale de Dempster, est donné par : m = 1 K B 1 = ( H ) m ( A). m ( B) H Ω eth φ K = A B = φ 2 Où : m ( A) m ( B), A H 2 1 (3.17) 1. (3.18) K est la masse de croyance conflictuelle existant entre les fonctions de croyance à combiner. Une fois toutes les masses obtenues, la dernière étape est de prendre la décision. Plus généralement, la fonction de décision δ pour une forme entrante x est de la forme : j 90

106 Chapitre 3 : Combinaison des classifieurs ( x ) H avec H = arg[ maxγ ( H )], H Ω δ (3.19) = n n i i Où γ (.) est la fonction de crédibilité (Bel), ou de plausibilité ou de probabilité pignistique. L utilisation de cette théorie est motivée par ses avantages dans les applications de reconnaissance d écriture. Un premier avantage est sa capacité à modéliser l ignorance et l information manquante [56]. En particulier, elle fournit des mesures explicites de l imprécision et du conflit entre les informations provenant des différentes images. Deux informations sont conflictuelles si elles conduisent à des conclusions ou à des décisions contradictoires. Un autre avantage de la théorie de l évidence est la possibilité de considérer non seulement des singletons, c est-à-dire les classes individuelles, mais aussi des unions de classes, ce qui est particulièrement utile en présence de pixels bruités [203]. La difficulté de mise en œuvre de la théorie de l évidence reste dans l obtention des fonctions de croyance car il n existe pas de méthodes génériques pour ce problème [72]. Méthode de connaissance d espace de comportement (Behaviour Knowledge Space) : cette méthode du BKS estime des distributions de la sortie des classifieurs à partir de la fréquence d'occurrence des échantillons. Si le nombre de classifieurs utilisés est L, l espace de BKS est de dimension L où chaque dimension correspond à la décision d un classifieur. Cet espace permet de connaître le comportement des classifieurs [86]. L'hypothèse d'indépendance de classifieurs n'est pas nécessaire. La méthode BKS est constituée de deux étapes : une étape d'apprentissage et une étape de décision. Au cours de l'apprentissage, BKS est construite à partir des résultats fournis par les L classifieurs. La version originale de BKS présente l'inconvénient majeur de tirer aléatoirement l'une des classes lorsqu'une unité focale contient plus d'une classe. On pourra dans ce cas choisir plutôt la classe proposée par le classifieur ayant fait le moins d'erreur [172] Approches de type rang Dans cette catégorie on trouve : - La somme pondérée : c est une sorte de généralisation de la méthode Borda Count. Elle consiste à pondérer la somme des rangs en fonction de la crédibilité ou de la confiance accordée au classifieur [153]. Les poids associés sont obtenus par un 91

107 Chapitre 3 : Combinaison des classifieurs apprentissage. L inconvénient majeur de cette méthode est le faite d avoir des poids identiques pour toutes les classes. - La régression logistique : cette méthode utilise les poids comme information reflétant l'importance relative des classifieurs. Elle se base sur π ( C i ), la probabilité de la classe Ci avec 0 ( C ) 1 utilise la fonction logistique qui a la forme suivante : π ( C ) i π [56]. Pour l'estimation de cette probabilité, on ( α + β r + β r β r ) 1 i,1 2 i,2 L i, L ( α + β r + β r β r ) 1 i,1 i exp = (3.20) 1 + exp 2 i,2 L i, L Où r i, j est le rang attribué par le classifieur ej à la classe Ci. Pour obtenir une relation linéaire, l'équation précédente peut être transformée comme suit : L ( C ) i ( C ) α + β i 1ri,1 + β 2ri, β Lri, L = π ( C ) 1 + exp( α + β r + β r β r ) π = log (3.21) 1 i 1 i,1 2 i,2 L i, L Une telle transformation est appelée fonction logit : L(Ci). Les paramètres de régression α et β peuvent être estimés par les méthodes des moindres carrés [123] ou j du maximum de vraisemblance [153]. Une fois les paramètres β calculés, la j combinaison des L vecteurs de rang fournis par les classifieurs consiste à calculer les fonctions logit : L(Ci) pour chaque classe en utilisant l'équation (3.21). Les classes finales de la combinaison seront les classes triées selon les valeurs de L(Ci). Cette méthode nécessite d'estimer N(L-1) paramètres, ce qui rend la méthode de régression logistique très coûteuse. Par conséquent, elle ne peut être utilisée en pratique que pour les problèmes de classification à faible nombre de classes [56]. - Intersection des listes : une classe n appartient à la liste finale que si elle existe dans toutes les listes fournies par les classifieurs. On détermine ici pour chaque élément de la base d apprentissage le rang maximum permettant de conserver la bonne classe dans la liste [153]. Pour que cette méthode donne de bons résultats il faut avoir des listes de grande taille pour espérer avoir la bonne classe au final. - Union de listes : une classe qui existe au moins une fois dans une liste figure dans la liste finale des solutions. On utilise ici la procédure min-max pour déterminer les tailles de listes c est-à-dire déterminer le rang minimum pour chaque élément de la base d apprentissage puis prendre le max de ces minimum [237]. Pour se faire, il faut des listes de petite taille pour ne pas avoir trop de classes au final. 92

108 Chapitre 3 : Combinaison des classifieurs Approches de type mesure Les méthodes appartenant à ce type d approche sont : - Les règles pondérées : on va pondérer ici les règles présentées dans la section par des coefficients qui seront déterminés par un apprentissage. Á titre d exemple la règle de la somme sera présentée par l équation suivante : j ( ) ij K ( x) = p ( x) q' λ (3.22) i i= 1 Où λ représente le coefficient associé au classifieur i. i - L intégral flou : le principe de l intégral flou est de calculer des fonctions floues pour chacune des classes et retenir la classe ayant l intégral flou le plus élevé [153]. L intégrale logique consiste à mesurer la force de chaque classifieur et de chaque sous-ensemble de classifieurs. Chaque sous-ensemble de classifieurs possède une mesure représentant sa force de décision concernant une entrée donnée. Le support d'ensemble de d j ( x), i 1 L ω, ( x) j µ, est obtenu à partir des valeurs de support j i =,..,, en tenant compte des compétences des groupes des divers sous-, ensembles d'experts. La mesure de force des sous-ensembles s'appelle une mesure logique. Le problème fondamental dans l utilisation de l intégral flou est qu on ne dispose pas généralement de la table recherchée pour la mesure floue g [153]. La solution traditionnelle de ce problème consiste à calculer la mesure données. λ fuzzy utilisant les - Decision Template : l idée de base de la Décision Template est de se rappeler le profil de décision le plus typique pour chaque classeω, nommé décision Template, DTj, et le comparer avec le profil de décision actuel DP(x) utilisant la mesure de similarité S. Le plus proche objet semblable est nommé x. L algorithme d apprentissage de Décision Template est composé des étapes suivantes [153] : 1. Pour j=1,,c, calculer la moyenne des profils de décisions DP( z k ) de tous les membres de ω à partir de l ensemble de données Z : j j DT j = 1 N j Z k ω j Z k Z DP ( z ) k (3.23) Où Nj est le nombre des éléments de Z à partir de ω. j 93

109 Chapitre 3 : Combinaison des classifieurs 2. Donnant x n R chaque DTJ : ( x) = S DP( x), construire DP(x) en calculant la similarité S entre DP(x) et (, DT ) j 1,..., c. µ (3.24) = j j - Les réseaux de neurones : ici un réseau de neurones est considéré comme étant une fonction de décision. Les classifieurs apprennent au début sur la base entière ou sur des parties de cette base. Ensuite, une base de validation est classée en utilisant cet ensemble de classifieurs. La réponse à chaque forme est considérée comme une nouvelle donnée à apprendre par le réseau de neurones ce qui lui permet d'apprendre le comportement des classifieurs [203]. Chaque forme de la base de test est alors classée au début par l'ensemble de classifieurs dont les sorties sont ensuite combinées par le réseau de neurones pour fournir la décision finale. Les sorties des classifieurs sont donc considérées pour le classifieur de fusion comme un nouvel ensemble de caractéristiques de chaque forme de test. On appelle cette approche méta-classifieur Conclusion De nombreux travaux montrent que la combinaison de classifieurs améliore nettement les performances du système de reconnaissance par rapport à chacun des classifieurs pris individuellement. Cependant, parmi les différentes architectures permettant de combiner un ensemble de classifieurs présentées dans ce chapitre, l'architecture parallèle est de loin celle qui a donné lieu aux travaux les plus importants dans le domaine de la reconnaissance de l écriture arabe manuscrite. Sa simplicité de mise en œuvre, sa capacité à exploiter les réponses des classifieurs à combiner en prenant en compte (ou non) le comportement de chacun des classifieurs et son efficacité expliquent son succès par rapport aux autres approches : hybride et séquentielle. Nous avons dressé tout au long de ce chapitre un panorama des principales méthodes de combinaison de classifieurs à savoir la combinaison séquentielle, parallèle et hybride. Le choix d une approche plutôt qu une autre est lié à la nature du problème traité. Nous avons mis l accent sur les méthodes de combinaison parallèle selon l existence ou non d une phase d apprentissage et le type de sortie du classifieur. Nous avons présenté également les travaux utilisant la combinaison de classifieurs dans le cadre de l écriture arabe manuscrite hors-ligne pour chaque approche. 94

110 Chapitre 4 : La base de noms de communes algériennes

111 CHAPITRE 4 LA BASE DE NOMS DE COMMUNES ALGÉRIENNES Sommaire 4.1 Introduction Acquisition Prétraitements appliqués à la base Filtrage Binarisation Stockage des mots de la base Statistiques Conclusion

112 Chapitre 4 : La base de noms de communes algériennes 4.1. Introduction Contrairement à l écriture latine, pour laquelle des bases d images de mots connues existent telles que ; NIST [81], CEDAR [81], CENPARMI [81], IRONOFF [133], RIMES [52], SRTP [107], IAM [171] et Senior & Robinson [214], etc., et sont disponibles depuis un certain nombre d années, il n existe actuellement que quelques bases de données d images de mots arabes manuscrits. Pour cette raison, on a opté pour la conception d une nouvelle base de mots arabes. Notre base de mots arabes est composée de mots représentant des communes, des daïeras et des wilayas algériennes. Depuis 1984, l Algérie contient 48 wilayas, chacune d elle est composée de plusieurs daïeras qui sont à leurs tours composées de communes. Les communes possèdent des dénominations inspirées des noms des martyrs, des grandes personnalités, des noms berbères, des noms de sages, des noms des sources naturelles ainsi que des noms des montagnes et des fleuves. Dans ce chapitre on va présenter les différentes étapes suivies lors de la conception de notre base. On va commencer d abord par introduire la phase d acquisition des formulaires, ensuite on décrira le principe des deux opérations de prétraitement appliquées sur les formulaires de notre base à savoir le filtrage et la binarisation. Le format ainsi que la manière de stockage des mots de notre base seront présentés dans la section 4.4. On finira par donner quelques statistiques portant sur les mots, les sous-mots, et les caractères formant notre base ainsi que les scripteurs participant au remplissage des formulaires Acquisition Les mots arabes qui représentent les noms des communes, des daïeras et des wilayas algériennes ont été écrits sur des pages blanches avec un stylo noir ou bleu par 2100 scripteurs différents. Les scripteurs participants au remplissage des formulaires appartiennent aux 48 wilayas de l Algérie. L acquisition a été effectuée avec un scanner Canon LIDE 110 à une résolution de 300 dpi ; qui a permis d avoir des images de bonne qualité. Des exemples de deux formulaires sont présentés dans les figures 4.1 et 4.2. A partir des formulaires indiqués dans les figures 4.1 et 4.2, on constate que chaque formulaire contient 11 mots de communes algériennes, chacun d eux a été réécrit deux fois. L ordre de ces noms est inspiré d un programme de vote. Finalement, tout en bas du formulaire une partie est réservée aux renseignements personnels du scripteur tels que; le 97

113 Chapitre 4 : La base de noms de communes algériennes nom, le prénom, l âge, la profession et la wilaya de résidence. Ainsi qu un identificateur composé du numéro de formulaire suivi par le numéro de l exemplaire. Figure 4.1. Exemplaire N 15 du formulaire N

114 Chapitre 4 : La base de noms de communes algériennes Figure 4.2. Exemplaire N 12 du formulaire N 7. 99

115 Chapitre 4 : La base de noms de communes algériennes 4.3. Prétraitements appliqués à la base Le prétraitement consiste à supprimer les facteurs de bruit et de rehausser les signaux utiles contribuant à une meilleure lisibilité de l image. Nous examinerons donc par la suite les deux opérations de prétraitements appliquées aux formulaires de notre base Filtrage Une phase de filtrage des images est réalisée afin de réduire le bruit. Ce prétraitement permet de diminuer de 8% le taux d'erreur de classification obtenu sans prétraitement. Pour nos formulaires, on a appliqué un filtre médian qui procède tout d'abord par un tri des valeurs de niveau de gris du voisinage suivi d'une sélection de l'élément milieu du tri. Le tri se fait généralement par ordre croissant. Il conduit à former l'ensemble ordonné des valeurs de gris du voisinage. On considère que la valeur la plus représentative pour un pixel est la valeur médiane pour un voisinage fixé autour du point considéré. Le principe de l algorithme utilisé est le suivant : soit V un voisinage d un pixel p ; soit n le nombre de pixels dans V ; soit T un tableau ; I[x] représente le niveau de gris de x. pour tout x dans V, mettre I[x] dans T ; ordonner T ; T[n/2] est la nouvelle luminance de p ; Le filtre médian possède les propriétés suivantes : - Eliminer les événements de taille inférieure à la moitié de la taille de la fenêtre d observation (élimination de bruits type impulsionnel) [76]. - Les événements les plus grands conservent leur dynamique, les frontières restent aussi plus précises [101]. En traitement d image, les tailles des fenêtres utilisées pour le filtrage médian sont généralement impaires : 3 3 ; 5 5 ; 7 7. On a choisi d utiliser la taille 3 3. Les deux figures 4.3 et 4.4 indiquent un formulaire avant et après l application de filtre médian. 100

116 Chapitre 4 : La base de noms de communes algériennes Figure 4.3. Exemple d un formulaire scanné avant filtrage. 101

117 Chapitre 4 : La base de noms de communes algériennes Figure 4.4. Application du filtre médian. 102

118 Chapitre 4 : La base de noms de communes algériennes En comparant les deux formulaires, on constate que l application du filtre médian améliore la qualité d image Binarisation Le principe de la binarisation est de transformer une image en niveau de gris en une image en noir et blanc, donc de séparer la forme (ici le tracé) et le fond. Dans une image en niveaux de gris, à chaque pixel est associée une luminosité allant de 0 à 255. Le seuil de binarisation correspond à la limite entre les contrastes forts et faibles de l'image. Comme on a mentionné dans le premier chapitre, plusieurs types de méthodes existent. On a choisi d utiliser la méthode de seuil [210]. Si la valeur du pixel est en dessous du seuil, nous lui associons la valeur 0. Si la valeur du pixel est égale ou supérieur au seuil nous lui donnons la valeur 1. Le seuil été fixé manuellement pour bien discerner les objets du fond. L algorithme utilisé est le suivant : Soit S la valeur du seuil pour la binarisation entre 0 et 255. Le seuil est utilisé dans la binarisation de l image : les pixels ayant une valeur inférieure au seuil deviennent noirs les autres blancs. Pour i allant de 0 à la largeur de l image Pour j allant de 0 à l hauteur de l image p = Image1.pixel(i, j); Si p < S alors val = 0 Sinon val = 255 Image2.MettrePixel(i,j,val) Finsi Finpour Finpour L exemple présenté dans la figure 4.5 indique l application de la binarisation sur le formulaire de la figure 4.4. On voit bien qu après la binarisation du formulaire l écriture devienne plus lisible. 103

119 Chapitre 4 : La base de noms de communes algériennes Figure 4.5. Exemple d un formulaire binarisé. 104

120 Chapitre 4 : La base de noms de communes algériennes 4.4. Stockage des mots de la base Avant de stocker les images de mots de communes algériennes, on a d abord appliqué une procédure de découpage semi-automatique pour extraire les mots à partir des formulaires. Concernant les mots trop inclinés, le travail est fait manuellement. Des exemples de mots inclinés extraits manuellement sont illustrés dans le tableau 4.1. Tableau 4.1. Exemples de mots inclinés. Après le découpage des mots, chaque mot sera stocké avec un nom comportant : numéro de formulaire-numéro d exemplaire-numéro de wilaya-numéro de commune-(a ou b). Où : - Numéro du formulaire : est un chiffre qui indique le numéro de formulaire, il varie entre 1 et Numéro d exemplaire : est un chiffre représentant le numéro d exemplaire du formulaire, il varie entre 1 et Numéro de wilaya : est un chiffre indiquant le numéro de wilaya, il varie entre 1 et Numéro de communes : est un chiffre représentant le numéro de commune variant entre 2 et a ou b : si le mot est écrit sur la première colonne du formulaire alors il sera étiqueté par un "a", sinon (apparait dans la deuxième colonne) il sera étiqueté par un "b". Les mots indiqués dans la figure 4.6 montrent deux exemples de noms d images. Le premier porte le nom : b qui indique que le mot correspond à la 17 ème commune de la wilaya N 1 écrit sur la deuxième colonne de l exemplaire N 10 du formulaire N

121 Chapitre 4 : La base de noms de communes algériennes Le deuxième mot est stocké sous le nom b, ce qui veut dire que c est le nom de la deuxième commune de la wilaya N 2 écrit sur la deuxième colonne de l exemplaire N 15 du formulaire N 3. Figure 4.6. Exemples de nom d images de deux mots de notre base. La qualité des images des mots dépend essentiellement de leur taille. Celle-ci est bien sûr limitée par la résolution du scanner. Les images numériques brutes sont le plus souvent trop lourdes pour être utilisées directement, il faut donc préalablement les compresser et les enregistrer dans un format adéquat. Pour cette raison, on a opté pour deux types de formats différents : BMP et TIFF. Le format BMP (BitMaP), développé par Microsoft et IBM, est répandu sur les plates formes Windows et OS/2. Il est notamment utilisé pour les fonds d écran des PCs ou indiqué par défaut lors de l'enregistrement d'un dessin avec Windows Paint [64]. Un fichier BMP est un fichier bitmap, c'est-à-dire un fichier d'image graphique stockant les pixels sous forme de tableau. Le format BMP ne propose pas de compression si celui-ci n utilise pas l algorithme de compression RLE (utilisable uniquement sur des images 256 couleurs, 16 couleurs et noir & blanc) [64]. Ce qui fait de lui un format d image très lourd. Ce format possède les avantages suivants : - Les images bitmaps peuvent facilement être créées et stockées dans un tableau de pixels représentant l'image [71]. - La lecture/écriture d un pixel est aisée de part la représentation de l'image comme une grille. - Les images bitmaps peuvent facilement être affichées sur un écran ou être imprimées. - Une compatibilité plus facile à réaliser entre différents formats [90]. 106

122 Chapitre 4 : La base de noms de communes algériennes - Une adaptabilité au traitement d'image (anti-aliasing, rehaussement de contour, contraste, colorimètre). - Une adaptabilité à une image complexe dont les formes ne suivent pas un ordre logique. - Leur simplicité et leur utilisation dans les programmes Windows. - Le format BMP prend en charge une profondeur de couleur de 1 bit à 24 bits. - Il est largement compatible avec les programmes Windows existants, en particulier les plus anciens [90]. - Il supporte le mélange RGB (Red, Green, Bleu) et les palettes 8 et 24 bits, les couleurs indexées, les niveaux de gris et le mode Bitmap. - Ce format permet donc une bonne restitution des couleurs, sans dégradation. - C'est le format idéal pour des impressions de qualité photographique. - Il stocke une quantité considérable d information ou bits et permet à l écran d afficher des images qui sont très proche de l original. Le deuxième format utilisé pour stocker les mots de notre base est le Tagged Image File Format généralement abrégé TIFF. C est un format de fichier pour image numérique. Il a été développé par Microsoft et mis au point en 1987 par la société Aldus (appartenant désormais à Adobe System). Conçu pour permettre l utilisation des fichiers images provenant notamment des numériseurs, le format TIFF est devenu l un des standards d échange de fichiers images entre différentes plates-formes en mode matriciel [88]. Le principe du format TIFF consiste à définir des balises décrivant les caractéristiques de l'image. Les balises permettent de stocker des informations concernant aussi bien les dimensions de l'image, le nombre de couleurs utilisées, le type de compression, ou bien la correction gamma [36]. La description de l'image par balise permet la programmation de logiciels permettant d'enregistrer au format TIFF. Les nombreux avantages de TIFF en font un format privilégié pour le stockage des images : - Tout d'abord il s'agit d'un format libre et universel pris en compte par la grande majorité des logiciels de traitement d'images. Ses spécifications sont publiques et le développement de logiciels exploitant ce format de fichier ne demande pas de payer des droits à telle ou telle entreprise [90]. - Le format TIFF permet de stocker des images bitmap sans perte de qualité et indépendamment des plates formes ou des périphériques utilisés (Device-Independant Bitmap, noté DIB) [36]. 107

123 Chapitre 4 : La base de noms de communes algériennes - Les images enregistrées dans ce format ne subissent aucune dégradation même si elles sont réenregistrées un très grand nombre de fois (ce qui ne signifie pas que toutes les modifications soient réversibles). Cela en fait donc un excellent format de travail lors des séances de retouches. - Il supporte de nombreux codages des pixels, de 1 à 64 bits par pixel et permet de stocker des images dans de nombreux espaces colorimétriques : noir et blanc, monochrome, en couleurs réelles ainsi que des images indexées, faisant usage d'une palette de couleurs. - Il supporte de nombreuses informations additionnelles sur les couleurs utiles à la calibration colorimétrique comme la correction gamma afin de pouvoir être vu de manière assez proche sur des systèmes différents [36]. - Il supporte le stockage d'image par bloc, et aussi de multiples images par fichier, des images alternatives en basse résolution, ou encore des annotations sous forme de courbes et de texte. - Il permet de stocker des images de taille importantes (plus de 4 Go compressées). - Le format TIFF offre l'avantage d'occuper moins d'espace disque. - Contrairement au format JPEG (Joint Photographic Expert Group), la compression du format TIFF est effectuée sans perte de données. La qualité des images est ainsi parfaite. En contrepartie, le poids des fichiers est beaucoup plus important. - Il s'agit d'un format utilisé par des professionnel car il est reconnu sur tous types de système d'exploitation : Windows, Mac, Linux, Unix, etc. et offre une très bonne qualité d image. Les mots de la base sont stockés dans quatre ensembles : - Ensemble 1 : contient mots représentant 391 communes des 12 premières wilayas (wilaya N 1 wilaya N 12). - Ensemble 2 : contient mots représentant 495 communes (wilaya N 13 wilaya N 24). - Ensemble 3 : contient mots représentant 367 communes (wilaya N 25 wilaya N 36). - Ensemble 4 : contient 8640 mots représentant 288 communes des 12 dernières wilayas (wilaya N 37 wilaya N 48). Chaque ensemble est divisé en un sous-ensemble d apprentissage et un sous-ensemble de test. Le tableau 4.2 indique le nombre de mots dans chaque sous-ensemble. 108

124 Chapitre 4 : La base de noms de communes algériennes Ensemble 1 Ensemble 2 Ensemble 3 Ensemble 4 Sous-ensemble d apprentissage Sous-ensemble de test Tableau 4.2. Nombre de mots dans les sous-ensembles d apprentissage et de test Statistiques Notre base de mots arabes manuscrits contient mots arabes représentant 1541 noms de communes algériennes. Chaque nom de commune est répété 30 fois. Le graphe de la figure 4.8 montre la distribution des noms de communes dans chaque wilaya. A partir du graphe, on remarque que la wilaya N 15 contient le plus grand nombre de communes (67) et la wilaya N 37 est celle qui contient le plus petit nombre de communes (2). On remarque aussi que la majorité des wilayas algériennes sont composées de plus de 20 communes. Figure 4.7. Nombre de communes par wilaya. Lors de la collecte des mots des communes algériennes, on a trouvé des noms qui sont communs entre deux ou plusieurs wilayas. Pour résoudre ce problème on a considéré qu une 109

125 Chapitre 4 : La base de noms de communes algériennes seule fois le mot répété. Mais on n a pas supprimé ces mots des formulaires. Le nombre de mots répétés est de 39. Donc, on va éliminer 39 classes de notre base, ce qui donne en total 1502 classes. Le tableau ci-dessous affiche les noms communs de communes ainsi que leurs wilayas d appartenance. Nom de commune Wilayas d appartenance "العناصر " "تلمسان" "برج بوعريريج " "األمير عبد القادر" "غرداية " "عين تموشنت" "جيجل" "عين الدفلى" "مستغانم" "ورڤلة" "سيدي لخصر" "سيدي سليمان" "البيض " "تيسمسيلت " "تيزي وزو" "سيدي نعمان" "سيدي خالد" "سيدي اعمر" "سيدي عبد الرحمان" "أوالد عيسى" "أوالد إبراھيم" "أوالد سيدي إبراھيم" "عين البيضاء" "المدية " "سيدي بلعباس" "بسكرة " "تيبازة" "سعيدة " "تيارت" "الشلف " "أدرار" "بومرداس" "سعيدة" "المدية " "برج بو عريريج " "المسيلة" برج بو عريريج " "أم البواقي" "ورڤلة " " 110

126 Chapitre 4 : La base de noms de communes algériennes "غليزان" "برج بو عريريج " "جيجل" "وھران" "تيسمسيلت" "الطارف" "خنشلة" "سطيف" "بن داود" "العنصر" "العيون" "الحامة" "دلدول" "المرسى " "الجلفة" "أدرار" "سكيكدة" "الجزائر العاصمة" "الشلف" "غليزان" "باتنة" "تبسة" "المدية" "البويرة" "سعيدة" "البويرة" "عنابة" "معسكر" "البليدة" "تيسمسيلت" "تبسة" "الوادي" "الحاسي" "العوينات" "المعمورة" "الشرفة" "األربعاء" "العڤلة" "خميستي" "المحمدية " "تسمسيلت" "تيبازة" "الجزائر العاصمة" "معسكر" "تيزي وزو" "الجلفة" "البليدة" "تادمايت" "الشريعة" 111

127 Chapitre 4 : La base de noms de communes algériennes "تبسة" "غليزان" "خنشلة" "سطيف" "تيبازة" "بسكرة" "سكيكدة" "الطارف" "أم البواقي" "عين تموشنت" "بسكرة" "الطارف" "الولجة" "الشعيبة" "الزيتونة" "العامرية" "البسباس" "مستغانم" "منصورة " "تلمسان" "تبسة" "الجزائر العاصمة " "الحمامات" Tableau 4.3. Noms communs de communes répétées dans les wilayas algériennes. Les deux plus longs mots dans notre base sont : زمالت األمير عبد القادر" " et avec 20 caractères. Le premier mot comporte 11 sous-mots et le "الفجوج بوغرارة السعودي " deuxième 12 sous-mots. Le plus petit mot contient seulement 3 caractères. On trouve beaucoup de mots ayant 3 caractères dans notre base dont on cite à titre d exemples : sous-mots, Les tableaux 4.4, 4.5, 4.6 et 4.7 indiquent le nombre de caractères, de."ت سن ","تيط" et de mots pour les wilayas de chaque ensemble de la base. Nombre de caractères Nombres de sous-mots Nombre de mots Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N

128 Chapitre 4 : La base de noms de communes algériennes Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Tableau 4.4. Statistiques du premier ensemble (wilayas N 1 N 12). ("باتنة") N 5 D après le tableau 4.4 et pour le premier ensemble, on voit bien que la wilaya contient le plus grand nombre de caractères (425), de sous-mots (217) et de mots (83) car elle possède le plus grand nombre de communes (61). Nombre de caractères Nombres de sous-mots Nombre de mots Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Tableau 4.5. Statistiques du deuxième ensemble (wilayas N 13 N 24). Ici, la wilaya N 15 وزو") ("تيزي comporte le plus grand nombre de caractères (482), de sousmots (261) et de mots (102). Elle contient aussi le plus grand nombre de communes (67). La wilaya ayant le plus petit nombre est la N 23 ("عنابة") qui inclut seulement 12 communes. 113

129 Chapitre 4 : La base de noms de communes algériennes Nombre de caractères Nombres de sous-mots Nombre de mots Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Tableau 4.6. Statistiques du troisième ensemble (wilayas N 25 N 36). A partir du tableau représentant les statistiques du troisième ensemble, on remarque que la wilaya N 26 ("المدية") enregistre le plus grand nombre de caractères (488), de sous-mots (254) et de mots (93). Cette wilaya contient le plus grand nombre de communes (64). Les plus petites valeurs enregistrées sont 44 caractères, 27 sous-mots et 10 mots pour la wilaya N 33 communes. obtenus de ses 6 ("إليزي") Nombre de caractères Nombres de sous-mots Nombre de mots Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N Wilaya N

130 Chapitre 4 : La base de noms de communes algériennes Wilaya N Wilaya N Tableau 4.7. Statistiques du quatrième ensemble (wilayas N 37 N 48). Les statistiques du tableau 4.7 montrent que la wilaya N 48 ("غليزان") enregistre les plus grandes valeurs avec 297 caractères, 159 sous-mots et 67 mots ; comptabilisées à partir de 38 communes. Les plus petites valeurs sont ceux de la wilaya N 37 ("تندوف") avec deux communes seulement, 12 caractères, 7 sous-mots et 3 mots. En total, toutes les communes des 48 wilayas comportent caractères, 5820 sous-mots et 2313 mots. En multipliant chaque nombre par 30, les quatre ensembles englobent en total caractères, sous-mots et mots (sans éliminer les noms de communes communs). Le graphe présenté dans la figure 4.8 indique la répartition du nombre de caractères, de sousmots et de mots sur les quatre ensembles Caractères Sous-mots Mots Ensemble 1 Ensemble 2 Ensemble 3 Ensemble 4 Figure 4.8. Nombre de caractères, de sous-mots et de mots dans les ensembles de notre base. En éliminant les mots répétés, la base finale contient caractères, 5639 sous-mots et 2235 mots. En multipliant par 30, on aura caractères, sous-mots et mots. Le graphe de la figure 4.9 présente le nombre des noms de communes constitués de 1, 2, 3 ou 4 mots en éliminant les mots répétés. 115

131 Chapitre 4 : La base de noms de communes algériennes A partir du graphe, on voit bien que plus de la moitié de la base représente des noms composés d un seul mot, plus d un quart sont des noms composés de deux mots et le reste sont des noms de trois ou de quatre mots. Noms composés d'un mot Noms composés de deux mots Noms composés de trois mots Noms composés de quatre mots Figure 4.9. Nombre de noms de communes selon le nombre de mots les constituant. On a calculé également le nombre de sous-mots dans les noms de communes où on a enregistré les résultats indiqués dans le graphe de la figure 4.10 (où sm désigne sous-mot). 1 sm 2 sm 3 sm 4 sm 5 sm 6 sm 7 sm 8 sm 9 sm 10 sm 11 sm 12 sm Figure Statistiques des mots selon le nombre de sous-mots les composant. On remarque que plus de la moitié de notre base comporte des noms composés de trois ou quatre sous-mots. On constate aussi la présence très restreinte de noms composés de 9, 10, 11 ou 12 sous-mots. Plusieurs noms de communes commençent par le même mot ou bien sous mots, le tableau 4.8 donne ces mots communs. 116

132 Chapitre 4 : La base de noms de communes algériennes Mots communs Nombre de noms de communes Mots communs Nombre de noms de communes Mots communs Nombre de noms de communes 7 "واد" 17 "حاسي" 107 "عين" 6 "قصر" 17 "بئر" 79 "سيدي" 6 "رأس" 16 "برج" 74 "بو" 6 "تيزي" 16 "آيت" 55 "أوالد" 3 "دار" 10 "حم ام" 46 "بني" 9 "أم" 36 "وادي" 8 "سوق" 20 "بن" Tableau 4.8. Statistiques des mots commençant par le même sous-mot. Les mots contenant autant de caractères que de sous-mots sont listés ci-dessous : 1. Le mot "أدرار" avec 5 sous-mots et 5 caractères. 2. Le mot "زورق" avec 4 sous-mots et 4 caractères. 3. Le mot "زردازة" avec 6 sous-mots et 6 caractères. 4. Le mot "وزرة" avec 4 sous-mots et 4 caractères. 5. Le mot "دراڨ" avec 4 sous-mots et 4 caractères. Des échantillons de ces mots sont indiqués dans le tableau 4.9. Tableau 4.9. Mots ayant autant de caractères que de sous-mots. 117

133 Chapitre 4 : La base de noms de communes algériennes Le graphe de la figure 4.11 indique la répartition des mots selon leur taille exprimée en nombre de lettres. On remarque que le plus petit mot est composé de 3 caractères et le plus long mot comporte 20 caractères. La majorité des mots de notre base comportent 7 caractères Nombre de mots Nombre de lettres par mot Figure Répartition des mots selon leur nombre de lettres dans notre base. Pour les scripteurs participant au remplissage des formulaires de notre base, on a enregistré la participation de 1000 femmes et 1100 hommes. Le graphe présenté dans la figure 4.12 donne la répartition du nombre de scripteur selon leur wilaya de résidence. La majorité des participants habitent les wilayas N 4 البواقي"),("أم N 5 ("باتنة") et N 25.("قسنطينة") Figure Nombre de scripteurs par wilaya. 118

134 Chapitre 4 : La base de noms de communes algériennes Les statistiques indiquées dans le tableau 4.10 montrent la répartition des scripteurs selon l âge. Les scripteurs ayant un âge entre 20 et 30 ans enregistrent le plus grand nombre avec 750 participants. Catégorie d âge Nombre de scripteurs Age < Age < Age < Age < Age < Age < Age 40 Tableau Nombre de scripteurs partitionné selon leur âge. Le tableau 4.11 indique le nombre de scripteurs suivant leur profession. Les étudiants marquent la plus grande participation par 750 scripteurs. Profession Nombre de scripteurs Etudiant 750 Elève 420 Enseignant 180 Commerçant 170 Agriculteurs 60 Sans-fonction 120 Fonctionnaire 350 Autre 50 Tableau Nombre de scripteurs selon leur profession Conclusion La disponibilité d une base de données de référence est un besoin crucial pour une évaluation objective des performances des différents systèmes de reconnaissance de l écriture. Concernant le domaine de la reconnaissance de l écriture arabe, la seule base de données 119

135 Chapitre 4 : La base de noms de communes algériennes gratuite à l heure actuelle est la base IFN/ENIT publiée en 2002 [197]. À l exception de cette base, la plupart des bases de données ne sont pas accessibles, elles étaient développées pour un travail de recherche bien définit [16], [37], [41], [59], [114], [142] et [162]. Nous avons présenté tout au long de ce chapitre les étapes de conception de notre nouvelle base de nom de communes algériennes ; l acquisition, les prétraitements, le stockage, ainsi que quelques statistiques. Notre base qui sera publique prochainement enrichira la recherche sur l écriture arabe manuscrite vu sa richesse en mots et sa diversité en styles d écriture dûes au très grand nombre de scripteurs participant à sa réalisation. 120

136 Chapitre 5 : Implémentation du système proposé

137 CHAPITRE 5 IMPLÉMENTATION DU SYSTÈME PROPOSÉ Sommaire 5.1 Introduction Prétraitement Lissage Normalisation Redressement Squelettisation Extraction du contour Extraction de caractéristiques Les moments de Tchebichef Les moments de Zernike Les moments de Hu Classification Entrainement des classifieurs Comparaison des résultats de reconnaissance des classifieurs Combinaison des classifieurs Comparaison de nos résultats avec d autres systèmes Conclusion...162

138 Chapitre 5 : Implémentation du système proposé 5.1. Introduction Dans ce chapitre, nous allons présenter notre système de reconnaissance d écriture arabe manuscrite hors-ligne basé sur la combinaison des classifieurs et qui englobe les trois grandes phases suivantes : le prétraitement, l extraction de caractéristiques et la reconnaissance. Chacune d elles regroupe plusieurs opérations. Dans ce qui suit, nous allons expliquer de manière détaillée les différentes techniques utilisées pour la réalisation de ce système. Nous allons également faire des comparaisons entre les performances des trois classifieurs utilisés de manière indépendante puis les combiner selon trois règles de combinaison parallèle. Nous allons aussi comparer le résultat final de notre système avec celui d autres systèmes de la littérature ayant été testés eux aussi sur la base IFN/ENIT. L architecture globale de notre système est illustrée dans la figure 5.1. Prétraitement Normalisation, squelettisation, extraction de contour, lissage et redressement Extraction de caractéristiques Moments de Hu Moments de Tchebichef Moments de Zernike MLP Fuzzy ART RBF Reconnaissance Règle de combinaison Classe du mot Figure 5.1. Architecture générale de notre système de reconnaissance de mots arabes manuscrits. 123

139 Chapitre 5 : Implémentation du système proposé 5.2. Prétraitement C est la première phase de notre système, elle permet de réduire au maximum la variabilité intrinsèque à l écriture ainsi que les bruits possiblement introduits lors de l acquisition. Dans notre système un ensemble d opérations de prétraitement est effectué sur l image du mot en vue d éliminer ou bien de réduire les sources de variabilité et les bruits, et de simplifier la procédure d extraction de caractéristiques Lissage La première opération de prétraitement est le lissage. Il permet de réduire au maximum les discontinuités introduites dans l image au cours des différentes transformations et ainsi de rétablir la régularité et la continuité du contour du mot. Le lissage consiste à examiner le voisinage d un pixel et de lui attribuer la valeur 1 si le nombre de pixel noir dans cette zone est supérieur à un seuil [144]. Dans notre cas, un voisinage de 3x3 et un seuil de 4 ont été utilisés. Ceci nous a permis d accomplir un lissage modéré qui a éliminé les bruits résiduels apparaissant aux bords de l image ainsi que les petites taches isolées. Un exemple du résultat obtenu par l application de cette opération sur deux images est présenté dans les figures 5.2 et 5.3. La première est tirée de la base IFN/ENIT et la deuxième de notre propre base de mots.."أكودة" Figure 5.2. Lissage du mot."تنس" Figure 5.3. Lissage du mot Normalisation La normalisation d une image consiste à transformer la taille de l'image et l'adapter à une dimension fixée a priori par l'utilisateur, pour cela nous avons proposé une procédure qui permet de normaliser les images utilisées à une taille de 400x100 pixels. 124

140 Chapitre 5 : Implémentation du système proposé On a appliqué sur les images de notre base ainsi que les mots de la base IFN/ENIT une normalisation linéaire [79] en se basant sur un algorithme comportant trois étapes : - Calculer la matrice M de dispersion de la forme : considérant la fonction d'image digitale f(x,y) pour laquelle f(x,y)=1 indique que (x,y) est un pixel objet et f(x,y)=0 indique que (x,y) est un pixel de contour. La matrice M est l'élément clé dans le processus de normalisation. Pour la calculer on doit avoir d'abord le centroïde de la forme en calculant ses coordonnées : = x y = x y x x. f ( x, y) A (5.1) y y. f ( x, y) A (5.2) Où A est le nombre total des pixels objets: A = f ( x, y) (5.3) x y La matrice de dispersion est une matrice d'ordre 2 2: Où: m1,1 m1,2 M = (5.4) m2,1 m2,2 m m m 2 2 1,1 = x. f ( x, y) A x (5.5) x y = m2,1 = x. y. f ( x, y) A x. y (5.6) x y 1, ,2 = y. f ( x, y) A y (5.7) x y - Changer l'origine des axes des coordonnées vers le centre de la forme où on doit utiliser une matrice orthogonale composée de deux vecteurs normalisés E 1 et E 2, afin de trouver ces derniers on calcule d'abord la valeur de λ 1 et λ 2 avec :rtertertertertert 2 2 m 1,1 + m2,2 + ( m1,1 m2,2 ) + 4m1,2 λ 1 = (5.8) m 1,1 + m2,2 ( m1,1 m2,2 ) + 4m1,2 λ 2 = (5.9) 2 Les vecteurs normalisés E 1 et E 2 sont donnés par :hghghghghghghhgghghgghgh 125

141 Chapitre 5 : Implémentation du système proposé 126 ( ) ( ) + + = = 2 1,2 2 1,1 1 1, ,2 2 1,1 1 1, m m m m m m e e E y x λ λ λ (5.10) ( ) ( ) + + = = 2 1,2 2 1,1 2 1, ,2 2 1,1 2 1, m m m m m m e e E y x λ λ λ (5.11) Maintenant la matrice R peut être construite à partir de 1 E et 2 E par :rte = = y x y x T T e e e e E E R (5.12) Tant que M est réelle et symétrique et 1 E et 2 E sont orthogonaux alors R est orthogonale ce qui préserve la direction des nouveaux axes. Chaque position d un pixel objet (x,y) aura une nouvelle position (x',y') donnée par : = y y x x R y x. (5.13) La matrice de dispersion modifiée M' est donnée par :mmmmmmmmmmm = ' λ λ M (5.14) - Changer l'échelle de base où l'échelle des deux axes sera changée selon 1 λ et 2 λ. Pour un pixel objet (x',y'). La nouvelle position (x",y") est obtenue à travers une transformation définie par : W= = = ' '. 0 0 ' '. " " 2 1 y x c c y x W y x λ λ (5.15) où c représente une constante. La normalisation tend à réduire les variations entre les styles, tailles et orientations de l écriture. Nous avons utilisé ce type de prétraitement principalement lors du calcul des moments de Tchebichef car ces derniers ne sont pas invariants aux changements d échelle. Des exemples sont présentés dans les figures 5.4 et 5.5. Le premier mot est tiré de la base IFN/ENIT et le deuxième à partir de notre base de mots.

142 Chapitre 5 : Implémentation du système proposé."أوالد حملة" Figure 5.5. Normalisation du mot."سيدي مطير" Figure 5.4. Normalisation du mot Redressement Pour redresser les images de mots inclinés, nous avons utilisé des histogrammes de projection horizontale, pour cela une projection des pixels de chaque image selon onze angles a été effectuée. Le calcul d une mesure appelée entropie de l'histogramme des ordonnées pour chacun de ces angles nous permet de trouver la direction selon laquelle la projection est la plus compacte. La connaissance de cette direction et l'analyse de la distribution de l'histogramme sélectionné nous permettent de choisir l angle correcteur. L'avantage de cette technique est qu'elle ne cause aucune déformation de l'image de départ. Cette technique est appliquée en quatre étapes : 1. Extraction des points de contour de l image. 2. Génération des histogrammes des ordonnées des points suivant plusieurs inclinaisons, où chaque ordonnée des points du contour est successivement projetée dans un repère dont l'axe d'inclinaison par rapport à l'horizontale varie selon un pas de 1 degré, de -5 degré à +5 degré. Le balayage de 11 degré autour de l axe horizontal semble raisonnable et suffisant puisqu'il est peu probable qu'un mot soit écrit avec une plus grande inclinaison. Cette estimation est d'ailleurs confirmée par l'observation des exemples de notre base de données où nous avons également testé des balayages de -20 degré à +20 degré. Toutefois, si cela devait se produire, il serait possible d'augmenter le balayage. Pour chacune des 11 projections, un histogramme de densité des ordonnées est calculé. On s'attend à ce que l'inclinaison réelle du mot donne la répartition la plus compacte de l'histogramme. 127

143 Chapitre 5 : Implémentation du système proposé 3. Sélection de l'histogramme le plus compact à l'aide de l'entropie. L entropie est une mesure de l information représentée par la formule suivante : E p i log( p i ) (5.16) et Où = i N i pi = (5.17) N N iest le nombre de pixels ayant l ordonnée yi dans le repère de projection et N est le nombre total des pixels ou de points de contour de l image. La probabilité de l histogramme désigne la fréquence d occurrence de l ordonnée pi y i ( = î p 1) (5.18) i L'entropie E est maximale si toutes les probabilités p i sont égales. Elle est minimale si toutes les probabilités p i sauf une, sont nulles. Ainsi, plus une distribution est hétérogène, moins elle est étalée et plus petite est son entropie. Á l inverse, plus une distribution est homogène, plus elle est étalée et plus grande est son entropie. Pour trouver la direction privilégiée correspondante à l'inclinaison du mot, il faudra donc minimiser l'entropie. 4. Sélection de l angle correcteur : l angle d inclinaison correcteur sera celui de l histogramme le plus dense représentant la plus petite entropie. Des exemples d application de cette opération sont présentés dans les figures 5.6 et 5.7. Figure 5.6. Redressement du mot "الناضور" de la base IFN/ENIT. 128

144 Chapitre 5 : Implémentation du système proposé Figure 5.7. Redressement du mot "سالي" extrait de notre base Squelettisation On a appliqué l algorithme de Zhang et Suen qui est le plus souvent cité et utilisé [205]. Il consiste en deux sous-itérations permettant de repérer les pixels à effacer selon les critères suivants : Première sous-itération : Z : 2 b( p) 6 (5.19) 1 Z : X R ( P) 2 (5.20) 2 = Z x x x 0 (5.21) 3 : = Z x x x 0 (5.22) 4 : = Deuxième sous-itération : Z b : 2 b( p) 6 (5.23) 1 Z b : X R ( P) 2 (5.24) 2 = Z b: Rotation de 180 par rapport à 3 Z 3 c'est-à-dire x 3 x5 x7 = 0 (5.25) Z 4b: Rotation de 180 par rapport à Z 4 c'est-à-dire x 1 x3 x5 = 0 (5.26) Cet algorithme est relativement efficace et robuste aux bruits. Néanmoins certaines parties du squelette peuvent être décalées par rapport au centre. La figure 5.8 indique le squelette d un mot tiré de la base IFN/ENIT obtenu après application de l'algorithme. La figure 5.9 montre l application de cet algorithme sur un mot extrait de notre base. 129

145 Chapitre 5 : Implémentation du système proposé."أوالد عباس" Figure 5.9. Squelettisation du mot."سيدي الظاھر" Figure 5.8. Squelettisation du mot Extraction du contour Le contour est défini comme l'ensemble des pixels des mots de l image ayant au moins un pixel en commun avec le fond (en 4 ou 8 connexités) [245]. On a choisi d utiliser la méthode basée sur les opérations de la morphologie mathématique où on a appliqué une érosion et une dilatation, ensuite on a soustrait les deux images résultantes pour obtenir le contour du mot. - L'érosion morphologique : un filtre balaye l'image de façon à ce que son centre passe par tous les pixels de l'image à traiter. Le pixel de l'image qui se trouve sous le pixel central prend la valeur maximale de son voisinage. Nous répétons cette opération pour chaque pixel de l'image. Ainsi nous obtenons une nouvelle image appelée image érodée. Cette opération diminue le volume des formes et permet de lisser l'image ce qui revient à éliminer les artefacts d'acquisitions et les points aberrants [64]. Un exemple est présenté dans la figure "المرسى" Figure Application de l opération d érosion sur le mot 130

146 Chapitre 5 : Implémentation du système proposé - La dilatation morphologique : l'opération de dilatation est analogue à l'érosion. Elle consiste à affecter au pixel courant, la valeur minimale de son voisinage, ce qui permet d'augmenter le volume des objets (figure 5.11). Nous avons utilisé un filtre 3x3 pour les deux opérations morphologiques. Les images érodées et dilatées sont obtenues en deux passes : - Passe1 : faire passer le filtre sur l image et marquer les pixels à modifier. - Passe 2 : traiter les pixels marqués.."المرسى" Figure Application de l opération de dilatation sur le mot - Le contour : la définition d un contour par ces deux opérations peut se résumer au calcul de la soustraction de l image de l érosion à celle de la dilatation (figure 5.12). On obtient alors, une approximation des contours internes et externes des objets de l image originale. En résumé : Contour Interne = Image Originale Image Érodée. Contour Externe = Image Originale Image Dilatée. Image du contour = Image Dilatée Image Érodée.."المرسى" Figure Étapes de calcul du contour final du mot 131

147 Chapitre 5 : Implémentation du système proposé Les figures 5.13 et 5.14 montrent les contours complets de deux mots ; le premier est tiré de la base IFN/ENIT et le deuxième de notre propre base. Figure Extraction du contour du mot."كسرى" Figure Extraction du contour du mot." برج باجي مختار" 5.3. Extraction de caractéristiques L'extraction des caractéristiques est l'une des étapes les plus importantes de tout système de reconnaissance. Elle vise à extraire de l'image d une classe donnée l'information pertinente permettant de la distinguer plus facilement des autres classes [81]. Les moments géométriques ont largement été utilisés pour la description d images ou de formes. L ensemble des moments calculés pour une image représente généralement ses caractéristiques globales, et fournit plus précisément une quantité d information importante sur les primitives géométriques contenues dans l image [88]. Leur principe consiste à projeter une distribution (image) sur des fonctions de base. Les moments d ordre faible représentent les caractéristiques globales de la forme, tandis que les moments d ordre élevé caractérisent les détails de l image. Dans notre application on a choisi d exploiter trois types de moments ; les moments de Tchebichef, les moments de Zernike et les moments de Hu. On va expliquer le principe de chaque type, ainsi que les résultats obtenus à travers leurs exploitations Les moments de Tchebichef Les polynômes de Tchebichef font partie des bases les plus couramment utilisées pour l approximation de fonctions à valeurs réelles. Les fonctions de base de ces moments sont orthogonales sur l espace des coordonnées de l image. Dans [241], une étude comparative entre les moments de Tchebichef, de Legendre et de Zernike a conclu sur la supériorité de la représentation des formes par les moments de Tchebichef. 132

Montrer encore