Contribution à l évaluation des méthodes de combinaison parallèle de classifieurs par simulation

Transcription

1 UNIVERSITE DE ROUEN U.F.R. DES SCIENCES ET TECHNIQUES THESE DE DOCTORAT Discipline: Sciences appliquées Spécialité: Informatique Pour obtenir le grade de DOCTEUR DE L UNIVERSITE DE ROUEN Présentée par: Héla Khoufi Zouari Sujet de la thèse: Contribution à l évaluation des méthodes de combinaison parallèle de classifieurs par simulation Soutenue le 17 décembre 2004 devant le jury composé de : M. Adel M. Alimi ENIS de Sfax Co-directeur M. Thierry Artières Université Paris 6 Examinateur M. Noureddine Ellouze ENIT de Tunis Rapporteur M. Patrick Gallinari Université Paris 6 Rapporteur M. Laurent Heutte Université de Rouen Examinateur M. Yves Lecourtier Université de Rouen Directeur de thèse M. Guy Lorette Université de Rennes I Examinateur Laboratoire PSI - FRE CNRS 2645

2 A Yassine, A mes parents, Néjib et Hasna A toute ma famille

3 3 Résumé Les travaux de recherche présentés dans ce mémoire abordent le problème de la simulation de classifieur pour l évaluation du comportement des méthodes de combinaison parallèle de classifieurs. Nous proposons une méthode originale de simulation permettant de générer des sorties artificielles d un classifieur (listes de propositions) pour un problème de classification quelconque. Le principe de cette simulation est basé sur le contrôle de matrices de performances (globales, semi-globales ou locales) permettant de décrire le comportement désiré du classifieur pour générer la liste de ses sorties. Nous proposons également une méthode de simulation de classifieurs corrélés permettant, à partir des performances désirées et en fonction d un niveau de diversité fixé, de générer artificiellement des sorties corrélées. Les tests réalisés sur quelques règles simples de combinaison montrent l intérêt de l approche de simulation proposée dans l étude du comportement des méthodes de combinaison. Mots-clés: Combinaison parallèle, simulateur de classifieur, évaluation de performance, comportement des méthodes de combinaison, génération de sorties, diversité, simulation de données. Abstract This thesis deals with the problem of classifier simulation for evaluating the behaviour of classifier combination methods. We propose an original method of simulation to generate artificial classifier outputs (list of solutions) for a given classification problem. This method is based on the control of performance matrices (global, intermediate or local) allowing to describe the desired behaviour of the classifier in order to generate the list of its outputs. We also propose a method for simulating correlated classifiers, which allows, from desired performance and a fixed level of diversity, to generate artificially correlated outputs. Tests carried out on a few simple combination rules show the interest of the proposed approach for the study of the combination method behaviour. Key words: Parallel combination, classifier simulator, performance evaluation, behaviour of combination methods, output generation, diversity, data simulation.

4 4 Remerciements Ce travail de thèse a été réalisé dans le cadre d une co-tutelle entre le laboratoire Perception, Systèmes et Information (PSI) de l Université de Rouen (France) et le laboratoire REGIM de l Ecole Nationale d Ingénieurs de Sfax (Tunisie). Je tiens à remercier tous ceux qui m ont aidé de près ou de loin au cours de mes recherches: Yves Lecourtier, pour l intérêt qu il a porté à mes travaux depuis qu il m a introduit dans le monde de la recherche scientifique et pour avoir accepté de diriger cette thèse. J aimerais lui témoigner ici toute ma reconnaissance pour ses suggestions pertinentes ainsi que pour la confiance permanente qu il m a accordée. Laurent Heutte, pour avoir accepté d encadrer mes travaux en me faisant bénéficier de ses précieux conseils. Son suivi constant et attentif, le dynamisme qu il a su me communiquer m ont permis de mener à bien ce travail. Qu il trouve ici l expression de ma profonde gratitude. Adel M. Alimi, Professeur à l Ecole d Ingénieurs de Sfax, pour avoir accepté de co-diriger mes travaux. Pour l aide et les conseils qu il m a prodigués durant les années de thèse, je voudrais ici témoigner ma reconnaissance. Je voudrais également remercier Noureddine Ellouze, Professeur à l Ecole d Ingénieurs de Tunis, Patrick Gallinari, Professeur à l Université Paris 6, Thierry Artières, Maître de conférence à l Université Paris 6 et Guy Lorette, Professeur à l Université de Rennes I, de l honneur qu ils me font en étant membre de mon jury. Je voudrais également remercier tous les membres des laboratoires PSI et REGIM pour l amitié et l aide qu ils m ont témoignés durant cette thèse avec une pensée particulière à Dominique Ménitrier, Pierre Herroux, Sébastien Adam, Clément Chatelain, Guillaume Koch, Hervé Locteau et Stéphane Nicolas. Enfin, je voudrais exprimer toute ma reconnaissance à mes proches et à mes amis qui m ont toujours soutenu et encouragé pendant ce long travail.

5 TABLE DES MATIÈRES 5 Table des matières Notations 8 Introduction Générale 9 1 Systèmes Multi-Classifieurs Introduction Combinaison de classifieurs Définition d un classifieur Stratégies de combinaison Conclusion Combinaison parallèle de classifieurs Problématique de la combinaison parallèle Taxonomies des méthodes de combinaison Combinaison non-paramétrique Type classe Type rang Type mesure Combinaison paramétrique Type classe Type rang Type mesure Comparaison des méthodes de combinaison Sélection de classifieurs Sélection statique Sélection dynamique Conclusion Conclusion

6 6 TABLE DES MATIÈRES 2 Évaluation de performances des méthodes de combinaison Introduction Performances d un classifieur Performances globales Performances semi-globales Performances locales Conclusion Comportement des méthodes de combinaison Influence des performances des classifieurs Indépendance/dépendance des classifieurs Influence du nombre de classifieurs Influence d autres facteurs Conclusion Simulation de données Simulation de sorties de classifieurs Conclusion Simulation d un classifieur Introduction Le simulateur Objectifs Simulation de N comportements Simulation d un seul comportement Simulation de deux comportements Conclusion Vérification du simulateur Vérification avec des matrices données Génération de liste de comportements Génération d un seul comportement Génération de deux comportements Précision du simulateur Corrélation des sorties Conclusion Apports de la simulation Evaluation type classe Evaluation type rang Evaluation type mesure Conclusion

7 TABLE DES MATIÈRES 7 4 Simulation de classifieurs corrélés Introduction Mesures de diversité Type binaire Type rang Type mesure Conclusion Comment renforcer la diversité? Caractéristiques différentes Bases d apprentissage différentes Conclusion Méthode proposée Mesure utilisée Principe de la méthode de génération des sorties Génération de sorties corrélées Conclusion Vérification de la méthode Contribution expérimentale Comparaison avec la simulation indépendante Conclusion Conclusion générale 245 Bibliographie 251

8 8 TABLE DES MATIÈRES Notations Symboles x N C i C vraie Ω e j e j (x) S i S s i,j L ω j MD(x) r j r i,j m j m i,j MCj k T L k i T Ci k T R i E(x) B A B T f P i Descriptions vecteur de caractéristiques associé à la forme d entrée à classer nombre de classes possibles sans rejet classe i classe de x (vraie classe) ensembles de classes possibles classifieur j sortie d un classifieur e j pour la forme x nombre de sorties d un classifieur pour la classe C i vecteur des nombres de sorties par classe la i ieme sortie du classifieur e j nombre de classifieurs poids attribué au classifieur e j matrice contenant toutes les décisions des classifieurs pour la forme x vecteur des rangs associé à la forme x par le classifieur e j rang attribué à la classe C i par le classifieur e j vecteur des mesures associé à la forme x par le classifieur e j mesure attribuée à la classe C i par le classifieur e j matrice de co-présence du classifieur e j dans les k premières solutions taux de reconnaissance de la classe C i dans les k premières solutions taux d erreur de la classe C i dans les k premières solutions taux de rejet de la classe C i le résultat de la combinaison d une forme inconnue x base d apprentissage base de test règle de fusion ou d aggrégation probabilité a posteriori de la classe C i

9 Introduction Générale 9 Introduction Générale On dispose aujourd hui, dans le domaine de la reconnaissance de formes, d un grand nombre de classifieurs et de méthodes d extraction de caractéristiques. Dès 1974, Kanal 1 avait souligné pour des problèmes de classification: No single model exists for all pattern recognition problems and no single technique is applicable to all problems. Rather what we have is a bag of tools and a bag of problems. Malgré les nombreux travaux dans le domaine, cela n a pas permis de mettre en évidence la supériorité incontestable d une méthode de classification sur une autre ou d un extracteur de caractéristiques sur un autre. Plutôt que de chercher à optimiser un seul classifieur en choisissant les meilleures caractéristiques pour un problème donné, les chercheurs ont trouvé plus intéressant de combiner des méthodes de reconnaissance. Depuis les années 90, la combinaison de classifieurs a donc été une des directions de recherche les plus soutenues dans le domaine de la reconnaissance de formes. Les méthodes de combinaison ont ainsi été appliquées avec succès dans des domaines aussi divers que la reconnaissance de l écrit, la vérification de signatures, l identification de visages ou encore l analyse d images médicales. L amélioration des performances des systèmes de reconnaissance est finalement le principal enjeu des recherches menées ces dernières années sur les systèmes de combinaison. Parmi les différentes architectures permettant de combiner un ensemble de classifieurs donnés, l architecture parallèle est de loin celle qui a donné lieu aux travaux les plus importants. Sa simplicité de mise en oeuvre, sa capacité à exploiter les réponses des classifieurs à combiner en prenant en compte (ou non) le comportement de chacun des classifieurs et son efficacité prouvée dans de nombreux problèmes de classification expliquent son succès notamment par rapport à l approche séquentielle qui, elle, nécessite obligatoirement une bonne connaissance du comportement de chacun des 1. Kanal, L., Patterns in pattern recognition, IEEE Transactions on Information Theory, Vol. 20, , 1974

10 10 Introduction Générale classifieurs pour pouvoir obtenir un schéma de coopération efficace. Malgré une littérature abondante et une multitude de travaux qui ont abordé ce sujet de différentes manières, force est de constater que le concepteur d un système de combinaison parallèle de classifieurs est toujours confronté à un certain nombre de choix auxquels la communauté de l apprentissage et de la classification n a pas encore apporté de réponses précises. D une part, le problème est très difficile à modéliser et les trop rares travaux qui ont tenté d apporter des explications théoriques ne se sont concentrés que sur les méthodes relativement simples de vote. D autre part, on trouve des travaux plus appliqués sur différents problèmes de reconnaissance de formes (reconnaissance de caractères, de mots, vérification de signatures, reconnaissance de la parole, de visages, identification de formulaires,...) mais les résultats obtenus restent étroitement dépendants des applications traitées et par conséquent sont difficiles à généraliser en dehors d un contexte applicatif donné. Il existe toutefois certains travaux intéressants qui traitent du problème de l évaluation des méthodes de combinaison en les testant sur différentes bases de données réelles. Mais l utilisation de données réelles n offre pas suffisamment de variabilité dans les performances des classifieurs à combiner pour permettre une analyse en profondeur du comportement de ces méthodes de combinaison. Pour contourner cette difficulté, la simulation de données est devenue récemment un moyen pratique pour générer artificiellement la variabilité tant attendue dans les performances des classifieurs à combiner permettant ainsi d évaluer de façon robuste le comportement des méthodes de combinaison. Dans ce cadre, la simulation de classifieurs (c est-à-dire la génération artificielle des sorties) est, selon nous, la technique la plus intéressante car elle permet de contrôler directement les entrées des opérateurs de combinaison et dans une certaine mesure le comportement des classifieurs à combiner. Trop peu de chercheurs selon nous ont analysé le potentiel de cette approche. Les quelques travaux dans ce domaine se sont le plus souvent limités au développement de générateurs fournissant uniquement des sorties de type classe. Les classifieurs simulés ne sont alors contrôlés que par un seul paramètre comme le taux moyen de reconnaissance sans qu il soit de plus possible de générer une quelconque variabilité dans les taux de reconnaissance par classe. Or de nombreux problèmes de classification, tels ceux que l on rencontre en reconnaissance de l écrit par exemple, nécessitent de combiner des listes de solutions plutôt qu une seule solution. Par conséquent, les simulateurs de classifieurs développés jusqu à maintenant sont très loin de générer des comportements proches de la réalité et sont en ce sens limités pour aborder l évaluation des méthodes de combinaison.

11 Introduction Générale 11 Dans le cadre des travaux de cette thèse, nous avons donc cherché à développer une méthode de simulation aussi générique que possible c est-àdire permettant de simuler un problème quelconque de classification (nombre de classes, taille des listes de propositions fournies par le classifieur,...) à partir d un jeu réduit de paramètres permettant de fixer le comportement intrinsèque du classifieur c est-à-dire ses performances désirées (taux de reconnaissance, taux de rejet, taux de reconnaissance et de rejet par classe, taux de reconnaissance en différentes positions de la bonne solution dans la liste de propositions,...). La méthode proposée consiste à construire des matrices de confusion intermédiaires à partir de ces paramètres puis à générer la liste des sorties à partir de ces matrices. L idée est de pouvoir disposer d un outil permettant de nous aider à évaluer facilement et expliquer précisément l influence de certains paramètres - tels que le nombre de classifieurs, les performances intrinsèques et relatives des classifieurs à combiner, le nombre de classes - sur les performances d un système de classifieurs multiples. En d autres termes, nous cherchons à caractériser expérimentalement les situations optimales d utilisation des opérateurs de combinaison en utilisant des données simulées. Le plan du mémoire résulte donc des considérations précédentes. La multiplication des travaux sur la problématique de la combinaison a entraîné la mise au point de nombreux schémas de combinaison traitant les données de manières différentes. Le chapitre 1 est donc consacré à l étude de la problématique associée à la combinaison de classifieurs. Nous rappelons tout d abord ce qu on entend par classifieur dans le cadre de la combinaison. Nous passons en revue les principales stratégies de combinaison (approche séquentielle, parallèle et hybride) qui diffèrent principalement par l agencement des classifieurs. Chacune de ces approches a suscité un grand nombre de travaux dans le domaine de la reconnaissance de formes. Pour la seule approche parallèle, il existe de très nombreuses méthodes que certains chercheurs ont essayé de catégoriser. Nous présentons ces différentes catégorisations et nous proposons une nouvelle taxonomie en fonction de certains critères que nous justifions. Nous détaillons ensuite les méthodes les plus utilisées dans la littérature selon cette taxonomie ainsi que les développements récents dans le domaine. Le chapitre 2 est consacré au problème de l évaluation des méthodes de combinaison parallèle. Nous analysons les travaux qui ont traité ce problème sur des données réelles et nous montrons la difficulté d établir des résultats généraux indépendamment du domaine applicatif visé. Pour contourner le problème de l évaluation des méthodes de combinaison, la simulation de données artificielles semble justement être la voie la plus prometteuse. Nous

12 12 Introduction Générale présentons donc les différentes façons de simuler des données. Nous consacrons une partie du chapitre aux travaux qui ont utilisé un simulateur de classifieur pour évaluer les méthodes de combinaison. Enfin, nous concluons ce chapitre sur les limites atteintes par ces travaux et en particulier sur leurs limites à générer un comportement de classifieur proche de la réalité. Le simulateur de classifieur que nous proposons a pour objectif de dépasser ces limites par la génération de sorties artificielles et indépendantes pour un problème quelconque de classification, que ce soit en termes de nombre de classes, de nature des sorties (classe, rang, mesure), de taille de listes de propositions ou de performances désirées (taux de reconnaissance, taux de rejet, taux par classe, taux pour différentes positions dans la liste,...). Le chapitre 3 est donc consacré à la présentation de ce simulateur. Nous décrivons le principe de la méthode de simulation ainsi que les différentes étapes nécessaires à sa réalisation. Nous justifions en particulier les paramètres choisis pour la simulation. Dans la deuxième partie de ce chapitre, nous montrons que le simulateur génère bien les sorties attendues en fonction des performances désirées. Enfin, dans la dernière partie, nous montrons l intérêt de ce simulateur dans l étude des méthodes de combinaison. Un des points importants soulevés ces dernières années dans le domaine de la combinaison de classifieurs est le rôle que joue la diversité dans l amélioration des performances des méthodes de combinaison. Nous consacrons donc le chapitre 4 à la simulation de classifieurs corrélés en fonction de la diversité. Dans la première partie de ce chapitre, nous décrivons le problème lié à la diversité de classifieurs et plus particulièrement les mesures utilisées pour estimer la diversité entre les sorties de classifieurs. Nous passons en revue les principales techniques qui générent cette diversité pour optimiser un ensemble de classifieurs. Nous décrivons également les travaux qui ont étudié, par le biais de la simulation, le rôle de la diversité dans la combinaison. Parce que les simulateurs proposés dans ces travaux ne permettent pas de simuler un classifieur proche de la réalité, nous proposons dans la deuxième partie de ce chapitre une méthode de génération de classifieurs dépendants qui prend en compte le niveau de corrélation désiré tout en respectant un comportement fixé pour chacun des classifieurs à combiner. Dans la dernière partie de ce chapitre, nous présentons les résultats obtenus en essayant d évaluer le comportement de certains opérateurs de combinaison en fonction de la diversité. Enfin, nous concluons sur les points importants du document, notamment sur l approche de simulation proposée et les résultats obtenus. Nous évoquons les perspectives de ces travaux et les voies de recherche qui semblent promet-

13 Introduction Générale 13 teuses aussi bien pour améliorer l approche de simulation proposée que pour la problématique de l évaluation des performances des méthodes de combinaison.

14 14 Introduction Générale

15 Chapitre 1. Systèmes Multi-Classifieurs 15 Chapitre 1 Systèmes Multi-Classifieurs Dans ce chapitre nous dressons un état de l art des systèmes de combinaison de classifieurs. Nous présentons les stratégies de prises de décision possibles lorsque plusieurs classifieurs interviennent dans un processus de reconnaissance et les spécificités relatives à chaque stratégie. Nous nous focalisons en particulier sur la combinaison parallèle de classifieurs et nous présentons un panorama des principales méthodes mises en oeuvre dans de nombreux domaines de la reconnaissance de formes. Cet examen nous permettra d identifier les points forts et les faiblesses des algorithmes utilisés à ce jour. Nous rappelons tout d abord ce qu on entend par classifieur dans le cadre de la combinaison. Nous détaillons ensuite les approches de combinaison les plus utilisées dans la littérature et qui se différencient essentiellement par l agencement des classifieurs. Nous abordons ensuite le problème de la combinaison parallèle de classifieurs. Nous discutons des différentes taxonomies existantes et nous proposons une nouvelle taxonomie en fonction de certains critères que nous justifions. Nous détaillons ensuite les méthodes de combinaison les plus reconnues dans la littérature selon cette taxonomie ainsi que les développements récents dans le domaine. Enfin, nous concluons sur les limites atteintes par ces travaux et en particulier sur la difficulté à choisir une méthode de combinaison en dehors d un contexte applicatif donné.

16 16 Chapitre 1. Systèmes Multi-Classifieurs 1.1 Introduction Concernant la combinaison de classifieurs, la littérature est très riche et diverse. L idée de combiner les sorties des classifieurs pour créer un système avec une fiabilité élevée n est pas nouvelle. En 1989, Clemen citait déjà plus de 200 travaux reliés à la combinaison de classifieurs [Clemen, 1989] et attribue l idée originale à Laplace en 1818 [Laplace, 1847]. Dans [Carney and Cunningham, 1999], les chercheurs attribuent la première application de combinaison des réseaux de neurones à Nilsson [Nilsson, 1965]. Le véritable intérêt pour la combinaison de classifieurs date en fait des années 80, avec en particulier les travaux de [Srihari, 1982, Hull et al., 1983, Hull, 1988, Mandler and Schuermann, 1988, Lam and Suen, 1988] qui ont montré l importance d avoir des solutions robustes pour les problèmes de reconnaissance de l écriture manuscrite en particulier. Cependant, ce n est qu à partir des années 90 que les systèmes de combinaison de classifieurs ont été concrètement mis en oeuvre. Si, dans un premier temps, les méthodes de classification, basées sur différentes théories et méthodologies, ont été considérées comme autant de solutions possibles à un même problème, leur développement n a pas permis de mettre en évidence la supériorité incontestable d une méthode sur une autre pour répondre aux contraintes des applications pratiques. En effet, l étude de ces techniques a fait apparaître des différences de comportement et donc une complémentarité potentielle qu il semblait intéressant d exploiter pour obtenir des performances supérieures à celles d un seul classifieur. En fait, de la même manière qu une caractéristique supplémentaire permet à un classifieur de mieux décider (à condition qu elle apporte une information complémentaire à celle fournie par d autres caractéristiques), une réponse provenant d un autre classifieur permet à un système de classifieurs de mieux décider (à condition que cette réponse soit complémentaire aux décisions des classifieurs existants). Par conséquent, l idée d en utiliser plusieurs simultanément s est peu à peu imposée. Une partie de la recherche actuelle en reconnaissance de formes se porte sur la combinaison parallèle de classifieurs. Cette approche a été proposée comme une voie de recherche permettant d améliorer la performance d un système de reconnaissance. Elle peut être définie comme une technique bien particulière qui part du principe qu avec un choix approprié de méthodes de classification, mais en conservant pour chaque classifieur le type de caractéristiques le mieux adapté, il est possible d intégrer dans un même système

17 1.2. Combinaison de classifieurs 17 l avis de plusieurs classifieurs différents en exploitant leur complémentarité. Ce qui permet de tirer profit de propositions issues de systèmes approchant le même problème de manière différente [Kurzweil, 1990]. Avant de rentrer dans les détails de la problématique de la combinaison parallèle de classifieurs, il est nécessaire de rappeler ce qu on entend généralement par classifieur dans le cadre de la combinaison et de présenter les différentes stratégies de combinaison de classifieurs. 1.2 Combinaison de classifieurs Définition d un classifieur Définir un problème de classification, c est d abord se choisir une taxonomie c est-à-dire une répartition des formes à reconnaître dans un ensemble de classes C i, i [1,..., N]. Dans le cas le plus général, on peut associer à la forme à reconnaître x un vecteur de degré d appartenance D(x) tel que D(x) = D 1 (x) D 2 (x).. D N (x) (1.1) avec D i (x)=d{x C i }. Dans ce cas, x peut appartenir à plusieurs classes si D i (x) 0. Toutefois, dans la majorité des problèmes de classification, on a affaire à une classification exclusive dans laquelle une forme ne peut appartenir qu à une seule classe. On a alors D i (x)=δ i,j tel que δ i,j = { 1 si j = i 0 si j i C i est alors souvent appelée la vraie classe : D(x) = (1.2) (1.3)

18 18 Chapitre 1. Systèmes Multi-Classifieurs Dans le cadre de ce travail, nous nous plaçons dans le cas d une classification exclusive. Construire un classifieur consiste alors à construire un estimateur e(x) de D(x). Dans [Moobed, 1996], le classifieur est défini comme étant tout système de traitement de données qui reçoit une forme x et donne des informations à propos de la classe correspondant à cette forme. Quel que soit le domaine d application pour lequel il est utilisé, la mise en oeuvre de tout classifieur nécessite de choisir d abord une représentation pour décrire les données (caractéristiques), un algorithme de décision et une base d apprentissage permettant de fixer les paramètres du classifieur. Lorsqu il est intégré dans un système de reconnaissance, le classifieur atteint certaines performances. Introduire des modifications dans le classifieur que ce soit au niveau des données qu il traite ou au niveau de ses paramètres (type de sorties, règles de décision,...) modifie ses performances. Dans le cadre de la combinaison, nous proposons de définir un classifieur comme étant un système de reconnaissance qui travaille dans un certain espace de caractéristiques, qui utilise une certaine base pour apprendre ses paramètres, qui prend sa décision à partir d une certaine règle et qui fournit en sortie un certain type de réponse. D après cette définition, deux classifieurs qui diffèrent par au moins l un de ces paramètres (espace de caractéristiques, données d apprentissage, règle de décision et type de sortie) ne donnent pas les mêmes résultats et sont donc considérés comme différents. Si l on fait abstraction de son architecture interne, le classifieur e j est vu comme une boîte noire qui reçoit en entrée un ensemble de caractéristiques et qui fournit en sortie une réponse à propos de la forme à reconnaître (on se place ici dans l hypothèse d une classification exclusive avec laquelle un classifieur e(x) sera d autant meilleur que sa réponse se rapprochera de la vraie classe). Selon Xu [Xu et al., 1992], cette réponse peut être divisée en trois catégories suivant le niveau d information apporté par le classifieur, catégorisation également adoptée dans la majorité des travaux [Jain et al., 2000, Ruta and Gabrys, 2000]: type classe : e j (x) = C i,i {1,...,N} (1.4) C i est la classe attribuée par le classifieur e j à x. Dans ce cas, l avis du classifieur est binaire. On peut alors représenter la réponse du classifieur par un vecteur binaire dans lequel 1 indique la classe proposée par le classifieur. Un classifieur peut aussi produire un ensemble de classes. Il considère alors que la forme x appartient à une des classes de cet

19 1.2. Combinaison de classifieurs 19 ensemble sans donner d autres informations permettant de discriminer les classes. type rang : e j (x) = (r 1,j,r 2,j,...,r N,j ) (1.5) r i,j est le rang attribué à la classe C i par le classifieur e j. Il s agit d un classement sur les classes. Le classifieur indique ce classement en fournissant en sortie un vecteur des rangs de taille N. La classe placée au premier rang de la liste proposée par le classifieur est considérée comme la plus probable pour la forme x et la classe du dernier rang est la moins probable. type mesure : e j (x) = (m 1,j,m 2,j,...,m N,j ) (1.6) m i,j est la mesure attribuée à la classe i par le classifieur e j. Elle indique le niveau de confiance du classifieur dans sa proposition. La sortie du classifieur est donc un vecteur de mesures de taille N. Cette mesure, nomalisée ou non, peut être une distance, une probabilité a posteriori, une valeur de confiance, un score, une fonction de croyance, une possibilité, une crédibilité, une mesure floue, etc. Parfois, le classifieur est incapable de conclure sur la classe de la forme à reconnaître (la forme x peut appartenir à plusieurs classes). Les informations mises à sa disposition ne lui permettent pas de choisir une classe ou un sous-ensemble de classes parmi les classes disponibles. On dit alors que le classifieur rejette (rejet d ambiguïté). Ce problème est différent du rejet de formes aberrantes pour lequel le classifieur ne sait pas conclure parce que la forme x n appartient à aucune classe parmi les classes disponibles. Nous noterons par la suite C N+1 la classe associée au rejet (pour un problème à N classes). Chaque type de sortie (classe, rang ou mesure) correspond à un niveau d information différent fourni par le classifieur. La sortie de type classe est la plus simple mais la moins riche en information. La sortie de type rang reflète l ordre de préférence des propositions fournies par le classifieur. La sortie de type mesure est la plus riche en information puisqu elle reflète le niveau de confiance du classifieur dans ses propositions. Lorsque les sorties sont de type rang ou de type mesure, on peut évidemment les transformer en type classe (avec perte d informations). Ceci consiste à tenir compte uniquement de la première solution de la liste proposée par chaque classifieur. Pour le type rang, il suffit de choisir la classe qui est placée au premier rang. Les autres classes ne seront pas prises en compte. Pour le

20 20 Chapitre 1. Systèmes Multi-Classifieurs type mesure, il suffit de choisir la classe ayant la meilleure mesure (valeur minimale ou maximale, selon que la mesure est croissante ou décroissante) Stratégies de combinaison La multiplication des travaux sur la combinaison a entraîné la mise au point de nombreux schémas traitant les données de manières différentes [Heutte, 1994, Moobed, 1996, Rahman and Fairhurst, 1999]. Trois approches pour la combinaison de classifieurs peuvent être envisagées: parallèle, séquentielle et hybride. D autres organisations avec bouclage ou avec interaction sont aussi possibles [Vuurpijl and Schomaker, 1998]. Mais, malgré la diversité des schémas de combinaison, la détermination de la meilleure organisation reste un problème ouvert. Approche séquentielle La combinaison séquentielle, appelée également combinaison série, est organisée en niveaux successifs de décision permettant de réduire progressivement le nombre de classes possibles. Dans chaque niveau, il existe un seul classifieur qui prend en compte la réponse fournie par le classifieur placé en amont afin de traiter les rejets ou confirmer la décision obtenue sur la forme qui lui est présentée (figure 1.1). Une telle approche peut être vue comme un filtrage Fig. 1.1 Combinaison séquentielle de classifieurs progressif des décisions dans la mesure où elle permet de diminuer au fur et à mesure l ambiguïté sur la classe proposée. Cela permet généralement de diminuer le taux d erreur globale de la chaîne de reconnaissance. Néanmoins, une combinaison de ce type demeure particulièrement sensible à l ordre dans lequel sont placés les classifieurs. En effet, même s ils ne nécessitent pas d être les plus performants, les premiers classifieurs invoqués doivent être robustes, c est-à-dire que la solution réelle de la forme à identifier doit apparaître dans les listes successives quelle que soit leur taille. En cas de mauvaise décision du premier classifieur, placé en amont de la série des classifieurs utilisés, l erreur

21 1.2. Combinaison de classifieurs 21 va se propager de façon irrévocable. Il faudra donc choisir judicieusement le premier classifieur afin d éviter - autant que possible - l apparition d une telle situation. La combinaison séquentielle suppose donc une certaine connaissance a priori du comportement de chacun des classifieurs. Notons que dans cette approche, chaque classifieur est réglé en fonction du classifieur placé en amont de la chaîne. Une simple modification du premier classifieur peut provoquer un ré-paramétrage (ré-apprentissage) des classifieurs suivants. Le but ici n est pas de décrire en détail les systèmes de combinaison séquentielle. Nous présentons maintenant deux exemples qui illustrent leur principe de fonctionnement. On pourra se référer à [Rahman and Fairhurst, 2003] pour un panorama récent et assez complet de ces approches. L approche proposée dans [Gader et al., 1991] est basée sur trois étages de décision. Les deux premiers étages mettent en euvre une comparaison directe du caractère à reconnaître avec l ensemble des modèles, permettent de classer 70 à 80% des chiffres avec un taux d erreur faible et sont capables de générer des décisions sur les classes d appartenance des chiffres rejetés. Lorsque ces étages ne peuvent pas conclure, ils fournissent une liste d hypothèses au dernier niveau de décision pour chercher le modèle dans une liste prédéfinie de modèles syntaxiques. Récemment, Prevost et al. [Prevost et al., 2003] présentent un système composé de deux étages pour améliorer la reconnaissance de caractères manuscrits. Le premier étage est un classifieur non supervisé qui fournit des scores à chacune des classes. Le second étage est un classifieur neuronal qui sépare les paires de classes les plus ambigues. Ce système séquentiel est basée sur l idée que la classe correcte est systématiquement parmi les deux premières classes (celles ayant les probabilités les plus élevées) proposées par le premier classifieur. Les résultats expérimentaux montrent une amélioration de 30% par rapport à chacun des classifieurs utilisés pour une réponse de type classe dans un problème à 62 classes. Approche parallèle A la différence de l approche séquentielle, l approche parallèle laisse dans un premier temps les différents classifieurs opérer indépendamment les uns des autres puis fusionne leurs réponses respectives. Cette fusion est faite soit de manière démocratique, dans le sens où elle ne favorise aucun classifieur par rapport à un autre, soit au contraire dirigée et, dans ce cas, on attribue à la réponse de chaque classifieur un poids en fonction de ses performances. L ordre d exécution des classifieurs n intervient pas dans cette approche. La

22 22 Chapitre 1. Systèmes Multi-Classifieurs figure 1.2 fournit une représentation de la combinaison parallèle de classifieurs. Fig. 1.2 Combinaison parallèle de classifieurs L inconvénient majeur de l approche parallèle est qu elle nécessite l activation de tous les classifieurs du système qui doivent participer de manière concurrente et indépendante. Par contre, la décision finale est prise avec le maximum de connaissances mises à disposition par chaque classifieur. Dès lors se posent les problèmes de précision des informations fournies par les classifieurs et de la confiance qu on peut accorder à chacun d eux. L approche proposée dans [Huang et al., 1995] nécessite que chacun des classifieurs fournisse une confiance (probabilité ou distance) associée à chaque proposition ou classe. La décision finale est prise dans un réseau de neurones à partir de la combinaison des différents résultats fournis par les classifieurs. Pour améliorer la reconnaissance de mots, Kim et al. [Kim et al., 2000] proposent de combiner deux classifieurs, l un de type HMM (Hidden Markov Model), l autre de type MLP (Multi-Layer Perceptron). L idée ici est que pour augmenter la complémentarité, les classifieurs doivent opérer avec des structures différentes. Les sorties du classifieur HMM sont normalisées avant la combinaison pour pouvoir les fusionner avec les sorties du MLP. Approche hybride L approche hybride consiste à combiner à la fois des architectures séquentielles et parallèles afin de tirer pleinement avantage de chacun des classifieurs utilisés. La figure 1.3 présente un exemple de combinaison hybride dans laquelle on combine un classifieur en série avec deux classifieurs en parallèle.

23 1.2. Combinaison de classifieurs 23 Ce type d approche permet de générer de nombreux schémas de coopération qui peuvent rapidement devenir complexes à optimiser. Il illustre les deux aspects de la combinaison qui sont d une part la réduction de l ensemble des classes possibles et d autres part la recherche d un consensus entre les classifieurs afin d aboutir à une décision unique. On peut citer dans ce cadre, les travaux de Kim [Kim et al., 2000] qui Fig. 1.3 Combinaison hybride de classifieurs propose un système de reconnaissance de mots cursifs anglais extraits des chèques bancaires. Ce système hybride est composé de deux étages. Dans le premier étage, deux classifieurs (PMC) utilisant des vecteurs de caractéristiques différents sont combinés par un autre classifieur de même type. La coopération de ce dernier avec un autre classifieur de type HMM est réalisée dans l étage suivant par une règle de multiplication. Un autre exemple est celui présenté dans [Bellili et al., 2002]. Il décrit un système de reconnaissance de chiffres manuscrits par combinaison hybride de réseaux neuronaux de type MLP et de machines à vecteurs de support SVM. Cette méthode de combinaison consiste à introduire des classifieurs SVM spécialisés pour chaque paire de classes numériques (0 à 9) uniquement dans le voisinage des surfaces de séparation générées par le réseau MLP entre les exemples d apprentissage de ces mêmes paires de classes. Cette architecture de combinaison est fondée sur la constatation que les deux premières solutions de la couche de sortie du MLP contiennent presque systématiquement la bonne classe de la forme à classifier et que certaines paires de classes constituent la majorité des confusions générées par le MLP. Les SVM sont introduits pour détecter la bonne classe parmi les deux meilleures hypothèses de classification fournies par le réseau. Ce choix se résume à un problème de classification à deux classes (binaire). Cependant, cette méthode peut sembler fastidieuse car elle nécessite un classifieur SVM pour chaque paire de classes. Une seconde originalité de cette méthode réside dans l introduction de SVM uniquement pour les paires de classes qui constituent la majorité des confusions (erreurs)

24 24 Chapitre 1. Systèmes Multi-Classifieurs du réseau MLP. Certains auteurs ont proposé d effectuer des combinaisons conditionnelles. Ainsi Gosselin [Gosselin, 1997] propose de classer les classifieurs selon leur performance et de traiter une forme inconnue par le premier classifieur. Il propose d accepter sa décision, si la forme n est pas rejetée. Dans le cas contraire, la décision sera prise suite à la combinaison du premier classifieur avec la sortie du deuxième classifieur. Le même raisonnement peut s appliquer, jusqu à ce que la forme soit classée ou que les sorties de tous les classifieurs soient combinées. Cette combinaison conditionnelle permet de réduire efficacement les temps d exécution. L inconvénient est la nécessité de fixer plusieurs seuils de rejet associés aux différents niveaux Conclusion De nombreux travaux montrent que la combinaison de classifieurs (séquentielle, parallèle ou hybride) améliore nettement les performances du système de reconnaissance par rapport à chacun des classifieurs pris isolément. Cependant, parmi ces différentes architectures permettant de combiner un ensemble de classifieurs donnés, l architecture parallèle est de loin celle qui a donné lieu aux travaux les plus importants. Sa simplicité de mise en oeuvre, sa capacité à exploiter les réponses des classifieurs à combiner en prenant en compte (ou non) le comportement de chacun des classifieurs et son efficacité prouvée dans de nombreux problèmes de classification expliquent son succès notamment sur l approche séquentielle pour laquelle la connaissance du comportement de chaque classifieur est nécessaire a priori pour pouvoir obtenir un schéma de coopération efficace. L intérêt porté par les chercheurs majoritairement à la combinaison parallèle de classifieurs est fondé pour plusieurs raisons: le concepteur peut ré-utiliser les développements de classifieurs effectués antérieurement, chacun pouvant avoir été développé dans un contexte différent et utiliser une représentation différente pour le même problème. Un exemple est l identification de personnes par leur voix, leur visage ainsi que par leur signature. dans la combinaison, il est possible d utiliser un grand nombre de caratéristiques mais en les distribuant sur des classifieurs différents. deux classifieurs différents peuvent présenter des performances globales équivalentes mais avoir leurs propres régions dans l espace de caractéristiques où ils sont les plus performants. un classifieur est souvent sensible aux choix initiaux de ses paramètres (k et distance pour un k-ppv, nombre de couches et de neurones par couche pour un MLP,...). Plutôt que de chercher la meilleure configu-

25 1.3. Combinaison parallèle de classifieurs 25 ration de paramètres, la combinaison de l ensemble peut tenir compte des avantages de ces classifieurs appris différemment. on peut avoir à notre disposition plusieurs bases d apprentissage, chacune est collectée de manière différente ou construite dans des conditions différentes. L apprentissage d un même classifieur sur ces bases peut produire des résultats différents. Ce sont ces avantages qui nous ont conduit à focaliser notre travail sur la combinaison parallèle. Nous décrivons maintenant les travaux les plus aboutis dans ce domaine. 1.3 Combinaison parallèle de classifieurs Problématique de la combinaison parallèle Plusieurs systèmes de combinaison parallèle ont été développés pour différentes applications: reconnaissance d images médicales [Kittler et al., 1997] reconnaissance de chiffres [Beiraghi et al., 2000, Cao et al., 1995] [Cordella et al., 1998, Dimauro et al., 1995, Duin and Tax, 1998] [Heutte, 1994, Xu et al., 1992] reconnaissance de caractères et de mots manuscrits [Ho and Hull, 1994, Gader et al., 1996] identification de visages [Achermann and Bunke, 1996] [Brunelli and Falavigna, 1995] vérification de signatures [Zois and Anastassopoulos, 1999] [Sabourin and Genest, 1994, Bajaj and Chaudhury, 1997] reconnaissance de la parole [Chibelushi et al., 1993, Yu et al., 2000] [Chen et al., 1997] identification de formulaires [Clavier et al., 2000] classification des documents [Li and Jain, 1998], etc. Plusieurs termes ont été utilisés pour faire allusion à ces systèmes: combinaison de classifieurs [Lam and Suen, 1994, Kittler et al., 1998, ElMalek et al., 2002] fusion de classifieurs [Gader et al., 1996, Cho and Kim, 1995, Bloch, 1996] mixture d experts [Jacobs et al., 1991, Jordan and Xu, 1995] comité de classifieurs [Bishop, 1995, Drucker et al., 1994, Aksela, 2003]

26 26 Chapitre 1. Systèmes Multi-Classifieurs agrégation de consensus [Benediktsson et al., 1997] sélection de classifieurs [Woods et al., 1997, Kuncheva, 1993] ensemble de classifieurs [Hansen and Salamon, 1990, Filippi et al., 1994] système multi-experts [Cordella et al., 1998] système modulaire [Chiang and Fu, 1994, Sharkey, 1999] groupe de classifieurs [Cranor, 1996] etc. De manière générale, les systèmes de combinaison peuvent être divisés en deux groupes selon la façon dont on traite les classifieurs. Dans la combinaison, on peut fusionner ou sélectionner les classifieurs. La fusion (appelée aussi aggrégation) suppose la présence de tous les classifieurs dans la prise de décision. Dans un système de fusion, chaque classifieur participe de manière indépendante sur le même problème et les sorties de tous les classifieurs sont combinées par un certain opérateur de combinaison [Hansen and Salamon, 1990]. Les notions d ensemble, groupe et comité sont très utilisées pour faire référence au système de fusion. La sélection suppose qu on peut obtenir de meilleures performances en choisissant un sous-ensemble de classifieurs parmi l ensemble disponible [Kuncheva, 2002, Giacinto, 1998]. Cette sélection peut être statique ou dynamique. Les systèmes modulaires se basent sur ce principe. Dans ce type d approche, le problème à traiter est tout d abord divisé en sous-problèmes. Chaque classifieur ou module se spécialise dans un sous-problème d où le nom expert. Contrairement à l approche d ensemble, les classifieurs ne sont pas nécessairement performants pour toutes les données, mais seulement dans leurs régions d expertise. En ce qui concerne l aggrégation de classifieurs, le problème peut se poser de la manière suivante: étant donné un ensemble de L classifieurs, participant de manière indépendante sur le même problème de classification, comment peut-on élaborer une réponse finale à partir des résultats de ces classifieurs? Ce problème nécessite l utilisation d un module de fusion pour élaborer une décision finale. Considérons un système composé d un ensemble de L classifieurs. Pour reconnaître une forme x, chaque classifieur e j produit une réponse sous forme d un vecteur e j (x) = [e 1,j (x),..., e N,j (x)] T. La composante e i,j (x) indique que le classifieur e j a attribué à la forme x la classe C i parmi l ensemble de N classes possibles (i=1,..., N). Cette réponse peut être de type classe, rang ou mesure. Nous pouvons représenter toutes les décisions des classifieurs sous

27 1.3. Combinaison parallèle de classifieurs 27 forme d une matrice MD(x) = [e 1 (x),..., e L (x)] qui représente les réponses de l ensemble des classifieurs pour une forme x. Chaque ligne i de cette matrice représente la réponse de tous les classifieurs concernant la classe C i. Chaque colonne j représente le vecteur de réponses d un classifieur e j. Il s agit de l espace intermédiaire de caractéristiques du module de combinaison E. Fig. 1.4 Espace de caractéristiques des méthodes de combinaison La décision de fusion peut alors être obtenue par : E(x) = f(e 1,...,e L ) (1.7) f est appelé opérateur de combinaison ou d agrégation. Il existe de nombreux opérateurs de combinaison. Pour pouvoir les comparer, plusieurs catégorisations ont été proposées dans la littérature. Nous les passons maintenant en revue Taxonomies des méthodes de combinaison Différentes taxonomies des méthodes de combinaison ont été proposées dans la littérature [Duin and Tax, 2000, Ho, 1992, Kuncheva et al., 2001] [Jain et al., 2000, Moobed, 1996, Ruta and Gabrys, 2000, Xu et al., 1992]. Suivant les auteurs, les taxonomies mettent en avant le type de sorties des classifieurs combinés, la capacité d apprentissage des méthodes de combinaison ou les stratégies de combinaison choisies. D autres critères comme la nature des classifieurs sont aussi utilisés [Rahman and Fairhurst, 2003]. Xu [Xu et al., 1992] distingue les méthodes de combinaison uniquement par le type de sorties des classifieurs (classe, rang, mesure) présentées en entrée de la combinaison. Le type de sorties des classifieurs est un critère qui apparaît pratiquement dans toutes les taxonomies présentées dans la littérature. La prise en compte de ces niveaux différents d information influence directement la complexité des méthodes de combinaison développées.

28 28 Chapitre 1. Systèmes Multi-Classifieurs Jain [Jain et al., 2000] construit une taxonomie suivant trois critères d égale importance : le type de sorties des classifieurs, l adaptabilité des méthodes de combinaison (capacité à exploiter l expertise des classifieurs) et leur capacité d apprentissage. Ce dernier critère est aussi utilisé par d autres chercheurs [Kuncheva et al., 2001, Roli et al., 2002a] pour séparer les méthodes de fusion. Les méthodes avec apprentissage permettent de chercher et d adapter les paramètres à utiliser dans la combinaison suivant la base des exemples disponibles. Les méthodes sans apprentissage se contentent d utiliser seulement et simplement les sorties des classifieurs sans intégrer d autres informations a priori sur les performances de chacun des classifieurs. Kuncheva [Kuncheva, 2000a] fait la différence, quant à elle, entre fusion et sélection de classifieurs. Rappelons que la fusion consiste à combiner toutes les sorties de classifieurs pour atteindre un consensus alors que la sélection consiste à choisir dynamiquement les meilleurs classifieurs (les plus complémentaires) parmi un ensemble de classifieurs possibles pour identifier la forme inconnue. Dans [Partridge and Griffith, 2002], une taxonomie hiérarchique des méthodes de combinaison est proposée. Elle consiste également à diviser au premier niveau les méthodes de fusion (appelées méthodes de sélection indifférente) des méthodes de sélection (appelées méthodes de sélection spécifique). Partridge et Griffith distinguent dans les méthodes de fusion, celles qui utilisent toutes les informations des classifieurs dans la règle de combinaison de celles qui peuvent ne tenir compte que de la sortie d un seul classifieur ou d un sousensemble de classifieurs. Les méthodes de sélection spécifique sont, quant à elles, divisées en deux groupes: les méthodes qui nécessitent la distribution d une partie de la base d apprentissage sur chacun des experts et les méthodes qui utilisent un sélectionneur gating permettant de choisir le classifieur le plus compétitif pour prendre la décision finale. Dans [Ruta and Gabrys, 2000], une autre taxonomie des méthodes de combinaison de classifieurs est proposée. Cette taxonomie est divisée en deux niveaux. Dans le premier niveau on trouve les méthodes de sélection dont le rôle est de choisir les classifieurs en fonction de certains critères (le taux de reconnaissance de l ensemble, la corrélation entre les sorties des classifieurs,...). Les sorties de ces classifieurs sont fusionnées par l une des méthodes du deuxième niveau. Ces méthodes de fusion sont classées en fonction du type des sorties de classifieurs. Les méthodes de type rang sont divisées selon la taxonomie de Ho [Ho, 1992]. Comme nous l avons vu précédemment, deux approches sont possibles: celles permettant de réduire l ensemble des classes

29 1.3. Combinaison parallèle de classifieurs 29 et les méthodes permettant de ré-ordonner les classes. Récemment, une nouvelle taxonomie des méthodes de combinaison basée sur leur dépendence aux données à classer a été proposée [Kamel and Wanas, 2003]. Les méthodes de combinaison peuvent être totalement indépendantes des données à classer, ce qui est le cas des méthodes simples sans apprentissage. Les méthodes avec apprentissage sont dépendantes des données. Cette dépendance peut être implicite ou explicite. La dépendance implicite regroupe les méthodes classiques de combinaison avec apprentissage mais également les méthodes de sélection statique. Les méthodes qui déterminent les poids à attribuer aux différents classifieurs (sélection en fonction des données d apprentissage des classifieurs à combiner) sont rangées dans cette catégorie. Dans les méthodes explicites, les classifieurs sont choisis en fonction de la forme à reconnaître. Les méthodes de sélection dynamique font partie de cette catégorie d approche. Duin [Duin and Tax, 2000] distingue, quant à lui, dans les méthodes de fusion, les méthodes de combinaison de classifieurs hétérogènes (différents) des méthodes de combinaison de classifieurs faibles (homogènes). En effet, même si ces dernières tiennent compte de toutes les informations produites par les classifieurs, l intérêt des méthodes de combinaison de classifieurs faibles réside dans la combinaison de classifieurs ayant la même structure mais entraînés sur des données différentes ou initialisés de manière différente (MLP, RBF, etc). Selon [Rahman and Fairhurst, 2003], les informations utilisées par les méthodes de combinaison parallèle sont liées au type de classifieurs à combiner et à leur réponse individuelle. Cette réponse peut être une classe, une probabilité, une confiance, une connaissance ou une information floue. Les méthodes de combinaison sont alors divisées en 6 catégories: les méthodes qui se basent sur la théorie de Bayes, les méthodes de vote (méthode du vote à la majorité et ses variantes), les méthodes neuronales (sous forme d ensemble ou modulaire), les méthodes floues, les méthodes de combinaison de confiances et les méthodes à base de connaissance. Dans [Kuncheva et al., 2001], les méthodes qui fusionnent des classifieurs de type mesure sont divisées en deux groupes selon la quantité d information à exploiter pour produire la réponse finale. Les méthodes appelées class conscious favorisent un seul vecteur de la matrice de décision MD (figure 1.4) comme la règle du produit ou la moyenne. Par exemple, utiliser la règle du produit consiste à choisir la classe pour laquelle le produit des confiances des

30 30 Chapitre 1. Systèmes Multi-Classifieurs classifieurs est le plus élevé. Cela consiste alors à privilégier le vecteur de la classe choisie par rapport aux vecteurs des autres classes. Les méthodes appelées class-indifferent utilisent toutes les informations des classifieurs (c està-dire toute la matrice MD) dans la prise de décision finale. Par exemple, les classifieurs de type discrimination linéaire ou quadratique peuvent être utilisés comme opérateur de combinaison et font partie dans ce cas des méthodes appelées class-indifferent. Dans [Ho, 1992], les méthodes de type rang ont été divisées en deux groupes. Le premier groupe de méthodes est basé sur la réduction de l ensemble des classes. Son objectif est de réduire l ensemble de classes de départ mais en s assurant que la vraie classe existe toujours dans le sous-ensemble final réduit. Deux critères principaux doivent être pris en considération lors de l utilisation de ces méthodes: le nombre de classes de l ensemble de départ et la probabilité d existence de la vraie classe dans les ensembles de classes réduits. Il s agit de trouver un bon compromis entre la minimisation de l ensemble de classes et la maximisation de la probabilité de l inclusion de la vraie classe. Le deuxième groupe de méthodes consiste à réordonner les classes de telle façon que la vraie classe soit rangée dans les premières propositions de la liste de solutions. Alors que les taxonomies se distinguent généralement par le type des sorties des classifieurs à combiner (propriété de classification), Moobed [Moobed, 1996] distingue plutôt les méthodes de combinaison de type rang par le type de résultats qu elles fournissent (type ensemble, type rang ou type mesure). En effet, les méthodes de type rang peuvent donner en sortie un ensemble de classes sans vouloir donner d autres informations pour distinguer la vraie classe des autres classes à l intérieur de l ensemble. Elles peuvent donner une liste de classes ordonnées à partir des rangs donnés par les classifieurs. Elles peuvent aussi estimer une mesure de confiance pour chaque classe indiquant la probabilité que cette classe soit la bonne. Les taxonomies que nous venons de présenter permettent de distinguer les méthodes de combinaison en fonction de différents critères (type de sorties des classifieurs, capacité d apprentissage de la combinaison, stratégies de combinaison, structure des classifieurs,...). Cependant, elles manquent de précision pour placer toutes les méthodes de combinaison. Certaines taxonomies tiennent compte d un ou de deux critères, alors que d autres utilisent des critères d égale importance. La taxonomie des méthodes de combinaison parallèle que nous proposons dans la figure 1.5 présente l avantage de réunir de façon synthétique et précise les méthodes de combinaison en fonction des trois critères les plus importants: stratégies de combinaison, capacité d apprentissage et type de sorties des classifieurs à combi-

31 1.3. Combinaison parallèle de classifieurs 31 ner [Zouari et al., 2002b, Zouari et al., 2002a]. Nous distinguons au premier niveau les méthodes de sélection des méthodes de fusion. Si les méthodes de sélection utilisent un traitement supplémentaire qui consiste à choisir le ou les meilleur(s) classifieur(s) parmi l ensemble disponible, la situation est entièrement différente en ce qui concerne les méthodes de fusion dans la mesure où elles tiennent compte de toutes les sorties des classifieurs présentes dans la combinaison. Nous distinguons au deuxième niveau les méthodes de sélection statique des méthodes de sélection dynamique. Alors que les méthodes statiques prennent en compte les mêmes classifieurs pour reconnaître toutes les formes, les méthodes dynamiques sont adaptatives dans la mesure où elles cherchent le meilleur sous-ensemble de classifieurs (qui peut contenir un ou plusieurs classifieurs) en fonction des données présentées en entrée. Dans les méthodes de fusion, on distingue les méthodes dites figées ou non-paramétriques (les sorties des classifieurs sont combinées dans un schéma dont les paramètres sont invariables) des méthodes avec apprentissage qui cherchent à apprendre, sur les données disponibles, les paramètres nécessaires à la combinaison. Enfin, la complexité de ces méthodes peut varier en fonction du niveau d information associé aux réponses fournies par les classifieurs à combiner (sortie de types classe, rang ou mesure).

32 Fig. 1.5 Taxonomie des méthodes de combinaison parallèle de classifieurs 32 Chapitre 1. Systèmes Multi-Classifieurs

33 1.4. Combinaison non-paramétrique 33 Dans ce qui suit, nous présentons les méthodes de fusion selon la taxonomie proposée. Nous considérons que si la méthode de combinaison utilise une règle de décision déterminée par un certain nombre de paramètres et si l apprentissage consiste à trouver ces paramètres, la méthode est appelée paramétrique. Dans l autre cas elle est appelée non-paramétrique. 1.4 Combinaison non-paramétrique Ces méthodes n utilisent que des informations du premier ordre (sorties de classifieurs). Elles sont faciles à implémenter et ne nécessitent pas de phase d apprentissage. Cependant, le point faible de ces méthodes est qu elles traitent les classifieurs de manière égale ce qui ne permet pas de tenir compte de leur capacité individuelle. Elles peuvent être divisées en type classe, rang et mesure Type classe L avantage de la combinaison de type classe est qu elle peut être utilisée pour tout type de classifieur (classe, rang ou mesure), quelle que soit sa structure. Dans cette combinaison, chaque classifieur fournit en sortie une réponse sur l appartenance de la forme inconnue à une classe ou un ensemble de classes (ayant le même degré de préférence). Toutefois, il s agit de la seule information qu on pourra utiliser. La combinaison d un ensemble de classifieurs de type classe est souvent basée sur le principe du vote. Il y a maintenant plus de 200 ans que ce principe a été formalisé par le mathématicien et philosophe Condorcet [Condorcet, 1785]. Depuis, plusieurs méthodes de vote ont été proposées. Elles sont surtout utilisées dans les élections. Dans le domaine de la reconnaissance de formes, les méthodes de vote ont été utilisées principalement en reconnaissance de l écrit [Chou et al., 1994, Kimura and Shridhar, 1991, Nadal et al., 1990] ainsi que pour la vérification de signatures [Sabourin and Genest, 1994]. Dans le cadre de la combinaison, les méthodes de vote consistent à interpréter chaque sortie d un classifieur comme un vote pour l une des classes possibles. La classe ayant un nombre de votes supérieur à un seuil préfixé est retenue comme décision finale. Ces méthodes sont les plus simples à mettre

34 34 Chapitre 1. Systèmes Multi-Classifieurs en oeuvre: les votes des classifieurs ne sont pas pondérés et chaque classe reçoit autant de votes qu il y a de classifieurs à combiner. La plupart de ces méthodes ne nécessite qu un seul niveau de décision. On peut classer ces méthodes en trois catégories: vote avec seuil, majorité sans conflit et majorité notoire. Vote avec seuil Les méthodes de vote peuvent pratiquement toutes être dérivées de la règle avec seuil exprimée par : { Ci si L E(x) = j=1 e i,j = max N Lj=1 t=1 e t,j λ.l rejet sinon (1.8) λ correspond à la proportion de classifieurs devant répondre la même classe pour que cette classe soit retenue comme résultat de la combinaison. Ainsi, pour λ = 0, il s agit du vote à la pluralité où la classe qui reçoit le plus de votes est choisie comme classe finale. Connue aussi sous le nom First past the post [Cranor, 1996], cette méthode a la forme de vote la plus simple et est donc la plus facile à appliquer. Néanmoins, il y a rejet si toutes les classes ont le même nombre de votes. Dans ce cas, les risques de conflit sont particulièrement importants. Notons que le vote à la pluralité est un cas particulier du vote approuvé. Développé dans les années 1970, le vote approuvé tient compte d un ensemble de classes. Il offre une collection d ensembles de rangs, {1,0,...,0}, {1,1,0,...,0},...,{1,1,...,1,0}. Chaque classifieur vote pour N classes mais on ne regarde que les k premières (1 k N). k peut varier d un classifieur à l autre. Toutes les classes placées dans les k premiers choix ont un rang égal à 1 alors que celles placées après ont un rang 0. La classe ayant le maximum de votes est choisie. Par exemple, si on considère le choix des trois classifieurs suivants: classifieur 1: A B C classifieur 2: A C B classifieur 3: C B A La classe A a reçu 2 points, la classe B 1 point et la classe C 3 points. Pour λ = 0.5, il s agit du vote à la majorité. La classe finale est décidée si plus de la moitié des classifieurs l ont proposée c est-à-dire si au moins k classifieurs sont d accords, k pouvant être défini comme suit: { L si L est pair k = 2 L+1 si L est impair 2 (1.9)

35 1.4. Combinaison non-paramétrique 35 Le vote à la majorité est aussi très simple à appliquer mais il peut produire une décision finale erronée (quand la majorité des classifieurs ne proposent pas la vraie classe). La production de ce cas est faible surtout lorsqu on a un grand nombre de classifieurs. L utilisation du vote à la majorité est justifiée dans les situations où il est difficile d obtenir d autres types de sorties à partir des classifieurs et surtout dans les problèmes où on l en combine un très grand nombre de classifieurs [Ji and Ma, 1997] et pour lesquels il est difficile d appliquer d autres méthodes de combinaison plus complexes. On pourra citer les travaux de Lam et al. [Lam and Suen, 1997] où sont étudiées les propriétés de la méthode de vote à la majorité et surtout l apport d un classifieur supplémentaire dans une combinaison en fonction du nombre de classifieurs présents auparavant (pair ou impair). Cette étude est justifiée si l on suppose que tous les classifieurs sont indépendants. Dans le travail de Battati et Colla [Battati and Colla, 1994], la performance du vote à la majorité est aussi analysée sous l angle du compromis taux de reconnaissance/taux de rejet. Pour λ = 1, la classe finale est choisie si tous les classifieurs proposent cette réponse sinon la réponse finale est le rejet. Cette méthode restrictive qui accepte le moins de risque possible est appelée majorité unanime. S il s agit d une méthode fiable, elle présente toutefois l inconvénient majeur de produire un taux de reconnaissance assez faible, surtout lorsque le nombre de classifieurs augmente. Majorité sans conflit Le principe est identique à celui de la majorité unanime, à ceci près qu on autorise les classifieurs à rejeter. Un classifieur proposant de rejeter l élément n a donc aucun poids dans ce système: lorsque tous les classifieurs rejettent sauf un, alors c est la sortie de ce classifieur qui sera conservée comme résultat de la combinaison. Il n y a rejet que lorsque tous les classifieurs ont proposé de rejeter l élément ou en cas de conflit. Majorité notoire Dans ce cas, pour être désignée comme réponse finale, la classe majoritaire doit de plus se distinguer de la deuxième classe d une différence supérieure à un certain seuil. Les résultats de tests dans [Xu et al., 1992] montrent que cette méthode est meilleure que la majorité avec seuil surtout quand un minimum de fiabilité est exigé. Les méthodes que nous venons de présenter se composent d une seule étape. Il existe d autres méthodes de vote qui nécessitent plusieurs étapes.

36 36 Chapitre 1. Systèmes Multi-Classifieurs Elles utilisent des traitements itératifs au cours des différentes étapes permettant de réduire l ensemble des classes participant au vote. On trouve la procédure run-off et la méthode de Condorcet [Van-Erp et al., 2002]. La procédure runoff se réalise en deux étapes. Dans la première étape, chaque classifieur peut proposer son vote pour chacune des classes. Si une classe reçoit la majorité de votes (par vote à la pluralité), elle est choisie. Sinon, une seconde élection par vote à la majorité entre les deux premières classes (qui ont reçu le plus grand nombre de votes dans la première étape) est réalisée pour trancher. Dans cette méthode, il n y a pas de rejet. Dans la méthode de Condorcet, les classes sont comparées deux à deux. La classe gagnante à chaque tour reçoit un score d un point. Si une classe bat toutes les autres classes alors elle est choisie. Si on obtient plus d une classe alors on utilise une méthode type run-off pour choisir une seule classe de l ensemble Type rang Les méthodes de type rang ont été développées essentiellement pour résoudre les problèmes des méthodes de vote. Considérons par exemple le problème de classification à 3 classifieurs / 4 classes suivant : Classifieur 1 : A B C D Classifieur 2 : C A B D Classifieur 3 : B D C A Dans ce cas, il n y a pas de vainqueur majoritaire: les classes A, B et C placées en-tête de liste reçoivent toutes 1 vote. Dans cette situation, il est raisonnable de regarder la suite de chaque liste pour lever l ambiguité. Les méthodes de type rang se basent sur ce principe pour résoudre le problème. Pourtant utilisées depuis le 18ième siècle dans le domaine social (les élections), les méthodes de type rang n ont été appliquées sur les problèmes de reconnaissance que depuis peu. On peut considérer que la première étude sur ces méthodes a été réalisée par Ho dans le cadre de la reconnaissance de mots [Ho, 1992]. Depuis, elles sont appliquées dans d autres problèmes de reconnaissance [Parker, 2001, Van-Erp and Schomaker, 2000]. Plusieurs raisons peuvent expliquer l intérêt d utiliser les méthodes de type rang: La sortie de type rang est plus riche en information que la sortie de type classe. Il est très facile de transformer le type mesure en type rang: en ignorant les confiances dans la liste des solutions proposées mais en conservant l ordre des classes.

37 1.4. Combinaison non-paramétrique 37 Si les classifieurs produisent des mesures différentes alors il faut trouver une méthode de transformation commune afin de pouvoir les comparer. Or, il est difficile d avoir un modèle de normalisation efficace pour ce type de problème. On ne peut pas connaître le degré de pertinence des mesures proposées par les classifieurs. Les méthodes de type rang combinent des listes de propositions de classifieurs ordonnées de manière décroissante selon leur préférence. Les rangs attribués par chaque classifieur peuvent être considérés comme des votes pour toutes les classes. Ayant un nombre N de classes, chaque classifieur attribue un poids N à la classe placée au début de la liste, un poids N-1 à la seconde classe, etc. La classe placée à la fin de la liste reçoit un seul vote. Les méthodes non-paramétriques de type rang les plus reconnues sont le borda count et le meilleur rang. Borda Count et ses variantes Il s agit d une procédure de vote proposée en 1770 par Jean Charles de Borda [Borda, 1781] dans laquelle chaque voteur arrange les N candidats selon sa préférence en attribuant un nombre de points à chacun. Le candidat préféré reçoit N-1 points, le candidat suivant reçoit N-2, ainsi de suite. Le nombre de points du candidat placé à la fin de la liste est 0. La règle de Borda offre donc un seul ensemble de rangs échelle, N-1, N-2,..., 0. Certains auteurs attribuent les rangs autrement: N points à la classe placée en tête (top) de chaque liste de classifieurs, N-1 à la classe suivante et 1 à la dernière classe [Van-Erp and Schomaker, 2000]. Pour un problème à deux classes, le Borda Count est un vote à la majorité. Pour une classe particulière C i (i=1,..., N), le Borda Count BC(C i ) est la somme de tous les rangs proposés par les classifieurs pour cette classe. L BC(C i ) = r i,j (1.10) j=1 r i,j est le rang attribué par le classifieur e j à la classe C i. r i,j = N si la classe C i est placée au début de la liste. r i,j = N-1 si la classe C i est placée à la place suivante de la liste, etc. Les classes sont ensuite triées selon leur rang total. Le nouvel ordre détermine les rangs finaux. Par exemple, considérons les propositions de deux classifieurs pour un problème de reconnaissance à 3 classes: Classifieur 1 : A B C Classifieur 2 : C A B

38 38 Chapitre 1. Systèmes Multi-Classifieurs BC(A)= 3+2 = 5, BC(B)= 2+1 = 3 et BC(C)=1+3=4. La décision finale de la combinaison par Borda Count est donc: A C B Une variante du Borda Count consiste à faire la moyenne des rangs de chaque classe c est-à-dire diviser la somme des rangs de chaque classe par le nombre total de classifieurs. Cependant, dans le cas où les classifieurs proposent toutes les classes, le résultat de la moyenne est le même que celui de borda original. Le résultat de cette méthode ne peut être différent que si les listes à combiner sont de tailles différentes (ne contiennent pas toutes les classes possibles). Une autre variante du borda count est la médiane qui consiste à attribuer à chacune des classes le rang du milieu de la liste des rangs proposés par les classifieurs. r i, L +r i, L si L est pair BC(C i ) = 2 (1.11) si L est impair r i, L+1 2 Cette méthode est jugée plus intéressante que la moyenne des rangs dans le cadre des élections [Gilbert et al., 1999]. Dans des applications spécifiques de classification [Van-Erp and Schomaker, 2000], cette méthode s est également révélée plus fiable que le Borda count simple. Parker [Parker, 2001] propose une méthode simple appelée wborda. Celleci consiste à pondérer les rangs produits par les classifieurs par des constantes (la distance entre les rangs est différent de 1). Il s agit d associer au premier rang (c est à dire le rang le plus élevé) un poids égal à 1, un poids w =0.67 au deuxième rang, w 2 pour le rang suivant, etc. La procédure de Nanson [Nanson, 1882] consiste à appliquer le Borda count de manière itérative. A chaque itération, le Borda count des classes, proposées par les classifieurs, est calculé et la classe ayant le nombre de votes le plus faible est éliminée. Cette procédure est répétée jusqu à ce qu il reste une classe ou un ensemble de classes. Par exemple, soit les sorties suivantes pour 4 classifieurs: Classifieur 1 : A B C Classifieur 2 : C A B Classifieur 3 : B C A Classifieur 4 : C B A Dans la première itération, le calcul de borda donne BC(A) = 7, BC(B)=8, BC(C) = 9. On enlève donc la classe A. Dans la deuxième itération, les classes

39 1.4. Combinaison non-paramétrique 39 restantes sont B et C. Dans [Van-Erp and Schomaker, 2000], cette procédure a été comparée aux deux autres variantes du borda count (la moyenne et la médiane). Le but de cette étude est de mesurer le degré de sensibilité des méthodes de type rang à l estimation des erreurs dans les rangs (en modifiant aléatoirement les places des classes) et dans les confiances (en ajoutant une valeur aléatoire aux différentes confiances et en ordonnant les classes selon les confiances obtenues). L auteur a constaté que les méthodes de combinaison utilisées ont des comportements différents selon le type d erreurs (rang ou confiance). Lorsque les classifieurs ne produisent pas trop d erreurs dans l estimation des classes (rangs), l utilisation de la procédure de Nanson devient plus intéressante. Il existe d autres méthodes de type rang basées sur le borda count. La méthode de Black [Black, 1958], par exemple, se base sur le vote majoritaire et le borda. La décision finale peut être obtenue au début par le vote majoritaire, si elle existe. Sinon, la décision du borda count est adoptée. Dans [Parker, 1997], l auteur a montré que sur un problème de reconnaissance de chiffres imprimés le borda count est plus performant que la moyenne des probabilités. L analyse dans [Parker, 1999] a montré la similarité entre la méthode de Black et le borda simple. Connue aussi sous le nom de procédure de Hare (puisqu elle a été proposée par Thomas Hare en 1850 [Hare, 1873]), la méthode STV Single Transforable vote [Van-Erp et al., 2002] se réalise en plusieurs itérations. A chaque étape, on applique le vote à la majorité seulement aux classes placées au début de la liste de chaque classifieur. Si une classe reçoit la majorité des votes alors elle est la décision finale. Sinon, la classe ayant le nombre le plus faible de votes est éliminée de toutes les listes des classifieurs. La procédure continue en utilisant toujours le vote à la majorité jusqu à ce qu il reste une seule classe. Meilleur rang La méthode du meilleur rang consiste à attribuer à chacune des classes le rang le plus élevé MR(C i ) parmi les rangs proposés par les classifieurs et d ordonner la liste selon ces rangs [Ho, 1992]. MR(C i ) = max L j=1 r i,j (1.12) Cette méthode est adaptée pour des problèmes à plusieurs classes et peu de classifieurs non corrélés. Son avantage est qu elle utilise la meilleure

40 40 Chapitre 1. Systèmes Multi-Classifieurs réponse de chaque classifieur. Cependant, il apparaît que cette méthode peut facilement provoquer des conflits lorsque plusieurs classes obtiennent le même meilleur rang. Ce problème peut être résolu en utilisant des critères supplémentaires Type mesure Les méthodes de type mesure combinent des mesures qui reflètent le degré de confiance des classifieurs sur l appartenance de la forme à reconnaître en chacune des classes. Toutefois, comme les sorties des classifieurs ne sont pas toujours comparables, une normalisation est souvent nécessaire [Duin, 2002, Huang et al., 1995]. Les méthodes de combinaison non-paramétrique les plus utilisées sont les règles fixes et la moyenne de Bayes. Méthodes fixes Le principe de base derrière les méthodes fixes est le suivant : les classifieurs sont indépendants et estiment des probabilités a posteriori des classes. Ainsi, pour reconnaître une forme x, on utilise une règle de décision E(x) qui revient à choisir la classe C i pour laquelle la probabilité a posteriori P i est la plus élevée: { Ci si max E(x) = N i=1 P i = max N m=1 P m rejet sinon (1.13) La probabilité a posteriori P m peut être calculée par l une des règles suivantes: 1. La règle maximum 2. La règle minimum P m = max L j=1m i,j (1.14) P m = min L j=1m i,j (1.15) 3. La règle médiane P m = m i, L 2 +m i, L+2 2 m i, L+1 2 si L est pair 2 si L est impair (1.16)

41 1.4. Combinaison non-paramétrique La règle produit 5. La règle linéaire L P m = m i,j (1.17) j=1 L P m = λ m i,j (1.18) j=1 Les trois premières règles sont connues sous le nom d opérateurs d ordre statique. La règle maximum consiste à choisir la classe pour laquelle la probabilité m i,j est la plus élevée. Si le classifieur qui propose cette confiance a une mauvaise performance alors la règle maximum n est pas fiable. Il est difficile de trouver dans la littérature un exemple applicatif pour lequel la règle maximum est la plus performante [Duin, 2002]. La règle minimum consiste à choisir le classifieur qui propose la probabilité la plus faible. Comme la règle maximum, il est difficile de prédire les situations dans lesquelles cette règle est la plus efficace. Pratiquement, tous les travaux qui ont utilisé les opérateurs d ordre statique montrent clairement que la règle médiane est plus robuste que maximum et minimum [Kittler et al., 1998]. Cependant, la décision par la règle médiane ne prend pas en compte toutes les informations de l ensemble de classifieurs. La règle de produit donne de bonnes performances si les classifieurs sont indépendants. Comme exemple, on peut citer la combinaison de deux classifieurs utilisant différents espaces de caractéristiques et opérant différemment (l un pour la reconnaissance de visage, l autre pour la parole) pour l identification de personnes [Kittler et al., 1998]. Un autre exemple peut être cité [Tax et al., 2000] dans lequel les auteurs comparent la règle du produit à la moyenne sur des données réelles et simulées. Cependant, la règle du produit est sensible aux erreurs estimées par les classifieurs (dûes à la présence de bruit dans les données ou à l utilisation de base d apprentissage de petite taille). Il s agit de l effet de veto causé par l existence d une faible probabilité (proche de 0) produites par au moins l un des classifieurs à combiner. Afin d éviter ce problème, Alkoot et Kittler [Alkoot and Kittler, 2002] proposent une nouvelle règle (règle de produit modifiée) dépendante d un seul paramètre (seuil). Pour chaque classe, cette règle consiste à examiner les probabilités des classifieurs participants et à les remplacer par un seuil pré-défini si elle est inférieure à ce seuil. La comparaison de cette nouvelle règle avec celle du produit classique montre que si le bruit est faible (seuil faible), les deux règles donnent presque la même performance. Quand le bruit augmente,

42 42 Chapitre 1. Systèmes Multi-Classifieurs la règle modifiée devient plus intéressante. Dans la règle linéaire 1.18, λ est une constante. Ainsi, pour λ=1, on obtient la règle de somme. Si λ = 1 alors la règle est la moyenne simple. L Plusieurs chercheurs [Alpaydin, 1993, Krogh, 1995] ont montré qu une combinaison efficace de réseaux de neurones peut être réalisée par la moyenne simple. La somme fonctionne bien dans le cas d utilisation de caractéristiques différentes par des classifieurs de même structure [Ho and Hull, 1994] ou de structures différentes [Kittler et al., 1998]. Dans le cadre de la théorie bayésienne de la décision, Kittler et al. [Kittler et al., 1998] ont récemment montré que sous l hypothèse d indépendance des classifieurs, on peut déduire la somme du produit. Ensuite, ils déduisent l ensemble des autres règles (minimum, maximum, médiane, et vote majoritaire) à partir de ces deux règles de base, mettant ainsi en évidence que celles-ci sont des cas particuliers de ces deux règles fondamentales. Une description de ce travail est présentée brièvement dans le chapitre suivant. Dans ce travail, une étude expérimentale des règles considérées a été menée. Il est constaté que la règle de somme est la plus robuste par rapport aux autres règles fixes. Elle améliore la performance de la combinaison et est moins sensible aux erreurs des classifieurs. Pour la règle de produit, si l un des classifieurs produit une décision avec une faible confiance alors elle réagit de manière dramatique sur la combinaison. Cependant, elle reste efficace pour un nombre faible de classifieurs (inférieur à 5). L exemple suivant avec N=3 et L=5, permet d éclaircir le fonctionnement de ces règles de combinaison. e 1 e 2 e 3 e 4 e 5 Max Min Méd Prod Som Moy C C C La décision finale obtenue par les règles minimum, maximum et produit est la classe 3 alors que celle obtenue par la règle de somme et moyenne est la classe 2. Moyenne de Bayes Les méthodes bayésiennes sont utilisées pour fusionner des sorties de classifieurs exprimées en probabilités a posteriori. Parmi les méthodes de fusion les plus simples à appliquer, on trouve la règle moyenne de Bayes. Si chaque

43 1.4. Combinaison non-paramétrique 43 classifieur e j propose une probabilité a posteriori P j (x C i /x) attribuée à la classe C i (i=1,..., N) pour une forme x à reconnaître, il est alors possible de calculer la probabilité a posteriori moyenne à partir de tous les classifieurs: P moy (x C i /x) = 1 L P j (x C i /x) (1.19) L j=1 La décision finale est obtenue selon le critère de Bayes: la forme x est classée C i si P moy (x C i /x) est maximale. La probabilité a posteriori P j (x C i /x) peut être directement fournie par les classifieurs de type bayesien. Pour d autres types de classifieurs, il est possible d estimer la probabilité a posteriori à partir de leurs sorties de différentes manières. Par exemple, pour un classifieur e j de type k-ppv, la transformation est de la forme suivante: P j (x C i /x) = k i k nn (1.20) où k i est le nombre d exemples de la classe C i (k i 0) et k nn le nombre total d exemples les plus proches reconnus par le classifieur e j avec N k nn = k j (1.21) j=1 Lorsque pour chaque forme x, le classifieur e j propose des mesures d i,j indiquant chacune la distance (Euclidienne, Mahalanobis ou autres) entre x et le centre de la classe C i, i=1,...,n, alors la probabilité a posteriori peut être calculée comme suit: P j (x C i /x) = f(d i,j ) (1.22) f est la fonction de transformation des distances proposées par les classifieurs. Par exemple: 1 d P j (x C i /x) = i,j Ni=1 1 (1.23) d i,j La qualité de la règle moyenne de Bayes dépend donc de la façon dont les probabilités a posteriori sont estimées et donc du type des sorties des classifieurs à combiner (distance, confiance,...). Cette règle peut produire une amélioration significative en terme de performances, en particulier lorsqu un ensemble de réseaux de neurones est considéré [Perrone and Cooper, 1993, Perrone, 1994].

44 44 Chapitre 1. Systèmes Multi-Classifieurs 1.5 Combinaison paramétrique Par rapport aux méthodes précédentes, les méthodes de combinaison paramétrique sont plus complexes à mettre en oeuvre. Elles utilisent des paramètres supplémentaires calculés pendant une phase d apprentissage. La performance de ces méthodes dépend alors de la bonne estimation des paramètres donc de la base d apprentissage. Dans la combinaison paramétrique, deux cas d utilisation de la base d apprentissage sont possibles: 1. Utiliser la même base pour entrainer les classifieurs et la méthode de combinaison. 2. Utiliser deux parties, l une pour les classifieurs, l autre pour la combinaison. La réutilisation de la même base d apprentissage au niveau de la combinaison (le premier cas) est à éviter. Il est toujours préférable d utiliser une deuxième base de données Type classe Les méthodes paramétriques de type classe ne sont pas très nombreuses. Les méthodes les plus utilisées sont principalement le vote pondéré, la théorie de Bayes, la méthode de Dempster-Shafer et la méthode d espace de connaissance du comportement (Behaviour Knowledge Space ou BKS). Vote avec pondération Dans cette méthode, la réponse e i,j de chaque classifieur e j est pondérée par un coefficient w j indiquant son importance dans la combinaison. { Ci si L E(x) = j=1 w j e i,j = max N Lj=1 t=1 w j e t,j rejet sinon (1.24) Il existe plusieurs façons de déterminer les coefficients w j. Ils peuvent avoir été optimisés par algorithme génétique [Lam and Suen, 1994]. Dans [Achermann and Bunke, 1996], la forme d entrée est attribuée à la classe pour laquelle la somme des votes, qui sont pondérés par la fiabilité ( taux de reconnaissance ) taux de rejet estimée de chacun des experts, est la plus élevée. Cette méthode n introduit pas de critère de rejet.

45 1.5. Combinaison paramétrique 45 Pour plus d informations sur cette méthode, le lecteur peut se référer aussi à [Alpaydin, 1992]. Théorie de Bayes L utilisation de la théorie de bayes consiste à déterminer la classe C i pour laquelle la probabilité a posteriori P (C i /e 1 = C 1,...,e L = C L ) est maximum, c est-à-dire: E(x) = C i si P(C i /e 1 = C 1,...,e L = C L ) = max N m=1 P (C m/e 1 = C 1,...,e L = C L ) (1.25) Pour estimer la probabilité a posteriori, plusieurs études supposent que les classifieurs sont indépendants [Xu et al., 1992, Kuncheva, 2002, Kittler et al., 1998]. Sous cette hypothèse, la probabilité a posteriori s écrit: P (C i /e 1 = C 1,...,e L = C L ) = P (C i ) L l=1 P (C i /e l = C l ) P (C i ) (1.26) Les probabilités P (C i /e l = C l ) peuvent être déterminées à partir de la matrice de confusion obtenue pour les classifieurs sur une base d apprentissage. Si on note n j C i,c l le nombre d éléments de cette base pour lesquels le classifieur e j attribue les éléments de la classe C i à la classe C l, et n j.,c l le nombre total d éléments attribués par le classifier e j à la classe C l, alors on peut écrire: P (C i /e j = C l ) = nj C i,c l n j.,c l (1.27) La solution proposée par [Xu et al., 1992] est simpliste dans la mesure où elle ignore complètement les probabilités a priori des classes (les probabilités P (C i ) sont supprimées de 1.26). Pour plus de détails sur la théorie de Bayes, on pourra se référer à [Duda and Hart, 1973, Berger, 1985, Moobed, 1996] et pour des exemples d applications pratiques à [Kimura and Shridhar, 1991]. Dempster-Shafer Dans le cas où les classifieurs accordent un certain crédit à plusieurs classes, l utilisation de la règle de bayes peut être inadaptée à la combinaison de ces classifieurs. En effet, la règle de bayes nécessite l utilisation de probabilités dont la somme est toujours égale à 1 ce qui n est pas nécessaire dans

46 46 Chapitre 1. Systèmes Multi-Classifieurs la théorie de Dempster et Shafer (D-S), appelée aussi théorie de l évidence et des croyances [Dempster, 1985, Shafer, 1976]. Par rapport aux approches statistiques, cette méthode présente l avantage d inclure une modélisation à la fois de l incertitude et de l imprécision dans les systèmes à plusieurs classifieurs. Par exemple, lorsque la décision d un classifieur est ambiguë, la théorie prend en compte cela en affectant des masses à la réunion de plusieurs classes. La théorie de bayes se retrouve comme un cas particulier de la théorie de l évidence. Cependant, elle se base sur l hypothèse d indépendance des sources à combiner. Si on définit un ensemble Ω de N hypothèses (classes) C i, i {1,...,N} et 2 Ω, l ensemble de toutes les combinaisons de classes, la théorie de l évidence est caractérisée par la fonction: m : 2 Ω [0,1] telle que m(φ) = 0 et A Ω m(a) = 1 (1.28) La fonction m est appelée fonction d affectation ou masse de croyance. m(a) exprime le degré d évidence associé à l ensemble A. Chaque ensemble A Ω pour lequel m(a) 0 est appelé élément focal. A la structure de croyance m sont associées différentes fonctions dont la crédibilité (Bel) et la plausibilité (Pl). Bel(A) est interprétée comme une croyance totale affectée à A: Bel : 2 Ω [0,1] Bel(A) = B A m(b) (1.29) Pl(A) est interprétée comme une croyance affectée à A définie de la manière suivante : P l : 2 Ω [0,1] P l(a) = B A φ m(b) (1.30) Dans D-S, la méthode de combinaison des évidences issues de plusieurs classifieurs supposés indépendants est: X Y =A m 1 (X)m 2 (Y ) m(a) = X Y =φ m 1 (X)m 2 (Y ) (1.31) La règle 1.31 se généralise pour plus de deux évidences. Elle consiste à déterminer les intersections des éléments focaux de masses de croyance considérées, et à associer à chacune de ces conjonctions le produit de leur masses respectives. L ensemble de ces intersections constitue l ensemble des

47 1.5. Combinaison paramétrique 47 élements focaux de la nouvelle masse de croyance m. Dans [Xu et al., 1992], les auteurs ont utilisé les performances des classifieurs pour réaliser l affectation des masses de croyance. Dans [Yamayoka, 1994], la méthode de D-S est utilisée pour améliorer la performance du système de reconnaissance de chiffres manuscrits. Pour chaque forme x à reconnaître, tous les classifieurs proposant la même solution (étiquette de classe) sont mis dans un groupe G q, q=1,..., Q (Q est le nombre de différentes sorties proposées par les classifieurs). Chaque groupe représente un nouveau classifieur avec un nouveau taux de reconnaissance. A partir de l analyse successive des nouveaux classifieurs G q, deux mesures de croyance sont calculées: la croyance d une sortie correct Bel(A j ) et la croyance d une sortie incorrecte Bel( A j ). La réponse finale de la combinaison est la classe C j pour laquelle la différence entre les deux mesures de croyance est maximale c est à dire: Bel(A j ) Bel( A j = max N i=1bel(a i ) Bel( A i (1.32) Pour plus de détails sur la méthode de D-S, on pourra se référer à [Bloch, 1996] pour une étude théorique et pour des exemples d applications pratiques à [Franke, 1992, Gunes, 2001, Quinion and Matsuyama, 1991]. Méthode d espace de connaissance du comportement La méthode d espace de connaissance du comportement, BKS [Huang and Suen, 1995] utilise un espace de connaissance contenant les décisions de tous les classifieurs. Cet espace permet de connaître le comportement des classifieurs d où son nom espace de connaissance du comportement. La méthode BKS permet alors de tenir compte des informations de cet espace en les intégrant directement dans la règle de décision afin d obtenir la solution finale. L hypothèse d indépendance de classifieurs n est pas nécessaire. L espace de connaissance du comportement BKS est un espace à L dimensions où chaque dimension correspond à la décision d un classifieur. Chaque classifieur a N décisions possibles. L intersection des décisions des classifieurs individuels occupe une unité de l espace BKS(e 1,...,e L ) appelée unité focale. Elle accumule le nombre d entités reconnues par les L classifieurs pour chaque classe. Un exemple d espace de BKS à 2 dimensions est présenté dans le tableau 1.1 où (i,j) représente une unité focale avec e 1 = C i et e 2 = C j.

48 48 Chapitre 1. Systèmes Multi-Classifieurs e(1) / e(2) 1... j... N 1 (1,1)... (1,j)... (1,N) i (i,1)... (i,j)... (i,n) N (N,1)... (N,j)... (N,N) Tab. 1.1 Espace de connaissance du comportement à 2 dimensions Chaque unité focale comporte 3 types d informations : le nombre total d échantillons n e1,...,e L (C m ) appartenant à la classe C m. le nombre total d échantillons T e1,...,e L présents dans l unité N T e1,...,e L = n e1,...,e L (C m ) (1.33) m=1 l ensemble des classes les plus représentées R e1,...,e L dans l unité R e1,...,e L = {C i /n e1,...,e L (C i ) = max 1 Cm Nn e1,...,e L (C m )} (1.34) La méthode BKS est constituée de deux étapes : une étape d apprentissage et une étape de décision. Au cours de l apprentissage, BKS est construit à partir des résultats fournis par les L classifieurs. Les valeurs n e1,...,e L sont déterminées après un passage complet de la base d apprentissage. Les valeurs de T e1,...,e L et R e1,...,e L de chaque unité de BKS(e 1,...,e L ) sont ensuite calculées en utilisant 1.33 et 1.34 respectivement. L étape de décision repose sur l utilisation des réponses des L classifieurs à la forme présentée pour choisir l unité focale correspondante. La règle de décision suivante est ensuite utilisée pour donner le résultat final à propos de la classe x : R E(x) = e1,...,e L si T e1,...,e L > 0 et ne 1,...,e L (Re 1,...,e L ) T e1,...,e L rejet sinon λ (1.35) où λ est un seuil qui contrôle la fiabilité de la décision finale (0 λ 1). Plusieurs méthodes existent pour la recherche automatique de ce seuil. L étude réalisée dans [Huang and Suen, 1995] présente une recherche optimale du

49 1.5. Combinaison paramétrique 49 seuil λ et de la règle de décision finale E(x). La prise de décision dans BKS peut être illustrée par l exemple suivant. Soient N=3, L=2, S=100. Une table possible de BKS peut être présentée comme suit: e 1 e 2 1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 n e1 e 2 10/3/3 3/0/6 5/4/5 0/0/0 1/16/6 4/4/4 7/2/4 0/2/5 0/0/6 T e1 e R e1 e , ,2, Tab. 1.2 Exemple d un espace de connaissance du comportement La première ligne du tableau 1.2 représente toutes les combinaisons possibles des réponses des deux classifieurs e 1 et e 2. La deuxième ligne contient le nombre de fois où les classifieurs proposent la réponse de la première ligne pour les différentes classes. Par exemple, 10/3/3 (2 ieme colonne du tableau) indique que les deux classifieurs proposent 10 fois la réponse (1,1) pour la classe 1, 3 fois cette même réponse pour les classes 2 et 3. Supposons maintenant que pour une forme x à reconnaître, le premier classifieur propose 3 alors que le deuxième classifieur propose 1, c est-à-dire e 1 = 3 et e 2 = 1 (colonne 7 du tableau). Dans ce cas, l unité focale à considérer est BKS(3,1) et la classe de x est 1. La version originale de BKS présente l inconvénient majeur de tirer aléatoirement l une des classes lorsqu une unité focale contient plus d une classe. On pourra dans ce cas choisir plutôt la classe proposée par le classifieur ayant fait le moins d erreur [Wernecke, 1992]. Dans [Huang and Suen, 1995] l efficacité de la méthode BKS en terme de taux de reconnaissance a été montrée par rapport à d autres méthodes comme le vote majoritaire, la méthode Bayésienne et Dempster-Shafer. Cependant, l utilisation de cette méthode reste dépendante de la taille de la base d apprentissage qui doit être représentative et riche Type rang Nous avons vu dans la section que la limite des méthodes non paramétriques de type rang est qu elles ne tiennent pas compte de la différence dans la performance des classifieurs (tous les classifieurs participent de manière

50 50 Chapitre 1. Systèmes Multi-Classifieurs égale dans la prise de décision). Or, il est important d intégrer le degré de crédibilité des classifieurs dans la combinaison surtout quand on sait qu un des classifieurs est plus performant que les autres. Les méthodes de type rang les plus citées dans ce cas sont la somme pondérée, la régression logistique, l intersection et l union. Somme pondérée Dans cette méthode, les rangs attribués par les classifieurs pour une classe C i sont pondérés par des coefficients ω j indiquant la crédibilité accordée à chaque classifieur e j. Il s agit d une généralisation du borda count (lorsque ω =1 on obtient la règle du borda count). La somme pondérée (SP) d une classe C i s écrit: L SP (C i ) = ω j r i,j (1.36) La méthode proposée dans [Verma et al., 2001] permet de prendre en compte la différence entre les classifieurs pour améliorer la reconnaissance de mots. Il s agit d une modification du borda count (MBC). Pour L classifieurs proposant chacun des listes à K solutions mots (K N), le MBC de chaque mot C i est calculé comme suit : j=1 L MBC(C i ) = w j m ij r ij (1.37) j=1 où w j est le poids attribué à chaque classifieur e j. m i,j est la mesure attribuée par chaque classifieur e j à chaque mot C i de la liste. r i,j est le rang attribué à chaque mot C i par le classifieur e j. Il est égal à 0 si la classe C i ne figure pas dans la liste du classifieur e j. r i,j est calculé comme suit: e j. r i,j = 1 pos ij K (1.38) où pos ij est la position du mot i dans la liste de solutions du classifieur Régression logistique Pour combiner des classifieurs de type rang, on peut utiliser la méthode de régression logistique qui utilise les poids comme information reflétant l importance relative des classifieurs. La régression logistique se base sur π(c i ),

51 1.5. Combinaison paramétrique 51 la probabilité de la classe C i avec 0 π(c i ) 1. Pour l estimation de cette probabilité, on utilise la fonction logistique qui a la forme suivante : π(c i ) = exp(α + β 1r i,1 + β 2 r i, β L r i,l ) 1 + exp(α + β 1 r i,1 + β 2 r i, β L r i,l ) (1.39) r i,j est le rang attribué par le classifier e j à la classe C i. Pour obtenir une relation linéaire, l équation précédente peut être transformée comme suit: L(C i ) = log π(c i) = 1 π(c i ) α+β 1 r i,1 +β 2 r i, β L r i,l 1+exp(α+β 1 r i,1 +β 2 r i, β L r i,l ) (1.40) Une telle tranformation est appelée fonction logit L(C i ). Les paramètres de régression α et β j peuvent être estimés par les méthodes des moindres carrés ou du maximum de vraisemblance [Agesti, 1990]. Une fois les paramètres β j calculés, la combinaison des L vecteurs de rang fournis par les classifieurs consiste à calculer les fonctions logit L(C i ) pour chaque classe en utilisant l équation (1.40). Les classes finales de la combinaison seront les classes triées selon les valeurs de L(C i ). Cette méthode nécessite d estimer N(L-1) paramètres, ce qui rend la méthode de régression logistique très coûteuse. Par conséquent, elle ne peut être utilisée en pratique que pour les problèmes de classification à faible nombre de classes. La différence entre la régression logistique et la somme pondérée est que les coefficients ω j dans (1.36) sont identiques pour toutes les classes tandis qu ici, les coefficients de pondération pour une classe (les éléments du vecteur β j ) sont différents de ceux des autres classes. Dans le cas où les coefficients β j sont identiques, la régression logistique devient exactement identique à la méthode de la somme pondérée. Cette technique est utilisée dans [Ho, 1992]. D autres méthodes de combinaison paramétrique de type rang comme les méthodes d intersection et d union ont également été proposées par Ho [Ho, 1992]. Intersection Dans la méthode d intersection, chaque classifieur propose une liste de classes ordonnées selon sa préférence. L intersection de ces listes forme le résultat final. Ceci veut dire qu une classe n appartient à la liste finale que si elle existe dans toutes les listes des classifieurs. Les listes à combiner peuvent être de taille différente. Le seuil qui détermine la taille de chaque liste est calculé en

52 52 Chapitre 1. Systèmes Multi-Classifieurs apprentissage. Ho [Ho, 1992] propose une méthode qui délimite la taille des listes avant de les combiner. Pour cela, une base d apprentissage B a est utilisée. Chaque classifieur propose des rangs aux différentes formes de cette base. Le rang le plus élevé est considéré comme le seuil à utiliser dans la phase de test. Pour chaque forme de test, les classifieurs proposent des listes de classes, celles placées avant le seuil sont prises en compte dans l intersection. Cette procédure est illustrée dans le tableau 1.3 présentant les rangs attribués par 4 classifieurs à 5 données d apprentissage. Selon ce tableau, 34 solutions doivent être prises du classifieur 1, 36 du classifieur 2, 29 du classifieur 3 et 24 du classifieur 4. B a / e(j) e(1) e(2) e(3) e(4) a a a a a seuil Tab. 1.3 Exemple de recherche des tailles des listes des classifieurs dans l intersection [Ho, 1992] Union Dans la méthode d union, chaque classifieur propose aussi une liste des rangs reflétant sa préférence pour les classes. L union de ces listes forme le résultat final. Une classe qui existe au moins une fois dans l une des listes des classifieurs, appartient aussi à la liste finale. Contrairement à l intersection, ici le nombre de classes de chaque classifieur doit être suffisamment petit pour ne pas avoir un ensemble trop important dans la liste finale. Pour sélectionner les seuils des listes des classifieurs, une procédure min-max peut être utilisée [Ho, 1992]. Cette procédure se base sur les performances des classifieurs obtenues sur la base d apprentissage B a comme précédemment. Elle est illustrée dans le tableau 1.4. La moitié gauche du tableau présente les réponses des classifieurs pour les formes d apprentissage. Pour chacune des lignes, le meilleur (minimum) rang est déterminé (la moitié droite du tableau). Le maximum de tous ces minima est calculé pour chaque classifieur (colonne).

53 1.5. Combinaison paramétrique 53 B a / e(j) e(1) e(2) e(3) e(4) e(1) e(2) e(3) e(4) a a a a a Colmax Tab. 1.4 Procédure min-max pour déterminer les seuils dans l union [Ho, 1992] Type mesure D autres méthodes paramétriques qui ont bénéficié de l essor des travaux sur la classification dans plusieurs domaines sont utilisées pour combiner les classifieurs de type mesure tels que les règles pondérées, les méthodes floues, et les réseaux de neurones. Les règles pondérées Ces méthodes consistent tout simplement à appliquer des pondérations aux sorties des classifieurs. Chaque probabilité a posteriori P i d une classe C i peut être obtenue par l une des règles suivantes : P i = λ L j=1 w j m i,j P i = L j=1 m w j i,j (1.41) w j est le coefficient qui détermine l importance attribuée au j ieme classifieur dans la combinaison (j=1,..., L). Avec λ=1, la première règle est nommée la somme pondérée. Pour λ= 1 L, il s agit de la moyenne pondérée. Xiao [Xiao et al., 2000] a proposé une méthode linéaire et adaptative pour la reconnaissance de caractères chinois (problème à très grand nombre de classes) et a montré son efficacité par rapport à d autres méthodes comme le vote pour l application considérée. On trouve dans [Tresp and Taniguchi, 1995, Hashem, 1997] une application de ces méthodes linéaires. La deuxième règle est le produit pondéré. D autres règles qui se basent sur le même principe que cette méthode existent. On peut citer par exemple, la règle appelée produit probabilistique proposée dans [Broadley, 1982]. L utilisation de cette règle nécessite que les classifieurs soient indépendants. La probabilité a posteriori qu une forme x provienne d une classe C i (i=1,...,n)

54 54 Chapitre 1. Systèmes Multi-Classifieurs est : P i (x) = Lj=1 m i,j (x) P (i) L 1 (1.42) La classe attribuée à x est celle ayant la probabilité a posteriori P i la plus élevée. P(i) est la probabilité a priori de chaque classe C i. Elle peut être estimée à partir de la base d apprentissage. Si on suppose que S i est le nombre d éléments de la base d apprentissage reconnus de la classe C i et S, le nombre total d élements de la base d apprentissage, dans ce cas la probabilité a priori peut s écrire: P (i) = S i,i = 1,...,N (1.43) S Dans [Kuncheva, 1998], la règle de produit probabilistique a été étudiée (sur une base réelle) et comparée à d autres règles simples telles que le vote à la majorité, le maximum, le minimum, la moyenne et le produit. Les résultats ont montré l efficacité de cette règle même avec des classifieurs corrélés. Dans 5 expériences sur 8, sa performance est supérieure à celle des autres règles. Dans le reste des expériences, c est la moyenne qui apporte plus de gain à la combinaison. Dans [Kim et al., 2000], les règles de somme et de produit pondérées ont été utilisées pour reconnaître les mots manuscrits. La comparaison avec la règle simple maximum a montré que c est la règle de multiplication qui améliore le plus les taux de reconnaissance dans les trois premières propositions (Top3). A partir du Top5, c est la somme pondérée qui est la plus performante. Intégral flou Disposant d un ensemble de L classifieurs sur un problème à N classes, le principe de l intégral flou est de calculer des mesures floues H = {h i,1,h i,2,...,h i,l }, i=1,..., N pour chacune des classes, de les comparer avec les sorties des classifieurs pour retenir la classe ayant la mesure floue la plus élevée. L intégral flou est composé de deux étapes: une phase d apprentissage et une phase de test. Dans la phase d apprentissage, on détermine les valeurs de densité floue g 1,...,g L qui peuvent être interpretées comme l importance des classifieurs. Le taux de reconnaissance peut être utilisé dans ce cas [Wang et al., 1998, Cho and Kim, 1995]. Pour reconnaître une forme x, on trie tout d abord les réponses des classifieurs de manière décroissante pour chaque classe (on considère la ième ligne

55 1.5. Combinaison paramétrique 55 de la matrice MD(x)). Les densité floues g j correspondantes sont aussi triées. Les mesures floues h i,t de chaque classe C i, t {1,...,L} sont ensuite calculées par: h i,t = g t + h i,t 1 + λg t h i,t 1 (1.44) avec h i,1 = g 1. λ est une mesure floue (λ -1) calculée en se basant sur les densités floues g j, j=1 à L en résolvant l équation: L λ + 1 = (1 + λg j ) (1.45) j=1 Pour chaque classe, on compare les réponses des classifieurs avec le vecteur H pour déterminer la mesure floue f la plus élevée: [ f i = max N i=1 min L t=1 (h i,t,e i,t ) ] (1.46) Ceci peut être vu, pour chaque classe C i, comme une recherche de l accord maximal entre les sorties des classifieurs triées (concernant la forme x) et les mesures floues de C i. La classe finale de x est obtenue par: E(x) = max N i=1 f i (1.47) Pour plus de détails sur cette méthode, on pourra se référer à [Cho and Kim, 1995, Gader et al., 1996, Grabisch and Nicolas, 1994, Keller et al., 1994, Verikas et al., 1999, Wang et al., 1998]. Les réseaux de neurones La combinaison de classifieurs au niveau mesure peut aussi être réalisée en utilisant un réseau de neurones en tant que fonction de décision [Wolpert, 1992, Huang et al., 1995]. Les classifieurs dans l ensemble sont au début appris sur la base entière ou sur des parties de cette base. Ensuite, une base de validation est classée en utilisant cet ensemble de classifieurs. La réponse à chaque forme est considérée comme une nouvelle donnée à apprendre par le réseau de neurones ce qui lui permet d apprendre le comportement des classifieurs. Chaque forme de la base de test est alors classée au début par l ensemble de classifieurs dont les sorties sont ensuite combinées par le réseau de neurones pour fournir la décision finale. Les sorties des classifieurs sont donc considérées pour le classifieur de fusion comme un nouvel ensemble de caractéristiques de chaque forme de test. On appelle cette approche métaclassifieur [Giacinto, 1998].

56 56 Chapitre 1. Systèmes Multi-Classifieurs La combinaison par réseaux de neurones a été appliquée à des problèmes de reconnaissance très différents. Par exemple, elle a été utilisée dans [Lee and Srihari, 1995] pour la reconnaissance de chiffres, dans [Knerr et al., 1996] pour identifier les mots, et dans [Wenzel et al., 1998] pour classer les documents. Dans [Huang et al., 1995], un réseau de neurones est utilisé pour combiner 3 classifieurs. Les auteurs constatent d une part que la conception d un classifieur qui doit être appris sur les résultats d un ensemble de classifieurs n est pas facile, et d autre part que l apprentissage de ces résultats est très coûteux en terme de calcul. Pour corriger les erreurs inhérentes de 2 classifieurs (de type k-ppv), Prevost et al. [Prevost and Milgram, 1998] utilisent la fusion neuronale permettant ainsi d améliorer notablement la performance d un système de reconnaissance de caractères. Dans [Giacinto, 1998], le réseau de neurones, le vote à la majorité et la moyenne de bayes ont été utilisés pour combiner trois réseaux de type MLP ayant des architectures différentes. Il est montré que ces trois méthodes de combinaison se comportent bien avec des classifieurs indépendants. Cependant, lorsque les classifieurs sont dépendants, le réseau de neurones donne de meilleures performances que celles obtenues avec le vote à la majorité et la moyenne de bayes. Decision Template (DT) Cette méthode a été proposée dans [Kuncheva et al., 2001]. Pour chaque classe C i (i=1,..., N), une matrice de décision DT Ci est calculée sur une base d apprentissage B a = a 1,...,a S. Cette matrice DT Ci représente le centre de la classe C i dans l espace de décision des classifieurs en apprentissage. S DT Ci = 1 MD(a s ) (1.48) S i s=1,a s C i S i est le nombre d éléments de B a provenant de la classe C i, i=1,..., N. Pour chaque forme de test x, les matrices DT Ci sont comparées à la matrice des décisions des classifieurs MD(x) en utilisant une mesure de similarité sim: E Ci = sim(dt Ci,MD(x)) (1.49) La forme x est reconnue de la classe C i si la similarité entre la matrice DT Ci et MD(x) est la plus élevée. Dans [Kuncheva, 2002], la distance euclidienne a été utilisée pour mesurer cette similarité mais d autres mesures peuvent être appliquées. Dans [Kuncheva et al., 2001], par exemple, 10 mesures de similarité ont été comparées, celle de type flou est recommandée.

57 1.6. Comparaison des méthodes de combinaison 57 Cependant, cette méthode reste non généralisable et son application dépend des données utilisées et de la mesure de similarité choisie. 1.6 Comparaison des méthodes de combinaison Les diverses méthodes de combinaison que nous avons passées en revue montrent la diversité des approches qui s offrent au concepteur de systèmes de reconnaissance à plusieurs classifieurs. Ces méthodes se distinguent essentiellement par le niveau d information en sortie qu apporte chacun des classifieurs. Au niveau classe, la sortie de chaque classifieur est une étiquette. Au niveau rang, chaque classifieur fournit en sortie une liste ordonnée de solutions. Au niveau mesure, les classifieurs proposent en plus des mesures reflétant la confiance qu ils ont dans les classes. La combinaison est alors différente si on dispose d un classifieur produisant des mesures (riche en information), ou seulement des classifieurs donnant des classes (pauvre en information). La combinaison des sorties de type classe a reçu de la part des chercheurs une attention plus grande que la combinaison des sorties de type mesure car elles sont très simples à appliquer et à analyser expérimentalement et même théoriquement. Même si les méthodes de type mesure semblent a priori plus séduisantes (quand on peut les utiliser) puisqu elles exploitent toute l information fournie par le classifieur, cela ne veut pas dire qu elles sont toujours plus intéressantes que les méthodes de type rang. Cette idée a été confirmée récemment par Parker [Parker, 2001] qui a montré que les méthodes de type rang peuvent être plus performantes que les méthodes de type classe et mesure. Il faut noter également que le problème du choix entre les méthodes paramétriques et non paramétriques a été posé récemment [Roli et al., 2002a] [Duin, 2002]. D après Duin [Duin, 2002], la combinaison paramétrique est plus intéressante que la combinaison non paramétrique surtout lorsque la base d apprentissage est à la fois informative et représentative. Pourtant, ce sont les méthodes de combinaison non paramétriques qui sont les plus utilisées par les chercheurs. Cela est du au fait que ces méthodes sont simples à mettre en oeuvre et n utilisent pas de traitements supplémentaires (apprentissage). Certains travaux ont montré l efficacité des méthodes paramétriques par rapport aux règles fixes pour des ensembles de classifieurs exhibant des performances différentes, en supposant la disponibilité de données suffisamment

58 58 Chapitre 1. Systèmes Multi-Classifieurs large pour l apprentissage de ces méthodes de combinaison [Fumera and Roli, 2002]. Ceci veut dire que l avantage des méthodes paramétriques peut ne pas être garanti en pratique. Par exemple, l utilisation de la méthode BKS est à éviter si on dispose de bases de données de petite taille. Le tableau 1.5 présente de façon synthétique les principales caractéristiques des méthodes de combinaison parallèle de classifieurs. Ces caractéristiques sont présentées en fonction du type de sorties des classifieurs et de la capacité d apprentissage. Le choix de ce critères est d une importance primordiale lors de la conception d un système de combinaison de classifieurs.

59 1.6. Comparaison des méthodes de combinaison 59 Méthodes de combinaison Type Apprentissage Commentaire Méthode de vote classe non très simple, utilisable pour un très grand nombre de classifieurs Somme, Médiane, moyenne mesure non robuste et suppose l indépendance des classifieurs Produit, max, min mesure non suppose l indépendance des classifieurs, utilisable avec des classifieurs performants Borda count rang non utilisable pour un très grand nombre de classes Régression logistique rang oui dépend des poids de pondération BKS classe oui demande beaucoup de données, n utilise pas l hypothèse d indépendance de classifieurs Théorie de Bayes classe oui utilisée avec l hypothèse d indépendance des classifieurs Tab. 1.5 Caractéristiques des méthodes de combinaison parallèle

60 60 Chapitre 1. Systèmes Multi-Classifieurs 1.7 Sélection de classifieurs Ce n est que récemment que les travaux sur la combinaison ont montré l importance de traiter le problème de sélection des classifieurs comme étant un problème d optimisation de l espace de décisions des classifieurs. Pourtant ce problème n est pas nouveau. Lorsqu on dispose d un grand nombre de classifieurs, on se pose toujours la question de savoir combien et quels classifieurs choisir pour améliorer la reconnaissance. Une approche intelligente de sélection de classifieurs est devenue cruciale pour aboutir à la meilleure performance avec le minimum de classifieurs. Cependant, sélectionner les classifieurs ayant les performances les plus élevées n est pas forcément la bonne solution pour aboutir au meilleur résultat [Rogova, 1994]. Généralement, les taxonomies proposées dans la littérature permettent de diviser les méthodes de sélection de classifieurs en deux groupes: statique et dynamique [Kuncheva, 2002]. La sélection statique consiste à choisir une fois pour toutes le meilleur classifieur ou le meilleur sous-ensemble de classifieurs, parmi un grand nombre de classifieurs disponibles, qui sera utilisé lors de la combinaison. La stratégie proposée dans [Giacinto and Roli, 2001b] ainsi que celle dans [Sharkey et al., 2000] utilise ce type de sélection. A l opposé, la sélection dynamique ou adaptative retient les sorties d un ou de plusieurs classifieurs adaptés à chacune des formes de test à traiter. L algorithme 3C proposé dans [Gunes, 2001] est un exemple de ce type de sélection. Woods [Woods et al., 1997] et Cao [Cao et al., 1994] ont également proposé ce type de système. Certains auteurs considèrent que les termes de sélection adaptative et de sélection dynamique ont la même signification [Ho and Hull, 1994, Giacinto, 1998]. Gunes [Gunes, 2001] fait la distinction entre ces deux notions. Dans le cas de la sélection adaptative, différents classifieurs sont sélectionnés en fonction de l individu présenté en entrée du système. Plusieurs formes identiques mais issues d instants différents conduisent à la sélection du ou des même(s) classifieurs. L aspect temporel, c est-à-dire le fait qu un individu soit associé à un instant donné, n est donc pas pris en compte. La sélection dynamique doit, au contraire, conduire à des choix différents suivant l instant considéré. Ceci est nécessaire lorsque les classes sont évolutives (par exemple, lorsque le centre de classes se déplace au cours du temps). Duin [Duin, 2002] considère que les méthodes de sélection font partie

61 1.7. Sélection de classifieurs 61 des méthodes de combinaison paramétriques (avec apprentissage) puisque les résultats d apprentissage des classifieurs sont utilisés dans la procédure de sélection. Rappelons ici que notre définition des méthodes paramétriques est différente. En effet, nous considérons qu une méthode de combinaison est paramétique si elle utilise une phase supplémentaire permettant d estimer les paramètres nécessaire à la combinaison indépendamment de l apprentissage des classifieurs. La taxonomie de Duin distingue deux groupes de méthodes de sélection: méthode de sélection globale et méthode de sélection locale. Le premier type de méthodes consiste à choisir, non pas le meilleur classifieur, mais le meilleur ensemble de classifieurs [Sharkey et al., 2000]. Le deuxième type de méthodes divise l espace de caractéristiques en régions, estime la performance locale de chaque classifieur dans ces régions et sélectionne (pour chaque région) le classifieur le plus performant. Le sous-ensemble optimal de classifieurs doit être choisi parmi toutes les possibilités de combinaison des classifieurs disponibles. Malheureusement, le nombre des sous-ensembles possibles est égal à L j=1 ( L j ) = 2 L 1 (1.50) Il est évident qu au delà de trois classifieurs, la génération de tous ces sousensembles devient coûteuse en temps de calcul. Des méthodes de recherche sous optimales sont donc utilisées pour sélectionner le ou les meilleurs classifieurs (cf. méthodes de sélection de caractéristiques [Jain and Zongke, 1997]). Nous présentons maintenant les méthodes de sélection statique (qui prennent en compte les mêmes classifieurs pour reconnaître toutes les formes) puis les méthodes de sélection dynamique (qui cherchent le meilleur sous-ensemble de classifieurs en fonction des données présentées en entrée) Sélection statique Dans la littérature, les travaux qui traitent le problème de la sélection statique de classifieurs peuvent être répartis en 3 groupes selon la stratégie de conception: surproduire et choisir: cette technique consiste à générer des classifieurs différents en se basant sur les méthodes de création d ensembles et à choisir ensuite le groupe de classifieurs dont la combinaison produit le meilleur résultat.

62 62 Chapitre 1. Systèmes Multi-Classifieurs regrouper et extraire: elle consiste à regrouper les classifieurs en sousensembles qui diffèrent selon le niveau de corrélation et à extraire ensuite un classifieur représentatif de chaque sous-ensemble tout en essayant d avoir un compromis entre diversité d erreur et performance de l ensemble final. rechercher et sélectionner: elle se base sur le même principe des méthodes de sélection de caractéristiques utilisées en reconnaissance de formes statistiques (utilisation d un algorithme de recherche et un ou plusieurs critères de sélection) Surproduire et choisir Plusieurs méthodes pour créer des ensembles de classifieurs divers ont été proposées. Le meilleur moyen est d utiliser des caractéristiques différentes adaptées à chacun des classifieurs [Duin, 2002, Kittler et al., 1998]. La génération aléatoire des sous-ensembles de caractéristiques par la méthode Random subspaces est aussi intéressante [Ho and Hull, 1994]. Une autre solution consiste à utiliser des sous-bases de données différentes [Cohn et al., 1994]. Les techniques les plus utilisées pour cela sont essentiellement le bagging et le boosting [Breiman, 1996a, Freund and Schapire, 1996]. Si ces deux méthodes ont le même objectif, qui est l amélioration de la performance des classifieurs ayant la même structure, elles sont néanmoins différentes du point de vue processus. Dans la première méthode, les bases d apprentissage sont construites de manière indépendante par bootstrapping alors que dans la deuxième méthode, la construction des bases d apprentissage dépend systématiquement des résultats de classification antérieure (nous reviendrons plus en détails sur cette approche dans le chapitre 4). On peut également introduire de la diversité entre les sorties des classifieurs en faisant varier la structure des classifieurs, ou leurs paramètres comme par exemple le nombre de plus proches voisins ou le nombre des feuilles dans les arbres de décision [Tax et al., 2000]. Disposant d un grand nombre de réseaux de neurones différents (du point de vue architecture, initialisation et apprentissage), Sharkey et al. cherchent à identifier et à sélectionner le meilleur ensemble de classifieurs en se basant sur sa performance sur une base de validation (autre que la base de test et d apprentissage) [Sharkey et al., 2000]. Ils en ont déduit une méthode test and select qui se base sur ce principe. En effet, ils considèrent que si l ensemble de classifieurs choisis donne une meilleure performance (en terme de taux de reconnaissance) sur une base de validation, alors cet ensemble se comporte aussi de la même façon sur la base de test. Bien que cette méthodologie montre comment il est possible de sélectionner le groupe

63 1.7. Sélection de classifieurs 63 produisant le meilleur résultat, elle possède néanmoins des inconvénients. D une part, la phase de constitution exhaustive des ensembles de classifieurs nécessite un effort de mise au point considérable et d autre part, l ensemble retenu est fixe. Ce choix reste dépendant de la base de validation utilisée (si on change de base, le meilleur ensemble peut changer). Il est également important de noter que le principe de la sélection dans la méthodologie test and select nécessite que la répartition de la base de validation soit proche de celle de la base de test. La performance d un même ensemble de classifieurs sur deux bases différentes (par exemple l une bruitée et l autre non) peut être différente. Au lieu de sélectionner les classifieurs en se basant uniquement sur leur performance, certains chercheurs proposent de sélectionner les classifieurs en fonction de leur diversité [Aksela, 2003, Partridge and Griffith, 1995] [Impedovo and Salzo, 1999, Sharkey and Sharkey, 1997a, Ruta and Gabrys, 2001a, Sharkey and Sharkey, 1997a]. A ce propos, des mesures de diversité différentes ont été utilisées. Aksela [Aksela, 2003], par exemple, compare six mesures de diversité pour la sélection de 4 classifieurs différents parmi 8. Trois méthodes de combinaison ont été utilisées pour évaluer ces mesures (le vote à la pluralité, BKS [Huang and Suen, 1995] et Dynamically Expanding Context (DEC) [Laaksonen et al., 1999]). Toutes les combinaisons des possibilités de 4 classifieurs parmi les 8 ont été générées (70 combinaisons). Parmi les mesures de diversité utilisées, l erreur exponentielle (qui sera présentée de façon plus détaillée dans le dernier chapitre) est jugée plus efficace permettant de prédire les groupes de classifieurs dont la combinaison donne la meilleure performance. En effet, le meilleur groupe de classifieurs (dont la combinaison donne le taux d erreur le plus faible) correspond au groupe offrant le plus de diversité par la mesure de l erreur exponentielle. Avec l élimination du plus mauvais classifieur parmi les 8, il est constaté que cette mesure donne le même résultat. Ceci montre que cette mesure est moins sensible aux performances des classifieurs. Cependant, les résultats obtenus ne sont pas généralisables. Ils dépendent aussi bien des données traitées (bases de caractères manuscrits) que de la dimension des groupes de classifieurs combinés. Il ne faut pas oublier que ces résultats dépendent aussi des caractéristiques des méthodes de combinaison utilisées. Le fait de tester avec le vote à la pluralité et le BKS ne veut pas dire que la mesure recommandée soit la plus efficace pour le reste des méthodes de combinaison. Impedovo et al. [Impedovo and Salzo, 1999] proposent une méthodologie pour rechercher le meilleur ensemble de classifieurs pour la combinaison. Cette méthodologie utilise l indice de similarité pour estimer la corrélation

64 64 Chapitre 1. Systèmes Multi-Classifieurs stochastique de l ensemble de classifieurs (mesure de l accord entre les sorties des classifieurs). Cet indice est aussi utilisé dans [Dimauro et al., 1995, Kim et al., 1997] pour la sélection de classifieurs. Comme il est montré dans [Ruta and Gabrys, 2001a] pour le vote à la majorité, les mesures de diversité sont particulièrement intéressantes dans la mesure où elles permettent de réduire la complexité du système de combinaison. Cependant, la sélection reste dépendante du choix de ces mesures. De plus, la pertinence de ces mesures est un problème actuel, non encore résolu. Nous reviendrons en détail sur ces problèmes dans le chapitre Regrouper et extraire Dans [Giacinto, 1998, Giacinto et al., 2000a], une approche basée sur le principe regrouper et extraire a été proposée. Elle consiste à regrouper les classifieurs en sous-ensembles qui diffèrent selon le niveau de corrélation et à extraire ensuite un classifieur représentatif de chaque sous-ensemble tout en essayant d avoir un compromis entre diversité d erreur et performance de l ensemble final. L objectif de la première phase est de regrouper les classifieurs de telle façon que : 1. la combinaison (par vote à la majorité) des classifieurs du même groupe donne un taux élevé d erreur. Ceci permet de dire que les classifieurs de chaque groupe ont un degré faible de complémentarité (sont très corrélés). 2. la combinaison de classifieurs de groupes différents permet d avoir un pourcentage d erreur faible. A ce propos, l algorithme de clustering hiérarchique est utilisé [Ripley, 1996, Jain and Dubes, 1988]. Cet algorithme commence par considérer chaque classifieur comme un groupe individuel. A chaque étape, les deux groupes les plus proches sont rassemblés dans un même groupe. Ici, le sens du plus proche change d une étape à une autre puisque les distances entre les groupes deviennent plus grandes. On obtient à la fin du processus un seul groupe. Il est possible ensuite de choisir le sous-ensemble optimal en sélectionnant un classifieur de chaque groupe (celui dont la distance moyenne avec les autres groupes est maximale). Pour constituer les ensembles de classifieurs, une mesure de diversité qui se base sur le désaccord entre les classifieurs a été utilisée. Si p 00 est la probabilité que deux classifieurs e 1 et e 2 proposent simultanément des réponses incorrectes sur une base de validation, alors la distance entre ces deux classifieurs est définie par:

65 1.7. Sélection de classifieurs 65 d e1 e 2 = { 1 p 00 e 1 (x) e 2 (x) 0 e 1 (x) = e 2 (x) (1.51) La distance entre deux groupes G 1 et G 2 est définie comme étant la distance maximale entre des classifieurs provenant de ces groupes: d G1 G 2 = max {d(e s e t )} (1.52) e s G 1,e t G 2 Dans [Giacinto et al., 2000a], cette approche a été comparée à deux autres méthodes de sélection proposées dans [Partridge and Yates, 1996]. L une nommée choisir le meilleur sous ensemble consiste à sélectionner X classifieurs ayant les performances les plus élevées parmi l ensemble de tous les classifieurs disponibles (X est pré-défini). L autre méthode nommée choisir à partir du sous-espace consiste à sélectionner le classifieur qui a la performance la plus élevée dans une certaine région de l espace. Les résultats ont montré que l approche de Giacinto et al. permet de sélectionner plus de classifieurs indépendants que les deux autres méthodes. Cependant, l efficacité de cette approche reste liée à l algorithme de clustering et la mesure de distance utilisés. Une autre méthode simple de sélection basée sur le regroupement a été proposée dans [Kuncheva, 2000a]. Chaque classifieur se prononce sur la base d apprentissage. Celle-ci est divisée ensuite en Q régions en utilisant la procédure de Q-means clustering [Duda and Hart, 1973]. Le centre de chaque région est identifié. Pour chaque région, la performance des classifieurs est estimée. Le classifieur ayant la performance la plus élevée est nominé. Pour une forme x de test, on l affecte à la région dont le centre est le plus proche à x. Le classifieur nominé pour cette région est utilisé pour classer x Rechercher et sélectionner La plupart des méthodes de sélection qui se base sur ce principe sont des méthodes de sélection de caractéristiques utilisées en reconnaissance de formes statistiques [Jain and Zongke, 1997]. L algorithme de recherche ainsi que le critère de sélection (performance de la combinaison par exemple) sont les deux éléments essentiels dont dépend la performance de ces méthodes de recherche. On trouve essentiellement les méthodes de recherche séquentielle et les algorithmes génétiques qui sont des méthodes heuristiques fondées sur le principe de la recherche locale. Ce principe consiste à explorer l espace de recherche composé de toutes les solutions réalisables dans le but d aboutir à la solution optimale. Dans [Hao et al., 2003], une comparaison entre cinq

66 66 Chapitre 1. Systèmes Multi-Classifieurs méthodes de recherche séquentielle et un algorithme génétique a été réalisée pour la sélection de 32 classifieurs. Cette étude a montré que la plupart de ces méthodes arrivent à trouver rapidement le meilleur sous-ensemble de classifieurs. Cependant, aucune méthode n est supérieure à toutes les autres de manière consistante. D autre part, la combinaison des meilleurs classifieurs sélectionnés sur la base de validation ne donne pas obligatoirement une meilleure performance sur la base de test. Dans les méthodes de recherche séquentielle les classifieurs sont additionnés ou éliminés itérativement du sous-ensemble choisi dans l objectif d améliorer le critère de sélection. A chaque étape, seulement un classifieur ou un petit nombre de classifieurs (2 ou 3) sont traités, ce qui permet de limiter la complexité de la recherche. Parmi les principales méthodes de recherche séquentielle, on trouve: Recherche en avant (forward): dans cette méthode, le sous-ensemble initial est vide. Les classifieurs sont alors additionnés un par un. A chaque étape, un classifieur est retenu dans le sous-ensemble si son addition permet d améliorer la performance de ce sous-ensemble. Recherche en arrière (backward): il s agit de la direction inverse de la méthode de recherche précédente. Elle commence par un ensemble contenant tous les classifieurs. Ceux-ci sont éliminés de manière itérative. A chaque itération, un classifieur est éliminé de telle sorte que le sousensemble de classifieurs restants donne la performance la plus élevée. Dans [Banfield et al., 2003], trois méthodes de sélection basées sur le concept de la recherche séquentielle ont été proposées. Disposant d un grand nombre de classifieurs (1000), le but de chacune de ces méthodes est d éliminer les classifieurs inutiles selon un certain critère. La procédure s arrête lorsque le nombre de classifieurs à enlever est atteint (ce nombre est pré-défini). Dans la première méthode AID accuracy in diversity, deux valeurs limites, taux de reconnaissance minimum et maximum, sont calculées en fonction de la diversité du groupe et du taux de reconnaissance de chacun des classifieurs. Les classifieurs ayant le taux de reconnaissance inférieur à la borne minimale fixée sont supprimés de l ensemble. Le deuxième algorithme se base sur l accord des classifieurs (mesure de kappa). Pour chaque classifieur e j de l ensemble e 1,...,e L, on calcule le kappa de l ensemble e 1...e j 1,e j+1,...,e L (c est-à-dire sans ce classifieur). Le classifieur qui entraine une faible valeur de kappa est éliminé. La troisième méthode élimine à chaque étape le classifieur qui cause le taux de reconnaissance le moins élevé. Il est montré que les

67 1.7. Sélection de classifieurs 67 deux premières méthodes de sélection sont plus intéressantes. Bien qu elles permettent d améliorer la performance de l ensemble en utilisant des mesures de diversité, elles restent cependent dépendantes de la base qui a servi pour la recherche des classifieurs les plus complémentaires. L avantage des algorithmes génétiques [Srinvas and Patnaik, 1994] est de permettre de rechercher un optimum dans un espace de données de grande dimension tout en respectant les fonctions de fitness [Kuncheva, 1997, Cho, 1999]. Un algorithme génétique peut être décrit par trois éléments essentiels: 1. Un ensemble de solutions potentielles appelées individus ou chromosomes qui vont évoluer pendant un nombre d itérations (générations). Cet ensemble de solutions est aussi appelé population. 2. Un mécanisme d évaluation (fonction coût ou fitness) qui permet d évaluer la performance de chaque individu de la population. Les individus qui respectent les fonctions de fitness ont plus de chance de survire dans la génération suivante. 3. Une procédure d évolution qui est basée sur des opérateurs génétiques comme la sélection, le croisement ou encore la mutation. Les opérations de mutation et de croisement permettent d augmenter la variabilité des populations. Les conditions d arrêt les plus utilisées sont un nombre prédéfini de générations ou une valeur prédéfinie à atteindre pour la fonction coût. Une approche basée sur un algorithme génétique a été proposée dans [Partridge and Yates, 1996]. Elle peut être résumée comme suit. Un grand nombre de réseaux de neurones sont d abord générés en les initialisant différemment, avec différents nombres de neurones et différentes bases d apprentissage. Le critère de sélection des classifieurs est basé sur la performance de la combinaison (le taux de reconnaissance) ainsi que sur la diversité entre les sorties des classifieurs (utilisation d une mesure de diversité). Deux conclusions intéressantes sont à mentionner à partir de ce travail: (1) les ensembles de classifieurs qui ont une grande valeur de diversité ne sont pas nécessairement ceux qui produisent le taux de reconnaissance le plus élevé, (2) l apprentissage des réseaux de neurones sur des données différentes permet d obtenir des classifieurs ayant une plus grande diversité que les autres types de variations apportées aux réseaux (initialisation, architecture). Dans [Ruta and Gabrys, 2001b], trois méthodes de sélection de classifieurs basées sur le principe des algorithmes génétiques ont été comparées: l algorithme génétique [Davis, 1991], la méthode TS tabu search [Glover and Laguna, 1997]

68 68 Chapitre 1. Systèmes Multi-Classifieurs et PBIL (population-based incremental learning) [Baluja, 1994]. Ces algorithmes ont été utilisés pour chercher la population contenant les meilleurs groupes de classifieurs et les combiner ensuite par le vote à la majorité. La performance de cette méthode de combinaison est prise en compte directement dans la fonction du fitness. Dans [Giacinto, 1998], une approche capable de sélectionner les classifieurs sans contraintes sur la taille de l ensemble de classifieurs a été proposée. Cette approche utilise aussi un algorithme génétique qui cherche dans l espace des classifieurs, le groupe qui minimise l erreur de la combinaison par vote à la majorité. Dans [Oliveira et al., 2003], une approche de sélection de caractéristiques basée sur l algorithme génétique hiérarchique multi-objectifs a été proposée. En effet, l algorithme génétique est utilisé dans deux étages: dans le premier étage pour la sélection des caractéristiques les mieux adaptées aux classifieurs utilisés et dans le deuxième étage pour chercher le meilleur sous-ensemble de classifieurs parmi les bons (du premier niveau). Pour sélectionner le meilleur ensemble de classifieurs, deux critères ont été utilisés: le taux de reconnaissance de l ensemble (combinaison par la moyenne) et le désaccord entre les classifieurs. En appliquant cette méthode dans le contexte de la reconnaissance de chiffres manuscrits avec trois classifieurs, il est observé que le sousensemble qui présente le meilleur taux de reconnaisance est aussi composé du nombre minimum de classifieurs Sélection dynamique Dans le cadre des systèmes de classifieurs, le meilleur classifieur (ou le meilleur ensemble de classifieurs) peut être différent suivant la forme à classer. On parle alors de sélection adaptative ou dynamique si l en prend en compte cette forme pour sélectionner le ou les meilleurs classifieurs. Lee et al. [Lee and Srihari, 1995] identifient deux types de sélection dynamique: une sélection pré-conditionnelle et une sélection post-conditionnelle. La sélection pré-conditionnelle consiste à choisir le meilleur ensemble de classifieurs en tenant compte de la forme x à reconnaître (par exemple en utilisant un sélecteur qui reçoit cette forme et donne en sortie les poids à attribuer aux différents classifieurs). La sélection post-conditionnelle, quant à elle, est basée seulement sur les décisions des classifieurs.

69 1.7. Sélection de classifieurs 69 Selon la stratégie de conception, nous avons choisi de diviser les méthodes de sélection dynamique de classifieurs en deux groupes: sélection locale: elle consiste à diviser l espace de caractéristiques en régions, estimer la performance locale des classifieurs dans chaque région et choisir le meilleur classifieur par région. Si une forme à reconnaître est attribuée à une région, alors le classifieur représentatif de cette même région prend la décision finale. sélection par pondération: elle consiste à utiliser un sélecteur dont le rôle est d attribuer des poids aux classifieurs (le poids le plus élevé au meilleur classifieur) Sélection locale L idée originale de la sélection dynamique a été introduite dans [Ho, 1992]. Considérons l oracle comme étant une méthode permettant de prédire le meilleur classifieur pour chaque forme à reconnaître. Si cela existe, il est possible de prendre les décisions seulement par ce classifieur et ignorer la réponse des autres classifieurs. D après Ho: c est le cas idéal de la sélection dynamique de classifieurs. Une telle sélection peut être réalisée de deux façons différentes. Une méthode possible consiste à diviser, tout d abord, la base d apprentissage selon le nombre de classifieurs en accord. En effet, pour chaque forme de cette base, la réponse de chaque classifieur est comparée à celle des autres classifieurs et la classe proposée par la majorité des classifieurs en accord est attribuée (la réponse des classifieurs peut être correcte ou incorrecte). La base d apprentissage est donc divisée en L j=0 C L j L parties selon le nombre de possibilités d accord entre les classifieurs. Pour chaque partie, les paramètres du modèle logistique (c est à dire les poids de tous les classifieurs) sont estimés. Pour reconnaître une forme de test x, les classifieurs proposent d abord leurs réponses. Le nombre de classifieurs en accord définit la partie concernée de x. Le modèle logistique (fonction de combinaison), estimé pour cette partie, est utilisé pour produire la décision de x. La deuxième méthode considère chaque classifieur comme un expert dans son espace local de caractéristiques d où le nom DCS-LA (Dynamic Classifier Selection by Local Accuracy). L idée de base est de diviser l espace de caractéristiques R en Q 2 régions notées par R 1,R 2,...,R Q. La performance des classifieurs est ensuite mesurée séparément dans chaque région. Le meilleur classifieur, c est-à-dire celui qui a la performance locale la plus élevée, est déterminé par région. Un classifieur peut être sélectionné sur plu-

70 70 Chapitre 1. Systèmes Multi-Classifieurs sieurs régions comme il peut ne jamais être sélectionné. Pour une forme de test à reconnaître, si elle est attribuée à une région alors le classifieur qui représente cette même région (c est-à-dire sélectionné pour cette région) prend la décision finale. C est uniquement la sortie du meilleur classifieur qui est prise en compte même si les autres classifieurs peuvent être aussi performants localement. Cette méthode a été adoptée dans plusieurs travaux [Giacinto et al., 2000b, Giacinto and Roli, 2001c, Giacinto and Roli, 2001a, Kuncheva, 2002, Cao et al., 1994, Alpaydin and Jordan, 1996, Lipnickas, 2001]. Bien que ces travaux traitent des problèmes différents, ils se basent, cependant, sur la même philosophie de sélection. Dans [Woods et al., 1997], les auteurs sélectionnent dynamiquement un classifieur parmi un ensemble en se basant sur l estimation de performance. Cependant, les classifieurs ne sont pas spécialisés dans différentes régions durant la phase d apprentissage. Tous les classifieurs sont entrainés sur la base entière et la sélection du classifieur spécifique est seulement réalisée pendant la phase de test. Gunes [Gunes, 2001] propose une méthode 3C (Coopération Classification Classement) qui se base sur ce même principe. Cependant, la décision finale peut être prise soit par un seul classifieur soit par un ensemble de classifieurs. Chaque classifieur est entrainé sur une des régions et sur toutes les régions ambiguës à proximité de celle-ci. Pour chaque forme de test, la région dans laquelle elle se trouve est déterminée. Si cette forme appartient à une région dans laquelle un seul classifieur a été entrainé alors on utilise ce classifieur pour prendre la décision finale. Alors que si la forme de test est située dans une région ambiguë (contenant des données de différentes classes) alors la prise de décision est effectuée en combinant l ensemble des classifieurs les mieux adaptés (c est-à-dire ayant appris dans la région où se situe la forme) par la théorie D-S. Dans le cas où la forme de test est classée dans une région inexistante (c est-à-dire aucun élément d apprentissage n a été affecté lors de la phase de constitution de régions), elle est alors rejetée. Dans [Giacinto and Roli, 2000], les auteurs présentent un cadre théorique pour la sélection dynamique et montrent que sous certaines conditions, le résultat du classifieur bayésien optimal peut être obtenu par la sélection de classifieurs non optimaux. Cela consiste à dire que pour chaque partie de l espace de caractéristiques, il y a au moins un classifieur qui produit une décision optimale de bayes. La performance de ce classifieur est certainement supérieure aux autres classifieurs. Par conséquent, pour chaque partie, la performance de chacun des classifieurs peut être estimée sur une base de validation et le classifieur ayant la performance supérieure est sélectionné. A ce propos, deux méthodes de sélection dynamique ont été proposées : l une a

71 1.7. Sélection de classifieurs 71 priori, l autre a posteriori. Dans la sélection a priori, la performance p j (x) de chaque classifieur e j (j=1,..., L) est calculée à l aide d un k-ppv dans la base de validation telle que: p j (x) = Ss=1 ˆp j (C i /z s C i )ω s Ss=1 ω s (1.53) où ˆp j (C i /z s C i ) est le rapport entre le nombre de voisins correctement classés par le classifieur e j à la classe C i et le nombre total des voisins de x; ω s = 1/d s avec d s la distance euclidienne entre la forme de la base de validation z s et la forme x à classer. S est la taille totale de la base de validation. Notons ici que la sélection est nommée a priori parce que la performance p j (x) de chaque classifieur e j est déterminée sans connaître sa décision à propos de la forme x. Si dans la sélection a priori, la performance de chaque classifieur est une mesure globale sur l ensemble de la base de validation, dans la sélection a posteriori, la performance de chaque classifieur est déterminée pour chacune des classes. Dans la sélection a posteriori, chaque forme à reconnaître x est classée avant le calcul des performances des classifieurs. Soit C m la classe attribuée à cette forme par un classifieur e j, m=1,..., N. Dans ce cas, la performance p j (x) de ce classifieur pour la forme x est p j (x) = z s C m ˆp(C m /z s )ω s Ni=1 z s C i ˆp(C m /z s )ω s (1.54) où ˆp(C m /z s ) est le rapport entre le nombre de voisins z s de x attribués à la classe C m et le nombre total de voisins S. L algorithme de sélection utilisant l une de ces deux techniques peut être présenté comme suit: Entrées: la forme x à reconnaître, les étiquettes de la base de validation (classée), le nombre de voisins, seuil de rejet seuil r, seuil de sélection seuil s Sortie: la classe de x 1. Si tous les classifieurs attribuent à x la même classe, alors la classe finale est cette classe 2. Pour chaque classifieur e j (j=1,.., L), calculer p j (x) 3. Si p j < seuil r alors éliminer e j de l ensemble 4. Identifier le classifieur e m ayant la probabilité p m (x) la plus élevée 5. Pour les k classifieurs restants (retenus dans l ensemble), calculer la distance entre la probabilité du classifieur e m et celle des autres classifieurs: d l = p m p l, l=1,..., k

72 72 Chapitre 1. Systèmes Multi-Classifieurs 6. Si d l > seuil s alors choisir e m sinon choisir aléatoirement un des k classifieurs pour lesquels d l < seuil r L étape 3 permet d éliminer dans le processus de sélection les classifieurs qui produisent une performance plus faible que le seuil de rejet pré-défini. L étape 5 calcule la différence entre les performances des classifieurs afin d évaluer la fiabilité de la sélection du classifieur e m. Si toutes les différences sont supérieures au seuil de sélection alors le classifieur e m est raisonnablement fiable pour classer correctement la forme x. Sinon, une sélection aléatoire parmi les classifieurs est réalisée. Bien que cette méthode de sélection dynamique (a priori et a posteriori) ait donné des résultats meilleurs que chacun des classifieurs et même que le vote majoritaire, elle reste néanmoins dépendante du choix de deux seuils (rejet et sélection) Sélection par pondération La sélection par pondération consiste à utiliser un module enseignant en tant que sélecteur dont le rôle est d attribuer des poids aux classifieurs (le poids le plus élevé au meilleur classifieur) [Xiao00, Jacobs91, Ham92, Lee95]. Ce sélecteur est généralement de type réseau de neurones. L approche de sélection par pondération la plus utilisée est la mixture d experts. Celleci se base sur le principe diviser et conquérir [Jordan and Jacobs, 1994, Waterhouse and Robinson, 1994]. Diviser concerne la distribution de la base d apprentissage sur les classifieurs disponibles. Conquérir concerne la compétition entre les classifieurs. Chacun veut être sélectionné pour donner la décision finale. Cette approche est utilisée pour la conception des systèmes de combinaison basés sur la sélection des réseaux de neurones. Elle est aussi utilisée avec d autres types de classifieurs comme les modèles gaussiens par exemple [Jordan and Xu, 1995]. Comme les techniques précédentes de sélection dynamique, l approche mixture des experts dépend des données d apprentissage. Cependant, elle ne peut pas être appliquée avec une grande base de données puisque cela augmente la complexité de son architecture. D autre part, cette approche nécessite une conception supplémentaire du sélecteur dont le rôle est primordial dans la sélection. Jacobs et al. [Jacobs et al., 1991] présentent une approche adaptative de la mixture des experts. Les experts locaux sont des réseaux de neurones. Chacun d eux est entrainé sur une partie indépendante de la base d apprentissage. Un autre réseau de neurones appelé gating network est utilisé comme

73 1.7. Sélection de classifieurs 73 un sélecteur dynamique permettant de choisir l un des experts pour émettre la décision finale. La figure 1.6 montre un exemple de ce système avec trois classifieurs. Fig. 1.6 Schéma de mixture adaptative des experts [Jacobs et al., 1991] Le réseau sélecteur reçoit la même forme d entrée que les autres experts. Il fournit en sortie une probabilité de sélection p j pour chaque expert e j. Si on considère w j, le poids proposé par le réseau sélecteur à cet expert, alors la probabilité p j est calculée comme suit: p j = expw j Ll=1 exp w l (1.55) Hampshire et Waibel [Hamsshire and Waibel, 1992] proposent une architecture parallèle appelée Meta-pi qui consiste à entraîner un réseau sélecteur après avoir figé l intégralité des architectures des experts. Ce réseau a pour mission de choisir parmi les experts celui qui sera le plus apte à classer le vecteur d entrée présenté à tous les réseaux. Pour avoir un maximum d efficacité, le sélecteur doit faire un minimum d erreur car sa décision est prépondérante. En d autres termes, les experts font une classification grossière du vecteur

74 74 Chapitre 1. Systèmes Multi-Classifieurs d entrée que le sélecteur va affiner. La méthode de sélection proposé par Lee et al. [Lee and Srihari, 1995] se base sur cette même architecture. Les caractéristiques extraites de chaque image à reconnaître sont utilisées en entrée du sélecteur dynamique dont le rôle est d affecter à chaque classifieur participant une mesure (comprise entre 0 et 1) indiquant la confiance qu il a pour ce classifieur. La réponse finale du système de combinaison est obtenue par une fusion neuronale qui tient compte des sorties de tous les classifieurs pondérées par les confiances attribuées par le sélecteur. Dans [Kurzweil, 1990], un expert est proposé pour sélectionner les solutions des classifieurs qui sont basées sur des valeurs de confiance. Le succès de cette méthode dépend alors de l efficacité de ces valeurs de confiance. Kamel et al. [Kamel and Wanas, 2003] proposent une méthode hybride nommée architecture basée sur les caractéristiques qui utilise la sélection et la fusion. La sélection est réalisée par un détecteur qui reçoit les sorties des classifieurs ainsi que le vecteur de caractéristiques de la forme à reconnaître et génère des poids pour les différents classifieurs. Ces poids reflètent la confiance accordée à chaque classifieur. Ils sont utilisés ensuite dans le module de fusion pour produire la décision finale. Cette méthode est donc une extension de celle proposée par Jacobs. La seule différence est que la décision finale n est pas obtenue par un seul classifieur mais par la combinaison de plusieurs. Empiriquement, il est montré que cette méthode fonctionne mieux que les méthodes de fusion (avec et sans apprentissage) Conclusion L exposé que nous venons de faire des méthodes qui permettent de sélectionner le meilleur sous-ensemble de classifieurs montre que la configuration d un système de sélection dépend essentiellement de la façon dont on exploite les classifieurs (statique ou dynamique). De plus, le fait qu on dispose ou pas d une base de validation (en plus de la base de test) ou d un module de gating influera sur le choix de la configuration. Le tableau 1.6 résume les approches que nous avons présentées. Il ressort cependant de cette étude qu il n existe pas une meilleure méthode et que l utilisation de chacune reste dépendante du problème à traiter.

75 1.7. Sélection de classifieurs 75 Méthodes de sélection statique Commentaires Références Surproduire et choisir utilise les méthodes de création d ensembles [Sharkey et al., 2000] pour surproduire et les performances des classifieurs [Aksela, 2003] et/ou la diversité pour choisir Regrouper et extraire utilise un algorithme de clustering pour regrouper [Giacinto et al., 2000a] [Kuncheva et al., 2000] Rechercher et sélectionner utilise un algorithme de recherche pour explorer [Hao et al., 2003] les solutions réalisables et sélectionner un [Banfield et al., 2003] optimum en se basant sur un certain critère [Partridge and Yates, 1996] Méthodes de sélection dynamique Sélection locale se base sur la division de l espace de [Ho, 1992] caractéristiques en régions et sélection du meilleur [Woods et al., 1997] sous ensemble pour chaque région [Gunes, 2001] Sélection par pondération utilise un module de sélection dont le rôle est d attribuer [Jacobs et al., 1991] des poids aux classifieurs [Kamel and Wanas, 2003] [Lee and Srihari, 1995] Tab. 1.6 Méthodes de sélection de classifieurs

76 76 Chapitre 1. Systèmes Multi-Classifieurs 1.8 Conclusion Dans ce chapitre, nous avons présenté un état de l art sur la combinaison parallèle de classifieurs. Nous avons défini ce qu est un classifieur dans le cadre de la combinaison. Nous avons ensuite présenté les stratégies de combinaison possibles qui se différencient essentiellement par l agencement des classifieurs. Nous avons présenté ensuite l avantage de l approche parallèle pour la combinaison de classifieurs qui est celle que nous avons choisie pour la suite de nos travaux. Une telle approche se base sur des méthodes de combinaison spécifiques qui diffèrent essentiellement par leur capacité d apprentissage et le type de sortie des classifieurs. Nous avons tenté de montrer l étendue de ces méthodes de combinaison (basées aussi bien sur la fusion que la sélection). Cependant, nous devons nous rendre à l évidence qu elles ne sont pas toutes de même qualité. Tout comme il est difficile de prouver que tel classifieur est meilleur que tel autre pour tout problème de classification, il n est pas aisé non plus de prouver que telle méthode de combinaison convient mieux que telle autre pour tout problème de reconnaissance. Généralement, les méthodes de combinaison sont appliquées sur des données réelles. Par conséquent, les résultats obtenus restent étroitement liés à ces données et donc difficiles à généraliser pour d autres applications. Par opposition, le nombre d études théoriques [Lam and Suen, 1994, Kittler et al., 1998] qui traitent de la combinaison d un point de vue général, sans s attacher à une application particulière, ni aux types de sorties des classifieurs, reste très faible. Bien qu ils abordent les vrais problèmes de combinaison, ils utilisent des hypothèses rarement vérifiées. Il est donc clair que la diversité des travaux sur la combinaison n a pas permis d avoir une approche générale qui traite le problème de la combinaison de manière satisfaisante dans tous les cas de figure. La mise en oeuvre d une telle approche n ira pas sans poser une question fondamentale: Comment et en fonction de quels critères évaluer la robustesse d une méthode de combinaison donnée sur des applications différentes? Le chapitre suivant traite ce problème et présente en particulier un état de l art sur l évaluation du comportement des méthodes de combinaison parallèle.

77 Chapitre 2. Évaluation de performances des méthodes de combinaison 77 Chapitre 2 Évaluation de performances des méthodes de combinaison Ce chapitre concerne le problème de l évaluation des performances des méthodes de combinaison parallèle de classifieurs. Nous discutons, tout d abord, du problème de l évaluation des performances d un système de reconnaissance. Nous présentons ensuite une analyse critique des travaux qui ont abordé ce problème dans le cas des méthodes de combinaison parallèle, en théorie et en pratique. Nous discutons ensuite de la nécessité, pour évaluer de manière plus robuste le comportement des méthodes de combinaison, de disposer d une grande variété de performances dans les classifieurs à combiner. La simulation de données permet entre autres de répondre à ce problème.

78 78Chapitre 2. Évaluation de performances des méthodes de combinaison 2.1 Introduction Récemment, la combinaison parallèle de classifieurs a été proposée comme une voie de recherche permettant de fiabiliser la reconnaissance en utilisant la complémentarité qui peut exister entre les classifieurs. Sur ce point, nous avons vu dans le chapitre précédent que la littérature abonde de travaux présentant une variété de schémas de combinaison qui diffèrent principalement par leur capacité d apprentissage et le type de sortie des classifieurs [Xu92, Jain00, Zouari02]. Toutefois, le choix de ces méthodes ne suit a priori aucune règle précise, et dépend étroitement de l application que l on veut traiter, de la façon dont on veut la traiter et des outils disponibles (bases de données, classifieurs et règles de combinaison). En fait, pour un problème de classification quelconque et en utilisant un ensemble de classifieurs ayant des performances intrinsèques différentes et une base de données spécifique, nous pouvons trouver une méthode de combinaison qui permet de donner le meilleur résultat. Si on change de problème (par exemple, en changeant de base de données ou en changeant les classifieurs à combiner), nous ne pouvons pas garantir que la méthode choisie reste la meilleure. Par conséquent, les travaux actuels restent difficile à généraliser en dehors d un domaine applicatif donné. Ce qui explique bien les limites des systèmes développés du point de vue performance pour traiter d autres applications plus complexes. Par opposition aux travaux expérimentaux, le nombre d études analytiques validées sur des problèmes synthétiques reste très faible [Lam97b, Parker00, Srihari82]. Ces études analysent le comportement des méthodes de combinaison les plus simples et les moins exigeantes (pas d informations supplémentaires sur le comportement des classifieurs, pas d apprentissage). Cette évaluation se fait dans le cadre de problèmes souvent très particuliers c est-à-dire avec le même nombre de classifieurs, même nombre de classes ou même taux de reconnaissance pour tous les classifieurs. Même si les résultats obtenus sont intéressants, ils restent liés à des hypothèses rarement vérifiées en pratique ou se basent sur des mesures calculées de manière ad hoc comme les mesures de corrélation entre les sorties des classifieurs. Le problème actuel n est alors plus de savoir si les méthodes de combinaison pourront améliorer les résultats de l application traitée, mais de chercher dans quels cas leur emploi est nécessaire. Pour résoudre ce problème, il faut analyser le comportement des méthodes de combinaison. Pour savoir comment, il semble intéressant de passer en revue les travaux qui ont tenté d apporter des explications théoriques et expérimentales à ce sujet. Cela constitue l aspect fondamental que nous abordons dans le présent chapitre.

79 2.2. Performances d un classifieur 79 Dans ce chapitre, nous discutons tout d abord du problème de l évaluation des performances d un système de classification. Dans la seconde partie, nous présentons les principaux travaux existants qui ont abordé le problème de l évaluation du comportement des méthodes de combinaison en théorie et en pratique. Nous montrons la difficulté d établir des résultats généraux indépendamment du domaine applicatif visé. Pour contourner ce problème de l évaluation des méthodes de combinaison, la simulation de données artificielles semble justement être la voie la plus prometteuse. Nous discutons donc du problème de la simulation de données et des travaux qui ont utilisé un simulateur de classifieur pour évaluer les méthodes de combinaison dans la troisième partie de ce chapitre. 2.2 Performances d un classifieur L évaluation des performances d un classifieur est une phase importante dans le processus de sa conception et de sa mise en oeuvre dans la mesure où elle permet de savoir si le système est suffisamment performant pour l application visée. Elle permet aussi de le comparer avec d autres systèmes. Elle peut être théorique ou empirique. L évaluation théorique permet de caractériser la performance en se basant sur des hypothèses spécifiées. Cette approche s avère souvent très difficile à réaliser. L évaluation empirique consiste à tester la performance en utilisant des données réelles ou artificielles générées par le système. Une qualité importante d un classifieur est d être capable de généraliser c est-à-dire de pouvoir fonctionner correctement sur des données qu il n a pas apprises. Il est évident que ces données ne doivent pas être les mêmes que celles sur lesquelles l apprentissage a été effectué. Le besoin de généralisation explique bien pourquoi le fait d utiliser la même base est à éviter. Le plus souvent, on utilise la méthode hold-out qui consiste à diviser les données de départ en deux parties, une pour l apprentissage et l autre servant à tester ou évaluer la performance du classifieur. Dans le cas où les données sont limitées, on peut obtenir des bases différentes en utilisant l une des méthodes suivantes: La méthode tout-sauf-un leave-one-out [Lachenbruch68] réalise autant d essais qu il y a de formes disponibles au départ. Si la base contient

80 80Chapitre 2. Évaluation de performances des méthodes de combinaison M formes alors on teste chacune des M formes en ayant effectué l apprentissage sur les (M-1) restantes. La méthode de validation croisée cross-validation [Wolpert92,Twomey95] procède au découpage de la base de départ en M sous-bases d effectif égal. On effectue alors M essais en utilisant à chaque fois (M-1) sousbases pour l apprentissage, et la sous-base restante pour le test. Disposant d une base de test obtenue par l une de ces méthodes, on procéde généralement à l évaluation du comportement d un classifieur à partir de certaines mesures qui peuvent être globales, semi-globales et/ou locales Performances globales La mesure globale classique, la plus utilisée pour évaluer la performance d un classifieur, est le taux de reconnaissance (TL). Un taux de reconnaissance se calcule sur des décisions de type classe: on compte les bonnes décisions et les mauvaises décisions. Un taux de reconnaissance ne peut donc avoir de sens que vis-à-vis d une taxonomie exclusive c est-à-dire lorsqu une forme ne peut appartenir qu à une seule classe (sinon, il faudrait définir un taux de reconnaissance flou). Sous cette hypothèse, il existe donc une vérité (inconnue, qu on va chercher à approcher par un classifieur réel) c est-à-dire une fonction h(x) qui à tout x associe la vraie classe: h(x) C vraie (2.1) Cette vérité ne pourra être fournie que par l utilisateur d où la nécessité de bases étiquetées. Un classifieur réel e(x) est un estimateur de h(x). On a une erreur d estimation quand e(x)-h(x) 0. Evaluer les performances d un classifieur c est évaluer des paramètres permettant de caractériser cette erreur d estimation. Les paramètres les plus utilisés sont sa moyenne C=E{e(x) - h(x)} et sa variance E{(e(x) h(x) C) 2 }. En reconnaissance de formes, les taux de reconnaissance (TL), de confusion (TC) et de rejet (TR) correspondent à des estimateurs classiques de la moyenne C sur une base de test. Ils sont définis par: T L = nombre d entités bien reconnues Nombre total d entités présentées au classifieur (2.2)

81 2.2. Performances d un classifieur 81 T C = nombre d entités mal reconnues Nombre total d entités présentées au classifieur (2.3) T R = nombre d entités rejetées Nombre total d entités présentées au classifieur (2.4) Le taux de confusion est lié au taux de reconnaissance (TL) et au taux de rejet (TR) par la relation (2.5) T R + T L + T C = 100% (2.5) Ces mesures peuvent être utilisées pour calculer d autres mesures permettant d évaluer les performances comme par exemple la fiabilité [Huang95, Lam97a]. Ce critère, qui n est pas souvent utilisé, consiste à mesurer la fiabilité de la réponse du classifieur. Généralement, le taux de fiabilité (TF) correspond au nombre d entités reconnues par rapport au nombre d entités non rejetées (2.6). T L T F = (2.6) 100 T R Ces différents taux peuvent être définis pour différentes positions des solutions dans la liste fournie par le classifieur. On peut alors évaluer le classifieur en mesurant sa capacité à fournir la bonne solution suivant qu elle est proposée en premier choix ou qu elle se trouve dans les k premiers choix. Lorsque la solution est proposée en premier choix, les mesures du type T L 1,T C 1,T R 1 sont utilisées. Lorsque la solution est proposée dans les deux premiers choix, les mesures T L 2,T C 2,T R 2 sont calculées. De façon générale, si la bonne solution est proposée dans les k premiers choix, les mesures globales T L k,t C k,t R k sont à déterminer. T L k est le rapport du nombre d entités pour lesquelles la bonne classe apparaît dans les k premières solutions par rapport au nombre total d entités présentées au système. T C k est le rapport entre le nombre d entités pour lesquelles la bonne classe n apparaît pas dans les k premières solutions et le nombre total d entités présentées. T R k est le taux d entités rejetées Performances semi-globales Une analyse plus précise du comportement du classifieur peut être obtenue par des matrices de performances semi-globales. La matrice de per-

82 82Chapitre 2. Évaluation de performances des méthodes de combinaison formances semi-globales n est qu une représentation quantitative des performances globales de chaque classifieur en reconnaissance et en rejet pour chacune des classes. Elle peut être déterminée par la matrice MAT présentée comme suit : MAT = T L 1 1 T L T L N 1 T R T L 1 i T L 2 i... T L N i T R i (2.7) T L 1 N T L2 N... T LN N T R N T L k i correspond au nombre d entités de la classe C i pour lesquelles la bonne solution est placée dans les k premières propositions rapporté au nombre total d entités de la classe C i (i,k [1, N]). T R i est le nombre d entités de la chaque classe C i rejetées. La matrice MAT contient en fait des taux de reconnaissance cumulés. Par exemple, T L 2 1 n est que le pourcentage d entités dont la bonne solution se trouve dans les deux premières propositions (en première ou en deuxième). En d autres termes, T L 2 1 =T L1 1 + le pourcentage d entités qui se trouvent en 2 ième position. A partir de la matrice de performance semi-globale MAT, il est aisé d obtenir les mesures de performances globales d un classifieur. T L k = 1 N T R k = 1 N N T L k i (2.8) i=1 N T R i (2.9) i= Performances locales Une analyse encore plus fine du comportement du classifieur peut être obtenue par des mesures locales comme les matrices de confusion. Généralement, on peut définir ces matrices pour différentes positions des solutions dans la liste fournie par le classifieur. Lorsqu on s intéresse à la bonne solution proposée en premier choix, la matrice de type MC 1 est utilisée. Lorsqu on

83 2.2. Performances d un classifieur 83 s intéresse à la bonne solution proposée dans les deux premiers choix, la matrice MC 2 est calculée. De façon générale, si la bonne solution est proposée dans les k premiers choix, la matrice MC k est à déterminer. Cette matrice n est qu une représentation quantitative de la performance de chaque classifieur e j en reconnaissance et en erreur pour chacune des classes et chacune des propositions. MC k = T L k 1... T C1j k... T C1N 1 k T R T Ci1 k... T L k i... T CiN 1 k T R i (2.10) T C k N1... T C k Nj... T L k N T R N Chaque matrice MC k est composée de N lignes et N+1 colonnes avec N le nombre de classes. Les éléments de la diagonale sont les taux de reconnaissance T L k i qui correspondent au nombre d entités de la classe C i pour lesquelles la bonne solution apparaît dans les k premières propositions. La moyenne de ces taux donne le taux de reconnaissance global T L k. La dernière colonne N+1 est réservée aux taux de rejet T R i qui correspondent au nombre d entités rejetées pour chaque classe C i. La moyenne de ces taux est TR. Les éléments restants sont les taux de confusion T Cij k qui correspondent au nombre d entités étiquetées C i pour lesquelles la solution C j (j i) apparaît dans les k premières solutions. Si on note n i le nombre total d éléments à reconnaître pour la classe C i, on peut passer d une matrice de pourcentage MC k à une matrice d effectifs MN k en divisant les éléments de chaque ligne i de la matrice MC k par n i. MN k = n k n k 1j... n k 1N n 1N n k i1... n k ij... n k in n in (2.11) n k N1... n k Nj... n k NN n NN+1 Chaque élément n k ij de cette matrice représente le nombre d entités pour lesquelles la classe C j apparaît dans les k premières solutions sachant que la vraie classe est C i, i,j [1,N]. n in+1 correspond au nombre d entités rejetées pour chaque classe C i. Les éléments de chaque ligne de la matrice MN k doivent respecter la formule générale 2.12 puisque la solution rejet prend une

84 84Chapitre 2. Évaluation de performances des méthodes de combinaison seule étiquette. N n k ij + k n k in+1 = k n i (2.12) j=1 Ainsi pour k=1, n i = N+1 j=1 n1 ij. Si on présente 1000 éléments à reconnaître pour chaque classe, on peut avoir par exemple pour la classe 1 de la matrice MN 1 (2.13), 90% de 1 et 10% de rejet en première proposition. MN 1 = (2.13) Dans MN 2 (2.14), on peut avoir pour la classe 0, 100% de 0 et 100% de 2 dans les deux premières propositions. Pour la classe 1, on peut avoir 90% de 0, 90% de 1 et 10% de rejet (puisque le rejet prend une seule étiquette) dans les deux premières propositions. MN 2 = (2.14) Notons que MC k ne peut être formellement appelée matrice de confusion que pour k=1. Pour k entre 2 et N, il serait plus rigoureux de l appeler matrice de co-présence. Au moyen de la matrice MC k, il est aisé d obtenir les mesures des performances semi-globales d un classifieur. T L k i = nk ii kn i (2.15) T R i = nk in+1 kn i (2.16) A partir des performances locales, on peut bien évidemment recalculer les performances globales. T L k = Ni=1 n k ii Ni=1 kn i (2.17) T R k = Ni=1 n k in+1 Ni=1 kn i (2.18)

85 2.2. Performances d un classifieur 85 T C k = Ni=1 Nj=1,j i n k ij Ni=1 kn i (2.19) Calculées à partir des bases de test, les matrices de performances locales peuvent servir dans le cadre de la combinaison de classifieurs. En effet, Xu et al. [Xu et al., 1992] et plus récemment Parker [Parker, 2001], ont proposé d utiliser les informations des matrices de confusion pour déterminer les probabilités a priori (paramètres de pondération) servant à la combinaison. Notons également que le fait de caractériser un classifieur par des mesures de plus en plus fines, permet d avoir une connaissance plus précise sur son comportement. Cependant, le nombre de paramètres à calculer devient plus important. Par exemple, pour analyser globalement le comportement d un classifieur, on peut utiliser 3 paramètres (T L k, T C k et T R k ). Pour une analyse semi-globale, on doit raisonner sur un ensemble de N*(N+1) paramètres. Alors que pour une analyse locale, il faut raisonner sur un ensemble de N 2 (N + 1) paramètres Conclusion Le choix des mesures globales, semi-globales ou locales est un point essentiel pour l évaluation des performances d un classifieur. Généralement, les travaux de recherche utilisent les mesures de performance que nous avons présentées précédemment [Auger, 1993, Rahman and Fairhurst, 2000, Huang et al., 1995]. Cependant, ce choix dépend du but de l évaluation et des résultats que les chercheurs veulent obtenir, notamment des contraintes des applications à traiter. Il peut donc varier d une application à une autre. D après certains chercheurs, un système de reconnaissance est performant, s il présente un bon compromis temps de réponse/ taux d erreur [Ji and Ma, 1997] ou temps de réponse/ taille d apprentissage par classe [Skurichina and Duin, 2000b, Tax et al., 2000, Drucker et al., 1994]. Il existe donc des systèmes où les mesures que nous avons présentées ne semblent pas suffisantes pour les évaluer. Dans [Pereira, 1999] par exemple, l auteur utilise deux mesures spécifiques afin d évaluer un système de lecture automatique de chèques : le gain de productivité (le rapport entre le nombre de chèques que le système de lecture peut traiter sans recourir à une saisie manuelle du chèque sur le nombre total de chèques) et le débit (nombre de chèques traités par heure). Nous proposons maintenant de passer en revue les travaux permettant de

86 86Chapitre 2. Évaluation de performances des méthodes de combinaison savoir comment les chercheurs du domaine ont évalué le comportement des méthodes de combinaison qu ils ont utilisées et en fonction de quels critères. 2.3 Comportement des méthodes de combinaison L évaluation de performances des méthodes de combinaison a eu un intérêt considérable ces dernières années. L analyse bibliographique de ce domaine nous a permis de constater l existence de plusieurs facteurs qui peuvent influer sur le comportement des méthodes de combinaison. Ces facteurs sont liés directement aux classifieurs à utiliser et aux problèmes de classification à traiter. Les principaux facteurs sont: nombre de classes nombre de classifieurs performances des classifieurs (taux de reconnaissance, d erreur, de rejet) nature des caractéristiques, dimension de l espace de caractéristiques niveau de diversité entre les classifieurs taille des bases d apprentissage, de test et d évaluation Analyser le comportement d une méthode de combinaison consiste alors à étudier comment elle réagit en fonction de tels facteurs: par exemple, savoir comment se comporte une méthode de combinaison lorsque les classifieurs ont des performances différentes, ou lorsqu ils ont la même performance. Comment réagit-elle si les classifieurs sont dépendants/indépendants? Est ce qu une méthode se comporte de la même manière lorsque le nombre de classes augmente? Comment se comporte-t-elle lorsque le nombre de classifieurs augmente ou lorsqu on ajoute ou on élimine un classifieur de l ensemble existant? Dans ce qui suit, nous examinons les principales contributions des travaux existants, du point de vue théorique et expérimental, sur l évaluation des méthodes de combinaison parallèle de classifieurs. Nous présentons ces contributions en fonction des facteurs cités précédemment Influence des performances des classifieurs C est surtout en fonction des performances des classifieurs (taux d erreurs et de reconnaissance en particulier) que les chercheurs ont analysé le comportement des méthodes de combinaison.

87 2.3. Comportement des méthodes de combinaison 87 Dans [Kittler et al., 1998] par exemple, il est montré théoriquement que la règle de somme est la plus résistante à la mauvaise estimation des erreurs des classifieurs indépendants. Une comparaison expérimentale entre les différentes règles (somme, produit, maximum, minimum, médiane et vote à la majorité) a été aussi menée sur une base de chiffres manuscrits pour confirmer le résultat théorique obtenu. En effet, avec 4 classifieurs indépendants (utilisant des caractéristiques distinctes), il est constaté la supériorité de la somme sur les autres règles. La médiane et le vote à la majorité donnent des performances proches de la somme. Alors que le produit et le minimum donnent de mauvaises performances (inférieures même aux performances de chacun des classifieurs). En effet, ces deux règles sont sensibles aux erreurs produites par les classifieurs. Il suffit qu au moins l un des classifieurs propose des probabilités faibles (proches de 0) pour que le résultat de la combinaison soit proche de 0 (il s agit du problème de véto). Une comparaison des mêmes règles a été aussi réalisée en fonction du niveau de bruit dans [Alkoot and Kittler, 1999]. En particulier, cette étude a été menée pour deux problèmes à 2 et à 3 classes et des ensembles de 3 et de 8 classifieurs indépendants. Afin d évaluer la sensibilité des règles de combinaison au bruit, deux générateurs de bruit ont été utilisés: uniforme et gaussien. Les bruits générés respectent une moyenne nulle et une variance (noté b pour la distribution uniforme et σ pour la distribution gaussienne) variant entre 0.1 et 1. Il est montré que la performance des règles considérées dépend du niveau de bruit. Dans le cas de bruit uniforme et pour b 0.1 ce sont le produit et le minimum qui donnent les meilleures performances alors que dans le cas contraire c est la somme qui devient plus performante. L augmentation du nombre de classifieurs n a pas d effet sur ces performances. Pour la combinaison de classifieurs affectés par un bruit gaussien, les règles sont similaires si σ 0.4. Au dela de cette valeur, le produit, le minimum et le maximum donnent de mauvais résultats (inférieure à la moyenne des erreurs des classifieurs). A la présence d un classifieur qui contrarie tous les autres dans l ensemble, toutes les performances des règles se dégradent. La somme et la médiane sont généralement stables mais ce sont les autres règles qui sont plus sensibles à l introduction de la mauvaise performance. Le vote à la majorité est similaire à la somme avec 3 classifieurs. Sa performance est comprise entre celle de la somme et du produit quand le nombre de classifieurs augmente. En résumé, la somme et la médiane sont les deux meilleures règles (dont les performances sont supérieures à celles des classifieurs). Cependant, l utilisation d un seul classifieur est préférable à une combinaison type produit, minimum et maximum quand σ 0.5 (cas du bruit gaussien).

88 88Chapitre 2. Évaluation de performances des méthodes de combinaison Kuncheva [Kuncheva, 2000b] a comparé aussi les règles fixes (la moyenne, le minimum, le maximum, la médiane et le vote à la majorité). Dans le cadre théorique, l auteur a calculé l erreur de chacune de ces règles sous les hypothèses suivantes: (1) tous les L classifieurs sont indépendents (chacun a une performance p 0.5); (2) dans un problème à 2 classes, chaque classifieur produit une seule solution pour chaque forme x à reconnaître; (3) deux distributions sont considérées: distribution normale et distribution uniforme. Les principales conclusions de l étude expérimentale (menée dans les mêmes conditions que l étude de [Alkoot and Kittler, 1999]) montrent que : (1) la moyenne, la médiane et le vote ont des performances similaires avec la distibution normale des erreurs mais pour la distribution uniforme, elles sont différentes surtout lorsque le nombre de classifieurs augmente (la moyenne est plus performante dans ce cas); (2) contrairement aux études existantes, le maximum et le minimum ont donné les meilleures performances par rapport à toutes les autres méthodes dans le cas de distribution uniforme. L auteur mentionne que le calcul de l erreur théorique dans le cas de distribution normale est très difficile à obtenir. Si dans les travaux que nous venons de citer [Kittler et al., 1998, Alkoot and Kittler, 1999], il est montré que la somme est le meilleur choix par rapport au vote à la majorité, dans [Duin00] il est montré que le vote à la majorité se comporte mieux que la règle de somme. Afin de lever ce conflit, le comportement de ces deux règles a été récemment étudié pour des problèmes à 2 classes dans [Kittler and Alkoot, 2003]. La contribution principale de cette étude consiste à montrer que la performance des règles de somme et du vote à la majorité dépend de la distribution des erreurs des classifieurs. L étude théorique montre que lorsque la distribution des erreurs est gaussienne (normale), c est la somme qui est toujours meilleure que le vote. Alors que le vote peut se comporter mieux que la somme si les erreurs sont distribuées de manière plus significative dans certaines régions que d autres (distribution de type heavy tail ). Cependant, ces conclusions sont obtenues sous deux hypothèses: indépendance des classifieurs et distribution identique des erreurs. En pratique, aucune de ces hypothèses ne peut être vérifiée. Le fait de ne pas avoir des classifieurs indépendants fait que les résultats obtenus sur des données réelles ne coincident pas tout à fait avec la contribution théorique. Fumera et Roli [Fumera and Roli, 2002] ont étudié l influence de la différence des taux d erreurs sur la moyenne simple. Cette étude a été conduite en parallèle avec la moyenne pondérée afin de savoir laquelle des deux méthodes

89 2.3. Comportement des méthodes de combinaison 89 est la plus performante. Elle se base sur deux hypothèses: 1. pour chaque classifieur, l erreur estimée pour différentes classes est la même, 2. les erreurs des classifieurs pour une même classe sont corrélées. Le principal résultat de cette analyse théorique est que la moyenne pondérée est préférable à la moyenne simple seulement pour des ensembles de classifieurs exhibant des performances très différentes c est-à-dire que la différence entre la performance du meilleur classifieur et tous les autres classifieurs doit être élevée (cas où p 1 = p 2 =... = p L 1 < p L, le classifieur L étant le meilleur). Cette étude est en accord avec l analyse expérimentale qui a montré qu avec des classifieurs ayant des performances différentes, la moyenne pondérée est plus intéressante que la moyenne simple. Cette idée a été aussi validée pour les systèmes d identification de personnes (reconnaissance de la parole et du visage) [Roli and Fumera, 2002]. Avec ces systèmes, les classifieurs produisent toujours des performances différentes. C est dans ce cadre que la comparaison des règles de combinaison a été réalisée. En particulier, le vote à la majorité, la moyenne simple, le maximum, le minimum et la médiane ont été utilisées comme règles fixes, la moyenne pondérée et BKS comme règles paramétriques. Les résultats ont montré que les règles fixes donnent de bonnes performances seulement avec des classifieurs ayant des erreurs très proches. A propos des méthodes paramétriques, la moyenne pondérée est supérieure à la méthode BKS. Les performances de ces deux méthodes sont meilleures que celles produites par les règles fixes lorsque les classifieurs combinés produisent des performances différentes. Cependant, elles utilisent des poids optimaux trouvés par une recherche exhaustive sur la base de test. Étant difficile d estimer ces poids, les chercheurs suggèrent l utilisation de la médiane ou le vote à la majorité à la place des méthodes paramétriques pour la combinaison de classifieurs de performances différentes. Une autre étude théorique a été menée par Fumera et Roli [Fumera and Roli, 2004] qui analysent la relation entre taux de rejet et taux d erreur de la moyenne simple sous la condition que les erreurs des classifieurs sont non corrélées. En effet, cette étude n est qu une extension des travaux de Tumer et Ghosh [Tumer and Ghosh, 1996a, Tumer and Ghosh, 1999] qui ont étudié le comportement de la moyenne simple sans l option de rejet et qui ont prouvé que moins les classifieurs sont corrélés, plus la performance de la moyenne est élevée. Fumera et Roli ont montré que ce résultat est vrai même lorsque l option du rejet est utilisée (par la moyenne simple). Ils montrent aussi que le meilleur compromis erreur-rejet est obtenu seulement avec les classifieurs qui ne rejettent pas mais qui ont les mêmes performances. Cela permet de dire

90 90Chapitre 2. Évaluation de performances des méthodes de combinaison que même si l option du rejet est utilisée, le comportement de la moyenne ne dépend que des performances des classifieurs (produisant des erreurs non corrélées). Une comparaison avec la moyenne pondérée sur des bases réelles différentes a confirmé ce constat. Lin et al. [Lin et al., 2003] ont étudié sur des données simulées le comportement du vote à la pluralité en fonction des performances des classifieurs. En combinant des classifieurs ayant le même taux de reconnaissance (p > 1 N où N est le nombre de classes), les résultats ont montré que la performance du vote à la pluralité s approche de 1 avec un grand nombre de classifieurs. Quand p> 1, le taux de reconnaissanc du vote à la pluralité croit proportionellement au nombre de classes. En effet, avec plus de classes, les erreurs N des classifieurs sont différentes et la chance d avoir une réponse erronée avec le maximum de votes diminue. Dans le cas où les classifieurs ont des performances différentes, le comportement du vote à la pluralité reste difficile à analyser. Cependant, dans le cas extrême, s il existe dans l ensemble un classifieur plus performant que les autres alors la décision finale est dominée par ce classifieur et l addition d autres classifieurs n améliore pas la performance de la combinaison. Dans [Van-Erp and Schomaker, 2000], l influence de l estimation des erreurs des rangs sur le comportement des méthodes de type rang a été menée. En particulier, le borda count, la médiane et la procédure de Nanson ont été utilisés. Contrairement aux deux premières méthodes, celle de Nanson est itérative. Dans chaque itération, le rang le plus faible de la combinaison par borda est éliminé des sorties des classifieurs. L idée de base de l étude est de générer des rangs R 0 considérés comme des rangs corrects, simuler les classifieurs en introduisant des erreurs dans R 0, et comparer la combinaison des R i avec la version initiale des rangs R 0. Chaque classifieur a une erreur indépendante P i des rangs R i tel que R i = P i (R 0 ). Deux méthodes ont été utilisées pour introduire les erreurs. La première consiste à introduire des erreurs sur les rangs. A chaque étape, on permute deux classes choisies aléatoirement. La distance entre ces deux classes est pré-définie. Le nombre d étapes ne doit pas dépasser le nombre de permutations possibles. La deuxième méthode consiste à injecter du bruit dans les confiances des classes. Il s agit d additionner une valeur aléatoire aux différentes confiances des classes qui seront réordonnées par la suite. Les résultats ont montré que la procédure de Nanson est moins sensible (par rapport aux deux autres méthodes) aux erreurs introduites au niveau des rangs. En plus, elle exploite mieux l information des différentes propositions surtout lorsque le nombre de classifieurs augmente. Cependant, en injectant des erreurs au niveau des

91 2.3. Comportement des méthodes de combinaison 91 confiances, les résultats ont montré la supériorité du borda count sur les autres méthodes. Notons ici que cette étude se base sur l hypothèse que tous les classifieurs proposent des sorties contenant toutes les classes possibles. Le problème de l évaluation des méthodes de type rang avec des classifieurs proposant des listes de solutions non égales reste ouvert. En passant en revue ces études sur l évaluation du comportement des méthodes de combinaison, on constate qu il est très difficile de pouvoir les comparer et donc de conclure sur la supériorité d une méthode de combinaison sur une autre. Ceci est du en effet à l utilisation de conditions différentes (classifieurs différents, hypothèses différentes, nombre de classes, nombre de classifieurs, type de sorties de classifieurs,...). Même si certains chercheurs ont essayé de travailler dans le même cadre que d autres, tel est le cas de l étude de [Kuncheva, 2000a] par rapport à [Alkoot and Kittler, 1999], on constate qu il y a une certaine différence dans les résultats. Bien que ces deux travaux ont montré que dans le cadre de la distribution normale des erreurs des classifieurs, la somme, le vote et la médiane se comportent de la même manière et que dans le cadre de la distribution uniforme, la somme est meilleure, ils aboutissent à des résultats différents concernant les règles de minimum et de maximum. En effet, dans [Kuncheva, 2000a] il est prouvé que le maximum et le minimum peuvent donner de meilleures performances quelque soit le niveau du bruit (distibution uniforme). Alors que dans [Alkoot and Kittler, 1999], il est constaté qu à partir d un certain niveau de bruit, ces deux règles ne fonctionnent pas de la même manière. Bien que les problèmes à résoudre soient différents, certains auteurs ont abouti aux mêmes constats. Par exemple, l étude des règles fixes dans [Alkoot and Kittler, 1 et dans [Kittler et al., 1998] a montré que la somme est plus résistante aux erreurs des classifieurs que les autres règles considérées et que les règles du produit et du minimum sont les plus sensibles aux erreurs des classifeurs Indépendance/dépendance des classifieurs Dans la combinaison de classifieurs, plusieurs termes comme orthogonalité, complémentarité, non-corrélation, et indépendance ont été souvent utilisés pour décrire la qualité désirée de la relation entre les classifieurs à combiner. Ces termes indiquent la tendance des classifieurs à produire des décisions différentes. Cependant, ils manquent de précision et de définition. L indépendance est plus compréhensible puisqu elle est fréquemment utilisée dans la théorie des probabilités. On trouve souvent dans la littérature

92 92Chapitre 2. Évaluation de performances des méthodes de combinaison l idée intuitive suivante: pour combiner des classifieurs, il faut choisir des classifieurs indépendants [Lamy, 1995]. Cette idée, bien que très répandue, reste très vague et n exprime pas clairement ce qu on entend par indépendance dans le cadre de la combinaison. Tout d abord, il faut distinguer les notions de corrélation et de dépendance. Ces deux notions ne sont pas identiques. Quand deux variables X et Y sont décorrélées, on peut dire qu elles n ont pas de dépendance linéaire, mais on ne peut pas dire qu elles sont indépendantes puisqu elles peuvent avoir des dépendances non linéaires. Mathématiquement, deux variables sont indépendantes si et seulement si: X et Y sont non corrélées si et seulement si p(x,y ) = p(x)p(y ) (2.20) E(X,Y ) = E(X)E(Y ) (2.21) où E(.) indique l espérance mathématique. L indépendance de deux variables implique leur non corrélation mais la réciproque n est pas vraie. En réalité c est la difficulté à estimer les probabilités nécessaires à la combinaison qui force les chercheurs à se baser sur l hypothèse d indépendance. Généralement, c est la probabilité représentée par p(e 1 (x),..., e L (x) / x) (dans la formule de Bayes) qui est difficile à estimer. Pour pouvoir la calculer, les chercheurs supposent que les classifieurs sont indépendants. Ceci est appliqué surtout dans les travaux théoriques afin d analyser le comportement des méthodes de combinaison. Tandis qu en pratique, l indépendance entre les classifieurs est supposée satisfaite en utilisant par exemple des caractéristiques ou des bases d apprentissage différentes [Kittler et al., 1998]. Cependant, dans les applications réelles, il est très difficile d obtenir des classifieurs indépendants à 100% [Sharkey and Sharkey, 1997b, Giacinto, 1998]. Expliquer comment se comporte une méthode de combinaison en fonction de la corrélation des classifieurs, est l objectif de certains travaux théoriques [Tumer and Ghosh, 1996a, Kittler et al., 1998, Kuncheva, 2000b]. Dans ce cadre, on peut citer l analyse développée par Tumer et Ghosh [Tumer and Ghosh, 1996c, Tumer and Ghosh, 1996a, Tumer and Ghosh, 1999] qui se focalise en particulier sur l étude de la distribution des probabilités a posteriori produites par les classifieurs sur la combinaison linéaire. Sous différentes hypothèses (classifieurs neuronaux indépendants, non biaisés et ayant des distributions d erreurs identiques), l erreur de la combinaison basée sur la moyenne est

93 2.3. Comportement des méthodes de combinaison 93 dérivée comme suit: 1 + δ(l 1) E moy = E classif (2.22) L E classif est l erreur des classifieurs individuels (erreur identique pour tous les classifieurs). δ est le coefficient de corrélation entre les erreurs des classifieurs. Notons que δ = 0 signifie que les erreurs des classifieurs sont non corrélées. La combinaison dans ce cas donne une erreur réduite par un facteur de L. En pratique, δ tend vers 1 plutôt que vers 0 en partie à cause de la dépendence des données d apprentissage [Tumer and Ghosh, 1996b]. Tumer et Ghosh ont montré aussi que les opérateurs d ordre statistiques sont plus flexibles que la moyenne simple [Tumer and Ghosh, 1999]. Alexandre [Alexandre et al., 2000] présente une extension de ce travail et montre que parmi les méthodes linéaires, la moyenne est la règle optimale. Dans [Fumera and Roli, 2002], il est constaté que les règles minimum et maximum n améliorent pas la performance des classifieurs quel que soit leur niveau de corrélation. C est le vote à la majorité qui est plus intéressant que les toutes les autres règles fixes (moyenne, maximum, minimum et médiane) surtout lorsque les classifieurs sont moins corrélés. La sensibilité des règles de vote à la corrélation entre les classifieurs a été confirmée aussi dans [Lecce et al., 2000]. Le principal résultat de ce travail est que les méthodes avec apprentissage (Dempster-Shafer et BKS) sont moins sensibles que le vote à la pluralité et donc plus utiles pour la combinaison des classifieurs corrélés. Cependant, ces méthodes nécessitent plus de place mémoire surtout pour le BKS. Plus important, cette méthode impose une base d apprentissage de grande taille. Récemment, Saranli et al. [Saranli and Demirekler, 2001] ont montré théoriquement que l indépendance des classifieurs n est pas une hypothèse nécessaire pour obtenir une complémentarité entre ces classifieurs dans le cadre de la combinaison de type rang. L information mutuelle est utilisée pour quantifier la complémentarité qui peut exister entre les classifieurs. L indépendance des classifieurs n implique pas une amélioration de performance de leur combinaison. Le concept de la dominance d un classifieur dans l ensemble est plus important que celui de l indépendance permettant de décrire les conditions d amélioration de performance de la combinaison. En effet, pour que la combinaison améliore la performance de chacun des classifieurs, il ne faut pas avoir un classifieur dominant dans l ensemble à combiner. Dans [Czyz et al., 2004], une étude de l effet de la corrélation des classi-

94 94Chapitre 2. Évaluation de performances des méthodes de combinaison fieurs sur la performance des méthodes de combinaison fixes et paramétriques a été menée dans le cadre des problèmes à 2 classes. Avec une distribution gaussienne des probabilités a posteriori des classifieurs, il est constaté que le produit, la somme et le maximum (équivalente au minimum dans le cas des problèmes à 2 classes) sont relativement robustes à la corrélation même si l un des classifieurs a une performance plus faible que les autres. Les méthodes fixes ont été également comparées à des méthodes paramétriques (moyenne pondérée, parzen et classifieur quadratique). La principale conclusion est l équivalence en terme de performances des deux types de méthodes (paramétriques et fixes). Cependant, les méthodes paramétriques sont plus sensibles à la présence d un classifieur faible dans l ensemble Influence du nombre de classifieurs Un problème intéressant qui se pose dans la combinaison de classifieurs est la dimension de l ensemble à combiner: combien de classifieurs faut-il fusionner pour obtenir une meilleure performance? Ce problème a été posé essentiellement pour les méthodes de génération de classifieurs, en particulier bagging, boosting et random subspace 1, pour lesquelles le nombre de classifieurs est fixé a priori. Pour étudier bagging et boosting, Freund par exemple a utilisé 100 classifieurs [Freund96] alors que Breiman en a utilisé la moitié [Breiman96b]. Bauer a combiné 25 classifieurs [Bauer99] mais Quinlan s est contenté d utiliser 10 classifieurs seulement [Quinlan96]. Tous ces choix sont arbitraires et non justifiés. Toujours dans le cadre de l étude des méthodes de génération de classifieurs différents, Gunter et al. [Gunter and Bunke, 2004] ont constaté sur une base de mots manuscrits qu avec plus de 20 classifieurs la performance de bagging ne s améliore pas, que 14 classifieurs sont suffisants pour boosting, alors que la méthode random subspace nécessite un nombre plus grand de classifieurs. L objectif principal de l étude de Van-Erp et al. [Van-Erp et al., 2002] est de comparer les méthodes de combinaison afin de sélectionner celle qui donne le meilleur résultat avec bagging par rapport au vote à la majorité. 17 classifieurs de type MLP ayant des performances faibles ont été générés avec deux structures différentes. Les résultats ont montré qu avec peu de classifieurs, la somme et le produit sont parmi les meilleures méthodes. Cependant, avec un grand nombre de classifieurs, le borda count fonctionne mieux. Le vote à la majorité donne de faibles performances par rapport aux autres méthodes due au fait qu il rejette plus de données. 1. nous présentons ces méthodes dans le dernier chapitre

95 2.3. Comportement des méthodes de combinaison 95 En parallèle des analyses expérimentales, certaines études théoriques ont été réalisées. L idée de développer un tel cadre est attractive. Cependant, la spécification de la plupart des méthodes de combinaison fait qu il est difficile d aboutir à une analyse théorique de leur comportement comme pour les méthodes de type rang. Les méthodes les plus simples comme le vote à la majorité ont permis d obtenir des résultats significatifs. Ceci est du à la clarté des hypothèses et à la facilité d appliquer une analyse mathématique. Srihari [Srihari, 1982], par exemple, présente une analyse théorique de la performance du vote à la majorité (taux de reconnaissance p maj ) pour un problème à deux classes dans le cas des classifieurs indépendants et redondants (identiques). Le taux de reconnaissance de chaque classifieur, p, est supposé le même pour tous les classifieurs. Lorsque les classifieurs sont indépendants, la règle du vote à la majorité peut être écrite sous la forme binomiale: p maj = L j= L 2 +1 ( L j ) p j (1 p) L j (2.23) Pour un nombre L impair de classifieurs indépendants et L 3, les conclusions suivantes ont été obtenues: p > 0.5 p maj 1 lorsque L (2.24) p < 0.5 p maj 0 lorsque L (2.25) p = 0.5 p maj = 0.5 pour tout L (2.26) La constatation (2.24) a été confirmée aussi dans [Hansen and Salamon, 1990] avec des classifieurs de type neuronal. Dans ce travail Hansen et al. ont montré que si des réseaux de neurones indépendants sont combinés par vote à la majorité et que chacun produit un taux de reconnaissance supérieur à 50% alors l addition de nouveaux réseaux améliore la performance de l ensemble. Lam et al. [Lam and Suen, 1997] ont examiné aussi le mode de fonctionnement du vote à la majorité quand les classifieurs sont indépendants. Ils ont montré que la combinaison de classifieurs, indépendants et ayant le même taux de reconnaissance supérieur à 0.5, garantit une meilleure performance par rapport à chacun des classifieurs. Ils ont montré aussi que la combinaison

96 96Chapitre 2. Évaluation de performances des méthodes de combinaison d un nombre pair de classifieurs produit un taux de reconnaissance inférieur à celui produit par la combinaison d un nombre impair de classifieurs Influence d autres facteurs A part les performances intrinsèques des classifieurs et la corrélation entre les classifieurs, d autres facteurs tels que le nombre de classes, la structure des classifieurs, et la taille de la base d apprentissage peuvent aussi influer sur le comportement des méthodes de combinaison. Cependant, peu de travaux ont pris en compte ces trois derniers facteurs pour l évaluation de la combinaison Influence du nombre de classes Dans ce cadre, la moyenne et le produit ont été comparées expérimentalement par Tax et al [Tax97, Tax00]. Les résultats ont montré que dans un problème à 2 classes et avec des classifieurs estimant correctement les probabilités a posteriori, les deux règles sont similaires. Dans un problème à plusieurs classes et avec des classifieurs produisant de faibles erreurs, le produit est meilleur. Dans le cas d un bruit important, la moyenne arithmétique se révèle plus robuste. Dans [Lin et al., 2003], une comparaison entre le vote à la pluralité et le vote à la majorité a été menée. Cette comparaison a révélé que pour un problème à plusieurs classes, la performance du vote à la pluralité est croissante lorsque le nombre de classifieurs augmente. Dans le cas d un problème à 2 classes et avec un nombre impair de classifieurs, le comportement du vote à la pluralité est similaire à celui du vote à la majorité Influence de la structure des classifieurs Dans [Tax et al., 2000], une comparaison entre la moyenne et le produit a été réalisée en utilisant des classifieurs de différentes structures. Avec des classifieurs gaussiens, le produit a donné des résultats meilleurs que la moyenne. L élimination du meilleur classifieur de l ensemble n a pas influencé le comportement du produit. Ceci est du au fait que tous les classifieurs avaient des performances très proches. La même expérience a été réalisée avec des classifieurs d autres types (discrimant de Fisher et réseaux de neurones) dont la particularité était qu ils présentent de mauvaises performances. Avec les réseaux de neurones, le produit échoue car la majorité des classifieurs ont

97 2.3. Comportement des méthodes de combinaison 97 de mauvaises performances. La principale conclusion de ce travail est que seulement dans le cas de classifieurs estimant des probabilités a posteriori élevées, le produit est à utiliser plutôt que la moyenne. Dans [Alexandre et al., 2001], une comparaison entre la somme et le produit est aussi présentée. Il est montré que dans le cas d un problème à deux classes et avec deux classifieurs de type k-ppv, les deux règles sont équivalentes c est-à-dire qu elles produisent le même taux d erreur. Il s agit du seul cas où les deux règles sont similaires puisque la somme des probabilités a posteriori, produites par les classifieurs, pour chacune des classes est égale à 1. Cette hypothèse n est vérifiée que pour les classifieurs de type k-ppv. Quand plus de deux classifieurs sont combinés, le produit fonctionne mieux que la somme avec ce type de classifieurs. Par contre, avec des classifieurs de type neuronal et sur les mêmes bases de données, la somme s est révélée plus intéressante pour la combinaison Influence de la taille des bases d apprentissage La taille de la base de données est un critère qui est utilisé pour évaluer essentiellement les méthodes paramétriques. Dans [Roli et al., 2002b] par exemple, les chercheurs ont évalué les performances des méthodes de type classe (BKS et règle de bayes) en fonction de la taille de la base de validation qui a servi à estimer les paramètres nécessaires à la combinaison. Cette étude, menée sur deux problèmes réels à 2 et 5 classes, a montré que les performances des régles paramétriques augmentent pour une base de validation suffisamment importante. Lorsque celle-ci est de petite taille, il vaut mieux utiliser les règles simples non paramétriques comme le vote à la majorité Conclusion Les travaux théoriques et pratiques que nous venons de présenter montrent qu il y a eu certains progrès, pendant ces dix dernières années, dans la compréhension du comportement des méthodes de combinaison parallèle. Le tableau 2.1 résume les résultats théoriques obtenus sur les méthodes avec et sans apprentissage.

98 98Chapitre 2. Évaluation de performances des méthodes de combinaison Facteurs Réferences Remarques Performance [Kittler et al., 1998] La somme est la plus résistante (par rapport aux autres règles fixes) aux erreurs des classifieurs indépendants Le produit et le minimum sont les plus sensibles aux erreurs des classifieurs [Kuncheva, 2002] Pour un problème à 2 classes et avec une distribution normale des erreurs de classifieurs, la moyenne, la médiane et le vote à la majorité sont similaires [Kittler and Alkoot, 2003] Pour un problème à 2 classes avec des classifieurs indépendants et ayant une distribution gaussienne de leurs erreurs, la somme est toujours meilleure que le vote à la majorité [Fumera and Roli, 2002] La meilleure performance de la moyenne simple est obtenue avec des classifieurs ayant le même taux d erreurs alors que la moyenne pondérée se comporte mieux quand les classifieurs ont des performances différentes [Fumera and Roli, 2004] Avec des classifieurs produisant des erreurs non corrélées, la performance de la moyenne simple ne dépend que des performances des classifieurs même si l option du rejet est utilisée [Srihari, 1982] Avec des classifieurs ayant le même taux de reconnaissance (p>0.5), les méthodes de vote garantissent toujours une amélioration de performance Indépendance [Fumera and Roli, 2002] Les règles fixes sont sensibles à la corrélation des classifieurs alors que les méthodes paramétriques y sont moins sensibles Nombre de classifieurs [Lam and Suen, 1997] Pour le vote à la majorité, il est préférable d utiliser un nombre impair de classifieurs Tab. 2.1 Résultats théoriques des méthodes de combinaison parallèle de classifieurs

99 2.4. Simulation de données 99 Toutefois, on peut exprimer quelques reproches aux travaux existants. Bien que les travaux théoriques soient validés sur des problèmes synthétiques, ils se basent sur des hypothèses rarement vérifiées (hypothèse d indépendance par exemple); d autre part, les travaux expérimentaux sont validés sur des bases de données réelles. Généralement, dans de tels travaux, les chercheurs évaluent les méthodes de combinaison dans des conditions différentes (nombre de classifieurs différents, problèmes de classification différents, performances des classifieurs différentes, etc.). La comparaison entre les résultats obtenus est bien évidemment difficile à réaliser. D autre part, ces résultats restent étroitement dépendants des applications traitées. En d autres termes, pour un problème de classification donné et un ensemble de classifieurs ayant des performances différentes sur une base de données spécifique, nous pouvons trouver pratiquement une méthode de combinaison qui permet de donner le meilleur résultat. Si on change de problème (par exemple, en modifiant la base de données ou en changeant les classifieurs à combiner), nous ne pouvons pas garantir que la méthode choisie reste la meilleure. Par conséquent, les résultats obtenus restent difficiles à généraliser en dehors d un domaine applicatif donné. Or, pour mener à bien l étude des méthodes de combinaison, il est nécessaire de disposer d une grande variété de classifieurs ayant des performances différentes. Comment se comporte une méthode dans un problème donné? Il est évident que les travaux existants, théoriques et expérimentaux, n ont pas permis de répondre de manière claire à ces questions importantes. Même pour les règles les plus utilisées comme le vote à la majorité et la somme, les travaux ne convergent pas toujours vers les mêmes conclusions. Pour pouvoir évaluer les méthodes de combinaison de manière efficace, on a intérêt à utiliser des données artificielles. L avantage de la simulation est de pouvoir étudier le comportement des méthodes de combinaison et de mieux comprendre leur mécanisme sans être lié ni à des données réelles, ni à des hypothèses difficiles à justifier. 2.4 Simulation de données Le principe fondamental de la simulation est de pouvoir construire un modèle piloté par un ensemble de paramètres et qui fournit des résultats qui s approchent du comportement d un système réel. En effet, l approche par simulation permet de bénéficier de la plupart des avantages habituels de la modélisation: elle permet de faire varier facilement les paramètres du système et d évaluer l impact de ces changements, évaluer les systèmes pour lesquels on ne dispose pas de solution analytique et pour lesquels la simulation constitue donc la seule approche disponible. Selon Auger [Auger, 1993],

100 100Chapitre 2. Évaluation de performances des méthodes de combinaison la simulation permet à la fois de faire naître l intuition de ce qui marche et de ce qui ne marche pas et également de valider dans une certaine mesure ces intuitions que la théorie ne permet pas encore de prendre en compte. Récemment, le recours à la simulation est devenu un moyen pratique pour générer artificiellement de la variabilité dans les données permettant ainsi d évaluer le comportement des méthodes de combinaison parallèle pour lesquelles une évaluation sur des données réelles est insuffisante. C est pourquoi, le nombre de travaux utilisant cette technique a augmenté ces dernières années [Parker, 2001, Kuncheva and Kountchev, 2002, Lecce et al., 2000]. Dans le cadre de la combinaison de classifieurs, on peut généralement simuler des données à trois niveaux : à l entrée du classifieur, au niveau de l espace de caractéristiques ou au niveau des sorties du classifieur. Niveau des entrées : il s agit d introduire des modifications sur les données à reconnaître afin de produire une variabilité dans l espace de caractéristiques utilisé par le classifieur [Maclin and Opitz, 1997]. On peut introduire, par exemple, du bruit sur les signaux, des transformations (rotation, ajout ou élimination de pixels) sur les images ou même combiner deux images pour obtenir une nouvelle. Cependant, cette technique reste spécifique au type de données utilisées ce qui ne permet pas toujours d avoir une grande variabilité dans les performances. Niveau des caractéristiques : ceci consiste à générer de nouveaux vecteurs de caractéristiques à partir d un ensemble de vecteurs en injectant par exemple du bruit (selon une moyenne et une variance donnée) sur chacune des caractéristiques [Parker, 2000, Skurichina and Duin, 2000b]. Niveau des sorties : ceci consiste à utiliser un simulateur permettant de générer des données artificielles selon les performances désirées telles que le taux moyen de reconnaissance ou une matrice de confusion (réelle ou simulée) [Parker, 2000, Kuncheva and Kountchev, 2002]. Parmi ces méthodes de génération de données, la simulation de classifieurs (c est-à-dire la génération artificielle de sorties) est la mieux adaptée pour l étude de la combinaison en fonction des performances dans la mesure où elle permet de contrôler directement les entrées des méthodes de combinaison. C est cette méthode que nous avons retenu pour simuler un classifieur. Elle sera détaillée dans les chapitres suivants.

101 2.4. Simulation de données Simulation de sorties de classifieurs Une revue de la littérature sur cette approche a montré que peu de chercheurs ont abordé cette problématique: les seuls travaux à notre connaissance qui ont montré l importance de la simulation de classifieurs dans le cadre de la combinaison sont [Lin et al., 2003, Parker, 2000, Kuncheva and Kountchev, 2002] [Lecce et al., 2000]. Nous allons donc les décrire de façon détaillée dans les paragraphes qui suivent. Nous verrons que les simulateurs développés ne générent pas des sorties proches de celles produites par un classifieur réel pour les raisons que nous évoquons par la suite Travaux de Lin et al. [Lin et al., 2003] Peu d études théoriques ont été consacrées à l évaluation des performances du vote à la pluralité. Nous pouvons mentionner toutefois l étude menée par Lin et al. [Lin et al., 2003] où les auteurs détaillent les différents cas d utilisation du vote à la pluralité. Le vote à la pluralité peut être utilisé dans sa version classique (choisir la classe qui reçoit le maximum de votes et dans le cas de conflit, choisir aléatoirement une classe), si les conditions suivantes sont respectées: (1) les classifieurs sont indépendants (2) les erreurs sont distribuées de manière égale sur les N-1 classes (3) tous les classifieurs ont le même taux de reconnaissance (4) les formes à reconnaître sont à choisir parmi les classes (les classifieurs ne rejettent pas) Dans le cas où les performances p des classifieurs sont inférieures à 1 alors la N pluralité inverse (choisir la classe avec le moins de votes) doit être appliquéee. Ceci s explique par le fait que la forme à reconnaître est probablement parmi les classes n ayant pas le plus de votes (puisque les classifieurs ont des performances très faibles). Dans le cas où les hypothèses (3) et (4) ne sont pas satisfaites, l analyse théorique des performances du vote à la pluralité est, selon les auteurs, trop complexe à mener. Pour ces raisons, l analyse a été conduite par la simulation de classifieurs indépendants afin de savoir comment la performance du vote à la pluralité peut être affectée par la variation du nombre de classes, du nombre de classifieurs et de leurs taux de reconnaissance. Les auteurs considèrent qu avec un grand nombre de sorties, les résultats de la simulation peuvent être très proches de ceux obtenus par les formules théoriques. C est pourquoi ils proposent un simulateur permettant de générer des sorties (type classe) en fonction d un seul paramètre qui est le taux de reconnais-

102 102Chapitre 2. Évaluation de performances des méthodes de combinaison sance p. Pour chaque forme x en entrée (provenant de la classe C i ), une valeur R est générée aléatoirement. Pour R < p, la forme x est attibuée à la classe correcte C i. Dans l autre cas, x est attribuée à une autre classe C m avec m [1,..i 1,i + 1,...,N]. Pour des problèmes à 2, 3 et 50 classes et avec des classifieurs ayant le même taux de reconnaissance, la simulation a permis de constater que: (1) lorsque p > 1 alors la performance du vote à la pluralité s approche de N 1 surtout avec un nombre important de classifieurs (2) pour un problème à plusieurs classes (N >2), le taux de reconnaissance du vote à la pluralité est croissant avec le nombre de classifieurs La simulation a permis aussi de montrer l avantage du vote à la pluralité par rapport au vote à la majorité (moins d erreur et de rejet) Travaux de Parker [Parker, 2000, Parker, 2001] Parker [Parker, 2000] suggère aussi que l utilisation de données réelles n est pas suffisante pour évaluer de manière robuste les méthodes de combinaison. Il propose un simulateur de classifieur basé sur des matrices de confusion construites selon un taux de reconnaissance et une variance fixés. Ce simulateur reçoit une matrice de confusion MC en entrée et génére des sorties (type classe) en fonction de cette matrice. Pour reconnaître une forme x, la génération consiste à : (1) déterminer un histogramme H des fréquences cumulatives pour chaque classe C i avec H[0]=MC[x][0] et H[i]=H[i-1]+ MC[x][i], i = 1,..., N (2) tirer aléatoirement un nombre Z entre 0 et 1 L étiquette de x est le premier indice i [1,..., N] qui satisfait la condition H[i] Z. Les matrices de confusion sont construites de manière différente. Les éléments de la diagonale de chacune de ces matrices (les taux de reconnaissance par classe) peuvent être égaux au taux de reconnaissance fixé ou tirés aléatoirement selon une moyenne et une variance. Les taux de confusion (y compris le taux de rejet) de chaque ligne peuvent être aussi identiques ou tirés aléatoirement (la somme totale de chaque ligne doit être égale à 100%). L auteur considère qu il est important de générer des classifieurs corrélés qui ont un certain niveau d accord (dans les erreurs et les bonnes classifications). Pour générer deux classifieurs e 1 et e 2 ayant un accord de 95%, Parker utilise la procédure suivante: générer le premier classifieur e 1 selon la performance désirée Pour 95% de sorties de e 1, tirer aléatoirement un nombre x entre 0 et

103 2.4. Simulation de données si x < 0.95 alors sauvegarder la sortie du e 1 dans la sortie de e 2 sinon générer une autre sortie différente de celle de e 1 Cette méthode de simulation a été utilisée dans [Parker, 2001] afin de montrer l importance de la simulation dans l étude de la combinaison de classifieurs différents. Un ensemble de règles fixes de différents types a été considéré (vote à la majorité, borda count, wborda, somme, produit, médiane,...). Pour évaluer la performance de ces méthodes (en terme de taux d erreur), deux expériences ont été réalisées. Dans la première expérience, l auteur a utilisé 5 classifieurs différents, dont chacun est appris sur 5 bases réelles (digit, Iris, segment, vehicule, waveform). Il a observé que les performances des classifieurs varient d une base à une autre. Par exemple, avec la base digit, les erreurs des classifieurs sont très proches. Alors qu avec la base segment, les erreurs sont très éloignées. En observant ce comportement, l auteur a généré 1000 ensembles de 5 classifieurs identiques (même taux de reconnaissance), ayant des taux proches de 10% et des taux différents (écart de 20%). Les résultats de la combinaison sur les données réelles ont montré l efficacité de la règle de somme (en donnant de meilleure performance par rapport aux classifieurs) sur les bases utilisées alors que les résultats obtenus sur des données simulées n ont pas permis de mettre en évidence la supériorité d une méthode sur les autres. Cependant, il a montré l avantage des règles de type rang sur le vote à la majorité. Afin d examiner l influence de la corrélation des classifieurs sur la performance des méthodes utilisées, Parker a généré des ensembles de 5 classifieurs dont 3 sont corrélés à 95%. Les résultats ont montré l efficacité de certaines régles comme la somme et wborda (moins sensibles à la corrélation) en produisant moins d erreurs Travaux de Lecce et al. [Lecce et al., 2000] Lecce et al. [Lecce et al., 2000] présentent une méthode de construction des ensembles de classifieurs afin d étudier l influence de la corrélation sur le vote à la pluralité, BKS et Dempster-Shafer. Chaque ensemble de classifieurs se caractérise par un taux de reconnaissance moyen et un niveau de corrélation. Pour chaque groupe A de L classifieurs, un indice de similarité ρ A est défini présentant la moyenne de la corrélation entre les paires de classifieurs du groupe. ρ A = Li,j=1(i<j) ρ ei,e j ( ) (2.27) L 2

104 104Chapitre 2. Évaluation de performances des méthodes de combinaison ρ ei,e j est l indice de similarité entre deux classifieurs. Il s agit du nombre de sorties pour lesquelles les deux classifieurs sont d accord c est-à-dire proposent la même réponse. De plus, pour chaque groupe de L classifieurs ayant chacun un taux de reconnaissance p i, les valeurs possibles de l indice de similarité ρ A varient dans [ρ min, 1]. ρ min = k p + k 2 ( ) (2.28) L 2 où: L k = p i i=1 L L p = p i p i i=1 i=1 (2.29) (2.30) Pour chaque valeur de ρ variant de ρ min à 1 par pas de 0.01, des ensembles de classifieurs (ayant des nombres d experts et des taux de reconnaissance différents) ont été générés. La première phase de cette procédure consiste à générer une liste initiale de sorties d un ensemble de L classifieurs. En se basant sur cet ensemble initial, de nouveux groupes de classifieurs sont générés en modifiant leurs listes de sorties. Le principe est de générer de nouveaux groupes de classifieurs ayant des valeurs de corrélation différentes mais avec la même performance (tous les classifieurs ont le même taux de reconnaissance). Par conséquent, la modification concerne seulement les étiquettes des classes incorrectes. La procédure de modification continue jusqu à ce que la valeur de corrélation moyenne de chaque groupe soit atteinte. Les trois méthodes de combinaison ont été comparées (en terme de taux de reconnaissance et de fiabilité) en simulant 1000 groupes différents de L classifieurs pour l apprentissage et 1000 autres pour le test, L=3, 4, 5. Le taux de reconnaissance est fixé à 90% (sans rejet). La similarité des groupes simulés varie entre 0.8 et 1. Les résultats ont montré qu avec des classifieurs faiblement corrélés, le vote à la pluralité donne de meilleures performances par rapport aux deux autres méthodes. Lorsque la corrélation augmente, la méthode D-S devient plus efficace, alors que la méthode de BKS produit de meilleurs résultats avec des classifeurs très corrélés. Ces résultats montrent que la méthode de combinaison paramétrique est moins sensible à la corrélation des classifieurs que les règles fixes. L expérience réalisée sur des données réelles utilisant 5 classifieurs différents a confirmé ce constat.

105 2.4. Simulation de données Travaux de Kuncheva et al. [Kuncheva and Kountchev, 2002, Kuncheva and Whitaker, 2003] Dans [Kuncheva and Kountchev, 2002], une méthode de génération séquentielle de sorties (type binaire) de classifieurs dépendants a été proposée. En se basant sur la matrice de dépendance entre les classifieurs à simuler et leur taux de reconnaissance, le générateur produit le nombre de sorties désirées pour chaque classifieur. Le principe de la méthode est de calculer des performances intermédiaires de chaque paire de classifieurs, à partir de la matrice de dépendance et des taux de reconnaissance à respecter, et de générer ensuite les sorties de classifieurs selon ces performances. Considérons deux classifieurs e i et e j produisant chacun S sorties selon les taux de reconnaissance respectifs p i et p j. La mesure utilisée pour déterminer la dépendance entre les paires des classifieurs est le Q statistique (nous présentons cette mesure dans le chapitre 4). Pour générer les sorties de deux classifieurs e i et e j, l auteur se base sur des taux de reconnaissance intermédiaires P 1 et P 2 calculés en fonction des valeurs de diversité Q i,j et des performances désirées p i et p j. P 1 est la probabilité du changement d un élément 1 des sorties du classifieur e i en 0 dans les sorties du classifieur e j. P 2 est la probabilité du changement d un élément 0 des sorties du classifieur e i en 1 dans les sorties du classifieur e j. avec P 1 = 1 P 2 p j p i + P 2 p i P 2 = (1 Q i,j+2q i,j (p i p j ))± Discr 4Q i,j (1 p i ) (2.31) Discr = (1 Q i,j + 2Q i,j (p i p j )) 2 8Q i,j (1 p i )p j (Q i,j 1) (2.32) La procédure de génération d un ensemble de L classifieurs consiste à calculer tout d abord les valeurs de P 1 et P 2 pour chaque paire de classifieurs. Ensuite, pour chaque sortie, une permutation des classifieurs est réalisée. Ceci permet de fixer la liste d ordre selon lequel les classifieurs seront générés. C est seulement la sortie du premier classifieur de la liste qui est générée en fonction du taux de reconnaissance désiré. La génération des sorties des classifieurs suivants est réalisée en fonction des probabilités P 1 et P 2. Les résultats de simulation ont montré qu il n est pas toujours possible de générer des sorties respectant exactement les valeurs désirées. Une procédure de sélection a été utilisée pour remédier à ce problème. Elle consiste à n accepter, parmi les ensembles générés, que ceux dont Q et la moyenne des taux de reconnaissance sont suffisamment proches des valeurs désirées.

106 106Chapitre 2. Évaluation de performances des méthodes de combinaison Cette méthode de simulation a été utilisée dans [Kuncheva and Whitaker, 2003] pour étudier la relation entre 10 mesures de diversité et la performance de la combinaison de l ensemble de classifieurs. L objectif de cette étude est de savoir si une mesure de diversité permet de prédire l erreur de l ensemble. Pour cela, 4 expériences différentes ont été réalisées. Dans la première expérience, 15 ensembles de 3, 5 et 9 classifieurs ayant la même performance (0.6 et 0.7) ont été générés pour chaque valeur de Q variant de -1 à 1. La dépendance entre les paires de chaque ensemble est identique. L intérêt de cette génération est de pouvoir obtenir des valeurs différentes des mesures de diversité. Les résultats ont montré que toutes les mesures ont approximativement une forte et même relation avec l amélioration de la performance du vote à la majorité. D autres constations ont été relevées: (1) l utilisation des ensembles de classifieurs ayant une corrélation négative conduit à une meilleure performance du vote à la majorité que l utilisation de classifieurs indépendants (2) la combinaison de classifieurs identiques (Q=1) ne permet pas d avoir une amélioration de performance (par rapport au meilleur classifieur de l ensemble) mais elle n est pas le plus mauvais cas de la combinaison par le vote à la majorité. Ce constat est en accord avec l étude théorique présentée dans [Kuncheva et al., 2003]. Dans la deuxième expérience, toutes les configurations possibles des sorties pour 3 classifieurs ayant une même performance fixée à 0.6 et produisant 30 sorties chacun ont été générées. Pour chaque configuration (ensemble), les performances du vote à la majorité p maj et les valeurs des mesures de diversité sont déterminées. Les résultats ont montré la faible corrélation entre les mesures de diversité et (p maj p). Cependant, il est constaté que pour chaque mesure de diversité, il existe une valeur seuil à partir de laquelle le vote à la majorité peut garantir une amélioration de performance. La corrélation entre les mesures de diversité est aussi élévée. Dans la troisième expérience, une base de donnée réelle est utilisée afin d examiner la corrélation entre les mesures de diversité et la performance des ensembles de classifieurs dans le cas réel et la comparer aux résultats obtenus par simulation. Pour générer des ensembles de classifieurs différents, l espace de caractéristiques en entrée des classifieurs à combiner est divisé en répartitions. Pour chaque répartition, 3 classifieurs de même nature (linéaire et quadratique) sont utilisés. Contrairement à l étude simulée qui a montré l existence d une corrélation importante entre les mesures de diversité et l amélioration de performance par rapport au meilleur classifieur, l utilisation de données réelles n a pas permis de confirmer ce constat. D après les

107 2.4. Simulation de données 107 auteurs, la différence entre simulation et pratique est due d une part à l utilisation de 3 classifieurs seulement puisque le nombre de classifieurs peut être un facteur de prédiction des valeurs de mesures de diversité. D autre part, l amélioration de performance du vote, par rapport au meilleur classifieur, est faible et il est possible que les mesures de diversité ne soient pas aussi sensibles aux améliorations faibles. Dans la quatrième expérience, deux autres bases de données ont été utilisées pour construire des ensembles de 9 classifieurs par bagging et random subspace (nous présentons ces méthodes dans le chapitre 4). Là encore, il est constaté qu il n existe pas une relation claire entre les mesures de diversité et la moyenne des performances des classifieurs (p). De plus, l idée que d avoir des classifieurs moins performants permet d obtenir des ensembles plus divers n est pas confirmée par cette expérience. Ceci n est pas en accord avec l observation faite dans [Dietterich, 2000] où l auteur indique l existence d un certain compromis entre diversité et performance de la combinaison de 2 classifieurs. Bien que ces expériences ont prouvé l importance de la diversité dans l amélioration des performances de l ensemble, ils n ont pas permis toutefois de répondre au problème du choix d une telle mesure pour prédire l erreur de l ensemble. Inspiré par le travail de Kuncheva et al. [Kuncheva and Kountchev, 2002], nous avons proposé une méthode de génération de sorties de classifieurs corrélés de type classe [Zouari et al., 2004b, Zouari et al., 2004d]. L idée de base de cette méthode est de générer des ensembles de classifieurs selon des performances fixées et des accords pré-définis. Pour déterminer la dépendance entre les classifieurs à simuler, la mesure de diversité kappa a été utilisée. La procédure de génération des sorties de deux classifieurs e i et e j se base sur le calcul des probabilités de la matrice de diversité MD i,j représentant le poucentage d accord et de désaccord entre les deux classifieurs e i et e j (voir tableau 2.2). e j correcte (c) e j incorrect (w) e i correcte (c) P cc P cw e i incorrecte (w) P wc P ww P cc + P cw + P wc + P ww =1 Tab. 2.2 Matrice de diversité MD i,j de deux classifieurs e i et e j P ab est la probabilité représentant le nombre de sorties pour lesquelles le

108 108Chapitre 2. Évaluation de performances des méthodes de combinaison classifieur e i propose a et le classifieur e j propose b. Les probabilités de la matrice de diversité MD i,j sont calculées à partir des valeurs κ i,j désirées et les performances p i et p j fixées en entrée de la procédure. L accord, dans le cas de deux classifieurs e i et e j ayant les performances p i et p j peut être calculé en utilisant l équation suivante: κ i,j = 1 P cw + P wc 2p(1 p) (2.33) p est la moyenne des performances des deux classifieurs. En utilisant la matrice du tableau 2.2, les probabilités P ab peuvent être exprimées en fonction de p i, p j, p et κ i,j : P cw = (p i p j )+(1 κ i,j )2p(1 p) 2 P wc = P cw (p i p j ) P ww = [(1 p i)+(1 p j )] (P cw+p wc) 2 P cc = 1 (P cw + P wc + P ww ) (2.34) Pour générer un ensemble de L classifieurs, les valeurs de P ab pour chaque paire de classifieurs sont tout d abord calculées. Les sorties du premier classifieur sont ensuite produites selon le taux de reconnaissance désiré. La génération des sorties des classifieurs suivants est réalisée en fonction des probabilités P ab. Cette méthode de simulation a été utilisée pour analyser le comportement des méthodes de combinaison de type classe, en particulier le vote à la pluralité en le comparant au vote à la majorité [Zouari et al., 2004a, Zouari et al., 2004b, Zouari et al., 2004d]. Il est montré que quelque soit le niveau de dépendance de classifieurs, le vote à la pluralité est plus efficace que le vote à la majorité permettant de réaliser un bon compromis entre le taux de reconnaissance et le taux de rejet Discussion Les simulateurs de classifieur que nous venons de présenter permettent de simuler une variété de problèmes en terme de nombre de classes et de taux moyen de reconnaissance. Bien qu ils peuvent servir à évaluer les méthodes de type classe puisqu ils fournissent une étiquette unique à chaque sortie, ils sont néanmoins limités. L une des limites majeures est qu ils ne permettent pas de générer des listes de solutions. Par conséquent, ils ne peuvent pas servir à évaluer les méthodes de combinaison de type rang ou type mesure.

109 2.4. Simulation de données 109 Les simulateurs développés ont tous en commen comme seul indicateur de performance le taux moyen de reconnaissance en première proposition. Cependant, il n est pas possible de générer une quelconque variabilité dans ce taux par classe. La distribution de ces taux est la même pour toutes les classes. Or, un classifieur réel peut produire des sorties dont les classes sont distribuées différemment. Cette distribution peut varier d un problème de reconnaissance à un autre. Un classifieur réel peut également avoir la capacité de rejeter en cas de conflit entre les classes et peut donner un taux de rejet différent pour chacune des classes. Généralement, les travaux que nous avons évoqués ne traitent pas le problème de rejet. Bien que le simulateur proposé par Parker permette de générer des sorties rejet pour chacune des classes (en se basant sur la matrice de confusion), il est néanmoins limité. La génération des taux de rejet dans la matrice de confusion se fait de manière implicite (suit celle des taux de confusion). Pour simuler un comportement proche de la réalité, le rejet doit être traité indépendemment des taux de confusion. L utilisation du simulateur proposé par Parker ne permet pas de contôler ni le rejet, ni sa variabilité par classe. Disposer d un simulateur permettant de générer un comportement proche de la réalité (en produisant une liste de solutions, en étant capable de rejeter, en produisant une variabilité dans les taux de reconnaissance et de rejet par classe), est indispensable pour étudier les méthodes de combinaison. Les simulateurs de classifieurs développés sont très loins de générer des comportements proches de la réalité et sont en ce sens limités pour aborder le problème. Ceci nous a amené à développer un nouveau simulateur qui dépasse ces limites. Nous le présentons dans le chapitre suivant et nous verrons qu il est capable, à partir d un jeu réduit de paramètres, de générer une grande variabilité de comportements qu on contôle parfaitement. Les simulateurs que nous avons évoqués plus haut (mis à part celui de Lin et al [Lin et al., 2003]) ont aussi généré des sorties corrélées afin d étudier le rôle de la diversité entre les classifieurs dans l amélioration des performances des méthodes de combinaison. Là encore, la simulation présente un intérêt majeur dans l évaluation du comportement des méthodes de combinaison en fonction de la diversité. Les travaux [Lecce et al., 2000, Kuncheva and Kountchev, 2002] en sont un exemple puisqu ils permettent par la simulation de construire des ensembles de classifieurs en contrôlant à la fois la diversité dans l ensemble et les performances des classifieurs à combiner. Nous proposons une nouvelle méthode de simulation de sorties corrélées dans le chapitre 4. L avantage

110 110Chapitre 2. Évaluation de performances des méthodes de combinaison notable de notre simulateur est qu il permet de générer des sorties de type mesure et non pas des sorties de type classe. 2.5 Conclusion Dans ce chapitre, nous avons discuté du problème de l évaluation des performances des méthodes de combinaison parallèle de classifieurs. Nous avons proposé une catégorisation des mesures de performances (globales, semiglobales et locales) permettant de caractériser le comportement d un classifieur. Nous avons présenté une analyse critique des travaux qui ont abordé ce problème, en théorie et en pratique. Nous avons pu mettre en évidence qu il est encore difficile de comparer les résultats obtenus puisque l évaluation du comportement des méthodes est réalisée dans des conditions différentes. Nous avons ensuite discuté du problème de la simulation de données et la nécessité de générer des données artificielles. L examen des travaux qui ont abordé ce problème montre en premier lieu que la simulation de classifieurs au niveau des sorties a reçu récemment de la part des chercheurs du domaine une attention plus particulière que la simulation au niveau des entrées de classifieurs. Ceci s explique par le fait que la génération des données au niveau des sorties de classifieurs permet de contrôler directement les entrées des méthodes de combinaison. Nous avons montré que les quelques générateurs proposés dans la littérature ont été développés dans des cadres très particuliers: génération de sorties de type classe, contrôle des performances au moyen d un seul paramètre (taux de reconnaissance), éventuellement contrôle de la diversité entre les classifieurs. Ces générateurs ne peuvent donc pas être utilisés pour simuler des problèmes réels de classification dans lesquels les classifieurs proposent, le plus souvent, des listes de solutions. Le générateur que nous proposons dans le chapitre suivant a donc pour objectif de dépasser ces limitations en simulant un classifieur dont le comportement est proche de la réalité.

111 Chapitre 3. Simulation d un classifieur 111 Chapitre 3 Simulation d un classifieur Ce chapitre traite le problème de la simulation des sorties d un classifieur. A ce propos, nous présentons une nouvelle méthode de simulation permettant de générer des sorties artificielles d un classifieur pour un problème de classification donné. Nous décrivons d abord les différentes étapes et les algorithmes sur lesquels repose cette méthode de simulation. Nous évaluons ensuite les performances du simulateur à partir de quelques exemples. Nous montrons enfin comment étudier le comportement des méthodes de combinaison en exploitant le simulateur développé.

112 112 Chapitre 3. Simulation d un classifieur 3.1 Introduction Pour mener à bien l étude des méthodes de combinaison, il est nécessaire de disposer d une grande variété de classifieurs ayant des performances différentes. Dans le cas réel, la performance d un classifieur dépend toujours de la base utilisée. Par conséquent, avoir beaucoup de résultats différents pour un même problème donné reste très difficile à réaliser. D autre part, l analyse des méthodes de combinaison n a d intérêt que si elle est réalisée en dehors d un contexte applicatif donné. En effet, les résultats obtenus sur des applications pratiques restent dépendants des données considérées ce qui rend difficile la généralisation des résultats. C est pourquoi l utilisation de données artificielles générées par un simulateur de classifieur est devenue récemment un moyen essentiel pour analyser expérimentalement le comportement des méthodes de combinaison parallèle de classifieurs. A travers cette analyse, il est possible de répondre à plusieurs questions telles que : les résultats de telle ou telle méthode restent-ils les mêmes si le nombre de classes augmente? Et si les performances des classifieurs à combiner sont différentes? Comment se comporte alors une telle méthode si on change le type des classifieurs? Nous avons vu dans le chapitre 2 que différentes caractérisations des performances d un classifieur peuvent être envisagées (section à 2.2.3). Nous avons défini: ses performances globales: T L 1, T L 2,..., T L N et T R pour chaque position de la bonne solution dans la liste de solutions, le taux de confusion T C K étant envisagé de façon globale, et étant simplement obtenu comme satisfaction de la contrainte T L K +T C K +T R=100%; ses performances semi-globales qui précisent le comportement du classifieur en détaillant les taux précédents pour chacune des classes et pour chacune des positions de la bonne solution dans la liste de solutions; ses performances locales qui, pour chaque profondeur, précisent le détail des confusions entre les différentes classes par définition d une matrice de confusion complète. C est à partir de cette catégorisation que nous allons construire notre simulateur. Celui-ci aura donc plusieurs comportements envisageables correspondant aux différentes façons possibles de définir ses performances. Remarquons que, bien que notre approche soit nettement plus générale

113 3.2. Le simulateur 113 que toutes celles proposées jusqu alors dans la littérature, elle comporte elle aussi ses limites: nous n envisagerons pas, par exemple, l étude de comportement temporel (temps de réponse) des classifieurs construits. La méthode de simulation que nous proposons dans ce chapitre consiste à générer des listes de solutions à partir des matrices des performances semiglobales ou locales. Ces matrices nous sont soit données, soit générées de façon à respecter les performances globales ou semi-globales que nous voulons imposer. De plus, chaque solution a une confiance associée (sorties de type mesure). Notons que nous avons choisi de générer ce type de sorties parce qu il peut être facilement transformé en type rang (en ne tenant compte que de l ordre des étiquettes), en type ensemble (pas d ordre sur les étiquettes) ou en type classe (en ne retenant que la première solution de chaque liste). La première partie de ce chapitre est consacrée à la présentation de la stratégie de simulation que nous avons mise en place et qui permet de générer artificiellement des sorties (listes de solutions) de classifieur en fonction des performances désirées (taux de reconnaissance, taux de rejet,...) pour un problème de classification quelconque. Nous présentons trois modes de simulation correspondant à trois caractérisations de performances différentes: performances semi-globales pour des listes de profondeur 1 à K performances locales pour une seule profondeur K performances locales à deux profondeurs différentes K et K Nous justifions également dans cette partie le choix de paramètres complémentaires nécesssaires au fonctionnement de la simulation. La seconde partie est consacrée, quant à elle, à la validation expérimentale du classifieur simulé que nous proposons. Nous montrons dans la troisième et dernière partie comment le simulateur peut être utilisé pour étudier le comportement de méthodes de combinaison. 3.2 Le simulateur Objectifs La principale caractéristique de notre stratégie de simulation est de générer des comportements proches de la réalité. Mais qu est ce qu on entend par générer un comportement proche de la réalité? Il suffit pour cela de revenir à ce que produit un classifieur réel lorsqu il est amené à se prononcer sur une base de test donnée. Dans le cas le plus général, un classifieur réel peut fournir des sorties de type mesure comme le montre la figure 3.1. L analyse

114 114 Chapitre 3. Simulation d un classifieur des résultats fournis par un classifieur se fait en associant à chaque sortie l étiquette de la vraie classe (la classe de la forme d entrée à reconnaître) fournie par l utilisateur. Chaque sortie peut comporter une, deux ou N solutions. Chaque solution est associée à un score qui peut être une probabilité, une distance ou une confiance. Le classifieur peut également avoir des capacités de rejet. Fig. 3.1 Exemples de sorties proposées par un classifieur réel Disposant de telles sorties, l évaluation du comportement du classifieur réel consiste à calculer l une des 3 mesures de performances (paramètres) que nous avons définies: globable, semi-globale ou locale. Si l on veut pouvoir simuler des comportements proches de la réalité, il faut donc prendre en compte ces indicateurs de performances comme paramètres d entrée de la simulation afin de produire artificiellement le type de sorties de la figure 3.1. Si on veut simuler un comportement et donc générer aléatoirement des sorties, on doit respecter des contraintes (paramètres imposés). Plus on s impose de paramètres à respecter (c est-à-dire que l on s impose un comportement de plus en plus fin), alors les contraintes deviennent de plus en plus fortes, voire difficiles à respecter. Ceci montre bien la difficulté à générer aléatoirement des sorties à partir des mesures de performance. La simulation n est pas une opération triviale. Pour simuler, il faut donc faire des choix, c est-à-dire trouver un compromis entre d une part l aléatoire (la génération) pour avoir la diversité dans les sorties des classifieurs générés et d autre part le respect des contraintes pour avoir les performances souhaitées. Comme illustré sur la figure 3.2, l analyse des performances d un classifieur exploite les sorties pour en déduire des indicateurs de performance. Dans

115 3.2. Le simulateur 115 la simulation, nous réalisons l opération inverse: on fixe tout d abord des matrices de performances semi-globales ou locales, décrivant le comportement désiré du classifieur, et on génére ensuite la liste des sorties à partir de ces matrices. Celles-ci nous seront données ou nous les générerons en respectant des performances globales ou semi-globales que nous voulons imposer. Fig. 3.2 Principe de la méthode de simulation Selon le comportement qu on veut simuler, trois cas d utilisation du simulateur sont possibles. En effet, le simulateur que nous avons développé peut générer : 1. N comportements: de la même façon qu à partir des sorties d un classifieur réel, nous pouvons déterminer son comportement pour différentes tailles de la liste de solutions (en première proposition, dans les deux premières et dans les N premières), notre simulateur permet de fournir des sorties respectant un comportement dans tout point des listes de solutions en utilisant des paramètres de performances semi-globales.

116 116 Chapitre 3. Simulation d un classifieur Cette simulation nous permet ainsi de contrôler toutes les informations des listes de sorties. 2. un seul comportement: le simulateur peut produire des sorties respectant un comportement dans les K premières solutions (K est compris entre 1 et N). Ce comportement est contrôlé à partir des performances locales présentées sous forme d une matrice de co-présence. Bien que cette simulation nous permette de contrôler plus d informations (confusion), elle nécessite néanmoins plus de contraintes à respecter dans la génération de sorties. 3. deux comportements: le simulateur permet également de contrôler un certain niveau de corrélation à l intérieur même de la liste de solutions en offrant la possibilité de respecter à la fois un comportement dans les K premières solutions et un comportement dans les K premières solutions (K < K). Ceci nous permet ainsi de générer des listes de solutions à l intérieur desquelles nous contrôlons la corrélation entre les solutions. Notons immédiatement l intérêt qu il peut y avoir à générer des sorties à partir de matrices de co-présence imposées par l utilisateur. Ceci peut permettre par exemple, à partir de matrices obtenues par un classifieur réel, d augmenter la taille de la base de données. Ceci peut s avérer particulièrement utile lorsque l on utilise des méthodes de combinaison avec apprentissage. En effet, dans ce cas, il faut pouvoir disposer de données supplémentaires pour apprendre les paramètres nécessaires à la combinaison. L intérêt est alors de pouvoir générer un volume beaucoup plus important de données (qui servira à l apprentissage ou au test de la méthode de combinaison) et dont les caractéristiques statistiques, en termes de performances, seront les mêmes que sur la base de test réelle qui a servi à établir la matrice de confusion. Pour terminer ce paragraphe introductif, précisons deux paramètres indispensables si l on veut pouvoir utiliser le simulateur (dans les différents cas cités précédemment) pour l évaluation du comportement des méthodes de combinaison de classifieurs: on doit pouvoir fixer en entrée du simulateur le nombre de classes pour un problème de classification quelconque ainsi que le nombre de sorties à générer pour chacune des classes. Si on appelle N le nombre de classes possibles, ce paramètre va nous

117 3.2. Le simulateur 117 permettre de simuler n importe quel problème de reconnaissance. Il change d une application à une autre et dépend surtout des données disponibles (voir tableau 3.1). On peut par exemple simuler un problème à 2 classes, un problème à 10 classes ou un problème à 300 classes. Références Applications N [Kittler et al., 1998] identification de personnes 2 [Xu et al., 1992] reconnaissance de chiffres 10 [Kim et al., 2000] reconnaissance de mots 21 [Xiao et al., 2000, Hao et al., 1997] caractère Coréens 3755 Tab. 3.1 Variabilité du nombre de classes en fonction de l application On appellera S le nombre total de sorties à générer par le classifieur. S = N i=1 S i où S i est le nombre de sorties à générer pour chacune des classes C i. Par souci de simplicité, on choisira généralement dans nos exemples d utilisation du simulateur un nombre fixe d éléments par classe mais rien n empêche de générer un nombre d éléments différent par classe Simulation de N comportements Une façon de simuler un classifieur réel est de générer des sorties en contrôlant les performances dans toutes les positions de la bonne solution dans la liste de solutions. Dans les sections suivantes, nous détaillons le principe de la simulation de N comportements en présentant les paramètres, les contraintes à respecter et les algorithmes nécessaires à leur réalisation Principe Dans le cas réel, les mesures de performance semi-globales peuvent être calculées à partir des résultats fournis par le classifieur. Pour générer des sorties respectant N comportements, on procède dans l autre sens: on se donne une matrice de performances semi-globales (appelée la matrice MAT) qui sera le paramètre d entrée de la simulation. On génére ensuite les sorties du classifieur (étiquettes de la bonne solutions et liste de solutions associées avec confiances) en respectant les contraintes imposées par la matrice MAT (voir figure 3.3). L opération consiste donc à générer des listes de solutions dont on a contrôlé la présence (via la matrice MAT) de la bonne solution dans

118 118 Chapitre 3. Simulation d un classifieur chacune des listes de solutions. Deux cas d utilisation du simulateur peuvent être possibles: on se donne explicitement la matrice MAT (on se fixe les taux de reconnaissance T L K i pour chaque K et chaque classe, et les taux de rejet T R i, i de 1 à N. on ne se donne comme paramètre que les performances globales (T L 1, T L 2,..., T L N ) et on construit la matrice MAT à partir d un algorithme présenté en Fig. 3.3 Principe de simulation de liste de comportements Génération de sorties à partir de MAT Cette procédure consiste à générer tout d abord les listes de solutions (les étiquettes de classes et le rejet) en respectant la matrice de performance semi-globale MAT (3.1) et à affecter ensuite des valeurs de confiance à chaque solution.

119 3.2. Le simulateur 119 T L 1 1 T L T L N 1 T R MAT = T L 1 i T L 2 i... T L N i T R i T L 1 N T L2 N... T LN N T R N Génération de listes de solutions (3.1) Disposant d une matrice MAT, la question importante qui se pose est comment générer les sorties? Pour générer les listes de solutions respectant les taux de reconnaissance et de rejet de la matrice MAT, nous plaçons pour chacune des classes les solutions en première position, puis en deuxième position,..., jusqu à la N ième position. Pour cela, on doit connaître le nombre d étiquettes à distribuer dans les listes de sorties pour chacune des classes et chacune des positions. Or, la matrice MAT contient des taux de reconnaissance cumulés: T L 2 i est le nombre d éléments dont la bonne solution se trouve dans les deux premières propositions (en première ou en deuxième). D une manière générale, T L K+1 i = T L K i + nombre d éléments qui se trouvent enk ième position (3.2) Pour cela, la première étape à réaliser consiste à déterminer à partir de la matrice MAT, une autre matrice MATV contenant la variation du nombre d étiquettes entre le rang K et le rang K+1 pour chaque classe. Le remplissage de cette matrice est présenté par l algorithme 1. Lorsque la matrice MATV est déterminée, l étape suivante consiste à générer les listes corrélées de solutions. Chaque sortie peut être composée d une solution rejet ou d une liste de N solutions. Ici, on traite tout d abord les solutions rejet ensuite les listes de solutions des classes. Les sorties sont donc remplies de manière verticale puis de manière horizontale. Pour chacune des classes C i, on tire une sortie aléatoirement (sans remise) parmi les S i et on lui affecte la solution rejet. Ceci est répété tant qu il reste des solutions rejet à distribuer. Toujours pour la même classe et pour chaque proposition K (K=1 à N), on choisit une sortie aléatoirement et on place l étiquette représentant la bonne solution. On distribue ensuite les étiquettes des autres classes (c est à dire de confusion). De cette façon, on détermine les sorties dont la bonne solution figure en première proposition, ensuite en deuxième proposition, jusqu à la proposition N. Cette procédure est représentée par l algorithme 2.

120 120 Chapitre 3. Simulation d un classifieur Algorithme 1 Remplissage de la matrice MATV Entrées : N: nombre de classes M AT : matrice des performances semi-globales Sorties : MAT V : matrice des nombre des étiquettes pour chaque classe et proposition Début Pour i de 1 à N faire Début Fin Fin pour MATV[i][1]= MAT[i][1] MATV[i][N+1]= MAT[i][N+1] /* copier le rejet aussi */ Pour k de 2 à N faire Début MATV[i][k]= MAT[i][k]- MAT[i][k-1] Fin pour Génération de confiances Cette procédure consiste à associer à chaque étiquette générée la confiance correspondante. Les confiances de chaque sortie s sont normalisées (leur somme est égale à 100%) et ordonnées de manière décroissante. En d autres termes, chaque confiance m s ik (i=1..., N et k=1,..., N) doit être supérieure à la confiance placée à la proposition suivante de la liste de solutions c est à dire: m s ik > ms i(k+1) (3.3) La confiance de la première solution de chaque liste doit être supérieure à 100. Cette contrainte n est appliquée que pour les sorties qui sont composées N par deux solutions au moins. Pour les sorties contenant une seule solution (étiquette de classe ou rejet), la confiance est fixée à 100%. La procédure de génération des confiances d une liste de solutions est présentée par l algorithme 3. La figure 3.4 montre un exemple des sorties générées (10 sorties par classe) pour un problème à 2 classes avec T L 1 = 50%, TR=20%, α 1 = 30% et β = 0% (T L 2 est à 80%). La première colonne de cette figure présente les vraies classes. Les colonnes suivantes forment les solutions du classifieur. Nous pouvons constater que la moyenne des taux de reconnaissance en première proposition est égale à 50%. Le taux de rejet pour chacune des classes est à 20%. On peut constater également que les confiances générées sont décroissantes

121 3.2. Le simulateur 121 Algorithme 2 Génération de listes de solutions corrélées Entrées : N: nombre de classes S i : nombre de sorties à générer pour chaque classe C i MAT V : matrice des nombres d étiquettes à générer Sorties : S l i : liste des solutions à générer (i de 1 à N et l de 1 à S i) Début Pour i de 1 à N faire Début Initialiser Liste par S i numéros des sorties /* traitement du rejet */ Tant que MAT V [i][n + 1] > 0 faire Début Tirer sans remise un numéro s dans Liste Placer la solution rejet dans S s i Fin Tant que /* traitement des listes de solutions de classes */ Pour chaque proposition K de 1 à N faire Début Tant que MAT V [i][k] >0 faire Début Tirer sans remise un numéro s dans Liste Placer C i dans la k ième proposition de S s i Placer les étiquettes des classes restantes dans S s i Fin Fin pour Fin Tant que Fin pour

122 122 Chapitre 3. Simulation d un classifieur Algorithme 3 Choix des confiances d une liste de solutions d une sortie s Entrées: N: nombre de classes Sorties: m s ij : la jième confiance (j=1..n) de la liste de solutions de la sortie s Début Tirer aléatoirement la première confiance m s i1 Initialiser W à m s i1 Pour k de 2 à N faire Début entre 100 N Tirer aléatoirement une confiance m s ik entre ms i(k 1) Incrémenter W de m s ik et 100% et 100 W N k+1 Fin et que la somme des solutions de chaque sortie (ligne) est égale à 100% (y compris la solution rejet) Construction de la matrice MAT Nous avons vu dans le chapitre 2 qu on peut recalculer un vecteur des performances globales, contenant les taux de reconnaissance de bonne classification (TL) et le taux de rejet (TR) dans les différentes propositions, à partir d une matrice des performances semi-globales MAT. Simuler la matrice MAT, nécessite donc de prendre en compte les deux taux TL et TR (dans les différentes propositions) comme paramètres d entrée du module de construction de MAT afin de produire des paramètres respectant le comportement désiré (décrit par le vecteur). Paramètres utilisés En plus du nombre de classes et le nombre de sorties par classe, quatre paramètres supplémentaires doivent être fournis au simulateur dans ce cas: deux paramètres fixant des performances intrinsèques et deux paramètres fixant des variations relatives. Nous allons les définir ci-dessous. Les paramètres fixant les performances intrinsèques sont les paramètres qui permettent de décrire les performances semi-globales (performance moyenne) tels que le taux de rejet global et les taux de reconnaissance globaux.

123 3.2. Le simulateur 123 Fig. 3.4 Exemples de sorties respectant 2 comportements TR: correspond au taux de rejet qui représente le rapport entre le nombre de sorties rejetées et le nombre total de sorties. Notons ici que nous avons choisi de n associer en sortie qu une seule étiquette (rejet) lorsque le classifieur rejette si bien que T R = T R 1 = T R 2 =... = T R N. T : correspond au vecteur des taux moyen de reconnaissance dans toutes les propositions, T=[T L 1,T L 2,..., T L N 1 ]. T L k est le rapport entre le nombre de sorties dans lesquelles la bonne classe apparaît dans les k premières solutions et le nombre total de sorties. En passant d une colonne à une autre de la matrice MAT, le nombre d éléments correspondant à la bonne solution augmente ce qui veut dire que les taux de reconnaissance du vecteur T sont croissants. Autrement dit chaque taux T L k doit respecter la contrainte: T L k T L k+1 (3.4) N étant le nombre de classes, la valeur du taux de reconnaissance T L N dépend du taux de rejet T R. T L N et TR sont reliés par la relation suivante : T L N + TR = 100%. Lorsqu il n y a pas de sorties rejetées, alors la bonne solution existe obligatoirement dans toutes les listes à N solutions. Dans ce cas, T L N =100%.

124 124 Chapitre 3. Simulation d un classifieur Notons aussi qu on n introduit pas le taux de confusion T C K comme paramètre d entrée puisque T L K, TR et T C K sont reliés par la relation suivante : T L K + TR + T C K = 100%. En plus des performances globales, nous avons voulu également contrôler la variabilité dans les performances sur chacune des classes. Pour cela, il faut disposer de paramètres permettant de limiter la marge de variation des taux de reconnaissance et de rejet par classe. Nous avons utilisé deux paramètres fixant les variations relatives: β: limite la marge des taux de rejet T R i pour chacune des classes C i. α: vecteur des marges de variation des taux de reconnaissance, α = [α 1,α 2,...,α N 1 ]. α K permet de limiter le champs de variation du taux de reconnaissance T L K i pour chaque classe C i. Ayant défini ces paramètres, on construit la matrice MAT afin de fixer les performances semi-globales d un classifieur. Algorithme de construction Il s agit de remplir, à partir d un vecteur T donné, contenant tous les taux moyen de reconnaissance et un taux de rejet TR donné, une matrice MAT. Cette construction se fait en deux étapes: génération des taux de rejet pour chacune des classes puis génération des taux de reconnaissance. Déterminer les taux de rejet consiste à respecter la performance globale de rejet TR ainsi que sa borne de variation β. Respecter la moyenne TR revient à choisir aléatoirement des taux T R i avec : N T R i = T R N (3.5) i=1 Respecter une borne de variation β revient à tirer aléatoirement des taux de rejet T R i avec T R i [T R β; T R + β] (3.6) A chaque tirage, on choisit une ligne aléatoirement parce que si on remplit la matrice ligne par ligne en commençant de 1 à N, les derniers taux (du rejet ou de reconnaissance) seront toujours tirés dans des intervalles réduits. En effet, plus on effectue de tirages, plus les bornes se rétrécissent et les tirages deviennent restrictifs. Pour éviter cette répartition de taux dans la

125 3.2. Le simulateur 125 Algorithme 4 Génération des taux de rejet Entrées: TR : taux de rejet moyen à respecter β: variance du taux de rejet N: nombre de classes Sorties: T R i : taux de rejet pour chaque classe (i de 1 à N) Début Initialiser SOM à TR*N Pour i de 1 à N faire Début Fin Tirer sans remise un numéro l entre 1 et N Initialiser MIN à SOM - (N-i-1)*(TR + β) Initialiser MAX à SOM - (N-i-1)*(TR - β) if MIN < TR - β alors MIN = TR - β if MAX > TR + β alors MAX = TR + β Tirer aléatoirement un taux T R l entre MIN et MAX Décrémenter SOM de T R l Fin faire matrice, on tire un numéro de ligne aléatoirement avant chaque tirage. Cette procédure est présentée dans l algorithme 4. Ayant fixé le rejet pour chaque classe, on détermine ensuite les éléments T L K i selon T L K et α K (K de 1 à N-1). Ce tirage se fait de la même façon que pour les taux de rejet c est-à-dire en respectant une moyenne T L K et une borne de variation α K. A chaque tirage d un taux T L K i (K [1..N]), nous devons respecter les contraintes suivantes Ni=1 T L K i = T L K N T L K i [T L K α K ; T L K + α K ] (3.7) T L K i 100 T R i En plus de ces contraintes, le taux de reconnaissance T L K i doit être inférieur ou égal à T L K+1 i puisque chaque taux moyen de reconnaissance T L K T L K+1. T L K T L K+1 T L K N T L K+1 N N N i=1 T L K i N N i=1 T L K+1 i T L K i T L K+1 i (3.8) Le tableau 3.2 présente un exemple de matrice MAT générée pour un problème à 5 classes avec 1000 éléments par classe selon les paramètres suivants: T L 1 =50.0, α 1 =7, T L 2 =60.0, α 2 = 3, T L 3 =81.5, α 3 = 10, T L 4 =93.0,

126 126 Chapitre 3. Simulation d un classifieur α 4 =1, TR=3.0 et β=3. Classes top 1 top 2 top 3 top 4 top 5 TR C C C C C Val moy Val min Val max Tab. 3.2 Exemple de matrice MAT pour un problème à 5 classes D après le tableau 3.2, nous pouvons constater que les taux moyens de reconnaissance et leurs variances sont bien respectés. Par exemple, la moyenne (Val moy) des éléments de la colonne top1 est égale à 500 (pour T L 1 de 50%). Les valeurs minimum et maximum (Val min et Val max) de cette colonne sont dans l intervalle [430;570]. La contrainte T L N +TR=100% est aussi respectée: pour toutes les classes, la somme de l élément en top5 et celui du taux de rejet est égale à Conclusion Nous avons présenté un algorithme de simulation de sorties de classifieurs. Cette simulation se base sur une matrice des performances semiglobales MAT pour générer une listes de sorties corrélées. Ce comportement est intéressant dans l analyse de l influence des performances des classifieurs sur certaines méthodes de combinaison puisqu on contrôle ses performances dans toutes les positions de la liste de solutions (performances semi-globales). Bien que la construction de la matrice MAT permette de générer des comportements plus proches de la réalité, elle nécessite néanmoins un nombre important de paramètres (2N+4) surtout lorsque le nombre de classes N augmente. Nous verrons dans ce qui suit une autre façon de caractériser un classifieur utilisant moins de paramètres mais respectant plus de contraintes en ce qui concerne les performances locales.

127 3.2. Le simulateur Simulation d un seul comportement Dans certains problèmes de reconnaissance, les chercheurs peuvent s intéresser uniquement aux performances du système de reconnaissance dans les K premières propositions (en top K) sans regarder les performances au début de la liste (en première proposition ou dans les deux premières, etc.). Etudier les méthodes de combinaison dans ce cas nécessite de disposer d un simulateur permettant de générer des sorties respectant une seule performance. Pour cela, nous avons choisi de simuler un seul comportement dans les K premières solutions (K est compris entre 1 et N) [Zouari et al., 2003a, Zouari et al., 2003b] Principe Dans le cas réel, certaines mesures de performance peuvent être calculées à partir des résultats fournis par le classifieur pour évaluer les méthodes de combinaison. Pour générer des sorties respectant un seul comportement dans les K premières solutions, on procède dans l autre sens. A partir d une matrice de confusion ou de co-présence MC K, on génére les sorties désirées (voir figure 3.5). La matrice MC K, décrivant le comportement du classifieur à simuler dans chacune des classes, peut être soit spécifiée par l utilisateur, soit simulée de façon à ce que les performances globales imposées comme le taux de reconnaissance et le taux de rejet soient respectées Génération de sorties à partir de MC K Pour générer des sorties respectant un seul comportement dans les K premières propositions, on utilise la matrice MC K présentée comme suit : T L K 1... T C1j K... T C K 1N 1 T R MC K = T C K i1... T L K i... T CiN 1 K T R i T CN1 K... T CNj K... T L K N T R N (3.9) Rappelons que les éléments de la diagonale sont les taux de reconnaissance T L K i qui correspondent au nombre de sorties de la classe C i pour lesquelles la bonne solution apparaît dans les K premières propositions. La moyenne de ces taux donne le taux de reconnaissance global T L K. Le taux de rejet T R i correspond au nombre de sorties rejetées pour chaque classe C i. La moyenne de ces taux est TR. Les éléments restants sont les taux de confusion T Cij K qui

128 128 Chapitre 3. Simulation d un classifieur Fig. 3.5 Principe de simulation d un comportement dans les K premières solutions correspondent au nombre de sorties étiquetées C i pour lesquelles la solution C j (j i) apparaît dans les K premières solutions. Disposant d une matrice de confusion ou de co-présence MC K, la procédure de simulation consiste à générer tout d abord les listes de solutions (les étiquettes de classes et le rejet) à partir de la matrice MC K et d affecter ensuite des valeurs de confiance à chaque solution. Génération de listes de solutions Pour générer les sorties qui, en moyenne, doivent respecter un taux de reconnaissance et un taux de rejet dans les K premières solutions, on doit connaître le nombre d étiquettes à distribuer dans les listes de sorties de chacune des classes. Pour cela, la première étape à réaliser consiste à calculer les effectifs à partir de la matrice MC K selon le nombre de sorties désiré S i pour chacune des classes C i. Cette phase permet de passer d une matrice de probabilités MC K à une matrice d effectifs MN K. Pour remplir la matrice des effectifs MN K, il suffit de multiplier les probabilités de chaque ligne i de la matrice MC K par (S i *K).

129 3.2. Le simulateur 129 L étape suivante consiste à générer S i sorties pour chacune des classes. Si on tire au hasard, on peut facilement obtenir des listes de solutions contenant plusieurs étiquettes de la même classe. Or, il ne faut pas oublier que chaque liste de solutions doit contenir des étiquettes de classes différentes. Une classe ne peut pas figurer deux fois dans une même liste de solutions. Dès lors, comment faire pour respecter en même temps cette contrainte et les effectifs des classes? Une façon de faire pour résoudre ce problème consiste à tirer pour chaque sortie choisie aléatoirement, les étiquettes des classes ayant les effectifs les plus élevés. Maintenant, une sortie peut être composée d une solution rejet ou d une liste de K solutions au plus. Pour affecter l un de ces deux types de solutions à chaque sortie, on utilise un mécanisme simple qui dépend à la fois du nombre des sorties restantes à traiter et du nombre des sorties restantes à rejeter pour chaque classe. L algorithme 5 présente ce mécanisme. Dans le cas de la génération des listes de solutions, certaines questions se posent. La première est combien de solutions peut-on placer dans chacune des listes? Notons Yi l le nombre de solutions à générer pour une sortie l et pour une classe C i. Yi l varie entre 1 et K. Pour comprendre comment chercher la valeur de Yi l, prenons un exemple simple de génération de 2 sorties pour chacune des classes à partir d une matrice MN 3 pour un problème à 3 classes (voir figure 3.6). Fig. 3.6 Exemple de génération de deux sorties à partir d une matrice MN 3 Si on s intéresse à la génération des sorties dont la vraie classe est 0, dans ce cas, nous devons déterminer le nombre d étiquettes de classes Y0 1 à placer dans la sortie s 1. Si on choisit Y0 1 =1 alors nous devons placer dans la sortie s 2 4 étiquettes de classes puisque le nombre total d étiquettes à placer dans les deux sorties est 5. Or, on ne peut placer que 3 étiquettes maximum dans chaque sortie (puisque K=3). Si Y0 1 est égal à 2 ou 3, alors on devra placer 3

130 130 Chapitre 3. Simulation d un classifieur Algorithme 5 Choix du type des sorties à générer Entrées: N: nombre de classes MN K : matrice des effectifs des étiquettes à générer S i : nombre de sorties à générer pour chaque classe C i E i : nombre des sorties restantes à générer R i : nombre des sorties (étiquettes) restantes à rejeter T ab : liste des numéros des sorties à générer contenant une liste de solutions Sorties: S l i : liste de solutions pour i=1 à N et l=1 à S i Début Pour i de 1 à N faire Début Initialiser R i à MN K [i][n + 1] Initialiser E i à S i R i Tant que toutes les sorties ne sont pas traitées faire Début Tirer sans remise un numéro l entre 1 et S i Tirer aléatoirement une valeur X dans [1..E i + R i ] Si X [E i..e i + R i ] alors Placer une solution rejet dans S l i Décrémenter R i de 1 Fin Fin faire sinon Fin faire Sauvegarder l dans Tab Décrémenter E i de 1

131 3.2. Le simulateur 131 ou 2 solutions dans s 2, ce qui est possible. On voit très bien ici qu il faut fixer les valeurs limites min Y et max Y de Y0 1 afin de respecter en même temps les contraintes imposées par la matrice des effectifs (le choix des étiquettes de classes) et le tirage aléatoire de Y0 1. Le calcul de ces valeurs limites prend en compte le nombre de sorties et le nombre des étiquettes restantes à générer. Après avoir déterminé la valeur Yi l, une deuxième question se pose: quelles sont les étiquettes de classes à placer dans la sortie s l? Rappelons ici (comme pour la génération de sorties respectant N comportements) qu on doit tirer les étiquettes de classes ayant les effectifs les plus élevés afin de respecter la matrice des effectifs et d éviter le problème d avoir pour une même classe plus d une étiquette dans une sortie. Si on reprend l exemple de la figure 3.6 en fixant Y0 1 =2, on constate bien qu on ne peut pas choisir les étiquettes des classes 1 et 2 pour la sortie s 1 puisqu on obtient dans s 2 deux fois l étiquette de la classe 0 (cas 1 de la figure 3.7). Le fait de choisir, pour la première sortie, les étiquettes de classes ayant les effectifs les plus élevés (c est à dire 0 et 1) permet d éviter ce problème (cas 2 de la figure 3.7). L algorithme 6 présente le mécanisme de la génération des étiquettes pour chaque classe C i, i=1 à N. Fig. 3.7 Choix des étiquettes de classes pour deux sorties à partir d une matrice MN 3

132 132 Chapitre 3. Simulation d un classifieur Algorithme 6 Génération des étiquettes de classes des sorties contenant des listes de solutions pour une classe C i Entrées: E i : nombre des sorties à générer contenant des listes de solutions :nombre des sorties déjà traitées Z i :nombre des étiquettes restantes à générer T ab : liste des numéros des sorties à générer contenant une liste de solutions T l i Sorties: Début S T ab[s] i : liste de solutions de la sortie Tab[s] pour s=1 à E i Initialiser Z i à N j=1 MNK [i][j] Initialiser T i à 1 Pour s de 1 à E i faire Début min Y = max(1,z i (E i T T ab[s] i ) K) max Y = min(k,z i (E i T T ab[s] i )) Tirer aléatoirement Y T ab[s] i entre min Y et max Y Choisir Y T ab[s] i étiquettes des classes ayant les effectifs les plus élevés Placer ces étiquettes aléatoirement dans S T ab[s] i Décrémenter Z i de Y T ab[s] i Incrémenter T i de 1 Fin Fin pour

133 3.2. Le simulateur 133 Génération de confiances Cette étape consiste à associer une confiance à chaque étiquette tirée dans la liste de solutions. Elle se réalise de la même manière que celle présentée pour la génération de sorties corrélées (algorithme 3). En d autres termes, chaque confiance doit être inférieure à celle placée en amont dans la liste de solutions. La seule différence est que le nombre N dans l algorithme 3 est remplacé par Y T ab[s] i (nombre de solutions dans la liste). La figure 3.8 montre un exemple des sorties générées pour un problème à 5 classes avec K=3, T L 3 = 86%, TR=5%, α 3 = 10% et β = 2%. La première colonne de cette figure présente les vraies classes. Les colonnes suivantes forment les solutions du classifieur. Nous pouvons constater que les confiances générées sont décroissantes et que la somme des solutions de chaque sortie (ligne) est égale à 100% (y compris la solution rejet). Fig. 3.8 Exemples de sorties composées de 3 solutions au plus pour un problème à 5 classes Construction de la matrice MC K Nous avons vu que notre simulateur reçoit en entrée une matrice MC K. Disposer des matrices différentes pour un même problème, où seule les performances globales sont imposées, n est pas facile à obtenir. Une solution possible est de simuler des matrices respectant le même comportement global désiré. Dans les paragraphes suivants, nous détaillons la construction de la matrice MC K (qui peut être une matrice de confusion ou de co-présence) en présentant les paramètres, les contraintes et les algorithmes nécessaires à

134 134 Chapitre 3. Simulation d un classifieur sa réalisation. Paramètres utilisés Pour respecter un seul comportement, nous avons besoin tout d abord de connaître le nombre maximal K de solutions. Ceci est important pour la combinaison qui doit prendre la décision en tenant compte des premières solutions et non seulement de la première puisque la vraie classe peut apparaître dans cette liste à différentes positions. La figure 3.9 montre des exemples de sorties qu un classifieur réel peut proposer pour 3 valeurs différentes de K. Fig. 3.9 Exemples de sorties proposées par un classifieur réel pour un problème à 3 classes (a) avec K = 1 ; (b) avec K = 2 ; (c) avec K = 3 Pour construire la matrice MC K (que nous avons défini dans la section ), il faut disposer de paramètres décrivant les performance globales telles que le taux de rejet TR et le taux moyen de reconnaissance T L K.

135 3.2. Le simulateur 135 Rappelons que le taux de reconnaissance T L K représente le rapport entre le nombre de sorties dans lesquelles la bonne classe apparaît dans les K premières solutions et le nombre total de sorties. Rappelons également qu on n introduit pas comme paramètre d entrée le taux de confusion T C K représentant le rapport entre le nombre de sorties dans lesquelles la bonne classe n apparaît pas dans les K premières solutions et le nombre total de sorties. En effet, T C K est un paramètre lié à T L K et TR par T C K = 100% - T L K - TR. Rappelons que T L K et TR permettent de simuler la performance globale du classifieur et que pour contrôler la variabilité dans les performances sur chacune des classes, il faut disposer de paramètres permettant de limiter la marge de variation des taux de reconnaissance et de rejet par classe. Nous utilisons alors α K pour limiter la marge de variation des taux de reconnaissance et β K pour le taux de rejet. Après avoir défini les paramètres fixant un seul comportement dans les K premières solutions, nous présentons maintenant la construction de la matrice MC K en fonction de ces paramètres. Algorithme de construction La construction de la matrice MC K (pour K variant de 1 à N) se fait en trois étapes : génération des taux de rejet pour chacune des classes puis génération des taux de reconnaissance et enfin génération des taux de confusion. Dans la première étape, on tire aléatoirement un taux de rejet par classe suivant la moyenne TR et la variance β. Pour respecter ces paramètres, on utilise l algorithme 4 comme dans la construction de la matrice des performances semi-globales MAT. Dans la deuxième étape, on tire les taux de reconnaissance par classe en respectant les contraintes (3.7). Ayant fixé les taux de rejet et les taux de reconnaissance pour chaque classe (ligne) dans la matrice MC K, on remplit ensuite les colonnes restantes confusion. Pour cela, on tire aléatoirement des valeurs comprises entre 0 et STi K, STi K étant la somme totale des taux de confusion de chaque ligne i de la matrice MC K. ST K i = N j=1,i j T C K i,j (3.10)

136 136 Chapitre 3. Simulation d un classifieur La valeur de STi K dépend du nombre de propositions K. Dans le cas où K=1, la somme des taux de chaque ligne (STi 1 ) doit être égale à 100% puisque les sorties à générer par la matrice MC 1 sont formées d une seule solution (figure 3.9(a)). Donc, pour générer les taux de confusion de MC 1, nous devons respecter la contrainte suivante: ST 1 i = 100% T R i T L 1 i (3.11) Dans le cas où K = N, chaque sortie contient N étiquettes à l exception de la solution rejet qui est composée d une seule étiquette? (figure 3.9(c)). Les taux de chaque ligne de la matrice MC N sont égaux à N*100%. Les taux de confusion T Cij N sont égaux au taux de reconnaissance T L N i puisque le nombre des étiquettes dans les sorties est le même pour toutes les classes (y compris la vraie classe). Par la suite, pour générer ce type de sorties, nous devons respecter la contrainte suivante pour chacune des classes C i : ST N i De plus, les taux de confusion T Cij N 100% - T R i. = N 100% N T R i T L N i = N (100% T R i ) T L N i = (N 1) T L N i (3.12) de chaque ligne doivent être égaux à Pour K variant entre 2 et N-1, on peut générer des sorties dont chacune peut contenir une, deux,..., ou K solutions au plus (figure 3.9(b)). Dans ce cas, la somme des taux pour chaque classe de la matrice MC K doit être strictement inférieure à K*100. Pour cela, nous devons respecter la contrainte 3.13 pour calculer les taux de confusion dans la matrice MC K. ST K i K 100% K T R i T L K i K (100% T R i ) T L K i (3.13) Notons que l utilisation de la dernière contrainte 3.13 ne permet pas (seule) de fixer la quantité de confusion à générer puisque la borne inférieure n est pas fixée. Pour contrôler cette borne, on utilise un paramètre tc en entrée du simulateur (tc 1). Par exemple, tc=0.5 signifie que la quantité de solutions de confusion à générer est la moitié de la quantité obtenue par la contrainte La figure 3.10 montre un exemple de matrices générées pour un problème à 10 classes avec K=1, K=5 et K=10 respectivement. T L K = 95.5%, TR=4.5% et β = 2%. La matrice (a) respecte la contrainte La somme des taux de chaque ligne de cette matrice est égale à 100%. La matrice (b) respecte la

137 3.2. Le simulateur 137 contrainte 3.13 ce qui veut dire que la somme des taux peut être inférieure à 3*100%. Alors que dans la matrice (c) qui respecte la contrainte 3.12, la somme totale des taux de chaque ligne est égale à 300% et les taux de confusion sont les mêmes que le taux de reconnaissance. Fig Exemples de matrices de co-présence (a)k=1 (b) K=5 (c) K=10 Notons également que les colonnes confusion peuvent être remplies selon une répartition choisie en entrée. En effet, dans une matrice réelle, on peut trouver des classes représentant une forte confusion entre elles et d autres ayant une faible confusion. Pour avoir cette distribution, il faut contrôler la répartition des taux de confusion c est-à-dire choisir le nombre de classes les plus confondues. Si on ne veut pas contrôler la distribution des taux de

138 138 Chapitre 3. Simulation d un classifieur confusion dans la matrice, on peut les répartir de manière aléatoire. C est pour cela qu on utilise trois type de répartitions: aléatoire : dans ce cas, tous les taux de confusion (N-1 colonnes) sont tirés aléatoirement. équiprobable : les taux de confusion de chaque ligne de la matrice sont tous égaux. déterministe : selon le nombre de colonnes à remplir qui peut varier de 1 à N-2, on calcule d une manière équiprobable les taux de confusion. Les colonnes restantes sont à 0. L intérêt de l utilisation de plusieurs répartitions est d obtenir pour le même comportement désiré des performances différentes. L utilisation de la dernière répartition permet d éviter la présence de plusieurs taux de confusion très faibles. Ce cas se présente souvent pour des problèmes à plusieurs classes. La figure 3.11 montre un exemple de matrices générées avec ces 3 types de répartition pour un problème à 5 classes en fixant T L 1 = 80%, α 1 = 10%, TR=5% et β = 5%. Fig Exemples de matrices de co-présence (a)aléatoire (b) équiprobable (c) déterministe

139 3.2. Le simulateur Conclusion Nous avons présenté une méthode de simulation d un classifieur respectant un seul comportement dans les K premières solutions. Cette méthode consiste à générer automatiquement des sorties en fonction d une matrice de confusion ou de co-présence MC K fixant le comportement interne du classifieur. Cette matrice peut nous être donnée ou construite à partir d un jeu réduit de paramètres décrivant les performances globales à respecter. Adopter cette même approche pour générer une liste de comportements, c est-à-dire construire une matrice de co-présence pour chaque liste de solutions, n est pas facile à réaliser. Le nombre de contraintes à respecter devient important surtout lorsque la taille de la liste de solutions augmente. Nous verrons dans ce qui suit une autre façon de caractériser un classifieur permettant de générer des sorties respectant deux comportements et donc des sorties plus proches de la réalité. Cette méthode permet de contrôler plus d informations dans les sorties mais doit respecter plus de contraintes en ce qui concerne les performances locales (on utilise alors deux matrices de coprésence) Simulation de deux comportements De la même façon qu à partir des sorties d un classifieur réel, nous pouvons déterminer son comportement pour différentes tailles de la liste de solutions (en première proposition, dans les deux premières,..., dans les K premières), notre simulateur permet de contrôler non seulement le comportement dans les K premières solutions mais aussi, et en même temps, son comportement dans les K premières (avec K < K) [Zouari et al., 2004c]. Ce point est particulièrement intéressant si l on veut étudier le comportement de certains opérateurs de combinaison lorsque les classifieurs à combiner ont par exemple un taux de reconnaissance en première position relativement faible mais qu ils présentent systématiquement la bonne solution dans les K premières propositions (T L K >> T L 1 ). Ces problèmes sont bien connus en reconnaissance de caractères et de mots lorsque la combinaison est utilisée pour faire remonter en tête de liste les bonnes solutions Principe La génération de deux comportements consiste à utiliser deux matrices de co-présence MC K et MC K en entrée du similateur pour générer la liste

140 140 Chapitre 3. Simulation d un classifieur des sorties désirées (figure 3.12). Des mesures de performances globales telles que les taux de reconnaissance et de rejet peuvent être utilisés pour simuler les deux matrices afin de fixer les performances dans chacune des classes. La structure du simulateur est donc constituée des étapes suivantes : 1. Pour chaque sortie, génération d une liste à K solutions en utilisant la matrice MC K 2. Pour chaque sortie, génération des K-K solutions restantes en utilisant la matrice MC K et affectation des valeurs de confiance à chaque solution. Fig Principe de simulation des sorties respectant deux comportements dans les K premières solutions Génération des sorties respectant deux comportements Dans cette section, nous présentons les procédures nécessaires pour la génération de sorties du simulateur de classifieur à partir des matrices données en entrée du simulateur. Rappelons ici que nous générons d abord les sorties à K solutions à partir du comportement fixé par MC K puis nous générons les (K K ) solutions restantes à partir du comportement fixé par MC K.

141 3.2. Le simulateur 141 La première étape peut être réalisée en appliquant les algorithmes 5 et 6 en remplaçant la matrice MC K par MC K et K par K. La deuxième étape permet de générer les K K solutions restantes en utilisant la matrice de co-présence MC K et en tenant compte des solutions générées dans la liste des sorties Si l (i de 1 à N et l de 1 à S). Pour cela, la matrice des effectifs est construite à partir de la matrice de co-présence MC K et la différence entre cette matrice et celle que nous avons construite précédemment à partir de MC K (c est-à-dire MN K ) est obtenue. Soit MN K la matrice contenant les effectifs restants. Les effectifs du rejet ne sont pas pris en compte dans cette étape puisque les solutions rejetées sont déjà générées dans la phase précédente. Pour chaque sortie choisie aléatoirement (différente du rejet), on tire un nombre d étiquettes restantes à placer dans cette sortie. Ce nombre peut être égal à 0 mais ne doit pas dépasser la valeur K-K. Bien évidemment, les solutions à tirer sont les étiquettes des classes ayant les effectifs les plus élevés et doivent être différentes de celles déjà tirées dans la liste de K solutions. Cette génération peut être illustrée par l algorithme 7. Notons que le calcul des confiances pour les solutions générées se réalise de la même manière que celle présentée pour la génération des sorties respectant un comportement ou une liste de comportements Construction des matrices MC K et MC K Pour générer des sorties respectant deux comportements, le simulateur se base sur deux matrices MC K et MC K. Ces deux matrices peuvent être spécifiées par l utilisateur comme elles peuvent être simulées. Notons que la construction de la matrice MC K a déjà été présentée dans la section consacrée à la génération d un seul comportement. Dans les paragraphes suivants, nous détaillons uniquement la construction de la matrice MC K en présentant les paramètres, les contraintes et les algorithmes nécessaires à sa réalisation. Paramètres utilisés De la même façon que pour simuler une matrice respectant un comportement dans les K premières propositions, nous avons utilisé les paramètres K, T L K et α K, pour simuler une matrice respectant un comportement dans les K premières propositions, les paramètres de type K, T L K et α K sont utilisés. K : correspond au nombre de solutions respectant le premier comportement. Ce nombre est le même pour toutes les sorties.

142 142 Chapitre 3. Simulation d un classifieur Algorithme 7 Génération des sorties respectant deux comportements dans les K premières propositions Entrées : MN K : matrice des effectifs restants des classes S i : nombre de sorties par classe (i de 1 à N) Sorties : Si l : liste des solutions restantes à générer (i de 1 à N et l de 1 à S) Début Pour i de 1 à N faire Début Tant que toutes les sorties ne sont pas traitées faire Début Fin Fin pour Tirer sans remise un numéro l entre 1 et S i Si Si l ne contient pas une solution rejet alors Tirer un nombre d étiquettes dans les classes ayant les effectifs les plus élevés dans MN K Placer ces étiquettes aléatoirement dans Si l (après les K étiquettes) Décrémenter le nombre des étiquettes choisies dans MN K Fin si Fin Tantque

143 3.2. Le simulateur 143 T L K : correspond au taux moyen de reconnaissance dans les K premières solutions du classifieur. Il s agit plus précisément du rapport entre le nombre de sorties dans lesquelles la bonne classe apparaît dans les K premières solutions et le nombre total de sorties. Contrôler la variabilité dans les performances sur chacune des classes consiste ici à utiliser un autre paramètre permettant de limiter la marge de variation des taux de reconnaissance. α K : permet de limiter le champs de variation des taux de reconnaissance T L K i pour chaque classe C i. Construction de MC K Nous avons vu dans la section consacrée à la génération d un seul comportement que la construction de chaque matrice de co-présence nécessite trois étapes: génération des taux de rejet puis des taux de reconnaissance et enfin des taux de confusion. Bien que la construction de la matrice MC K respecte ces trois étapes, elle est différente de celle de MC K. Les performances globales de MC K doivent être inférieures à celles de la matrice MC K. T L K < T L K T C K < T C K (3.14) A part les taux de rejet qui sont les mêmes que ceux de la matrice MC K (puisque la solution rejet est représentée toujours par une seule proposition), toutes les performances locales de MC K doivent alors être inférieures à celles de la matrice MC K. Nous devons donc construire la matrice MC K à partir de MC K en respectant les contraintes suivantes : T L K i T L K i T L K i 100 T R i (3.15) T L K i [T L K α K ; T L K + α K ] La génération des taux de confusion est réalisée de la même manière que celle présentée dans la section en utilisant la contrainte 3.12 (en sera utilisée pour générer doit être aussi inférieur ou égal à T Ci,j. K Notons également que la répartition des taux de confusion (aléatoire, équiprobable ou déterministe) dans MC K est la même que celle dans MC K. Cependant, le calcul des taux de reconnaissance remplaçant N par K ) puisque la matrice MC K des listes composées exactement de K solutions. Chaque taux T Ci,j K

144 144 Chapitre 3. Simulation d un classifieur se fait d une manière différente de celui de la matrice de MC K. Pour calculer T L K i, il suffit de connaître la différence δ i par rapport au taux T L K i. Pour cela, on écrit la somme totale des différences entre les taux de reconnaissance des deux matrices MC K et MC K : D = N i=1 δ i = (T L K i T L K i ) N D = 0 signifie que chaque taux de reconnaissance T L K i (3.16) doit être égal à ce- respecte lui de la matrice MC K. Pour que le taux de reconnaissance T L K i la moyenne T L K et la variance α K, il faut vérifier que la valeur T L K i - δ i appartient à l intervalle [T L K ± α K ]. Pour cela, nous devons connaître la valeur minimale et maximale de δ i. Soient δ min et δ max ces deux valeurs calculées après chaque tirage aléatoire d une ligne. Ces deux valeurs permettent de connaître la différence entre le taux de reconnaissance T L K i et les bornes de l intervalle [T L K α K ; T L K + α K ] (figure 3.13). Dans ce cas, δ min = max(0,t L K (T L K + α K )) δ max = min(d,t L K (T L K α K )) (3.17) Fig Détermination de la différence entre les taux de reconnaissance Cependant, le calcul de ces deux valeurs n est pas suffisant pour réaliser le tirage de δ i. Prenons l exemple de deux matrices MC 1 et MC 2 suivantes: 65 MC 1 = MC 2 =

145 3.2. Le simulateur 145 Les trois taux de reconnaissance de la matrice MC 1 respectent les bornes δ min =15 et δ max =25 (δ 1 =20, δ 2 =25 et δ 3 =15). Cependant, le dernier taux de cette matrice n appartient pas à l intervalle [65; 75]. Pour résoudre ce problème, on doit tenir compte de la différence entre les taux de reconnaissance T L K j non encore traités et la borne maximale T L K + α K. δ max s écrit: δ max = min(δ max,d j [T L K j (T L K + α K )]) (3.18) La figure 3.14 montre un exemple de matrice MC 2 construite à partir d une autre matrice MC 3 avec la répartition aléatoire pour un problème à 7 classes. Ces matrices ont les caractéristiques suivantes : T L 3 =90%, α 3 =7%, T R 3 =1% et β 3 =1%, T L 2 =75%, α 2 =25% Conclusion Nous venons de présenter un algorithme de simulation d un classifieur permettant de générer des sorties (listes de propositions) respectant deux matrices de co-présence. Celles-ci peuvent être simulées en fonction des paramètres décrivant les performances globales désirées (taux global de reconaissance, taux de rejet,...). Associer à chaque position dans la liste une matrice de co-présence est une autre solution de simulation intéressante car elle permet de contrôler les performances en tout point de la liste. Cependant, la question ouverte qui se pose consiste à savoir si cette solution est possible à réaliser pour un problème de classification quelconque. Ceci semble être une suite intéressante à envisager dans la perspective d amélioration de la simulation afin de s approcher encore plus du comportement d un classifieur réel Conclusion Nous avons proposé un simulateur de classifieur permettant de générer des sorties pour un problème de classification quelconque. Ce simulateur se base sur l utilisation d un jeu réduit de paramètres décrivant le comportement à simuler. Le contrôle des différents paramètres permet de produire une grande variabilité de performances. Le simulateur peut fournir des sorties respectant une liste de comportements, un seul comportement ou deux comportements. Les sorties du premier type respectant une liste de comportements sont les plus proches de celles produites par un classifieur réel dans la mesure où les performances sont contrôlées à toutes les positions dans la

146 146 Chapitre 3. Simulation d un classifieur Fig Exemple de matrice MC 2 générée à partir d une autre matrice de présence MC 3 avec une répartition aléatoire (a) matrice MC 3 ; (b) matrice MC 2 construite à partir de MC 3

147 3.3. Vérification du simulateur 147 liste. En respectant un ou deux comportements, on peut contrôler plus d informations (confusion). Cependant, cela nécessite plus de contraintes pour la construction des matrices de co-présence ainsi que pour la génération de sorties. Si l on souhaite étudier des méthodes de combinaison, il faudra alors simuler un ensemble de L classifieurs en répétant L fois la simulation. La génération des sorties d un classifieur est donc réalisée indépendamment des autres. On voit ici qu avec cette simulation, on ne peut pas contrôler la corrélation entre les sorties des classifieurs. Ce problème de contrôle de la corrélation sera abordé dans le chapitre suivant. Nous allons maintenant présenter les résultats expérimentaux montrant la fiabilité du simulateur proposé. 3.3 Vérification du simulateur Les tests que nous présentons dans cette section ont pour but de vérifier que le simulateur développé parvient aux mêmes résultats que les performances désirées quel que soit le comportement à simuler. Il est important de noter que le simulateur ne peut respecter fidèlement les paramètres qu on lui impose que s il génére un nombre suffisant de sorties. Nous analyserons plus précisement l influence du nombre de sorties dans la section Dans les autres tests de simulation, nous fixerons toujours à 1000 le nombre de sorties à générer par classe Vérification avec des matrices données La première phase de test vise à montrer que notre simulateur est capable de générer des sorties à partir de matrices qui nous sont données. Nous verrons au paragraphe suivant des tests où ces matrices seront générées automatiquement de façon à respecter les performances globales ou semi-globales que nous voudrons imposer. Pour ces premières vérifications, nous avons réalisé trois expériences selon le comportement à respecter: on se fixe une matrice MAT et on regarde si les données générées par le simulateur respectent ces performances. On va donc calculer les performances semi-globales une fois les sorties générées et les comparer à MAT.

148 148 Chapitre 3. Simulation d un classifieur on se fixe une matrice de confusion MC 1 et on fait la même chose c est-à-dire on vérifie que le simulateur produit des sorties selon les performances locales de la matrice de confusion. on se fixe deux matrices de co-présence MC k, MC k et on fait la même chose. Dans la première expérience, nous générons 50 classifieurs en utilisant la matrice MAT de la figure 3.15(a). Cette matrice de performances semiglobales est introduite en entrée du simulateur pour respecter 5 comportements. La matrice d erreurs entre les sorties générées et les performances semi-globales désirées de la matrice MAT est présentée dans la figure 3.15(b). Notons ici que les faibles erreurs sont dues aux calculs d effectifs. Mais cela n empêche pas le simulateur de générer les sorties selon les performances fixées à son entrée. En fait, lorsque nous avons généré sorties par classe (au lieu de 1000) en utilisant toujours la matrice 3.15(a), nous avons constaté qu il n y a pas d erreurs mesurables. Fig Vérification de la simulation de 5 comportements en utilisant une matrice de performances semi-globales (a) matrice à simuler (b) matrice d erreurs Dans la deuxième expérience, nous avons simulé 100 classifieurs en utilisant la matrice de confusion de la figure 3.16(a). Cette matrice de confusion est introduite en entrée du simulateur permettant de respecter un seul comportement. En calculant les erreurs moyennes entre les sorties générées et les performances locales désirées, nous avons obtenu la matrice d erreurs 3.16(b). Ces résultats montrent que notre simulateur est capable de générer les sorties

149 3.3. Vérification du simulateur 149 selon les performances locales souhaitées. Fig Vérification de la simulation d un seul comportement (a) matrice de confusion utilisée (b) matrice d erreurs Dans la troisième expérience, nous avons généré 50 classifieurs respectant deux comportements en top3 et en top7 pour un problème à 10 classes. Les figures 3.17 et 3.18 présentent les matrices de co-présence utilisées en entrée du simulateur ainsi que les matrices d erreurs moyennes en top3 et en top7. Là encore, les faibles erreurs sont dues aux calculs d effectifs Génération de liste de comportements Nous supposons ici que seules des performances globales (taux de reconnaissance) sont imposées. Afin de valider la stratégie de simulation des performances semi-globales, nous proposons un protocole (algorithme 8) qui consiste à générer les sorties des classifieurs à partir des matrices de performances semi-globales simulées et respectant les taux de reconnaissance fixés et de comparer ensuite les performances obtenues par le simulateur et les performances à respecter. Le premier taux de reconnaissance T L 1 desire est tiré aléatoirement entre marge et 100%. Nous avons introduit le paramètre marge afin de fixer la limite inférieure du T L 1 desire. Les taux de reconnaissance suivants c est-à-dire T L k desire (k de 2 à N-1) sont ensuite choisis aléatoirement entre T L 1 desire et 100%. Chaque taux T Lk desire doit être inférieur ou égal à T L k+1 desire. Le dernier taux T LN desire est à 100% puisqu il n y a pas de rejet.

150 150 Chapitre 3. Simulation d un classifieur Fig Simulation d un comportement dans les 3 premières solutions (a) matrice à simuler (b) matrice d erreurs

151 3.3. Vérification du simulateur 151 Fig Simulation d un comportement dans les 7 premières solutions (a) matrice à simuler (b) matrice d erreurs

152 152 Chapitre 3. Simulation d un classifieur Algorithme 8 Vérification de la simulation des performances semi-globales à partir des performances globales Entrées: L: nombre de classifieurs à générer marge: valeur minimale du premier taux de reconnaissance à tirer ListeTL: liste des taux de reconnaissance à respecter N: nombre de classes Début /* choix des taux de reconnaissance à respecter */ Choisir T L 1 desire entre marge et 100 Sauvegarder T L 1 desire dans ListeTL Pour k de 1 à N-2 faire Début Tirer aléatoirement une valeur V k entre T L 1 desire et 100 Sauvegarder V k dans ListeTL Fin pour Trier ListeTL de manière croissante Pour L de 1 à 50 faire Début Générer les sorties du L ième classifieur en fonction des taux de reconnaissance de ListeTL Pour k de 1 à N faire Début Calculer les performances T L k L Fin pour Ajouter T L k L au taux moyen T Lk moy Fin pour Pour k de 1 à N faire Début Fin pour Comparer ListeTL[k] et T L k moy Fin

153 3.3. Vérification du simulateur 153 Dans la figure 3.19, nous présentons un exemple de performances générées pour trois problèmes de classification à 10, 50 et 100 classes. Nous avons constaté que les performances obtenues par simulation étaient toujours les mêmes que celles de référence, quel que soit le problème de classification traité. Ces résultats montrent aussi que notre simulateur peut être utilisé pour simuler des sorties pour des problèmes différents de classification (pour n importe quel N). Fig Simulation de liste de comportements pour des problèmes à 10 classes (a) à 50 classes (b) et à 100 classes (c) Génération d un seul comportement Pour vérifier la simulation de sorties à K solutions au plus, nous avons utilisé un protocole (algorithme 9) qui consiste à tirer aléatoirement un taux de

154 154 Chapitre 3. Simulation d un classifieur reconnaissance T L K desire (α K 0) entre une borne inférieure marge et 100%, générer les sorties en fonction de ce taux, calculer les performances à partir de ces sorties et les comparer avec le taux de reconnaissance global désiré. Nous avons généré les sorties avec des valeurs différentes de tc variant de 0.5 à 1. Rappelons ici que tc est un paramètre utilisé en entrée du simulateur pour contrôler la quantité de classes confondues dans les sorties à générer (tc<=1). L utilisation de ce paramètre permet d avoir une variabilité dans les sorties des classifieurs. Algorithme 9 Vérification de la simulation d un seul comportement Entrées : L : nombre de classifieurs à générer N: nombre de classes marge : valeur minimale du taux de reconnaissance à tirer tc : variation du taux de confusion, tc varie entre 0.5 et 1 K: nombre de solutions maximales Début Tirer aléatoirement T L k desire entre marge et 100 Tirer aléatoirement α K entre 0 et 100 T L k Pour k de 1 à 50 faire Début Générer les sorties du k ieme classifieur en fonction N, K, tc, T L k desire et αk Calculer les performances T L k obtenu à partir des sorties générées Comparer T L k desire à T Lk obtenu Fin Fin pour Le tableau 3.3 présente les taux moyens de reconnaissance et leurs variances (50 itérations) obtenus dans les 5 premières propositions pour un problème à 10 classes avec des valeurs de tc qui varient entre 0.5 et 1. Le taux de reconnaissance en top5 T L 5 a été tiré aléatoirement et est égal à 90.9% (α 5 =0). Là encore, les résultats que nous avons obtenus montrent que les performances calculées en top 5 sont les mêmes que les performances attendues. C est pourquoi, nous n avons pas placé les taux en top5 dans le tableau 3.4. Les résultats de ce tableau montrent bien que lorsque la valeur de tc augmente, le taux de confusion augmente et donc le taux de reconnaissance diminue.

155 3.3. Vérification du simulateur 155 tc top1 top2 top3 top ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± 0.13 Tab. 3.3 Performances des sorties respectant un T L 5 à 90.9% La figure 3.20 présente trois matrices de co-présence en top 2 obtenues sur les sorties générées pour TC=0.5, 0.7 et 1, respectivement. Pour TC=0.5, les sorties à générer contiennent moins de solutions confondues ce qui explique la variation des taux de confusion dans la première matrice (a). Plus TC croit, plus les sorties contiennent de solutions de confusion ce qui explique les valeurs proches des taux de confusion. Ceci est illustré par l augmentation des taux de confusion de la matrice (a) à la matrice (c). Nous avons également généré des classifieurs avec une même valeur de tc=0.9 mais ayant des performances différentes en top5. Le tableau 3.4 présente les taux moyens de reconnaissance et leur variances obtenus dans les 5 premières propositions. Là encore les résultats montrent que le simulateur respecte bien les performances globales fixées en top5. On constate également que les variations des taux de reconnaissance sont faibles. En effet, ceci est du à l utilisation de la même valeur tc pour tous les classifieurs de chaque ensemble (respectant un même taux de reconnaissance). T L 5 top1 top2 top3 top4 top ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± 0.00 Tab. 3.4 Performances des sorties respectant un comportement dans les 5 premières solutions avec tc=0.9 Pour chacun des taux du tableau 3.4, nous avons généré 50 classifieurs ayant des valeurs différentes de tc (le choix de tc pour chaque classifieur est aléatoire). Le tableau 3.5 présente les performances moyennes et leurs

156 156 Chapitre 3. Simulation d un classifieur Fig Matrices de co-présence en top2 (a) TC=0.5 (b) TC=0.7 (c) TC=1

157 3.3. Vérification du simulateur 157 variations obtenues par la simulation dans les 5 premières propositions. Ces résultats montrent que l utilisation de valeurs différentes de tc permet d avoir une garande variabilité de sorties respectant la même performance (taux de reconnaissance). T L 5 top1 top2 top3 top ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± Tab. 3.5 Performances des sorties respectant un comportement dans les 5 premières solutions avec des valeurs différentes de tc Pour vérifier la capacité du simulateur à générer des sorties selon les performances désirées pour des problèmes différents de classification, nous avons simulé 20 classifieurs avec K=7 et N=10, 50 et 200 classes. Le taux de reconnaissance à respecter pour les trois problèmes est T L 7 =73.5. Le tableau 3.6 présente les performances moyennes obtenues dans les 7 premières propositions. Ces résultats indiquent que notre simulateur respecte bien le taux de reconnaissance en top 7 et qu il est capable de simuler des sorties pour des problèmes différents de classification. K N=10 N=50 N= ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± 0.00 Tab. 3.6 Performances moyennes des classifieurs respectant un seul comportement dans les 7 premières solutions Génération de deux comportements Nous proposons dans cette section d évaluer la capacité du simulateur à générer des sorties respectant deux comportements selon les performances

158 158 Chapitre 3. Simulation d un classifieur qu il reçoit en entrée. Pour ce faire, nous avons utilisé un autre protocole (algorithme 10) en fixant cette fois deux taux de reconnaissance T L K et T L K aléatoirement. Algorithme 10 Vérification de la simulation de deux comportements Entrées : L : nombre de classifieurs à générer N: nombre de classes marge : valeur minimale du premier taux de reconnaissance à tirer K : nombre de solutions maximales K: nombre de solutions maximales Début Tirer aléatoirement T L K entre marge et 100 Tirer aléatoirement T L K entre T L K et 100 Pour L de 1 à 50 faire Début Générer les sorties du L ième classifieur en fonction N,K,K,T L K et T L K Calculer les performances globales à partir de ces sorties Fin Fin pour Comparer les performances désirées et obtenues Nous avons généré 50 classifieurs pour des problèmes différents à 10 et 50 classes avec les performances suivantes: K =3, K=7, T L 3 = 50.2 et T L 7 = Le tableau 3.7 présente les taux moyens de reconnaissance ainsi que les valeurs minimales et maximales obtenus dans les 7 premières solutions pour chaque problème. Ces résultats montrent que les performances en top3 et en top7 ont été respectées pour les deux problèmes. Cependant, sans contôler les autres comportements dans la liste de solutions, on peut obtenir des performances différentes. Notons également que dans la génération de sorties respectant deux comportements, seule la matrice MC K peut être construite avec différentes valeurs de tc (permettant d introduire une variabilité dans les taux de confusion). Or, le fait de générer des classifieurs en faisant varier tc (comme pour le cas d un seul comportement) ne permet pas de respecter les taux de reconnaissance en topk (puisqu on respecte d autres contraintes en topk ). Pour

159 3.3. Vérification du simulateur 159 N=10 N=50 K moyenne min max moyenne min max Tab. 3.7 Performances des classifieurs respectant deux comportements pour des problèmes à 10 et 50 classes respecter les performances désirées dans la simulation de deux comportements, tc doit être égal à 1. Mais, la génération de classifieurs respectant deux comportements avec tc=1 ne permet pas d avoir une grande variabilité dans les sorties ce qui explique les faibles variances des performances obtenues dans le tableau 3.7. Nous avons aussi généré 50 classifieurs en faisant varier les valeurs de K et K. Le tableau 3.8 présente un exemple des taux de reconnaissance moyens obtenus dans les différentes propositions entre K et K pour un problème à 10 classes (marge=20). Là encore, les performances désirées en topk et en topk ont été respectées. Nombre de K -K propositions ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± Tab. 3.8 Exemples de performances des sorties respectant deux comportements avec des valeurs différentes de K et K Ces résultats montrent que le simulateur peut respecter les performances fixées dans les K et K premières propositions. Cependant, sans contrôler les

160 160 Chapitre 3. Simulation d un classifieur autres comportements dans la liste de solutions, on peut obtenir des performances différentes. La figure 3.21 présente deux matrices différentes de co-présence en top1 et en top3 (du dernier cas du tableau 3.8). Ici, les taux de reconnaissance de la matrice (b) sont contrôlés. Fig Exemples de matrices de co-présence (a) en top1 (b) en top Précision du simulateur Nous étudions ici l influence du nombre de sorties générées sur la précision des paramètres réellement obtenus lors de la simulation. Pour cela, nous allons générer quelques exemples simples pour lesquels on mettra en évidence cette influence sur quelques paramètres. Dans le premier exemple, nous avons regardé l influence du nombre de sorties sur la simulation par la matrice MAT générée à partir du taux global de reconnaissance et du taux de rejet. Le tableau 3.9 présente les résultats des taux de reconnaissance obtenues pour un problème à 5 classes avec des valeurs différentes de sorties par classe S i =50, 150, 500, 1000 et 10000, (i=1,..., 5). Les résultats montrent qu à partir de 500 éléments par classe, le simulateur respecte exactement le taux de reconnaissance donné. Dans le deuxième exemple, nous avons regardé l influence du nombre de sorties sur la simulation par la matrice de co-présence MC K générée à par-

161 3.3. Vérification du simulateur 161 Nombre de sorties par classe Taux désiré S i = 50 S i = 150 S i = 500 S i =1000 top top top top top Tab. 3.9 Performances globales de la simulation par la matrice MAT en fonction du nombre d éléments par classe tir du taux global de reconnaissance et du taux de rejet. Le tableau 3.10 présente les résultats des taux de reconnaissance obtenues pour un problème à 5 classes avec des valeurs différentes de sorties par classe S i =50, 150, 500, 1000 et 10000, (i=1,..., 5). Là encore, les résultats montrent que le simulateur respecte exactement le taux de reconnaissance donné à partir de 1000 éléments par classe,. Nombre de sorties par classe Taux désiré S i = 50 S i = 150 S i = 500 S i =1000 S i = Tab Performances gloables de la simulation par la matrice de coprésence en fonction du nombre d éléments par classe Corrélation des sorties Avec le simulateur proposé, il est évident qu on ne peut pas obtenir des sorties avec une corrélation fixée puisqu on ne la contrôle pas, mais on peut la mesurer a posteriori. Nous avons généré 50 ensembles de deux classifieurs pour un problème à 3 classes avec des performances différentes T L 1 = {60,70,80,90} et nous avons utilisé la mesure de diversité kappa pour calculer la relation (l accord ou le désaccord) entre les sorties simulées (on présentera cette mesure dans le chapitre suivant quand on parlera de la diversité). kappa est comprise entre -1 et 1. La valeur -1 indique que les sorties des

162 162 Chapitre 3. Simulation d un classifieur classifieurs sont totalement différentes alors que la valeur 1 indique qu elles sont identiques. La valeur 0 indique que les classifieurs sont indépendents. La figure 3.22 présente les résultats de la simulation que nous avons réalisée. Nous pouvons constater que les sorties ne sont pas totalement indépendantes. Le niveau de diversité peut changer en fonction des performances fixées en entrée du simulateur. Par exemple, lorsque les classifieurs ont un taux de reconnaissance T L 1 =90%, les sorties sont presque indépendentes alors que lorsque les taux de reconnaissance diminue, les sorties sont différentes. Pour générer des classifieurs corrélés (être encore plus exigeant), il faut contrôler la diversité a priori et donc utiliser un paramètre supplémentaire indiquant le niveau de corrélation désirée. Nous discutons de ce problème dans le chapitre suivant dans lequel nous proposons une nouvelle méthode de simulation qui utilise une mesure de diversité en entrée du simulateur. Fig Corrélation des sorties simulées (type classe) en fonction des performances désirées Conclusion Les tests présentés ci-dessus indiquent qu à partir des performances données, notre simulateur est capable de générer des sorties respectant ces mêmes performances pour un problème de classification quelconque. Nous allons mon-

163 3.4. Apports de la simulation 163 trer dans les paragraphes suivants l apport de cette stratégie de simulation dans les trois niveaux de combinaison: type classe, rang et mesure. 3.4 Apports de la simulation Le but de cette section est de montrer comment on peut utiliser notre simulateur pour étudier le comportement des méthodes de combinaison. Nous nous focalisons en particulier sur l analyse du comportement des méthodes non-paramètriques. Les chercheurs sont d accord sur le fait que ces méthodes simples (ou fixes) sont plus robustes que les méthodes pondérées puisqu il est difficile dans les applications réelles d estimer de façon fiable les poids optimaux [Roli et al., 2002a]. Toutefois, il est encore difficile de dire de manière claire dans quelles conditions une telle méthode se comporte mieux qu une autre pour la plupart des problèmes de classification. Par ailleurs, il nous paraît important d étudier le comportement des opérateurs de combinaison par simulation en fonction des paramètres influant sur leur performance tels que le nombre de classifieurs, leur performance (en terme de taux de reconnaissance et de taux de rejet) et le nombre de classes Evaluation type classe A partir des travaux reportés dans la littérature sur les méthodes de votes, nous pouvons remarquer que le vote à la majorité est plus utilisé que le vote à la pluralité dans les systèmes de combinaison, en particulier dans bagging. D autre part, beaucoup d études expérimentales et théoriques ont été menées pour le vote à la majorité. Cependant, peu d analyses expérimentales ont été réalisées sur le vote à la pluralité [Lin et al., 2003]. Dans cette section, nous présentons une étude comparative entre le vote à la pluralité et le vote à la majorité (qui ont été définis dans le chapitre 1) sous la condition que tous les classifieurs aient le même taux de reconnaissance. Pour cela, nous avons réalisé trois expériences. Dans la première expérimentation, nous avons utilisé notre simulateur de classifieur pour examiner le comportement des règles de votes en fonction du nombre de classifieurs et de leur performance. Dans la deuxième expérience, nous avons généré des ensembles de classifieurs pour des problèmes différents de classification afin d examiner l influence du nombre de classes sur les performances des méthodes de votes. Notons que dans ces deux expériences, le vote à la pluralité ne rejette pas puisque nous sommes intéressés à étudier la perfor-

164 164 Chapitre 3. Simulation d un classifieur mance des règles de votes en terme de taux de reconnaissance. S il y a plus d une classe avec le même vote, on sélectionne aléatoirement l une d elles. L objectif de la troisième expérience est donc d examiner le comportement des règles de votes en terme de taux de rejet. Influence du nombre de classifieurs: Pour examiner l effet du nombre de classifieurs sur le comportement des règles de votes, nous avons généré puis combiné des ensembles de L classifieurs, L varie de 3 à 25 par pas de 2 pour un problème à 3 classes. Chaque ensemble se caractérise par une valeur du taux de reconnaissance T L 1 = 60,70,80,90. Les tests sont répétés 50 fois et les résultats sont moyennés. La figure 3.23 présente les taux de reconnaissance moyens des deux régles de vote. Si on considère les résultats de la figure 3.23a, nous remarquons que bien que les méthodes de vote donnent des performances meilleures que chacun des classifieurs, le vote à la pluralité est toujours plus performant que le vote à la majorité pour tous les ensembles. Avec 3 classifieurs, la différence entre les deux règles est faible. Lorsque le nombre de classifieurs augmente, cette différence augmente aussi. Le vote à la pluralité donne une amélioration plus significative que le vote à la majorité avec un nombre croissant de classifieurs. En combinant des classifieurs ayant des taux de reconnaissance plus élevés (figure 3.23b et c), la performance du vote à la majorité s approche de celle du vote à la pluralité. Mais cette dernière donne toujours la meilleure performance. Lorsque les taux de reconnaissance des classifieurs à combiner augmente (figure 3.23d), nous constatons que le comportement du vote à la pluralité est très similaire de celui du vote à la majorité. Nous pouvons constater à travers ces résultats que le vote à la majorité est plus sensible aux performances des classifieurs que le vote à la pluralité. En effet, avec des classifieurs faibles (T L 1 <80%), le vote à la pluralité est plus performant que le vote à la majorité. On peut émettre l hypothèse qu il est préférable d utiliser le vote à la pluralité que le vote à la majorité dans le cas de la combinaison d un grand nombre de classifieurs faibles. Nous pouvons constater également qu avec des classifieurs performants, il est inutile de combiner plus de 10 classifieurs par le vote à la pluralité dont la performance peut atteindre les 100%, idée aussi confirmée dans [Lin et al., 2003]. Influence du nombre de classes: Dans la première expérience, nous avons constaté que le vote à la pluralité se comporte bien avec des classifieurs à 80% pour un problème à 3 classes. Le but de la deuxième expérience est d examiner l effet du nombre de classes

165 3.4. Apports de la simulation 165 Fig Relation entre les taux de reconnaissance des méthodes de vote et le nombre de classifieurs (a) T L 1 =60% (b) T L 1 =70% (c) T L 1 =80% (d) T L 1 =90%

166 166 Chapitre 3. Simulation d un classifieur sur le comportement de cette méthode. Pour cela, nous avons simulé des ensembles de classifieurs (T L 1 =80%) pour des problèmes de classification à 3, 10 et à 50 classes. La figure 3.24 présente les performances du vote à la pluralité pour ces trois problèmes. A travers cette figure, nous pouvons tout d abord constater que quel que soit le nombre de classes (c est à dire le problème de classification), le vote à la pluralité donne de meilleures performances par rapport à chacun des classifieurs. La combinaison de 4 classifieurs pour un problème à 3 classes produit moins de performances que pour un problème à 10 ou 50 classes. Ceci s explique par le fait que pour N=3, nous pouvons avoir plus de conflits entre les classes (plus de deux classes ont le maximum de votes). Lorsque le nombre de classes augmente, les réponses des classifieurs peuvent être différentes et la chance de choisir la vraie classe parmi ces réponses augmente. Avec un grand nombre de classifieurs, le vote à la pluralité produit des performances similaires pour les différents problèmes de classification. Fig Performances du vote à la pluralité pour trois problèmes de classification Fiabilité en terme de taux de rejet: Afin d étudier la fiabilité du vote à la pluralité par rapport au vote à la majorité, nous avons utilisé le vote à la pluralité avec rejet pour la combinaison des ensembles de L classifieurs ayant la même performance T L 1 =60% et 80%, (L varie toujours de 3 à 25 par pas de 2). La figure 3.25 présente les performances des deux règles de votes en terme de taux de rejet pour un

167 3.4. Apports de la simulation 167 problème à 3 classes. Si on regarde la figure 3.25a, on constate que le vote à la pluralité produit moins de rejet que le vote à la majorité pour des classifieurs faibles. Ceci est du à la nature de la règle de vote à la majorité qui est plus stricte du point de vue décision. En effet, il suffit qu une classe soit majoritaire pour que le vote à la pluralité l accepte alors que pour le vote à la majorité, il faut de plus que cette classe soit proposée par plus de la moitié des classifieurs. Lorsque le nombre de classifieurs augmente, les taux de rejet des deux règles diminuent. Mais le taux du rejet du vote à la majorité reste élevé. En combinant des classifieurs ayant un T L 1 à 80% (figure 3.25b), les deux règles de vote rejettent la même quantité. Ce comportement persiste lorsque le nombre de classifieurs augmente. En résumé, nous pouvons émettre les hypothèses que le vote à la pluralité est plus intéressant à utiliser que le vote à la majorité, en particulier quand on a beaucoup de classifieurs avec des performances faibles. De plus, le vote à la pluralité est plus efficace que le vote à la majorité dans la mesure où il permet d obtenir un bon compromis entre taux de reconnaissance et taux de rejet Evaluation type rang Dans cette section, nous présentons une étude comparative entre deux méthodes de type rang: le Borda Count et le meilleur rang. A partir des travaux reportés dans la littérature sur ces deux méthodes, nous pouvons constater que le borda count est beaucoup plus utilisé. Pourtant le meilleur rang peut s avérer utile dans certains cas comme nous allons le voir par la suite. Dans [Ho, 1998], 4 classifieurs produisant des performances différentes à l intérieur de la liste de solutions ont été combinés pour améliorer la reconaissance de mots. Il est constaté que le borda count améliore la performance au début de la liste alors que le meilleur rang l améliore à la fin de la liste. Cependant, il est difficile de généraliser ce résultat puisqu il est obtenu sur des données réelles particulières. Il nous paraît donc intéressant de regarder comment le borda count et le meilleur rang se comportent à l intérieur des listes de solutions. En d autres termes, comment elles exploitent l information présente dans les k premières propositions (Topk) des sorties de classifieurs. Topk représente le taux de reconnaissance d un classifieur pour lequel la vraie classe est présente parmi les k étiquettes des solutions à combiner. De par leur spécificité, le borda count et le meilleur rang exploitent a priori

168 168 Chapitre 3. Simulation d un classifieur Fig Relation entre les taux de rejet des méthodes de vote et le nombre de classifieurs (a) T L 1 =60% (b) T L 1 =80%

169 3.4. Apports de la simulation 169 de façons différentes les sorties des classifieurs à combiner. Pour vérifier cette hypothèse, nous avons réalisé une serie d expériences dans deux cas. Dans le premier cas, nous nous sommes focalisés sur l étude du borda et du meilleur rang avec des classifieurs produisant les mêmes performances à l intérieur de la liste de solutions. Les expériences menées dans le deuxième cas ont pour objectif d analyser le comportement des deux règles de combinaison lorsque les classifieurs produisent des performances différentes à l intérieur de la liste de solutions. Cas 1: Pour évaluer l influence du nombre de classifieurs sur le comportement des méthodes du borda count et du meilleur rang, nous avons envisagé un problème de classification à N=10 classes et nous avons combiné des ensembles de L classifieurs (L=2,3,...,10) ayant la même performance de reconnaissance dans les 3 premières propositions (T L 1 =T L 2 =T L 3 =50%). Pour chaque ensemble, l évaluation est répétée 25 fois. Le comportement de chacune des méthodes de combinaison est évalué en terme de taux de reconnaissance moyen en sortie de combinaison. La figure 3.26 présente les résultats obtenus par les 2 méthodes de combinaison en top1 et en top3. Fig Performances du borda et du meilleur rang pour T L K =50% (a) K =1 (b) K =3 Si on considère les résultats en Top 1 de la figure 3.26a, on constate que les deux méthodes se comportent différemment. Le meilleur rang produit la meilleure performance pour les ensembles dont le nombre de classifieurs est inférieur à 5. Avec un grand nombre de classifieurs cette méthode n améliore pas la performance des classifieurs individuels. Le borda count est

170 170 Chapitre 3. Simulation d un classifieur plus performant que le meilleur rang avec les ensembles composés de plus de 5 classifieurs. Ceci montre que le meilleur rang exploite mieux la première solution que la méthode du borda count avec peu de classifieurs produisant des performances faibles (50%). En Top3 (figure 3.26b), une amélioration de performance des deux méthodes est obtenue. Cependant, leur comportement ressemble à celui en top1. Ces résultats indiquent que le meilleur rang exploite mieux l information des classifieurs dans les 3 premières propositions que la méthode du borda count avec un petit nombre de classifieurs. Avec un grand nombre de classifieurs, le borda est meilleur quelque soit le nombre de propositions. Une deuxième expérimentation a été menée afin d examiner l influence de l augmentation des performances des classifieurs sur le comportement du borda count et du meilleur rang. Elle consiste à combiner des ensembles de L classifieurs (L=2,3,...,10) ayant la même performance de reconnaissance dans les 3 premières propositions (T L 1 =T L 2 =T L 3 =90%). Pour chaque ensemble, l évaluation est répétée 25 fois. La figure 3.27 présente les résultats moyens des deux méthodes de combinaison en top1 et en top3. En regardant les résultats de la figure 3.27(a), on constate que les deux méthodes de combinaison améliorent la performance des classifieurs individuels ayant un taux de reconnaissance à 90%. Le meilleur rang se comporte mieux en top1 que le borda count avec des ensembles de moins de 4 classifieurs. Lorsque le nombre de classifieurs augmente, le borda count devient plus intéressant pour la combinaison. La figure 3.27(b) confirme cette idée et montre que le borda count exploite mieux l information dans les 3 premières rangs que le meilleur rang pour L 5. Une autre expérimentation a été réalisée pour examiner le comportement des deux règles de combinaison lorsque les classifieurs produisent plus de 3 solutions. Des ensembles de 3 et 9 classifieurs ont été générés et combinés pour N=10. Chaque classifieur produit la même performance dans les 7 premières propositions (=90%). La figure 3.28 présente les résultats moyens des deux méthodes de combinaison dans les différentes propositions. Dans la figure 3.28a, on constate que le meilleur rang exploite mieux l information dans les 7 premières propositions que le borda count avec des ensembles de 3 classifieurs. On constate aussi que la grande amélioration de performance du borda count et du meilleur rang est obtenue en top3. Alors qu au delà du top3, l amélioration de performance des deux méthodes est faible. Avec plus de classifieurs (3.28b), le borda count se comporte mieux que le meilleur rang dans les 3 premières propositions. En top5 et 7, les deux méthodes sont similaires.

171 3.4. Apports de la simulation 171 Fig Performances du borda et du meilleur rang avec T L K =90% (a) en top1 (b) en top3 Fig Performances du borda et du meilleur rang avec T L K =90% (K de 1 à 7) (a) L=3 (b) L=9

172 172 Chapitre 3. Simulation d un classifieur Nous pouvons constater à travers ces résultats que le borda count et le meilleur rang améliorent de manière très significative leur performance dans les 3 premières rangs. Avec peu de classifieurs (moins de 5), le meilleur rang se comporte mieux que le borda. Alors que le borda exploitent mieux l information des classifieurs avec un nombre plus élevé de classifieurs. Cas 2: L objectif de cette étude est d examiner le comportement du borda count et du meilleur rang avec des ensembles de classifieurs produisant des performances différentes dans la liste de solutions. En d autres termes, nous voulons regarder comment elles exploitent l information présente dans les k premières propositions des sorties de classifieurs. A priori, les deux méthodes exploitent de manière différente les performances des classifieurs à combiner. Pour vérifier cette hypothèse, l expérimentation menée consiste à envisager un problème à N=10 classes et à générer des ensembles de 2 classifieurs. Les performances moyennes des classifieurs dans les 10 premières propositions sont choisies aléatoirement selon les trois profils du tableau Pour le profil 1, les taux de reconnaissance du début de la liste sont très éloignés alors que ceux de la fin de la liste sont très proches. Pour le profil 2, les 4 premiers taux de reconnaissance sont très proches et lorsque le nombre de propositions augmente, la différence entre les taux augmente aussi. Alors que la distance entre les taux de reconnaissance des différentes propositions du profil 3 est presque constante (les taux sont placés sur la diagonale). Pour chaque profil, nous avons généré 50 ensembles de classifieurs dont les performances varient entre les intervalles indiqués dans le tableau La figure 3.29 présente les performances des classifieurs générés pour les trois profils. Cette figure montrent que les performances de classifieurs respectent les bornes des taux de reconnaissance désirés. La question qu on peut se poser ici, est comment se comporte le borda et le meilleur rang avec des classifieurs du même profil et de profils différents? Pour répondre à cette question, nous avons combiné tout d abord les ensembles de classifieurs respectant le même profil et ensuite des ensembles de classifieurs dont chacun respecte un profil différent. Notons que dans la combinaison parallèle, l ordre des classifieurs n est pas pris en compte. Cela veut dire que les combinaisons des classifieurs (e i, e j ) ou (e j, e i ) sont les mêmes. Pour éviter de traiter les mêmes ensembles de classifieurs, nous avons combiné des paires de classifieurs de même profil dont le numéro du premier classifieur (i) varie de 1 à L (L est le nombre total

173 3.4. Apports de la simulation 173 Fig Performances des classifieurs générés pour un problème à 10 classes (a) profil 1 (b) profil 2 (c) profil 3

174 174 Chapitre 3. Simulation d un classifieur TopK Profil 1 Profil 2 Profil 3 TopK moyenne variation moyenne variation moyenne variation top1 50 [50.0;50.0] 50 [50.0;50.0] 50 [50.0;50.0] top2 69 [68.5;69.5] 51 [50.5;51.5] 55 [53.0;57.0] top3 79 [78.0;80.0] 53 [52.0;54.0] 61 [59.0;63.0] top4 83 [81.5;84.5] 55 [54.0;56.0] 68 [66.0;70.0] top5 87 [85.0;89.0] 59 [57.0;61.0] 74 [72.0;76.0] top6 91 [89.0;93.0] 63 [61.0;65.0] 80 [78.0;82.0] top7 95 [93.5;96.5] 67 [65.5;68.5] 85 [83.0;87.0] top8 97 [96.0;98.0] 72 [71.0;73.0] 90 [88.0;92.0] top9 99 [98.5;99.5] 80 [79.5;80.5] 95 [93.0;97.0] top [100;100] 100 [100;100] 100 [100;100] Tab Performances des classifieurs pour les trois profils des classifieurs à générer pour chaque profil) alors que celui du deuxième classifieur (j) varie de i+1 à 50. La combinaison, par borda ou par le meilleur rang, des classifieurs d un même profil est réalisée par la procédure 11. Algorithme 11 Combinaison des classifieurs du même profil Entrées : L : nombre de classifieurs à générer Début Pour i de 1 à L-1 faire Début Pour j de i+1 à L faire Début combiner les classifieurs e i et e j evaluation fusion de e i et e j Fin pour Fin pour Fin Le fait de générer 50 classifieurs (par la procédure 11) permet d avoir 50(50 1) 2 ensembles possibles de classifieurs pour chaque profil. Au total, nous avons combiné 3675 ensembles de deux classifieurs de même profil. Les performances moyennes des méthodes de combinaison pour le profil 1 sont présentées dans la figure La courbe du meilleur classifieur indique les

175 3.4. Apports de la simulation 175 taux de reconnaissance les plus élevés obtenus par les classifieurs pour chaque proposition. Les résultats de la figure 3.30 montrent que les deux méthodes de combinaison se comportent différemment au début de la liste, cas où la performance des classifieurs en top 1 est très différente de celle en top2 (différence de 19%). Le borda count produit de meilleures performances dans toutes les propositions. Le meilleur rang améliore la performance des classifieurs individuels à partir du top 2. Lorsque le nombre de propositions augmente, les deux méthodes produisent des performances similaires. Ceci montre que le borda exploite mieux la première solution que la méthode du meilleur rang lorsque les performances des classifieurs en début de liste sont très différentes. Fig Performances de la combinaison de classifieurs ayant le profil 1 Si on considère maintenant les résultats pour le profil 2 de la figure 3.31, on constate que la méthode du meilleur rang donne de meilleures performances dans les 4 premières propositions. Dans ce cas, le borda count donne des taux inférieurs à ceux des classifieurs combinés. Ce comportement change lorsque les taux des classifieurs augmentent. A partir du top 5, les performances du borda count et du meilleur rang sont très similaires. Ces résultats montrent que le meilleur rang exploite mieux l information lorsque les taux de reconnaissance des classifieurs au début de la liste sont très proches. En regardant maintenant les résultats de la figure 3.32 présentant la com-

176 176 Chapitre 3. Simulation d un classifieur Fig Performances de la combinaison de classifieurs ayant le profil 2 binaison des classifieurs du profil 3, on constate que le meilleur rang donne de meilleures performances dans les 4 premières propositions. Alors que le borda count améliore le taux de reconnaissance seulement dans les 5 dernières propositions. Les performances des classifieurs au début de la liste du profil 3 sont aussi proches (comme au profil 2) c est pourquoi le meilleur rang se comporte mieux que le borda count. Les résultats présentés pour la combinaison de classifieurs de même profil montrent bien que la méthode du meilleur rang expolite mieux l information sur la classe correcte lorsque les performances des classifieurs au début de la liste sont très proches. Le borda count est intéressant lorsque ces performances sont très différentes. Nous allons maintenant traiter la combinaison des paires de classifieurs de profils différents. Chaque classifieur du premier profil est combiné avec un classifieur du deuxième profil. Cette procédure est réalisée par l algorithme 12. La combinaison de 50 ensembles de deux classifieurs ayant deux profils différents permet d avoir 2500 ensembles possibles. Le fait d avoir 3 profils, consiste à utiliser l algorithme 12 trois fois (profils 1-2, profils 1-3 et profils 2-3). Nous obtenons donc au total 7500 ensembles de deux classifieurs. Les performances moyennes des méthodes de combinaison pour le profil 1-2 sont présentées dans la figure La courbe du meilleur classifieur indique les

177 3.4. Apports de la simulation 177 Fig Performances de la combinaison de classifieurs ayant le profil 3 Algorithme 12 Combinaison des classifieurs de profils différents Entrées : L: nombre de classifieurs à générer Début Pour i de 1 à L faire Début Pour j de 1 à L faire Début combiner les classifieurs e i et e j evaluation fusion de e i et e j Fin pour Fin pour Fin

178 178 Chapitre 3. Simulation d un classifieur taux de reconnaissance les plus élevés obtenus par les classifieurs (des deux profils) à chaque proposition. Fig Résultats de la combinaison des ensembles de classifieurs du profil 1 et 2 Les résultats de la figure 3.33 montrent que la combinaison d un classifieur de profil 1 avec un autre du profil 2 par la méthode du meilleur rang donne des performances très proches de celles produites par le meilleur classifieur. L amélioration produite par la méthode du meilleur rang est très faible dans les 5 premières propositions. Au delà, cette méthode donne des performances inférieures à chacun des classifieurs. Le borda count ne produit pas de bons résultats: pour tous les ensembles, ses taux de reconnaissance sont inférieurs à la performance du meilleur classifieur. La figure 3.34 présente les performances de la combinaison des classifieurs du profil 2 et 3 par le borda et le meilleur rang. Cette figure montre que le borda donne des taux inférieurs à ceux du meilleur rang et du meilleur classifieur dans toutes les propositions. Le meilleur rang exploite bien l information sur la bonne classe à partir de la deuxième proposition. Par exemple, une différence de 2% entre les taux de reconnaissance des classifieurs en top1 et

179 3.4. Apports de la simulation 179 en top2 a permis d obtenir une amélioration de 18% par le meilleur rang. Ces résultats confirment ce que nous avons montré précedemment c est à dire que lorsque les performances des classifieurs sont très proches, le meilleur rang donne de meilleures performances. Fig Résultats de la combinaison des ensembles de classifieurs du profil 2 et 3 En remplaçant les classifieurs du profil 2 par ceux du profil 1 c est à dire en augmentant les performances des classifieurs (figure 3.35), les performances du meilleur rang restent presque constantes alors que les taux de reconnaissance du borda count augmentent de manière significative surtout dans les 5 premières propositions. Ceci montre que le borda count est plus sensible aux performances des classifieurs que le meilleur rang. A travers les résultats que nous venons de présenter sur la combinaison des classifieurs produisant des performances selon deux profils différents, nous pouvons conclure que le meilleur rang se comporte bien (c est à dire améliore la performance de chacun des classifieurs) lorsque les performances des classifieurs sont très proches. Alors que le borda ne se comporte bien que lorsque les performances des classifieurs à l intérieur de la liste sont différentes.

180 180 Chapitre 3. Simulation d un classifieur Fig Résultats de la combinaison des ensembles de classifieurs du profil 1 et 3

181 3.4. Apports de la simulation 181 Notons que ces résultats sont obtenus avec la combinaison de deux classifieurs seulement. Nous avons vu dans les expériences du cas 1 que le meilleur rang se comporte mieux que le borda avec peu de classifieurs. A priori, si on augmente le nombre de classifieurs, le borda count peut se comporter mieux que le meilleur rang. Pour vérifier cela, nous avons combiné trois classifieurs dont deux ont le même profil. Avec 50 classifieurs par profil, nous avons obtenu au total ( ) combinaisons c est à dire groupes de trois 2 classifieurs. La figure 3.36 présente les résultats moyennes de la combinaison par le borda et le meilleur rang de deux classifieurs du profil 1 et un classifieur du profil 3. Fig Résultats de la combinaison de deux classifieurs du profil 1 et un classifieur du profil 3 En comparaison avec les résultats de la figure 3.35, la figure 3.36 montre que l addition d un classifieur du profil 1 à l ensemble de deux classifieurs (du profil 1 et 3) améliore les performances du borda count. Dans les deux premières propositions, cette méthode se comporte mieux que le meilleur rang et ses taux de reconnaissance sont supérieurs à ceux des classifieurs combinés. Le meilleur rang ne produit pas de bons résultats dans ce cas. A partir de la troisième proposition, les performances des deux méthodes sont similaires. Ceci montre que le borda count exploite mieux l information (plus

182 182 Chapitre 3. Simulation d un classifieur de capacité à faire avancer les bonnes solutions vers la première proposition) que le meilleur rang lorsqu on a plus de classifieurs dont les performances au début de la liste sont très différentes. Notons que nous avons généré des ensembles de classifieurs ayant des performances faibles (50%) au début de leurs listes de solutions. Or, nous avons vu que le borda count est sensible à ces performances. A priori, le borda count se comporte mieux que le meilleur rang quand les performances des classifieurs à combiner sont élevées au début de la liste de solutions. Cette idée reste à confirmer avec des ensembles contenant plusieurs classifieurs Evaluation type mesure Le but de cette section est de montrer comment on peut utiliser notre simulateur pour étudier le comportement des méthodes de combinaison de type mesure telles que la somme et le produit. A partir des travaux réalisés dans la littérature, nous pouvons constater que bien que ces deux opérateurs soient très utilisés, leurs résultats expérimentaux sont encore en conflit. Par exemple, dans [Kittler et al., 1998], il est montré que (sous l hypothèse d indépendance de classifieurs) la somme est toujours meilleure que le produit. Alors que dans [Tax et al., 1997], les chercheurs trouvent que la combinaison basée sur le produit donne le meilleur résultat quand les classifieurs produisent peu d erreurs. De plus, ces travaux sont limités puisqu ils utilisent un nombre fixe de classifieurs produisant une seule solution ce qui ne permet pas de répondre à beaucoup de questions intéressantes comme par exemple: comment se comportent le produit et la somme avec un grand nombre de classifieurs? Et si les classifieurs produisent une liste de solutions, comme le cas pour la reconnaissance de mots, qu elle est la méthode la plus intéressante à exploiter? Pour comprendre un peu plus le comportement de la somme et le produit, nous avons réalisé deux expériences. L objectif de la première expérience est d examiner l influence du nombre de classifieurs sur les performances des deux règles. Celui de la deuxième expérience est d évaluer la somme et le produit en fonction des performances des classifieurs. Dans les deux expériences, nous avons simulé des classifieurs produisant une liste de solutions et non seulement une seule solution. A priori, le comportement de la somme peut être différent que celui du produit à l intérieur de la liste de solutions. Influence du nombre de classifieurs Notre première expérimentation consiste à évaluer la combinaison en fonction

183 3.4. Apports de la simulation 183 du nombre de classifieurs. Pour cela, nous avons simulé des ensembles de L classifieurs (L=2,3,...,10) ayant la même performance dans les trois premières propositions (T L 1 = T L 2 = T L 3 = 90%). Chaque classifieur produit 5000 sorties pour un problème à 5 classes. La figure 3.37 présente les performances de la somme et du produit en top1 en fonction du nombre de classifieurs. Ces résultats indiquent que les deux méthodes se comportent différemment en première proposition. Avec tous les ensembles de classifieurs, la somme exploite mieux l information. Le produit donne de moins bons résultats. En revanche, son comportement s approche de celui de la somme avec un grand nombre de classifieurs. En effet, cet opérateur élimine les classes pour lesquelles un classifieur donne une confiance faible (proche de 0). Lorsque le nombre de classifieurs augmente, la chance que la vraie classe apparaisse en première proposition augmente. Fig Performance de la somme et du produit en top1 en fonction du nombre de classifieurs Si on considére maintenant les résultats en top3 de la figure 3.38, on remarque que la somme est plus performante uniquement avec des ensembles composés de moins de 5 classifieurs. Au delà, le comportement des deux opérateurs est très similaire. Ceci montre qu avec plus de solutions dans les listes de sorties, la performance du produit devient très proche de celle de la somme surtout avec plusieurs classifieurs.

184 184 Chapitre 3. Simulation d un classifieur Fig Performance de la somme et du produit en top3 en fonction du nombre de classifieurs Influence des performances de classifieurs Dans le cas réel (en particulier en reconnaissance de caractères et de mots), on peut avoir des classifieurs qui proposent un taux de reconnaissance relativement faible en première position mais présentant la bonne solution dans les K premières propositions (K>1). Notre seconde expérimentation à consisté à évaluer la somme et le produit pour ce problème. L objectif est d étudier le comportement de ces règles de combinaison avec des classifieurs proposant des performances différentes à l intérieur de leurs listes de solutions. Pour cela, nous avons généré des ensembles de 5 classifieurs ayant une performance faible en top1 égale à 50%. Les taux de reconnaissance en top3 varient de 50% à 90% par pas de 10%. La figure 3.39 présente les taux moyens de reconnaissance en top3 de la somme et du produit en fonction des performances des classifieurs. En regardant les résultats de cette figure, on constate que les deux méthodes se comportent différemment bien qu elles donnent des performances supérieures à chacun des classifieurs. La somme produit la meilleure performance lorsque les taux de reconnaissance des classifieurs en top3 sont inférieurs à 80%. Alors que le produit se comporte mieux pour des ensembles de classifieurs dont le taux moyen de reconnaissance en top3 est supérieur à 80%. Nous pouvons constater à travers ces résultats que la somme est moins sensible aux erreurs dans les trois premières propositions. Cette idée est confirmée dans [Kittler et al., 1998] avec des classifieurs proposant une seule solution. Elle se comporte mieux que le produit quand

185 3.5. Conclusion 185 les performances à l intérieur de la liste sont égaux ou proches (par exemple 50% en top1 et 50% en top3 ou 50% en top1 et 70% en top3). Lorsque la différence entre les performances à l intérieur de la liste de solutions est très importante (50% en top1 et 90% en top3), le produit se comporte mieux que la somme. Fig Résultats de la combinaison par la somme et le produit en fonction des performances des classifieurs en top3 Les résultats obtenus montrent bien que l utilisation des sorties des classifieurs varie d un opérateur de combinaison à l autre. En particulier, la somme exploite mieux l information pour des classifieurs dont les performances à l intérieur de la liste de solutions sont proches. Cependant, le produit n est intéressant qu avec des classifieurs dont les performances à l intérieur de la liste sont très différents. De plus, avec beaucoup de classifieurs produisant des erreurs faibles, le produit se comporte comme la somme. 3.5 Conclusion Dans ce chapitre, nous avons proposé un simulateur de classifieur capable de générer artificiellement des sorties de classifieur pour un problème quelconque de reconnaissance à partir d un jeu de paramètres tels que les taux moyens de reconnaissance et de rejet, leurs bornes de variation, le nombre de solutions maximal à générer, etc. L utilisation de ces paramètres diffèrent selon le type de comportement à simuler. En effet, le simulateur peut générer

186 186 Chapitre 3. Simulation d un classifieur des sorties respectant des performances semi-globales (liste de comportements) ou des performances locales (une ou deux matrices de co-présence). De plus, si le problème est incomplètement spécifié (comportement uniquement défini par des performances globales, ou listes de comportements incomplètes), une phase supplémentaire permet alors de générer aléatoirement les performances non spécifiées. Cette génération est faite de telle façon que l ensemble des contraintes à respecter soient satisfaites. Nous avons présenté aussi un ensemble de tests vérifiant la capacité du simulateur proposé à générer les performances désirées. Sur des exemples différents, nous avons montré comment le simulateur de classifieur peut être utilisé pour étudier le comportement de quelques opérateurs de combinaison. Bien que le simulateur proposé permette de produire une grande variabilité de performance pour des problèmes de reconnaissance différents en termes de nombre de classes, de types de sorties, de taille des listes de solutions, il ne permet pas de générer des ensembles de classifieurs dont on peut contrôler la diversité. Or la diversité entre les sorties de classifieurs est connue comme un facteur important qui a une influence particulière sur le comportement des méthodes de combinaison: il vaut mieux combiner des classifieurs moins performants (voire faibles) mais qui présentent des erreurs différentes plutôt que des classifieurs très performants mais qui font des erreurs identiques. Nous passons donc maintenant en revue ce concept et proposons une nouvelle méthode de génération de classifieurs corrélés en se basant sur le simulateur développé dans ce chapitre.

187 Chapitre 4. Simulation de classifieurs corrélés 187 Chapitre 4 Simulation de classifieurs corrélés Ce chapitre traite le problème de la diversité des classifieurs. En particulier il présente une étude sur l effet de la diversité des classifieurs sur le comportement des méthodes de combinaison. Ce chapitre est donc divisé en deux parties. Dans la première partie, nous présentons les mesures utilisées pour estimer la diversité entre les sorties de classifieurs. Nous passons en revue les principales techniques permettant de renforcer la diversité entre les classifieurs. Dans la deuxième partie, nous proposons une méthode de génération de classifieurs corrélés selon des performances et un niveau de diversité désiré. Cette méthode se base sur le simulateur de classifieur décrit dans le chapitre précédent. Nous évaluons les performances de cette méthode et nous montrons à partir de quelques exemples comment l exploiter pour étudier le comportement des méthodes de combinaison.

188 188 Chapitre 4. Simulation de classifieurs corrélés 4.1 Introduction Classifiers should be different, but they should also be comparable [Duin, 2002] Classifiers in an ensemble should be different from each other, otherwise there is no gain in combining them [Kuncheva, 2003] Les experts du domaine sont maintenant convaincus que la combinaison de classifieurs ne peut être efficace que si les classifieurs individuels sont différents et pas nécessairement indépendants. Ainsi, l étude du rôle de la diversité, appelée aussi complémentarité ou orthogonalité, dans l amélioration des performances d un ensemble de classifieurs est identifiée comme une direction de recherche importante, mais pas nouvelle, par plusieurs chercheurs [Krogh, 1995, Partridge and Krzanowski, 1997, Rosen, 1996]. Littlewood et al. [Littlewood and Miller, 1989] suggèrent que il est toujours préférable de forcer les différents classifieurs à utiliser des méthodologies aussi diverses que possible. Par exemple, si on dispose de trois versions de classifieurs A, B et C alors il est plus intéressant de construire un système comme ABC que AAB, BBA, ACC, CCA, etc. Comme il est montré dans [Petrakos and Benediktsson, 2001], il est préférable de combiner des classifieurs moins performants mais qui font des erreurs différentes plutôt que des classifieurs très performants mais qui présentent des erreurs identiques. En effet, plus les classifieurs sont divers (c est à dire qu ils exhibent une diversité distincte [Partridge and Krzanowski, 1997]), meilleur sera le résultat de leur combinaison. De nombreux travaux ont supposé que l indépendance de classifieurs est une hypothèse nécessaire et même obligatoire pour obtenir une amélioration significative de performances [Rogova, 1994, Kittler et al., 1998, Duin, 2002]. Mais, récemment, le problème de l hypothèse d indépendance a été posé: is independence good for combining classifiers [Kuncheva et al., 2000]. Certains chercheurs ont prouvé qu avec des classifieurs dépendants, il est possible d avoir des résultats intéressants et même meilleurs qu avec des classifieurs indépendants. D après Krogh [Krogh, 1995], l ensemble idéal est celui composé de classifieurs très performants mais le plus possible en désaccord. Kuncheva et al. [Kuncheva et al., 2003] par exemple, ont montré l efficacité de la corrélation négative sur les erreurs des classifieurs dans la combinaison de type classe. Inspirée de cette étude, Oh [Oh, 2003] a exploré la relation entre le vote à la majorité et la dépendance pour trois classifieurs. Il a montré que les classifieurs négativement dépendants sont plus intéressants à utiliser dans les systèmes de combinaison que les classifieurs indépendants. Dans [Demirekler and Altinçay, 2004], l auteur montre que l indépendance de classifieurs ne doit pas être une hypothèse obligatoire dans la conception des

189 4.1. Introduction 189 systèmes de combinaison par vote à la pluralité. Dans [Kuncheva and Whitaker, 2003], il est montré également que le meilleur résultat de la combinaison par vote à la majorité (par rapport à chacun des classifieurs) ne peut être obtenu que si toutes les paires de classifieurs ont la même valeur de diversité négative. On ne peut pas étudier le rôle de la diversité dans un ensemble de classifieurs sans tenir compte de la performance des classifieurs à combiner: c est ce que certains chercheurs appellent le compromis diversité-performance. Comme il est expliqué dans [Kuncheva et al., 2002], lorsque les performances des classifieurs augmentent, la diversité de l ensemble diminue. Il est alors intéressant d avoir un bon compromis entre diversité et performance. Jusqu à présent, il n y a pas eu d étude théorique montrant la relation entre les mesures de diversité et la performance de l ensemble de classifieurs. Par contre, par manque de cadre théorique pour ce type d étude, de nombreux travaux ont abordé de façon expérimentale l étude de la diversité: quelle mesure choisir pour tenir compte de la diversité? comment prédire les performances à partir de la diversité? L objectif de ce chapitre est de dresser tout d abord une revue des travaux qui ont abordé l étude de la diversité (choix de mesure, relation entre diversité et performance de l ensemble,...), mais aussi des techniques qui permettent de renforcer la diversité dans les ensembles. Donc la première partie de ce chapitre présente une taxonomie des mesures de diversité et les méthodes utilisées qui cherchent à renforcer la diversité afin d améliorer les performances de l ensemble. Il y a aussi des travaux qui contrôlent la diversité par simulation et qui ont pour principe de générer des classifieurs corrélés selon une diversité donnée pour expliquer son rôle dans l amélioration des performances d un ensemble de classifieurs (nous les avons passé en revue dans la section du chapitre 2). Basée sur cette idée, nous proposons dans la deuxième partie de ce chapitre notre méthode de simulation de classifieurs corrélés. Le principe de cette méthode est d utiliser le simulateur présenté dans le chapitre précédent pour générer des sorties selon les performances et le niveau de corrélation désirés. Nous avons vu que ce simulateur est capable de générer des sorties de type mesure (une confiance associée à chaque solution) et de simuler une grande variété de problèmes de reconnaissance en termes de nombre de classes, de taille des listes de solutions et de performances fixées pour différentes positions de la bonne solution dans la liste. Cependant, ce simulateur est limité et l une de ses limites est qu il ne permet pas de générer des ensembles de classifieurs dont on peut contrôler la diversité. La méthode de simulation que nous proposons dans ce chapitre permet

190 190 Chapitre 4. Simulation de classifieurs corrélés en effet de construire des ensembles de classifieurs corrélés. Dans la troisième partie de ce chapitre, nous évaluons les performances de notre méthode de simulation et nous montrons sur quelques exemples comment l utiliser pour étudier le comportement des méthodes de combinaison. 4.2 Mesures de diversité Il existe de nombreuses mesures de diversité dans la littérature qui peuvent être distinguées selon le type des sorties des classifieurs. On trouve les mesures de diversité de type: binaire, rang et mesure Type binaire Dans la littérature, ces mesures sont classées en deux catégories: les mesures pairwise se calculent pour chaque paire de classifieurs. La diversité d un ensemble à L classifieurs est obtenue en faisant la moyenne de L(L 1) mesures 2 calculées sur les paires de classifieurs. Les mesures non pairwise sont basées sur la corrélation ou l entropie permettant de calculer la diversité de tout l ensemble de classifieurs. Pour utiliser ces deux types de mesures, il faut que les sorties des classifieurs soient représentées sous forme d un vecteur binaire de taille S (S est le nombre de sorties) e j = [e 1,j,...,e S,j ] sachant que e s,j =1 si le classifieur e j propose la bonne solution, et 0 sinon (s=1 à S, j=1,..., L) Mesures pairwise Ces mesures consistent à calculer la diversité entre chaque couple de classifieurs et ensuite faire la moyenne des valeurs calculées. Pour L classifieurs, la moyenne M de chacune des mesures pairwise M ij pour toutes les paires (e i,e j ) est calculée par: M = L 1 2 SL(L 1) L i=1 j=i+1 M i,j (4.1) Pour calculer M, il faut tout d abord déterminer la relation entre chaque couple de classifieurs (voir tableau 4.1). Notons N ab le nombre de sorties s (s=1,..., S) pour lesquelles e s,i = a et e s,j =b.

191 4.2. Mesures de diversité 191 e j correcte (1) e j incorrect (0) e i correcte (1) N 11 N 10 e i incorrecte (0) N 01 N 00 N 00 + N 11 + N 01 +N 10 =S Tab. 4.1 Relation entre les sorties de deux classifieurs de type binaire Il existe une variété de mesures statistiques qui se basent directement sur les valeurs de N ab pour estimer la (dis)similarité entre les sorties de deux classifieurs [Sneath and Sokal, 1973]. Q statistique [Yule, 1900] M i,j = N 11 N 00 N 01 N 10 N 11 N 00 + N 01 N 10 (4.2) Coefficient de corrélation ρ [Kuncheva and Whitaker, 2003] M i,j = N 11 N 00 N 01 N 10 (N 11 + N 10 )(N 01 + N 00 )(N 11 + N 01 )(N 10 + N 00 ) Mesure de désaccord D [Skalak, 1996] (4.3) N 01 + N 10 M i,j = (4.4) N 11 + N 10 + N 01 + N 00 Mesure de similarité SI [Lecce et al., 2000] N 00 + N 11 M i,j = (4.5) N 11 + N 00 + N 01 + N 10 Q statistique et ρ varient entre -1 et 1. La valeur -1 indique que les classifieurs propsent des solutions différentes. La valeur 1 indique que les classifieurs sont identiques. Pour des classifieurs statistiquement indépendants, la valeur est égale à 0. D [0, 1]. Cette mesure a été utilisée par Giacinto et Roli [Giacinto et al., 2000a] afin de sélectionner le groupe de classifieurs ayant le moins de similarité et dans [Zenobi and Cunningham, 2001] comme une composante de la fonction de fitness afin de guider le processus de construction de l ensemble de classifieurs. SI=1 indique que les classifieurs sont identiques et SI=0 indique qu ils proposent des réponses différents. Lecee et al. [Lecce et al., 2000] ont utilisé

192 192 Chapitre 4. Simulation de classifieurs corrélés cette mesure pour générer des groupes de classifieurs dont chacun diffère par le taux de reconnaissance et le niveau de similarité. Les mesures suivantes (kappa, ratio entre les erreurs et WCEC) prennent en compte des informations supplémentaires (et non uniquement N 00, N 10, N 01 et N 11 ). Mesure de kappa κ [Cohen, 1960] La mesure de kappa a été introduite par Cohen [Cohen, 1960]. Soit N ij le nombre d exemples reconnus de la classe C i par le premier classifieur et de la classe C j par le deuxième classifieur, N i, le nombre d exemples reconnus C i par le premier classifieur et N i, le nombre d exemples reconnus de la classe C i par le deuxième classifieur. On peut alors définir κ comme M i,j = Θ 1 Θ 2 1 Θ 2 (4.6) Ni=1 N ii Θ 1 = S ( ) N N i Θ 2 = i=1 S.N i S (4.7) (4.8) Θ 1 estime la probabilité que les deux classifieurs soient d accord et Θ 2 estime la probabilité que les deux classifieurs soient d accord simplement par chance (puisque chaque classifieur propose sa décision aléatoirement sans connaître la réponse de l autre classifieur). La valeur de kappa peut être définie comme suit: κ est compris entre -1 et 1. κ=-1 indique que les classifieurs sont très différents et κ=1 indique le contraire. Ratio entre les erreurs R [Aksela, 2003] M i,j = N 00 different N 00 meme (4.9) Ndifferent 00 est le nombre de fois où deux classifieurs proposent en même temps des erreurs differentes. Nmeme 00 est le nombre de fois où deux classifieurs proposent les mêmes erreurs. Une valeur élevée de R signifie que les classifieurs sont différents. Weighted Count of Errors and Correct results (WCEC) [Aksela, 2003]

193 4.2. Mesures de diversité 193 Il s agit d une mesure qui tient compte en même temps du résultat correct et incorrect des classifieurs. Une valeur faible de cette mesure signifie que les classifieurs sont identiques [Aksela, 2003]. M i,j = N ( N 01 + N 10) Ndifferent Nmeme (4.10) Mesures non-pairwise Pour comprendre les mesures non-pairwise, notons par l(b s ) le nombre de classifieurs proposant, pour une forme à reconnaître b s (s de 1 à S), une réponse correcte. L entropie E [Kuncheva and Whitaker, 2003] Pour un ensemble de L classifieurs, l entropie peut être calculée comme suit: E = 1 S 2 L 1 S min {l(b i ),L l(b i )} (4.11) i=1 Pour l entropie, E varie entre 0 et 1. E=0 indique qu il n y a pas de différence entre les classifieurs alors que E=1 indique une diversité élevée. Alors que la valeur 0 peut être obtenue pour n importe quel ensemble de classifieurs, la valeur 1 ne peut être atteinte que lorsque le taux de reconnaissance des classifieurs (s il est le même) appartient à [(L-1/2L), (L+1/2L)]. Mesure de difficulté θ [Hansen and Salamon, 1990] Elle consiste à définir une variable aléatoire X ayant une valeur dans { 0 L, 1 L,...1} indiquant la proportion de classifieurs qui classent correctement une forme x parmi L classifieurs. θ = var(x) = L j=1 ( ) i 2 ( ) i L p p L (4.12) p est la moyenne des taux de reconnaissance des classifieurs. p ( ) i L est la probabilité que exactement i classifieurs parmi les L proposent la bonne réponse. Quand cette mesure est élevée, elle indique que les classifieurs sont similaires. Diversité généralisée DG [Partridge and Yates, 1996]

194 194 Chapitre 4. Simulation de classifieurs corrélés Soient p(1) la probabilité qu un classifieur, choisi aléatoirement dans l ensemble de L classifieurs, propose une réponse incorrecte pour la forme à classer et p(2) la probabilité que au moins deux classifieurs, tirés aléatoirement dans l ensemble, proposent une réponse incorrecte pour la forme à classer. DG = 1 p(2) p(1) (4.13) p(2) = p(1) = L j=1 L j=1 j L p j (4.14) j(j 1) L(L 1) p j (4.15) p j est la probabilité que exactement j classifieurs parmi les L proposent des réponses incorrectes pour une forme de test sélectionnée aléatoirement. DG =1 signifie que la diversité est maximale. Ce cas se produit quand p(2)=0 c est à dire que la probabilité que deux classifieurs proposant une réponse incorrecte pour la même forme à reconnaître est égale à 0. DG =0 quand tous les classifieurs proposent des erreurs pour les mêmes formes à reconnaître. Cela signifie que la diversité est minimale puisque la probabilité qu un classifieur échoue p(1) est égale à la probabilité que deux classifieurs proposent une réponse incorrecte p(2). Coincident failure CF [Partridge and Krzanowski, 1997] Elle consiste à mesurer les erreurs proposées par coincidence pour un ensemble de L classifieurs. { 1 Lj=1 L j CF = p 1 p 0 L 1 j si p 0 < 1 (4.16) 0 si p 0 = 1 CF =0 indique que les classifieurs sont tous d accord, c est à dire pas de diversité, soit parce qu ils proposent les mêmes erreurs, soit parce que leur réponse est correcte. CF=1 quand un seul classifieur parmi l ensemble propose une réponse incorrecte pour toutes les formes à reconnaître, c est à dire p 1 =1. Percentage correct diversity measure (PCDM) [Banfield et al., 2003] Elle est basée sur le nombre total de votes correct des classifieurs dans la base de test. P CDM = 1 S l(t s ) (4.17) S s=1

195 4.2. Mesures de diversité 195 l(t s ) est le nombre de votes des classifieurs proposant une réponse correcte pour chaque forme t s de la base de test. Si ce nombre est compris entre 0.1L et 0.9L, il est alors pris en compte dans le nombre total. Le choix des valeurs 0.1 et 0.9 est empirique. PCDM est comprise entre 0 et 1. Quand PCDM est élevée, elle indique que l ensemble des classifieurs présente plus de diversité dans les réponses. Cette mesure varie proportionellement avec le taux de reconnaissance. Exponentiel du nombre d erreurs [Aksela, 2003] Notons par Njsame 0, le nombre de formes pour lesquelles j classifieurs proposent la même erreur (j= 1,..., L, s= 1,..., S) et par Nall, 1 le nombre de formes reconnues correctement par tous les classifieurs (en même temps). L exponentiel est: r EXP = Lj=1 (N 0 jsame) j N 1 all (4.18) Cette mesure est proposée dans [Aksela, 2003] pour pénaliser les classifieurs ayant les mêmes erreurs. La comparaison de cette mesure avec d autres mesures de diversité pairwise a révélé que l exponentiel est la mesure qui permet de prédire les meilleurs sous-groupes de classifieurs à combiner dans l expérimentation menée par Aksela. Erreur relative (ER) D après Ruta et Gabrys [Ruta and Gabrys, 2002], Plus la mesure de diversité est corrélée (lié) à l erreur de l ensemble, mieux elle est utilisée. C est pourquoi, ils proposent une mesure qui se base directement sur l erreur de la méthode de combinaison. Notons respectivement Ecomb min et Emax comb, les bornes minimale et maximale de l erreur de l ensemble par le vote à la majorité. L erreur relative (ER) se calcule comme suit: ER = E comb E 0 E 0 Ecomb min E comb E 0 Ecomb max E 0 E min comb = max0, LE L/2 +1 L L/2 +1 E max comb = min LE L/2 sie comb E 0 (4.19) sie comb > E 0 (4.20) E 0 est l erreur du système de combinaison pour lequel ER est égale à 0. E est l erreur moyenne des classifieurs. Deux possibilités pour la valeur de E 0 ont été considérées: l erreur du vote à la majorité supposant que les classifieurs

196 196 Chapitre 4. Simulation de classifieurs corrélés sont indépendants ou l erreur moyenne des classifieurs. Notons que pour ces deux versions, la mesure ER est toujours comprise entre -1 et 1. ER=1 correspond à l erreur maximale du vote à la majorité. ER=-1 correspond à la valeur de l erreur minimale de la même règle de combinaison Type rang L objectif des mesures de type rang est d estimer la corrélation entre les classifieurs produisant des listes de rangs. Les mesures de type rang les plus utilisées sont: le coefficient de Spearman, le taux de Kendall et le moment du produit de Person. Coefficient de Spearman CS Le coefficient de Spearman CS est une mesure qui estime le degré de corrélation entre les rangs [Spearman, 1906, Griffiths, 1980]. Pour calculer le coefficient de Spearman, on se base directement sur le calcul de la distance entre les rangs des classes. En général, cette distance est faible lorsqu il y a un grand accord entre les classifieurs. Elle prend la valeur minimale 0 seulement dans le cas d une corrélation complète. Pour un problème à N classes, le coefficient de Spearman entre les sorties de deux classifieurs e 1 et e 2 est : CS = 1 6 N i=1 (r i,1 r i,2 ) 2 N(N 2 1) (4.21) r i,j est le rang attribué à la classe C i (i=1,...,n) par le classifieur e j. Le coefficient de Spearman prend la valeur maximale 1 seulement dans le cas d une corrélation positive (accords entre les classifieurs). Dans le cas de désaccord complet entre les classifieurs, la mesure atteint sa valeur minimale -1. Les classifieurs sont indépendants quand CS = 0. Coefficient de Kendall Le coefficient de Kendall [Wilkie, 1980] mesure la tendance ou la relation entre deux rangs. Si r i,1 r i,2 est positive, on dit que cette paire est concordante, 1 i N. Si elle est négative, on dit qu elle est discordante. Dans un exemple contenant N classes, on peut former N(N-1)/2 paires correspondantes. Soit C le nombre de paires concordantes et D le nombre de paires discordantes. Une façon simple de mesurer la relation est de calculer S = C - D, S est la quantité de Kendall dépendante de la taille de N. En effet, S peut varier entre N(N 1) et + N(N 1). Si on calcule alors t = 2S, 2 2 N(N 1) on aura toujours 1 t 1. La quantité t (ou taux) est connue sous le

197 4.2. Mesures de diversité 197 nom de coefficient de Kendall. La valeur maximale +1 est obtenue si tous les N(N 1) 2 paires sont concordantes. La valeur minimum -1 est obtenue si toutes les paires sont discordantes. Moment de produit de Pearson Cette mesure de corrélation entre les rangs notée r est comprise entre -1 et 1. Elle est donnée par: r = N N i=1 r i1 r i2 N i=1 r Ni=1 i1 r i2 [N N i=1 ri1 2 ( N i=1 r i1 ) 2 ][N N i=1 ri2 2 ( N i=1 r i2 ) 2 ] (4.22) Type mesure Corrélation Comme pour les sorties de type rang, on peut calculer la corrélation entre les sorties de classifieurs de type mesure. La corrélation entre les confiances de deux classifieurs e 1 et e 2 est donnée par: ρ e1,e 2 = N N i=1 m i1 m i2 N i=1 m Ni=1 i1 m i2 [N N i=1 m 2 i1 ( N i=1 m i1 ) 2 ][N N i=1 m 2 i2 ( N i=1 m i2 ) 2 ] (4.23) Information mutuelle Comme il a été suggéré dans [Kang and Lee, 2000], la diversité entre les classifieurs peut être estimée par l information mutuelle. Minimiser l information mutuelle permet de maximiser la diversité de l ensemble de classifieurs. L information mutuelle entre deux classifieurs e 1 et e 2 peut être calculée comme suit: N N p(c i,c j ) I e1,e 2 = p(c i,c j )log( i=1 j=1 p e1 (C i )p e2 (C j ) ) (4.24) Mesures de dissemblance Si on considère deux classifieurs e 1 et e 2 produisant chacun un vecteur de mesure [m 1,j,...,m N,j ] (j=1,2), on peut alors calculer les distances de (dis)semblance suivantes entre ces vecteurs [Perlibakas, 2004] Distance de Minkowski (métrique L p avec p 1) ( N ) 1/p D (e 1 e 2 ) = m i,1 m i,2 p i=1 (4.25)

198 198 Chapitre 4. Simulation de classifieurs corrélés Pour p=1, il s agit de la distance de Manhattan ou de Hamming: N D (e 1 e 2 ) = m i,1 m i,2 (4.26) i=1 Pour p=2, il s agit de la distance euclidienne: N ( D (e 1 e 2 ) = [mi,1 m i,2 ] 2) 1 2 i=1 (4.27) D autres variantes de la distance euclidienne sont: la somme au carré (sum square SS) et la moyenne au carré (mean square MS) Distance de Chebychev: SS (e 1 e 2 ) = N i=1 (m i,1 m i,2 ) 2 MS (e 1 e 2 ) = 1 Ni=1 (m N i,1 m i,2 ) 2 (4.28) D (e 1 e 2 ) = Distance basée sur l angle N max i=1 m i,1 m i,2 (4.29) D (e 1 e 2 ) = cos (m 1 m 2 ), = N N i=1 m i,1m i,2 i=1 m2 i,1 N i=1 m2 i,2 (4.30) Distance Chi square χ 2 Distance de Canberra D (e 1 e 2 ) = N i=1 (m i,1 m i,2 ) 2 m i,1 + m i,2 (4.31) D (e 1 e 2 ) = N i=1 m i,1 m i,2 m i,1 + m i,2 (4.32) Conclusion Comme nous le constatons, plusieurs mesures de diversité incluant la corrélation, la similarité, l accord, le désaccord, ont été proposées dans la littérature. Ce sont les mesures binaires qui ont été les plus utilisées. Dans [Kuncheva and Whitaker, 2003], dix de ces mesures ont été examinées dans l objectif d analyser la performance du vote à la majorité en fonction de la diversité des classifieurs. Les résultats obtenus ont montré qu aucune de

199 4.3. Comment renforcer la diversité? 199 ces mesures de diversité ne permet de donner une idée claire sur la relation entre performance du vote à la majorité et diversité entre les classsifieurs. Cependant, l utilisation du Q statistique a été recommandée pour des raisons de simplicité (facile à calculer) et d interprétation facile (=0 dans le cas d indépendance de classifieurs). Toutes les mesures de diversité peuvent être utilisées pour estimer la dépendance entre les sorties de classifieurs. Récemment dans [Tsymbal et al., 2004], il est montré que la question de la supériorité d une mesure de diversité sur une autre dépend du contexte de son utilisation et des données traitées. Les mesures de diversité ont été utilisées dans plusieurs problèmes différents comme l analyse de la relation entre l erreur de classification et la performance des classifieurs [Tumer and Ghosh, 1999], l identification du sous-ensemble de classifieurs donnant la performance prédictive la plus élevée, la sélection de caractéristiques [Tsymbal et al., 2004] ou la construction des ensembles de classifieurs corrélés [Cunningham and Carney, 2000, Cohn et al., 1994, Rosen, 1996, Kuncheva and Kountchev, 2002, Liu and Yao, 1999]. Pour cette dernière direction, c est à dire la construction de classifieurs différents, plusieurs travaux introduisent des modifications sur les bases de données ou sur les classifieurs. Dans la section suivante, nous présentons les études qui ont abordé ce problème: renforcer la diversité entre les sorties des classifieurs pour améliorer la performance de l ensemble. 4.3 Comment renforcer la diversité? Cette question a été posée au départ dans la communauté réseaux de neurones [Partridge and Yates, 1996] qui a constaté que les systèmes de combinaison ne produisent pas toujours de meilleures performances que celles des classifieurs à combiner. Ceci est du au fait que les membres de tels systèmes sont fortement corrélés et tendent à produire les mêmes erreurs simultanément. C est pourquoi, plus d attention et d efforts ont été portés ces dernières années sur la construction de classifieurs en générant implicitement ou explicitement la diversité nécessaire pour optimiser l ensemble de classifieurs. Dans [Knight and Levson, 1986], les auteurs ont évalué deux groupes de réseaux : dans le premier groupe, les réseaux sont appris sur la même base mais initialisés différemment. Alors que dans le deuxième groupe, les réseaux ont les mêmes poids initiaux mais utilisent des bases d apprentissage

200 200 Chapitre 4. Simulation de classifieurs corrélés différentes. Ils ont montré que l erreur de la combinaison de deux réseaux avec initialisation différente est plus faible que celle obtenue par deux réseaux avec initialisation identique. Ceci était le premier travail sur la construction de réseaux de neurones dont les sorties sont différentes. Depuis, plusieurs techniques ont été développées permettant de renforcer la diversité entre les classifieurs. Partridge et al. [Partridge and Yates, 1996] ont exploré plusieurs possibilités de construction des réseaux de neurones différents. Ils ont constaté que le gain de diversité produit par ces techniques est limité. Ils ont ordonné ces techniques dans l ordre décroissant de production de la diversité: type du réseau de neurones > base d apprentissage > architecture initialisation. Cet ordre est aussi confirmé dans [Littlewood and Miller, 1989] indiquant que les classifieurs implémentés avec différentes méthodologies peuvent produire un gain plus élevé de diversité que les autres variations. D après Maclin et al. [Maclin and Opitz, 1997], l initialisation différente des classifieurs de type neuronal peut donner les mêmes résultats que l apprentissage sur des bases générées par bootstrapping. Dans [Wang et al., 2000], par exemple, différents systèmes de combinaison ont été construits: des systèmes composés de réseaux de neurones appris sur différentes bases et utilisant des sous-ensembles de caractéristiques différents (en faisant aussi varier les poids et le nombre de neurones); des systèmes d arbres de décision et des systèmes hybrides (contenant les deux types de classifieurs). Les réseaux de neurones générés sont plus performants mais moins divers que les arbres de décision. La mesure CF (coincident failure) a été utilisée pour comparer le niveau de diversité entre ces classifieurs et les résultats de la combinaison. Le groupe le plus performant et le plus divers est obtenu par la combinaison de tous les réseaux de neurones et la moitié des arbres de décision. Récemment, Duin [Duin, 2002] liste les principales stratégies et les classe par ordre croissant de priorité: Initialisations différentes : Initialiser les classifieurs de différentes façons peut donner des sorties différentes. Ceci peut être appliqué

201 4.3. Comment renforcer la diversité? 201 spécialement pour les réseaux de neurones. Choix de paramètres : comme le nombre de voisins k dans le classifieur de type k-plus proches voisins (kppv) [Giacinto et al., 2000a], le nombre de neurones dans les réseaux, la taille de la fenêtre pour le classifieur Parzen, etc. Architectures différentes : ceci est utilisé plus particulièrement pour les réseaux de neurones qui peuvent être caractérisés par un ensemble de couches cachées différentes. Ce qui engendre une variété de classifieurs par exemple RBF, MLP. Structures différentes : dans certains cas, les chercheurs sont amenés à utiliser le même espace de caractéristiques ou la même base d apprentissage [Duin and Tax, 2000]. Afin d éviter la redondance dans la prise de décision, ils utilisent des classifieurs de différentes structures. Dans la littérature, plusieurs types de classifieurs existent. On peut citer par exemple Bayesien, Gaussien, réseau de neurones, kppv, arbre de décision. Bases d apprentissage différentes : ceci consiste à former à partir de la base d origine, des sous-bases de données différentes. Les techniques les plus utilisées pour cela sont essentiellement le bootstrapping [Breiman, 1996a] et le boosting 1. Construire des groupes de données spécifiques à chacune des classes par exemple par clustering est aussi une autre façon d avoir des bases différentes. Caractéristiques différentes: l utilisation d une ou de plusieurs familles de caractéristiques adaptées à chacun des classifieurs peut produire des sorties différentes [Duin and Tax, 2000, Xu et al., 2002]. D autres chercheurs [Kittler et al., 1998] pensent aussi que l utilisation de caractéristiques ou de bases d apprentissage différentes sont les meilleurs moyens d obtenir des classifieurs indépendants. Dans ce qui suit, nous décrivons ces deux techniques. Cependant, ce choix n est pas généralisable. En effet, il n y a pas d étude comparative claire qui justifie ce choix sans qu il soit lié à un contexte applicatif donné. 1. voir section suivante

202 202 Chapitre 4. Simulation de classifieurs corrélés Caractéristiques différentes Dans certaines applications, les données peuvent être représentées sous forme de primitives. L identification d une personne par exemple, peut se faire par la parole et/ou par l image. L utilisation d une ou de plusieurs familles de caractéristiques adaptées à chacun des classifieurs peut produire des sorties différentes [Duin and Tax, 2000, Tax et al., 2000, Xu et al., 2002]. Une façon d obtenir des sorties différentes avec des classifieurs homogénes (même structure) est d utiliser des sous-ensembles de caractéristiques différentes dont chacun permet de discriminer une classe des autres (le nombre de classifieurs est égal au nombre de classes [Oza and Tumer, 1999]). La recherche de ces sous-ensembles de caractéristiques est aussi connue comme sélection de caractéristiques [Opitz, 1999]. Les méthodes traditionnelles de sélection de caractéristiques sont utilisées pour ça. Leur objectif n est pas seulement la recherche du meilleur groupe de caractéristiques, mais aussi la recherche du sous-ensemble de caractériques permettant de produire plus de désaccord entre les classifieurs. Les méthodes de sélection de caractéristiques nécessitent généralement une stratégie de recherche et un critère de sélection (fonction de fitness par exemple). Le but de la stratégie de recherche est de trouver le sousensemble de caractéristiques qui maximise ou minimise le critère de sélection. Une possibilité est d utiliser un critère de sélection qui tient compte en même temps de la diversité entre les classifieurs et leur performance. La mesure de fitness proposée dans [Opitz, 1999] est basée sur ces deux critères permettant de sélectionner les ensembles de caractéristiques les mieux adaptées aux classifieurs. Ho [Ho, 1998] a montré qu une simple sélection aléatoire des sous-ensembles de caractéristiques peut être efficace puisque le manque de performance des classifieurs est compensé par la diversité des caractéristiques. Cette technique appelée Random Subspacing (RS) permet de modifier les données dans l espace de caractéristiques. Disposant d un ensemble initial F de caractéristiques, on sélectionne au hasard p caractéristiques de F. Ceci est répété L fois pour obtenir des sous-ensembles de caractéristiques différents. Les L classifieurs sont ensuite construits dans les sous-espaces et combinés par la règle de vote à la majorité. Au lieu de sélectionner un nombre fixe F pour tous les sous-ensembles de caractéristiques comme dans [Ho, 1998] (elle utilise approximativement la moitié des caractéristiques pour chaque classifieur), dans [Tsymbal et al., 2003] chaque sous-ensemble contient un nombre de caractéristiques différent choisie

203 4.3. Comment renforcer la diversité? 203 aléatoirement. Il est constaté que cette technique permet de construire des classifieurs avec une diversité et des performance élevées. Skurichina et al. [Skurichina and Duin, 2000a] ont montré que la méthode RS permet de maintenir une erreur faible en apprentissage et d améliorer l erreur de généralisation pour des classifieurs linéaires Bases d apprentissage différentes D après Hansen et Salamon (dans le cadre de la combinaison des réseaux de neurones)[hansen and Salamon, 1990], même si les classifieurs sont identiques, l amélioration de performance peut être obtenue si l apprentissage des classifieurs est réalisé sur des données indépendantes (c est à dire si les bases sont constituées de manière différente). Les travaux sur la validation croisée et le bootstrapping [Raviv and Intrator, 1996, Krogh, 1995, Parmanto et al., 1996], l algorithme de boosting [Drucker et al., 1994], la transformation non-linéaire des données [Sharkey et al., 1996] et l injection du bruit dans la base d apprentissage [Raviv and Intrator, 1996] vont dans cette direction. Toutes ces méthodes sont capables de produire, à partir d une base d apprentissage initiale, des ensembles de données qui peuvent être utilisés pour apprendre des classifieurs différents. Cependant, il est suggéré que la validité de chacune de ces méthodes dépend des données utilisées [Sharkey et al., 1996]. Le boosting, par exemple, nécessite une large base de données. Probablement, bagging et boosting sont les méthodes de construction d ensembles les plus utilisées dans la littérature. Initialement, ces deux techniques étaient conçues pour améliorer la performance des arbres de décision qui sont des classifieurs faibles (dont les performances ne sont pas stables) [Breiman, 1996a, Freund and Schapire, 1996, Quinlan, 1996]. Cependant, il est constaté qu elles sont aussi efficaces pour d autres types de classifieurs tels que les classifieurs linéaires [Skurichina, 2001], les réseaux de neurones [Avnimelech and Intrator, 1999, Maclin and Opitz, 1997] et les k-plus proches voisins [Breiman, 1996b]. Pour les classifieurs linéaires, la performance de bagging et boosting est affectée par la taille de la base d apprentissage, le choix du classifieur ainsi que la règle de combinaison [Skurichina, 2001].

204 204 Chapitre 4. Simulation de classifieurs corrélés Bagging Bagging [Breiman, 1996a] est basée sur les concepts de Bootstrapping et d aggregating. Le bootstrapping [Efron and Tibshirani, 1993] est conçu pour générer au hasard et avec remise L copies indépendantes de S objets appelées bootstrap à partir de l ensemble initial des échantillons d apprentissage de taille S. Un objet de la base initiale peut être sélectionné plusieurs fois comme il peut être absent dans les copies générées. Le même classifieur est appris sur chacune des copies. On obtient par la suite L classifieurs avec des performances différentes. L aggrégation consiste à combiner ces classifieurs en utilisant le vote à la majorité comme règle de combinaison. L algorithme 13 illustre le fonctionnement de bagging. Algorithme 13 Description générale de la méthode de bagging Entrée: B a : base d apprentissage S: taille de la base d apprentissage x: forme à reconnaître Début Pour j de 1 à L faire Début Fin Générer la sous-base b j à partir de B a. Construire le classifieur e j (x) en utilisant la base b j Fin faire Combiner les L classifieurs construits par le vote à la majorité afin d obtenir la décision finale de x. L étude simulée de Skurichina [Skurichina and Duin, 1998] a montré que, généralement, bagging est une technique qui permet d améliorer la performance des classifieurs linéaires instables. Cette conclusion a été déjà montrée dans [Breiman, 1996a] où l auteur note que: The vital element is the instability of the prediction method. If perturbing the learning set can cause significant changes in the predictor constructed, then bagging can improve accuracy. La réduction de l erreur de classification ne peut donc être obtenue que dans le cas d une combinaison de classifieurs instables. Pour des classifieurs stables, elle détériore la performance de la combinaison. Différentes modifications du bagging ont été étudiées. Par exemple, la technique dite nice bagging consiste à combiner les meilleurs classifieurs (c est à dire les classifieurs dont les erreurs obtenues sur les versions de boots-

205 4.3. Comment renforcer la diversité? 205 trap sont les plus faibles) [Taniguchi and Tresp, 1997]. Cette méthode est préférable à la version originale de bagging dans la mesure où elle permet de construire le classifieur avec le minimum d erreur de classification. Une autre version de Bagging nommée half-and-half bagging [Breiman, 1998] a été développée. L idée de base est simple. Supposons que la base d apprentissage contienne S points. Supposons aussi que l classifieurs sont déjà construits. Pour obtenir la base d apprentissage suivante, on tire aléatoirement un point x. Ce point est présenté à l ensemble de classifieurs qui n ont pas utilisé x dans leur base d apprentissage. La combinaison par vote à la majorité de leur résultats donne une décision à propos de la classe du point x. Si x est mal classsé alors il est mis dans une base MC. Sinon il est mis dans une autre base CC. On arrête le processus quand les effectifs des deux bases MC et CC sont égaux à M avec M = S/4. Dans bagging, approximativement 1/3 des exemples ne font pas partie des données tirées dans les copies de bootstrap. Breiman [Breiman, 1996a] les appelle out of bag. Dans [Hothorn and Lausen, 2003], cette base est utilisée pour estimer les coefficients de la fonction linéaire. A chaque itération, le classifieur de type arbre de décision est construit tout d abord en utilisant ses paramétres d apprentissage (obtenus sur la version de boostrapping) et ensuite avec les variables déterminées par la fonction linéaire qui combine l ensemble de classifieurs (obtenues sur les exemples qui n apprtiennent pas à la version de boostrapping). Par conséquent, on obtient deux classifieurs différents à chaque étape, c est pourquoi la méthode est nommée doublebagging Boosting Contrairement au bagging où les ensembles d apprentissage de bootstrap et les classifieurs sont construits de manière indépendante, dans boosting, les échantillons d apprentissage sont construits incrémentalement par le même classifieur et de manière séquentielle [Freund and Schapire, 1996]. Initialement, tous les échantillons d apprentissage ont des poids égaux et le classifieur est construit sur cette base. Ensuite pour chaque étape, les échantillons sont pondérés de façon à ce que les objets mal classés (qui se trouvent généralement aux frontières des classes) aient des poids élevés et le classifieur est lancé sur le nouvel ensemble d apprentissage ainsi pondéré. De cette manière, on obtient finalement un ensemble de classifieurs qui sont combinés par un vote pondéré pour avoir la décision finale (voir algorithme 14).

206 206 Chapitre 4. Simulation de classifieurs corrélés Algorithme 14 Description générale de la méthode de boosting Entrée: B a : base d apprentissage S: taille de la base d apprentissage x: forme à reconnaître Début Initialiser tous les poids ws 1 (s=1,...,s) des éléments de la base d apprentissage B a à 1 S. Pour j de 1 à L faire Début Générer la sous-base b j à partir de B a. Construire le classifieur e j en utilisant la base b j Calculer l erreur de l ensemble ɛ j = S ws j (1 e s,j) (4.33) s=1 e s,j =1 si le classifieur e j reconnaît correctement le s ieme élément et e s,j = 0 sinon. Si ɛ j = 0 ou ɛ j 0.5 alors réinitialiser w j s à 1 S Calculer le coefficient de pondération à utiliser dans la règle de combinaison β j = ɛ j (4.34) 1 ɛ j Calculer le poids de chaque élément de la base suivante ws j+1 ws j = β j S l=1 wj l β j (4.35) Fin faire Combiner les L classifieurs construits par le vote pondéré afin d obtenir la décision finale de x. Le vote de chaque classifieur e j est pondéré par un poids de log(β j ). Fin

207 4.3. Comment renforcer la diversité? 207 D autres versions du boosting ont été étudiées par certains chercheurs [Drucker et al., 1994, Ji and Ma, 1997, Maclin and Opitz, 1997] pour améliorer la performance des classifieurs. Les plus utilisées sont : Arcing [Breiman, 1996b] et Ada-Boosting [Freund and Schapire, 1996]. La différence d ada-boosting (Adaptive Boosting), par rapport à boosting, réside dans la condition d arrêt: si ɛ j est supérieure à 0.5 alors la procédure s arrête et L est égal à j-1 (c est à dire que le dernier classifieur ne sera pas pris en compte dans la combinaison de l ensemble). Si au contraire, tous les élements sont bien classés et donc ɛ j = 0, alors on passe à la combinaison. Dans ada-boosting, le vote de chaque classifieur e j est pondéré par log( 1 β j ), β j est définie dans l équation 4.34 de l algorithme 14. Dans Arcing (Adaptive Re-weighting and Combining), la sélection de la base d apprentissage se réalise de manière un peu différente. Pour chaque élément b i,j de la base d apprentissage, la valeur m i indique le nombre de fois que cet élément a été mal classé par les classifieurs déjà construits. La probabilité p i de sélection de b i,j dans la base du prochain classifieur e j+1 est définie par: p i = 1 + m 4 i Sk=1 1 + m 4 i (4.36) Breiman [Breiman, 1996b] choisit d élever m i à la puissance 4 dans la formule 4.36 empiriquement après plusieurs tests. Contrairement à Ada- Boosting, Arcing combine les classifieurs par le vote simple (sans pondération). L algorithme de boosting proposé dans [Ji and Ma, 1997] est testé sur des bases artificielles et réelles en fonction de certains paramètres (le nombre de classifieurs, le facteur de faiblesse permettant de sélectionner les classifieurs faibles à combiner et le seuil de partition de la base d apprentissage). L analyse théorique présentée a permis de fournir des solutions pour le problème de choix du facteur de faiblesse et le seuil de partition de la base d apprentissage. Cependant le problème de choix du nombre de classifieurs reste un problème ouvert Evaluation de bagging et boosting Dans [Skurichina et al., 2002], bagging et boosting ont été étudiés pour des problèmes à 2 classes. Par ces deux méthodes, 250 classifieurs ont été générés et combinés par le vote pondéré. Il est montré que la diversité de l ensemble de classifieurs dépend de la taille de la base d apprentissage. Dans bag-

208 208 Chapitre 4. Simulation de classifieurs corrélés ging, les classifieurs sont plus dépendants quand la taille de la base d apprentissage est large. En effet, le bootstrap est moins efficace avec beaucoup de données. Les versions construites par cette technique ont des caractéristiques similaires puisque leur distribution est souvent proche de la distribution des données d origine. Dans boosting, les données d apprentissage sont modifiées de telle sorte que les éléments mal classés dans la copie précédente ont des poids élevés dans la nouvelle copie. L utilisation d une grande base de données signifie un grand nombre de données aux frontières des classes. La construction des classifieurs séquentiellement permet de modifier les poids de ces données. Par conséquent, les frontières des classes deviennent mieux définies. C est pour cette raison que les versions construites par boosting sont plus diverses. Il est donc préférable d utiliser peu de données pour bagging mais beaucoup de données pour boosting. Dans [Quinlan, 1996], l auteur compare bagging et boosting (Ada-boost) en combinant 10 copies d un classifieur de type arbre de décision C 4.5 appris sur 27 bases de données (réelles) différentes. Il est constaté que bien que ces deux techniques permettent de réduire l erreur du classifieur initial, elles se comportent différemment. Bagging réduit l erreur de C 4.5 de 10% en moyenne dans 24 bases parmi les 27. Boosting réduit l erreur de 15%, mais améliore la performance des classifieurs dans 21 bases. Il est également remarqué que la détérioration de performance de boosting est due en grande partie à la redondance des versions générées. Pour plusieurs bases de données, boosting nécessite moins de copies que ce qui est pré-défini pour arriver à classer correctement la base d apprentissage. Le choix de la règle de combinaison (ici le vote pondéré et surtout les poids des classifieurs) influe aussi sur la performance de boosting. Contrairement à l étude de Friedman [Friedman, 1989] où il est difficile d utiliser d autres règles de combinaison à part le vote simple ou pondéré, celle de Skurichina [Skurichina and Duin, 2000a] fait appel à d autres méthodes de combinaison, à savoir l analyse discriminante linéaire (LDA), la règle moyenne et la règle du produit. Les résultats de cette étude ont montré que boosting est meilleur que bagging pour toutes les méthodes de combinaison utilisées et sur des bases d apprentissage de grande taille. Dans [Nishimura et al., 1999], l auteur propose aussi d utiliser d autres règles de combinaison dans Bagging à la place du vote à la majorité. Avec des données réelles (base de lettres), il est apparu que bagging avec le vote reste préférable. Dans [Maclin and Opitz, 1997], les deux versions de boosting (Arcing et

209 4.3. Comment renforcer la diversité? 209 Ada-Boosting) ont été comparées à bagging sur 23 bases différentes. Les résultats ont montré que: 1. Bagging donne toujours une performance meilleure que chacun des classifieurs. 2. Les deux versions de boosting sont plus sensibles au bruit. Sur certaines bases, arcing et ada-boosting n apportent aucun gain par rapport à chacun des classifieurs et sur d autres bases, elles améliorent la performance de manière significative, même par rapport à bagging. D après ces résultats, il est préférable d utiliser boosting (surtout ada-boosting) si la base de données est non bruitée, dans le cas contraire c est le bagging qu il faut utiliser (puisqu elle est moins sensible au bruit). Dans [Melville and Raymond, 2003], bagging et boosting (version Adaboosting) ont été comparés sur 15 bases de données différentes à une autre technique nommée DECORATE (Diverse Ensemble Creation by Oppositional Relabeling of Artificial Training Exemples). La différence de cette méthode par rapport à bagging et à boosting, est qu elle génére plus de données d apprentissage afin d obtenir des classifieurs plus différents et n intégre dans le processus de combinaison que les classifieurs qui minimisent le taux d erreur de tout l ensemble. Elle utilise donc ce taux d erreur comme critère de sélection de classifieurs. L ensemble de départ est composé du premier classifieur (de type arbre de décision) construit sur toute la base d apprentissage B a. Son erreur est également calculée. Dans chaque étape successive, une nouvelle base d apprentissage B a est créée constituant l union de la base d origine et une fraction de celle-ci (B a = B a (1 + R), R varie entre 0.1 et 1). La partie supplémentaire de la base d apprentissage est construite de telle manière qu elle contienne le plus possible d éléments différents de la base d origine. Elle est éliminée après l apprentissage du classifieur sur B a (c est à dire, on revient à la base d origine B a ). L intégration de ce classifieur dans le groupe final dépend de la nouvelle erreur calculée. Il s agit du pourcentage du nombre d éléments de la base d apprentissge pour lesquels les classifieurs de l ensemble proposent (en même temps) une réponse incorrecte. Si cette erreur est inférieure à l erreur de l itération précédente, le classifieur est accepté, sinon il est rejeté. La combinaison de l ensemble final de classifieurs est réalisée avec la règle moyenne simple. L avantage de cette méthode, par rapport à bagging et à boosting, est qu elle apporte plus de gain de performance avec peu d exemples d apprentissage.

210 210 Chapitre 4. Simulation de classifieurs corrélés Conclusion En résumé, il existe plusieurs façons de construire de classifieurs dont les sorties sont différentes. On peut obtenir ces classifieurs en introduisant des modifications sur les bases d apprentissage, l espace de caractéristiques, les structures des classifieurs, etc. Il est important de souligner que malgré la variété de ces techniques, il est encore difficile de dire laquelle est meilleure. Ceci s explique (en grande partie) par le fait que le nombre de comparaisons entre les différentes techniques est limité. La plupart des travaux s intéressent à la modification des bases d apprentissage et se concentrent en particulier sur la comparaison de adaboost à bagging. Il est clair qu il faut plus d études comparatives afin de connaître les conditions d utilisation de chacune des méthodes. Il est également reconnu que l évaluation des méthodes de combinaison en fonction de la diversité obtenue par ces techniques est limitée dans la mesure où on ne peut pas avoir une grande variabilité de corrélation entre les classifieurs qu elles construisent. La diversité ne peut être mesurée qu après la construction des classifieurs (a posteriori). Elle peut être renforcée mais pas contrôlée. Tenir compte a priori de la corrélation ou de la dépendance entre les classifieurs est bien évidemment plus intéressant pour construire des ensembles de classifieurs avec des niveaux différents de corrélation. Ce n est que par simulation qu il est possible de contrôler cette corrélation. Ceci consiste à utiliser une mesure de diversité dans le processus de génération de classifieurs. Comment simuler des classifieurs corrélés? C est ce que nous présentons dans la section suivante. 4.4 Méthode proposée Il existe peu de travaux qui ont traité le problème de simulation de classifieurs corrélés et encore moins qui ont utilisé une mesure de diversité dans la simulation. Nous avons passé en revue ces travaux dans le chapitre 2. Tenir compte de la corrélation ou de la dépendance entre les classifieurs dans ces travaux s avère intéressant; cependant, les générateurs développés ne peuvent être utilisés que pour étudier les méthodes de combinaison de type classe. Si l on veut étudier les méthodes de type rang ou les méthodes de type mesure en fonction de la diversité, nous devons disposer d un simulateur qui permet de générer des sorties corrélées de type mesure. Notre objectif est de construire des ensembles de classifieurs produisant

211 4.4. Méthode proposée 211 des listes de solutions différentes en se basant sur le simulateur de classifieur que nous avons développé dans le chapitre précédent. Nous sommes donc face à plusieurs problèmes: quelle mesure de diversité utiliser? Comment obtenir des sorties de type mesure respectant en même temps le niveau de corrélation souhaité et les performances désirées? Nous avons évoqué l existence d un lien entre la diversité et les performances des classifieurs: quand les performances augmentent, la diversité diminue. Simuler des classifieurs corrélés consiste à contrôler la diversité désirée entre les sorties des classifieurs ainsi que leurs performances. Devant le nombre de paramètres à prendre en compte dans cette simulation, il est difficile de contrôler tout à la fois. Nous montrerons dans les paragraphes suivants la difficulté de ce contrôle de diversité entre deux classifieurs. Si de plus, on souhaite contrôler simultanément la diversité, non pas de deux, mais de trois classifieurs voire plus, il faudrait contrôler la diversité entre chaque couple ainsi que les performances de chacun des classifieurs. Nous nous concentrons donc essentiellement ici sur le contrôle de la diversité d un couple de classifieurs et de leurs performances. Notons ici que certains chercheurs n ont utilisé que deux classifieurs pour éclaircir certaines conditions d utilisation des méthodes de combinaison. Dans [Skalak, 1996] par exemple, l auteur propose deux algorithmes de boosting permettant de construire un classifieur différent à partir d un autre classifieur (de type k-ppv) afin d étudier l apport de cette différence sur la combinaison. Le but du premier algorithme est de créer des classifieurs avec des performances plus élevées que le classifieur de base. Alors que le deuxième algorithme permet de construire des classifieurs moins performants mais proposant des réponses différentes (complémentaires). Ces deux algorithmes manipulent les bases d apprentissage de manière différente permettant ainsi de créer des classifieurs avec différents degrés de diversité et de performance. Notons également qu il existe plusieurs applications réelles qui ne nécessitent que deux classifieurs seulement. On peut citer par exemple l identification de personnes par leur voix et leur visage [Kittler et al., 1998]. Nous nous intéressons donc ici à la génération de couples de classifieurs ayant une diversité contrôlée. Le premier classifieur (classifieur de base) de chaque couple est généré par le simulateur proposé dans le chapitre précédent. Le deuxième classifieur est construit à partir des sorties du premier classifieur en fonction de la diversité désirée et des performances fixées. Dans ce qui suit, nous commençons par présenter la mesure de diversité que nous avons utilisée pour cette génération. Ensuite, nous présentons les étapes de mise en place de

212 212 Chapitre 4. Simulation de classifieurs corrélés l approche de génération proposée. Nous présentons enfin quelques résultats permettant de vérifier les données générées par le deuxième classifieur et montrons comment notre approche peut être utile pour l étude de l influence de la diversité sur les performances des méthodes de combinaison Mesure utilisée Construire un ensemble de classifieurs corrélés nécessite l utilisation d une mesure de diversité appropriée afin de contrôler la diversité entre les confiances proposées par les classifieurs. La distance, la corrélation ainsi que l information mutuelle sont des mesures possibles qui peuvent être utilisées pour estimer la diversité. Bien qu elles soient utilisées dans plusieurs travaux, il n est pas possible de distinguer la supériorité d une mesure sur une autre. Dans notre méthode, nous utilisons la distance pour estimer la diversité entre deux classifieurs. Précisément, considérons deux classifieurs e A et e B produisant chacun S sorties pour un problème à N classes. Chaque sortie s A i (respectivement s B i ) peut être représentée sous forme d un vecteur de confiances [m A i1,...,ma in ] où ma ij est la confiance associée à la classe C j. Puisque les confiances sont normalisées, nous avons N j=1 m A ij = 100% avec m A ij [0,100]. La distance entre deux classifieurs e A et e B produisant des sorties de type mesure, est définie par: D ea e B = 1 S S d(s A i,s B i ) (4.37) i=1 où d(s A i,sb i ) est la distance de Hamming entre les sorties sa i et s B i calculée de la façon suivante: d s A i,s B i = N m A ij mb ij (4.38) j=1 Diviser par 200 (distance maximale entre deux vecteurs de confiances) permet de normaliser la distance d(s A i,sb i ). Cette distance varie donc entre 0 et 1. d(s A i,sb i ) =0 signifie que les sorties sa i et s B i sont identiques c est-à-dire qu elles contiennent les mêmes solutions avec les mêmes confiances. d(s A i,s B i )=1 signifie que les deux sorties sont totalement différentes (il n y a aucune étiquette de classes en commun comme il est montré dans l exemple

213 4.4. Méthode proposée 213 suivant pour un problème à 5 classes). Classifieur e A Classifieur e B 1: 1 [ 75.34] 2 [ 24.66] 1: 3 [ 60.00] 4 [ 40.00] 1: 1 [100.00] 1: 2 [ 50.00] 5 [ 50.00] 1: 2 [100.00] 1: 4 [100.00] Nous avons choisi de contrôler la diversité en utilisant la mesure de distance D ea e B parce qu elle est une mesure simple et ne dépend pas des performances des classifieurs Principe de la méthode de génération des sorties Le problème de la génération peut se poser de la manière suivante: disposant des sorties d un premier classifieur e A dont on a fixé la performance p A et une mesure de diversité moyenne δ, comment peut-on générer les sorties (listes de solutions) d un deuxième classifieur e B selon une performance p B fixée? Notons ici que p A et p B sont des performances globales estimées par le rapport entre le nombre total de sorties dans lesquelles la classe correcte apparaît dans les K premières propositions et le nombre total de sorties (T L K ). Pour illustrer le principe de notre méthode, considérons la génération du classifieur e B pour un problème à 3 classes. Soit un plan P (figure 4.1) reliant les 3 points (100, 0, 0), (0, 100, 0) et (0, 0, 100). Ce plan (qui forme un triangle en dimension 3) est l ensemble des points admissibles du classifieur e A. Chaque point de ce plan P représente un vecteur de confiances d une sortie du classifieur e A. Soit un point s A i du plan P. Le principe de la méthode consiste à générer une sortie s B i (i de 1 à S) du classifieur e B à une distance δ à partir du point s A i (figure 4.2). L intersection entre le plan P et l ensemble des points situés à une distance δ du point s A i forme tous les points admissibles pour s B i (en gras). Selon le principe de notre méthode, la procédure de génération consiste donc à fournir automatiquement, pour un problème à N classes, S sorties de deux classifieurs, e A et e B selon les performances et le niveau de diversité fixés. Les sorties du premier classifieur sont tout d abord générées selon le taux de reconnaissance p A désiré en se basant sur le simulateur de classifieur que nous avons présenté dans le chapitre précédent. Ces sorties sont utilisées pour générer les sorties du deuxième classifieur. Les sorties générées

214 214 Chapitre 4. Simulation de classifieurs corrélés Fig. 4.1 Espace des sorties du classifieur e A pour un problème à 3 classes par le simulateur doivent donc respecter globalement l ensemble suivant de contraintes: la performance p A du classifieur e A la distance moyenne δ désirée entre les sorties de e A et celles de e B la performance p B à respecter pour générer les sorties du classifieur e B le nombre de classes N pour traiter un problème de classification quelconque le nombre maximal de propositions K puisqu on génére une liste de solutions Nous verrons dans la section suivante qu il n est pas toujours possible de respecter ces différentes contraintes notamment lorsque l on demande une distance moyenne δ très grande (proche de 1). Par exemple, il est impossible de respecter la distance δ=1 pour générer un classifieur e B avec p B =80% à partir des sorties d un classifieur e A ayant un taux de reconnaissance p A à 90%. Nous verrons qu il existe une limite maximum δ max à la diversité qui dépend de p A et p B. Si la distance δ souhaitée est supérieure à δ max, le simulateur ne pourra pas respecter cette contrainte. Dans ce cas, la meilleure solution qu il est capable de générer est un classifieur e B pour lequel δ=δ max.

215 4.4. Méthode proposée 215 Fig. 4.2 Principe de la génération de sorties corrélées Notons ici que les distances entre les sorties des deux classifieurs peuvent être différentes. Nous noterons δ i la distance entre les sorties générées pour les classifieurs e A et e B. Pour respecter la distance δ entre e A et e B, il faut que la moyenne des δ i soit égale à δ. Notons également qu il faut avoir K solutions au plus dans chaque sortie s B i. Pour un problème à N classes, si on considère Vi B le vecteur des N confiances associé à une sortie s B i, on devra avoir N-K composantes nulles dans ce vecteur (pour que la liste des classes de la sortie s B i ne comporte que K propositions). La génération d une sortie s B i demande donc de choisir tout d abord une distance δ i et de déterminer ensuite les N-K classes qui ne seront pas dans la liste de solutions de s B i, et enfin de générer les solutions restantes respectant δ i et p B. Pour générer les sorties de e B, nous commençons par choisir l ensemble des sorties s B i dans lesquelles devra figurer la bonne classe C vraie de façon à respecter le taux de reconnaissance p B. Notons ici que deux alternatives sont envisageables pour respecter les deux contraintes δ et p B. Soit on détermine des sorties respectant p B puis on les modifie pour qu elles respectent la distance δ. Soit on commence par respecter la distance et on modifie ensuite les sorties pour respecter p B. Il est apparu que commencer par respecter p B est plus efficace dans le sens où cela permet de contrôler plus facilement les deux

216 216 Chapitre 4. Simulation de classifieurs corrélés paramètres δ et p B c est pourquoi nous retenons cette solution. Respecter la performance p B consiste à avoir p B *S solutions correctes dans les sorties de e B (S est le nombre total de sorties). Cela se fait simplement en tirant aléatoirement p B *S sorties dans lesquelles la bonne solution doit exister. La procédure de génération de sorties du classifieur e B à partir du classifieur e A est présentée dans l algorithme 15. Algorithme 15 Génération des sorties du classifieur e B à partir de e A en fonction d un taux de reconnaissance p B et d une distance δ Entrée: S : nombre de sorties à générer N : nombre de classes K : nombre de solutions maximales à générer pour chaque sortie p A : le taux de reconnaissance désiré du classifieur e A p B : le taux de reconnaissance désiré du classifieur e B δ: distance fixée entre e A et e B Sorties: s B i : sorties du classifieur e B (i=1 à S) Début Générer les sorties du premier classifieur e A en fonction de N, S, K et p A Placer les solutions correctes de e B pour respecter p B Calculer la distance maximale δ max entre les sorties de e A et e B Si δ δ max alors Fin Sinon Déterminer les distances δ i pour respecter δ Déterminer les N-K classes qui ne doivent pas figurer dans les sorties s B i pour respecter K Déterminer les confiances des solutions de s B i en respectant δ i Déterminer les sorties s B i du classifieur e B selon δ max Dans la section suivante, nous détaillons la génération des sorties du classifieur e B et nous présentons les algorithmes sur lesquels reposent cette génération Génération de sorties corrélées Dans les paragraphes suivants, nous détaillons les étapes de l algorithme 15. Nous présentons tout d abord le calcul de la distance maximale δ max dans la section Nous déterminons ensuite les valeurs des distances δ i en fonction de δ dans la section La détermination des étiquettes

217 4.4. Méthode proposée 217 de classes qui ne doivent pas figurer dans les sorties de e B permettant de respecter K est détaillée dans la section La génération des confiances de ces étiquettes est détaillée dans la section Enfin, nous présentons la génération des sorties de e B selon δ max dans la section Calcul de δ max Rappelons que la distance δ entre deux classifieurs e A et e B est donnée par: δ ea e B = 1 S d(s A i S,sB i ) (4.39) i=1 où d(s A i,s B i ) est la distance de Hamming entre les sorties s A i et s B i calculée de la façon suivante: d s A i,s B i = N m A ij m B ij (4.40) j=1 Déterminer une distance maximale δ max entre les sorties de e A et e B consiste à chercher comment maximiser la différence entre les confiances des solutions des sorties des deux classifieurs. La borne supérieure de cette différence est 1. Pour constituer la liste de classes présentes dans la sortie s B i du classifieur e B, plusieurs situations sont à envisager selon que : 1. la liste de classes fournie par s A i est complète (K=N) ou non 2. quand K<N, la vraie classe C vraie peut appartenir à la liste de solutions de s A i ou non 3. quand K<N, la vraie classe C vraie peut appartenir à la liste de solutions de s B i ou non (pour respecter la performance p B ) Dans le premier cas, si la vraie classe C vraie ne doit pas figurer dans s B i alors il faut tenir compte de l étiquette de la classe C j ayant la confiance minimum dans la sortie s A i. Pour que la distance puisse être rendue maximale, il suffit d affecter à C j dans s B i une confiance de 100%. Dans ce cas, δ max n est que la somme des confiances des classes de s A i et celles de s B i c est-à-dire (100-m A ij )+100. Pour le deuxième cas, si la vraie classe C vraie n existe pas dans s A i alors il suffit d avoir au moins une étiquette de classes différente de celles présentes dans la sortie du premier classifieur pour que la distance atteigne la valeur maximale (=1).

218 218 Chapitre 4. Simulation de classifieurs corrélés Dans le dernier cas, si la vraie classe C vraie doit figurer dans les sorties des deux classifieurs alors il faut chercher une classe C j qui soit différente de la vraie classe et qui n existe pas dans e A. Dans ce cas, δ max est obtenue en affectant à la vraie classe C vraie une confiance très faible (ɛ) mais une confiance de 100-ɛ à la classe C j dans s B i. La procédure de calcul de δ max est présentée dans l algorithme 16. Nous présentons ici quelques exemples de sorties pour montrer comment les distances maximales peuvent être calculées pour un problème à 3 classes. Dans le premier groupe d exemples, nous supposons que la bonne solution (l étiquette de la classe 1 ) ne doit pas figurer dans la sortie du classifieur e B. Remarquons que si nous avons eu une distance de 1 pour la première sortie c est parce qu on peut avoir une étiquette de classe (l étiquette 3 ) différente de celles existantes dans la sortie de e A. Notons également que le fait d avoir toutes les classes présentes dans la sortie du premier classifieur ne permet pas d obtenir δ max =1: δ max ne peut être obtenue qu en affectant à la classe, dont la confiance est la plus faible dans s A i, une confiance de 100 dans sb i à condition qu elle soit différente de la vraie classe. Classifieur e A Classifieur e B δ max 1: 1 [m1] 2 [m2] 1: 3 [100] 1 1: 1 [m1] 2 [m2] 3 [m3] 1: 3 [100] 1: 3 [m1] 2 [m2] 1 [m3] 1: 2 [100] m1+m2+(100 m3) 200 m1+(100 m2)+m3 200 Supposons maintenant que la bonne solution doit apparaître dans la sortie du classifieur e B. Nous l illustrons sur l exemple suivant. Remarquons qu il suffit que la classe correcte soit absente dans la sortie de e A (la première sortie) pour qu on obtienne une distance maximale égale à 1. Maintenant, si la bonne solution existe dans les deux sorties et qu il existe en plus des classes qui sont différentes de celles de e A (sortie 2), alors le fait d affecter à la bonne solution de e B une confiance très faible (ɛ) permet d avoir une distance maximale. Pour avoir une distance maximale dans le cas où toutes les classes existent dans la sortie de e A (sorties 3 et 4), il faut ne tenir compte que de la confiance de la dernière solution de la sortie de e A. Classifieur e A Classifieur e B δ max 1: 3 [m1] 2 [m2] 1: 1 [100] 1 1: 2 [m1] 1 [m2] 1: 3 [100-ɛ] 1 [ɛ] 1: 3 [m1] 2 [m2] 1 [m3] 1: 1 [100] 1: 3 [m1] 1 [m2] 2 [m3] 1: 2 [100-ɛ] 1 [ɛ] m1+(100 ɛ)+(m2 ɛ) 200 m1+m2+(100 m3) 200 m1+(m2 ɛ)+(m3 (100 ɛ)) 200

219 4.4. Méthode proposée 219 Algorithme 16 Calcul de la somme des distances maximales δ max entre les sorties de e A et e B Entrée: s A i : sortie du classifieur e A n: nombre de solutions de la sortie s A i C vraie : la vraie classe de la ième sortie ɛ: confiance très faible attribuée à la solution correcte Sorties: δ max : la somme des distances maximales entre les sorties de e A et e B Début Initialiser δ max à 0 Pour chaque sortie i de 1 à S faire Chercher le nombre d étiquettes de classes qui n existent pas dans s A i Sauvegarder ces étiquettes dans une liste L Chercher la position k de C vraie dans s A i Si s A i contient toutes les classes alors Si C vraie ne doit pas figurer dans s B i alors Si la dernière solution est différente de C vraie alors Sinon δ max i = 2(100-m A in ) Sinon δ max i = 2(100 - m A i(n 1) ) Fin Sinon Si la dernière solution est différente de C vraie alors δ max i = (100 - (m A ik + ma in )) + (ma ik -ɛ) + (m A in - (100-ɛ)) Sinon δ max i = 2(100-m A in ) Si la vraie classe ne doit pas figurer dans s B i Si L n est pas vide alors Sinon δ max i = 1 Sinon δ max i = 2(100-m A in ) Si la vraie classe n existe pas dans s A i δi max = 1 Sinon δi max =(100 - m A ik ) + (100-ɛ)+ (ma ik -ɛ) Incrémenter δ max de δi max Fin pour alors alors

220 220 Chapitre 4. Simulation de classifieurs corrélés Respecter la distance δ Respecter seulement le taux de reconnaissance est facile. Nous avons vu qu il suffit de chercher les sorties qui doivent contenir la classe correcte. Cependant, quand on a à respecter en même temps la performance et la distance, le processus devient plus complexe. Si on considère un problème à 3 classes, chaque sortie du classifieur e A, notée s A i =(ma i1,..., ma in ) avec i=1 à S, peut appartenir au plan P (plan gris) défini par N j=1 m A ij = 100% avec m A ij [0,100] comme illustré dans la figure 4.2. Maintenant, générer une sortie s B i du classifieur e B à une distance δ i de la sortie du classifieur e A avec 1 Si=1 δ S i = δ, consiste à déterminer les points s B i qui respectent les contraintes suivantes: Nj=1 m A ij m B ij = δ i Nj=1 m A ij = N j=1 m B ij = 100% m A ij,m B ij [0,100] (4.41) Il existe une infinité de solutions. Pour une sortie s A i donnée du classifieur e A, toutes les solutions possibles s B i appartiennent au plan P et sont, au plus à une distance δi max de s A i, δi max ayant été déterminée au paragraphe précédent. On ne pourra donc respecter δ i que si δ i δ max i. Pour respecter δ, on utilise un mécanisme qui consiste à choisir aléatoirement les valeurs δ i de telle sorte que leur somme soit égale à δ*s et qu elles ne doivent pas dépasser δi max. Chaque valeur δ i est tirée entre deux bornes inf et sup. Dans la majorité des cas, ces bornes sont égales à 0 et δi max respectivement. Mais ces valeurs seront ajustées de façon à pouvoir respecter les distances maximales des sorties non encore traitées: S j=i+1 δi max (les sorties de i+1 à S étant celles non encore traitées). Notons également que pour les valeurs faibles de δi max, le choix des valeurs de δ i est limité. Afin de garder plus de liberté dans le choix des valeurs de δ i, les valeurs de δi max sont tout d abord triées de manière croissante. Le tirage des valeurs de δ i est réalisé selon ce tri (en tirant d abord les valeurs de δ i les plus faibles). Ce mécanisme est présenté par l algorithme 17.

221 4.4. Méthode proposée 221 Algorithme 17 Recherche des distances δ i entre les sorties s A i de e B Entrée: δ: distance moyenne à respecter S: nombre de sorties δi max : distance maximale entre les sorties s A i et s B i (i=1 à S) R: distance restante à distribuer Sorties: δ i : les distances entre les sorties de e A et e B Début Trier les valeurs de δi max de manière croissante Initiliser R à δ*s Initialiser δres max à S m=1 δmax m Pour i de 1 à S faire Fin Décrémenter δres max de δi max inf = max(0, min(r, R-δres max )) sup = min(δi max, R) Tirer aléatoirement δ i entre inf et sup Décrémenter R de δ i Fin pour de e A et s B i Respecter K Notons Vi A et Vi B les vecteurs des confiances associés aux sorties s A i et s B i respectivement. Chaque vecteur Vi A est composé de N confiances vij A. Respecter K revient à associer une confiance nulle à N-K étiquettes de classes (parmi les N) dans chaque vecteur Vi B. Une question qui se pose ici est comment placer ces N-K 0 dans chaque vecteur Vi B? Placer un zéro à une position p de Vi B augmente la distance entre les vecteurs Vi A et Vi B d une quantité de va ip A (confiance dans V 200 i ayant la même position). Pour l exemple suivant, la distance obtenue après avoir placé deux zéros est va i1 +va i V A i v A i1 v A i2 0 v A i4 0 V B i Nous noterons λ i la distance entre Vi A et Vi B due au déplacement des zéros dans Vi B. Notre objectif est de placer les N-K 0 de manière aléatoire tout en respectant la distance δ i. Par conséquent, il faut garder pendant le choix des positions des zéros dans Vi B une valeur λ i inférieure à δ i. Mais avec le

222 222 Chapitre 4. Simulation de classifieurs corrélés tirage aléatoire, λ i peut facilement dépasser δ i. Une solution possible pour respecter δ i < λ i est de revenir sur le choix des zéros déjà placés lorsqu on viole cette contrainte. Pour cela, on choisit aléatoirement un zéro déjà placé et on le replace face à un zéro de Vi A vik A de Vi A, alors λ i diminue de va ik confiance nulle dans V A i d attribution des zéros dans V B i pour lequel la confiance en regard vik A de V i A zéro.. Si ce zéro est en regard d une confiance lors de ce déplacement. S il n y a pas de 200, on choisit la confiance minimale. En fin de processus, si λ i dépasse δ i, on cherche le zéro de Vi B est maximale et on déplace ce Concernant la bonne solution, si elle ne doit pas exister dans s B i, alors il suffit avant le tirage d affecter un zéro dans la position correspondante. Par contre, le fait qu elle doit exister nécessite d empêcher le choix de cette classe pour y affecter un zéro. La répartition des N-K 0 permettant de respecter K est présentée par l algorithme 18. Nous illustrons cette procédure dans l exemple suivant. Pour respecter K=2 et δ i = 0.2, nous devons tout d abord placer 3 zéros dans le vecteur Vi B. Notons ici que la vraie classe 3 doit figurer dans la sortie s B i. Dans ce cas, la distance maximale entre les deux vecteurs Vi A et Vi B est δi max =1 (puisqu il existe des classes différentes de celles de Vi A y compris la vraie classe). Si on tire au début p= 2, on sauvegarde cette valeur dans une liste L et λ i devient égale à 0.4 (= 80 ). Le fait d enlever p =p de la liste L et de chercher une autre 200 position p qui peut être 1 ou 5 (puisque les confiances correspondantes dans Vi A sont nulles) permet d avoir une distance entre les deux vecteurs égale à V A i V B i 0 Maintenant si on tire p = 2 après avoir placé un zéro dans la position 4, λ i devient égale à 0.5. Le fait de tirer une autre position p =1 (puisque la confiance dans Vi A est nulle) à laquelle on place un zéro ne permet pas de diminuer la valeur de λ i. Dans ce cas, la sortie Vi B respecte K avec λ i supérieure à la distance désirée. Le déplacement d un zéro de la position 2 (ayant la confiance maximale dans Vi A ) à la position 1 permet d avoir une distance λ i inférieure à la distance voulue.

223 4.4. Méthode proposée 223 Algorithme 18 Respecter K dans les sorties s B i Entrée: S: nombre de sorties N: nombre de classes : vecteurs de confiances vij A des sorties du classifieur e A (j de 1 à N, i de 1 à S) δ i : les distances entre les sorties de e A et e B L: liste contenant les N-K étiquettes de classes auxquelles sont attribuées 0 comme confiances V A i Sorties: V B i : vecteurs de confiances v B ij des sorties du classifieur e B Début 1. Pour i de 1 à S faire Initialiser λ i à 0 Initialiser µ i à δ i Initialiser nb à N-K Si la classe correcte ne doit pas exister dans s B i vii B=0 Décrémenter nb de 1 Finsi 2. Pour t de 1 à nb faire Tirer sans remise une position p entre 1 et N Sauvegarder p dans L Incrémenter λ i de va ip 200 Décrémenter µ i de va ip Si λ i > µ i alors alors /* abondon d un des zéros mis dans V B i */ Si t < nb alors Tirer aléatoirement un élément p de L Sinon Choisir l élément p de L pour lequel la confiance vip A est maximale Incrémenter λ i de va ip 200 Décrémenter µ i de va ip 200 Recherche d une position p dans V A i laquelle la confiance est nulle Si p n existe pas alors pour Choisir p dans Vi A pour laquelle la confiance est minimale Finsi Sauvegarder p dans L v B ip =0 Fin Fin pour Fin sinon Sinon v B ip =0 Fin pour Si t = nb et λ i > µ i alors Retourner à 3

224 224 Chapitre 4. Simulation de classifieurs corrélés V A i V B i Respecter δ i La question qui se pose après avoir respecté K, est comment remplir le reste du vecteur Vi B pour que la distance δ i soit toujours respectée. Le fait de reporter dans Vi B les confiances présentes dans Vi A qui ne sont pas en face des zéros choisis pour Vi B permet de ne pas modifier la distance λ i entre Vi A et Vi B (on ajoute uniquement des termes nuls au calcul de la distance). Pour passer de λ i à δ i, il faut ensuite distribuer sur les différentes confiances non nulles de Vi B une quantité δ i 200 avec δ i = δ i λ i. Une façon de faire est de la distribuer de manière égale sur deux confiances de Vi B choisies aléatoirement. On peut alors soustraire δ i 2 d une confiance située à une position p 1 et ajouter δ i 2 à une autre confiance placée à une position p 2. Cela veut dire que la première confiance sélectionnée doit être supérieure à δ i 2. La valeur de δ i étant généralement faible (du fait de l algorithme de détermination de λ i ), cette opération ne pose en général aucune difficulté. Toutefois, il peut arriver que la confiance à la position p 1 soit inférieure à δ i 2. Dans ce cas, il faut pouvoir modifier les confiances de Vi B de telle sorte que la confiance en p 1 devienne supérieure ou égale à δ i 2. Mais il faut également modifier les confiances correspondantes de Vi A de façon à conserver la valeur de λ i. Pour cela, on modifie tout d abord les confiances de Vi A en tenant compte de la valeur à ajouter à la confiance placée en p 1 et on élimine ensuite cette valeur des autres confiances. Cette modification des confiances est présentée dans l algorithme 19. On peut ensuite reporter de nouveau les confiances de Vi A modifiées dans Vi B. La procédure de génération de confiances des solutions de Vi B permettant de respecter δ i est présentée par l algorithme Génération de sorties respectant δ max Nous avons évoqué dans le paragraphe que si la distance à respecter δ est supérieure à δ max, on positionne alors chaque sortie s B i de e B à la plus

225 4.4. Méthode proposée 225 Algorithme 19 Modification des vecteurs de confiances Vi A respecter δ i Entrée: N: nombre de classes Vi A : vecteurs de confiances de sorties du classifieur e A Vi B : vecteurs de confiances de sorties du classifieur e B p 1 : position de la première confiance à modifier dans Vi B p 2 : position de la deuxième confiance à modifier dans Vi B Sorties: δ i : distance restante à respecter X: valeur minimale à ajouter à la prmière confiance Y: valeur maximale à ajouter à la première confiance Z: valeur à ajouter à la première confiance : vecteurs de confiances de sorties du classifieur e A Vi B : vecteurs de confiances de sorties du classifieur e B Début /* Chercher la valeur à ajouter à la première confiance */ Fin V A i X = δ i 2 - v B ip 1 Y = v B ip 1 Tirer aléatoirement une valeur W entre X et Y-X Z = X+W Initialiser R à Z Initialiser som à N j=1 va ij Chercher les M confiances non nulles dans V A i Sauvegarder les positions de ces confiances dans L Pour m de 1 à M faire /* distribution de Z sur les M confiances */ Tirer aléatoirement une position p de L Décrémenter vip A de som inf = min(vip A, R) sup = min(r-som, R) Tirer une valeur V entre inf et sup Décrémenter V de vip A B /* reporter la valeur dans Vi */ Si vip B > 0 alors Reporter la confiance v A ip dans V B i et V B i pour

226 226 Chapitre 4. Simulation de classifieurs corrélés Algorithme 20 Génération des confiances restantes de Vi B Entrée: N: nombre de classes δ i : distance restante à distribuer Vi A : vecteurs de confiances de sorties du classifieur e A Vi B : vecteurs de confiances de sorties du classifieur e B L: Liste des positions des confiances restantes à déterminer Sorties: Vi B : vecteurs de confiances de sorties du classifieur e B Début /* Reporter les confiances de Vi A */ Pour j de 1 à N faire Fin Si v B ij 0 alors v B ij = va ij Sauvegarder j dans L Tirer sans remise une position p 1 dans L Si p 1 C i alors Sinon /* choisir la position de la bonne solution si elle doit exister */ p 2 = C i Tirer sans remise p 2 dans L Si p 1 < δ i /2 alors Modifier les sorties Vi A et Vi B Décrémenter vip B 1 de δ i /2 Incrémenter vip B 2 de δ i /2

227 4.4. Méthode proposée 227 grande distance possible δ max tout en respectant p B. Dans le paragraphe suivant, nous présentons la génération de ces sorties. Cette génération consiste à déterminer les sorties du classifieur e B à une distance maximale δ max des sorties du premier classifieur e A. La question qui se pose ici est quelles sont les solutions (étiquettes et confiances) à placer dans chaque sortie s B i permettant de respecter δ max et la performance p B. Bien évidemment, ce choix ne peut pas être arbitraire puisqu on doit respecter le nombre maximal de propositions K pour la sortie s B i. Comme nous l avons vu dans le calcul de δ max, la détermination des solutions à une distance maximale dépend de la présence ou de l absence de la bonne solution dans s B i. Quand la bonne solution doit exister dans sb i, on cherche les étiquettes de classes qui n existent pas dans la sortie s A i. Ces étiquettes peuvent être placées aléatoirement dans s B i. Le nombre Z de ces étiquettes doit être inférieur ou égal à K. Lorsque toutes les classes existent dans s A i, la dernière solution de s A i doit être placée dans s B i. Notons ici que les confiances à attribuer aux étiquettes sont normalisées (leur somme est égale à 100%) et ordonnées de manière décroissante. En d autres termes, chaque confiance m B ij (j=1,..., Z) doit être supérieure à la confiance placée à la proposition suivante de la liste de solutions c est à dire: m B ij > m B i(j+1) (4.42) La confiance de la première solution de chaque liste doit être supérieure à 100. La procédure de génération d une sortie Z sb i peut être présentée par l algorithme 21. Maintenant si la bonne solution doit exister dans la sortie s B i, on doit tenir compte en plus de son existance dans s A i pour déterminer toutes les solutions de s B i. Si cette solution est absente dans sa i alors le fait de la placer dans s B i est suffisant pour respecter la distance maximale. Mais ceci n empêche pas de placer également les classes qui n existent pas dans s A i. Si les deux sorties s A i et s B i contiennent la bonne solution alors pour respecter la distance maximale, il faut que la confiance de la bonne solution dans s B i soit la plus faible possible (on note ɛ la valeur de cette confiance). Cette solution doit donc être placée à la fin de la liste de solutions de s B i. Les solutions qui peuvent être placées en amont peuvent être soit les classes qui n existent pas dans s A i, soit la dernière solution de sa i. La procédure de cette génération peut être présentée par l algorithme 22.

228 228 Chapitre 4. Simulation de classifieurs corrélés ne contenant pas la bonne solu- Algorithme 21 Génération d une sortie s B i tion Entrée: s A i : sortie du classifieur e A C i : la bonne solution de la ième sortie Sorties: s B i : sortie du classifieur e B Début Sauvegarder dans L les X étiquettes de classes qui n existent pas dans s A i Si L est vide alors Fin Sinon Placer la dernière étiquette ( C i ) de s A i dans s B i Associer à cette étiquette une confiance égale à 100 Choisir un nombre Z d étiquettes entre 1 et min(k, X) Tirer sans remise Z étiquettes dans L Placer ces étiquettes aléatoirement dans s B i Associer les confiances correspondantes Conclusion Nous avons présenté dans cette partie une méthode de génération des ensembles de classifieurs corrélés en utilisant une mesure de distance permettant de contrôler la diversité entre chaque paire de classifieurs. Nous montrerons dans les paragraphes suivants tout l intérêt d avoir une telle méthode de génération de sorties corrélées pour évaluer le comportement des méthodes de combinaison en fonction de la diversité. Avec L classifieurs (L>2), il est difficile de générer des listes de solutions en respectant en même temps la diversité entre les paires de classifieurs et leur performance. Des réflexions sur la manière d étendre notre méthode pour qu elle soit applicable à L classifieurs sont à envisager afin de pouvoir examiner la relation entre diversité et performance. Une méthodologie particulière permettant de mesurer la variabilité entre ces paramètres est aussi à envisager. Il est également intéressant d apporter des améliorations au niveau de la simulation afin de s approcher encore plus du cas réel. Par exemple, la méthode de simulation pourrait être modifiée pour générer des sorties corrélées de classifieurs respectant chacun un nombre différent de solutions (K). En tenant compte de cette amélioration, il semble tout à fait envisageable d évaluer

229 4.4. Méthode proposée 229 Algorithme 22 Génération d une sortie s B i contenant la bonne solution Entrée: s A i : sortie du classifieur e A C i : la bonne solution de la ième sortie ɛ: confiance très faible attribuée à la solution correcte permettant d avoir la distance maximale Sorties: s B i : sortie du classifieur e B Début Chercher X étiquettes de classes qui n existent pas dans s A i Sauvegarder ces étiquettes dans une liste L Si la classe correcte n existe pas dans s A i alors Si L n est pas vide alors Sinon Choisir un nombre Z entre 1 et min(k-1, X) Tirer sans remise Z étiquettes dans L Placer ces étiquettes aléatoirement dans s B i (y compris l étiquette de C i ) Associer les confiances correspondantes Placer l étiquette C i avec une confiance égale à 100 Sinon /* la classe correcte existe dans s A i */ Si L n est pas vide alors Sinon Choisir un nombre Z entre 1 et min(k-1, X) Tirer sans remise Z étiquettes dans L Placer ces étiquettes aléatoirement dans s B i (sans l étiquette de C i ) Associer les confiances dont la somme est 100-ɛ Placer l étiquette C i avec une confiance égale à ɛ Fin Placer la dernière étiquette ( C i ) de s A i dans s B i Associer une confiance égale à 100-ɛ Placer l étiquette C i avec une confiance égale à ɛ

230 230 Chapitre 4. Simulation de classifieurs corrélés le comportement des opérateurs de combinaison en fonction de la diversité, ce que nous espérons réaliser dans un proche avenir. Nous allons maintenant montrer la validité de notre approche de simulation et son apport dans le cadre de la combinaison. 4.5 Vérification de la méthode Dans cette section nous présentons quelques tests permettant une première vérification de la validité de la méthode de génération de classifieurs corrélés. Des tests supplémentaires seront nécessaires pour évaluer la méthode de simulation proposée. Nous avons mentionné dans le paragraphe la difficulté à choisir une mesure de diversité parmi d autres parce que toutes ces métriques semblent se comporter de manière analogue. Nous avons comparé la distance avec la corrélation pour montrer que construire des ensembles de classifieurs en contrôlant la diversité par la distance est équivalent à la création de classifieurs dont la diversité est contrôlée par la corrélation. Cette idée est illustrée par la figure 4.3 montrant la relation entre la corrélation et la distance mesurées entre 50 couples de classifieurs pour un problème à 5 classes. Ces classifieurs ont la même performance (taux de reconnaissance de 60%). Pour vérifier les distances entre les sorties des classifieurs ayant les mêmes performances, nous avons simulé 50 couples de classifieurs ayant les mêmes taux de reconnaissance en top3, p A =p B ={50, 60, 70, 80, 90} pour un problème à 5 classes. Les valeurs de la distance D varient de 0 à 0.9 par pas de 0.1. Chaque classifieur produit 1000 sorties par classe. Les résultats que nous avons obtenu ont montré que les distances sont bien respectées avec des variances très faibles (inférieures à 10 3 ). Pour vérifier les distances entre les sorties des classifieurs ayant des performances différentes, nous avons simulé 50 couples de classifieurs avec des valeurs différentes de la distance D variant de 0 à 0.9 par pas de 0.1 pour un problème à 5 classes. Le taux de reconnaissance p A (dans les trois premières propositions) du premier classifieur est égal à 50%. Par contre, celui du deuxième classifieur p B varie de 60% à 90%. Là encore, les distances obtenues par simulation étaient toujours les mêmes que celles de référence. Pour savoir si l ordre des classifieurs a une influence sur la distance à res-

231 4.5. Vérification de la méthode 231 Fig. 4.3 Relation entre les mesures de distance et de corrélation avec 50 paires de classifieurs (l axe des X représente la distance, l axe des Y représente la corrélation)

232 232 Chapitre 4. Simulation de classifieurs corrélés pecter c est-à-dire s il y a une différence entre les couples de classifieurs ayant des taux de reconnaissance (50%, 60%) et (60%, 50%), nous avons simulé 50 classifieurs en faisant varier le taux de reconnaissance du premier classifieur entre 60% et 90% mais en fixant la performance du deuxième classifieur à 50%. Les résultats que nous avons obtenu ont montré que l ordre des performances des classifieurs n influe pas sur la distance à respecter. Nous avons réalisé d autres tests afin de vérifier la méthode proposée sur des problèmes différents de classification. Nous avons généré 50 ensembles de classifieurs pour N=5, 10, 20 et 50 classes et D={0, 0.1,..., 0.9}. Le taux de reconnaissance du premier classifieur de chaque ensemble est fixé à 60% et celui du deuxième classifieur à 80%. A partir des résultats obtenus nous avons constaté que notre méthode permet de générer des sorties qui respectent les distances désirées pour les différents problèmes. Notre méthode permet de générer des classifieurs proposant un nombre différent de propositions. Afin de vérifier que le nombre de solutions n influence pas la distance désirée, nous avons généré des ensembles de classifieurs proposant 3, 5, 7 et 9 solutions pour un problème à 10 classes. Pour cette expérience, nous avons également constaté que les distances calculées ont été bien respectées. 4.6 Contribution expérimentale Deux questions peuvent être posées lorsqu on dispose de classifieurs produisant des sorties de type mesure: est ce que la combinaison des confiances est toujours plus intéresssante que la combinaison des rangs? Et sinon, dans quels cas la combinaison des rangs se comporte-t-elle mieux que celle des confiances? Notre objectif principal est de savoir comment la diversité des confiances a un effet sur le comportement des opérateurs de combinaison tels que la somme, le maximum et le borda count. Lorsque l on analyse le comportement de ces opérateurs, la diversité est rarement prise en considération. Dans le cadre de classifieurs indépendants [Kittler et al., 1998, Alkoot and Kittler, 1999], il est toujours constaté que la somme est plus performante que le maximum. Mais, est ce qu elle est aussi meilleure lorsque les classifieurs fournissent des sorties différentes? Concernant la comparaison entre les opérateurs de combinaison de type mesure et de type rang notamment la somme et le borda, les travaux réalisés [Parker, 2001] n ont pas abouti à des conclusions claires sur les conditions d utilisation de ces règles en fonction de la corrélation des classifieurs. A priori, la combinaison des confiances et la combinaison des

233 4.6. Contribution expérimentale 233 rangs fonctionnent différemment. Afin de comprendre le comportement de ces trois méthodes (borda, somme et maximum), nous avons réalisé 4 séries d expérience. L objectif de toutes ces expériences est d étudier le lien entre la diversité dans l ensemble de classifieurs et quelques paramètres tels que les performances des classifieurs à combiner, le nombre de classes, le nombre de solutions dans la liste et la performance du deuxième classifieur. Dans toutes ces expériences, nous faisons varier la diversité dans l ensemble D={0.2, 0.6, 1}. Ces valeurs ont été choisies pour représenter différents niveaux de diversité: pour D=0.2, on combine donc des classifieurs très corrélés, pour D=0.6, les classifieurs sont très proches de l indépendance, et pour D=1 les classifieurs sont non corrélés. La première expérience cherche donc à examiner l influence de la diversité sur le comportement des opérateurs de combinaison lorsque les classifieurs ont la même performance. Pour cela, nous avons simulé 50 couples de classifieurs avec p A =p B ={50, 60, 70, 80, 90}. Chaque classifieur propose 5 solutions pour un problème à 10 classes. La deuxième expérience a pour objectif d examiner la relation entre la diversité et le nombre de solutions. Pour cela, nous avons simulé des classifieurs proposant 3, 5, 7 et 9 solutions pour un problème à 10 classes. Le taux de reconnaissance de chaque classifieur est fixé à 80%. La troisième expérience a pour but de savoir comment les opérateurs de combinaison se comportent quand le nombre de classes augmente. Pour cela, nous avons généré 30 couples de classifieurs proposant chacun 5 solutions pour trois problèmes différents de classification avec N= 10, 20 et 50 classes. Les performances des classifieurs sont fixées à 80%. La quatrième expérience a pour but d analyser le comportement des opérateurs de combinaison tout en relachant la condition que les classifieurs ont les mêmes taux de reconnaissance. Pour cela, nous avons simulé 50 couples de classifieurs. Le premier classifieur de chaque couple a un taux de reconnaissance p A fixé à 50%, alors que la performance du deuxième classsifieur varie: p B ={60, 70, 80, 90}. Le tableau 4.2 résume les expériences que nous avons réalisées. Expérience 1 L objectif de cette première expérience est d examiner l influence de la diversité sur le comportement de la somme, du borda et du maximum sous l hypothèse que les classifieurs ont la même performance dans les 5 premières propositions. Dans ce test, nous avons généré 50 couples de classifieurs selon la performance fixée en top 5 à 50, 60, 70, 80 et 90% pour chaque valeur de diversité D={0.2, 0.6, 1}. La figure 4.4 présente les performances moyennes

234 234 Chapitre 4. Simulation de classifieurs corrélés Expériences Diversité Performances K N 1 0.2, 0.6, 1 p A =p B ={50, 60, 70, 80, 90} , 0.6, 1 p A =p B =80 3, 5, 7, , 0.6, 1 p A =p B = , 20, , 0.6, 1 p A = p B ={60, 70, 80, 90} Tab. 4.2 Expériences réalisées pour évaluer le comportement des opérateurs de combinaison (en top5) des méthodes de combinaison. Si on considère les résultats de la combinaison de classifieurs dépendants (figure 4.4(a)), on constate que les trois opérateurs produisent une amélioration significative de performance par rapport à chacun des classifieurs. Le gain apporté par les trois méthodes diminue lorsque la performance des classifieurs augmente. La somme et le borda se comportent de manière similaire. Même si ça n apparaît pas clairement dans la figure, la somme donne une légére amélioration par rapport au borda. Ceci montre bien que la somme est moins sensible à la corrélation des classifieurs que le borda. Ces deux règles donnent des taux de reconnaissance supérieurs à ceux obtenus par la règle du maximum. Ce comportement persiste même avec des classifieurs indépendants (figure 4.4(b)). Dans ce cas, on constate bien la supériorité de la règle de la somme par rapport à la règle du maximum, idée confirmée par les travaux existants. Lorsque les classifieurs produisent des sorties très différentes (figure 4.4(c)), les méthodes de combinaison se comportement différemment. Le borda produit de meilleures performances pour tous les ensembles de classifieurs. La règle du maximum donne également de bons résultats et elle est plus performante que la somme. Pour des classifieurs ayant des performances élevées (>80%), la somme donne un taux de reconnaissance inférieur à celui des classifieurs à combiner. On constate également une diminution de performance pour les différents opérateurs en comparaison avec la combinaison de classifieurs très corrélés et indépendants (D=0.2 et 0.6). Cette dégradation de performance s explique par le fait que lorsque la diversité augmente, les performances des classifieurs à l intérieur de la liste de solutions diminuent. En d autres termes, la différence entre T L k et T L 5 (pour k de 1 à 4) augmente. Dans ce cas, si le borda a l avantage de faire avancer la bonne solution vers le début de la liste finale, la somme et le maximum ont moins la capacité de le faire surtout s il existe des classes différentes dans les sorties à combiner. A travers les résultats de la figure 4.4, nous pouvons donc constater que la diversité joue un rôle plus important sur les rangs que sur les confiances. Par

235 4.6. Contribution expérimentale 235 Fig. 4.4 Relation entre diversité et performances des classifieurs (a) D=0.2 (b) D=0.6 (c) D=1

236 236 Chapitre 4. Simulation de classifieurs corrélés conséquent, si on dispose de classifieurs produisant des sorties très différentes (quelles que soient leurs performances), il est plus efficace de les combiner par le borda. Si on s intéresse à la combinaison des confiances de ces classifieurs, il est plus intéressant de les combiner par la règle du maximum que par la somme. Alors que si on dispose de classifieurs très corrélés, il est préférable d utiliser la somme. Expérience 2 L objectif de cette expérience est d examiner le comportement des opérateurs de combinaison considérés lorsque le nombre de solutions augmente. Pour cela, nous avons simulé 50 couples de classifieurs selon la performance fixée à 80% pour chaque valeur de diversité D={0.2, 0.6, 1}. Chaque couple peut produire un nombre différent de solutions (K=3, 5, 7 et 9). Les résultats de ces opérateurs de combinaison apparaîssent dans la figure 4.5. Si on considère les résultats de la figure 4.5(a), on constate que les trois méthodes de combinaison améliorent la performance des classifieurs individuels pour les différentes valeurs de K. Le borda et la somme produisent les meilleures performances. Ceci montre que le borda et la somme exploite mieux les K premières solutions que le maximum pour des classifieurs corrélés. Pour D=0.6 (4.5(b)), le comportement de la somme reste similaire à celui du borda. Une petite dégradation de performance du maximum est obtenue dans le cas de la combinaison de classifieurs produisant trois solutions. Mais cette méthode se comporte mieux lorsque le nombre de solutions augmente. En regardant maintenant les résultats de la figure 4.5(c), on constate que le borda produit la meilleure performance pour les différents couples de classifieurs. Alors que la somme améliore le taux de reconnaissance seulement pour des couples de classifieurs produisant plus de 7 solutions. Le maximum dans ce cas se comporte mieux que la somme. Nous pouvons constater à travers ces résultats que la somme n exploite pas l information à l intérieur de la liste de solutions lorsqu elle combine des classifieurs non corrélés. Nous pouvons donc émettre l hypothèse que lorsque la diversité augmente, le borda count exploite mieux la liste de solutions que la somme et le maximum. Expérience 3 Rappelons que le but de cette expérience est d examiner le comportement de la somme, du borda et du maximum pour des problèmes différents de classification. Pour cela, nous avons généré 30 couples de classifieurs en fixant leur performance en top5 à 80% avec une diversité D={0.2, 0.6, 1}. Les performances moyennes des méthodes de combinaison sont présentées dans le tableaux 4.3.

237 4.6. Contribution expérimentale 237 Fig. 4.5 Relation entre diversité et nombre de solutions (a) D=0.2 (b) D=0.6 (c) D=1

238 238 Chapitre 4. Simulation de classifieurs corrélés D=0.2 N Somme Borda Maximum ± ± ± ± ± ± ± ± ± D=0.6 N Somme Borda Maximum ± ± ± ± ± ± ± ± ± D=1 N Somme Borda Maximum ± ± ± ± ± ± ± ± ± Tab. 4.3 Taux de reconnaissance des opérateurs de combinaison pour trois problèmes différents de classification A partir des résultats de la première partie du tableau 4.3 (D=0.2), nous constatons que la somme produit des taux de reconnaissance légérement supérieurs à ceux du borda lorsque le nombre de classes augmente. Alors que le maximum produit des taux de reconnaissance inférieurs à ces deux règles (différence de 10%). Nous constatons également qu avec moins de classes (N=10), les performances des trois méthodes de combinaison sont plus élevées que celles obtenues pour un problème à plusieurs classes (N=50). Ceci s explique par le fait qu avec plus de classes, la chance que la bonne solution soit placée par la combinaison à la fin de la liste de solutions (après les 5 premières propositions) augmente. Si on regarde maintenant la deuxième partie du tableau (D=0.6), on remarque que les performances du borda sont meilleures que celles de la somme pour les différents problèmes. Pour N>20, le maximum produit des performances inférieures à celles de chacun des classifieurs. Avec des classifieurs non corrélés (D=1), la somme améliore les taux de reconnaissance seulement pour N=10. Le maximum produit des performances supérieures à la somme pour les différents problèmes. Par conséquent, on peut conclure que la somme exploite bien l information sur la classe correcte lorsque les classifieurs sont fortement dépendants (quelque soit le nombre de classes). Avec des classifieurs non corrélés, elle n est efficace que pour des problèmes à peu de classes. Dans ce cas, le borda est plus efficace. Expérience 4

239 4.6. Contribution expérimentale 239 Dans les expériences précédentes, nous avons évalué le comportement des opérateurs de combinaison sous l hypothèse que les classifieurs ont la même performance. Dans cette expérience, nous examinons l influence de la diversité sur le comportement de la somme, du borda et du maximum sous l hypothèse que les classifieurs ont des performances différentes en top 5. A ce propos, 50 couples de classifieurs ont été générés pour chaque valeur de diversité D={0.2, 0.6, 1}. La performance du premier classifieur de chaque couple est fixée à 50% alors que celle du deuxième classifieur varie p B ={50, 60, 70, 80, 90}. Les taux de reconnaissance (en top5) des méthodes de combinaison sont présentés dans la figure 4.6. Si on regarde les résultats de la figure 4.6(a), on constate que lorsque les classifieurs sont dépendants (D=0.2), la combinaison que ce soit par la somme des confiances ou par la somme des rangs produit une amélioration en reconnaissance par rapport à chacun des classifieurs. Alors que le maximum ne produit une amélioration que pour p B =60%. Ceci montre la sensibilité de cette règle aux performances des classifieurs par rapport à la somme et au borda. Avec des classifieurs indépendants (figure 4.6(b)), le maximum n améliore pas la reconnaissance pour tous les couples. Le borda et la somme donnent des performances similaires mais moins élevées que dans le cas de classifieurs corrélés. Nous remarquons également que le gain apporté par ces deux règles est plus important quand les classifieurs à combiner ont des performances très proches que quand les classifieurs ont des performances très différentes. Cette idée a été aussi montrée dans [Fumera and Roli, 2002] dans le cadre de la comparaison de la moyenne simple à la moyenne pondérée. Lorsque les classifieurs proposent des sorties différentes (D=1), le borda donne les meilleures performances. Cette méthode apporte un gain plus important (de 12%) lorsque la performance du deuxième classifieur est proche de celle du premier classifieur (p B =60%). Ce gain est de 4% seulement pour p B =80%. La somme produit une amélioration faible pour p B =60%. Avec un taux de reconnaissance supérieur à 60%, la somme et le maximum n améliorent pas la performance des classifieurs individuels. Les résultats de l expérience 4 indiquent que le comportement des méthodes de combinaison varie en fonction des performances des classifieurs et du niveau de diversité entre leurs sorties. En particulier, la somme et le borda fonctionnent bien lorsque les classifieurs sont corrélés surtout s ils ont des performances très proches. Si les classifieurs sont non corrélés mais ont des performances différentes, la combinaison par le borda est plus efficace. Quand les taux de reconnaissance des classifieurs sont très différents, il est préférable d utiliser le meilleur classifieur de l ensemble que de combiner.

240 240 Chapitre 4. Simulation de classifieurs corrélés Fig. 4.6 Influence de la performance du deuxième classifieur sur la combinaison (a) D=0.2 (b) D=0.6 (c) D=1

241 4.7. Comparaison avec la simulation indépendante 241 Les résultats que nous venons de présenter doivent être confirmés avec une génération intensive de classifieurs (50 répétitions ne sont pas suffisantes) mais ils montrent que notre méthode peut être utilisée pour mieux comprendre l effet de la diversité de classifieurs sur le comportement des méthodes de combinaison. 4.7 Comparaison avec la simulation indépendante Dans le chapitre précédent, nous avons vu qu on peut simuler des classifieurs de manière indépendante sans contrôler la corrélation entre les sorties des classifieurs. Le degré de diversité entre les classifieurs simulés peut être très différent. L objectif de cette section est de montrer l importance de notre méthode de génération de classifieurs corrélés par rapport à la simulation indépendante (c est-à-dire l importance du contrôle explicite de la diversité). Pour cela, nous avons simulé des ensembles de deux classifieurs dans les mêmes conditions que celles des trois expériences de la section précédente. Expérience 1 Dans cette première expérience, nous proposons d examiner le comportement de la somme, du borda ainsi que du maximum lorsque les classifieurs ont la même performance. Pour cela, nous avons simulé 50 couples de classifieurs avec p A =p B ={50, 60, 70, 80, 90}. Chaque classifieur propose 5 solutions pour un problème à 10 classes. Nous avons ensuite calculé la distance entre chaque paire de classifieurs. Le tableau 4.4 présente la distance minimale et maximale déterminées pour chaque performance ainsi que les taux de reconnaissance des méthodes de combinaison. p B D min D max somme borda maximum ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± Tab. 4.4 Résultats de la simulation indépendante de l expérience 1 Les résultats du tableau 4.4 montrent que les sorties générées par le simulateur de classifieur sont différentes (D=0.8). On peut remarquer que la

242 242 Chapitre 4. Simulation de classifieurs corrélés diversité entre les sorties simulées dépend ici des performances des classifieurs. En effet, la distance entre les sorties diminue quand les performances des classifieurs augmente. Les résultats du tableau 4.4 indiquent également l efficacité de la combinaison des rangs par rapport à la combinaison des confiances dans le cas de classifieurs non corrélés. La méthode de simulation indépendante de classifieurs permet bien de montrer qu avec des classifieurs non corrélés, il est plus intéressant de combiner par le borda que par les autres règles. Toutefois, cette méthode ne peut pas être utilisée pour évaluer les méthodes de combinaison dans toutes les conditions étant donnée qu on ne contrôle pas explicitement la diversité. Par exemple, avec le simulateur il est difficile de vérifier que le maximum est meilleur que la somme pour D=1 puisqu on ne peut pas avoir des sorties complètement différentes. Expérience 2 L objectif de cette expérience est d examiner le comportement des opérateurs de combinaison considérés en fonction du nombre maximal de solutions. Pour cela, nous avons simulé 50 couples de classifieurs ayant un taux de reconnaissance fixé à 80%. Chaque couple peut produire un nombre différent de solutions (K=3, 5, 7 et 9). Les résultats de ces opérateurs de combinaison ainsi que les distances calculées entre les sorties générées sont présentés dans le tableau 4.5. K D min D max somme borda maximum ± ± ± ± ± ± ± ± ± ± ± ± Tab. 4.5 Résultats de la simulation indépendante de l expérience 2 Les résultats du tableau 4.5 montre que les sorties générées par le simulateur de classifieur sont différentes. La distance entre ces sorties augmente lorsque les classifieurs produisent plus de solutions. Nous constatons que la combinaison des sorties générées par les trois opérateurs améliore la performance des classifieurs individuels. Là encore, le borda count donne des taux de reconnaissance supérieurs à ceux de la somme et du maximum. Les résultats montrent également que pour tous les ensembles simulés la somme est plus performante que le maximum. Cependant, avec la simulation indépendante, on ne peut pas montrer que le maximum exploite mieux l information dans les différentes propositions que la somme pour D=1. Cette

243 4.8. Conclusion 243 conclusion ne peut être vérifiée qu avec la simulation de classifieurs corrélés qui permet de générer des sorties avec des niveaux différents de diversité. Expérience 3 Le but de l expérience 3 est de regarder l influence de la performance du deuxième classifieur sur la combinaison par la somme, le borda count et le maximum. Pour cela, nous avons simulé de manière indépendante 4 groupes de 50 paires de classifieurs. La performance du premier classifieur p A est fixée à 50% alors que celle du deuxième classifieur p B ={ 60, 70, 80, 90}. Nous avons ensuite calculé la distance entre chaque paire de classifieurs. Le tableau 4.6 présente la distance minimale et maximale déterminées pour chaque groupe ainsi que les taux de reconnaissance des méthodes de combinaison. p B D min D max somme borda maximum ± ± ± ± ± ± ± ± ± ± ± ± Tab. 4.6 Résultats de la simulation indépendante de l expérience 3 Nous constatons à travers les résultats du tableau 4.6 qu avec des classifieurs proposant des sorties non-corrélées (D=0.8), le borda se comporte mieux que la somme et le maximum. Bien que ces résultats confirment ce que nous avons obtenus dans l expérience 4 de la section précédente, ils montrent toutefois la limite de la simulation indépendante dans la génération de sorties de classifieurs avec des niveaux différents de diversité. Ceci montre le véritable intérêt de contrôler la diversité dans la simulation de classifieurs pour une évaluation plus robuste du comportement des méthodes de combinaison. 4.8 Conclusion Les résultats théoriques et expérimentaux relevés dans la littérature montrent clairement que la combinaison de classifieurs ne peut être efficace que si les classifieurs individuels sont différents. Cette différence ou diversité est devenue récemment un concept essentiel à prendre en compte dans la conception des systèmes à plusieurs classifieurs puisqu il a une influence certaine sur les performances de la combinaison.

244 244 Chapitre 4. Simulation de classifieurs corrélés Dans ce chapitre, après avoir passé en revue les mesures de diversité les plus utilisées ainsi que les principales techniques cherchant à optimiser l ensemble de classifieurs en renforçant la diversité entre les sorties des classifieurs, nous avons proposé une méthode de génération de couples de classifieurs corrélés. Chaque couple est caractérisé par les performances individuelles de chacun des classifieurs ainsi que par un niveau de corrélation fixé. Nous avons utilisé une mesure de distance indiquant le degré de similitude entre les classifieurs de chaque groupe. Nous avons également décrit la façon dont les sorties des classifieurs étaient générées en fonction de cette mesure. La méthode de simulation proposée a été évaluée sur quelques problèmes de classification, en déterminant l influence de la corrélation sur le comportement de certains opérateurs de combinaison. Les résultats expérimentaux obtenus montrent la difficulté de la génération de classifieurs corrélés de type mesure mais aussi l importance de la génération des ensembles contenant plus de deux classifieurs pour l évaluation du comportement des méthodes de combinaison. Il faut noter ici que cette génération n est pas évidente. Elle nécessitera bien évidemment plus de réflexion puisque nous devons respecter la distance entre chaque paire de classifieurs ainsi que leurs performances. D autres perspectives à ce travail peuvent être citées. Il serait tout d abord souhaitable d utiliser notre méthode de génération pour évaluer la performance d autres régles de combinaison (paramètrique ou non) dans des conditions différentes en fonction de la diversité et des performances des classifieurs. Contrôler la performance des classifieurs à l intérieur de la liste de solutions (c est à dire respecter deux comportements ou une liste de comportements) peut également être envisagé. En d autres termes utiliser les autres configurations du simulateur pour pouvoir évaluer les méthodes de combinaison pour des problèmes différents de reconnaissance. L algorithme de la génération des sorties du deuxième classifieur que nous avons présenté doit être amélioré principalement pour prendre en compte la génération des solutions rejet. L utilisation de cet algorithme peut être intéressante pour l étude du comportement des méthodes de combinaison dans le cas du rejet.

245 Conclusion générale 245 Conclusion générale Les travaux présentés dans ce mémoire abordent le problème de la combinaison de classifieurs et concernent en particulier l étude des méthodes de combinaison parallèle. L objectif était d apporter une contribution à l évaluation et à la compréhension du comportement des méthodes de combinaison. L approche que nous avons proposée pour atteindre ce but repose essentiellement sur l utilisation de données artificielles générées par un simulateur de classifieur. Dans ce contexte, la première partie du travail a concerné l analyse des travaux existants du domaine. Nous avons restreint notre étude à l approche parallèle qui distingue principalement deux grandes familles. Les méthodes de fusion qui sont basées sur la dichotomie paramétrique / non paramétrique et les méthodes de sélection qui sont basées sur la dichotomie statique / dynamique. L étude bibliographique de ces méthodes de combinaison nous a permis de dégager les différentes caractéristiques de chacune de ces méthodes et de comprendre comment les chercheurs ont abordé le problème de l évaluation du comportement des méthodes de combinaison. Cette analyse nous a également permis de montrer l importance de caractériser les conditions d utilisation des méthodes de combinaison avec des données simulées. Ainsi, la première contribution apportée dans le cadre de cette thèse concerne la simulation de données (sorties de classifieur). L originalité de la méthode proposée réside dans la capacité du simulateur à générer une grande variabilité de performances en respectant des comportements différents pour un problème de classification quelconque. A partir de matrices de performances semi-globales ou locales, le simulateur peut fournir des sorties respectant un ou deux comportements dans les K premières solutions. Nous pouvons également contrôler la corrélation à l intérieur même de la liste de solutions en générant des sorties respectant à la fois un comportement en première proposition, dans les deux premières,..., dans les N premières. Notre simulateur peut également générer des sorties à partir de matrices provenant

246 246 Conclusion générale de l évaluation du comportement d un classifieur réel traitant un nombre limité de données. La validation expérimentale a montré le bien fondé de notre simulateur de classifieur et le réel intérêt à l exploiter dans l évaluation des méthodes de combinaison. La deuxième contribution concerne la mise en oeuvre d une méthode de génération de classifieurs corrélés. Cette méthode a consisté à générer les sorties du premier classifieur en se basant sur le simulateur de classifieur proposé. Les sorties du deuxième classifieur sont ensuite générées en utilisant une mesure de distance entre les confiances des classifieurs. Cette approche est intéressante dans la détermination de la relation entre le comportement de la méthode de combinaison et la diversité des classifieurs. Dans cette perspective, il conviendrait toutefois d étudier les méthodes de combinaison avec des ensembles contenant un nombre différent de classifieurs. Néanmoins, la méthodologie proposée ne permet de générer que des ensembles de deux classifieurs. Une approche de génération des ensembles contenant plus de 2 classifieurs reste à développer. Bien évidemment, cela nécessitera beaucoup de réflexion puisque la génération doit tenir compte de la diversité entre tous les paires des classifieurs ainsi que de leurs performances. Ces travaux ont mis en évidence l intérêt d aborder l évaluation des méthodes de combinaison parallèle de classifieurs par simulation. L approche de simulation que nous avons développée permet de contrôler le comportement d un classifieur à partir d un jeu réduit de paramètres (nombre de classes, type des sorties, taux de reconnaissance, de confusion et de rejet, matrices de confusion, corrélation dans les listes de solutions, accord entre les classifieurs,...). Les premières expérimentations réalisées ont donné des résultats intéressants. Toutefois, devant la difficulté qu il y a à prendre en compte tous les paramètres mis en jeu pour évaluer le comportement des opérateurs de combinaison, ces expérimentations ont été limitées à l étude de quelques opérateurs simples en ne prenant en compte qu un ou deux paramètres. L objectif de la suite est d étendre ces travaux à la recherche des paramètres permettant d expliquer les conditions dans lesquelles l emploi d un opérateur de combinaison donné est optimal. Pour cela, les méthodes stochastiques d optimisation combinatoire (du type algorithmes génétiques), permettant de formaliser le problème comme un problème d optimisation multi-critères, peuvent être utilisées. Si le domaine de l évaluation du comportement des méthodes de combinaison a un peu progressé ces dernières années, de nombreuses questions restent sans réponse. Ceci est lié d une part à la difficulté de mener des études

247 Conclusion générale 247 théoriques dans ce domaine et d autre part au manque d études comparatives qui peuvent apporter des contributions permettant d avancer dans l étude du comportement des méthodes de combinaison. Les quelques résultats obtenus dans la littérature ne peuvent que montrer la diversité des problèmes à traiter dans ce domaine. Avec un peu de recul et d expériences sur le comportement des méthodes de combinaison, nous pouvons dégager quelques perspectives de recherche à envisager pour notre travail. Ces perspectives portent sur les différents facteurs qui peuvent influencer le comportement des méthodes de combinaison. Performances des classifieurs: L analyse du comportement des méthodes de combinaison avec des classifieurs ayant des performances différentes n est pas encore traitée de manière claire. En effet, les travaux théoriques et expérimentaux réalisés jusqu à maintenant ne traitent que les cas extrêmes: classifieurs avec les mêmes performances, un classifieur parmi l ensemble à une performance très élevée ou très faible. Notons que les résultats concernant l influence des performances des classifieurs sur le comportement des méthodes de combinaison sont obtenus avec peu de classifieurs. Il est intéressant donc de regarder l influence des performances des classifieurs sur le comportement des différentes méthodes de combinaison dans le cas où de nombreux classifieurs sont combinés. Il est intéressant également de regarder l influence de la répartition des performances entre les classes sur le comportement des différentes méthodes de combinaison. Comment ces performances doivent être distribuées pour qu une méthode de combinaison donnée produise une meilleure performance? Un problème qui nous semble intéressant à étudier concerne l influence des performances des classifieurs en terme de taux de rejet sur le comportement des méthodes de combinaison. D après nos connaissances, cette analyse n a pas reçu une attention particulière dans les études réalisées sur l évaluation de la combinaison. Pourtant dans la pratique, on peut disposer d un ensemble de classifieurs réels qui rejettent. Grâce à sa capacité à tenir compte du rejet, le simulateur pourra servir pour analyser ce problème. Concernant la décision des méthodes de combinaison, la liste finale de solutions peut contenir plusieurs classes présentant le même score (en particulier pour les méthodes de type rang). Traiter ce problème consiste à utiliser l option du rejet au niveau de la décision de la règle de combinaison. Quelle est la méthode qui réalise le meilleur compromis entre taux de rejet et taux de reconnaissance? Comment les performances des classifieurs peuvent-elles influer sur ce compromis? Une étude approfondie sur ce sujet permettra de mieux comprendre le comportement des méthodes de combinaison et donc

248 248 Conclusion générale d augmenter la fiabilité des systèmes de reconnaissance. Diversité entre les classifieurs: Il serait intéressant d analyser le comportement des méthodes de combinaison en fonction de la diversité entre les sorties des classifieurs. En effet, il faut plus d études comparatives par exemple pour les règles non adaptatives en fonction de la diversité pour connaître à quel niveau de corrélation, une règle de combinaison peut être meilleure que les autres et quelles sont les règles qui sont plus sensibles à la corrélation que d autres. Notons ici que trop peu de travaux ont été réalisés dans ce contexte. En fonction de la diversité, on peut également expliquer les conflits entre les résultats obtenus concernant le comportement des méthodes de combinaison. Par exemple, certaines études montrent que le maximum ne peut pas améliorer les performances des classifieurs alors que d autres études montrent que cette règle peut donner de meilleures performances même par rapport aux autres règles de combinaison comme la somme. En effet, comme nous l avons montré dans les expériences du chapitre 4, il est possible de trouver des situations où la règle du maximum se comporte mieux que la somme. Plus de travaux doivent donc être envisagés dans ce sens pour résoudre ce type de conflit. Pour cela, la méthode de génération de classifieurs corrélés pourra être utilisée pour éclaircir les conditions d utilisation de ces méthodes de combinaison. Nombre de classifieurs: Un problème intéressant qui n a toujours pas de réponse est: Combien de classifieurs faut-il utiliser pour obtenir de meilleure performance avec une méthode de combinaison donnée? Dans la majorité des travaux existants, le nombre de classifieurs est fixé de manière statique sans justification a priori. Si l évaluation complète permettant de connaître le nombre exact de classifieurs à fusionner n est pas pour le moment envisageable, il est toutefois possible de savoir si une méthode se comporte mieux avec peu de classifieurs ou avec un grand nombre de classifieurs. Plus intéressant encore est de savoir le nombre de classifieurs à utiliser lorsqu ils ont des performances faibles avec un niveau de diversité donné. Cela servira à comprendre le comportement non seulement des opérateurs de combinaison mais aussi des méthodes de génération de classifieurs notamment bagging et boosting qui sont très utilisées actuellement dans plusieurs applications. On comprend donc tout l intérêt qu il y a à traiter le problème de choix du nombre de classifieurs surtout qu une analyse théorique dans ce cadre est difficile à mener. Nombre de classes: Le nombre de classes peut également avoir une influence sur le comportement des méthodes de combinaison. Ce sont souvent

249 Conclusion générale 249 les problèmes à peu de classes (2 à 10 classes) qui sont les plus traités dans le cas de l évaluation des performances des méthodes de combinaison pourtant beaucoup d applications utilisent un grand nombres de classes. Quelle peut être la méthode de combinaison parmi celles existantes la plus efficace pour un problème comportant un grand nombre de classes (centaines)? Nombre de solutions: Les travaux existants qui traitent le problème de l évaluation des méthodes de combinaison de type rang et mesure utilisent des classifieurs proposant une seule solution ou toutes les classes possibles. L étude du comportement de ces méthodes avec des listes de solutions non égales reste encore ouverte. Il est intéressant de regarder si les résultats de ces études restent valables dans ce cas. Il est intéressant également de regarder comment se comporte une méthode de combinaison donnée avec des classifieurs proposant un nombre différent de solutions. Structure de classifieurs: L analyse de l influence des structures des classifieurs (kppv, neuronal, bayesien, gaussien, discrimination linéaire,..) a été réalisée uniquement pour comparer le produit et la somme. Il est donc intéressant de regarder comment les autres méthodes de combinaison se comportent avec des classifieurs ayant une structure donnée et des structures différentes. Pour cela, l utilisation de matrices réelles en entrée du simulateur peut nous aider à comprendre le comportement des méthodes de combinaison pour une structure donnée. Les travaux existants montrent qu aucune méthode de combinaison n est actuellement capable de donner de meilleures performances dans tous les problèmes de reconnaissance. En revanche, l étude du comportement des méthodes de type rang semble la plus réaliste et correspond à un besoin réel pour les problèmes de reconnaissance. Une étude plus approfondie et comparative de ces méthodes en fonction des différents facteurs permettra de faciliter la caractérisation des situations de leur utilisation. L idée est donc d étudier le comportement de ces méthodes de combinaison en fonction des performances des classifieurs (taux de reconnaissance différents, taux de rejet, variation par classe), de la corrélation, pour plusieurs classifieurs et pour des problèmes à plusieurs classes. Ces objectifs fixent donc le cadre des travaux que nous devons mener à terme sur cette problématique. Pour conclure sur ces perspectives, nous pensons que le problème de l évaluation des méthodes de combinaison constitue l un des axes des tra-

250 250 Conclusion générale vaux les plus importants dans les années à venir. Malgré l importance de l utilisation des données réelles pour cette évaluation, force est de constater que la simulation reste le moyen le plus adapté pour obtenir des résultats possédant une réelle utilité pratique pour la reconnaissance. Grâce à cette technique, des conditions d utilisation des méthodes de combinaison pourraient être identifiées à long terme.

251 Bibliographie 251 Bibliographie [Achermann and Bunke, 1996] Achermann, B. and Bunke, H. (1996). Combination of classifiers on the decision level for face recognition. Technical report, University of Bern. [Agesti, 1990] Agesti, A. (1990). Categorical data analysis. John Wiley et Sons. [Aksela, 2003] Aksela, M. (2003). Comparison of classifier selection methods for improving committee performance. In Lecture Notes in Computer Science, 4th International Workshop, Multiple Classifier Systems (MCS), volume 2709, pages 84 93, June, Guildford, UK. [Alexandre et al., 2000] Alexandre, L., Campilho, A., and Kamel, M. (2000). Combining independent and unbiased classifiers using weighted average. pages [Alexandre et al., 2001] Alexandre, L., Campilho, A., and Kamel, M. (2001). On combining classifiers using sum and product rules. Pattern Recognition Letters, 22: [Alkoot and Kittler, 1999] Alkoot, F. and Kittler, J. (1999). Experimental evaluation of expert fusion strategies. Pattern Recognition Letters, 20(11): [Alkoot and Kittler, 2002] Alkoot, F. and Kittler, J. (2002). Modified product fusion. Pattern Recognition Letters, 23: [Alpaydin, 1992] Alpaydin, E. (1992). Multiple neural networks and weighted voting. In 11th IAPR International Conference on Pattern Recognition, pages 29 32, The Hague, The Netherlands. [Alpaydin, 1993] Alpaydin, E. (1993). Multiple networks for function learning. In IEEE International Conference on Neural Networks, volume 1, pages [Alpaydin and Jordan, 1996] Alpaydin, E. and Jordan, M. (1996). Local linear perceptrons for classification. IEEE Transactions Neural Networks, 7(3):

252 252 Bibliographie [Auger, 1993] Auger, J.-M. (1993). Méthodes neuronales pour la reconnaissance de caractères manuscrits: comparaison et coopération. Thèse de doctorat, Université Paris 6. [Avnimelech and Intrator, 1999] Avnimelech, R. and Intrator, N. (1999). Boosted mixture of experts: an ensemble learning scheme. Neural Computation, 11: [Bajaj and Chaudhury, 1997] Bajaj, R. and Chaudhury, S. (1997). Signature verification using multiple neural classifiers. Pattern Recognition, 30(1):1 7. [Baluja, 1994] Baluja, S. (1994). Population-based incremental learning: a method for integrating genetic search based function optimization and competitive larning. Technical Report 163, Carnegie Melon University, Pittsburgh PA. [Banfield et al., 2003] Banfield, R., Hall, L., Bowyer, K., and Kegelmeyer, W. (2003). A new ensemble diversity measure applied to thinning ensembles. In Windett, T. and Roli, F., editors, 4th International Workshop, Multiple Classifier Systems, volume 2709, pages [Battati and Colla, 1994] Battati, R. and Colla, A. (1994). Democracy in neural nets : voting schemes for classification. Neural Networks, 7(4): [Beiraghi et al., 2000] Beiraghi, S., Ahmadi, M., Shridhar, M., and Ahmed, M. (2000). Application of fuzzy integrals in fusion of classifiers for low error rate handwritten numerals recognition. In International Conference in Pattern Recognition, page pp. [Bellili et al., 2002] Bellili, A., Gilloux, M., and Gallinari, P. (2002). Reconnaissance de chiffres manuscrits par un système hybride mlp-svm. In 13ème Congrès Francophone AFRIF-AFIA de Reconnaissance des Formes et d Intelligence Artificielle, volume 3, pages , Angers, France. [Benediktsson et al., 1997] Benediktsson, J., Sveinsson, J., Ingimundarson, J., Sigurdsson, H., and Ersoy, O. (1997). Multistage classifiers optimized by neural networks and genetic algorithms. Non-linear Analusis Theory Methods Application, 30(3): [Berger, 1985] Berger, J. (1985). Statistical decision theory and bayesian analysis. Springer-Verlag. [Bishop, 1995] Bishop, C. (1995). Neural networks for pattern recognition. Clarendon Press, Oxford. [Black, 1958] Black, D. (1958). The theory of committees and elections. Cambridge University Press.

253 Bibliographie 253 [Bloch, 1996] Bloch, I. (1996). Information combination operators for data fusion: a comparative review with classification. IEEE Tansactions on Systems Man Cybernetics - Part A: Systems Humans, 26: [Borda, 1781] Borda, J.-C. (1781). Mémoire sur les elections au scrutin. Histoire de l Academie Royale des Sciences, Paris. [Breiman, 1996a] Breiman, L. (1996a). Bagging predictors. Machine Learning, 24(2): [Breiman, 1996b] Breiman, L. (1996b). Bias, variance, and arcing classifiers. Technical Report 460, UC-Berkeley, Berkeley, CA. [Breiman, 1998] Breiman, L. (1998). Halfandhalf bagging and hard boundary points. Technical Report 534, Statistics Department, University of California, Berkeley. [Broadley, 1982] Broadley, R. (1982). A multiplicative formula for aggregating probability assessments. Management Science, 28: [Brunelli and Falavigna, 1995] Brunelli, R. and Falavigna, D. (1995). Person identification using multiple cues. IEEE Transactions on Pattern Analysis Machine Intelligence, 17(10): [Cao et al., 1994] Cao, J., Ahmadi, M., and Shridhar, M. (1994). Handwritten numerals with multiple features and mltistage classifiers. IEEE International Journal on Circuits and Systems, 6: [Cao et al., 1995] Cao, J., Ahmadi, M., and Shridhar, M. (1995). Fusion of classifiers with fuzzy integrals. In International Conference in Document Analysis and Recognition (ICDAR), page pp. [Carney and Cunningham, 1999] Carney, J. and Cunningham, P. (1999). Tuning diversity in bagged neural network ensembles. Technical report, University of Dublin (department of Computer Science). [Chen et al., 1997] Chen, K., Wang, L., and Chi, H. (1997). Methods of combining multiple classifiers with different features and their applications to text-independent speaker identification. International Journal of Pattern Recognition and Artificial Intelligence, 11(3): [Chiang and Fu, 1994] Chiang, C.-C. and Fu, H. (1994). A divide-andconquer methodology for modular supervised neural network design. In IEEE International Conference on Neural Networks, pages , Orlando, FL. [Chibelushi et al., 1993] Chibelushi, C., MAson, J., and Deravi, F. (1993). Integration of acoustic and visual speech for speaker recognition. Eurospeech, pages [Cho, 1999] Cho, S.-B. (1999). Pattern recognition with neural networks combined by genetic algorithm. Fuzzy Sets Systems, 103:

254 254 Bibliographie [Cho and Kim, 1995] Cho, S.-B. and Kim, J. (1995). Combining multiple neural network by fuzzy integral for robust classification. IEEE Transaction on Systems, Man, And Cybernetics, 25(2):pp. [Chou et al., 1994] Chou, K., Tu, L., and Shyu, I. (1994). Performance analysis of a multiple classifiers system for recognition of totally unconstrained handwritten numerals. In 4th International Workshop on Frontiers of Handwriting Recognition, pages , Taiwan. [Clavier et al., 2000] Clavier, E., Trupin, E., Laurent, M., Diana, S., and Labiche, J. (2000). Classifier combination for forms sorting. In International Conference on Pattern Recognition, volume 1, page 193, Barcelona. [Clemen, 1989] Clemen, R. (1989). Combining forecasts: A review and annotated bibliography. Journal of Forecasting, 5: [Cohen, 1960] Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20: [Cohn et al., 1994] Cohn, D., Atlas, L., and Ladner, R. (1994). Improving generalization with active learning. Machine Learning, 15(2): [Condorcet, 1785] Condorcet, M. (1785). Essai sur l application de l analyse à la probabilité des decisions rendues à la pluralité des voix. Paris. [Cordella et al., 1998] Cordella, L., Foggia, P., Sansone, C., Tortorella, F., and Vento, M. (1998). Optimizing the error/reject trade-off for a multiexpert system using the bayesian combining rule. In Advances in Pattern recognition, pages [Cranor, 1996] Cranor, L. (1996). Declared-strategy voting: an instrument for group decision-making. Phd thesis, Washington University. [Cunningham and Carney, 2000] Cunningham, P. and Carney, J. (2000). Diversity versus quality in classification ensembles based on feature selection. In 11th European Conference on Machine Learning, pages [Czyz et al., 2004] Czyz, J., Kittler, J., and Vandendorpe, L. (2004). Multiple classifier combination for face-based identity verification. Pattern Recogntion, 37: [Davis, 1991] Davis, L. (1991). Handbook of genetic algorithms. Van Nostrand Reinhold, New York. [Demirekler and Altinçay, 2004] Demirekler, M. and Altinçay, H. (2004). Plurality voting-based multiple classifier systems: statistically independent with respect to dependent classifier sets. Pattern Recognition, pages [Dempster, 1985] Dempster, A. (1985). Probability, evidence, and judgment, pages éd. par J.M. Bernardo, M.H. De-Goot, D.V. Lindley, A.F.M. Smith, Elsevier Science Publishers.

255 Bibliographie 255 [Dietterich, 2000] Dietterich, T. (2000). An experimental comparison of three methods for constructing ensembles of decision trees: bagging, boosting and randomization. Machine Learning, 40(2): [Dimauro et al., 1995] Dimauro, G.and Impedovo, S., Pirlo, G., and Rizzo, S. (1995). Multiple experts: a new methodology for the evaluation of the combination processes. International (a completer), pages [Drucker et al., 1994] Drucker, H., Cortes, C., Jackel, L., Lecun, Y., and Vapnik, V. (1994). Boosting and other ensemble methods. Neural Computation, 6(6): [Duda and Hart, 1973] Duda, R. and Hart, P. (1973). Pattern classification and scene analysis. John Wiley Sons. [Duin, 2002] Duin, R. (2002). The combining classifier: to train or not to train? volume II of 16th International Conference on Pattern Recognition (ICPR), IEEE Computer Society Press, Los Alamitos,, pages , Quebec City, Canada. [Duin and Tax, 2000] Duin, R. and Tax, D. (2000). Experiments with classifier combining rules. In J. Kittler, F. R., editor, 1st International Workshop, Multiple Classifier Systems (MCS), Lecture Notes in Computer Science, volume 1857, pages 16 29, Cagliari, Italy. Springer, Berlin. [Duin and Tax, 1998] Duin, R. and Tax, D. M. J. (1998). Classifier conditional posterior probabilities. Advances in Pattern Recognition, 1451: [Efron and Tibshirani, 1993] Efron, B. and Tibshirani, R. (1993). An introduction to the bootstrap. Chaman and Hall. [ElMalek et al., 2002] ElMalek, J., Alimi, A., and Tourki, R. (2002). Problems in pattern classification in high domensional spaces: behavior of a class of combined neuro-fuzzy classifiers. Fuzzy Sets and Systems, 128: [Filippi et al., 1994] Filippi, E., Costa, M., and Pasero, E. (1994). Multilayer percepton ensembles for increased performance and fault-tolerance in pattern recognition tasks. In IEEE International Conference on Neural Networks, pages , Orlando, FL. [Franke, 1992] Franke, J. annd Mandler, E. (1992). A comparison of two approaches for combining the votes of cooperating classifiers. In 11th International Conference on Pattern Recognition, pages , Den Haag, Netherlands. [Freund and Schapire, 1996] Freund, Y. and Schapire, R. (1996). Experiments with a new boosting algorithm. In 13th International Conference Machine Learning, pages [Friedman, 1989] Friedman, J. (1989). Regularized discriminant analysis. Journal of American Statistical Association (JASA), 84:

256 256 Bibliographie [Fumera and Roli, 2002] Fumera, G. and Roli, F. (2002). Performance analysis and comparison of linear combiners for classifier fusion. In IAPR International Workshop on Statistical Pattern Recognition (SPR), pages , Windsor, Canada. Springer-Verlag, LNCS. [Fumera and Roli, 2004] Fumera, G. and Roli, F. (2004). Analysis of errorreject trade-off in linearly combined multiple classifiers. Pattern Recogntion, 37: [Gader et al., 1991] Gader, L., Forester, B., Ganzberger, M., Gillies, A., Mitchell, B., Whalen, M., and Yocum, T. (1991). Recognition of handwritten digits using template and model matching. Pattern Recognition, 24(5): [Gader et al., 1996] Gader, P., Mohamed, M., and Keller, J. (1996). Fusion of hadwritten word classifiers. Pattern Recognition Letters, 17: [Giacinto, 1998] Giacinto, G. (1998). Design of multiple classifier systems. PhD thesis, Université de Salerno, Italy. [Giacinto and Roli, 2000] Giacinto, G. and Roli, F. (2000). Dynamic classifier selection. In J. Kittler, F. R., editor, Lecture Notes in Computer Science, 1st International Workshop on Multiple Classifier Systems (MCS), volume 1857, pages , Cagliari, Italy. [Giacinto and Roli, 2001a] Giacinto, G. and Roli, F. (2001a). An approach to the automatic design of multiple classifier systems. Pattern Recognition Letters, 22(1): [Giacinto and Roli, 2001b] Giacinto, G. and Roli, F. (2001b). Design of effective neural network ensembles for image classification processes. Image Vision and Computing Journal, 19(9): [Giacinto and Roli, 2001c] Giacinto, G. and Roli, F. (2001c). Dynamic classifier selection based on multiple classifier behaviour. Pattern Recognition, 34(9): [Giacinto et al., 2000a] Giacinto, G., Roli, F., and Fumera, G. (2000a). Design of effective multiple classifier systems by clustering of classifiers. In International Conference Document Analysis and Recognition (ICDAR), pages [Giacinto et al., 2000b] Giacinto, G., Roli, F., and Fumera, G. (2000b). Selection of classifiers based on multiple classifier behaviour. In Lecture Notes in Computer Science, Joint IAPR International Workshops on Syntactical and Structural Pattern Recognition and Statistical Pattern Recognition (S+SSPR), volume 1876, pages 87 93, Alicante, Spain. [Gilbert et al., 1999] Gilbert, W., Bassett, J., and Persky, J. (1999). Robust voting. Public Choice, 99:

257 Bibliographie 257 [Glover and Laguna, 1997] Glover, F. and Laguna, M. (1997). Tabu search. Kluver Academic Publishers, Boston. [Gosselin, 1997] Gosselin, B. (1997). Cooperation of multilayer perceptron classifiers. 8th Workshop on Circuits, Systems and Signal Processing, pages , Mierlo, Pays-Bas. [Grabisch and Nicolas, 1994] Grabisch, M. and Nicolas, J.-M. (1994). Classification by fuzzy integral. Fuzzy Sets and Systems, 65: [Griffiths, 1980] Griffiths, D. (1980). A pragmatic approach to spearman s rank correlation coefficient. Teaching Statistics, 2: [Gunes, 2001] Gunes, V. (2001). Reconnaissance des formes évolutives par combinaison, coopération et sélection de classifieurs. PhD thesis, Université de la Rochelle. [Gunter and Bunke, 2004] Gunter, S. and Bunke, H. (2004). Off-line cursive handwriting recognition using mutiple classifier systems- on the influence of vocabulary, ensemble, and training set size (in press). Optics and Lasers in Engineering. [Hamsshire and Waibel, 1992] Hamsshire, J. and Waibel, A. (1992). The meta-pi network: Building distributed knowledge representations for robust multisource pattern recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 14: [Hansen and Salamon, 1990] Hansen, L. and Salamon, P. (1990). Neural network ensembles. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(10): [Hao et al., 2003] Hao, H., Liu, C., and Sako, H. (2003). Comparison of genetic algorithm and sequential search methods for classifier subset selection. In 7th International Conference on Document Analysis and Recognition, volume 2, pages [Hao et al., 1997] Hao, H.-W., Xiao, X.-H., and Dai, R.-W. (1997). Handwritten chinese chararcter recognition by metasynthetic approach. Pattern Recognition, 30(8): [Hare, 1873] Hare, T. (1873). The election of representatives, parliamentary and municipal. 4th edn London: Longmans. [Hashem, 1997] Hashem, S. (1997). Optimal linear combinations of neural networks. Neural Networks, 10(4): [Heutte, 1994] Heutte, L. (1994). Reconnaissance de caractères manuscrits : application à la lecture automatique des chèques et des enveloppes postales. PhD thesis, Université de Rouen, France. [Ho, 1992] Ho, T. (1992). A theory of multiple classifier systems and its application to visual word recognition. PhD thesis, Department of Computer Science, Suny at Buffalo, New York.

258 258 Bibliographie [Ho, 1998] Ho, T. (1998). The random subspace method for constructing decision forests. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(8): [Ho and Hull, 1994] Ho, T. and Hull, J.J. ad Srihari, S. (1994). Decision combination in multiple classifier systems. IEEE Transactions on Pattern Analysis and Machine Intelligence, 16(1): [Hothorn and Lausen, 2003] Hothorn, T. and Lausen, B. (2003). Doublebagging: combining classifiers by bootstrap aggregation. Pattern Recogntion, 36: [Huang et al., 1995] Huang, Y., Liu, K., and Suen, C. (1995). The combination of multiple classifiers by neural network approach. International Journal of Pattern Recognition and Artificial Intelligence, 9(3): [Huang and Suen, 1995] Huang, Y. and Suen, C. (1995). A method of combining multiple experts for the recognition of unconstrained handwritten numerals. IEEE Transactions on Pattern Analysis and Machine Intelligence, 17(1): [Hull, 1988] Hull, J. (1988). A computatonal theory of visual word recognition. PhD thesis, Department of Computer Science, SUNY at Buffalo. [Hull et al., 1983] Hull, J., Srihari, S., and Choudhuri, R. (1983). An integrated algorithm for text recognition : comparison with a cascaded algorithm. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 5(4): [Impedovo and Salzo, 1999] Impedovo, S. and Salzo, A. (1999). Evaluation of combination methods. International Conference in Document Analysis and Recognition, pages [Jacobs et al., 1991] Jacobs, R., Jordan, M., Nowlan, S., and Hinton, G. (1991). Adaptive mixtures of local experts. Neural computation, 3(1): [Jain and Dubes, 1988] Jain, A. and Dubes, R. (1988). Algorithms for clustering data. Prentice Hall. [Jain et al., 2000] Jain, A., Duin, R., and Mao, J. (2000). Statistical pattern recognition : a review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(1):4 37. [Jain and Zongke, 1997] Jain, A. and Zongke, D. (1997). Feature selection: evaluation, application, and small sample performance. IEEE Trans. Pattern Analysis and Machine Intelligence, 19(2): [Ji and Ma, 1997] Ji, C. and Ma, S. (1997). Combinations of weak classifiers. Special Issue of Neural Networks and Pattern Recognition, IEEE Transactions on Neural Networks, 8(1):32 42.

259 Bibliographie 259 [Jordan and Jacobs, 1994] Jordan, M. and Jacobs, R. (1994). Hierarchical mixtures of experts and the em algorithm. Neural Computation, 6: [Jordan and Xu, 1995] Jordan, M. and Xu, L. (1995). Convergence results for the em approach to mixtures of experts architectures. Neural Networks, 8: [Kamel and Wanas, 2003] Kamel, M. and Wanas, N. (2003). Data dependence in combining classifiers. In T. Windeatt, F. R., editor, 4th International Workshop, Multiple Classifier Systems (MCS), Lecture Notes in Computer Science, volume 2709, pages 1 14, Guildford, UK. Springer, Berlin. [Kang and Lee, 2000] Kang, H. and Lee, S. (2000). An information-theoretic strategy for constructing multiple classifier systems. In 15th International Conference on Pattern Recognition, volume 2, pages [Keller et al., 1994] Keller, J., Gader, P., Tahani, H., Chiang, J.-H., and Mohamed, M. (1994). Advances in fuzzy integration for pattern recognition, fuzzy sets and systems. Fuzzy Sets and Systems, 65: [Kim et al., 2000] Kim, J., Kim, K., Nadal, C., and Suen, C. (2000). A methodology of combining hmm anf mlp classifiers for cursive word recognition. International Conference Document Analysis and Recognition (ICDAR), 2: [Kim et al., 1997] Kim, J., Seo, K., and Chung, K. (1997). A systematic approach to classifier selection on combining multiple classifiers for handwritten digit recognition. In International Conference Document Analysis and Recognition (ICDAR), pages [Kimura and Shridhar, 1991] Kimura, F. and Shridhar, M. (1991). Handwritten numeral recognition based on multiple algorithms. Pattern Recognition, 24(10). [Kittler and Alkoot, 2003] Kittler, J. and Alkoot, F. (2003). Sum versus vote fusion in multiple classifier systems. IEEE Transactions on Pattern Analysis and Machine Intelligence, 25(1): [Kittler et al., 1998] Kittler, J., Hatef, M., Duin, R., and Matas, J. (1998). On combining classifiers. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(3): [Kittler et al., 1997] Kittler, J., Hojjatoleslami, A., and Windeatt, T. (1997). Strategies for combining classifiers employing shared and distinct pattern representations. Pattern Recognition Letters, 18: [Knerr et al., 1996] Knerr, S., Baret, O., Price, D., Simon, J., Anisimov, V., and Gorski, N. (1996). The a2ia recognition system for hadwritten checks. In IAPR Workshop on Document Analysis Systems, pages , Malvern, Penn, USA.

260 260 Bibliographie [Knight and Levson, 1986] Knight, C. and Levson, N. (1986). An experimental evaluation of the assumption of independence in multiversion programming. IEEE Transactions on Software Engineering, 12(1): [Krogh, 1995] Krogh, A. ad Vedelsby, J. (1995). Neural network ensembles, cross validation, and active learning. In G. Tesauro, D. Touretzky, T. L., editor, Advances in Neural Information Processing Systems, volume 7, pages , Cambridge, MA:MIT Press. [Kuncheva, 1993] Kuncheva, L. (1993). Change-glasses approach in pattern recognition. Pattern Recognition Letters, 14: [Kuncheva, 1997] Kuncheva, L. (1997). An application of owa operators to the aggregation of multiple classification decisions. In R.R. Yager, J. K., editor, The Ordered Weighted Averaging Operators, pages Kluwer, Dordrecht, USA. [Kuncheva, 1998] Kuncheva, L. (1998). On combining multiple classifiers. In 7th International Conference on Information Processing and Management of Uncertainty (IPMU), pages , Paris, France. [Kuncheva, 2000a] Kuncheva, L. (2000a). Clustering and selection model for classifier combination. In Knowldge-Based Intelligent Engineering System and Allied Technologies, pages , Brighton, UK. [Kuncheva, 2000b] Kuncheva, L. (2000b). A theoretical study on expert fusion strategis. IEEE Transactions on Pattern Ananlysis and Machine Intelligence, 4(4): [Kuncheva, 2002] Kuncheva, L. (2002). Switching between selection and fusion in combining classifiers: an experiment. IEEE Transactions on Systems Man, and Cybernetics, Part B-cyberneics, 32(2): [Kuncheva, 2003] Kuncheva, L. (2003). That elusive diversity in classifier ensembles. In IbPRIA 2003, Lecture Notes in Computer Science, Springer- Verlag, pages , Mallorca, Spain. [Kuncheva et al., 2001] Kuncheva, L., Bezdek, J., and Duin, R. (2001). Decision templates for multiple classifier fusion : an experimental comparison. Pattern Recognition, 34(2): [Kuncheva and Kountchev, 2002] Kuncheva, L. and Kountchev, R. (2002). Generating classifier outputs of fixed accuracy and diversity. Pattern Recognition Letters, 23: [Kuncheva et al., 2002] Kuncheva, L., Skurichine, M., and Duin, R. (2002). An experimental study on diversity for bagging and boosting with linear classifiers. Information Fusion, 3(2): [Kuncheva and Whitaker, 2003] Kuncheva, L. and Whitaker, C. (2003). Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy. Machine Learning, 51:

261 Bibliographie 261 [Kuncheva et al., 2003] Kuncheva, L., Whitaker, C., and Duin, R. (2003). Limits on the majority vote accuracy in classifier fusion. Pattern Analysis and Applications, 6: [Kuncheva et al., 2000] Kuncheva, L., Whitaker, C., Shipp, C., and Duin, R. (2000). Is independence good for combining classifiers? In 15th International Conference on Pattern Recognition (ICPR), volume 2, pages [Kurzweil, 1990] Kurzweil, R. (1990). The age of intelligent machines, page CahpterVII. The MIT Press. [Laaksonen et al., 1999] Laaksonen, J., Aksela, M., Oja, E., and Kangas, J. (1999). Dinamically expanding context as committee adaptation method in on-line recognition of handwritten latin characters. In International Conference on Documen Analysis and Recognition, pages [Lam and Suen, 1988] Lam, L. and Suen, C. (1988). Structural classification and relaxation matching of totally unconstrained handwritten zip-code numbers. Pattern Recognition, 21(1): [Lam and Suen, 1994] Lam, L. and Suen, C. (1994). A theoretical analysis of the application of majority voting to pattern recognition. In International Conference on Pattern Recognition, pages , Jerusalem. [Lam and Suen, 1997] Lam, L. and Suen, C. (1997). Application of majority voting to pattern rcognition: an analysis of its behavior and performance. IEEE Transactions on System, Man, and Cybernetics, Part A: Systems and Humans, 27(5): [Lamy, 1995] Lamy, B. (1995). Reconnaissance de caractères manuscrits par combinaison de modèles connexionnistes. PhD thesis, Université Paris 6. [Laplace, 1847] Laplace, P. (1847). Deuxième supplément à la théorie analytique ds probabilités. Oeuvre Complètes de Laplace, 7: [Lecce et al., 2000] Lecce, V., Dimauro, G., Guerrierro, A., Impedovo, S., Pirlo, G., and Salzo, A. (2000). Classifier combination : the role of a-priori knowledge. In 7th International Workshop on Frontiers in Handwriting Recognition (IWFHR), pages , Amsterdam, the Netherlands. [Lee and Srihari, 1995] Lee, D.-S. and Srihari, S. (1995). A theory of classifier combination: the neural network approach. In IEEE International Conference in Document Analysis and Recognition (ICDAR), pages [Li and Jain, 1998] Li, Y. and Jain, A. (1998). Classification of text documents. The Computer Journal, 41(8): [Lin et al., 2003] Lin, X., Yacoub, S., Burns, J., and Simske, S. (2003). Performance analysis of pattern combination by plurality voting. Pattern Recognition Letters, 24:

262 262 Bibliographie [Lipnickas, 2001] Lipnickas, A. (2001). Classifiers fusion with data dependent aggregation schemes. In 7th International Conference on Information Networks, Systems and Technologies (ICINST), pages [Littlewood and Miller, 1989] Littlewood, B. and Miller, D. (1989). Conceptual modelling of coincident failures in multiversion software. IEEE Transactions on Software Engineering, 15(12): [Liu and Yao, 1999] Liu, Y. and Yao, X. (1999). Ensemble learning via negative correlation. Neural Networks, 12. [Maclin and Opitz, 1997] Maclin, R. and Opitz, D. (1997). An empirical evaluation of bagging and boosting. In for Artificial Intelligence (AAAI) Press, A. A., editor, 14th National Conference on Artificia Intelligence, pages , Providence, Rhode Island. MA., AAAI Press/MIT Press. [Mandler and Schuermann, 1988] Mandler, E. and Schuermann, J. (1988). Combining the classification results of independent classifiers based on the dempster-shafer theory of evidences. International Journal of pattern Recognition and Artificial Intelligence, pages [Melville and Raymond, 2003] Melville, P. and Raymond, J. (2003). Constructing diverse classifier ensembles using artificial training exemples. In IJCAI, pages , Acapulco, Mexico. [Moobed, 1996] Moobed, B. (1996). Combinaison de classifieurs, une nouvelle approche. Informatique, Université Paris sud, UFR Scientifique d Orsay. [Nadal et al., 1990] Nadal, C., Legault, R., and Suen, C. (1990). Complementary algorithms for the recognition of totally unconstrained handwritten numerals. In 10th International Conference on Pattern Recognition, pages , Atlantic City. [Nanson, 1882] Nanson, E. (1882). Methods of election. Trans. Proc. R. Soc. Victoria, 18: [Nilsson, 1965] Nilsson, N. (1965). Learning Machines. McGraw-Hill, New York. [Nishimura et al., 1999] Nishimura, H., Kobayashi, M., Maruyama, M., and Nakano, Y. (1999). Off-line character recognition using hmm by multiple directional feature extraction and voting with bagging algorithm. International Conference Document Analysis Recognition (ICDAR), pages [Oh, 2003] Oh, S.-B. (2003). On the relationship between majority vote accuracy and dependency in multiple classifier systems. Pattern Recognition Letters, 24: [Oliveira et al., 2003] Oliveira, L., Sabourin, R., Bortolozzi, F., and Suen, C. (2003). Feature selection for ensembles: a hierarchical multi-objective

263 Bibliographie 263 genetic algorithm. In 7th International Conference on Document Analysis and Recognition, volume 2, pages [Opitz, 1999] Opitz, D. (1999). Feature selection for ensembles. In 16th National conference on Artificial Intelligence, AAAI Press, pages [Oza and Tumer, 1999] Oza, N. and Tumer, K. (1999). Dimensionality reduction through classifier ensembles. Technical Report NASA-ARC-IC , Computational Sciences Dvision, NASA Ames research Center. [Parker, 1997] Parker, J. (1997). Multiple/parallel handprinted digit recognition. Vision Interface. [Parker, 1999] Parker, J. (1999). Multiple sensors, voting methods and target vale analysis. In Signal Processing Sensor Fusion and Target Recognition, Orlando, Florida. [Parker, 2000] Parker, J. (2000). Evaluating classifier combination using simulated classifiers. Technical report, Department of Computer Science, University of Calgary, Canada. [Parker, 2001] Parker, J. (2001). Rank and response combination from confusion matrix data. Information Fusion, 2: [Parmanto et al., 1996] Parmanto, B., Munro, P., and Doyle, H. (1996). Reducing variance of committee prediction with resampling techniques. Connection Science, 8(3/4): [Partridge and Griffith, 1995] Partridge, D. and Griffith, N. (1995). Strategies for improving neural net generalization. Neural Computing and Applictions, 3: [Partridge and Griffith, 2002] Partridge, D. and Griffith, N. (2002). Multiple classifier systems: software engineered, automatically modular leading to a taxonomic overview. Patten Analysis and Applications, 5: [Partridge and Krzanowski, 1997] Partridge, D. and Krzanowski, W. (1997). Software diversity: practical statistics for its measurement and exploitation. Information and Software Technology, 39: [Partridge and Yates, 1996] Partridge, D. and Yates, W. (1996). Engineering multiversion neural-net systems. Neural Computation, 8: [Pereira, 1999] Pereira, P. (1999). Optimisation d un système de lecture automatique de chèques. PhD thesis, Université de Rouen, France. [Perlibakas, 2004] Perlibakas, V. (2004). Distance measures for pca-based face recognition. Pattern Recognition Letters, 25: [Perrone, 1994] Perrone, M. (1994). General averaging results for convex optimization. In et al., M. M., editor, Connectionist Models Summer School, pages , Lawrence Erlbaum, Hillsdale, NJ.

264 264 Bibliographie [Perrone and Cooper, 1993] Perrone, M. and Cooper, L. (1993). When networks disagree: ensemble methods for hybrid neural networks. In Chapman et Hall, L., editor, Artificial Neural Networks for Speech and Vision, pages [Petrakos and Benediktsson, 2001] Petrakos, M. and Benediktsson, J. (2001). The effect of classifier agreement on the accuracy of the combined classifier in decision level fusion. IEEE Transactions on Geosciences and Remote Sensing, 39(11): [Prevost et al., 2003] Prevost, L., Michel-Sendis, C., Moises, A., Oudot, L., and Milgram, M. (2003). Combining model-based and discriminative classifiers: application to hadwritten character recognition. In 7th Internatinal Conference on Dcument Analysis and Recognition, volume 1, pages [Prevost and Milgram, 1998] Prevost, L. and Milgram, M. (1998). Coopérations pour la reconnaissance de caractères dynamiques isolés. In 11ème Congrès Reconnaissance de Formes et Intelligence Artificielle, volume 3, pages [Quinion and Matsuyama, 1991] Quinion, P. and Matsuyama, T. (1991). Random closed sets : a unified approach to the representation of imprecision and uncertaity. In In European Conf. On Symb. And Quant. Appro. To Uncer., pages , France. [Quinlan, 1996] Quinlan, J. (1996). Bagging, boosting and c4.5. In Press, A. A. A. I. A., editor, 13th National Conference on Artificial Intelligence, pages [Rahman and Fairhurst, 1999] Rahman, A. and Fairhurst, M. (1999). A study of some multi-expert recognition strategies fo rindustrial applications: issues of processing speed and implementability. In Vision Interface, Tros-Rivières, Canada. [Rahman and Fairhurst, 2000] Rahman, A. and Fairhurst, M. (2000). Multiple expert classification : a new methodology for parallel decision fusion. International Journal on Document Analysis and Recognition, IJDAR, 3: [Rahman and Fairhurst, 2003] Rahman, A. and Fairhurst, M. (2003). Multiple classifier decision combination strategies for character recognition: a review. Journal Document Analysis and Recognition JDAR, pages [Raviv and Intrator, 1996] Raviv, Y. and Intrator, N. (1996). Bootstrapping with noise: an effectivereguarisation technique. Connection Science, 8: [Ripley, 1996] Ripley, B. (1996). Pattern recognition nd neural networks. Cambridge University Press.

265 Bibliographie 265 [Rogova, 1994] Rogova, G. (1994). Combining the results of several neural network classifiers. Neural Networks, 7(5): [Roli and Fumera, 2002] Roli, F. and Fumera, G. (2002). Analysis of linear and order statistics combiners of fusion of imbalanced classifiers. In Lecture Notes in Computer Science, International Workshop on Multiple Classifier Systems, pages , Cagliari, Italy. [Roli et al., 2002a] Roli, F., Fumera, G., and Kittler, J. (2002a). Fixed and trained combiners for fusion of imbalanced pattern classifiers. In 5th International Conference on Information Fusion, pages , Annapolis (Washington) USA. [Roli et al., 2002b] Roli, F., Raudys, S., and Marialis, G. (2002b). An experimental comparison of fixed and trained fusion rules for crisp classifier outputs. In J. Kittler, F. R., editor, Lecture Notes in Computer Science, International Workshop on Multiple Classifier Systems, pages [Rosen, 1996] Rosen, B. (1996). Ensemble learning using decorrelated neural networks. Connection Science, 8(3/4): [Ruta and Gabrys, 2000] Ruta, D. and Gabrys, B. (2000). An overview of classifier fusion methods. Computing and Information Systems, 7:1 10. [Ruta and Gabrys, 2001a] Ruta, D. and Gabrys, B. (2001a). Analysis of the correlation between majority voting errors and the diversity measures in multiple classifier systems. In International Symposium on Soft Computing (SOCO). [Ruta and Gabrys, 2001b] Ruta, D. and Gabrys, B. (2001b). Application of the evolutionary algorithms for classifier selection in multiple classifier systems with majority voting. In J. Kittler, F. R., editor, 2nd International Workshop on Multiple Classifier Systems (MCS), pages , Cambridge, UK. [Ruta and Gabrys, 2002] Ruta, D. and Gabrys, B. (2002). New measure of classifier dependency in multiple classifier systems. In 3rd International Workshop on Multiple Classifier System (MCS), Lecture Notes Computer Science, volume 2364, pages , Calgary, Sardinia, Italy. [Sabourin and Genest, 1994] Sabourin, M. and Genest, G. (1994). Coopération de classificateurs pour la vérification automatique des signatures. In 3éme Colloque National sur l Ecrit et le Document, pages 89 98, Rouen. [Saranli and Demirekler, 2001] Saranli, A. and Demirekler, M. (2001). A statistical unified framework for rank-based multiple classifier decision combination. Pattern Recognition, 34: [Shafer, 1976] Shafer, G. (1976). A mathematical theory of evidence. Princeton University Press.

266 266 Bibliographie [Sharkey, 1999] Sharkey, A. (1999). Combining artificial neural nets: ensemble and modular multi-net systems. In Sharkey, A., editor, Springer- Verlag, pages [Sharkey and Sharkey, 1997a] Sharkey, A. and Sharkey, N. (1997a). Combining diverse neural nets. The Knowledge Engineering Review, 12(3): [Sharkey and Sharkey, 1997b] Sharkey, A. and Sharkey, N. (1997b). Diversity, selection, and ensembles of artificial neural nets. In Neural Networks and their applications, pages [Sharkey et al., 1996] Sharkey, A., Sharkey, N., and Chandroth, G. (1996). Diverse neural net solutions to a fault diagnosis problem. Neural Computing and Applications, 4: [Sharkey et al., 2000] Sharkey, A., Sharkey, N., Gerecke, U., and Chandroth, G. (2000). The test and select approach to ensemble combination. In J. Kittler, F. R., editor, 1st International Workshop, Multiple Classifier Systems (MCS), Lecture Notes in Computer Science, volume 1857, pages 30 44, Cagliari, Italy. Springer, Berlin. [Skalak, 1996] Skalak, D. (1996). The sources of increased accuracy for two proposed boosting algorithms. In American Association for Artificial Intelligence, AAAI-96, Integrating Multiple Learned Models Workshop. [Skurichina, 2001] Skurichina, M. (2001). Stabilizing weak classifiers. PhD thesis, Delft University of Technology, Delft, The Netherlands. [Skurichina and Duin, 1998] Skurichina, M. and Duin, R. (1998). Bagging for linear classifiers. Pattern Recognition, 31(7): [Skurichina and Duin, 2000a] Skurichina, M. and Duin, R. (2000a). Boosting in linear discriminant analysis. In J. Kittler, F. R., editor, International Workshop on Multiple Classifier Systems, MCS, volume 1857, pages [Skurichina and Duin, 2000b] Skurichina, M. and Duin, R. (2000b). The role of combining rules in bagging and boosting. In Springer-verlag, B., editor, Advances in Pattern Recognition, Joint LAPR, volume 1876, pages [Skurichina et al., 2002] Skurichina, M., Kuncheva, L., and Duin, R. (2002). Bagging and boosting for the nearest mean classifier: effects of sample size on diversity and accuracy. In J. Kittler, F. R., editor, 3th International Workshop, Multiple Classifier Systems, LNCS, volume 2364, pages [Sneath and Sokal, 1973] Sneath, P. and Sokal, R. (1973). Numerical Taxonomy. W.H. Freeman, Co. [Spearman, 1906] Spearman, C. (1906). A footrule for measuring correlation. British Journal Psychology, 2(89).

267 Bibliographie 267 [Srihari, 1982] Srihari, S. (1982). Reliability analysis of majority vote systems. Information Sciences, 26: [Srinvas and Patnaik, 1994] Srinvas, M. and Patnaik, L. (1994). Genetic algorithms: a survey. Computer, pages [Taniguchi and Tresp, 1997] Taniguchi, M. and Tresp, V. (1997). Averaging regularized estimators. Neural Computation, 9: [Tax et al., 2000] Tax, D., Breukelen, V., Duin, R., and Kittler, J. (2000). Combining multiple classifiers by averaging or by multiplying? Pattern Recognition, 33(9): [Tax et al., 1997] Tax, D., Duin, R., and Breukelen, M. (1997). Comparison between product and mean classifier combination rules. In International Workshop, Statistical Techniques in Pattern Recognition, pages , Prague, CR. [Tresp and Taniguchi, 1995] Tresp, V. and Taniguchi, M. (1995). Combining estimators using non-constant weighting functions. Advances in Neural Information Processing Systems, 7. (eds) G. Tesauro, D.S. Touretzeky, T.K. Leen, MIT Press, Cambridge, MA. [Tsymbal et al., 2004] Tsymbal, A., Pechnizkiy, M., and Cunningham, P. (2004). Diversity in search strategies for ensemble feature selection. Information Fusion. [Tsymbal et al., 2003] Tsymbal, A., Puuronen, S., and Patterson, D. (2003). Ensemble feature selection with the simple bayesian classification. Information Fusion, 4(2): [Tumer and Ghosh, 1996a] Tumer, K. and Ghosh, J. (1996a). Analysis of decision boundaries in linearly combined neural classifiers. Pattern Recognition, 29(2): [Tumer and Ghosh, 1996b] Tumer, K. and Ghosh, J. (1996b). Error correlation and error reduction in ensemble classifiers. Connection Science, 8: [Tumer and Ghosh, 1996c] Tumer, K. and Ghosh, J. (1996c). Estimating the bayes error rate through classifier combining. In International Conference in Pattern Recognition, pages [Tumer and Ghosh, 1999] Tumer, K. and Ghosh, J. (1999). Linear and order statistics combiners for pattern classification. In Sharky, A., editor, Combining Artificial Neural Nets, Springe-Verlag, pages , London. [Van-Erp and Schomaker, 2000] Van-Erp, M. and Schomaker, L. (2000). Variants of the borda count method for combining ranked classifier hypotheses. In Schomaker, L. and Vuurpijl, L., editors, 7 th International Workshop on Frontiers in Handwriting Recognition, pages , Amsterdam.

268 268 Bibliographie [Van-Erp et al., 2002] Van-Erp, M., Vuurpijl, L., and Schomaker, L. (2002). An overview and comparison of voting methods for pattern recognition. In 8th International Workshop on Frontiers in Handwriting Recognition, pages , Niagara-on-the-Lake, Ontario. [Verikas et al., 1999] Verikas, A., Lipnickas, A., Malmqvist, K., Bacauskiene, M., and Gelzinis, A. (1999). Soft combination of neural classifiers : a comparative study. Pattern Recognition Letters, 20: [Verma et al., 2001] Verma, B., Gader, P., and Chen, W. (2001). Fusion of multiple handwritten word recognition techniques. Pattern Recognition Letters, 22(9): [Vuurpijl and Schomaker, 1998] Vuurpijl, L. and Schomaker, L. (1998). A framework for using multiple classifiers in a multiple agent architecture. In 3rd European International Workshop on Handwriting Analysis and Recognition, pages 1 6, Brussels, Belgium. [Wang et al., 1998] Wang, D., Keller, J., Carson, C., McAdoo-Edwards, K., and Bailey, C. (1998). Use of fuzzy-logic-inspired featues to improve bacterial recognition through classifier fusion. IEEE Transactions Systems Man Cybernetics - Part B, 28(4): [Wang et al., 2000] Wang, W., Jones, P., and Partridge, D. (2000). Diversity between neural networks and decision trees for building multiple classifier systems. In J. Kittler, F. R., editor, Lecture Notes in Computer Science, 1st International Workshop on Multiple Classifier Systems (MCS), volume 1857, pages , Cagliari, Italy. Springer, Berlin. [Waterhouse and Robinson, 1994] Waterhouse, S. and Robinson, A. (1994). Classification using hierarchical mixtures of experts. In IEEE Workshop on Neural Networks for Signal Processing IV, pages [Wenzel et al., 1998] Wenzel, C., Baumann, S., and Jager, T. (1998). Advances in document classification by voting of competitive approaches. In IAPR Workshop on Document Analysis Systems II, pages [Wernecke, 1992] Wernecke, K. (1992). A coupling procedure for discrimination of mixed data. Biometrics, 48: [Wilkie, 1980] Wilkie, D. (1980). Pictorial representation of kendall s, ra,k correlation coefficient. Teaching Statistics, 2: [Wolpert, 1992] Wolpert, D. (1992). Stacked generalization. Neural Networks, 5(2): [Woods et al., 1997] Woods, K., Kegelmeyer, W., and Bowyer, K. (1997). Combination of multiple classifiers using local accuracy estimates. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(4):

269 Bibliographie 269 [Xiao et al., 2000] Xiao, B., Wang, C., and Dai, R. (2000). Adaptive combination of classifiers and its application to handwritten chinese characters recognition. In International Conference on Pattern Recognition (ICPR), volume 2, pages , Barcelona, Spain. [Xu et al., 1992] Xu, L., Krzyzak, A., and Suen, C. (1992). Methods of combining multiple classifiers and their applications to handwriting recognition. IEEE Transactions on Systems, Man, and Cybernetics, 22(3): [Xu et al., 2002] Xu, Q., Kim, J., Lam, L., and Suen, C. (2002). Recognition of handwritten month words on bank cheques. In Interntioanl Workshop in Frontiers Handwriting Recognition (IWFHR), pages [Yamayoka, 1994] Yamayoka, F. (1994). Integration of handwritten digit recognition results using evidential reasoning. In International Workshop on Frontiers Handwritten Recognition, pages [Yu et al., 2000] Yu, K., Jiang, X., and Bunke, H. (2000). Combining acoustic and visual classifiers for the recognition of spoken sentences. In International Conference in Pattern recognition, volume 2, pages , Barcelona. [Yule, 1900] Yule, G. (1900). On the association of attributes in statistics. Phil. Trans., A, (194): [Zenobi and Cunningham, 2001] Zenobi, G. and Cunningham, P. (2001). Using diversity in preparing ensembles of classifiers based on different feature subsets to minimize generalization error. In Raedt, L. and Flach, P., editors, 12th European Conference on Machine Learning, volume LNCS 2167, pages [Zois and Anastassopoulos, 1999] Zois, E. and Anastassopoulos, V. (1999). Fusion of correlated decisions for writer verification. Pattern Recognition, 32: [Zouari et al., 2002a] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A. (2002a). Un bref panorama de la combinaison de classifieurs en reconnaissance de formes. In 2eme Journées Scientifiques des Jeunes chercheurs en Génie Electrique et Informatique, page 12, Hammamet, Tunisie. [Zouari et al., 2002b] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A. (2002b). Un panorama des méthodes de combinaison de classifieurs en reconnaissance de formes. In Reconnaissance de Formes et Intelligence Artificielle (RFIA), pages , 8-10 Janvier, Angers. [Zouari et al., 2003a] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A. (2003a). A new classifier simulator for evaluating parallel combination methods. In 7th International Conference on Document Analysis and Recognition, ICDAR, volume I, pages 26 30, Edinburgh, Scotland.

270 270 Bibliographie [Zouari et al., 2003b] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A. (2003b). Simulating classifier outputs for evaluating parallel combination method. In Lecture Notes in Computer Science, 4th International Worksho, Multiple Classifier Systems (MCS), volume 2709, pages , Guildford, UK. [Zouari et al., 2004a] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A. (2004a). Generating classifier outputs with fixed diversity for evaluating voting methods. In International Workshops on Structural, Syntactic, and Statistical Pattern Recognition (SSPR), Lecture Notes in Computer Sciences, volume 3138, pages , August, Lisbon, Portugal. [Zouari et al., 2004b] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A. (2004b). Simulating classifier ensembles of fixed diversity for studying plurality voting performance. In 17th International conference on Pattern Recognition (ICPR), pages , august, Cambridge, UK. [Zouari et al., 2004c] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A. (2004c). Un simulateur de classifieur pour évaluer les méthodes de combinaison. In Reconnaissance de Formes et Intelligence Artificielle (RFIA), pages , Janvier, Toulouse. [Zouari et al., 2004d] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A. (2004d). Using diversity measure in building classifier ensembles to examine the effect of classifier agreement on the plurality voting performance. In Conférence Internationale Sciences Electroniques, Technologies de l Information et des Télécommunications (SETIT), mars, Sousse, Tunisie.

Montrer encore