Contribution à l évaluation des méthodes de combinaison parallèle de classifieurs par simulation



Documents pareils
Principe de symétrisation pour la construction d un test adaptatif

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Modélisation du comportement habituel de la personne en smarthome

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Introduction au Data-Mining

Laboratoire 4 Développement d un système intelligent

INF6304 Interfaces Intelligentes

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Classification Automatique de messages : une approche hybride

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Transmission d informations sur le réseau électrique

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Big Data et Graphes : Quelques pistes de recherche

Introduction au datamining

Big Data et Graphes : Quelques pistes de recherche

COCoFil2 : Un nouveau système de filtrage collaboratif basé sur le modèle des espaces de communautés

Formula Negator, Outil de négation de formule.

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Représentation des Nombres

Apprentissage Automatique

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Filtrage stochastique non linéaire par la théorie de représentation des martingales

MEMOIRE POUR UNE HABILITATION A DIRIGER DES RECHERCHES

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Programmation linéaire

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Documents, Graphes et Optimisation Multi-Objectifs

ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE

R-ICP : une nouvelle approche d appariement 3D orientée régions pour la reconnaissance faciale

Analyse dialectométrique des parlers berbères de Kabylie

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

Modélisation 3D par le modèle de turbulence k-ε standard de la position de la tête sur la force de résistance rencontrée par les nageurs.

Application de K-means à la définition du nombre de VM optimal dans un cloud

Apprentissage statistique dans les graphes et les réseaux sociaux

Une méthode d apprentissage pour la composition de services web

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Pourquoi l apprentissage?

Des réels aux flottants : préservation automatique de preuves de stabilité de Lyapunov

ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

Master Informatique Aix-Marseille Université

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

L apprentissage automatique

Druais Cédric École Polytechnique de Montréal. Résumé

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

La classification automatique de données quantitatives

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

FAQ Foire aux questions. Sur cette page, vous trouverez les réponses à toutes vos questions relatives aux études de la musique en Europe.

Exercices Corrigés Premières notions sur les espaces vectoriels

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

BIG Data et R: opportunités et perspectives

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Laboratoire d Automatique et Productique Université de Batna, Algérie

APPLICATION DE RESEAUX DE NEURONES ARTIFICIELS A LA RECONNAISSANCE AUTOMATIQUE DE CARACTERES MANUSCRITS

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Monitoring des classes de neige des calottes polaires par Envisat

Stéphane Lefebvre. CAE s Chief Financial Officer. CAE announces Government of Canada participation in Project Innovate.

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

MCMC et approximations en champ moyen pour les modèles de Markov

Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS. Spécialité : Systèmes Automatiques. Par CLAUDIA VICTORIA ISAZA NARVAEZ

Coup de Projecteur sur les Réseaux de Neurones

TP 8: LES OPERATEURS ENSEMBLISTES

Programmation linéaire

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Chapitre 7. Récurrences

Introduction au Data-Mining

Poker. A rendre pour le 25 avril

RI sociale : intégration de propriétés sociales dans un modèle de recherche

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

Vérification audiovisuelle de l identité

Intégration de la dimension sémantique dans les réseaux sociaux

Modélisation et Simulation

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Sécurité et Firewall

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de :

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Analyse,, Conception des Systèmes Informatiques

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

AGROBASE : un système de gestion de données expérimentales

Modèles et simulations informatiques des problèmes de coopération entre agents

Entreposage de données complexes pour la médecine d anticipation personnalisée

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Stratégie IT : au cœur des enjeux de l entreprise

Spécificités, Applications et Outils

Transcription:

UNIVERSITE DE ROUEN U.F.R. DES SCIENCES ET TECHNIQUES THESE DE DOCTORAT Discipline: Sciences appliquées Spécialité: Informatique Pour obtenir le grade de DOCTEUR DE L UNIVERSITE DE ROUEN Présentée par: Héla Khoufi Zouari Sujet de la thèse: Contribution à l évaluation des méthodes de combinaison parallèle de classifieurs par simulation Soutenue le 17 décembre 2004 devant le jury composé de : M. Adel M. Alimi ENIS de Sfax Co-directeur M. Thierry Artières Université Paris 6 Examinateur M. Noureddine Ellouze ENIT de Tunis Rapporteur M. Patrick Gallinari Université Paris 6 Rapporteur M. Laurent Heutte Université de Rouen Examinateur M. Yves Lecourtier Université de Rouen Directeur de thèse M. Guy Lorette Université de Rennes I Examinateur Laboratoire PSI - FRE CNRS 2645

A Yassine, A mes parents, Néjib et Hasna A toute ma famille

3 Résumé Les travaux de recherche présentés dans ce mémoire abordent le problème de la simulation de classifieur pour l évaluation du comportement des méthodes de combinaison parallèle de classifieurs. Nous proposons une méthode originale de simulation permettant de générer des sorties artificielles d un classifieur (listes de propositions) pour un problème de classification quelconque. Le principe de cette simulation est basé sur le contrôle de matrices de performances (globales, semi-globales ou locales) permettant de décrire le comportement désiré du classifieur pour générer la liste de ses sorties. Nous proposons également une méthode de simulation de classifieurs corrélés permettant, à partir des performances désirées et en fonction d un niveau de diversité fixé, de générer artificiellement des sorties corrélées. Les tests réalisés sur quelques règles simples de combinaison montrent l intérêt de l approche de simulation proposée dans l étude du comportement des méthodes de combinaison. Mots-clés: Combinaison parallèle, simulateur de classifieur, évaluation de performance, comportement des méthodes de combinaison, génération de sorties, diversité, simulation de données. Abstract This thesis deals with the problem of classifier simulation for evaluating the behaviour of classifier combination methods. We propose an original method of simulation to generate artificial classifier outputs (list of solutions) for a given classification problem. This method is based on the control of performance matrices (global, intermediate or local) allowing to describe the desired behaviour of the classifier in order to generate the list of its outputs. We also propose a method for simulating correlated classifiers, which allows, from desired performance and a fixed level of diversity, to generate artificially correlated outputs. Tests carried out on a few simple combination rules show the interest of the proposed approach for the study of the combination method behaviour. Key words: Parallel combination, classifier simulator, performance evaluation, behaviour of combination methods, output generation, diversity, data simulation.

4 Remerciements Ce travail de thèse a été réalisé dans le cadre d une co-tutelle entre le laboratoire Perception, Systèmes et Information (PSI) de l Université de Rouen (France) et le laboratoire REGIM de l Ecole Nationale d Ingénieurs de Sfax (Tunisie). Je tiens à remercier tous ceux qui m ont aidé de près ou de loin au cours de mes recherches: Yves Lecourtier, pour l intérêt qu il a porté à mes travaux depuis qu il m a introduit dans le monde de la recherche scientifique et pour avoir accepté de diriger cette thèse. J aimerais lui témoigner ici toute ma reconnaissance pour ses suggestions pertinentes ainsi que pour la confiance permanente qu il m a accordée. Laurent Heutte, pour avoir accepté d encadrer mes travaux en me faisant bénéficier de ses précieux conseils. Son suivi constant et attentif, le dynamisme qu il a su me communiquer m ont permis de mener à bien ce travail. Qu il trouve ici l expression de ma profonde gratitude. Adel M. Alimi, Professeur à l Ecole d Ingénieurs de Sfax, pour avoir accepté de co-diriger mes travaux. Pour l aide et les conseils qu il m a prodigués durant les années de thèse, je voudrais ici témoigner ma reconnaissance. Je voudrais également remercier Noureddine Ellouze, Professeur à l Ecole d Ingénieurs de Tunis, Patrick Gallinari, Professeur à l Université Paris 6, Thierry Artières, Maître de conférence à l Université Paris 6 et Guy Lorette, Professeur à l Université de Rennes I, de l honneur qu ils me font en étant membre de mon jury. Je voudrais également remercier tous les membres des laboratoires PSI et REGIM pour l amitié et l aide qu ils m ont témoignés durant cette thèse avec une pensée particulière à Dominique Ménitrier, Pierre Herroux, Sébastien Adam, Clément Chatelain, Guillaume Koch, Hervé Locteau et Stéphane Nicolas. Enfin, je voudrais exprimer toute ma reconnaissance à mes proches et à mes amis qui m ont toujours soutenu et encouragé pendant ce long travail.

TABLE DES MATIÈRES 5 Table des matières Notations 8 Introduction Générale 9 1 Systèmes Multi-Classifieurs 15 1.1 Introduction............................ 16 1.2 Combinaison de classifieurs.................... 17 1.2.1 Définition d un classifieur................ 17 1.2.2 Stratégies de combinaison................ 20 1.2.3 Conclusion......................... 24 1.3 Combinaison parallèle de classifieurs.............. 25 1.3.1 Problématique de la combinaison parallèle....... 25 1.3.2 Taxonomies des méthodes de combinaison....... 27 1.4 Combinaison non-paramétrique................. 33 1.4.1 Type classe........................ 33 1.4.2 Type rang........................ 36 1.4.3 Type mesure....................... 40 1.5 Combinaison paramétrique.................... 44 1.5.1 Type classe........................ 44 1.5.2 Type rang......................... 49 1.5.3 Type mesure....................... 53 1.6 Comparaison des méthodes de combinaison........... 57 1.7 Sélection de classifieurs...................... 60 1.7.1 Sélection statique..................... 61 1.7.2 Sélection dynamique................... 68 1.7.3 Conclusion......................... 74 1.8 Conclusion............................. 76

6 TABLE DES MATIÈRES 2 Évaluation de performances des méthodes de combinaison 77 2.1 Introduction............................ 78 2.2 Performances d un classifieur................... 79 2.2.1 Performances globales.................. 80 2.2.2 Performances semi-globales................ 81 2.2.3 Performances locales................... 82 2.2.4 Conclusion......................... 85 2.3 Comportement des méthodes de combinaison.......... 86 2.3.1 Influence des performances des classifieurs....... 86 2.3.2 Indépendance/dépendance des classifieurs....... 91 2.3.3 Influence du nombre de classifieurs........... 94 2.3.4 Influence d autres facteurs................ 96 2.3.5 Conclusion......................... 97 2.4 Simulation de données...................... 99 2.4.1 Simulation de sorties de classifieurs........... 101 2.5 Conclusion............................. 110 3 Simulation d un classifieur 111 3.1 Introduction............................ 112 3.2 Le simulateur........................... 113 3.2.1 Objectifs.......................... 113 3.2.2 Simulation de N comportements............. 117 3.2.3 Simulation d un seul comportement........... 127 3.2.4 Simulation de deux comportements........... 139 3.2.5 Conclusion......................... 145 3.3 Vérification du simulateur.................... 147 3.3.1 Vérification avec des matrices données......... 147 3.3.2 Génération de liste de comportements.......... 149 3.3.3 Génération d un seul comportement........... 153 3.3.4 Génération de deux comportements........... 157 3.3.5 Précision du simulateur................. 160 3.3.6 Corrélation des sorties.................. 161 3.3.7 Conclusion......................... 162 3.4 Apports de la simulation..................... 163 3.4.1 Evaluation type classe.................. 163 3.4.2 Evaluation type rang................... 167 3.4.3 Evaluation type mesure................. 182 3.5 Conclusion............................. 185

TABLE DES MATIÈRES 7 4 Simulation de classifieurs corrélés 187 4.1 Introduction............................ 188 4.2 Mesures de diversité....................... 190 4.2.1 Type binaire........................ 190 4.2.2 Type rang......................... 196 4.2.3 Type mesure....................... 197 4.2.4 Conclusion........................ 198 4.3 Comment renforcer la diversité?................. 199 4.3.1 Caractéristiques différentes................ 202 4.3.2 Bases d apprentissage différentes............. 203 4.3.3 Conclusion......................... 210 4.4 Méthode proposée......................... 210 4.4.1 Mesure utilisée...................... 212 4.4.2 Principe de la méthode de génération des sorties... 213 4.4.3 Génération de sorties corrélées.............. 216 4.4.4 Conclusion......................... 228 4.5 Vérification de la méthode.................... 230 4.6 Contribution expérimentale................... 232 4.7 Comparaison avec la simulation indépendante......... 241 4.8 Conclusion............................. 243 Conclusion générale 245 Bibliographie 251

8 TABLE DES MATIÈRES Notations Symboles x N C i C vraie Ω e j e j (x) S i S s i,j L ω j MD(x) r j r i,j m j m i,j MCj k T L k i T Ci k T R i E(x) B A B T f P i Descriptions vecteur de caractéristiques associé à la forme d entrée à classer nombre de classes possibles sans rejet classe i classe de x (vraie classe) ensembles de classes possibles classifieur j sortie d un classifieur e j pour la forme x nombre de sorties d un classifieur pour la classe C i vecteur des nombres de sorties par classe la i ieme sortie du classifieur e j nombre de classifieurs poids attribué au classifieur e j matrice contenant toutes les décisions des classifieurs pour la forme x vecteur des rangs associé à la forme x par le classifieur e j rang attribué à la classe C i par le classifieur e j vecteur des mesures associé à la forme x par le classifieur e j mesure attribuée à la classe C i par le classifieur e j matrice de co-présence du classifieur e j dans les k premières solutions taux de reconnaissance de la classe C i dans les k premières solutions taux d erreur de la classe C i dans les k premières solutions taux de rejet de la classe C i le résultat de la combinaison d une forme inconnue x base d apprentissage base de test règle de fusion ou d aggrégation probabilité a posteriori de la classe C i

Introduction Générale 9 Introduction Générale On dispose aujourd hui, dans le domaine de la reconnaissance de formes, d un grand nombre de classifieurs et de méthodes d extraction de caractéristiques. Dès 1974, Kanal 1 avait souligné pour des problèmes de classification: No single model exists for all pattern recognition problems and no single technique is applicable to all problems. Rather what we have is a bag of tools and a bag of problems. Malgré les nombreux travaux dans le domaine, cela n a pas permis de mettre en évidence la supériorité incontestable d une méthode de classification sur une autre ou d un extracteur de caractéristiques sur un autre. Plutôt que de chercher à optimiser un seul classifieur en choisissant les meilleures caractéristiques pour un problème donné, les chercheurs ont trouvé plus intéressant de combiner des méthodes de reconnaissance. Depuis les années 90, la combinaison de classifieurs a donc été une des directions de recherche les plus soutenues dans le domaine de la reconnaissance de formes. Les méthodes de combinaison ont ainsi été appliquées avec succès dans des domaines aussi divers que la reconnaissance de l écrit, la vérification de signatures, l identification de visages ou encore l analyse d images médicales. L amélioration des performances des systèmes de reconnaissance est finalement le principal enjeu des recherches menées ces dernières années sur les systèmes de combinaison. Parmi les différentes architectures permettant de combiner un ensemble de classifieurs donnés, l architecture parallèle est de loin celle qui a donné lieu aux travaux les plus importants. Sa simplicité de mise en oeuvre, sa capacité à exploiter les réponses des classifieurs à combiner en prenant en compte (ou non) le comportement de chacun des classifieurs et son efficacité prouvée dans de nombreux problèmes de classification expliquent son succès notamment par rapport à l approche séquentielle qui, elle, nécessite obligatoirement une bonne connaissance du comportement de chacun des 1. Kanal, L., Patterns in pattern recognition, IEEE Transactions on Information Theory, Vol. 20, 697-722, 1974

10 Introduction Générale classifieurs pour pouvoir obtenir un schéma de coopération efficace. Malgré une littérature abondante et une multitude de travaux qui ont abordé ce sujet de différentes manières, force est de constater que le concepteur d un système de combinaison parallèle de classifieurs est toujours confronté à un certain nombre de choix auxquels la communauté de l apprentissage et de la classification n a pas encore apporté de réponses précises. D une part, le problème est très difficile à modéliser et les trop rares travaux qui ont tenté d apporter des explications théoriques ne se sont concentrés que sur les méthodes relativement simples de vote. D autre part, on trouve des travaux plus appliqués sur différents problèmes de reconnaissance de formes (reconnaissance de caractères, de mots, vérification de signatures, reconnaissance de la parole, de visages, identification de formulaires,...) mais les résultats obtenus restent étroitement dépendants des applications traitées et par conséquent sont difficiles à généraliser en dehors d un contexte applicatif donné. Il existe toutefois certains travaux intéressants qui traitent du problème de l évaluation des méthodes de combinaison en les testant sur différentes bases de données réelles. Mais l utilisation de données réelles n offre pas suffisamment de variabilité dans les performances des classifieurs à combiner pour permettre une analyse en profondeur du comportement de ces méthodes de combinaison. Pour contourner cette difficulté, la simulation de données est devenue récemment un moyen pratique pour générer artificiellement la variabilité tant attendue dans les performances des classifieurs à combiner permettant ainsi d évaluer de façon robuste le comportement des méthodes de combinaison. Dans ce cadre, la simulation de classifieurs (c est-à-dire la génération artificielle des sorties) est, selon nous, la technique la plus intéressante car elle permet de contrôler directement les entrées des opérateurs de combinaison et dans une certaine mesure le comportement des classifieurs à combiner. Trop peu de chercheurs selon nous ont analysé le potentiel de cette approche. Les quelques travaux dans ce domaine se sont le plus souvent limités au développement de générateurs fournissant uniquement des sorties de type classe. Les classifieurs simulés ne sont alors contrôlés que par un seul paramètre comme le taux moyen de reconnaissance sans qu il soit de plus possible de générer une quelconque variabilité dans les taux de reconnaissance par classe. Or de nombreux problèmes de classification, tels ceux que l on rencontre en reconnaissance de l écrit par exemple, nécessitent de combiner des listes de solutions plutôt qu une seule solution. Par conséquent, les simulateurs de classifieurs développés jusqu à maintenant sont très loin de générer des comportements proches de la réalité et sont en ce sens limités pour aborder l évaluation des méthodes de combinaison.

Introduction Générale 11 Dans le cadre des travaux de cette thèse, nous avons donc cherché à développer une méthode de simulation aussi générique que possible c est-àdire permettant de simuler un problème quelconque de classification (nombre de classes, taille des listes de propositions fournies par le classifieur,...) à partir d un jeu réduit de paramètres permettant de fixer le comportement intrinsèque du classifieur c est-à-dire ses performances désirées (taux de reconnaissance, taux de rejet, taux de reconnaissance et de rejet par classe, taux de reconnaissance en différentes positions de la bonne solution dans la liste de propositions,...). La méthode proposée consiste à construire des matrices de confusion intermédiaires à partir de ces paramètres puis à générer la liste des sorties à partir de ces matrices. L idée est de pouvoir disposer d un outil permettant de nous aider à évaluer facilement et expliquer précisément l influence de certains paramètres - tels que le nombre de classifieurs, les performances intrinsèques et relatives des classifieurs à combiner, le nombre de classes - sur les performances d un système de classifieurs multiples. En d autres termes, nous cherchons à caractériser expérimentalement les situations optimales d utilisation des opérateurs de combinaison en utilisant des données simulées. Le plan du mémoire résulte donc des considérations précédentes. La multiplication des travaux sur la problématique de la combinaison a entraîné la mise au point de nombreux schémas de combinaison traitant les données de manières différentes. Le chapitre 1 est donc consacré à l étude de la problématique associée à la combinaison de classifieurs. Nous rappelons tout d abord ce qu on entend par classifieur dans le cadre de la combinaison. Nous passons en revue les principales stratégies de combinaison (approche séquentielle, parallèle et hybride) qui diffèrent principalement par l agencement des classifieurs. Chacune de ces approches a suscité un grand nombre de travaux dans le domaine de la reconnaissance de formes. Pour la seule approche parallèle, il existe de très nombreuses méthodes que certains chercheurs ont essayé de catégoriser. Nous présentons ces différentes catégorisations et nous proposons une nouvelle taxonomie en fonction de certains critères que nous justifions. Nous détaillons ensuite les méthodes les plus utilisées dans la littérature selon cette taxonomie ainsi que les développements récents dans le domaine. Le chapitre 2 est consacré au problème de l évaluation des méthodes de combinaison parallèle. Nous analysons les travaux qui ont traité ce problème sur des données réelles et nous montrons la difficulté d établir des résultats généraux indépendamment du domaine applicatif visé. Pour contourner le problème de l évaluation des méthodes de combinaison, la simulation de données artificielles semble justement être la voie la plus prometteuse. Nous

12 Introduction Générale présentons donc les différentes façons de simuler des données. Nous consacrons une partie du chapitre aux travaux qui ont utilisé un simulateur de classifieur pour évaluer les méthodes de combinaison. Enfin, nous concluons ce chapitre sur les limites atteintes par ces travaux et en particulier sur leurs limites à générer un comportement de classifieur proche de la réalité. Le simulateur de classifieur que nous proposons a pour objectif de dépasser ces limites par la génération de sorties artificielles et indépendantes pour un problème quelconque de classification, que ce soit en termes de nombre de classes, de nature des sorties (classe, rang, mesure), de taille de listes de propositions ou de performances désirées (taux de reconnaissance, taux de rejet, taux par classe, taux pour différentes positions dans la liste,...). Le chapitre 3 est donc consacré à la présentation de ce simulateur. Nous décrivons le principe de la méthode de simulation ainsi que les différentes étapes nécessaires à sa réalisation. Nous justifions en particulier les paramètres choisis pour la simulation. Dans la deuxième partie de ce chapitre, nous montrons que le simulateur génère bien les sorties attendues en fonction des performances désirées. Enfin, dans la dernière partie, nous montrons l intérêt de ce simulateur dans l étude des méthodes de combinaison. Un des points importants soulevés ces dernières années dans le domaine de la combinaison de classifieurs est le rôle que joue la diversité dans l amélioration des performances des méthodes de combinaison. Nous consacrons donc le chapitre 4 à la simulation de classifieurs corrélés en fonction de la diversité. Dans la première partie de ce chapitre, nous décrivons le problème lié à la diversité de classifieurs et plus particulièrement les mesures utilisées pour estimer la diversité entre les sorties de classifieurs. Nous passons en revue les principales techniques qui générent cette diversité pour optimiser un ensemble de classifieurs. Nous décrivons également les travaux qui ont étudié, par le biais de la simulation, le rôle de la diversité dans la combinaison. Parce que les simulateurs proposés dans ces travaux ne permettent pas de simuler un classifieur proche de la réalité, nous proposons dans la deuxième partie de ce chapitre une méthode de génération de classifieurs dépendants qui prend en compte le niveau de corrélation désiré tout en respectant un comportement fixé pour chacun des classifieurs à combiner. Dans la dernière partie de ce chapitre, nous présentons les résultats obtenus en essayant d évaluer le comportement de certains opérateurs de combinaison en fonction de la diversité. Enfin, nous concluons sur les points importants du document, notamment sur l approche de simulation proposée et les résultats obtenus. Nous évoquons les perspectives de ces travaux et les voies de recherche qui semblent promet-

Introduction Générale 13 teuses aussi bien pour améliorer l approche de simulation proposée que pour la problématique de l évaluation des performances des méthodes de combinaison.

14 Introduction Générale

Chapitre 1. Systèmes Multi-Classifieurs 15 Chapitre 1 Systèmes Multi-Classifieurs Dans ce chapitre nous dressons un état de l art des systèmes de combinaison de classifieurs. Nous présentons les stratégies de prises de décision possibles lorsque plusieurs classifieurs interviennent dans un processus de reconnaissance et les spécificités relatives à chaque stratégie. Nous nous focalisons en particulier sur la combinaison parallèle de classifieurs et nous présentons un panorama des principales méthodes mises en oeuvre dans de nombreux domaines de la reconnaissance de formes. Cet examen nous permettra d identifier les points forts et les faiblesses des algorithmes utilisés à ce jour. Nous rappelons tout d abord ce qu on entend par classifieur dans le cadre de la combinaison. Nous détaillons ensuite les approches de combinaison les plus utilisées dans la littérature et qui se différencient essentiellement par l agencement des classifieurs. Nous abordons ensuite le problème de la combinaison parallèle de classifieurs. Nous discutons des différentes taxonomies existantes et nous proposons une nouvelle taxonomie en fonction de certains critères que nous justifions. Nous détaillons ensuite les méthodes de combinaison les plus reconnues dans la littérature selon cette taxonomie ainsi que les développements récents dans le domaine. Enfin, nous concluons sur les limites atteintes par ces travaux et en particulier sur la difficulté à choisir une méthode de combinaison en dehors d un contexte applicatif donné.

16 Chapitre 1. Systèmes Multi-Classifieurs 1.1 Introduction Concernant la combinaison de classifieurs, la littérature est très riche et diverse. L idée de combiner les sorties des classifieurs pour créer un système avec une fiabilité élevée n est pas nouvelle. En 1989, Clemen citait déjà plus de 200 travaux reliés à la combinaison de classifieurs [Clemen, 1989] et attribue l idée originale à Laplace en 1818 [Laplace, 1847]. Dans [Carney and Cunningham, 1999], les chercheurs attribuent la première application de combinaison des réseaux de neurones à Nilsson [Nilsson, 1965]. Le véritable intérêt pour la combinaison de classifieurs date en fait des années 80, avec en particulier les travaux de [Srihari, 1982, Hull et al., 1983, Hull, 1988, Mandler and Schuermann, 1988, Lam and Suen, 1988] qui ont montré l importance d avoir des solutions robustes pour les problèmes de reconnaissance de l écriture manuscrite en particulier. Cependant, ce n est qu à partir des années 90 que les systèmes de combinaison de classifieurs ont été concrètement mis en oeuvre. Si, dans un premier temps, les méthodes de classification, basées sur différentes théories et méthodologies, ont été considérées comme autant de solutions possibles à un même problème, leur développement n a pas permis de mettre en évidence la supériorité incontestable d une méthode sur une autre pour répondre aux contraintes des applications pratiques. En effet, l étude de ces techniques a fait apparaître des différences de comportement et donc une complémentarité potentielle qu il semblait intéressant d exploiter pour obtenir des performances supérieures à celles d un seul classifieur. En fait, de la même manière qu une caractéristique supplémentaire permet à un classifieur de mieux décider (à condition qu elle apporte une information complémentaire à celle fournie par d autres caractéristiques), une réponse provenant d un autre classifieur permet à un système de classifieurs de mieux décider (à condition que cette réponse soit complémentaire aux décisions des classifieurs existants). Par conséquent, l idée d en utiliser plusieurs simultanément s est peu à peu imposée. Une partie de la recherche actuelle en reconnaissance de formes se porte sur la combinaison parallèle de classifieurs. Cette approche a été proposée comme une voie de recherche permettant d améliorer la performance d un système de reconnaissance. Elle peut être définie comme une technique bien particulière qui part du principe qu avec un choix approprié de méthodes de classification, mais en conservant pour chaque classifieur le type de caractéristiques le mieux adapté, il est possible d intégrer dans un même système

1.2. Combinaison de classifieurs 17 l avis de plusieurs classifieurs différents en exploitant leur complémentarité. Ce qui permet de tirer profit de propositions issues de systèmes approchant le même problème de manière différente [Kurzweil, 1990]. Avant de rentrer dans les détails de la problématique de la combinaison parallèle de classifieurs, il est nécessaire de rappeler ce qu on entend généralement par classifieur dans le cadre de la combinaison et de présenter les différentes stratégies de combinaison de classifieurs. 1.2 Combinaison de classifieurs 1.2.1 Définition d un classifieur Définir un problème de classification, c est d abord se choisir une taxonomie c est-à-dire une répartition des formes à reconnaître dans un ensemble de classes C i, i [1,..., N]. Dans le cas le plus général, on peut associer à la forme à reconnaître x un vecteur de degré d appartenance D(x) tel que D(x) = D 1 (x) D 2 (x).. D N (x) (1.1) avec D i (x)=d{x C i }. Dans ce cas, x peut appartenir à plusieurs classes si D i (x) 0. Toutefois, dans la majorité des problèmes de classification, on a affaire à une classification exclusive dans laquelle une forme ne peut appartenir qu à une seule classe. On a alors D i (x)=δ i,j tel que δ i,j = { 1 si j = i 0 si j i C i est alors souvent appelée la vraie classe : D(x) = 0. 0 1 0.. 0 (1.2) (1.3)

18 Chapitre 1. Systèmes Multi-Classifieurs Dans le cadre de ce travail, nous nous plaçons dans le cas d une classification exclusive. Construire un classifieur consiste alors à construire un estimateur e(x) de D(x). Dans [Moobed, 1996], le classifieur est défini comme étant tout système de traitement de données qui reçoit une forme x et donne des informations à propos de la classe correspondant à cette forme. Quel que soit le domaine d application pour lequel il est utilisé, la mise en oeuvre de tout classifieur nécessite de choisir d abord une représentation pour décrire les données (caractéristiques), un algorithme de décision et une base d apprentissage permettant de fixer les paramètres du classifieur. Lorsqu il est intégré dans un système de reconnaissance, le classifieur atteint certaines performances. Introduire des modifications dans le classifieur que ce soit au niveau des données qu il traite ou au niveau de ses paramètres (type de sorties, règles de décision,...) modifie ses performances. Dans le cadre de la combinaison, nous proposons de définir un classifieur comme étant un système de reconnaissance qui travaille dans un certain espace de caractéristiques, qui utilise une certaine base pour apprendre ses paramètres, qui prend sa décision à partir d une certaine règle et qui fournit en sortie un certain type de réponse. D après cette définition, deux classifieurs qui diffèrent par au moins l un de ces paramètres (espace de caractéristiques, données d apprentissage, règle de décision et type de sortie) ne donnent pas les mêmes résultats et sont donc considérés comme différents. Si l on fait abstraction de son architecture interne, le classifieur e j est vu comme une boîte noire qui reçoit en entrée un ensemble de caractéristiques et qui fournit en sortie une réponse à propos de la forme à reconnaître (on se place ici dans l hypothèse d une classification exclusive avec laquelle un classifieur e(x) sera d autant meilleur que sa réponse se rapprochera de la vraie classe). Selon Xu [Xu et al., 1992], cette réponse peut être divisée en trois catégories suivant le niveau d information apporté par le classifieur, catégorisation également adoptée dans la majorité des travaux [Jain et al., 2000, Ruta and Gabrys, 2000]: type classe : e j (x) = C i,i {1,...,N} (1.4) C i est la classe attribuée par le classifieur e j à x. Dans ce cas, l avis du classifieur est binaire. On peut alors représenter la réponse du classifieur par un vecteur binaire dans lequel 1 indique la classe proposée par le classifieur. Un classifieur peut aussi produire un ensemble de classes. Il considère alors que la forme x appartient à une des classes de cet

1.2. Combinaison de classifieurs 19 ensemble sans donner d autres informations permettant de discriminer les classes. type rang : e j (x) = (r 1,j,r 2,j,...,r N,j ) (1.5) r i,j est le rang attribué à la classe C i par le classifieur e j. Il s agit d un classement sur les classes. Le classifieur indique ce classement en fournissant en sortie un vecteur des rangs de taille N. La classe placée au premier rang de la liste proposée par le classifieur est considérée comme la plus probable pour la forme x et la classe du dernier rang est la moins probable. type mesure : e j (x) = (m 1,j,m 2,j,...,m N,j ) (1.6) m i,j est la mesure attribuée à la classe i par le classifieur e j. Elle indique le niveau de confiance du classifieur dans sa proposition. La sortie du classifieur est donc un vecteur de mesures de taille N. Cette mesure, nomalisée ou non, peut être une distance, une probabilité a posteriori, une valeur de confiance, un score, une fonction de croyance, une possibilité, une crédibilité, une mesure floue, etc. Parfois, le classifieur est incapable de conclure sur la classe de la forme à reconnaître (la forme x peut appartenir à plusieurs classes). Les informations mises à sa disposition ne lui permettent pas de choisir une classe ou un sous-ensemble de classes parmi les classes disponibles. On dit alors que le classifieur rejette (rejet d ambiguïté). Ce problème est différent du rejet de formes aberrantes pour lequel le classifieur ne sait pas conclure parce que la forme x n appartient à aucune classe parmi les classes disponibles. Nous noterons par la suite C N+1 la classe associée au rejet (pour un problème à N classes). Chaque type de sortie (classe, rang ou mesure) correspond à un niveau d information différent fourni par le classifieur. La sortie de type classe est la plus simple mais la moins riche en information. La sortie de type rang reflète l ordre de préférence des propositions fournies par le classifieur. La sortie de type mesure est la plus riche en information puisqu elle reflète le niveau de confiance du classifieur dans ses propositions. Lorsque les sorties sont de type rang ou de type mesure, on peut évidemment les transformer en type classe (avec perte d informations). Ceci consiste à tenir compte uniquement de la première solution de la liste proposée par chaque classifieur. Pour le type rang, il suffit de choisir la classe qui est placée au premier rang. Les autres classes ne seront pas prises en compte. Pour le

20 Chapitre 1. Systèmes Multi-Classifieurs type mesure, il suffit de choisir la classe ayant la meilleure mesure (valeur minimale ou maximale, selon que la mesure est croissante ou décroissante). 1.2.2 Stratégies de combinaison La multiplication des travaux sur la combinaison a entraîné la mise au point de nombreux schémas traitant les données de manières différentes [Heutte, 1994, Moobed, 1996, Rahman and Fairhurst, 1999]. Trois approches pour la combinaison de classifieurs peuvent être envisagées: parallèle, séquentielle et hybride. D autres organisations avec bouclage ou avec interaction sont aussi possibles [Vuurpijl and Schomaker, 1998]. Mais, malgré la diversité des schémas de combinaison, la détermination de la meilleure organisation reste un problème ouvert. Approche séquentielle La combinaison séquentielle, appelée également combinaison série, est organisée en niveaux successifs de décision permettant de réduire progressivement le nombre de classes possibles. Dans chaque niveau, il existe un seul classifieur qui prend en compte la réponse fournie par le classifieur placé en amont afin de traiter les rejets ou confirmer la décision obtenue sur la forme qui lui est présentée (figure 1.1). Une telle approche peut être vue comme un filtrage Fig. 1.1 Combinaison séquentielle de classifieurs progressif des décisions dans la mesure où elle permet de diminuer au fur et à mesure l ambiguïté sur la classe proposée. Cela permet généralement de diminuer le taux d erreur globale de la chaîne de reconnaissance. Néanmoins, une combinaison de ce type demeure particulièrement sensible à l ordre dans lequel sont placés les classifieurs. En effet, même s ils ne nécessitent pas d être les plus performants, les premiers classifieurs invoqués doivent être robustes, c est-à-dire que la solution réelle de la forme à identifier doit apparaître dans les listes successives quelle que soit leur taille. En cas de mauvaise décision du premier classifieur, placé en amont de la série des classifieurs utilisés, l erreur

1.2. Combinaison de classifieurs 21 va se propager de façon irrévocable. Il faudra donc choisir judicieusement le premier classifieur afin d éviter - autant que possible - l apparition d une telle situation. La combinaison séquentielle suppose donc une certaine connaissance a priori du comportement de chacun des classifieurs. Notons que dans cette approche, chaque classifieur est réglé en fonction du classifieur placé en amont de la chaîne. Une simple modification du premier classifieur peut provoquer un ré-paramétrage (ré-apprentissage) des classifieurs suivants. Le but ici n est pas de décrire en détail les systèmes de combinaison séquentielle. Nous présentons maintenant deux exemples qui illustrent leur principe de fonctionnement. On pourra se référer à [Rahman and Fairhurst, 2003] pour un panorama récent et assez complet de ces approches. L approche proposée dans [Gader et al., 1991] est basée sur trois étages de décision. Les deux premiers étages mettent en euvre une comparaison directe du caractère à reconnaître avec l ensemble des modèles, permettent de classer 70 à 80% des chiffres avec un taux d erreur faible et sont capables de générer des décisions sur les classes d appartenance des chiffres rejetés. Lorsque ces étages ne peuvent pas conclure, ils fournissent une liste d hypothèses au dernier niveau de décision pour chercher le modèle dans une liste prédéfinie de modèles syntaxiques. Récemment, Prevost et al. [Prevost et al., 2003] présentent un système composé de deux étages pour améliorer la reconnaissance de caractères manuscrits. Le premier étage est un classifieur non supervisé qui fournit des scores à chacune des classes. Le second étage est un classifieur neuronal qui sépare les paires de classes les plus ambigues. Ce système séquentiel est basée sur l idée que la classe correcte est systématiquement parmi les deux premières classes (celles ayant les probabilités les plus élevées) proposées par le premier classifieur. Les résultats expérimentaux montrent une amélioration de 30% par rapport à chacun des classifieurs utilisés pour une réponse de type classe dans un problème à 62 classes. Approche parallèle A la différence de l approche séquentielle, l approche parallèle laisse dans un premier temps les différents classifieurs opérer indépendamment les uns des autres puis fusionne leurs réponses respectives. Cette fusion est faite soit de manière démocratique, dans le sens où elle ne favorise aucun classifieur par rapport à un autre, soit au contraire dirigée et, dans ce cas, on attribue à la réponse de chaque classifieur un poids en fonction de ses performances. L ordre d exécution des classifieurs n intervient pas dans cette approche. La

22 Chapitre 1. Systèmes Multi-Classifieurs figure 1.2 fournit une représentation de la combinaison parallèle de classifieurs. Fig. 1.2 Combinaison parallèle de classifieurs L inconvénient majeur de l approche parallèle est qu elle nécessite l activation de tous les classifieurs du système qui doivent participer de manière concurrente et indépendante. Par contre, la décision finale est prise avec le maximum de connaissances mises à disposition par chaque classifieur. Dès lors se posent les problèmes de précision des informations fournies par les classifieurs et de la confiance qu on peut accorder à chacun d eux. L approche proposée dans [Huang et al., 1995] nécessite que chacun des classifieurs fournisse une confiance (probabilité ou distance) associée à chaque proposition ou classe. La décision finale est prise dans un réseau de neurones à partir de la combinaison des différents résultats fournis par les classifieurs. Pour améliorer la reconnaissance de mots, Kim et al. [Kim et al., 2000] proposent de combiner deux classifieurs, l un de type HMM (Hidden Markov Model), l autre de type MLP (Multi-Layer Perceptron). L idée ici est que pour augmenter la complémentarité, les classifieurs doivent opérer avec des structures différentes. Les sorties du classifieur HMM sont normalisées avant la combinaison pour pouvoir les fusionner avec les sorties du MLP. Approche hybride L approche hybride consiste à combiner à la fois des architectures séquentielles et parallèles afin de tirer pleinement avantage de chacun des classifieurs utilisés. La figure 1.3 présente un exemple de combinaison hybride dans laquelle on combine un classifieur en série avec deux classifieurs en parallèle.

1.2. Combinaison de classifieurs 23 Ce type d approche permet de générer de nombreux schémas de coopération qui peuvent rapidement devenir complexes à optimiser. Il illustre les deux aspects de la combinaison qui sont d une part la réduction de l ensemble des classes possibles et d autres part la recherche d un consensus entre les classifieurs afin d aboutir à une décision unique. On peut citer dans ce cadre, les travaux de Kim [Kim et al., 2000] qui Fig. 1.3 Combinaison hybride de classifieurs propose un système de reconnaissance de mots cursifs anglais extraits des chèques bancaires. Ce système hybride est composé de deux étages. Dans le premier étage, deux classifieurs (PMC) utilisant des vecteurs de caractéristiques différents sont combinés par un autre classifieur de même type. La coopération de ce dernier avec un autre classifieur de type HMM est réalisée dans l étage suivant par une règle de multiplication. Un autre exemple est celui présenté dans [Bellili et al., 2002]. Il décrit un système de reconnaissance de chiffres manuscrits par combinaison hybride de réseaux neuronaux de type MLP et de machines à vecteurs de support SVM. Cette méthode de combinaison consiste à introduire des classifieurs SVM spécialisés pour chaque paire de classes numériques (0 à 9) uniquement dans le voisinage des surfaces de séparation générées par le réseau MLP entre les exemples d apprentissage de ces mêmes paires de classes. Cette architecture de combinaison est fondée sur la constatation que les deux premières solutions de la couche de sortie du MLP contiennent presque systématiquement la bonne classe de la forme à classifier et que certaines paires de classes constituent la majorité des confusions générées par le MLP. Les SVM sont introduits pour détecter la bonne classe parmi les deux meilleures hypothèses de classification fournies par le réseau. Ce choix se résume à un problème de classification à deux classes (binaire). Cependant, cette méthode peut sembler fastidieuse car elle nécessite un classifieur SVM pour chaque paire de classes. Une seconde originalité de cette méthode réside dans l introduction de SVM uniquement pour les paires de classes qui constituent la majorité des confusions (erreurs)

24 Chapitre 1. Systèmes Multi-Classifieurs du réseau MLP. Certains auteurs ont proposé d effectuer des combinaisons conditionnelles. Ainsi Gosselin [Gosselin, 1997] propose de classer les classifieurs selon leur performance et de traiter une forme inconnue par le premier classifieur. Il propose d accepter sa décision, si la forme n est pas rejetée. Dans le cas contraire, la décision sera prise suite à la combinaison du premier classifieur avec la sortie du deuxième classifieur. Le même raisonnement peut s appliquer, jusqu à ce que la forme soit classée ou que les sorties de tous les classifieurs soient combinées. Cette combinaison conditionnelle permet de réduire efficacement les temps d exécution. L inconvénient est la nécessité de fixer plusieurs seuils de rejet associés aux différents niveaux. 1.2.3 Conclusion De nombreux travaux montrent que la combinaison de classifieurs (séquentielle, parallèle ou hybride) améliore nettement les performances du système de reconnaissance par rapport à chacun des classifieurs pris isolément. Cependant, parmi ces différentes architectures permettant de combiner un ensemble de classifieurs donnés, l architecture parallèle est de loin celle qui a donné lieu aux travaux les plus importants. Sa simplicité de mise en oeuvre, sa capacité à exploiter les réponses des classifieurs à combiner en prenant en compte (ou non) le comportement de chacun des classifieurs et son efficacité prouvée dans de nombreux problèmes de classification expliquent son succès notamment sur l approche séquentielle pour laquelle la connaissance du comportement de chaque classifieur est nécessaire a priori pour pouvoir obtenir un schéma de coopération efficace. L intérêt porté par les chercheurs majoritairement à la combinaison parallèle de classifieurs est fondé pour plusieurs raisons: le concepteur peut ré-utiliser les développements de classifieurs effectués antérieurement, chacun pouvant avoir été développé dans un contexte différent et utiliser une représentation différente pour le même problème. Un exemple est l identification de personnes par leur voix, leur visage ainsi que par leur signature. dans la combinaison, il est possible d utiliser un grand nombre de caratéristiques mais en les distribuant sur des classifieurs différents. deux classifieurs différents peuvent présenter des performances globales équivalentes mais avoir leurs propres régions dans l espace de caractéristiques où ils sont les plus performants. un classifieur est souvent sensible aux choix initiaux de ses paramètres (k et distance pour un k-ppv, nombre de couches et de neurones par couche pour un MLP,...). Plutôt que de chercher la meilleure configu-

1.3. Combinaison parallèle de classifieurs 25 ration de paramètres, la combinaison de l ensemble peut tenir compte des avantages de ces classifieurs appris différemment. on peut avoir à notre disposition plusieurs bases d apprentissage, chacune est collectée de manière différente ou construite dans des conditions différentes. L apprentissage d un même classifieur sur ces bases peut produire des résultats différents. Ce sont ces avantages qui nous ont conduit à focaliser notre travail sur la combinaison parallèle. Nous décrivons maintenant les travaux les plus aboutis dans ce domaine. 1.3 Combinaison parallèle de classifieurs 1.3.1 Problématique de la combinaison parallèle Plusieurs systèmes de combinaison parallèle ont été développés pour différentes applications: reconnaissance d images médicales [Kittler et al., 1997] reconnaissance de chiffres [Beiraghi et al., 2000, Cao et al., 1995] [Cordella et al., 1998, Dimauro et al., 1995, Duin and Tax, 1998] [Heutte, 1994, Xu et al., 1992] reconnaissance de caractères et de mots manuscrits [Ho and Hull, 1994, Gader et al., 1996] identification de visages [Achermann and Bunke, 1996] [Brunelli and Falavigna, 1995] vérification de signatures [Zois and Anastassopoulos, 1999] [Sabourin and Genest, 1994, Bajaj and Chaudhury, 1997] reconnaissance de la parole [Chibelushi et al., 1993, Yu et al., 2000] [Chen et al., 1997] identification de formulaires [Clavier et al., 2000] classification des documents [Li and Jain, 1998], etc. Plusieurs termes ont été utilisés pour faire allusion à ces systèmes: combinaison de classifieurs [Lam and Suen, 1994, Kittler et al., 1998, ElMalek et al., 2002] fusion de classifieurs [Gader et al., 1996, Cho and Kim, 1995, Bloch, 1996] mixture d experts [Jacobs et al., 1991, Jordan and Xu, 1995] comité de classifieurs [Bishop, 1995, Drucker et al., 1994, Aksela, 2003]

26 Chapitre 1. Systèmes Multi-Classifieurs agrégation de consensus [Benediktsson et al., 1997] sélection de classifieurs [Woods et al., 1997, Kuncheva, 1993] ensemble de classifieurs [Hansen and Salamon, 1990, Filippi et al., 1994] système multi-experts [Cordella et al., 1998] système modulaire [Chiang and Fu, 1994, Sharkey, 1999] groupe de classifieurs [Cranor, 1996] etc. De manière générale, les systèmes de combinaison peuvent être divisés en deux groupes selon la façon dont on traite les classifieurs. Dans la combinaison, on peut fusionner ou sélectionner les classifieurs. La fusion (appelée aussi aggrégation) suppose la présence de tous les classifieurs dans la prise de décision. Dans un système de fusion, chaque classifieur participe de manière indépendante sur le même problème et les sorties de tous les classifieurs sont combinées par un certain opérateur de combinaison [Hansen and Salamon, 1990]. Les notions d ensemble, groupe et comité sont très utilisées pour faire référence au système de fusion. La sélection suppose qu on peut obtenir de meilleures performances en choisissant un sous-ensemble de classifieurs parmi l ensemble disponible [Kuncheva, 2002, Giacinto, 1998]. Cette sélection peut être statique ou dynamique. Les systèmes modulaires se basent sur ce principe. Dans ce type d approche, le problème à traiter est tout d abord divisé en sous-problèmes. Chaque classifieur ou module se spécialise dans un sous-problème d où le nom expert. Contrairement à l approche d ensemble, les classifieurs ne sont pas nécessairement performants pour toutes les données, mais seulement dans leurs régions d expertise. En ce qui concerne l aggrégation de classifieurs, le problème peut se poser de la manière suivante: étant donné un ensemble de L classifieurs, participant de manière indépendante sur le même problème de classification, comment peut-on élaborer une réponse finale à partir des résultats de ces classifieurs? Ce problème nécessite l utilisation d un module de fusion pour élaborer une décision finale. Considérons un système composé d un ensemble de L classifieurs. Pour reconnaître une forme x, chaque classifieur e j produit une réponse sous forme d un vecteur e j (x) = [e 1,j (x),..., e N,j (x)] T. La composante e i,j (x) indique que le classifieur e j a attribué à la forme x la classe C i parmi l ensemble de N classes possibles (i=1,..., N). Cette réponse peut être de type classe, rang ou mesure. Nous pouvons représenter toutes les décisions des classifieurs sous

1.3. Combinaison parallèle de classifieurs 27 forme d une matrice MD(x) = [e 1 (x),..., e L (x)] qui représente les réponses de l ensemble des classifieurs pour une forme x. Chaque ligne i de cette matrice représente la réponse de tous les classifieurs concernant la classe C i. Chaque colonne j représente le vecteur de réponses d un classifieur e j. Il s agit de l espace intermédiaire de caractéristiques du module de combinaison E. Fig. 1.4 Espace de caractéristiques des méthodes de combinaison La décision de fusion peut alors être obtenue par : E(x) = f(e 1,...,e L ) (1.7) f est appelé opérateur de combinaison ou d agrégation. Il existe de nombreux opérateurs de combinaison. Pour pouvoir les comparer, plusieurs catégorisations ont été proposées dans la littérature. Nous les passons maintenant en revue. 1.3.2 Taxonomies des méthodes de combinaison Différentes taxonomies des méthodes de combinaison ont été proposées dans la littérature [Duin and Tax, 2000, Ho, 1992, Kuncheva et al., 2001] [Jain et al., 2000, Moobed, 1996, Ruta and Gabrys, 2000, Xu et al., 1992]. Suivant les auteurs, les taxonomies mettent en avant le type de sorties des classifieurs combinés, la capacité d apprentissage des méthodes de combinaison ou les stratégies de combinaison choisies. D autres critères comme la nature des classifieurs sont aussi utilisés [Rahman and Fairhurst, 2003]. Xu [Xu et al., 1992] distingue les méthodes de combinaison uniquement par le type de sorties des classifieurs (classe, rang, mesure) présentées en entrée de la combinaison. Le type de sorties des classifieurs est un critère qui apparaît pratiquement dans toutes les taxonomies présentées dans la littérature. La prise en compte de ces niveaux différents d information influence directement la complexité des méthodes de combinaison développées.

28 Chapitre 1. Systèmes Multi-Classifieurs Jain [Jain et al., 2000] construit une taxonomie suivant trois critères d égale importance : le type de sorties des classifieurs, l adaptabilité des méthodes de combinaison (capacité à exploiter l expertise des classifieurs) et leur capacité d apprentissage. Ce dernier critère est aussi utilisé par d autres chercheurs [Kuncheva et al., 2001, Roli et al., 2002a] pour séparer les méthodes de fusion. Les méthodes avec apprentissage permettent de chercher et d adapter les paramètres à utiliser dans la combinaison suivant la base des exemples disponibles. Les méthodes sans apprentissage se contentent d utiliser seulement et simplement les sorties des classifieurs sans intégrer d autres informations a priori sur les performances de chacun des classifieurs. Kuncheva [Kuncheva, 2000a] fait la différence, quant à elle, entre fusion et sélection de classifieurs. Rappelons que la fusion consiste à combiner toutes les sorties de classifieurs pour atteindre un consensus alors que la sélection consiste à choisir dynamiquement les meilleurs classifieurs (les plus complémentaires) parmi un ensemble de classifieurs possibles pour identifier la forme inconnue. Dans [Partridge and Griffith, 2002], une taxonomie hiérarchique des méthodes de combinaison est proposée. Elle consiste également à diviser au premier niveau les méthodes de fusion (appelées méthodes de sélection indifférente) des méthodes de sélection (appelées méthodes de sélection spécifique). Partridge et Griffith distinguent dans les méthodes de fusion, celles qui utilisent toutes les informations des classifieurs dans la règle de combinaison de celles qui peuvent ne tenir compte que de la sortie d un seul classifieur ou d un sousensemble de classifieurs. Les méthodes de sélection spécifique sont, quant à elles, divisées en deux groupes: les méthodes qui nécessitent la distribution d une partie de la base d apprentissage sur chacun des experts et les méthodes qui utilisent un sélectionneur gating permettant de choisir le classifieur le plus compétitif pour prendre la décision finale. Dans [Ruta and Gabrys, 2000], une autre taxonomie des méthodes de combinaison de classifieurs est proposée. Cette taxonomie est divisée en deux niveaux. Dans le premier niveau on trouve les méthodes de sélection dont le rôle est de choisir les classifieurs en fonction de certains critères (le taux de reconnaissance de l ensemble, la corrélation entre les sorties des classifieurs,...). Les sorties de ces classifieurs sont fusionnées par l une des méthodes du deuxième niveau. Ces méthodes de fusion sont classées en fonction du type des sorties de classifieurs. Les méthodes de type rang sont divisées selon la taxonomie de Ho [Ho, 1992]. Comme nous l avons vu précédemment, deux approches sont possibles: celles permettant de réduire l ensemble des classes