Vers une Optimisation de l Algorithme AntTreeStoch



Documents pareils
Laboratoire d Automatique et Productique Université de Batna, Algérie

La classification automatique de données quantitatives

Des fourmis réelles aux fourmis artificielles


Introduction au Data-Mining

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Laboratoire 4 Développement d un système intelligent

THESE. Application des algorithmes de colonies de fourmis pour l optimisation et la classification des images

Classification Automatique de messages : une approche hybride

Introduction au datamining

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Introduction au Data-Mining

L apprentissage automatique

INF6304 Interfaces Intelligentes

Intelligence des essaims (Swarm Intelligence)

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

DES FOURMIS POUR LIVRER DU MAZOUT

Deux stratégies parallèles de l'optimisation par colonie de fourmis

Apprentissage Automatique

Modélisation multi-agents - Agents réactifs

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Cours des Méthodes de Résolution Exactes Heuristiques et Métaheuristiques

Complexité et auto-organisation chez les insectes sociaux. Complexité et auto-organisation chez les insectes sociaux

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

De la fourmi réelle à la fourmi artificielle

données en connaissance et en actions?

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Big Data et Graphes : Quelques pistes de recherche

Sommaire. Introduction. I. Notions de routage a) Technologies actuelles b) Avantages et désavantages

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS. Spécialité : Systèmes Automatiques. Par CLAUDIA VICTORIA ISAZA NARVAEZ

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Pourquoi l apprentissage?

Coup de Projecteur sur les Réseaux de Neurones

Comportements Individuels Adaptatifs dans un Environnement Dynamique pour l'exploitation Collective de Ressource

Programmation linéaire

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Jean-Philippe Préaux

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Big Data et Graphes : Quelques pistes de recherche

Travaux pratiques avec RapidMiner

Agrégation des portefeuilles de contrats d assurance vie

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

Equilibrage de charge pour les grilles de calcul : classe des tâches dépendantes et indépendantes.

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Les algorithmes de fouille de données

Systèmes Multi-Agents : Modélisation et simulation informatique de comportements collectifs. Chapitre III

Actes de l'atelier. Fouille du Web. des 6èmes journées francophones. «Extraction et Gestion des Connaissances» 17 Janvier 2006 Lille

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Apprentissage statistique dans les graphes et les réseaux sociaux

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Le Collège de France crée une chaire pérenne d Informatique, Algorithmes, machines et langages, et nomme le Pr Gérard BERRY titulaire

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

La Recherche du Point Optimum de Fonctionnement d un Générateur Photovoltaïque en Utilisant les Réseaux NEURO-FLOUS

Ebauche Rapport finale

Une Approche Bio-mimétique pour la Segmentation d'images. Inspiration des Araignées Sociales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Sommaire. Introduction Définition Historique Domaine d application.2. 4.Les Travaux réalisés sur les domaines d application.

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Ordonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative

Système immunitaire artificiel

L intelligence collective des fourmis

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Formula Negator, Outil de négation de formule.

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

La Programmation Orientée Agent Les Agents Réactifs

Quels outils pour prévoir?

Les colonies de fourmis : apprentissage coopératif pour le problème du voyageur de commerce

Enjeux mathématiques et Statistiques du Big Data

CURRICULUM VITAE. Informations Personnelles

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Modélisation multi-agent d allocation des ressources : application à la maintenance

CARTOGRAPHIE EN LIGNE ET GÉNÉRALISATION

Introduction au maillage pour le calcul scientifique

Évaluation et implémentation des langages

TP 2 Réseaux. Adresses IP, routage et sous-réseaux

EXPERIMENTATIONS DE METHODES PARALLELES DE RECHERCHE D INFORMATION SUR INTERNET

Programmation parallèle et distribuée

Projet de Traitement du Signal Segmentation d images SAR

Une méthode d apprentissage pour la composition de services web

Fig.1. Structure d un AGQ

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Principe de symétrisation pour la construction d un test adaptatif

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Transcription:

Revue des Sciences et de la Technologie - RST- Volume 3 N 1 / janvier 2012 Vers une Optimisation de l Algorithme AntTreeStoch O. KADRI, H. MOUSS, A. ABDELHADI, R. MAHDAOUI Laboratoire d Automatique et Productique, Université de Batna Rue Chahid Boukhlouf 05000 Batna, ALGÉRIE ouahabk@yahoo.fr, hayet_mouss@yahoo.fr, abdelhadi.adel@yahoo.fr & mehdaoui.rafik@yahoo.fr Abstract Dans cet article, nous présentons AntTreeStoch un nouvel algorithme de classification hiérarchique et non supervisée. Cet algorithme est basé sur l auto-organisation observée chez les fourmis réelles. L émergence des déplacements et les assemblages des fourmis, basés sur la similarité entre les individus permet d identifier les états de fonctionnements d un système industriel dynamique et complexe. L algorithme offre aussi la possibilité de créer de nouvelles classes pour les données non identifiées. En effet le choix d utiliser AntTreeStoch dans notre système de diagnostic a été motivé par la possibilité d utiliser à la fois des données numériques et symboliques. Les expériences effectuées sur la base de données Iris, montrent que AntTreeStoch fournit de très bons résultats. Mots clés Colonie de fourmis, Classification hiérarchique, Diagnostic industriel, Auto-organisation, Système complexe. I. INTRODUCTION Les systèmes complexes et dynamiques possèdent un comportement non linéaire et non stable durant leurs exécutions. Il est très difficile voir impossible de modéliser ce type de système. Cette difficulté est causée par le grand nombre de variables qui caractérisent l état de fonctionnement du système. Notre travail s inscrit dans la surveillance de ce type de système et plus précisément dans la phase de diagnostic (figure 1). La fonction principale de la surveillance est de vérifier l état de fonctionnement du système. Elle est composée de deux parties qui sont la détection et le diagnostic. La phase de détection permet de déterminer l état du système comme étant normal ou anormal. La phase de diagnostic consiste à identifier les composants défaillants et de trouver les causes à partir d un ensemble de symptômes observés. D un point de vue général, la détermination des causes à partir des effets est un problème de classification. Puisque, il s agit de comparer un vecteur de données qui représente l état actuel du système avec des vecteurs références qui représentent l historique de fonctionnement du système. Le diagnostic d un système complexe et dynamique en utilisant une méthode de classification, cherche à identifier d une façon permanente l état de fonctionnement du système. Supervision Conduit Surveillance Le diagnostic La surveillance La détection Identifier les composants défaillants Trouver les causes Fig. 1 : Position de diagnostic par rapport au supervision. 125

O. Kadri, H. Mouss, A. Abdelhadi, R. Mahdaoui La classification est dite exclusive lorsque le partitionnement des objets conduit à associer chaque objet à une et une seule classe. Par contre, une classification non exclusive admet qu un objet appartienne à plusieurs classes. Sur un autre axe, on peut aussi distinguer la classification supervisée où les objets disposent d une information qui indique leurs dissimilarités. En classification non supervisée, on n utilise qu une matrice de dissimilarité. Aucune information sur la classe d un objet n est fournie à la méthode. Selon Jain et Dubes [1], on distingue dans la classification non supervisée deux types. Une méthode hiérarchique qui construit une séquence de partitions imbriquées alors qu un partitionnement ne construit qu une seule partition des données. Actuellement, plusieurs techniques sont utilisées pour résoudre le problème de classification pour le diagnostic industriel tels que les réseaux de neurones [8] et [9]. Ces techniques présentent une grande capacité dans la résolution des problèmes de diagnostic. La généralisation est le point fort des réseaux de neurones. Ils donnent de bons résultats surtout s ils sont combinés avec la logique floue. Mais, ils souffrent de quelques inconvénients. Par exemple : ils nécessitent un temps d apprentissage considérable et il faut refaire la phase d apprentissage pour augmenter la capacité du système pour reconnaître un nouvel élément. Un autre inconvénient majeur est qu il faut avoir en entrée une variété de données qui permet la reconnaissance de toutes les classes possibles. Ces inconvénients rendent leur utilisation impossible avec les systèmes dynamiques. Puisque ils n offrent pas la possibilité de reconnaître une nouvelle classe de données qu est la caractéristique essentielle de ce type de système. Les méthodes d émergences inspirées du comportement des insectes sociaux représentent un domaine intéressant d inspiration pour les systèmes informatiques [7]. Les éthologistes ont montré que les fourmis sont capables de trier divers éléments du couvain, trouver le plus court chemin entre la nourriture et le nid et même de s autoassembler en créant des structures vivantes. Ces phénomènes sont le résultat d émergence des comportements simples de chaque membre de la colonie et la communication chimique entre eux. Ces dernières années, de nombreux algorithmes ont été élaborés en se basant sur ces observations. Les premières recherches reviennent à l équipe de deneubourg en 1990 [3]. Leurs travaux consistent à utiliser les fourmis pour classer des données placées sur une grille. Un autre type d algorithmes est basé sur les échanges d odeur entre les fourmis. Ce comportement permet à chaque fourmi de s assembler selon une identification chimique. En se basant sur ces travaux, Azzag a proposé un algorithme de classification hiérarchique qui est utilisé par la suite pour la création automatique de site web portal [6]. En se basant sur ces travaux, nous proposons ici un nouvel algorithme de classification. Cet algorithme offre une meilleure classification des états fonctionnels de système, et aide l expert du procédé d identifier de nouvelles classes. AntTreeStoch exploite le mécanisme d identification chimique chez les fourmis réelles. Ce mécanisme est le résultat des interactions des fourmis entre elles-mêmes et avec l environnement externe. Il permet de créer une classification hiérarchique et non supervisée. Cette classification ne nécessite pas une partition initiale. Et elle permet de découvrir de nouvelles classes à l arrivée de nouvelles données non identifiées. Cet article va donc s articuler comme suit : la section 2 va décrire quelques algorithmes de colonies de fourmis. La section 3 présentera rapidement l algorithme de classification AntTreeStoch. La section 4 présentera notre proposition d optimisation de cet algorithme. La section 5 décrira l essentiel de notre modèle de simulation DAC. La section 6 décrira les résultats obtenus et la section 7 conclura en discutant de la nécessité d utiliser les algorithmes de colonie de fourmis pour le diagnostic industriel. Vers une Optimisation de l Algorithme AntTreeStoch 126

Vers une Optimisation de l Algorithme AntTreeStoch II. TRAVAUX EXISTANTS Holldobler et Wilson en 1990 [2] ont montré que les fourmis disposent d un système de reconnaissance basé sur l odeur de chaque fourmi. Ce système permet aux fourmis qui appartiennent au même groupe de s assembler et de rejeter les intrus. En se basant sur ces études, Labroche [10] a développé une nouvelle méthode de classification non-supervisée appelée AntClust. Le principe de l algorithme AntClust est basé sur un nombre limité des contacts directs entre les fourmis. Grâce à ces contacts, chaque fourmi tente de trouver un congénère qui a presque la même odeur. L émergence de ces contacts est la répartition des fourmis réelles sur plusieurs nids. Dans le cas des fourmis artificielles, chaque nid représente une classe de données. Grâce toujours à une fonction de similarité basée sur l odeur, les fourmis isolées sont affectées à la classe la plus similaire. AntClust a été appliqué au problème de classification des sessions de navigation des internautes pour la mesure d audience sur le web. En se basant sur le même principe, Azzag [6] a proposé un nouvel algorithme. Elle a exploité un autre comportement observé chez les fourmis réelles qui est la construction des structures vivantes. La combinaison de ces deux principes a permis de proposer un algorithme de classification hiérarchique et non supervisée appelé AntTreeStoch. Azzag a appliqué AntTreeStoch au problème de la classification hiérarchique de document afin de générer automatiquement des sites portails pour le web. Le tableau suivant présente quelques algorithmes, leurs auteurs, dates de création, principes et domaines d utilisation [3], [4], [5] et [6]. TABLE 1 : Les algorithmes de colonies de fourmis Algorithme Auteurs Principe Domaine ACO 1990 Ant System 1991 AntClass 1999 AntClust 2001 AntTree 2004 Deneubourg et ses collègues [3] Dorigo et ses collègues [4] Monmarché et ses collègues [5] Labroche [10] Azzag [6] les échanges d odeur entre les fourmis Communicat ion par phéromone La similarité et la densité d objets. les échanges d odeur entre les fourmis Construction des structures vivantes Optimisation Optimisation Classification Classification Classification O. Kadri, H. Mouss, A. Abdelhadi, R. Mahdaoui 127

O. Kadri, H. Mouss, A. Abdelhadi, R. Mahdaoui Le principe de AntTreeStoch est de placer toutes les fourmis sur un support principal qui représente la racine de l arbre. Les fourmis portent des vecteurs de données qui sont les informations à classer. Chaque fourmi peut agir de trois manières : S accrocher au support ; Se déplacer sur une autre fourmi ; S accrocher à une autre fourmi pour prolonger l arbre. Ce comportement est déterminé notamment par la similarité entre les données et la structure locale de l arbre. Il permet de construire l arbre d une manière distribuée. Le résultat final des déplacements et des accrochements des fourmis sera un arbre des données classées qu on peut interpréter de différentes manières selon le domaine étudié. Suite aux travaux de Azzag [6], nous proposons dans cet article des améliorations sur l algorithme AntTreeStoch. Les améliorations concernent le prétraitement des données utilisées lors de la phase d apprentissage, ajuster les paramètres de l algorithme suivant la nature des données de notre système et l optimisation de l arbre durant la classification de nouvelles données. III. L ALGORITHME ANTTREESTOCH A. Les grandes lignes On distingue deux phases d exécution de l algorithme. La première est la phase de préclassification qui consiste à construire un arbre de base à partir d un échantillonnage de données. L ensemble de données représente toutes les situations possibles du système. Le tri des données d entrée influe forcément sur le résultat final. Dans cette phase, le parallélisme de l algorithme est possible mais il faut prendre en considération les cas de conflue (priorité d accès). La deuxième phase est la classification des données réelles. Le parallélisme total n est pas permis mais on peut entamer la classification d une nouvelle donnée dés que la précédente a choisit une branche (une sorte de pipeline). Puisque chaque donnée est un agent qui agit d une façon autonome. B. L algorithme principal Pour classer les données, on utilise la fonction Sim(i, j) qui calcule la similarité entre deux nœuds i et j. Chaque noeud représente une donnée à classer. La valeur de la similarité est comprise entre 0 et 1. Pour les données numériques, on calcule la similarité en utilisant la distance euclidienne et pour les données symboliques, on utilise la distance de Hamming [11]. Initialisation des seuils de similarité et de dissimilarité des fourmis Tant que il existe une fourmi fi non connectée faire Fin Tant que Si sa position est le support alors Cas support Cas fourmi Fig. 2 Algorithme principal de construction d arbres par des fourmis artificielles. Vers une Optimisation de l Algorithme AntTreeStoch 128

Vers une Optimisation de l Algorithme AntTreeStoch La position de toutes les fourmis est initialisée à 0 qui désigne la racine de l arbre. Les décisions de fourmis dépendent de deux valeurs (seuil de similarité et de dissimilarité). Ces seuils sont initialisés respectivement à 1 et à 0. La première fourmi est connectée directement au support. Ensuite pour chaque fourmi fi, on distingue deux cas: C. Cas d une fourmi sur le support Pour chaque fourmi fi qui se trouve sur la racine, si fi est assez similaire à une fourmi f+ qui est connectée à la racine, fi se place sur celle-ci. Dans le cas inverse et si fi est assez dissimilaire à f+ et qu il existe un lien entrant libre sur la racine, fi se connecte à la racine. Si aucune fourmi n est connectée au support f0 alors Connecter fi à f0 Si Sim(fi, f+) SSim(fi) alors Déplacer fi vers f+ Si Sim(fi, f+) < SDissim(fi) alors Si place libre sur le support alors Finsi Connecter fi au support f0 Diminuer SSim(fi) et déplacer fi vers f+ Diminuer SSim(fi) et augmenter SDissim(fi) fi Fig. 3. Algorithme simulant le comportement d une fourmi fi en déplacement sur le support f0. S il n y a pas de place sur la racine, fi est repositionnée sur f+ en diminuant son seuil de similarité pour rendre fi plus tolérante. Enfin, si fi n est ni suffisamment similaire, ni suffisamment dissimilaire, on met à jour ses seuils en diminuant le seuil de similarité et en augmentant le seuil de dissimilarité pour la rendre plus tolérante et augmenter ses chances de se connecter à la prochaine itération la concernant. D. Cas d une fourmi placé sur une autre Lorsque une fourmi «fi» est sur une autre alors on la notera «fpos». S il y a une place sur fpos et qui sont assez similaires et fi suffisamment dissimilaire aux voisines de fpos, alors fi se connecte à fpos. S il n y a pas une place sur fpos alors fi se positionne aléatoirement sur une des voisines de fpos, dans ce cas on ne met pas à jour les seuils, ces derniers ont permis de bien localiser fi dans l arbre et en les modifiant on risquerait de mal classer fi. Maintenant, si fi est suffisamment similaire à fpos mais pas suffisamment dissimilaire aux voisines de fpos, on positionne fi aléatoirement sur une des voisines de fpos et on met à jour les seuils (de la même façon que dans le cas support) pour que fi soit plus tolérante à la prochaine itération la concernant. fi se déplace dans ce cas dans l arbre et pourra trouver un meilleur endroit pour se fixer. O. Kadri, H. Mouss, A. Abdelhadi, R. Mahdaoui 129

O. Kadri, H. Mouss, A. Abdelhadi, R. Mahdaoui Enfin si fi n est pas suffisamment similaire à fpos, on change de chemin en positionnant fi aléatoirement sur une des voisines de fpos. L algorithme se termine lorsque toutes les fourmis sont connectées. Si Sim(fi, fpos) SSim(fi) alors Si Sim(fi, f+) < SDissim(fi) alors Si nombre de liens entrants < Lmax sur fpos alors Connecter fi à fpos Déplacer fi aléatoirement vers fk Diminuer SDissim(fi), augmenter SSim(fi) et déplacer fi aléatoirement vers fk Déplacer fi aléatoirement vers fk Fig. 4 Algorithme simulant le comportement d une fourmi fi en déplacement sur une autre fourmi fpos connectée à la structure. E. Critiques et limites de AntTreeStoch Nous avons résumé les inconvénients de l algorithme AntTreeStoch dans les points suivants : L exécution séquentielle de l algorithme influe sur la qualité de classification puisque le choix de la branche qu elle va prendre une fourmi quelconque dépend des fourmis déjà classées. Donc le tri initial représente un facteur majeur à cause de l absence totale de parallélisme dans les déplacements des fourmis. Un autre point faible de AntTreeStoch est la non signification de déplacement aléatoire de fourmis dans le cas où la similarité entre la fourmi fi et f+ inférieur de seuil de disimilarité de fi. Le déplacement aléatoire de fi va l éloigner de sa zone de recherche réelle. La taille énorme de l arbre engendré par l algorithme rend son interprétation difficile voir impossible si le nombre de données d apprentissage est énorme. Aussi la croissance de la taille de l arbre rend la phase de classification très longue, ce qui contredit l objectif de l utilisation des métaheuristiques. Devant ces inconvénients, nous avons pensé d effectuer un ensemble de modifications sur l algorithme pour l adapter au type d application où le volume de données est immense. IV. L OPTIMISATION DE L ALGORITHME Pour améliorer les performances de l algorithme, nous avons proposé quelques modifications en se basant sur les critiques citées ci-dessus. Faire déplacer les fourmis d une façon parallèle qui va minimiser l influence de tri initiale sur la qualité de classification. Alors chaque fourmi exécute une seule action à la fois au lieu de tous les déplacements et les accrochages. Ici le parallélisme permet aux fourmis plus de liberté et de ne pas avoir la tendance de créer un niveau plus bas. Vers une Optimisation de l Algorithme AntTreeStoch 130

Vers une Optimisation de l Algorithme AntTreeStoch Toujours pour minimiser la taille de l arbre, nous avons ajouté un nouveau paramètre Sid qui permet d avoir plusieurs fourmis connectées à la même position.. La valeur de Sid est proche de zéro pour ne pas influer sur la qualité de classification. Pour rendre la position de chaque nœud plus significative, nous avons modifié les déplacements des fourmis en favorisant le chemin de la fourmi la plus similaire. V. LE MODELE DAC Nous avons développé DAC «Diagnosis Ant Colony», un modèle de simulation basé sur l algorithme AntTreeStoch. DAC offre une interface homme/machine qui permet à l expert de visualiser et valider la classification. Nous avons utilisé comme plateforme de développement l environnement Netlogo qui est un environnement de programmation multiagents. Notre modèle présente aussi l avantage d avertir l utilisateur en cas de déviation survenue. L utilisation de DAC comprend deux phases: la phase de préclassification et la phase de classification. A. La phase de préclassification L expert exécute DAC sur des données historiques et durant cette phase, il peut modifier les paramètres de l algorithme pour trouver la classification qui convient mieux au dynamique du système. A la fin de cette phase, il décore l arbre obtenu pour identifier les différents états détectés. Données Historiques Paramètres de Configuration Elaboration des Classes Arbre Décoré Ajuster Affecter les classes L expert B. La phase de classification Fig. 5 : La phase de préclassification. Lors de cette phase, DAC reçoit les vecteurs de données qui représentent l état fonctionnel du système. En utilisant l arbre élaboré dans la phase précédente, DAC essaye de trouver la classe qui correspond aux données d entrée. Donc, il renvoie comme résultat l un des trois messages suivants : Données représentent un bon fonctionnement du système ; Déviation est détectée ; Donnée non reconnue: dans ce cas à l expert d agir soit par la création d une nouvelle classe ou d ignorer l information jusqu'à une prochaine détection d un état similaire. Processus Données Classification Arbre Décoré Décision L expert Etat actuel Fig. 6 : La phase de classification. O. Kadri, H. Mouss, A. Abdelhadi, R. Mahdaoui 131

O. Kadri, H. Mouss, A. Abdelhadi, R. Mahdaoui A. Les données de test VI. RESULTATS EXPERIMENTAUX Les résultats obtenus par AntTreeStoch sont évalués en utilisant l ensemble Iris. Iris est une base de données introduite par Fisher en 1936. Elle est constituée de 150 enregistrements qui représentent 3 classes. Chaque enregistrement est composé de 4 éléments. L intérêt d utiliser Iris est qu on connaît à l avance la classe réelle de chaque information et donc on peut évaluer la qualité de classification de l algorithme. Nous avons utilisé un autre ensemble de données. Cet ensemble est constitué de 50 enregistrements. Ces données représentent trois modes de fonctionnement d un système. Chaque mode de fonctionnement est composé de quatre paramètres. B. Les paramètres de AntTreeStoch Comme tout autre algorithme, avant de passer à la phase de classification. Il faut fixer quelques paramètres. Ce problème représente l une des inconvénients des méthodes biomimétiques. Puisque les valeurs des paramètres sont liées au nombre d individus et la distribution des données sur la plage de représentation. Le tableau suivant présente les valeurs des paramètres de AntTreeStoch. TABLE 2 : Les Paramètres De AntTreeStoch Paramètre Valeur initiale Évolution a1 0.95 Stable a2 0.2 Stable SSim(fi) Sim moy - max (fi) SSim(fi) * a1 SDissim(fi) Sim moy - min (fi) SDissim(fi) + a2 Ces paramètres sont fixés après l exécution de plusieurs simulations en utilisant comme entrée un ensemble restreint de données. Ces paramètres permettent une bonne distribution des individus sur l arbre et accélèrent l exécution de l algotithme. C. Les mesures d évaluation Les résultats de classification obtenus par une implémentation séquentielle et une autre parallèle à base d un système multi agents sont comparés en termes de nombres de cycles de temps et de nombre de classes obtenues. Nous avons pris une autre mesure d évaluation qui est la pureté d une classe (1). Elle donne le pourcentage des données bien classées. Ct 1 p = å maxm i (1) N i= 1 où p représente la pureté d une classe, M représente la matrice de confusion et N est le nombre total de données. Et finalement, nous allons voir l influence d un nouveau paramètre qu on a introduit sur la taille de l arbre. D. Les résultats Le tableau suivant représente les résultats obtenus d une implémentation séquentielle et une Vers une Optimisation de l Algorithme AntTreeStoch 132

Vers une Optimisation de l Algorithme AntTreeStoch autre parallèle de l algorithme AntTreeStoch. Ces résultats sont évalués en utilisant la base de données Iris. Les données de la base ne sont pas triées. TABLE 3 : Résultats obtenus par une implémentation séquentielle et une autre parallèle de l'algorithme Anttreestoch Implémentation Nombre de classes Taille de l arbre Taux d erreur Nombre de mouvements Séquentielle 3 5 0.27 ± 0.1» 450 Parallèle SMA 3 5 0.31 ± 0.4» 400 D après le tableau 3, nous remarquons que l implémentation à base d un système multi agents influe négativement sur la qualité de classification avec un taux d erreur plus élevé. Mais comme prévu, l implémentation parallèle a amélioré la vitesse d exécution de l algorithme. Le tableau suivant montre le nombre de nœud et la taille de l arbre avant et après l ajout de paramètre S id. TABLE 4 : L'arbre Final Obtenu Par AntTreeStoch Avec Et Sans Le Permettre S id. Algorithme Nombre de classes Taille de l arbre Nombre de noeuds Basale 3 5 150 Variante 3 4 80 Le tableau montre que le paramètre S id réduit la taille de l arbre et le nombre de nœud. Par conséquent, le temps de reconnaissance d une nouvelle information devient relativement plus petit. Réduire la taille de l arbre va faciliter son interprétation par l expert et offre la possibilité de l exploiter par une application auxiliaire pour prédire un dysfonctionnement. VII. CONCLUSION La plupart des techniques intelligentes utilisées pour le diagnostic industriel se basent sur les algorithmes supervisés et nécessitent la préconnaissance de nombre de classes. Dans cet article, nous avons présenté un système multi agent basé sur un algorithme de colonie de fourmis appelé AntTreeStoch. Il permet une classification hiérarchique et non supervisé d états de fonctionnement. L originalité de notre travail est de réduire la taille de l arbre résultat de classification qui a permis une identification plus rapide de l état de fonctionnement. Les résultats obtenus montrent qu on peut détecter l état de fonctionnement d un système avec un taux d erreur acceptable. Donc ; il serait très intéressant d utiliser les algorithmes de colonie de fourmis pour le diagnostic industriel. VIII. REFERENCES [1] A.K. Jain, R.C. Dubes, and C.-C. Chen, "Bootstrap Techniques for Error Estimation," IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 9, pp. 628-633, 1987. [2] B Holldöbler, EO Wilson ; "The ants"; Belknap, Harvard University Press, Cambridge, Mass, 1990. O. Kadri, H. Mouss, A. Abdelhadi, R. Mahdaoui 133

O. Kadri, H. Mouss, A. Abdelhadi, R. Mahdaoui [3] Deneubourg J.-L., Aron, S., Goss, S., et Pasteels, J,-M. "The self-organizing ; exploratory pattern of the argentine ant". Journalon insect Behavior, 3: 159-168, 1990. [4] Colorni A., Dorigo M., Maniezzo V.: "An Autocatalytic Optimizing Process", Technical Report n. 91-016 Politecnico di Milano, 1991. [5] N, Monmarché, "On Data Clustering with Artificial Ants". In:Freitas AA, editor, Data Mining with Evolutionary Algorithms:Research Directions AAAI Workshop, pages 23-26. AAAI Press, 1999. [6] Salima Ouadfel, Mohamed Batouche, "An Efficient Ant Algorithm for Swarm-Based Image Clustering", Journal of Computer Science, Vol 3, p 162-167, 2007. [7] R.Mahdaoui, H. Mouss, Surveillance industrielle dynamique par les systèmes neuroflous temporels: application a un systeme de production", Conférence international en automatique, Bukhareste, 2008. [8] Zhousuo Zhang, Wei Cheng and Xiaoning Zhou, Research on Intelligent Diagnosis of Mechanical Fault Based on Ant Colony Algorithm, The Sixth International Symposium on Neural Networks, Vol 56, P 631-640 Springer Berlin / Heidelberg, 2009. [9] N. Labroche, N. Monmarché, G. Venturini, AntClust : Ant Clustering and Web Usage Mining, Genetic and Evolutionary Computation Conference (GECCO), Chicago, Il, USA, July 12-16 2003. [10] Hamming, Richard W., "Error detecting and error correcting codes", Bell System Technical Journal, 26 (2), 147 160, 1950. [11] Wilensky, U. (1999). NetLogo. http://ccl.northwestern.edu/netlogo/. Center for Connected Learning and Computer-Based Modeling, Northwestern University, Evanston, IL. Vers une Optimisation de l Algorithme AntTreeStoch 134